模块 13 · AI 分子胶平台建设 — AI 赋能分子胶药物发现与开发

00 · 导言

为什么这是终章

模块 0–12 教的是单点能力:怎么立项、怎么找 neo-substrate、怎么建结构、怎么生成分子、怎么读蛋白组学、怎么判专利。但一个团队真正的壁垒,从来不在于"会用多少工具",而在于这些能力能不能被组织成一个持续运转、越用越强的系统。

本模块回答最后一个问题:如何把这一切变成公司级能力——一个数据会沉淀、模型可复用、闭环能自转、决策有依据的平台。区别其实很简单:

"用工具"的团队:每个项目从零开始,数据散落在个人电脑里,上一个项目的教训进不了下一个项目。
"有平台"的团队:每个项目都在往同一个数据底座里沉淀证据,模型在更多数据上变准,SAR 与失败教训都变成可检索的资产。

这正是第 5 模块那句话的延伸——没有结构化数据,所谓 AI 只是聊天工具——也是整套课程"闭环思维"的归宿。

一句话

平台不是"买一堆工具",而是让数据、模型、实验、决策在一个闭环里互相喂养,并且每一个环节都先怀疑、再相信。

01 · 学习目标

学完本模块,你应当能够

画出分子胶发现平台的分层架构,说清每一层产出什么、消费什么;
把蓝图里那条端到端数据流落到具体系统与责任人;
基于"开源优先、模块可换、薄 AI 层 + 厚数据底座"的原则做技术栈选型;
设计 design–make–test–analyze 闭环,并明确人与 AI 的分工;
把模块 0 的"默认怀疑"写进平台治理:溯源、版本、不确定性、Go/No-Go 触发条件;
判断平台何时成熟到可以对外变成 CRO 服务(第三层变现)。

对应能力 #10 · 平台化建设

把上述能力沉淀为企业可长期复用的发现平台 —— 可考核标志:能产出一份平台蓝图。

13.1 · Architecture

平台五层架构

蓝图里那条很长的数据流,折叠成五个层次会更好管理。每一层只对上层暴露"干净的接口",这样任何一块都可以单独升级或替换,而不必推倒重来。

L0
数据底座 Data Foundation
结构化的文献/专利情报、化合物与 SAR、蛋白组学、ADMET/PK-PD;带 ontology/schema、来源溯源、版本与质控。这是模块 5 的成果,也是整座平台的地基。纪律:没标注的数据要标成"没标注"(如 PROTAC-DB 3.0 中 80%+ 条目缺 DC50/Dmax),而不是当成 0 或直接丢弃。
L1
模型与计算 Models & Compute
结构 AI(AF3 / 三元复合物)、docking、生成式设计、AI-SAR、ADMET 预测。所有模型进模型登记表:版本、训练数据、验证方式(必须 scaffold-split)、不确定性。模型是假设生成器,不是事实来源(模块 0/6/8)。
L2
工作流与编排 Workflow & Orchestration
把 design → make → test → proteomics → SAR → redesign 串成可自动触发的闭环;实验任务管理;agent 化的情报抓取与报告生成。
L3
决策 Decision
AI-SAR 看板、项目 Go/No-Go 系统。每个门(gate)都有明确触发条件(模块 3/12),并设一个红队闸(模块 0/9):任何"AI 成功"进入证据链之前,必须先过红队清单。
L4
情报与商业 Intelligence & Commercial
专利、竞品、BD 情报持续喂给决策层,让"科学是否成立"与"商业是否值得"同步评估,而非做完科学才发现没有商业价值。

↑ 数据与证据向上流动 ↓ 决策与任务向下驱动 ◆ 建设顺序:先 L0,再往上盖

设计原则 · 厚数据底座、薄 AI 层

先把 L0 做扎实,L1 的模型才有意义。反过来先堆模型、数据稀薄,是最常见也最贵的失败(见下方失败模式)。

13.2 · Data Flow

端到端数据流

这是平台的"主动脉"。从情报进来,到决策出去,再把决策与实验结果回灌数据底座——它是一个环,不是一条直线。

01情报采集文献 / 专利抓取

→

02结构化数据库实体 · 关系 · 溯源

→

03化合物 / SAR 库标准化 SMILES · 活性

→

04蛋白组学库降解谱 · rescue

→

05ADMET/PK-PD 库暴露 · 组织降解

→

06AI 模型 · 虚拟筛选打分 + 不确定性

→

07生成式设计带理由的候选集

→

08AI-SAR 看板趋势 · 优先级

→

09实验任务管理合成 / 测试排程

→

10Go / No-Go 系统可辩护的决策

→

11BD / 专利 / 竞品商业价值评估

⟲

回灌闭环 (the return edge)。每一次合成与测试的结果,以及每一次 Go/No-Go 的依据,都必须自动写回 L0 数据底座。这条返回边,是平台"越用越强"的唯一来源——没有它,你拥有的只是一条一次性管线,而不是一个平台。

13.3 · Tech Stack

技术栈选型

选型不是"列出最酷的工具",而是服务于上面的架构与原则。四条选型纪律:

开源优先,数据自主。平台的护城河是数据,不是某个供应商。优先 RDKit / PyTorch / PostgreSQL 这类开源底座,把数据主权握在自己手里。
模块可换。每层只暴露接口——docking 引擎、生成模型、看板框架都应能独立替换,避免被锁死在单一工具上。
先能用,再优化。用 Streamlit / Dash / Gradio 几天就能搭出可用看板,不要一上来就做重型前端。
数据集要带"标注质量"标签。下表的外部数据集是冷启动来源,但都有标注稀缺问题,入库时必须记录其可信度。

所属层	能力	推荐工具
L0 数据底座	文献管理	`PubMed` · `Zotero` · LLM 抽取
L0	专利管理	`Google Patents` · `Lens` · `PatSnap` · LLM
L0	数据库	`PostgreSQL` / `SQLite`
L0	分子处理	`RDKit`(SMILES 标准化 · 描述符)
L0	知识库	RAG · 向量数据库 · `Dify` 类系统
L1 模型计算	分子建模	`PyTorch` · `PyG` · `scikit-learn`
L1	docking	`Vina` · `GNINA` · 商业 CADD
L1	结构展示	`PyMOL` · `ChimeraX`
L1	蛋白组学	`DIA-NN` · `MaxQuant` · `Perseus` · R/Python
L2 · L3	可视化 / 看板	`Streamlit` · `Dash` · `Gradio`
L2	自动化	`Python` · `Playwright` · API agent

外部数据集(冷启动来源)

自有数据积累之前,这些公开数据集可作为模型的冷启动来源。但请记住模块 0/5 的提醒:它们普遍存在标注稀缺,入库时务必标注可信度。

数据集	定位	入库提示
MGTbind	分子胶三大类总库(约 3,093 个分子胶,整合实验结构 + AF3 预测三元结构)	区分降解型/非降解;预测结构 ≠ 实验证据
MolGlueDB	聚焦分子胶降解剂的开放数据库	招募蛋白 / 靶点 / 文献维度对齐 schema
TPDdb	覆盖更广的靶向蛋白降解剂综合库	跨模态时统一本体(E3 / substrate)
PROTAC-DB 3.0	约 9,380 条 PROTAC 记录	80%+ 条目缺 DC50/Dmax → 显式标"缺标注"
TernaryDB	三元复合物数据(结构 AI 训练用)	标注解析度与来源
DepMap · PDB / AlphaFold DB	依赖性筛选 · 结构资源	预测结构与实验结构分开标注置信度

13.4 · Operating Model

闭环与人机协同

平台不是软件,是一种工作方式。它把"谁在什么环节做什么"固化下来,让 AI 与人各司其职。核心是把单点动作连成一个会自转的环:

设计 → 合成 → 测试 → 蛋白组学 → SAR → 再设计 → ……

人机分工:谁负责判断,谁负责枚举

任务	人类负责(判断)	AI 负责(规模化)
靶点判断	判断生物学价值	整理文献与数据库
分子设计	提出药化策略	枚举与筛选分子
蛋白组学	判断机制合理性	统计、聚类、画图
专利分析	判断法律风险	抽取 claim 与 example
BD 尽调	判断交易价值	汇总竞品与风险
Go / No-Go	做可辩护的决策	汇总证据 · 标注不确定性

协同铁律

AI 负责枚举、检索、统计、抽取、汇总;人负责判断生物学价值、药化策略、机制合理性、法律风险、交易价值。平台里每一个 AI 输出都必须可溯源(回到数据 + 假设),否则不能进决策。

13.5 · Governance

治理:把"先怀疑"写进系统

一个能卖钱、有口碑的平台,和一个炒作机器,差别就在治理。下面六条,把模块 0 的怀疑精神变成系统级约束——不是文化口号,而是流程里硬性的闸门:

溯源 (provenance / lineage)。每条数据、每个预测都能回答"从哪来、谁产生、什么条件"。
模型登记与版本。模型版本、训练集、验证方式留痕;复现实验能精确到模型版本。
强制 scaffold-split 验证。防止信息泄漏导致虚高——TACK 的教训正是:小数据上经典方法(XGBoost/MLP)常优于领域专用 GNN。
不确定性上看板。看板展示的不是一个数,而是分布与优先级;高方差的预测排到后面再验证(不确定性思维)。
红队闸 (red-team gate)。任何"AI 设计成功"进入证据链前,必须过模块 0 的红队清单:对照在哪?能否盲测复现?是否做了 rescue?统计是否经得起 scaffold split?
Go/No-Go 触发条件。决策门有事先写好的明确触发条件,而不是事后的主观倾向(模块 3/12)。

本课程对"AI 有用"的统一判据

平台衡量 AI 的标准始终是:它可复现地缩小了实验空间,而不是它给出了一个好看的结果。把这条判据刻进每一层。

13.6 · Platform → Service

从平台到服务:第三层变现

平台不是终点。它是把分迪的分子胶经验"产品化—平台化—服务化"这条价值链的中间一层。三层应当互相导流、层层加价。

第 1 层能力公开课 / 企业内训 / 项目攻坚
交付结业证 · 专业证 · 毕业项目客户个人与团队(引流 + 现金流)
第 2 层平台 ← 本模块年度顾问陪跑,落地数据/模型/看板/决策系统
交付可运行的内部发现平台客户Biotech / 药企(高客单 · 强黏性)
第 3 层服务把平台能力对外开放为 CRO 产品
交付AI 分子胶发现服务 · 联合研发客户需要外部 capability 的团队(规模化)

平台成熟到可对外的标志(= Org 级认证)

团队已建成可运行的"数据 — SAR — 决策"闭环,并在至少一个真实项目上跑通端到端。达到这个标志,平台才具备对外做 CRO/联合研发的底气。

课程教会客户用同一套语言和判断力 → 顾问帮客户把数据沉淀成平台 → 平台成熟后对外变成 CRO 服务。课程真正的价值不是"卖几天课",而是建立信任与方法论标准,再沿价值链向上变现。

▣ · Maturity Roadmap

平台建设路线图

平台不是一次买齐,而是分阶段长出来的。下面是一条务实的建设路径——顺序不能跳:先有数据底座,后面才不是空中楼阁。

阶段 0 · 数据先行 / 数周

把一个在研项目的数据结构化入库

选定 schema 与本体;把该项目的文献、专利、实验数据结构化入库;接入 1–2 个外部数据集冷启动。

完成判据数据可检索、有溯源、有版本。

阶段 1 · 单点 AI 增强 / 1–2 月

在已有数据上接入第一批模型

接入文献/专利抽取、SMILES 标准化、ADMET 预测、docking;每个模型进登记表、做 scaffold-split 验证。

完成判据至少一个环节"可复现地缩小了实验空间"。

阶段 2 · 闭环打通 / 1 季度

把 design–make–test–analyze 串起来

串起设计→合成→测试→蛋白组学→SAR→再设计;关键是让实验结果自动回灌 L0。

完成判据一个完整闭环跑过至少一轮迭代。

阶段 3 · 决策系统 / 1 季度

上看板、决策门与红队闸

上 AI-SAR 看板 + Go/No-Go 门 + 红队闸 + 不确定性展示;商业/专利情报接入 L4。

完成判据一次可辩护的 Go/No-Go 决策由平台支撑产出。

阶段 4 · 对外服务化 / 持续

把平台打包成 CRO / 联合研发产品

沉淀 SOP、模板与项目案例复盘;把内部能力对外开放。

完成判据达到 Org 级认证,能为外部客户交付。

⚠ · Failure Modes

常见失败模式

把模块 0 的红旗用到平台上——这些是平台建设特有的、最容易踩的坑:

✕模型先行、数据稀薄

先堆模型、数据散在个人电脑里——最常见也最贵的坑。永远先做 L0 数据底座。

✕买了一堆工具,没有闭环

工具 ≠ 平台。没有回灌,数据不会沉淀,平台不会变强,只是一堆孤立脚本。

✕看板很漂亮,但没有决策

看板若不连 Go/No-Go 触发条件,就只是好看的报表,撑不起任何决策。

✕AI 输出无溯源、无不确定性

报喜不报忧、只给一个数、不能复现——这是炒作机器,不是平台。

✕把平台当一次性项目

平台是会随项目持续变强的资产。做完一个项目就荒废,等于没做。

✕跨细胞系/跨条件不可复现却仍上线

违背证据链与数据纪律;模型在真实项目里会立刻崩。

? · Knowledge Check

知识自测

点选你认为正确的选项,系统会即时给出反馈与解析。

Q1

在分子胶发现平台里,应该最先建设哪一层?

正确:A。没有结构化数据,上层所有 AI 都是空中楼阁(模块 5)。建设顺序永远是"先 L0,再往上盖"。

Q2

PROTAC-DB 3.0 中 80%+ 条目缺少 DC50/Dmax 标注。入库时正确的做法是?

正确:B。标注稀缺本身就是要管理的事实。把"没标注"标成"没标注",而不是制造虚假数据或丢弃证据——这是数据治理的基本纪律。

Q3

在人机协同里,下列哪一项是 AI 的职责?

正确:C。AI 负责枚举、检索、统计、抽取、汇总;价值判断、策略与法律/交易风险由人负责。

Q4

一个"AI 设计成功"要进入项目证据链,平台应让它先通过什么?

正确:D。红队闸把模块 0 的怀疑写进流程——任何"AI 成功"必须先经得起红队清单,才能进入证据链。

Q5

平台成熟到可以对外做 CRO 服务的标志是?

正确:A。对外服务的底气来自一个跑通过真实项目的完整闭环,而不是工具数量或单点模型。

✓ · Capstone Deliverable

毕业产出与评分量规

本模块可考核产出

《AI-enabled Molecular Glue Discovery Platform Blueprint》

一份可落地的平台蓝图。合格的蓝图应包含:

五层架构图,针对你公司的实际情况实例化(L0–L4 各放了什么);
数据底座方案:schema、ontology、溯源与版本,外部数据集冷启动清单及其标注质量评估;
技术栈选型:每个关键组件的 build / buy 决定与理由;
闭环操作模型:design–make–test–analyze 流程图 + 人/AI 的 RACI 分工;
决策层定义:Go/No-Go 门的触发条件 + 红队闸清单 + 不确定性如何展示;
建设路线图:阶段 0–4 的里程碑与"完成判据"。

评分量规(四级)

维度	1 · 未达标	2 · 基础	3 · 胜任	4 · 专家
架构完整性	只画了工具清单	有分层但层间接口不清	五层清晰、接口明确	五层 + 可单独升级替换的演进设计
数据治理	无 schema、无溯源	有 schema、无溯源	schema + 溯源 + 版本齐全	含标注质量分级与质控闸
闭环与回灌	只有单向管线	提到闭环但无回灌机制	闭环含自动回灌	闭环 + 可观测 + 迭代度量
决策可辩护	看板无决策	有 Go/No-Go、无触发条件	门有明确触发条件	门 + 红队闸 + 不确定性整合
商业落地	只谈技术	提到服务但不连价值链	平台对接三层价值链	给出对外服务化的成熟度判据

对应认证 · 团队认证 (Org)

本模块的认证标准是:团队建成可运行的数据 / SAR / 决策闭环(由年度顾问陪跑落地),而非个人通过测验。

∞ · Integration

衔接与结语

本模块是整门课的归宿,它把前面所有能力收束成一个系统。每一层都能追溯到前面的模块:

L0 数据底座

模块 5分子胶数据工程与 AI 知识库

L1 模型与计算

模块 6/7/8结构 AI · 生成式设计 · AI-SAR · 10ADMET

证据链与红队闸

模块 0反炒作 · 9蛋白组学与机制验证

L3 决策门

模块 3立项逻辑 · 12专利 / 竞品 / BD

闭环操作模型

七种思维闭环 · 数据 · 不确定性 · 证据链

L4 向外延伸

第 7 节课程→平台→CRO 服务的三层价值链

结语 · 最终定位

我们帮助团队建立 AI 赋能分子胶药物发现能力。平台真正的价值,不在于卖几天课,而在于把分子胶项目积累的经验,沉淀成一个可传播、可复制、可商业化、且诚实可靠的系统——并且在每一个环节,都先教人怀疑,再教人相信。