AI 赋能分子胶药物发现与开发 Molecular Glue R&D Operating System
13 Capstone · 终章

AI 分子胶平台建设

Building the Molecular Glue Discovery Platform

把前十二个模块积累的知识、数据、模型、实验与决策,沉淀为一个会随每个项目持续变强的公司级系统——这是整门课的归宿。

核心问题 · Core Question

如何把知识、数据、模型、实验与决策,变成公司级能力?

How do you turn knowledge, data, models, experiments, and decisions into a company-level capability?
⏱ 建议学时 90–120 分钟 计算 / AI 精通 药化 · 生物 · BD 看懂 先修 模块 5 / 0 / 3 / 12
00 · 导言

为什么这是终章

模块 0–12 教的是单点能力:怎么立项、怎么找 neo-substrate、怎么建结构、怎么生成分子、怎么读蛋白组学、怎么判专利。但一个团队真正的壁垒,从来不在于"会用多少工具",而在于这些能力能不能被组织成一个持续运转、越用越强的系统。

本模块回答最后一个问题:如何把这一切变成公司级能力——一个数据会沉淀、模型可复用、闭环能自转、决策有依据的平台。区别其实很简单:

  • "用工具"的团队:每个项目从零开始,数据散落在个人电脑里,上一个项目的教训进不了下一个项目。
  • "有平台"的团队:每个项目都在往同一个数据底座里沉淀证据,模型在更多数据上变准,SAR 与失败教训都变成可检索的资产。

这正是第 5 模块那句话的延伸——没有结构化数据,所谓 AI 只是聊天工具——也是整套课程"闭环思维"的归宿。

一句话

平台不是"买一堆工具",而是让数据、模型、实验、决策在一个闭环里互相喂养,并且每一个环节都先怀疑、再相信。

01 · 学习目标

学完本模块,你应当能够

  • 画出分子胶发现平台的分层架构,说清每一层产出什么、消费什么;
  • 把蓝图里那条端到端数据流落到具体系统与责任人;
  • 基于"开源优先、模块可换、薄 AI 层 + 厚数据底座"的原则做技术栈选型;
  • 设计 design–make–test–analyze 闭环,并明确人与 AI 的分工;
  • 把模块 0 的"默认怀疑"写进平台治理:溯源、版本、不确定性、Go/No-Go 触发条件;
  • 判断平台何时成熟到可以对外变成 CRO 服务(第三层变现)。
对应能力 #10 · 平台化建设

把上述能力沉淀为企业可长期复用的发现平台 —— 可考核标志:能产出一份平台蓝图

13.1 · Architecture

平台五层架构

蓝图里那条很长的数据流,折叠成五个层次会更好管理。每一层只对上层暴露"干净的接口",这样任何一块都可以单独升级或替换,而不必推倒重来。

L0
数据底座 Data Foundation
结构化的文献/专利情报、化合物与 SAR、蛋白组学、ADMET/PK-PD;带 ontology/schema、来源溯源、版本与质控。这是模块 5 的成果,也是整座平台的地基。纪律:没标注的数据要标成"没标注"(如 PROTAC-DB 3.0 中 80%+ 条目缺 DC50/Dmax),而不是当成 0 或直接丢弃。
L1
模型与计算 Models & Compute
结构 AI(AF3 / 三元复合物)、docking、生成式设计、AI-SAR、ADMET 预测。所有模型进模型登记表:版本、训练数据、验证方式(必须 scaffold-split)、不确定性。模型是假设生成器,不是事实来源(模块 0/6/8)。
L2
工作流与编排 Workflow & Orchestration
把 design → make → test → proteomics → SAR → redesign 串成可自动触发的闭环;实验任务管理;agent 化的情报抓取与报告生成。
L3
决策 Decision
AI-SAR 看板、项目 Go/No-Go 系统。每个门(gate)都有明确触发条件(模块 3/12),并设一个红队闸(模块 0/9):任何"AI 成功"进入证据链之前,必须先过红队清单。
L4
情报与商业 Intelligence & Commercial
专利、竞品、BD 情报持续喂给决策层,让"科学是否成立"与"商业是否值得"同步评估,而非做完科学才发现没有商业价值。
数据与证据向上流动 决策与任务向下驱动 建设顺序:先 L0,再往上盖
设计原则 · 厚数据底座、薄 AI 层

先把 L0 做扎实,L1 的模型才有意义。反过来先堆模型、数据稀薄,是最常见也最贵的失败(见下方失败模式)。

13.2 · Data Flow

端到端数据流

这是平台的"主动脉"。从情报进来,到决策出去,再把决策与实验结果回灌数据底座——它是一个,不是一条直线。

01情报采集文献 / 专利抓取
02结构化数据库实体 · 关系 · 溯源
03化合物 / SAR 库标准化 SMILES · 活性
04蛋白组学库降解谱 · rescue
05ADMET/PK-PD 库暴露 · 组织降解
06AI 模型 · 虚拟筛选打分 + 不确定性
07生成式设计带理由的候选集
08AI-SAR 看板趋势 · 优先级
09实验任务管理合成 / 测试排程
10Go / No-Go 系统可辩护的决策
11BD / 专利 / 竞品商业价值评估
回灌闭环 (the return edge)。每一次合成与测试的结果,以及每一次 Go/No-Go 的依据,都必须自动写回 L0 数据底座。这条返回边,是平台"越用越强"的唯一来源——没有它,你拥有的只是一条一次性管线,而不是一个平台。
13.3 · Tech Stack

技术栈选型

选型不是"列出最酷的工具",而是服务于上面的架构与原则。四条选型纪律:

  • 开源优先,数据自主。平台的护城河是数据,不是某个供应商。优先 RDKit / PyTorch / PostgreSQL 这类开源底座,把数据主权握在自己手里。
  • 模块可换。每层只暴露接口——docking 引擎、生成模型、看板框架都应能独立替换,避免被锁死在单一工具上。
  • 先能用,再优化。用 Streamlit / Dash / Gradio 几天就能搭出可用看板,不要一上来就做重型前端。
  • 数据集要带"标注质量"标签。下表的外部数据集是冷启动来源,但都有标注稀缺问题,入库时必须记录其可信度。
所属层能力推荐工具
L0 数据底座文献管理PubMed · Zotero · LLM 抽取
L0专利管理Google Patents · Lens · PatSnap · LLM
L0数据库PostgreSQL / SQLite
L0分子处理RDKit(SMILES 标准化 · 描述符)
L0知识库RAG · 向量数据库 · Dify 类系统
L1 模型计算分子建模PyTorch · PyG · scikit-learn
L1dockingVina · GNINA · 商业 CADD
L1结构展示PyMOL · ChimeraX
L1蛋白组学DIA-NN · MaxQuant · Perseus · R/Python
L2 · L3可视化 / 看板Streamlit · Dash · Gradio
L2自动化Python · Playwright · API agent

外部数据集(冷启动来源)

自有数据积累之前,这些公开数据集可作为模型的冷启动来源。但请记住模块 0/5 的提醒:它们普遍存在标注稀缺,入库时务必标注可信度。

数据集定位入库提示
MGTbind分子胶三大类总库(约 3,093 个分子胶,整合实验结构 + AF3 预测三元结构)区分降解型/非降解;预测结构 ≠ 实验证据
MolGlueDB聚焦分子胶降解剂的开放数据库招募蛋白 / 靶点 / 文献维度对齐 schema
TPDdb覆盖更广的靶向蛋白降解剂综合库跨模态时统一本体(E3 / substrate)
PROTAC-DB 3.0约 9,380 条 PROTAC 记录80%+ 条目缺 DC50/Dmax → 显式标"缺标注"
TernaryDB三元复合物数据(结构 AI 训练用)标注解析度与来源
DepMap · PDB / AlphaFold DB依赖性筛选 · 结构资源预测结构与实验结构分开标注置信度
13.4 · Operating Model

闭环与人机协同

平台不是软件,是一种工作方式。它把"谁在什么环节做什么"固化下来,让 AI 与人各司其职。核心是把单点动作连成一个会自转的环:

设计 → 合成 → 测试 → 蛋白组学 → SAR → 再设计 → ……

人机分工:谁负责判断,谁负责枚举

任务人类负责(判断)AI 负责(规模化)
靶点判断判断生物学价值整理文献与数据库
分子设计提出药化策略枚举与筛选分子
蛋白组学判断机制合理性统计、聚类、画图
专利分析判断法律风险抽取 claim 与 example
BD 尽调判断交易价值汇总竞品与风险
Go / No-Go做可辩护的决策汇总证据 · 标注不确定性
协同铁律

AI 负责枚举、检索、统计、抽取、汇总;人负责判断生物学价值、药化策略、机制合理性、法律风险、交易价值。平台里每一个 AI 输出都必须可溯源(回到数据 + 假设),否则不能进决策。

13.5 · Governance

治理:把"先怀疑"写进系统

一个能卖钱、有口碑的平台,和一个炒作机器,差别就在治理。下面六条,把模块 0 的怀疑精神变成系统级约束——不是文化口号,而是流程里硬性的闸门:

  • 溯源 (provenance / lineage)。每条数据、每个预测都能回答"从哪来、谁产生、什么条件"。
  • 模型登记与版本。模型版本、训练集、验证方式留痕;复现实验能精确到模型版本。
  • 强制 scaffold-split 验证。防止信息泄漏导致虚高——TACK 的教训正是:小数据上经典方法(XGBoost/MLP)常优于领域专用 GNN。
  • 不确定性上看板。看板展示的不是一个数,而是分布与优先级;高方差的预测排到后面再验证(不确定性思维)。
  • 红队闸 (red-team gate)。任何"AI 设计成功"进入证据链前,必须过模块 0 的红队清单:对照在哪?能否盲测复现?是否做了 rescue?统计是否经得起 scaffold split?
  • Go/No-Go 触发条件。决策门有事先写好的明确触发条件,而不是事后的主观倾向(模块 3/12)。
本课程对"AI 有用"的统一判据

平台衡量 AI 的标准始终是:它可复现地缩小了实验空间,而不是它给出了一个好看的结果。把这条判据刻进每一层。

13.6 · Platform → Service

从平台到服务:第三层变现

平台不是终点。它是把分迪的分子胶经验"产品化—平台化—服务化"这条价值链的中间一层。三层应当互相导流、层层加价。

第 1 层能力公开课 / 企业内训 / 项目攻坚
交付结业证 · 专业证 · 毕业项目客户个人与团队(引流 + 现金流)
第 2 层平台 ← 本模块年度顾问陪跑,落地数据/模型/看板/决策系统
交付可运行的内部发现平台客户Biotech / 药企(高客单 · 强黏性)
第 3 层服务把平台能力对外开放为 CRO 产品
交付AI 分子胶发现服务 · 联合研发客户需要外部 capability 的团队(规模化)
平台成熟到可对外的标志(= Org 级认证)

团队已建成可运行的"数据 — SAR — 决策"闭环,并在至少一个真实项目上跑通端到端。达到这个标志,平台才具备对外做 CRO/联合研发的底气。

课程教会客户用同一套语言和判断力 → 顾问帮客户把数据沉淀成平台 → 平台成熟后对外变成 CRO 服务。课程真正的价值不是"卖几天课",而是建立信任与方法论标准,再沿价值链向上变现。

▣ · Maturity Roadmap

平台建设路线图

平台不是一次买齐,而是分阶段长出来的。下面是一条务实的建设路径——顺序不能跳:先有数据底座,后面才不是空中楼阁。

阶段 0 · 数据先行 / 数周
把一个在研项目的数据结构化入库

选定 schema 与本体;把该项目的文献、专利、实验数据结构化入库;接入 1–2 个外部数据集冷启动。

完成判据数据可检索、有溯源、有版本。
阶段 1 · 单点 AI 增强 / 1–2 月
在已有数据上接入第一批模型

接入文献/专利抽取、SMILES 标准化、ADMET 预测、docking;每个模型进登记表、做 scaffold-split 验证。

完成判据至少一个环节"可复现地缩小了实验空间"。
阶段 2 · 闭环打通 / 1 季度
把 design–make–test–analyze 串起来

串起设计→合成→测试→蛋白组学→SAR→再设计;关键是让实验结果自动回灌 L0

完成判据一个完整闭环跑过至少一轮迭代。
阶段 3 · 决策系统 / 1 季度
上看板、决策门与红队闸

上 AI-SAR 看板 + Go/No-Go 门 + 红队闸 + 不确定性展示;商业/专利情报接入 L4。

完成判据一次可辩护的 Go/No-Go 决策由平台支撑产出。
阶段 4 · 对外服务化 / 持续
把平台打包成 CRO / 联合研发产品

沉淀 SOP、模板与项目案例复盘;把内部能力对外开放。

完成判据达到 Org 级认证,能为外部客户交付。
⚠ · Failure Modes

常见失败模式

把模块 0 的红旗用到平台上——这些是平台建设特有的、最容易踩的坑:

模型先行、数据稀薄

先堆模型、数据散在个人电脑里——最常见也最贵的坑。永远先做 L0 数据底座。

买了一堆工具,没有闭环

工具 ≠ 平台。没有回灌,数据不会沉淀,平台不会变强,只是一堆孤立脚本。

看板很漂亮,但没有决策

看板若不连 Go/No-Go 触发条件,就只是好看的报表,撑不起任何决策。

AI 输出无溯源、无不确定性

报喜不报忧、只给一个数、不能复现——这是炒作机器,不是平台。

把平台当一次性项目

平台是会随项目持续变强的资产。做完一个项目就荒废,等于没做。

跨细胞系/跨条件不可复现却仍上线

违背证据链与数据纪律;模型在真实项目里会立刻崩。

? · Knowledge Check

知识自测

点选你认为正确的选项,系统会即时给出反馈与解析。

Q1
在分子胶发现平台里,应该最先建设哪一层?
正确:A。没有结构化数据,上层所有 AI 都是空中楼阁(模块 5)。建设顺序永远是"先 L0,再往上盖"。
Q2
PROTAC-DB 3.0 中 80%+ 条目缺少 DC50/Dmax 标注。入库时正确的做法是?
正确:B。标注稀缺本身就是要管理的事实。把"没标注"标成"没标注",而不是制造虚假数据或丢弃证据——这是数据治理的基本纪律。
Q3
在人机协同里,下列哪一项是 AI 的职责?
正确:C。AI 负责枚举、检索、统计、抽取、汇总;价值判断、策略与法律/交易风险由人负责。
Q4
一个"AI 设计成功"要进入项目证据链,平台应让它先通过什么?
正确:D。红队闸把模块 0 的怀疑写进流程——任何"AI 成功"必须先经得起红队清单,才能进入证据链。
Q5
平台成熟到可以对外做 CRO 服务的标志是?
正确:A。对外服务的底气来自一个跑通过真实项目的完整闭环,而不是工具数量或单点模型。
✓ · Capstone Deliverable

毕业产出与评分量规

本模块可考核产出
《AI-enabled Molecular Glue Discovery Platform Blueprint》

一份可落地的平台蓝图。合格的蓝图应包含:

  • 五层架构图,针对你公司的实际情况实例化(L0–L4 各放了什么);
  • 数据底座方案:schema、ontology、溯源与版本,外部数据集冷启动清单及其标注质量评估;
  • 技术栈选型:每个关键组件的 build / buy 决定与理由;
  • 闭环操作模型:design–make–test–analyze 流程图 + 人/AI 的 RACI 分工;
  • 决策层定义:Go/No-Go 门的触发条件 + 红队闸清单 + 不确定性如何展示;
  • 建设路线图:阶段 0–4 的里程碑与"完成判据"。

评分量规(四级)

维度1 · 未达标2 · 基础3 · 胜任4 · 专家
架构完整性只画了工具清单有分层但层间接口不清五层清晰、接口明确五层 + 可单独升级替换的演进设计
数据治理无 schema、无溯源有 schema、无溯源schema + 溯源 + 版本齐全含标注质量分级与质控闸
闭环与回灌只有单向管线提到闭环但无回灌机制闭环含自动回灌闭环 + 可观测 + 迭代度量
决策可辩护看板无决策有 Go/No-Go、无触发条件门有明确触发条件门 + 红队闸 + 不确定性整合
商业落地只谈技术提到服务但不连价值链平台对接三层价值链给出对外服务化的成熟度判据
对应认证 · 团队认证 (Org)

本模块的认证标准是:团队建成可运行的数据 / SAR / 决策闭环(由年度顾问陪跑落地),而非个人通过测验。

∞ · Integration

衔接与结语

本模块是整门课的归宿,它把前面所有能力收束成一个系统。每一层都能追溯到前面的模块:

L0 数据底座
模块 5分子胶数据工程与 AI 知识库
L1 模型与计算
模块 6/7/8结构 AI · 生成式设计 · AI-SAR · 10ADMET
证据链与红队闸
模块 0反炒作 · 9蛋白组学与机制验证
L3 决策门
模块 3立项逻辑 · 12专利 / 竞品 / BD
闭环操作模型
七种思维闭环 · 数据 · 不确定性 · 证据链
L4 向外延伸
第 7 节课程→平台→CRO 服务的三层价值链
结语 · 最终定位

我们帮助团队建立 AI 赋能分子胶药物发现能力。平台真正的价值,不在于卖几天课,而在于把分子胶项目积累的经验,沉淀成一个可传播、可复制、可商业化、且诚实可靠的系统——并且在每一个环节,都先教人怀疑,再教人相信。