AI 分子胶平台建设
把前十二个模块积累的知识、数据、模型、实验与决策,沉淀为一个会随每个项目持续变强的公司级系统——这是整门课的归宿。
如何把知识、数据、模型、实验与决策,变成公司级能力?
How do you turn knowledge, data, models, experiments, and decisions into a company-level capability?为什么这是终章
模块 0–12 教的是单点能力:怎么立项、怎么找 neo-substrate、怎么建结构、怎么生成分子、怎么读蛋白组学、怎么判专利。但一个团队真正的壁垒,从来不在于"会用多少工具",而在于这些能力能不能被组织成一个持续运转、越用越强的系统。
本模块回答最后一个问题:如何把这一切变成公司级能力——一个数据会沉淀、模型可复用、闭环能自转、决策有依据的平台。区别其实很简单:
- "用工具"的团队:每个项目从零开始,数据散落在个人电脑里,上一个项目的教训进不了下一个项目。
- "有平台"的团队:每个项目都在往同一个数据底座里沉淀证据,模型在更多数据上变准,SAR 与失败教训都变成可检索的资产。
这正是第 5 模块那句话的延伸——没有结构化数据,所谓 AI 只是聊天工具——也是整套课程"闭环思维"的归宿。
平台不是"买一堆工具",而是让数据、模型、实验、决策在一个闭环里互相喂养,并且每一个环节都先怀疑、再相信。
学完本模块,你应当能够
- 画出分子胶发现平台的分层架构,说清每一层产出什么、消费什么;
- 把蓝图里那条端到端数据流落到具体系统与责任人;
- 基于"开源优先、模块可换、薄 AI 层 + 厚数据底座"的原则做技术栈选型;
- 设计 design–make–test–analyze 闭环,并明确人与 AI 的分工;
- 把模块 0 的"默认怀疑"写进平台治理:溯源、版本、不确定性、Go/No-Go 触发条件;
- 判断平台何时成熟到可以对外变成 CRO 服务(第三层变现)。
把上述能力沉淀为企业可长期复用的发现平台 —— 可考核标志:能产出一份平台蓝图。
平台五层架构
蓝图里那条很长的数据流,折叠成五个层次会更好管理。每一层只对上层暴露"干净的接口",这样任何一块都可以单独升级或替换,而不必推倒重来。
先把 L0 做扎实,L1 的模型才有意义。反过来先堆模型、数据稀薄,是最常见也最贵的失败(见下方失败模式)。
端到端数据流
这是平台的"主动脉"。从情报进来,到决策出去,再把决策与实验结果回灌数据底座——它是一个环,不是一条直线。
技术栈选型
选型不是"列出最酷的工具",而是服务于上面的架构与原则。四条选型纪律:
- 开源优先,数据自主。平台的护城河是数据,不是某个供应商。优先 RDKit / PyTorch / PostgreSQL 这类开源底座,把数据主权握在自己手里。
- 模块可换。每层只暴露接口——docking 引擎、生成模型、看板框架都应能独立替换,避免被锁死在单一工具上。
- 先能用,再优化。用 Streamlit / Dash / Gradio 几天就能搭出可用看板,不要一上来就做重型前端。
- 数据集要带"标注质量"标签。下表的外部数据集是冷启动来源,但都有标注稀缺问题,入库时必须记录其可信度。
| 所属层 | 能力 | 推荐工具 |
|---|---|---|
| L0 数据底座 | 文献管理 | PubMed · Zotero · LLM 抽取 |
| L0 | 专利管理 | Google Patents · Lens · PatSnap · LLM |
| L0 | 数据库 | PostgreSQL / SQLite |
| L0 | 分子处理 | RDKit(SMILES 标准化 · 描述符) |
| L0 | 知识库 | RAG · 向量数据库 · Dify 类系统 |
| L1 模型计算 | 分子建模 | PyTorch · PyG · scikit-learn |
| L1 | docking | Vina · GNINA · 商业 CADD |
| L1 | 结构展示 | PyMOL · ChimeraX |
| L1 | 蛋白组学 | DIA-NN · MaxQuant · Perseus · R/Python |
| L2 · L3 | 可视化 / 看板 | Streamlit · Dash · Gradio |
| L2 | 自动化 | Python · Playwright · API agent |
外部数据集(冷启动来源)
自有数据积累之前,这些公开数据集可作为模型的冷启动来源。但请记住模块 0/5 的提醒:它们普遍存在标注稀缺,入库时务必标注可信度。
| 数据集 | 定位 | 入库提示 |
|---|---|---|
| MGTbind | 分子胶三大类总库(约 3,093 个分子胶,整合实验结构 + AF3 预测三元结构) | 区分降解型/非降解;预测结构 ≠ 实验证据 |
| MolGlueDB | 聚焦分子胶降解剂的开放数据库 | 招募蛋白 / 靶点 / 文献维度对齐 schema |
| TPDdb | 覆盖更广的靶向蛋白降解剂综合库 | 跨模态时统一本体(E3 / substrate) |
| PROTAC-DB 3.0 | 约 9,380 条 PROTAC 记录 | 80%+ 条目缺 DC50/Dmax → 显式标"缺标注" |
| TernaryDB | 三元复合物数据(结构 AI 训练用) | 标注解析度与来源 |
| DepMap · PDB / AlphaFold DB | 依赖性筛选 · 结构资源 | 预测结构与实验结构分开标注置信度 |
闭环与人机协同
平台不是软件,是一种工作方式。它把"谁在什么环节做什么"固化下来,让 AI 与人各司其职。核心是把单点动作连成一个会自转的环:
设计 → 合成 → 测试 → 蛋白组学 → SAR → 再设计 → ……
人机分工:谁负责判断,谁负责枚举
| 任务 | 人类负责(判断) | AI 负责(规模化) |
|---|---|---|
| 靶点判断 | 判断生物学价值 | 整理文献与数据库 |
| 分子设计 | 提出药化策略 | 枚举与筛选分子 |
| 蛋白组学 | 判断机制合理性 | 统计、聚类、画图 |
| 专利分析 | 判断法律风险 | 抽取 claim 与 example |
| BD 尽调 | 判断交易价值 | 汇总竞品与风险 |
| Go / No-Go | 做可辩护的决策 | 汇总证据 · 标注不确定性 |
AI 负责枚举、检索、统计、抽取、汇总;人负责判断生物学价值、药化策略、机制合理性、法律风险、交易价值。平台里每一个 AI 输出都必须可溯源(回到数据 + 假设),否则不能进决策。
治理:把"先怀疑"写进系统
一个能卖钱、有口碑的平台,和一个炒作机器,差别就在治理。下面六条,把模块 0 的怀疑精神变成系统级约束——不是文化口号,而是流程里硬性的闸门:
- 溯源 (provenance / lineage)。每条数据、每个预测都能回答"从哪来、谁产生、什么条件"。
- 模型登记与版本。模型版本、训练集、验证方式留痕;复现实验能精确到模型版本。
- 强制 scaffold-split 验证。防止信息泄漏导致虚高——TACK 的教训正是:小数据上经典方法(XGBoost/MLP)常优于领域专用 GNN。
- 不确定性上看板。看板展示的不是一个数,而是分布与优先级;高方差的预测排到后面再验证(不确定性思维)。
- 红队闸 (red-team gate)。任何"AI 设计成功"进入证据链前,必须过模块 0 的红队清单:对照在哪?能否盲测复现?是否做了 rescue?统计是否经得起 scaffold split?
- Go/No-Go 触发条件。决策门有事先写好的明确触发条件,而不是事后的主观倾向(模块 3/12)。
平台衡量 AI 的标准始终是:它可复现地缩小了实验空间,而不是它给出了一个好看的结果。把这条判据刻进每一层。
从平台到服务:第三层变现
平台不是终点。它是把分迪的分子胶经验"产品化—平台化—服务化"这条价值链的中间一层。三层应当互相导流、层层加价。
团队已建成可运行的"数据 — SAR — 决策"闭环,并在至少一个真实项目上跑通端到端。达到这个标志,平台才具备对外做 CRO/联合研发的底气。
课程教会客户用同一套语言和判断力 → 顾问帮客户把数据沉淀成平台 → 平台成熟后对外变成 CRO 服务。课程真正的价值不是"卖几天课",而是建立信任与方法论标准,再沿价值链向上变现。
平台建设路线图
平台不是一次买齐,而是分阶段长出来的。下面是一条务实的建设路径——顺序不能跳:先有数据底座,后面才不是空中楼阁。
选定 schema 与本体;把该项目的文献、专利、实验数据结构化入库;接入 1–2 个外部数据集冷启动。
接入文献/专利抽取、SMILES 标准化、ADMET 预测、docking;每个模型进登记表、做 scaffold-split 验证。
串起设计→合成→测试→蛋白组学→SAR→再设计;关键是让实验结果自动回灌 L0。
上 AI-SAR 看板 + Go/No-Go 门 + 红队闸 + 不确定性展示;商业/专利情报接入 L4。
沉淀 SOP、模板与项目案例复盘;把内部能力对外开放。
常见失败模式
把模块 0 的红旗用到平台上——这些是平台建设特有的、最容易踩的坑:
先堆模型、数据散在个人电脑里——最常见也最贵的坑。永远先做 L0 数据底座。
工具 ≠ 平台。没有回灌,数据不会沉淀,平台不会变强,只是一堆孤立脚本。
看板若不连 Go/No-Go 触发条件,就只是好看的报表,撑不起任何决策。
报喜不报忧、只给一个数、不能复现——这是炒作机器,不是平台。
平台是会随项目持续变强的资产。做完一个项目就荒废,等于没做。
违背证据链与数据纪律;模型在真实项目里会立刻崩。
知识自测
点选你认为正确的选项,系统会即时给出反馈与解析。
毕业产出与评分量规
一份可落地的平台蓝图。合格的蓝图应包含:
- 五层架构图,针对你公司的实际情况实例化(L0–L4 各放了什么);
- 数据底座方案:schema、ontology、溯源与版本,外部数据集冷启动清单及其标注质量评估;
- 技术栈选型:每个关键组件的 build / buy 决定与理由;
- 闭环操作模型:design–make–test–analyze 流程图 + 人/AI 的 RACI 分工;
- 决策层定义:Go/No-Go 门的触发条件 + 红队闸清单 + 不确定性如何展示;
- 建设路线图:阶段 0–4 的里程碑与"完成判据"。
评分量规(四级)
| 维度 | 1 · 未达标 | 2 · 基础 | 3 · 胜任 | 4 · 专家 |
|---|---|---|---|---|
| 架构完整性 | 只画了工具清单 | 有分层但层间接口不清 | 五层清晰、接口明确 | 五层 + 可单独升级替换的演进设计 |
| 数据治理 | 无 schema、无溯源 | 有 schema、无溯源 | schema + 溯源 + 版本齐全 | 含标注质量分级与质控闸 |
| 闭环与回灌 | 只有单向管线 | 提到闭环但无回灌机制 | 闭环含自动回灌 | 闭环 + 可观测 + 迭代度量 |
| 决策可辩护 | 看板无决策 | 有 Go/No-Go、无触发条件 | 门有明确触发条件 | 门 + 红队闸 + 不确定性整合 |
| 商业落地 | 只谈技术 | 提到服务但不连价值链 | 平台对接三层价值链 | 给出对外服务化的成熟度判据 |
本模块的认证标准是:团队建成可运行的数据 / SAR / 决策闭环(由年度顾问陪跑落地),而非个人通过测验。
衔接与结语
本模块是整门课的归宿,它把前面所有能力收束成一个系统。每一层都能追溯到前面的模块:
我们帮助团队建立 AI 赋能分子胶药物发现能力。平台真正的价值,不在于卖几天课,而在于把分子胶项目积累的经验,沉淀成一个可传播、可复制、可商业化、且诚实可靠的系统——并且在每一个环节,都先教人怀疑,再教人相信。