AI 分子胶研发的第一个真实工程问题,是数据,不是模型。这一模块教你把散落在文献、专利和实验里的信息,整理成一套可训练、可检索、可决策的结构化资产——这才是后面所有 AI 的地基。
AI 分子胶研发的第一个真实工程问题是数据,而不是模型。没有结构化数据,所谓 AI 只是聊天工具。
一条最小可用的数据流水线长这样——每一步都决定了后面 AI 的上限:
文献、专利、实验、蛋白组学、公开数据库
文献/专利结构化抽取,可复现的 prompt
SMILES、assay、DC50/Dmax、ontology
含负样本与实验条件的 schema
知识检索、SAR 总结、模型训练
四组知识点,从源头到知识库。点击展开。
先建立数据源地图:公开数据库(MGTbind、MolGlueDB、TPDdb、PROTAC-DB 3.0 等)、文献、专利、内部实验。难点是把非结构化的文献/专利,用 LLM 抽取成结构化条目;以及把不同来源、不同条件的实验数据统一口径后才能比较。
标准化是数据能否被比较、被训练的关键。要统一:SMILES 标准化(同一分子的唯一表示)、assay condition 标准化(不同实验条件不可直接比)、DC50 / Dmax / time point 标准化(降解指标必须带条件)、cell line metadata(细胞系背景影响结果)、以及 E3 / substrate ontology(统一术语体系,避免同物异名)。
这是最容易被忽视、却最致命的一点。文献只爱报"成功降解",几乎不报"试过但没降解"的负样本。结果数据库里全是阳性,模型学不到"什么不行",预测严重偏乐观。多数公开库严重缺失负样本,这正是 TPD 建模偏差的主因。你的 schema 必须给负样本留位置——这是与普通数据库拉开差距的第一刀。
蛋白降解的 endpoint 和传统 IC50 不一样——它是时间、剂量、细胞背景的函数,且有 hook effect、recovery 等特殊行为,数据结构要能承载这些。蛋白组学读出(多蛋白、多时间点)需要专门的结构。最后用 LLM + RAG 把这些数据变成可对话、可检索的项目知识库——但 RAG 的质量,完全取决于底层 schema 的质量。
这是一套 Molecular Glue Database 的 28 字段范本,按用途分组。点击任意字段看它为什么必须存在。★ 标记的字段(负样本、实验条件类)是大多数公开库缺失、却最能体现专业性的——它们正是本模块的评估重点。
已查看 0 / 28 个字段
为什么"负样本"和"实验条件"这么重要?下面两个开关,直观展示数据决策如何决定模型的可信度——这也是 TACK 用 3,514 个 PROTAC 验证过的结论。
文献偏向报喜。如果数据库只收"成功降解"的条目,模型就从没见过"失败"长什么样。
若同一骨架的分子同时进训练集和测试集,模型其实"见过答案"——指标虚高,换个新骨架就崩。
TACK 预印本标准化了 3,514 个 PROTAC 与 6,561 个降解终点,并证明:cellular context、蛋白注释与实验条件对降解活性预测至关重要;scaffold-based 交叉验证不可省略,否则信息泄漏会让指标虚高。
它虽是 PROTAC 数据集,但结论直接适用于分子胶——TPD 活性建模不能只看结构,必须把细胞背景与实验条件纳入数据体系。这就是为什么数据工程是壁垒:不是谁都愿意去标注那些"无聊"的实验条件和负样本,但正是它们决定了模型能不能用。
来源:TACK 预印本 arXiv 2605.19579;PROTAC-DB 3.0 标注缺失率为公开核对数据(截至 2026 年 5 月)过关标准:你能交出下面这套数据资产工具箱——它们一起,就是把"散落的信息"变成"可决策的资产"的全套基础设施:
含负样本与实验条件字段的完整 schema(见 5.3)。
从论文结构化抽取条目的可复现提示词。
从专利抽取化合物、claim、example 的提示词。
把一批数据自动汇成 SAR 趋势的模板。
LLM + RAG 可检索的项目知识库组织方式。
这套工具箱合格与否,只看两条硬标准:schema 是否包含负样本与实验条件字段(缺了就等于回到偏乐观的老路),以及 抽取流程是否可复现(换个人、换一批文献,能不能跑出一致结果)。漂亮但不可复现的抽取,等于没有抽取。