SMILES DC50 Dmax neg_sample ★ E3_ligase
设计线 · MODULE 05
05

数据工程
AI 知识库

AI 分子胶研发的第一个真实工程问题,是数据,不是模型。这一模块教你把散落在文献、专利和实验里的信息,整理成一套可训练、可检索、可决策的结构化资产——这才是后面所有 AI 的地基。

≈35 min预计学习
28 字段schema 范本
◐●◐○计算岗需精通
地基 · 6·7·8所有 AI 的前提
本模块核心问题
数据在哪里?怎么整理成可训练、可检索、可决策的资产?
5.1

先认清:这是工程问题,不是模型问题

AI 分子胶研发的第一个真实工程问题是数据,而不是模型。没有结构化数据,所谓 AI 只是聊天工具。

— 这句话是整条"设计线"(模块 5→6→7→8)的前提

一条最小可用的数据流水线长这样——每一步都决定了后面 AI 的上限:

数据源体系

文献、专利、实验、蛋白组学、公开数据库

抽取

抽取 (LLM)

文献/专利结构化抽取,可复现的 prompt

标准化

标准化

SMILES、assay、DC50/Dmax、ontology

入库

结构化数据库

含负样本与实验条件的 schema

应用

RAG / 建模

知识检索、SAR 总结、模型训练

5.2

必学内容

四组知识点,从源头到知识库。点击展开。

01数据源体系;文献 / 专利数据抽取;实验数据标准化

先建立数据源地图:公开数据库(MGTbind、MolGlueDB、TPDdb、PROTAC-DB 3.0 等)、文献、专利、内部实验。难点是把非结构化的文献/专利,用 LLM 抽取成结构化条目;以及把不同来源、不同条件的实验数据统一口径后才能比较。

data sourcesLLM extractionexperimental normalization
02SMILES / assay / DC50·Dmax / cell-line / ontology 标准化

标准化是数据能否被比较、被训练的关键。要统一:SMILES 标准化(同一分子的唯一表示)、assay condition 标准化(不同实验条件不可直接比)、DC50 / Dmax / time point 标准化(降解指标必须带条件)、cell line metadata(细胞系背景影响结果)、以及 E3 / substrate ontology(统一术语体系,避免同物异名)。

SMILES / InChIKeyassay conditionDC50 / Dmax / timecell line metadataE3/substrate ontology
03负样本的价值(多数公开库严重缺失,是建模偏差的主因)

这是最容易被忽视、却最致命的一点。文献只爱报"成功降解",几乎不报"试过但没降解"的负样本。结果数据库里全是阳性,模型学不到"什么不行",预测严重偏乐观。多数公开库严重缺失负样本,这正是 TPD 建模偏差的主因。你的 schema 必须给负样本留位置——这是与普通数据库拉开差距的第一刀。

negative samplesmodeling biasreport-only-success
04降解 endpoint 的特殊性;蛋白组学数据结构;LLM + RAG;schema 设计

蛋白降解的 endpoint 和传统 IC50 不一样——它是时间、剂量、细胞背景的函数,且有 hook effect、recovery 等特殊行为,数据结构要能承载这些。蛋白组学读出(多蛋白、多时间点)需要专门的结构。最后用 LLM + RAG 把这些数据变成可对话、可检索的项目知识库——但 RAG 的质量,完全取决于底层 schema 的质量。

degradation endpointproteomics structureLLM + RAGschema design
5.3

数据库核心字段 · Schema 范本

这是一套 Molecular Glue Database 的 28 字段范本,按用途分组。点击任意字段看它为什么必须存在。★ 标记的字段(负样本、实验条件类)是大多数公开库缺失、却最能体现专业性的——它们正是本模块的评估重点。

标识 分子结构 实验条件 ★ 降解读出 转化 / 决策 28 字段 · 点击查看说明

已查看 0 / 28 个字段

5.4

两个数据陷阱 · 亲手拨一下开关

为什么"负样本"和"实验条件"这么重要?下面两个开关,直观展示数据决策如何决定模型的可信度——这也是 TACK 用 3,514 个 PROTAC 验证过的结论。

陷阱一 · 只有阳性,没有负样本

negative samples

文献偏向报喜。如果数据库只收"成功降解"的条目,模型就从没见过"失败"长什么样。

当前:只收阳性数据
⚠ 模型预测严重偏乐观 — 把任何分子都判为"会降解",无法识别失败。这是 TPD 建模偏差的主因。

陷阱二 · 随机划分而非 scaffold 划分

scaffold-based cross-validation

若同一骨架的分子同时进训练集和测试集,模型其实"见过答案"——指标虚高,换个新骨架就崩。

当前:随机划分(信息泄漏)
⚠ 交叉验证指标虚高 — 信息泄漏让模型看起来很准,对真正的新分子却无效。
为什么这个模块是壁垒 · 精确引用
3,514
标准化 PROTAC
6,561
降解终点
80%+
PROTAC-DB 条目缺 DC50/Dmax

TACK 预印本标准化了 3,514 个 PROTAC 与 6,561 个降解终点,并证明:cellular context、蛋白注释与实验条件对降解活性预测至关重要;scaffold-based 交叉验证不可省略,否则信息泄漏会让指标虚高。

它虽是 PROTAC 数据集,但结论直接适用于分子胶——TPD 活性建模不能只看结构,必须把细胞背景与实验条件纳入数据体系。这就是为什么数据工程是壁垒:不是谁都愿意去标注那些"无聊"的实验条件和负样本,但正是它们决定了模型能不能用。

来源:TACK 预印本 arXiv 2605.19579;PROTAC-DB 3.0 标注缺失率为公开核对数据(截至 2026 年 5 月)
5.5

学习产出 · 可考核

过关标准:你能交出下面这套数据资产工具箱——它们一起,就是把"散落的信息"变成"可决策的资产"的全套基础设施:

Asset 01

Molecular Glue Database 模板

含负样本与实验条件字段的完整 schema(见 5.3)。

Asset 02

文献抽取 prompt

从论文结构化抽取条目的可复现提示词。

Asset 03

专利抽取 prompt

从专利抽取化合物、claim、example 的提示词。

Asset 04

SAR 自动总结模板

把一批数据自动汇成 SAR 趋势的模板。

Asset 05

项目知识库结构

LLM + RAG 可检索的项目知识库组织方式。

评估量规 · 本模块的判定标准

这套工具箱合格与否,只看两条硬标准:schema 是否包含负样本与实验条件字段(缺了就等于回到偏乐观的老路),以及 抽取流程是否可复现(换个人、换一批文献,能不能跑出一致结果)。漂亮但不可复现的抽取,等于没有抽取。

5.6

快速自测

检验你抓住了"数据先于模型"的纪律
三道判别题,选择后立即给出解析。
Q1一个团队说"我们用了最先进的 GNN,但模型对新分子总是预测不准"。最该先排查的是?
换更大的模型
多训练几个 epoch
底层数据:是否有负样本、是否标注了实验条件、是否做了 scaffold 划分
加更多 GPU
数据先于模型。本模块的第一性原理:没有结构化、含负样本、带实验条件的数据,再先进的模型也只是空中楼阁。新分子预测不准,几乎总是数据问题(缺负样本 / 信息泄漏)而非模型不够大。
Q2为什么 schema 里"必须"包含负样本字段?
否则模型只见过成功案例,会偏乐观地把什么都判为"会降解"
为了让数据库看起来更大
负样本能提高 DC50 的精度
监管要求必须有
负样本让模型学到"什么不行"。文献偏向报喜,公开库普遍缺负样本,这是 TPD 建模偏差的主因。给负样本留字段,是这套 schema 与普通数据库拉开差距的第一刀。
Q3记录一个 DC50 数值时,下面哪种做法才算合格的数据工程?
只记 DC50 的数字就够了
同时记录细胞系、时间点、assay 条件等背景——DC50 离开条件无法比较
把所有实验的 DC50 直接平均
只保留最低的那个 DC50
降解指标必须带条件。TACK 证明 cellular context 与实验条件对降解预测至关重要。脱离细胞系、时间点、assay 条件的 DC50 不可直接比较,直接平均或取最优都会引入偏差。
进度 0 / 3 · 完成三题后进入模块 6