multi-objective filter 值得合成的少数
设计线 · MODULE 07
07

虚拟筛选与
生成式分子设计

生成一百万个分子很容易,难的是让 AI 提出值得合成的那几个。这一模块教你把生成式设计套上多重约束的"紧箍咒"——同时满足结合、降解、成药性、可合成与专利,而不是产出一堆好看却没用的结构。

≈48 min预计学习
11 约束必须同时满足
●●○○药化+计算精通
前序 · 5·6数据 + 结构
本模块核心问题
如何让 AI 提出"值得合成"的分子,而不是一堆漂亮分子?
✕ 漂亮分子
pretty but useless

docking 分数高、结构novel、看起来惊艳——但可能合成不出来、透不过膜、专利撞车,或根本不诱导降解。生成模型最擅长批量产出这类"看上去很美"。

VS · 紧箍咒
✓ 值得合成
worth making

同时通过结合、降解可能性、成药性、可合成性、选择性与专利新颖性的多重约束。数量少,但每一个都经得起"为什么是它"的追问——这才是设计的目标。

7.1

必学内容

在动手筛选之前,先把这一模块的共同语言铺开。四组知识点:化学空间与筛选范式、生成式模型家族、分子胶特有的设计目标、多目标与评估陷阱。点击展开。

01化学空间与两种筛选范式:基于结构 vs 基于配体

类药化学空间极其庞大(常被估到 10^60 量级),不可能逐个枚举合成。虚拟筛选与生成式设计的本质,是用"先验 + 约束"在这片空间里高效搜索,把候选压缩到少数值得做湿实验的分子——而不是产出更多分子。

两种范式并存:基于结构(structure-based)——有靶点或复合物结构时,做 docking、口袋匹配、结合位点分析;基于配体(ligand-based)——只有已知活性分子时,做相似性、药效团、QSAR。分子胶瞄准的是被"诱导出来的界面"而非单一天然口袋,因此两条范式往往都要用,并先用模块 6 的结构假设来约束搜索方向。

structure-basedligand-baseddockingpharmacophoresimilarityQSAR
02生成式模型家族:分子表示、模型类型、条件生成

分子怎么"喂"给模型,决定了模型能做什么。三类主流表示:SMILES / SELFIES(字符串)、molecular graph(图,配 GNN)、3D 坐标 / 点云(几何模型)。SELFIES 等表示的好处是几乎总能解码出化学合法的分子。

常见生成模型:VAE、GAN、自回归 Transformer、diffusion、flow。它们的关键差别不在"谁更炫",而在能否做条件生成 / 目标导向生成——即给定约束(E3 口袋、性质区间)只采样满足条件的分子,而不是漫无目的地"画分子"。

让生成"听话"的两个机制:强化学习(把打分函数 scoring function 作为奖励去更新采样策略,REINVENT 是其代表范式)与 active learning(用湿实验结果回标、重训打分器,形成迭代)。没有打分与回标,生成模型只是个高产的"画图工具"

SMILES / SELFIESmolecular graphdiffusionautoregressiveRL · policyactive learning
03分子胶特有的设计目标:优化的不是 binding,而是"诱导邻近"

普通小分子设计优化的是"分子 ↔ 靶点"的二体结合。分子胶 / 降解剂要优化的是一个三体关系:同时让分子锚定 E3(如 CRBN)、招募 neo-substrate、并让二者形成兼容且协同(cooperativity, α>1)的三元界面。结合强未必降解强——这正是模块 0、6、8 反复强调的。

与 PROTAC 不同,分子胶通常没有清晰的"两端 + linker"可以拆开来分别设计。它往往是一个小而平的分子,靠改变 E3 表面的"形状互补性"来诱导出新的蛋白-蛋白界面。这让设计更依赖对界面 / 复合物的建模(衔接模块 4 的 neo-substrate 假设与模块 6 的三元复合物结构),而不是简单拼接 warhead。

因此在生成与打分时,设计目标里必须显式包含:E3 binding、substrate recruitment、ternary interface 兼容、predicted degradation——而不只是一个亲和力分数。这也是 7.4 / 7.5 把这几项标成"机制核心维度"的原因。

induced proximityternary complexcooperativity αCRBNglue ≠ PROTAC
04多目标、可合成性,以及"别被生成指标骗了"

上面这些目标互相冲突,不存在同时最优的分子——本质是多目标优化(Pareto),要的是平衡解,不是单项冠军。7.5 的评分器做的就是把多个维度加权折算成一个可排序的得分,但权重的选择本身就带价值判断。

可合成性必须前置:用 SAScore、逆合成感知(retrosynthesis-aware)的生成,在采样阶段就把"做不出来"的分子排除,而不是等到最后才发现漂亮分子无法合成。可合成性是设计约束,不是终点检查

最后,警惕生成式评估里的虚高指标:validity / uniqueness / novelty 很容易刷得好看;在生成基准上的高分不等于真有用;docking 分数 ≠ 亲和力,novel ≠ 可信,数据泄漏会让模型指标虚高。唯一的 ground truth 是湿实验——这与模块 0 的反炒作一脉相承:AI 给的是优先级与假设,不是结论。

Pareto · 多目标SAScoreretrosynthesis-awarevalidity/uniqueness/noveltydocking ≠ 亲和力wet-lab = ground truth
7.2

三条筛选路径

从哪里下手找分子?取决于你手上有什么信息。三条路径,各有适用前提:

路径 01

E3 口袋驱动

E3 pocket-based

从 E3(如 CRBN)的结合口袋出发,设计能锚定该口袋的分子。最经典、最依赖结构的路径。

适用前提E3 口袋结构清楚、ligandability 好。
路径 02

底物界面驱动

substrate interface-based

从底物表面/degron 出发,设计能在 E3–底物之间诱导出互补界面的分子。衔接模块 4/6。

适用前提底物界面与 degron 已有结构/假设。
路径 03

表型驱动

phenotype-guided

从细胞表型(如降解/抗增殖)出发反向找分子,不预设具体结合位点。适合机制未明的探索。

适用前提有可靠表型读出,机制可后续解析。
7.3

方法库:经典 + 生成式

设计方法分两代并存:经典的结构/配体方法,与新一代的生成式/学习方法。成熟团队两者混用——经典方法稳、生成方法广。

经典方法 · classical
结构与配体驱动,可解释、可控,是稳妥的主力。
fragment growing scaffold hopping R-group enumeration docking pharmacophore QSAR
生成式 / 学习 · generative
能探索更大化学空间,但更需约束与验证去过滤假阳性。
GNN Transformer 分子模型 diffusion model 强化学习 RL active learning 多目标优化
7.4

设计约束 · 必须同时满足

这是分子胶设计和普通小分子最大的不同:约束特别多,而且必须同时成立——任何一条不满足,分子就出局。点击每条"打勾",体验"全满足才算数"的苛刻:

11 条约束 · 缺一不可 青色 = 分子胶特有
E3 binding
substrate recruitment
ternary interface 兼容
degradation likelihood
透膜
溶解度
代谢稳定
合成可行
选择性
毒性
专利新颖性
0 / 11 未满足
点击上方约束模拟一个候选分子逐条达标的过程。注意:就算满足了 10 条,只要差 1 条,它就不是"值得合成"的分子。
7.5

综合评分器 · 给候选排序

当约束都满足后,用一个加权综合评分给候选排序。下面是示例权重(总和应为 1.00)。拖动滑块改变权重,看右下方三个候选分子的排名如何实时重排——这能让你直观感到:权重不是中立的,它决定了你优先合成谁

综合评分权重(青色为分子胶机制核心维度) Σ = 1.00
9 个维度。机制三件套(E3 口袋/底物招募/三元界面)在示例里各占 0.15,是分子胶区别于普通小分子打分的地方。
当前权重下的候选排名(示例分子 · 加权得分)
关于权重的诚实提醒

上面的权重是起点而非真理。任何固定权重都隐含假设,应当用团队自有的"设计—合成—测试"回路数据去回归校准,并随项目演进。把它当成可证伪的工作假设,而不是配方

7.6

学习产出 · 候选分子漏斗

过关标准:交出一套候选分子库,沿 Top 50 → Top 10 → Top 5 逐级收敛,每个分子都附设计理由与风险说明。这个漏斗本身就是你的产出物结构:

50
Top 50 虚拟命中
virtual hits
综合评分 + 约束初筛
从生成/筛选结果中,按综合评分取前 50。每个都要能说清"为什么入选"——哪条路径、命中哪些约束。
▼ 加严约束 + 可合成性 + 专利核查
10
Top 10 合成候选
synthesis candidates
可合成 + 专利 + 多样性
在 50 个里筛出真正合成可行、专利无碰撞、骨架有多样性的 10 个。这一步淘汰"漂亮但做不出/撞车"的分子。
▼ 风险评估 + 机制一致性 + 优先级
5
Top 5 优先化合物
prioritized compounds
附设计理由 + 风险说明
最终 5 个进入合成。每个必须附:设计理由(为什么相信它)+ 风险说明(它可能死在哪)。没有风险说明的候选,等于没做完。
7.7

快速自测

检验你分得清"漂亮"与"值得合成"
三道判别题,选择后立即给出解析。
Q1生成模型产出一个 docking 分数极高、结构很新颖的分子。能直接把它列为优先合成候选吗?
能,docking 分数高就说明值得合成
能,结构越新颖专利空间越大
不能,还要同时满足降解可能性、成药性、可合成、选择性、专利等多重约束
不能,生成的分子一律不可信
漂亮 ≠ 值得合成。docking 高、结构新只是单点指标。分子胶候选必须同时通过 11 条约束(结合/降解/成药性/可合成/选择性/专利等),缺一出局。生成结果也并非一律不可信(选项4),而是要用约束去过滤。
Q2关于综合评分里的"权重",哪种态度正确?
权重是行业标准配方,照搬即可
权重是可证伪的工作假设,应用自有"设计-合成-测试"数据回归校准并随项目演进
权重无所谓,反正只是排序
权重一旦设定就不能再改
权重是起点而非真理。任何固定权重都隐含假设。正确做法是把它当可证伪的工作假设,用团队自有的闭环数据回归校准,随项目演进——而不是当成放之四海皆准的配方。
Q3Top 5 优先化合物清单里,有个分子只写了"设计理由",没写风险说明。评审应当?
判为未完成——每个优先化合物都必须附风险说明,指出它可能死在哪
没关系,理由充分就行
让模型再生成几个补上
风险说明是可选项
没有风险说明 = 没做完。本模块产出要求每个优先化合物同时附设计理由与风险说明。只报喜不报忧,正是模块 0 要红队掉的叙事方式;诚实标注"它可能死在哪"才是专业。
进度 0 / 3 · 完成三题后进入模块 8