生成一百万个分子很容易,难的是让 AI 提出值得合成的那几个。这一模块教你把生成式设计套上多重约束的"紧箍咒"——同时满足结合、降解、成药性、可合成与专利,而不是产出一堆好看却没用的结构。
docking 分数高、结构novel、看起来惊艳——但可能合成不出来、透不过膜、专利撞车,或根本不诱导降解。生成模型最擅长批量产出这类"看上去很美"。
同时通过结合、降解可能性、成药性、可合成性、选择性与专利新颖性的多重约束。数量少,但每一个都经得起"为什么是它"的追问——这才是设计的目标。
在动手筛选之前,先把这一模块的共同语言铺开。四组知识点:化学空间与筛选范式、生成式模型家族、分子胶特有的设计目标、多目标与评估陷阱。点击展开。
类药化学空间极其庞大(常被估到 10^60 量级),不可能逐个枚举合成。虚拟筛选与生成式设计的本质,是用"先验 + 约束"在这片空间里高效搜索,把候选压缩到少数值得做湿实验的分子——而不是产出更多分子。
两种范式并存:基于结构(structure-based)——有靶点或复合物结构时,做 docking、口袋匹配、结合位点分析;基于配体(ligand-based)——只有已知活性分子时,做相似性、药效团、QSAR。分子胶瞄准的是被"诱导出来的界面"而非单一天然口袋,因此两条范式往往都要用,并先用模块 6 的结构假设来约束搜索方向。
分子怎么"喂"给模型,决定了模型能做什么。三类主流表示:SMILES / SELFIES(字符串)、molecular graph(图,配 GNN)、3D 坐标 / 点云(几何模型)。SELFIES 等表示的好处是几乎总能解码出化学合法的分子。
常见生成模型:VAE、GAN、自回归 Transformer、diffusion、flow。它们的关键差别不在"谁更炫",而在能否做条件生成 / 目标导向生成——即给定约束(E3 口袋、性质区间)只采样满足条件的分子,而不是漫无目的地"画分子"。
让生成"听话"的两个机制:强化学习(把打分函数 scoring function 作为奖励去更新采样策略,REINVENT 是其代表范式)与 active learning(用湿实验结果回标、重训打分器,形成迭代)。没有打分与回标,生成模型只是个高产的"画图工具"。
普通小分子设计优化的是"分子 ↔ 靶点"的二体结合。分子胶 / 降解剂要优化的是一个三体关系:同时让分子锚定 E3(如 CRBN)、招募 neo-substrate、并让二者形成兼容且协同(cooperativity, α>1)的三元界面。结合强未必降解强——这正是模块 0、6、8 反复强调的。
与 PROTAC 不同,分子胶通常没有清晰的"两端 + linker"可以拆开来分别设计。它往往是一个小而平的分子,靠改变 E3 表面的"形状互补性"来诱导出新的蛋白-蛋白界面。这让设计更依赖对界面 / 复合物的建模(衔接模块 4 的 neo-substrate 假设与模块 6 的三元复合物结构),而不是简单拼接 warhead。
因此在生成与打分时,设计目标里必须显式包含:E3 binding、substrate recruitment、ternary interface 兼容、predicted degradation——而不只是一个亲和力分数。这也是 7.4 / 7.5 把这几项标成"机制核心维度"的原因。
上面这些目标互相冲突,不存在同时最优的分子——本质是多目标优化(Pareto),要的是平衡解,不是单项冠军。7.5 的评分器做的就是把多个维度加权折算成一个可排序的得分,但权重的选择本身就带价值判断。
可合成性必须前置:用 SAScore、逆合成感知(retrosynthesis-aware)的生成,在采样阶段就把"做不出来"的分子排除,而不是等到最后才发现漂亮分子无法合成。可合成性是设计约束,不是终点检查。
最后,警惕生成式评估里的虚高指标:validity / uniqueness / novelty 很容易刷得好看;在生成基准上的高分不等于真有用;docking 分数 ≠ 亲和力,novel ≠ 可信,数据泄漏会让模型指标虚高。唯一的 ground truth 是湿实验——这与模块 0 的反炒作一脉相承:AI 给的是优先级与假设,不是结论。
从哪里下手找分子?取决于你手上有什么信息。三条路径,各有适用前提:
从 E3(如 CRBN)的结合口袋出发,设计能锚定该口袋的分子。最经典、最依赖结构的路径。
从底物表面/degron 出发,设计能在 E3–底物之间诱导出互补界面的分子。衔接模块 4/6。
从细胞表型(如降解/抗增殖)出发反向找分子,不预设具体结合位点。适合机制未明的探索。
设计方法分两代并存:经典的结构/配体方法,与新一代的生成式/学习方法。成熟团队两者混用——经典方法稳、生成方法广。
这是分子胶设计和普通小分子最大的不同:约束特别多,而且必须同时成立——任何一条不满足,分子就出局。点击每条"打勾",体验"全满足才算数"的苛刻:
当约束都满足后,用一个加权综合评分给候选排序。下面是示例权重(总和应为 1.00)。拖动滑块改变权重,看右下方三个候选分子的排名如何实时重排——这能让你直观感到:权重不是中立的,它决定了你优先合成谁。
上面的权重是起点而非真理。任何固定权重都隐含假设,应当用团队自有的"设计—合成—测试"回路数据去回归校准,并随项目演进。把它当成可证伪的工作假设,而不是配方。
过关标准:交出一套候选分子库,沿 Top 50 → Top 10 → Top 5 逐级收敛,每个分子都附设计理由与风险说明。这个漏斗本身就是你的产出物结构: