在画任何结构、跑任何模型、相信任何"AI 设计出分子胶"的新闻之前,先把这一课学透:先怀疑,再相信。本模块教你识别夸大、给结果做红队、区分真假阳性——这是本版课程最重要的差异化模块。
两件事各自都在风口上:分子胶被宣传为"能搞定 约 85% 不可成药蛋白"的新模态,AI 被宣传为"能理性设计出原本只能靠运气发现的分子"。把两个最热的叙事叠在一起,结果就是——每一篇新闻稿、每一张漂亮的预测结构、每一条看起来下降的曲线,都在诱导你提前相信。
但分子胶恰恰是最不该轻信表面读出的模态:它的本质是诱导邻近(见模块 1),机制链条长、断点多,而几乎每一个失败模式都会伪装成"成功"。如果不先建立一套怀疑流程,你会把假阳性当突破、把假阴性当淘汰理由,在错误的分子上烧掉整个项目的预算。
把"看到结果就推进"当成效率。真正的效率,是在投入湿实验和算力之前,先用最低成本问出"这个结果可能怎么是假的"——把怀疑前置,而不是事后复盘。
从"看起来有效"到"机制真的成立",每一层都在淘汰假信号。越早怀疑,越省钱。
大量"突破"停在 L0–L1,却被当成 L3–L4 宣传。本模块教你判断一个结论卡在哪一层。
下面是这个领域里最常见的七句"听起来对、实际越界"的话。每一条都给出原话、为什么它越界,以及你应该追问什么。点击展开。
"我们用生成模型设计出了一个全新分子胶。"
越界在哪"设计出候选分子"和"设计出能在细胞里诱导降解、机制清楚的分子胶"是两件事。生成模型擅长产出符合化学约束的结构,但分子胶成败取决于它能否诱导一个稳定且可被泛素化的三元复合物——这一步至今主要靠实验验证,不是算出来的。绝大多数已知分子胶仍是偶然发现,理性设计才刚起步。
该追问:这是"提出候选"还是"验证成药"?有没有 E3 依赖、选择性、rescue 的实验数据,还是只有一张预测图?
"AF3 给出了 glue–E3–target 复合物结构,所以机制成立。"
越界在哪AF3 在二元蛋白–配体预测上确实强,但在诱导邻近的三元复合物上仍不可靠:多项基准研究指出,它在小界面上有系统性困难,而且分数常被 Elongin B/C、DDB1 这类辅助蛋白撑大——这些蛋白贡献了界面面积,却与"胶水特异性结合"无关,于是看起来"很有信心",实则没回答关键问题。
该追问:这个高分是来自胶水诱导的真实界面,还是被骨架/辅助蛋白稀释出来的?有没有晶体结构或冷冻电镜佐证?预测的多个构象彼此一致吗?
"亲和力这么高,降解活性肯定好。"
越界在哪这是把抑制剂思维套到分子胶上。对抑制剂,结合越强往往越有效;对分子胶,binding ≠ degradation。决定降解的不是单点亲和力,而是诱导出的界面是否让底物的赖氨酸以正确姿态暴露给 E2/E3、泛素能否高效转移。结合很强却完全不降解,是常见情形。
该追问:有没有直接的降解读出(DC50 / Dmax),而不是只有结合或 docking 分数?复合物的几何是否支持泛素化?
"Western blot 上目标蛋白少了,证明降解成功。"
越界在哪蛋白量下降有很多与"诱导降解"无关的原因:转录下调、翻译抑制、细胞毒性导致的整体蛋白减少、抗体批次差异。即便确实是被降解,也未必经你以为的 E3 / 蛋白酶体途径。把"蛋白变少"直接等同于"我的分子通过目标 E3 把它降解了",是这一领域最高频的因果谬误。
该追问:蛋白酶体抑制剂能否 rescue?敲除目标 E3 后效应是否消失?底物 degron 突变后是否不再降解?是 on-target 还是整体毒性?
"加药后癌细胞死了,分子胶的疗效得到验证。"
越界在哪表型(细胞死亡、增殖抑制)未必由你想要的降解事件引起。化合物可能有脱靶毒性、命中了另一个你没注意的必需蛋白,或通过非降解机制起效。把表型直接归因于"目标降解",会让你在一条机制其实不成立的分子上继续投入。
该追问:表型与降解程度是否剂量相关?把目标蛋白回补/突变成不可降解后,表型是否消失?有没有蛋白组学排除大面积 off-target?
"高浓度时降解反而变弱,这个分子没戏,淘汰。"
越界在哪这很可能是分子胶/降解剂特有的 hook effect(钩状效应):浓度过高时,二元复合物(glue–E3 或 glue–target)压过三元复合物,把两端分别饱和、拆散了起效所需的三体结构,于是出现钟形剂量曲线。把它当"失活"淘汰,是典型的假阴性——你可能正好扔掉了一个有效分子。
该追问:是不是钟形曲线?在更低浓度区间效果是否回升?这是分子问题,还是给药浓度选错了?
"我们的降解预测模型在测试集上 AUC 0.99。"
越界在哪分子胶数据稀少、强烈偏向少数 E3(CRBN、DDB1 等)和少数明星底物。如果测试集与训练集来自同源化学骨架或同一批文献,高指标只是在记忆已知答案,对新骨架、新 E3 毫无外推力。漂亮的数字往往来自数据泄漏与分布偏差,而不是真实泛化。
该追问:划分方式是随机划分还是按骨架/时间划分?在全新 E3 或全新化学型上还成立吗?阳性样本有多少、来自几个独立来源?
怀疑不是泛泛地"多想想",而是认得出每一类具体的假信号,并知道用哪个实验去戳破它。这张表是本模块的核心工具——读后面所有模块时随时回来对照。
| 假信号 | 类型 | 它伪装成什么 | 真实原因可能是 | 戳破它的实验 |
|---|---|---|---|---|
| 结合即降解 | 假阳性 | "亲和力高,降解一定好" | 界面几何不支持泛素化;只结合不降解 | 直接测 DC50 / Dmax,而非只看结合 |
| 蛋白变少 | 假阳性 | "目标被我的分子降解了" | 转录下调 / 整体毒性 / 非目标 E3 | 蛋白酶体抑制剂 + E3 敲除 rescue |
| 细胞死亡 | 假阳性 | "降解产生了疗效" | 脱靶毒性 / 命中其它必需蛋白 | 不可降解突变体回补 + 剂量相关性 |
| 漂亮预测结构 | 假阳性 | "AF3 高分=机制确认" | 辅助蛋白撑大界面 / 小界面预测不稳 | 晶体/冷冻电镜佐证 + 构象一致性 |
| 高浓度失效 | 假阴性 | "分子失活,淘汰" | hook effect:二元复合物拆散三元 | 做完整剂量曲线,查低浓度是否回升 |
| 单时间点无降解 | 假阴性 | "没降解,没活性" | 动力学错配:测早了或测晚了 | 时间分辨降解曲线(kinetics) |
| CRISPR 命中=直接靶 | 假阳性 | "筛到的就是直接作用蛋白" | 全基因组筛同时给出间接命中 | 生化重构 + 直接结合验证 |
规律是固定的:假阳性让你在错的分子上多花钱,假阴性让你扔掉对的分子。两类错误都靠"把相关当因果之前,先做一个能让效应消失的对照实验"来防住。
本模块的过关标准:拿到任何一个"AI 分子胶成果",你能按顺序走完这五个问题,每一步都先假设它是假的,再要求证据。点击每个节点,看该步要问的关键问题。
逐个点击节点 → 点亮全部 5 个关口,即达到本模块产出要求
不是所有"AI 说"都一样可信。学会按下面三档给任何一条 AI 宣称打标签——这决定你该直接采用、谨慎当线索,还是只当假设。
本课程对"机制成立"的标准,不是任何单一漂亮数据,而是一条完整的、能被破坏实验证伪的证据链(见模块 9)。对"AI 有用"的标准,是它可复现地缩小了实验空间,而不是它给出了一个好看的结果。先怀疑,再相信——这正是从这里出发、贯穿全部 13 个模块的精神。
把"红队五问"做成可复用的核对表,贴在任何分子胶/AI 结论旁边逐条打勾——这是本模块唯一的硬产出。
给定一个结果,能说出它最可能是哪一类假阳性/假阴性,以及用哪个对照实验去戳破。
看到任何 AI 输出,先归入"放心采用 / 谨慎线索 / 仅当假设"三档,再决定下一步动作。
看到"分子胶有效""AI 设计成功",第一反应不是兴奋,而是问:它停在哪一层、最可能怎么是假的、有没有让效应消失的对照。