这是我在 DisorderFlow 项目上花了大量时间的工作记录。它不是一个已经”成功”的项目,而是一个充满弯路、自我证伪与意外发现的研究旅程。
无形的敌人
阿尔茨海默病的致病蛋白 Aβ42,帕金森病的 α-突触核蛋白,ALS 中的 SOD1——它们有一个共同特征:在生理条件下没有稳定的三维结构。
这类蛋白叫 IDP(Intrinsically Disordered Protein,天然无序蛋白)。它们不像酶那样有固定的口袋可以设计抑制剂,也不像膜受体那样有清晰的表面可以挂抗体。它们更像一团雾——在溶液中不断摆动,只有在聚集成淀粉样纤维时才短暂地”凝固”出结构。
传统抗体设计依赖”抗原结构 → CDR 互补”的锁钥模型。但靶标是雾时,锁钥模型就失效了。这就是为什么阿尔茨海默抗体药物研发如此艰难——aducanumab、lecanemab、donanemab,每一个获批都伴随巨大争议,因为我们对”抗体到底结合了什么”理解得并不充分。
DisorderFlow 的切入点
DisorderFlow 是我构建的一个面向 IDP 的抗体序列设计平台。核心算法是 BFN(Bayesian Flow Network,贝叶斯流网络)。
为什么是 BFN 而不是扩散模型
用最通俗的比喻:扩散模型(如 DALL-E)像”绘画”——从一团噪声逐步生成图像,在像素空间操作。而 BFN 像”投票”——每个位置对 20 种氨基酸有不同的”偏好”,随着时间推移,偏好越来越明确,在参数空间操作。
这个区别至关重要:氨基酸序列是离散的(20 个字母),扩散模型处理连续数据时很自然,但到离散空间就需要复杂的解码。BFN 天然适配离散序列,直接输出每个位置 20 种氨基酸的概率分布。
“自带评分系统”:最大的差异化
传统反向折叠方法(如 ProteinMPNN)能给你设计一条序列,但不告诉你”这条序列有多好”。你需要另外跑 AlphaFold2 验证,流程割裂。
BFN 的 Receiver 网络在输出序列的同时,还输出三个置信度指标:
- pLDDT:每残基结构置信度(对标 AlphaFold2 的 pLDDT)
- ipTM:全局折叠置信度
- PAE:残基对预测误差矩阵
这些置信头用 AlphaFold2 的真实分数作为监督训练。相当于模型不仅帮你设计衣服,还当场告诉你”这里的缝线可能不牢固”。
WAY4:让模型”看见”抗原的无序
面向 IDP 的核心创新是 WAY4 方法——把表位的无序度作为条件注入生成器。
直觉上,我最初的假设是:高无序表位 → CDR 设计空间更大(可塑性)。因为柔性靶标应该允许多种结合方案。
但实验数据给了我一个响亮的耳光。
信号反转:一个被推翻的假设
在 V20 版本(解冻序列预测头)后,实测结果是:
| 指标 | V18(冻结) | V20(解冻) |
|---|---|---|
| CDR 唯一氨基酸数 | 5.3 | 15.9(+3倍) |
| 6-mer 重复 | 15/45 | 0/45 |
| 无序度 vs 多样性 r | -0.128(ns) | -0.449(p=0.002) |
关键在最后一行:抗原无序度越高,CDR 设计空间反而越窄(负相关,p=0.002)。
这个”反直觉”的发现,反而是项目最有价值的科学结论。生物学解释是:柔性靶标只能被少数特定的序列基序结合(就像雾只能被特定形状的网兜住),而刚性靶标反而允许多样结合方案。
这恰好呼应了博客的哲学命题:约束催生秩序。无序的靶标,以”无性之美”的方式(少数基序的精确复制),约束着抗体的设计空间;而正是这种约束,让有效的结合成为可能(有性之美般的特异性涌现)。
诚实的负面结果
DisorderFlow 最让我骄傲的不是”成功”,而是建立了资产验证铁律:每个发现都标注 [VERIFIED]/[PENDING]/[FALSIFIED]。
- Disorder head 在单一 Aβ42 上 AUC=1.0 → 标
[FALSIFIED](数据假象,样本太少)。多 IDP 均衡测试 AUC=0.47(低于随机)→ 标[VERIFIED](结论:独立预测无效,但作 conditioning 仍提供梯度)。 - V19 训练期发现 r=+0.31 → 标
[FALSIFIED](head_seq 冻结 bug 造成的 artifact)。 - IDP de novo 设计尚未突破 AF2 折叠天花板(ipTM~0.12-0.14,目标>0.3)——明确写进 Known Limitations。
科学不是只报喜不报忧。这些”失败”本身就是发现。
从计算到湿实验
最终,DisorderFlow 产出了 25 条 scFv 候选序列(VH-(G4S)3-VL-His 标签),针对 Aβ42 的 N 端、中段聚集核心 KLVFFAED、C 端三个功能性表位。
候选来源是混合策略:文献抗体 CDR-H3 嫁接(Solanezumab/Donanemab 等)+ PDB 直接提取 + 模板 seeded MPNN 重设计。每条候选都有 pliability_score、complexity、solubility、immunogenicity_risk 评分。
下一步是山东省仪器共享平台的 Octet BLI 初筛——有 hit 冲 Nat Biotech,弱 hit 投 Nat Commun,0 hit 就写一篇”固定骨架 CDR 设计对无序靶点的计算极限”的诚实负面论文。
技术栈
- 核心模型:PyTorch 2.0+,BFN + IPA(等变点注意力)+ 几何 Transformer
- 验证:ColabFold / AlphaFold2 multimer v3
- 对比基线:ProteinMPNN、ESM-IF1、DiffAb
- 物理评分:PyRosetta(ref2015)
- 平台:Gradio Web 界面(8 个 Tab),模型权重托管在 HuggingFace
写在最后
DisorderFlow 教会我一件事:研究的价值不在于”做成了什么”,而在于”诚实地知道了自己做不到什么,以及为什么”。
当一株算法试图给”雾”设计网,失败是常态。但每一次失败,都让我们更清楚地看见——无序的边界,究竟在哪里。
—— 琉卜 齐鲁工业大学(山东省科学院)
src/consts.ts 的 GISCUS 中填入 repo / repoId / categoryId 即可开启 Giscus 评论。