DisorderFlow:为"无形的敌人"设计抗体

2026年7月5日约 6 分钟

这是我在 DisorderFlow 项目上花了大量时间的工作记录。它不是一个已经”成功”的项目,而是一个充满弯路、自我证伪与意外发现的研究旅程。

无形的敌人

阿尔茨海默病的致病蛋白 Aβ42,帕金森病的 α-突触核蛋白,ALS 中的 SOD1——它们有一个共同特征:在生理条件下没有稳定的三维结构。

这类蛋白叫 IDP(Intrinsically Disordered Protein,天然无序蛋白)。它们不像酶那样有固定的口袋可以设计抑制剂,也不像膜受体那样有清晰的表面可以挂抗体。它们更像一团雾——在溶液中不断摆动,只有在聚集成淀粉样纤维时才短暂地”凝固”出结构。

传统抗体设计依赖”抗原结构 → CDR 互补”的锁钥模型。但靶标是雾时,锁钥模型就失效了。这就是为什么阿尔茨海默抗体药物研发如此艰难——aducanumab、lecanemab、donanemab,每一个获批都伴随巨大争议,因为我们对”抗体到底结合了什么”理解得并不充分。

DisorderFlow 的切入点

DisorderFlow 是我构建的一个面向 IDP 的抗体序列设计平台。核心算法是 BFN(Bayesian Flow Network,贝叶斯流网络)。

为什么是 BFN 而不是扩散模型

用最通俗的比喻:扩散模型(如 DALL-E)像”绘画”——从一团噪声逐步生成图像,在像素空间操作。而 BFN 像”投票”——每个位置对 20 种氨基酸有不同的”偏好”,随着时间推移,偏好越来越明确,在参数空间操作。

这个区别至关重要:氨基酸序列是离散的(20 个字母),扩散模型处理连续数据时很自然,但到离散空间就需要复杂的解码。BFN 天然适配离散序列,直接输出每个位置 20 种氨基酸的概率分布。

“自带评分系统”:最大的差异化

传统反向折叠方法(如 ProteinMPNN)能给你设计一条序列,但不告诉你”这条序列有多好”。你需要另外跑 AlphaFold2 验证,流程割裂。

BFN 的 Receiver 网络在输出序列的同时,还输出三个置信度指标:

pLDDT:每残基结构置信度(对标 AlphaFold2 的 pLDDT)
ipTM:全局折叠置信度
PAE:残基对预测误差矩阵

这些置信头用 AlphaFold2 的真实分数作为监督训练。相当于模型不仅帮你设计衣服,还当场告诉你”这里的缝线可能不牢固”。

WAY4:让模型”看见”抗原的无序

面向 IDP 的核心创新是 WAY4 方法——把表位的无序度作为条件注入生成器。

直觉上,我最初的假设是:高无序表位 → CDR 设计空间更大(可塑性)。因为柔性靶标应该允许多种结合方案。

但实验数据给了我一个响亮的耳光。

信号反转:一个被推翻的假设

在 V20 版本(解冻序列预测头)后,实测结果是:

指标	V18(冻结)	V20(解冻)
CDR 唯一氨基酸数	5.3	15.9(+3倍)
6-mer 重复	15/45	0/45
无序度 vs 多样性 r	-0.128(ns)	-0.449(p=0.002)

关键在最后一行:抗原无序度越高,CDR 设计空间反而越窄(负相关,p=0.002)。

这个”反直觉”的发现,反而是项目最有价值的科学结论。生物学解释是:柔性靶标只能被少数特定的序列基序结合(就像雾只能被特定形状的网兜住),而刚性靶标反而允许多样结合方案。

这恰好呼应了博客的哲学命题:约束催生秩序。无序的靶标,以”无性之美”的方式(少数基序的精确复制),约束着抗体的设计空间;而正是这种约束,让有效的结合成为可能(有性之美般的特异性涌现)。

诚实的负面结果

DisorderFlow 最让我骄傲的不是”成功”,而是建立了资产验证铁律:每个发现都标注 [VERIFIED]/[PENDING]/[FALSIFIED]。

Disorder head 在单一 Aβ42 上 AUC=1.0 → 标 [FALSIFIED](数据假象,样本太少)。多 IDP 均衡测试 AUC=0.47(低于随机)→ 标 [VERIFIED](结论:独立预测无效,但作 conditioning 仍提供梯度)。
V19 训练期发现 r=+0.31 → 标 [FALSIFIED](head_seq 冻结 bug 造成的 artifact)。
IDP de novo 设计尚未突破 AF2 折叠天花板(ipTM~0.12-0.14,目标>0.3)——明确写进 Known Limitations。

科学不是只报喜不报忧。这些”失败”本身就是发现。

从计算到湿实验

最终,DisorderFlow 产出了 25 条 scFv 候选序列(VH-(G4S)3-VL-His 标签),针对 Aβ42 的 N 端、中段聚集核心 KLVFFAED、C 端三个功能性表位。

候选来源是混合策略:文献抗体 CDR-H3 嫁接(Solanezumab/Donanemab 等)+ PDB 直接提取 + 模板 seeded MPNN 重设计。每条候选都有 pliability_score、complexity、solubility、immunogenicity_risk 评分。

下一步是山东省仪器共享平台的 Octet BLI 初筛——有 hit 冲 Nat Biotech,弱 hit 投 Nat Commun,0 hit 就写一篇”固定骨架 CDR 设计对无序靶点的计算极限”的诚实负面论文。

技术栈

核心模型:PyTorch 2.0+,BFN + IPA(等变点注意力)+ 几何 Transformer
验证:ColabFold / AlphaFold2 multimer v3
对比基线:ProteinMPNN、ESM-IF1、DiffAb
物理评分:PyRosetta(ref2015)
平台:Gradio Web 界面(8 个 Tab),模型权重托管在 HuggingFace

写在最后

DisorderFlow 教会我一件事:研究的价值不在于”做成了什么”,而在于”诚实地知道了自己做不到什么,以及为什么”。

当一株算法试图给”雾”设计网,失败是常态。但每一次失败,都让我们更清楚地看见——无序的边界,究竟在哪里。

—— 琉卜齐鲁工业大学(山东省科学院)

#IDP #抗体设计 #BFN #深度学习 #阿尔茨海默病 #AlphaFold2

💬 评论系统未配置。请在 src/consts.ts 的 GISCUS 中填入 repo / repoId / categoryId 即可开启 Giscus 评论。