酵母是合成生物学最常用的真核底盘之一。但它的基因组级代谢模型(GEM)长期存在一个盲区:那些”不在书上”但菌体其实会走的旁路反应。Yeast-MetaTwin 就是为了填补这个盲区。
地下代谢网络:被忽略的暗物质
基因组级代谢模型(Genome-scale Metabolic Model, GEM)是代谢工程的基石。它把基因组注释的酶→催化反应→代谢物连成一张网络,用 FBA(通量平衡分析)模拟菌体的代谢行为。酵母的 GEM(如 Yeast8)已经很成熟,但它有一个结构性缺陷:只收录”已知”反应。
问题在于,酶并不像教科书描述的那样”一个酶催化一个反应”。很多酶有杂泛活性(promiscuity)——能催化副反应;很多代谢物能被非特异性酶转化为意料之外的产物。这些”地下反应”不在基因组注释里,却真实存在,构成了所谓的underground metabolism(地下代谢网络)。
它就像城市地下的管网——不在地图上标着,但水确实在流。忽略它,代谢模型的预测就会有系统性偏差。
Yeast-MetaTwin 的工作流
Yeast-MetaTwin 的核心思路是:用逆生物合成(retrosynthesis)推断”可能的地下反应”,用深度学习注释酶功能验证”谁在催化”,最终把地下网络整合进 GEM。
四个模块按顺序执行:
1. 逆生物合成(retrosynthesis)
从已知代谢物出发,用反应规则(reaction rules)反向推导”这个代谢物可能由什么反应生成”。类似于有机化学中的逆合成分析——从产物倒推反应物。
技术栈:rdchiral(反应规则提取)+ rdkit(化学信息学)+ rxnmapper(反应原子映射)。从 MetaNetX(MNX)数据库获取反应模板,对酵母代谢物组逐一应用规则,生成候选地下反应。
2. EC 编号预测(Deep Learning)
逆生物合成告诉你”可能存在这个反应”,但不告诉你”哪个酶催化它”。这一步用深度学习从蛋白序列预测 EC 编号(酶分类号)。
集成了多个预训练模型:
- CLEAN:基于对比学习的 EC 分类(SupConH/Triplet loss)
- DeepECtransformer:Transformer 架构的酶功能预测
- ESM-1b:Meta 的蛋白语言模型,提取序列嵌入
3. kcat/Km 动力学参数预测
有了反应和酶,还需要动力学参数(kcat、Km)来量化通量。集成了:
- DLKcat:从序列预测 kcat(Chalmers 理工)
- UniKP:统一预测 kcat/Km
- TurNuP / Boost_KM:kcat 与 Km 的独立预测器
4. 整合与分析
把地下反应整合进 Yeast8,构建 Yeast-MetaTwin。分析模块包含:
- 基因敲除(单/双基因)表型预测
- 代谢物覆盖比较(YMDB vs Yeast9)
- iPath3 通路可视化
- EC 编号与反应频率统计
- 同源/异源产物的副反应分析
成果:覆盖度与发现
Yeast-MetaTwin 是第一个系统整合地下网络的酵母基因组级代谢模型,覆盖了:
- 84% 的预测代谢酶
- 92% 的代谢物组
这意味着,相比原 Yeast8,Yeast-MetaTwin 多”看见”了约 16% 的酶活性和和 8% 的代谢物——这些是原本被忽略的地下反应。
实际意义:当你想用酵母生产某个异源产物时,原模型可能预测”这条路走得通”,但地下网络里可能存在一条竞争旁路偷偷消耗你的前体。Yeast-MetaTwin 能提前暴露这些”暗礁”。
技术栈一览
| 类别 | 工具 |
|---|---|
| 化学信息学 | rdkit, rdchiral, rxnmapper, pubchempy |
| 深度学习 | PyTorch 1.13, fair-esm 2.0, ESM-1b |
| 酶注释 | CLEAN, DeepECtransformer |
| 动力学预测 | DLKcat, UniKP, TurNuP, Boost_KM |
| 代谢建模 | COBRApy, Gurobi(LP 求解器) |
| 数据源 | MetaNetX, YMDB, Yeast8, Zenodo |
与我的研究的交汇
我的研究方向是合成生物学中的代谢工程。Yeast-MetaTwin 这类工作给我的启发是:代谢模型的质量,不取决于你知道多少反应,而取决于你承认自己不知道多少反应。
传统的 GEM 是”无性之美”——把已知的、确定的、可复制的反应精确组装;而地下代谢网络的挖掘,则是”有性之美”——用算法的”变异”(逆生物合成生成候选)和”选择”(深度学习验证酶功能),让模型涌现出超越人工注释的新知识。
一个不承认地下网络的模型,就像一个不承认有性繁殖的生物学——它精确,但不完整。
写在最后
Yeast-MetaTwin 的预印本发表在 bioRxiv(2024.09.02.610684),代码开源于 GitHub。我在自己的酵母代谢途径预测模型构建中,大量借鉴了它的逆生物合成流程和深度学习酶注释思路。
代谢工程的未来,不是”敲一个基因看效果”的试错法,而是在一张尽可能完整的代谢地图上,用计算找到最优路径。Yeast-MetaTwin 让这张地图,离”完整”更近了一步。
—— 琉卜 齐鲁工业大学(山东省科学院)
src/consts.ts 的 GISCUS 中填入 repo / repoId / categoryId 即可开启 Giscus 评论。