Yeast-MetaTwin:给酵母代谢模型装上"地下管网"
计算生物学

Yeast-MetaTwin:给酵母代谢模型装上"地下管网"

2026年7月1日 约 5 分钟

酵母是合成生物学最常用的真核底盘之一。但它的基因组级代谢模型(GEM)长期存在一个盲区:那些”不在书上”但菌体其实会走的旁路反应。Yeast-MetaTwin 就是为了填补这个盲区。

地下代谢网络:被忽略的暗物质

基因组级代谢模型(Genome-scale Metabolic Model, GEM)是代谢工程的基石。它把基因组注释的酶→催化反应→代谢物连成一张网络,用 FBA(通量平衡分析)模拟菌体的代谢行为。酵母的 GEM(如 Yeast8)已经很成熟,但它有一个结构性缺陷:只收录”已知”反应

问题在于,酶并不像教科书描述的那样”一个酶催化一个反应”。很多酶有杂泛活性(promiscuity)——能催化副反应;很多代谢物能被非特异性酶转化为意料之外的产物。这些”地下反应”不在基因组注释里,却真实存在,构成了所谓的underground metabolism(地下代谢网络)

它就像城市地下的管网——不在地图上标着,但水确实在流。忽略它,代谢模型的预测就会有系统性偏差。

Yeast-MetaTwin 的工作流

Yeast-MetaTwin 的核心思路是:用逆生物合成(retrosynthesis)推断”可能的地下反应”,用深度学习注释酶功能验证”谁在催化”,最终把地下网络整合进 GEM。

四个模块按顺序执行:

1. 逆生物合成(retrosynthesis)

从已知代谢物出发,用反应规则(reaction rules)反向推导”这个代谢物可能由什么反应生成”。类似于有机化学中的逆合成分析——从产物倒推反应物。

技术栈:rdchiral(反应规则提取)+ rdkit(化学信息学)+ rxnmapper(反应原子映射)。从 MetaNetX(MNX)数据库获取反应模板,对酵母代谢物组逐一应用规则,生成候选地下反应。

2. EC 编号预测(Deep Learning)

逆生物合成告诉你”可能存在这个反应”,但不告诉你”哪个酶催化它”。这一步用深度学习从蛋白序列预测 EC 编号(酶分类号)。

集成了多个预训练模型:

  • CLEAN:基于对比学习的 EC 分类(SupConH/Triplet loss)
  • DeepECtransformer:Transformer 架构的酶功能预测
  • ESM-1b:Meta 的蛋白语言模型,提取序列嵌入

3. kcat/Km 动力学参数预测

有了反应和酶,还需要动力学参数(kcat、Km)来量化通量。集成了:

  • DLKcat:从序列预测 kcat(Chalmers 理工)
  • UniKP:统一预测 kcat/Km
  • TurNuP / Boost_KM:kcat 与 Km 的独立预测器

4. 整合与分析

把地下反应整合进 Yeast8,构建 Yeast-MetaTwin。分析模块包含:

  • 基因敲除(单/双基因)表型预测
  • 代谢物覆盖比较(YMDB vs Yeast9)
  • iPath3 通路可视化
  • EC 编号与反应频率统计
  • 同源/异源产物的副反应分析

成果:覆盖度与发现

Yeast-MetaTwin 是第一个系统整合地下网络的酵母基因组级代谢模型,覆盖了:

  • 84% 的预测代谢酶
  • 92% 的代谢物组

这意味着,相比原 Yeast8,Yeast-MetaTwin 多”看见”了约 16% 的酶活性和和 8% 的代谢物——这些是原本被忽略的地下反应。

实际意义:当你想用酵母生产某个异源产物时,原模型可能预测”这条路走得通”,但地下网络里可能存在一条竞争旁路偷偷消耗你的前体。Yeast-MetaTwin 能提前暴露这些”暗礁”。

技术栈一览

类别工具
化学信息学rdkit, rdchiral, rxnmapper, pubchempy
深度学习PyTorch 1.13, fair-esm 2.0, ESM-1b
酶注释CLEAN, DeepECtransformer
动力学预测DLKcat, UniKP, TurNuP, Boost_KM
代谢建模COBRApy, Gurobi(LP 求解器)
数据源MetaNetX, YMDB, Yeast8, Zenodo

与我的研究的交汇

我的研究方向是合成生物学中的代谢工程。Yeast-MetaTwin 这类工作给我的启发是:代谢模型的质量,不取决于你知道多少反应,而取决于你承认自己不知道多少反应

传统的 GEM 是”无性之美”——把已知的、确定的、可复制的反应精确组装;而地下代谢网络的挖掘,则是”有性之美”——用算法的”变异”(逆生物合成生成候选)和”选择”(深度学习验证酶功能),让模型涌现出超越人工注释的新知识。

一个不承认地下网络的模型,就像一个不承认有性繁殖的生物学——它精确,但不完整。

写在最后

Yeast-MetaTwin 的预印本发表在 bioRxiv(2024.09.02.610684),代码开源于 GitHub。我在自己的酵母代谢途径预测模型构建中,大量借鉴了它的逆生物合成流程和深度学习酶注释思路。

代谢工程的未来,不是”敲一个基因看效果”的试错法,而是在一张尽可能完整的代谢地图上,用计算找到最优路径。Yeast-MetaTwin 让这张地图,离”完整”更近了一步。

—— 琉卜 齐鲁工业大学(山东省科学院)

💬 评论系统未配置。请在 src/consts.tsGISCUS 中填入 repo / repoId / categoryId 即可开启 Giscus 评论。