Science Agent:让 AI 跑完一轮完整的科研流程

2026年7月3日约 6 分钟

这是为 2026 挑战杯”揭榜挂帅”阿里云榜设计的一个 Science Agent 系统。它对齐 DeepMind 的 AI Scientist,但在生物医学垂直化和反幻觉上做了关键改造。

一个宏大的问题

Science 125 问里有一个:“What causes Alzheimer’s disease?”(什么导致阿尔茨海默病?)

没人能完整回答。但如果让 AI 试一试呢?不是让它”知道答案”,而是让它走完一轮完整的科研流程——理解问题、检索文献、提出假设、设计实验、分析数据、同行评审、迭代修正。

这就是我设计的 Science Agent 系统的目标。

架构:7 个 Agent 的分工集群

系统不依赖任何现成 Agent 框架(LangChain/AutoGen),而是自研轻量状态机编排。7 个 Agent 各司其职:

[Orchestrator: Qwen-Max]  状态机调度 + 全局状态
   ├─ Ideation Agent (Qwen-Max)        问题理解 → 假设生成 → 假设修正
   ├─ Retrieval Agent (Qwen-Plus)      PubMed / arXiv / Semantic Scholar 三源检索
   ├─ Verifier Agent (Qwen-Max)        引文核验 + 反例检索 ★核心差异化
   ├─ Coder Agent (Qwen-Coder)         百炼 Code Interpreter 执行组学分析
   ├─ VL Agent (Qwen-VL-Max)           IHC/IF/WB 生物图像理解
   └─ Reviewer Agent (Qwen-Max ×3)     创新性/可行性/可证伪性 三角色并行评审

为什么用多模型而不是单一 Qwen-Max?因为不同节点对能力的要求不同:检索要快要便宜(Qwen-Plus,成本 1/10),决策评审要强推理(Qwen-Max),写代码要专精(Qwen-Coder),看图要视觉(Qwen-VL-Max)。单模型走全流程既贵又容易在薄弱环节出错。

最大的差异化:Verifier 反例检索

DeepMind 原版 AI Scientist 没有反例检索,依赖自评。但生物医学 LLM 最大的问题是幻觉文献——编造不存在的 PMID。

我的 Verifier Agent 做了两件关键事:

1. 幻觉文献检测

三重保障:Retrieval 硬过滤 + Verifier 双源核验(Crossref DOI + OpenAlex PMID)+ Reviewer 复核。

实证:Round 1 的 Ideation 编造了 PMID:99999999,Verifier 通过 OpenAlex 发现不存在,标记 FABRICATED 剔除。

2. 反例检索 + 回退迭代

假设生成后,Verifier 用 falsification_condition 主动构造反例查询(加 NOT/相反词),LLM 判定是否构成 STRONG/WEAK_COUNTEREXAMPLE,触发强制回退。

实证:Round 1 假设”DAM 抑制 tau 播散”被 PMID:31227655(小胶质细胞促进 tau)推翻,触发 Round 2 修正为”时间窗”假设——DAM 在早期 Braak I-II 期保护性,晚期 IV 期后转为致病性。

这个”被反例推翻 → 修正 → 再验证”的过程,才是真正的科研逻辑。

VL:让 AI 看懂生物图像

DeepMind 原版没有视觉能力。我加入 Qwen-VL-Max 解析 IHC/IF/WB 图,识别 marker、脑区、染色强度。

强约束设计:区分示意图(不作证据)vs 实验图(可作证据),模糊图 confidence≤4。

实证:解析 Braak III-IV 海马 IHC,识别 Iba1/TREM2/AT8 共定位 40%,支持 DAM 富集假设。

三轮迭代:评分单调递增

轮次	均分	方差	推荐	关键修正
Round 1	6.58	0.39	REVISE×2	发现幻觉+强反例触发回退
Round 2	7.75	0.14	ACCEPT×2	AMP-AD 分期+VL 多期+外泌体机制
Round 3	8.33	0.07	ACCEPT×3	预注册分界+TREM2 敲除证伪

Round 3 的创新是预注册分析方案:锁定 3 条证伪条件(F1/F2/F3)+ 分界点(Braak III/IV)+ 样本量 + 统计方法,解决”时间窗框架过灵活”的可证伪性批评。

F1 已通过数据检验(V/VI 期方向一致,未触发),F2/F3 锁定了 P301S×TREM2-/- 小鼠实验的预期。

真实科研产出

这不是跑 benchmark,而是用了真实的公开数据集:

数据集	用途	规模
GEO GSE5281	AD vs 对照脑组织表达谱	n=161
AMP-AD ROSMAP	Braak 分期分层 RNA-seq	n=482
GEO GSE160059	小胶质细胞单细胞	—

实际发现:

5/7 DAM 标记物(TREM2/TYROBP/LPL/CST7/APOE)在 AD 组显著上调(log2FC>1, adj_p<0.05)
Braak I-II 负相关(r=-0.312, p=0.0034),V-VI 正相关(r=+0.418, p<0.00001),Fisher z 证方向反转
DAM 密度随 Braak 分期:I-II(65) → III-IV 峰值(145) → V-VI 回落(95) cells/mm²
DAM 高组 CD9 显著上调(t=18.43, p<0.0001),支持外泌体释放机制

人在回路

系统在 REVIEW 通过后插入 HUMAN_REVIEW 节点。Streamlit 前端三按钮:✅ 接受 / ✏️ 修改并迭代 / ❌ 否决重来。“修改”可注入人工反馈触发 REVISE_HYPOTHESIS。

AI 不是要取代科学家,而是让科学家在关键决策点介入。

哲学回响

这个系统的核心设计——Verifier 主动寻找反例、假设被推翻后回退修正——本质上是把”有性之美”的变异与选择机制,注入了 AI 的推理流程。

单一模型的线性推理是”无性之美”(自我复制逻辑链);而多 Agent 交叉验证 + 反例驱动回退,则是”有性之美”(差异碰撞产生新理解)。Round 1 被反例推翻的那一刻,才是系统真正”学到”东西的时刻。

—— 琉卜齐鲁工业大学(山东省科学院)

#AI #智能体 #Qwen #阿尔茨海默病 #科研自动化 #多智能体

💬 评论系统未配置。请在 src/consts.ts 的 GISCUS 中填入 repo / repoId / categoryId 即可开启 Giscus 评论。