做学术研究的人都知道,调研一个新方向有多痛苦——搜论文、读摘要、下 PDF、整理笔记、交叉验证引用,搞完一天就过去了。
GitHub 上有个项目叫 Feynman(对,就是那个费曼),试图用 AI Agent 把这整个流程自动化。目前 6500+ Star,MIT 协议,TypeScript 写的。
不只是"AI 搜论文"#
市面上的"AI 学术助手"大多是套了一层壳的搜索工具。Feynman 不太一样,它是一个完整的研究工作流引擎:
一句话能触发的事:
feynman "scaling laws 有什么新进展"
→ 搜论文 + 搜网页 → 生成带引用的研究简报
feynman deepresearch "机械可解释性"
→ 多 Agent 并行调查 → 综合 → 交叉验证
feynman lit "RLHF 的替代方案"
→ 文献综述:共识、分歧、开放问题
feynman audit 2401.12345
→ 论文声称的 vs 代码仓库实际做的,逐条对比
feynman replicate "chain-of-thought 提升数学推理"
→ 在本地或云 GPU 上复现实验最后那条是真的能跑实验,不是嘴上说说。
四个 Agent 各司其职#
Feynman 内置了四个专业化 Agent,根据你的指令自动调度:
| Agent | 干什么 |
|---|---|
| Researcher | 搜集证据:论文、网页、代码仓库、文档 |
| Reviewer | 模拟同行评审,按严重程度分级给出反馈 |
| Writer | 把研究笔记组织成结构化草稿 |
| Verifier | 逐条验证引用、检查链接是否失效 |
不是一个大模型在那自说自话,而是四个角色分工协作。Researcher 找到的资料,Verifier 会交叉验证;Writer 写出来的东西,Reviewer 会挑刺。这种多 Agent 架构比单轮问答靠谱得多。
工具链做得很实在#
Feynman 不是光靠大模型脑补,它接入了真实的研究工具:
- alphaXiv — 论文搜索、问答、代码阅读、标注,通过
alphaCLI 调用 - Docker — 隔离容器执行实验,不污染你的机器
- Web 搜索 — 支持 Exa、Perplexity、Gemini API 三种引擎
- Modal / RunPod — 云 GPU 计算,复现实验用
- 会话搜索 — 之前做过的研究会被索引,下次能直接调用
每个输出的结论都带来源链接——论文 URL、文档地址、代码仓库,点开就能验证。
十个研究命令覆盖主要场景#
| 命令 | 场景 |
|---|---|
/deepresearch | 多源深度调查 |
/lit | 文献综述 |
/review | 模拟同行评审 |
/audit | 论文 vs 代码审计 |
/replicate | 复现实验 |
/compare | 多源对比矩阵 |
/draft | 从研究笔记生成论文草稿 |
/autoresearch | 自主实验循环 |
/watch | 持续跟踪某个研究方向 |
/outputs | 浏览所有研究产出 |
基本上把学术研究的核心环节都覆盖了。
安装和使用#
一行命令搞定:
# macOS / Linux
curl -fsSL https://feynman.is/install | bash
# Windows PowerShell
irm https://feynman.is/install.ps1 | iex装完运行 feynman setup 配置模型和搜索。支持 OpenAI、Anthropic 等云端模型,也支持 LM Studio、Ollama、vLLM 跑本地模型。
如果你只是想用它的研究技能(不装完整终端),还有个轻量安装方式,只下载 skills 和 prompts 到 ~/.codex/skills/feynman,可以配合 Codex CLI 使用。
我的看法#
学术研究的 AI 工具越来越多了,但大多数停留在"帮你搜一搜"的层面。Feynman 做得比较深——多 Agent 协作、实验复现、引用验证、持续跟踪,这些是真正做研究的人需要的。
尤其论文审计(audit)这个功能挺有意思。学术界论文和代码不一致的问题一直存在,Feynman 能自动对比论文声称和代码实现之间的差异,这个对研究者来说很实用。
当然,深度研究功能的效果很依赖底层模型的能力和搜索源的质量。alphaXiv 的覆盖范围目前主要还是 CS 领域,其他学科的论文支持可能没那么好。
但方向是对的。学术研究本来就是一个信息密集、流程标准化的工作,非常适合 AI Agent 来做。Feynman 至少在这个方向上迈出了扎实的一步。
