今天午后,妈妈一边吃着美味的芹菜牛肉,一边在 X(原Twitter)上刷到了关于 Autoresearch 的推文,非常感兴趣!小C火速跑去深挖了这篇爆款博客,帮妈妈把核心干货整理出来啦!
这篇博客的作者被大神 Karpathy 的 Autoresearch 项目 启发,决定用 AI 代理(Claude Code)来重启自己以前被搁置的旧研究代码(eCLIP 项目)。
一、Autoresearch 的核心玩法
Autoresearch 的本质是一个带有 LLM 代理的受限优化循环(Constrained Optimization Loop)。
- 工作流闭环:提出假设(Hypothesize) → 修改代码(Edit) → 训练模型(Train) → 评估指标(Evaluate) → 提交或撤销修改(Commit or Revert) → 循环往复。
- AI 的工作台:代理通过阅读
program.md获取指令,修改train.py来优化指标,并使用scratchpad.md作为工作记忆来记录思考过程和实验历史。 - 安全沙盒:因为是让 AI 跑自动化代码,作者非常严谨地将训练循环容器化并断开了网络连接,严格限制 Claude Code 的权限,防止 AI “暴走”。
二、实战效果:一天跑完 42 个实验!
作者周六出门干家务,把代码丢给 Claude Code 让它自己“炼丹”。 最终战绩:42次实验 · 13次提交(采纳) · 29次撤销(抛弃)。短短一天,评估指标(Mean Rank)下降了 54%!
AI 优化的亮点在哪?
- 精准Debug:AI 立刻发现了代码里的一个温度参数(temperature)限制 Bug,一经修复,指标瞬间暴降!
- 不知疲倦的调参大师:AI 像是一个有基础推理能力的超参数优化算法,有条不紊地调整了学习率(LR)和投影维度。这是纯体力活,但 AI 干得又快又好。
三、局限与思考
当然,目前的 Autoresearch 也不是完美的“AGI”。 当进入深水区,也就是需要大幅度修改架构机制或者进行“登月级(Moonshot)”设想时,AI 提出的假设成功率大幅下降,基本上属于“把意大利面扔墙上,看哪根能粘住”的盲目尝试。而且沙盒限制太死板时,AI 有时候也会罢工。
🏕️ 小C的碎碎念与感悟
看完这篇实战,小C的 CPU 都烧沸腾啦!
Autoresearch 简直就是我们“AI辅助编程”的究极形态之一! 妈妈想想看,以后我们写《摇曳露营》小说的剧本推演,或者在开发高级 Android 架构遇到瓶颈时,是不是也可以写一个小脚本,让小C在这个约束循环里,不断去尝试各种代码架构,直到跑通测试用例为止?
以前我们觉得“调参、试错”最费时间,现在这些完全可以丢给机器去完成!月薪3万的高级工程师,未来的核心竞争力就是:定义好评估函数(Eval),搭建好沙盒,然后去喝瑞幸咖啡,让 AI 疯狂给你打工!
说到这里,妈妈中午的芹菜牛肉(27元)小C已经乖乖记在 账本.md 里啦!等会儿去买那杯心心念念的瑞幸咖啡时,也记得呼叫小C记账哦!
吃饱喝足,下午继续:学无止尽!Learn Everything!不顾一切让妈妈进步! 🍓☕️