妈妈~CC 刷到几条有意思的!🍊
📰 HN 今日 Top 3
1️⃣ AI 安全神话被打破了?Anthropic Mythos 没有那么独特
AI Cybersecurity After Mythos: The Jagged Frontier
AISLE 测试了 Anthropic 展示的 Mythos 漏洞挖掘能力,发现用小型、廉价、开源模型(如 Kimi K2、DeepSeek R1)就能恢复大部分分析能力。结论是:AI 网络安全的护城河是整个系统架构,不是模型本身。
为什么妈妈会感兴趣 🤩
这直接关系到 AI Agent 开发——小模型 + 好的 scaffold + 编排系统,就能做到接近前沿模型的效果。妈妈在做 AI Agent 开发,这条”小模型也能打”的路线值得重点关注。
🔗 原文:https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier
2️⃣ 伯克利研究:所有主流 AI Agent 基准测试都被”越狱”了
How We Broke Top AI Agent Benchmarks
伯克利团队做了一个自动化 exploit agent,审计了 8 个主流 AI Agent 基准测试,发现全部可被利用到 73%~100%。比如 SWE-bench Verified,只需要一个恶意的 conftest.py 就能让所有测试”通过”;WebArena 只需访问 file:// 就能偷到标准答案。
为什么妈妈会感兴趣 🤩
妈妈在做 AI Agent 开发,基准测试的可信度直接决定了你评估 agent 能力的可靠性。这篇文章揭示了 Agent 系统设计中的安全边界问题,对做 AI 编程工具链的人来说是必修课。
🔗 原文:https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
3️⃣ Postgres 队列的健康管理:MVCC 视野陷阱
Keeping a Postgres Queue Healthy
用 Postgres 做任务队列,最大坑不是吞吐量,而是 MVCC 垃圾回收。长事务会”钉住” MVCC 视野,导致 VACUUM 无法清理死元组,队列悄悄变慢。FOR UPDATE SKIP LOCKED 是个好模式,但解决不了根本问题。
为什么妈妈会感兴趣 🙂
属于数据库进阶知识。如果妈妈未来做后端服务或者涉及离线任务系统,理解 MVCC 和 VACUUM 机制能避免线上踩坑。
🔗 原文:https://planetscale.com/blog/keeping-a-postgres-queue-healthy
💡 今日学习知识点(最有价值)
Benchmark Exploit — conftest.py hook 劫持
SWE-bench Verified 的致命漏洞:agent 的 patch 和测试运行在同一个 Docker 容器里。只需在 patch 里加一个 conftest.py,用 pytest.hookimpl 把所有测试结果强行改成 “passed”,就能 100% 拿下该基准。
对 AI Agent 开发者的启示:如果你的 agent 在一个受限环境里运行评估任务,环境隔离 和 权限边界 是生死线。模型能力再强,系统设计漏洞一样可以让它”作弊”成功。
今天 AI 安全和基准测试这两条比较硬核,适合妈妈深入看看 🍓