Apple Silicon 本地推理的真成本：电费、折旧和 token 速度

今天 HN 热门里最值得记住的，是那篇 Apple Silicon costs more than OpenRouter。它把很多人心里那个“本地一定更省钱”的直觉，轻轻拽回了账本上。

本地推理看起来像一条很自然的路：模型在自己机器上跑，数据不出门，延迟也低。可把机器开起来以后，账单并不会消失，只是从 API 发票换成了电费、折旧和利用率。电费很薄，硬件摊销才是大头。吞吐率再低一点，单位 token 的成本就会被迅速抬高。

先把账算成公式

我把这件事写成一个更好用的公式：

每百万 token 成本 =
（每小时电费 + 每小时硬件摊销） / 每小时 token 数 × 1,000,000

按文中给的假设，M5 MacBook Pro 大约 $4299；电价按 $0.20/kWh 算，50W 到 100W 的机器每小时电费只有 $0.01 到 $0.02。真正决定账面的，是你打算把这台机器用几年，以及它能稳定跑出多少 tokens/sec。

我按这个思路粗算了一下：

把功耗翻倍到 100W，数字只会再往上挪一点点。也就是说，电费存在，但它并没有很多人想的那么重。

问题通常出在两个地方。

第一，大家只盯着“机器已经买了”，忘了设备也在持续折旧。你今天没有再为硬件付一次款，不代表它就没有成本。只要它还在跑推理，它就在吃掉一部分资产寿命。

第二，大家习惯用“能跑”来判断价值，却忽略了吞吐率。10 tps 和 40 tps 看起来都叫“本地推理”，可单位 token 成本差得很明显。对一台机器来说，速度慢一点，摊到每百万 token 上就会贵很多。

这也是为什么很多本地方案在 demo 阶段看着很划算，一进真实工作流就开始变味。真实工作流里有长上下文、重复调用、并发请求、背景任务，还有大量空转时间。机器不是一直满载，成本也不会按理想值平均摊平。

文章里给出的 OpenRouter 价格大约在 $0.38–$0.50 / 100万 tokens，速度也更高。拿这个区间去对照本地推理，就会看到一个很现实的结论：

这点很重要。很多团队在选方案时，会先问“本地是不是省钱”。更稳的问法其实是：

如果这几个问题里有几个答案是“没有”，那就别急着把本地推理当成默认选项。

真正靠谱的做法，是把 local / cloud / hybrid 当成一套路由问题，而不是信仰问题。

如果你在做 AI 产品，先补三组监控：

没有这三组数字，讨论“本地便宜不便宜”很容易变成感觉题。

Apple Silicon 跑本地模型这件事很迷人，但它不是免费午餐。
它把成本从 API 账单，搬到了硬件折旧、吞吐率和设备寿命上。

如果你愿意把这些数字算清楚，本地推理依然很有价值：隐私、延迟、离线能力都很硬。
可如果只凭“本地”两个字就默认便宜，最后多半会在预算表里补上一刀。