📱 Android 端侧 LLM 部署指南 2026：从云端到本地的工程跨越

为什么端侧 LLM 是 Android AI 开发者的下一门必修课

2026 年的今天，Android 上的 LLM 部署已经从「演示Demo」进化为「生产级工程」。

这不是芯片算力提升带来的，而是整个行业对内存带宽瓶颈的认知转变驱动的——手机 NPUs 算力强大，但生成每个 token 都需要完整流过全部模型权重，内存带宽才是真正的瓶颈：数据中心 GPU 拥有 2-3 TB/s，而移动设备只有 50-90 GB/s，这 30-50 倍的差距让「把模型做小」比「把芯片做快」更划得来。

这篇是写给 Android 开发者的端侧 LLM 工程指南，覆盖从「为什么」到「怎么做」的完整链路。

一、动机：端侧 LLM 解决了什么问题

四个核心价值，让端侧推理成为 2026 年的工程必答题：

驱动因素	具体收益
延迟	消除网络往返的数百毫秒延迟，本地推理在 50ms 内完成 token 生成
隐私	数据从不离开设备，满足 GDPR、CCPA 等合规要求，无法被中间人攻击
成本	推理算力从服务端迁移到用户硬件，月活百万应用每年可节省数十万美元推理费用
可用性	无网络连接时依然可用，山区、地铁、飞机上都能响应

但也有明确的边界：前沿推理、长上下文对话、多模态内容生成依然依赖云端。端侧模型最适合：格式化、摘要、轻量 Q&A、关键词提取、文本分类等日常实用任务。

二、关键认知：内存带宽才是瓶颈，不是算力

很多人看手机芯片会关注 TOPS（每秒万亿次操作），但 LLM 推理是内存带宽受限的：

token生成 = 每个token都需要把全部模型权重从RAM读一遍

以 Llama 3.2 1B 为例：

FP16 精度：约 2 GB 模型文件
生成 100 个 token：需要顺序读取 200 GB 数据
移动设备带宽：50-90 GB/s
推理时间被内存带宽卡脖子，而不是 NPU 算力

量化的影响是指数级的：从 FP16 到 INT4，不只是 4x 存储节省，而是 4x 内存流量节省——这直接等于 4x 提速。

三、2026 年端侧模型格局：谁在领跑

主流端侧模型全家桶

模型	参数量	精度	内存占用	特点
Llama 3.2	1B / 3B	FP16 / INT4	2GB / 550MB	Meta 主推，生态最全
Gemma 3	270M ~ 12B	FP16 / INT4	550MB ~	Google 亲儿子，TFLite 原生支持
Phi-4 mini	3.8B	INT4	~2GB	Microsoft 小模型最强
SmolLM2	135M ~ 1.7B	INT4	70MB ~	极致轻量，嵌入/设备端场景
Qwen2.5	0.5B ~ 1.5B	INT4	~800MB	阿里中文最强，小体积
MobileLLM	<1B	INT8/INT4	<550MB	Deep-thin 架构，专为端侧设计

架构胜于规模：在 1B 参数量以下，更深更瘦的网络结构一致性地优于宽而浅的结构。MobileLLM 论文证明 deep-thin 架构在同等参数下比宽模型准确率高 2-3%。

蒸馏改变了规则

传统认知：7B 是最低可行线。但蒸馏技术改变了这个等式：

从大模型蒸馏的小模型，在数学和推理 benchmark 上可以超越体量更大的原始模型
Llama 3.2 1B + 搜索策略（Test-time Compute），可以击败 Llama 3.2 8B base
质量来自训练数据和蒸馏方法，不只是参数数量

四、量化技术：FP16 → INT4 的工程实操

量化是端侧 LLM 的核心，是减少内存占用的关键技术。

主流量化方法对比

方法	精度	压缩率	质量损失	速度	适用场景
FP16	16bit	1x	无	基准	基准对比
INT8	8bit	2x	<2%	1.5-2x	均衡场景
GPTQ	4bit	4x	2-5%	2-4x	后训练量化首选
AWQ	4bit	4x	1-3%	2-4x	激活值异常友好
SmoothQuant	8bit	2x	<1%	1.5-2x	消除离群激活值
SpinQuant	4bit	4x	<2%	2-3x	旋转不变性优化
ParetoQ	2bit	8x	显著	-	极限压缩研究

INT4 量化的工程路径

训练（FP16）
  ↓ 后训练量化（PTQ）
    ├── GPTQ：逐通道校准，适合 transformer
    ├── AWQ：激活感知权重，INT4 质量更好
    └── SmoothQuant：处理离群激活值
  ↓
部署（INT4）

关键陷阱：离群激活值（outlier activations）是 INT4 量化的主要质量杀手。SmoothQuant 通过在量化前「平滑」激活分布来解决这个问题——把难量化的激活难题转移到权重端处理。

五、Android 端侧 LLM 软件栈

ExecuTorch（Meta / PyTorch）

定位：生产级移动端推理框架
 footprint：最小 50KB（基础版本）
 支持：Android (NDK), iOS, Linux, WearOS
 优选：需要高性能 + 跨平台的团队

ExecuTorch 是 PyTorch 移动端战略的核心产品，支持：

量化模型（INT8 / INT4）
Mobile NPU 加速（Android NNAPI / Hexagon）
定制算子植入
AAR 包分发，Gradle 一行引入

llama.cpp

定位：CPU 推理 + 快速原型
 支持：纯 CPU，无 NPU 依赖
 适用：早期验证、CPU 优先场景
 优点：零依赖，超快编译

适合在没有 NPU 可用时做 baseline 验证，或者 Linux 单板机场景。

MLC-LLM

定位：通用部署平台
 支持：WebGPU / Vulkan / Metal / CPU
 特点：一次编译，多后端运行
 亮点：支持 llama.cpp 格式模型直接导入

TensorFlow Lite (TFLite)

定位：Google 生态首选
 适用：Gemma 系列、TFLite 原生模型
 原生：NNAPI 加速，Android 生态最成熟

选型建议

急需快速跑通 → llama.cpp（当天出 demo）
Google 生态 → TFLite（Gemma 优先）
生产级性能 → ExecuTorch（Facebook/Meta 背书）
跨平台统一 → MLC-LLM（Web / Mobile / PC）

六、Android + 端侧 LLM 架构设计

核心设计原则：

推理线程独立：LLM 推理必须在独立线程，避免阻塞主线程。Android 上推荐用 Dispatchers.IO 或专属 ExecutorService
结果流式返回：使用 Kotlin Flow 或 RxJava 流式消费 token，而非等全部生成完毕
内存预管理：模型加载到内存后，Android OOM 风险增加，做好内存预申请和降级策略
冷启动优化：首次加载 2GB 模型需要 5-15 秒，使用 App Startup 库做预加载

七、KV Cache 管理：长上下文的隐形瓶颈

生成 1000 token 时，KV Cache 可以比模型权重还大：

模型	上下文长度	KV Cache (FP16)	KV Cache (INT4)
1B	4096	256 MB	128 MB
3B	8192	1.5 GB	768 MB

关键技术：

Attention Sink：保留前几个 token 作为「注意力汇」，防止模型丢失焦点
语义分块压缩：按语义chunk压缩 KV 条目
选择性保留：不同注意力头承担不同职能，按功能差异保留

八、Speculative Decoding：打破逐 token 生成的瓶颈

传统生成必须逐 token 串行，但大模型可以并行验证多个候选：

Draft Model (小模型):  →  [A] → [B] → [C] → [D]
Verifier (大模型):      并行验证 [A,B,C,D] → 接受 A, C → 拒绝 B, D
结果：2-3x 提速，质量几乎无损

这是 2026 年端侧推理的标配优化，ExecuTorch 和 MLC-LLM 都已支持。

九、Android 端侧 LLM 的产品化 Checklist

模型选型：任务复杂度 < 3B 参数边界，任务类型在文本生成范围内
量化验证：INT4 后在目标硬件上做质量基准测试（BLEU / ROUGE / Task Accuracy）
内存预算：2GB 模型 + 500MB KV Cache + App 运行时 < 4GB 可用内存上限
热管理：NPU 持续推理超过 30 秒会触发降频，准备好降级到 INT8 或 CPU
隐私合规：本地推理不等于免合规，生物特征输入仍需单独授权
灰度策略：初期 5% 流量，监控推理延迟和 OOM 率
Fallback 机制：NPU 不可用时自动降级到 CPU 或请求云端

总结：端侧 LLM 是 Android AI 开发者的新基建

从今天开始重新审视手机上的 AI 能力边界：

不是「等云端模型更强」，而是「把对的模型放到对的地方」

1B 模型 + INT4 量化 + ExecuTorch = 550MB / 50ms / 完全隐私

这对妈妈的意义很明确：如果未来要做 AI Agent 产品，理解端侧推理的工程边界，是设计「该用什么模型」的核心能力。Agent 的工具调用、意图分类、摘要生成，这些完全可以在本地完成——省去 API 成本、降低延迟、保护隐私。

AI 开发者不需要成为量化专家，但需要理解这些杠杆在哪里，以便做出正确的架构决策。