端侧智能模型架构设计与算法改进

1. 端侧智能模型架构设计与算法改进演讲人：刘凡平

2. 01 端侧智能的兴起与挑战 02 端侧大模型的架构设计方向 03 端侧场景的基础算法改进思路 04 端侧智能的未来发展趋势展望

3.

4. 01 端侧智能的兴起与挑战

5. 引入：从云端智能到端侧智能的演进路径

6. 端侧大模型定义端侧大模型是一种在终端设备上进行本地私有化部署的人工智能模型，其核心能力在于基于多模态感知实现自主学习与记忆，以提供个性化服务并保障数据隐私与运行安全。端侧大模型不等于云端大模型的小参数版本

7. 自主学习和记忆能力才是核心！低延迟实时交互体验（语音助手、智能输入法、AR应用）数据隐私用户数据无需上传云端，本地处理更安全离线可用无网络或弱网络环境下也能工作降低成本减少对云端计算资源的依赖个性化与定制基于本地交互数据进行自主学习

8. 端侧AI持续持续扩大端侧AI行业规模亿/人民币元 2028E 18000 2027E 15000 2026E 12000 2025E 9000 2024 6000 3000 2023 0 数据来源：深圳新闻网，中安网，中国知网，数字信息安防产业技术创新联盟，长沙优来电子科技有限公司，OPPO，联想，三星，嘉德智能

9. 计算资源有限能耗敏感实时性要求高内存限制核心挑战记忆缺失无法自主学习数据隐私 ......

10. 云端大模型难以部署到端侧算力鸿沟、内存溢出、运行时延、功耗爆炸 Processing Trained Model Dataset Edge AI Processor Neural Network

11. 让世界上每一台设备拥有自己的智能！欢迎友商跟随，让端侧应用成为行业共识。

12. 02 端侧大模型架构设计方向

13. 传统模型优化的基本原则：少算、快算、省能 1、激活函数与优化器的轻量化改进（如ReLU6，AdamW替代）； 2、数据稀疏性与动态计算路径； 3、模型微调方式：LoRA、Adapter、Prompt Tuning 的端侧适配； 4、模型鲁棒性增强：对抗样本防御与小样本学习策略； 5、注意力机制的高效替代：线性Attention、Performer、Linformer等； 6、高效卷积替代：Depthwise Conv、Group Conv等； 7、核心模型+轻量子模型。 … …

14. 如何让“大模型”跑在“小设备”上？糟糕的三部曲：剪枝量化蒸馏

15. 1 网络架构优化：轻量模型设计（MobileNet, ShuffleNet, EfficientNet-Lite） Transformer在端侧的轻量化尝试（TinyBERT, MobileBERT, DistilBERT） 2 网络架构轻量化设计？ 3 神经架构搜索（NAS）在端侧的实践（ProxylessNAS, Once-for-All） CNN与Transformer混合架构 …… 4

16. 算子融合示例针对Transformer的结构特点，算子融合主要分为4类：归一化层和QKV横向融合，自注意力计算融合，残差连接、归一化层、全连接层和激活层融合，偏置加法和残差连接融合。 Transformer层中的算子融合示意图

17. 混合专家机制？动态路由选择，减少计算负载。 1991年的论文《Adaptive Mixtures of Local Experts》： “This idea was first presented by Jacobs and Hinton at the Connectionist Summer School in Pittsburg in 1988.” Google在2017年1月发布了《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of- Experts Layer》，把MoE带进了LSTM，训出了最大137B 参数，专家数达到128k的LSTM模型。

18. 结构优化思路 • • • • • 轻量化网络设计：MobileNetV3、EfficientFormer、 TinyBERT；混合专家机制（MoE）：动态路由选择，减少计算负载；层级裁剪（Structured Pruning）：通道、头部、 Block级别剪枝；蒸馏策略（Task-aware Distillation）：强化特定下游任务表现。参数压缩与量化策略 • • • • • • Post-training Quantization（PTQ）：离线量化，部署灵活； Quantization-aware Training（QAT）：训练阶段模拟量化误差； Bit-width探索：INT8、INT4、甚至Binary；混合精度策略：关键路径高精度，非关键路径低精度。稀疏性与a结构感知优化 • • • • 激活稀疏性（Activation Sparsity）：ReLU后的 0值跳过；权重稀疏性（Weight Pruning）：Static vs. Dynamic稀疏；结构感知剪枝：保持模型结构对称性，利于硬件并行；软硬结合优化：软件模型剪枝配合硬件编译优化（如NPU）。推理算法与执行策略 • • • • • Transformer加速：Linformer、Performer（低秩注意力）；图优化：ONNX Graph Optimization、 TensorRT Fusion；异构并行：CPU+NPU/GPU协同执行调度； KV缓存优化；精简缓存长度、分块KV存储。

19. MCSD与类脑激活机制 MCSD：实现更高效的特征提取类脑激活机制：大幅减少计算冗余 MCSD整体架构，具有快速训练、推理能力，以解决模拟大脑中的神经元激活模式，更有效地处理复杂 Transformer全局注意力导致的模型计算复杂度高、数据和任务，显著提升计算效率和精度，为解决现推理速度慢等问题。实复杂问题提供了新的工具。 A B 通过斜率变换和指数衰减两个部分提取输入数据中的当前和历史信息，并进行位置感知的多通道特征融合。 C

20. 燃油汽车 VS 新能源汽车欢迎友商跟随，让非Transformer成为行业共识。

21. 03 端侧场景的基础算法改进思路

22. 到底是谁在“拖后腿”？不要只想着端侧推理。

23. 爱恨交织的反向传播算法！

24. 牛顿法、拟牛顿法、梯度下降法梯度下降（如SGD）每次迭代只使用一个（或一小批）样本的梯度来更新模型参数，计算成本低，尤其适用于大规模数据集。拟牛顿法（如L-BFGS）通过估计或逼近目标函数的Hessian矩阵（二阶导数信息）来决定搜索方向，相较于只使用梯度信息的方法，通常收敛更快。

25. Hinton：Forward-Forward 传统的反向传播算法通过计算损失函数对网络参数的梯度来更新权重，但这种方法存在一些问题，例如梯度消失、梯度爆炸以及训练过程较为复杂等。 Forward-Forward 算法的核心思想是将神经网络的训练过程分解为多个前向传播阶段，并在每个阶段中逐步调整网络的权重，而不是通过反向传播计算梯度。它利用了“对比学习”（Contrastive Learning）的思想，通过比较输入数据在不同阶段的输出来调整权重。负样本的构造 *测试错误率：1.37%

26. 可视化的理解机器智能：以MNIST为例 ROCK AI在非Transformer之外，也在实验室探索非反向传播之外的可理解的机器学习方式，针对 MNIST数据集，在保持测试准确率95%以上的情况下，实现可以通过可视化的方式理解预测逻辑。 MNIST的可视化理解推理示例（局部）

27. 04 端侧智能的未来发展趋势展望

28. 群体智能定义：具备自主学习的若干智能单元，通过环境感知、自我组织、互动协作共同解决复杂问题，并在不断变化的环境中实现整体智能提升。

29. 期待群体智能成为通用人工智能之路的新共识从质疑到认可，从认可到行动！

30. 2024.01 已通过中央网信办备案国产非Tranformer架构的大模型诞生 Yan架构大模型与Transformer架构大模型对比：早期 RNN/LSTM 为大语言模型的 2018 1、7倍训练效率、5倍推理吞吐、3倍记忆能力； BERT 2、低幻觉，CPU无损部署； Google发布首个基于Transformer的双向预训练模型。 3、Yan-3B模型超过Llama3-8B水平。提交52项 2025-2026 基于训推同步的自主学习赋予模型在推理时进行训练的能力，以实现持续进化和环境适应。发明专利，涵盖大模型的模型结构设计、基础算法改进等核心环节。 2027 开发奠定了基础。亟需突破智能边界改变机器学习模式 2025 2022 DeepSeek-R1 2017 ChatGPT Transformer架构诞生 OpenAI 发布对话型 AI ，引发了公众对大语言模型的广泛关注。融合了深度推理，参数规模超万亿，开源设计，应用成本相对降低。引入自注意力机制，为预训练模型提供了技术基础和新的路径。幻觉严重缺乏记忆 2024.06 全球首个树莓派上运行的多模态大模型 2024年06月世界人工智能大会上，ROCK AI对无法持续学习 AGI 外发布了能够在树莓派上运行的多模态大模型，证明超低算力设备也可以拥有智能。协同化群体智能 ROCK AI相比于OpenAI、Meta 等的“造神”路径，ROCK AI更专注于群体学习能力、协同进化的群体智能路径。

31. 搭载Yan架构大模型的机器人搭载Yan架构大模型的手机搭载Yan架构大模型的无人机让世界上每一台设备拥有自己的智能

32. 智能重新定义硬件！硬件-算法协同设计

33. 不再是你传统认知的端云结合！端侧不够，云端来凑？我们必须放弃大模型和小模型的概念。

34.

35. ROCK AI：让世界上每一台设备拥有自己的智能。