深思考端侧多模态大模型, TinyDongni&Deepseek的创新实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 深思考端侧多模态大模型
TinyDongni&Deepseek的创新实践
演讲人:杨志明
深思考人工智能机器人科技(北京)有限公司创始人兼CEO杨志明 博士
2. 01 背景介绍
02 突出优势
03 典型应用
04 成功案例
3.
4. 01
背景介绍
5. 什么是端侧多模态大模型?
什么是端侧多模态大模型?
——在设备本地(如智能手机、 IoT设备 、 嵌入式系统等)运行的大规模深度学习模型,能够处理多种类型的数据,包
括文本、图片、音频和视频等。其特点是参数规模不大,不需要网络传输,响应速度快,且可以保障用户数据的安全性。
多模态处理
低算力要求
即时响应
本地离线运行
隐私安全保护 轻量化设计 手机 电脑 手表 家庭NAS
汽车 AI萌宠 医疗器械 ......
6. 为什么需要端侧多模态大模型?
端侧应用场景广阔
01
实时交互性能需求升级
02
端侧场景市场广阔,包括:手机相册、个人文件 个人电脑本地搜索、自动驾驶等需毫秒级响应的领
存储、家庭NAS、医疗器械、机器人等等。据估 域,依赖云端会导致延迟,端侧模型能实现即时多
计,至2032年全球AI端侧市场有1436亿美元。 模态交互(如语音+视觉的实时翻译)。
隐私与数据安全需求激增
03
离线环境下的可靠服务
随着全球数据监管趋严,用户对隐私敏感的场 野外作业、工业检测、网络覆盖差的地区等无
景(如手表健康数据)要求数据本地处理,端 网络环境(如显微镜图像分析)依赖端侧模型
侧模型可避免云端传输带来的泄露风险。 实现实时诊断。
04
7. 深思考端侧多模态大模型
依托长期AI核心技术的积累和落地经验,深思考发布了鸿蒙系统端的“TinyDongni”&“DeepSeek”超小端侧多模
态大模型,并与国产算力模组适配,形成一揽子的端侧AI解决方案。
深思考自研的端侧模型
✓ 实现低功耗、低延迟、低资源
✓ 通过Token 数量压缩,有效降低首token 延迟
✓ 多芯片协同并行处理能力和内存使用优化技术
✓ 支持定制调优
通过DeepSeek-R1优化的端侧模型
TinyDongni
( 1.5B/0.4B )
DeepSeek
( 1B )
✓ 强化场景下的多模态语义理解
✓ 适配智能硬件与边缘计算场景
✓ 聚焦垂直场景里的多模态信息(文本、
图像、视频)的分析,内存占用降低了
30%。
共同推动
AI技术在端侧的应用和落地
8. 深思考核心工作
适配了开源鸿蒙操作系统
使用自研Dongni-AMDC (据悉也同时适配了
方法量化压缩了DeepSeek Linux Ubuntu 22.04 /
R1模型为 DeepSeek R1 - 使得DeepSeek R1-1B 统信UOS/Windows 10 将TinyDongni”及
1B端侧模型。 “长眼睛”具备视觉模 & 11/Android 14) “deepseek”超小端侧
态能力,从而增强为多 多模态大模型优化运行
模态模型。 至国产算力模组,推出
一站式解决方案。
9. 02
10. TinyDongni突出优势
创新的量化方法
低功耗低延迟低资源
Token数量压缩
降低首token延迟
TinyDongni使用自研的Dongni-AMDC 通过深度优化的算法架构与硬件协同设 图像编码器token数量极致压缩,成
技术 ,对模型权重和输入同步压缩,可大 计,实现极致能效比,尤其适合边缘设 倍降低首次访问延迟。
量降低模型内存占用,提升编解码速度。 备与资源受限场景的实时部署需求
多芯片协同并行处理
内存使用优化
支持定制调优
针对不同任务支持将模型分解到不同 采用顺序加载方法,先加载视觉编码 支持定制调优,基于基础大模型的通用
芯片端,加速模型并行推理。 器,再加载语言模型, 以减少内存占用。 能力快速适配多种下游任务。
11. Deepseek-R1-1B突出优势
使用自研的Dongni-AMDC方法量化压缩了
模型量化
DeepSeek R1模型为 DeepSeek R1 -1B端
侧模型。
Dongni-v
多模态语义理解
使用自研的多层次语义解码架构Dongni-v,
通过自适应的模态交互机制实现图像和文本
特征的跨模态对齐,赋予了Deepseek R1-
1B模型多模态能力。
12. 创新量化算法Dongni-AMDC
从模型压缩到输入处理,覆盖端侧推理全流程瓶颈。可根据设备算力、任务类型动态调整策略,实现"小而精"的部署效果。
智能动态压缩 超低资源占用 多模态深度语义融合
兼顾性能与效率 适配边缘设备 (Dongni-v架构)
模型权重+输入数据双压缩:通过 动态加载与权重共享:按需分配计 跨模态语义共鸣:通过自适应交互
自适应策略同步优化模型结构与输 算任务,减少内存占用,使大模型 机制捕捉图像、文本等模态间的细
入信息,显著降低计算负载,提升 可运行于手机、手表、显微镜等资 粒度关联,避免传统融合中的信息
端侧推理效率。 源受限终端。 损失。
首Token延迟优化:输入稀疏压 精度-效率自适应平衡:智能分析 语义连贯性保障:独创"语义连贯
缩技术减少初始数据处理量,实现 模型结构,自动匹配最优压缩比, 度评估"技术,动态优化多模态对
毫秒级响应,适合实时交互场景 确保性能损失最小化。 齐,提升复杂场景(如医疗影像分
(如语音助手、手机相册搜索)。
析、跨模态搜索)的准确性
13. 适配多种规格
系统
芯片
Intel Core Ultra系列
OpenHarmony
Intel Core i系列
Ubuntu22.04
Intel Celeron N5105(低算力)
AMD Ryzen3-7330U(低算力)
已适配系统
Windows10、11
已适配芯片
飞腾D2000
瑞芯微RK3588
统信UOS
广和通 骁龙QCS8550
高通骁龙8Gen 3/8Elite
Android
紫光展锐P7885
14. 资源消耗与生成速度
15. 03
典型应用
⚫ AI手机
⚫ AIPC
⚫ AI手表
16. 01 AI手机
AI手机智能相册
1
2
AI手机多模态搜索引擎
17. AI手机智能相册
✓ 文字搜图 ✓ 语音搜图
✓ 文字搜视频 ✓ 语音搜视频
✓ 图搜图 ✓ 智能推荐搜索内容
多模态智能搜索
护航隐私安全
支持文字、图片、语音多模态模糊 所有数据处理均在端侧完成,无
语义搜索,如“端午节在海边的合 需上传云端,保障用户隐私与数
照”“带宠物的自拍视频”,快速 据安全,让智能体验更安心。
精准定位目标。
18. AI手机多模态搜索引擎
✓ 图片
✓ 音频
✓ 视频
✓ 文档
基于端侧小尺寸大模型 本地离线AI语义搜索多模态信息
一次搜索,全维呈现
全内容本地搜索
100%端侧离线保护
输入任意主题(如跳舞),即可突 所有搜索处理完全在设备本地完
破文件名限制,深度解析与语义匹 成,数据永不离开用户设备,杜
配在毫秒级时间内呈现所有关联内
容(图片、视频、音频,文档)。
绝隐私泄露风险。
19. 02 AI手表
构建集成情感陪伴的AI健康专家,实现“数据-解读-咨询-预警-情感陪伴”全链路闭环,打造覆盖健康
建议与风险预警的个性化服务体系。
20. 03 AI显微镜
深思考人工智能的端侧模型,在医疗方向已经推出了AI显微镜。
这个集成了AI能力的显微镜,可以离线运行保证隐私,还能加载可拓展的
AI分析模块。通过加密分析与扩展模块,显微镜能够直接提升病理检测的
稳定性与效率。
21. 03
成功案例
22. 医疗重疾早筛 智能终端应用
100多家顶级三甲医院 AI显微镜
AI手机
AI机器人
70%头部第三方检测机构
AI PC
AI玩具
大模型
22
AI手表
AI摄像头
AI存储
AI小家电
23.
24.