LLM技术在有道词典笔上的应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:程桥
2. 01
02
03
04
3.
4. 01
5. 有道词典笔 有道AI答疑笔 有道听力宝
• 能扫能拍还能教
• AI教育大模型
• 支撑全科学习 • 国内首款AI原生学习硬件
• 随时随地9科答疑 • 既是听力神器
• 更是口语教练
• 新一代英语听说学习神器
有道AI学习机
学习机、学练机、专属
电脑三合一
家庭辅导一步到位
6. 自2018年以来,网易有道已先后推出20余款智能学习硬件,其中,明星产品有道词典笔开创了智能词典笔品类,
广受用户好评。
2023年8月,有道词典笔X6 Pro发售,成为首个搭载子曰教育大模型的硬件产品,能实现互动式深度学习。
2024年7月,有道词典笔X7上市,行业首创内置AJ摄像头,独家搭载两款大模型应用:
AI全科家庭教师小P老师、虚拟人口语私教Hi Echo,帮助用户打通从查词翻译到全科学习的全学习场景。
7. 网易有道于2025年2月推出了有道AI答疑笔spaceone,开创了“AI答疑笔”这一学习硬件的新形态。
AI答疑笔将前沿AI技术与答疑辅导场景深度融合,以强大的答疑能力与便携性,突破了传统的学习辅导模式与时空限制,
开创了智能辅导的新范式。
AI答疑笔重新定义了学习硬件的功能与价值,通过软件与硬件强大的协同创新,推动学习硬件行业向深度答疑与个性化
辅导的方向迈进,为未来教育智能化趋势树立了新的行业标杆。
8. 02
9. 密度定律
模型网络架构不断创新
• MoE、SSD
• 知识蒸馏
• 量化、压缩、剪枝
Densing Law of LLMs:https://arxiv.org/abs/2412.04315
10. 端侧AI
云端AI
• 不依赖网络
• 保护数据隐私 • 算力强
• 低延迟 • 内存大
• 算力弱
• 内存小
X
• 依赖网络
• 数据不安全
11. AI手机
AI PC
智能穿戴
• 智能手表
• 眼镜、VR/AR
教育智能硬件
2024年教育智能硬件市场规模突破千亿元,
至2027年将进一步突破1400亿元。
12. 功能聚焦
• 学习产品
以硬件为基础
以内容和交互为核心
以AI为技术——LLM、OCR、NMT、TTS、ASR等
离线功能
• 端侧AI——不依赖网络、隐私性、低延迟、高可靠
13. Qwen 0.5/0.6B、1.5B、3B、7B
Llama 3.2 1B 、3B、8B
MiniCPM3-4B
Phi-3-mini 3.8B
14. 算力限制
内存限制
功耗限制
成本限制
平台 FP32算力(TFLOPS) int8算力(GOPS) 内存(GB)
云侧4090 GPU 82.6 606.6 24
端侧RK3562 0.057 CPU: 0.35
NPU: 1 1
倍数 1434 CPU:2637
NPU:606.6 24
算法质量
多应用部署
15. 质量
速度
功耗
内存
成本
16. 03
17. 2023年
7月26日
网易有道正式发布
“子曰”大模型
2023年
11月4日
“子曰”教育大模型
正式通过相关备案
• 国内首个教育领域的
垂直大模型
2024年
1月3日
正式推出子曰教育
大模型2.0
2025年
1月 2025年
1月22日 子曰翻译大模型2.0
上线,在翻译质量、
效率以及鲁棒性等
方面实现飞跃 发布并开源国内首个 “子曰3数学模型”
输出分步式讲解的推 正式开源
理模型“子曰-o1”
2025年
6月23日
18. 云端GPU部署,线上服务
子曰LLM翻译
• pro版+lite版
• 质量大幅优于原有NMT
• 2023年Q4 1.0,仅面向Web用户
• 2024年Q1 2.0,面向App、PC和Web用户
• 2025年Q1,图片翻译全线切换到大模型翻译
• 2025年Q1,文档翻译质量行业第一
19. 词典笔
学习机
听力宝
教育智能硬件
小P老师
Hi Echo
语法精讲
文言文讲解
阅读理解
LLM功能
大小模型结合
「子曰」大模型
离线LLM、OCR、NMT、
TTS、ASR、CAPT
离线虚拟人
AI核心能力
云端CPU+GPU
云端结合
端侧CPU+NPU
硬件平台
20. 小P老师
输入-端侧计算
输入拍照(OCR)
语音输入(ASR)
文本输入
云处理
输出-端侧计算
教师人格 检索增强RAG
启发式学习
全科知识
多轮问答
善于鼓励 知识库
教辅资料
题库资源
基座模型
意图理解 通用能力 知识理解 数理逻辑
讲解问题
(类真人TTS)
21. 纯离线,本地算力
词典笔离线大模型翻译
22. 有道翻译王
产品
第三方
离线TTS
离线TTS
有道词典笔3
有道词典笔X3s
CPU版
离线TTS
网络结构
识别速度提升50%
Transformer
0.023
创新
2018
2019
有道词典笔X7
OCR模型增大15倍,错误率下降60+%,
RNN
模型(B)
有道词典笔X5&6
NPU版本
TTS模型增大1倍,延迟降低50%+
CPU版
离线OCR
离线OCR
离线
翻译
有道词典笔2
LLM
0.037 0.050 0.059 0.5
自研EMLL Q8量化 混合专家 Q4+Q8量化
2021 2022 2024
2020
23. 模型大小
• 1G内存约束,0.5B模型
质量
• 超越在线NMT
行业经验
• 空白
24. 蒸馏——在线NMT
剪枝 —— 词表裁剪,动态embedding size
量化 —— 8 bit
25. 变化
• 架构:Encoder-Decoder
• 预训练
• 任务扩展:单任务
新问题
• 0.5B模型的初始能力
• 蒸馏有效性验证
• 训练集规模
• 量化方案
多任务
Decoder-Only
26. Qwen2.5
数学、自然语言理解的能力
90.
67.5
45.
22.5
0.
0.5B
1.5B
3B
MMLU
7B
14B
72B
MATH
翻译的能力
• COMET22
32B
Model Param. Size News_e2c News_c2e
Offline NMT 56M 0.8607 0.8499
Online NMT 0.3B 0.8772 0.8598
Qwen2.5-0.5B 0.5B 0.8174 0.7942
27. Human labeled vs. distill
• 先做大,再做小
句子级 + 篇章级
采集高级模型结果
• 拒绝采样
• 正反向COMET
数据规模
• 规模越大越好
No. Model Data Size News_e2c News_c2e
1 Online NMT NA 0.8772 0.8598
2 Qwen2.5-0.5B NA 0.8174 0.7942
3 2 + human labeled 11w 0.8342 0.8037
4 2 + distill 11w 0.8432 0.8138
5 2 + distill 26w 0.8501 0.8177
6 2 + distill 192w 0.8632 0.8321
7 2 + distill 1100w 0.874 0.8453
8 2 + distill 6000w 0.881 0.8506
28. DPO
• 识别badcase,构造偏好数据
词表裁剪
• 基于双语语料统计
• 151645-> 108967
量化
• AWQ
• 低bit量化:weight only quantization, W4A16
• 通过activations识别1%的salient weights
29. 离线LLM翻译 VS 离线NMT
• 识别badcase,构造偏好数据
LLM > NMT LLM = NMT LLM < NMT
整体表现 42.27% 44.40% 13.33%
英译中能力 44.99% 37.76% 17.72%
中译英能力 38.04% 54.71% 7.25%
词句能力 37.21% 49.33% 13.47%
段落能力 69.37% 18.02% 12.61%
结论
离线LLM 模型 整体优于 离线NMT 模型,在中英互译能力、词句及段落能力、干净及微噪日志中的表现一致。
段落场景优势明显。
30. 示例
• 源句
Both men made dramatic transformations to their lives in order to reconnect with nature. As an official in the
Eastern Jin Dynastv Tao felt conflicted over life at court. In 405, he quit the service of the court for good,
expressing his unhappiness in the now
• 离线NMT
为了与大自然重新联系,两人都对自己的生活进行了戏剧性的转变。 作为东晋的官员,陶对朝廷生活感到矛盾。
1945年,他永远辞去了法院的职务,表达了他对现在的不满
• 端侧大模型
两人为了重新与大自然建立联系,对自己的生活做出了巨大的改变。东晋时期,陶桓子在朝廷中担任官员,对人生感
到矛盾。405 年,他永远辞去了朝廷之职,表达了当下的不满。
31. 开源框架和上线目标的差距(0.5B模型, int4; 词典笔)
框架 填充速度
(token/s) 解码速度
(token/s) 物理内存
峰值/MB
llama.cpp 11.9 6.3 437
mnn-llm 20.1 5.3 372
上线目标 30 10 300
32. 优化手段
优化指标
裁剪
内存
量化
矩阵
乘法
GEMM
SIMD指令
权重分块重排
速度
33. 词表裁剪(减少43M参数)
合适的量化方式 – 平衡质量和性能
张量 FC 权重 embedding KV-cache 框架 GEMM累加类型
量化精度 INT4 INT8 INT8 llama.cpp INT32
量化分块 K-block per-token per-token per-head 自研 INT16(填充1.5x)
34. llama.cpp
自研
利用ARM-NEON
广播特性
读取:4+4=8
计算:4+4=8
读取:(4/4)+4=5
计算:4+4=8
35. 高
速
缓
存
36. 推理方案 填充速度token/s 解码速度token/s 内存峰值/MB
llama.cpp 11.9 6.3 437
mnn-llm 20.1 5.3 372
自研离线LLM服务 33 (+64%) 10.6 (+68%) 288 (-23%)
37. 单模型实现多任务
• 中英互译已上线
• 文言文翻译优化中
推理速度达到行业领先水平
• 填充33/s,解码10.6token/s,优于行业内领先的开源框架llama.cpp
落地到词典笔X7、X7 Pro
• 成为业界首款搭载离线大模型的词典笔,率先开启了词典笔部署本地大模型的新时代
38. 04
39.
40. 测试数据显示,在CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500等数据集上,
14B轻量级的“子曰3数学模型”各项得分均高于DeepSeek-R1等通用大模型。
尤其在GAOKAO-Bench(Math)这一基于高考数学题的大模型评测框架中,“子曰3数学模型”的得分高达98.5分。
41. 推理性能约为DeepSeek R1的15倍;
在消费级GPU即可运行;
服务成本每百万token低至0.15美元,远低于目前大多数通用大模型。
“子曰3数学模型”证明了在低成本情况下,在特定领域构建强大推理模型的可行性;
更广泛的教育机构和开发者都能以低成本部署专业级的数学AI应用。
42. 代码、模型、论文均已开源
欢迎开发者朋友们体验。
43.
44. Explore the limits of AI applications