机器翻译在字节跳动的探索与应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 机器翻译在字节跳动
的探索与应用实践
韦泽逊
字节跳动算法工程师
2021/10/30
1
2. 1. 机器翻译在字节跳动的应用
2. 火山翻译的自研前沿技术
2
2
3. 3
机器翻译在字节跳动的应用
4. 火山翻译:字节跳动旗下的机器翻译品牌
4
火山翻译是字节跳动旗下企业级技术服务平
台火山引擎的核心 AI 中台能力之一,依托
百亿数据积累和前沿技术创新,提供先进的
翻译技术与服务,打造各大场景智能翻译解
决方案。
图片区域
日均调用量超百亿字符
日服务用户 5000 万人
支持字节内部业务方 280 余个
www.volcengine.com
5. 火山翻译:支持 56 种语言互译
5
5
www.volcengine.com
6. 火山翻译:在专业比赛中斩获头名
6
6
国际机器翻译大赛(WMT)由国际计算语言学协会 (ACL) 举办,是全球学术界
公认的国际顶级机器翻译比赛,包括微软、Facebook、Google DeepMind、
腾讯、华为等公司都会参赛。
整个评估过程由多名经验丰富的语言学家进行,并需要对分数进行标准化加权,历
时四个月,具有非常高的置信度。
火山翻译团队在 2020 年拿下了包括「中文-英文」语向翻译(参赛队伍最多、竞
争最为激烈的方向之一)在内的 7 项冠军。
www.volcengine.com
7. 火山翻译:Translate everything!
7
7
万物皆可翻:
文本:新闻、邮件、聊天、在线文档……
图像:图片、拍照、Meme……
视频:视频内容、字幕打轴……
直播:语音会议、直播同传……
www.volcengine.com
8. 火山翻译:任何文字,所见即所译
聊天翻译
图片区域
8
文档/邮件翻译
图片区域
www.volcengine.com
9. 目前市面上的翻译系统都以句为单位,会忽略上下文信息
图片区域
9
图片区域
www.volcengine.com
10. 火山翻译:上下文友好型翻译
10
www.volcengine.com
11. 火山翻译:各类图像,内容无损翻译
图片翻译
图片区域
11
拍照翻译
图片区域
www.volcengine.com
12. 火山翻译:长短视频,自动生成+人工提效
12
短视频翻译
图片区域
图片区域
www.volcengine.com
13. 火山翻译:长短视频,自动生成+人工提效
短视频翻译
图片区域
13
交互式翻译帮助译员配字幕
图片区域
www.volcengine.com
14. 火山翻译:流式场景,实时翻译
语音会议实时翻译
图片区域
14
同传直播翻译
图片区域
www.volcengine.com
15. 火山翻译:业界领先的机器翻译团队
15
15
www.volcengine.com
16. 16
火山翻译的自研前沿技术
17. 神经机器翻译(Neural Machine Translation)
17
17
训练数据:平行语料
源端的编码器(encoder)将离散的输入单
词转化为连续的向量表示,经过深层神经网
络的计算,由目标端的解码器(decoder)
按词表的概率分布生成离散化的单词
www.volcengine.com
18. 火山翻译的自研前沿技术
• 多:多语言预训练模型 mRASP
• 快:训练推理加速引擎 LightSeq
• 好:桥接预训练模型 Graformer
• 省:绿色词表模型 VOLT
18
18
www.volcengine.com
19. 多:多语言预训练模型 mRASP
19
19
www.volcengine.com
20. mRASP: multilingual Random Aligned Substitution Pre-training
20
20
1. m~P: Multilingual Pre-training and Bilingual Fine-tuning
2. RAS: Random Aligned Substitution, specially designed training
method to align semantic embeddings
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
www.volcengine.com
21. mRASP: multilingual Random Aligned Substitution Pre-training
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
21
21
www.volcengine.com
22. mRASP 优于其他相关工作
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
22
22
www.volcengine.com
23. mRASP 在低资源语对上具有极大的提升
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
23
23
www.volcengine.com
24. 多:多语言预训练模型 mRASP
24
24
通过多个语言的共同预训练增加各语向之间的翻译能力
已在火山翻译的多语言模型中得到应用
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
www.volcengine.com
25. 快:训练推理加速引擎 LightSeq
25
25
训练时间长
推理延迟高
成本高昂
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
26. 26
Seq2seq 模型包括:序列编码模块特征计算和自回归的解码算法
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
26
www.volcengine.com
27. 模型计算的瓶颈
27
27
1. IO 密集型计算(如 Reshape 和 Layer Normalization)的细粒度核函数调用
带来大量冗余显存读写,成为特征计算性能瓶颈。
2. 复杂动态 shape 为计算图优化带来挑战,导致模型推理期间大量显存动态申请,
耗时较高。
3. 解码生成每一步字符过程逻辑复杂,难以并行化计算从而发挥硬件优势。
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
28. 算子融合
28
28
矩阵乘法之间的运算全部都用
一个定制化核函数实现,大大
减少了核函数调用和显存读写
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
29. 动态显存复用
29
29
1. 对动态维度限定最大值,如序列长度。
2. 模型加载时分配所有张量显存,对动态维度,按最大值分配。
3. 计算图优化,对无依赖张量复用显存
一张 T4 显卡上,LightSeq 可以同时部署多达 8 个 Transformer big 模型
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
30. 层级式解码计算
30
30
生成阶段需要对单词的概率进行排序
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
31. 层级式解码计算
31
31
粗排
精排
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
32. 加速效果
32
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
32
www.volcengine.com
33. 快:训练推理加速引擎 LightSeq
33
33
LightSeq 已经应用于火山翻译、搜索、广告、推荐、教育、电商等
公司内部业务,并在开源社区获得大量关注(1.7K+ Star)。
LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry
2021]
www.volcengine.com
34. 好:桥接预训练模型 Graformer
34
34
双语语料 ≪ 单语语料
利用单语语料:
Pre-training encoder / decoder
(BERT / GPT)
www.volcengine.com
35. 通过 Pre-trained models 来利用单语语料
35
Hallo! Hello!
German English
BERT
GPT
Grafting
Chinese
35
French
Bonjour!
www.volcengine.com
36. 难点:模型架构不一致
36
36
Feed-forward
Network
Feed-forward
Network
?
Cross
Attention
Self Attention
Self Attention
Pre-trained (Masked)
Language Models
Translation Decoder
www.volcengine.com
37. tention
相关工作:可行,但次优
37
37
ERT/GPT
Feed-forward
Network
Feed-forward
Network Cross
Attention
Self Attention Self Attention
× N
× N
BERT
BERT/GPT
www.volcengine.com
38. Graformer:嫁接预训练模型,保留原始架构
38
38
Softmax
1. 保留预训练模型的原始架构
-->
Feed-forward
Network
最大程度利用预训练模型生成能力
Cross
Attention
Feed-forward
Network
2. 将预训练的语言模型输出与翻译模
型输出合并
✖ K
✖ K
Self Attention Self Attention
mBERT mGPT
-->
利用大规模语言模型的生成能力改
善翻译
Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP
2021]
www.volcengine.com
39. 在 x ->en 语向上有平均 5.8 个 BLEU 的提升
Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP
2021]
39
39
www.volcengine.com
40. 单语越多,提升越大
40
40
横坐标:
单语量与双语量的比例
纵坐标:
提升量
Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP
2021]
www.volcengine.com
41. 有效提升零资源翻译
41
41
在德英上训练
在法英上推理
提升 13.4 个 BLEU
Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP
2021]
www.volcengine.com
42. 多:多语言预训练模型 mRASP
42
42
通过嫁接预训练模型有效利用海量单语语料
已在视频翻译、飞书翻译中得到应用
Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [Lin et al., EMNLP 2020]
www.volcengine.com
43. 省:绿色词表模型 VOLT
43
43
词表大、容易覆盖不全
序列会非常长
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
44. 省:绿色词表模型 VOLT
44
44
词表大、容易覆盖不全
序列会非常长
粒度多细?
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
45. 信息学的角度:减少每字比特的熵!
45
45
词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵
Information per char (IPC):
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
46. 信息学的角度:减少每字比特的熵!
46
46
词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵
Information per char (IPC):
小 IPC 更优,但词表更大。
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
47. 信息学的角度:减少每字比特的熵!
47
47
词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵
Information per char (IPC):
小 IPC 更高效,但词表更大。
什么是最优?词表的边际信息熵最大!
Marginal Utility of information for
Vocabulary (MUV):
MUV = IPC 对词表大小的梯度
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
48. 词表的边际信息熵与 BLEU 的分布有相似的规律
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
48
48
www.volcengine.com
49. 最优此表 --> 最大化 MUV --> ?
49
49
过大的搜索空间是不可接受的
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
50. 最优此表 --> 最大化 MUV --> 最优传输
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
50
50
www.volcengine.com
51. 最优此表 --> 最大化 MUV --> 最优传输
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
51
51
www.volcengine.com
52. VOLT 在维持 BLEU 表现的前提下显著减小了所需的词表大小 52
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
52
www.volcengine.com
53. 省:绿色词表模型 VOLT
53
53
通过减少词表大小显著减少模型参数量和计算量
被录用为 ACL 2021 Best Paper
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
54. 火山翻译
54
54
火山翻译的应用场景:万物皆可翻
火山翻译的自研技术:多快好省
Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021]
www.volcengine.com
55. 欢迎加入
55
扫码关注 扫码关注
“火山引擎开发者社区”公众号 “火山翻译”公众号
55
www.volcengine.com
56. www.volcengine.com