机器翻译在字节跳动的探索与应用实践

1. 机器翻译在字节跳动的探索与应用实践韦泽逊字节跳动算法工程师 2021/10/30 1

2. 1. 机器翻译在字节跳动的应用 2. 火山翻译的自研前沿技术 2 2

3. 3 机器翻译在字节跳动的应用

4. 火山翻译：字节跳动旗下的机器翻译品牌 4 火山翻译是字节跳动旗下企业级技术服务平台火山引擎的核心 AI 中台能力之一，依托百亿数据积累和前沿技术创新，提供先进的翻译技术与服务，打造各大场景智能翻译解决方案。图片区域日均调用量超百亿字符日服务用户 5000 万人支持字节内部业务方 280 余个 www.volcengine.com

5. 火山翻译：支持 56 种语言互译 5 5 www.volcengine.com

6. 火山翻译：在专业比赛中斩获头名 6 6 国际机器翻译大赛（WMT）由国际计算语言学协会 (ACL) 举办，是全球学术界公认的国际顶级机器翻译比赛，包括微软、Facebook、Google DeepMind、腾讯、华为等公司都会参赛。整个评估过程由多名经验丰富的语言学家进行，并需要对分数进行标准化加权，历时四个月，具有非常高的置信度。火山翻译团队在 2020 年拿下了包括「中文-英文」语向翻译（参赛队伍最多、竞争最为激烈的方向之一）在内的 7 项冠军。 www.volcengine.com

7. 火山翻译：Translate everything! 7 7 万物皆可翻：文本：新闻、邮件、聊天、在线文档…… 图像：图片、拍照、Meme…… 视频：视频内容、字幕打轴…… 直播：语音会议、直播同传…… www.volcengine.com

8. 火山翻译：任何文字，所见即所译聊天翻译图片区域 8 文档/邮件翻译图片区域 www.volcengine.com

9. 目前市面上的翻译系统都以句为单位，会忽略上下文信息图片区域 9 图片区域 www.volcengine.com

10. 火山翻译：上下文友好型翻译 10 www.volcengine.com

11. 火山翻译：各类图像，内容无损翻译图片翻译图片区域 11 拍照翻译图片区域 www.volcengine.com

12. 火山翻译：长短视频，自动生成+人工提效 12 短视频翻译图片区域图片区域 www.volcengine.com

13. 火山翻译：长短视频，自动生成+人工提效短视频翻译图片区域 13 交互式翻译帮助译员配字幕图片区域 www.volcengine.com

14. 火山翻译：流式场景，实时翻译语音会议实时翻译图片区域 14 同传直播翻译图片区域 www.volcengine.com

15. 火山翻译：业界领先的机器翻译团队 15 15 www.volcengine.com

16. 16 火山翻译的自研前沿技术

17. 神经机器翻译（Neural Machine Translation） 17 17 训练数据：平行语料源端的编码器（encoder）将离散的输入单词转化为连续的向量表示，经过深层神经网络的计算，由目标端的解码器（decoder）按词表的概率分布生成离散化的单词 www.volcengine.com

18. 火山翻译的自研前沿技术 • 多：多语言预训练模型 mRASP • 快：训练推理加速引擎 LightSeq • 好：桥接预训练模型 Graformer • 省：绿色词表模型 VOLT 18 18 www.volcengine.com

19. 多：多语言预训练模型 mRASP 19 19 www.volcengine.com

20. mRASP: multilingual Random Aligned Substitution Pre-training 20 20 1. m~P: Multilingual Pre-training and Bilingual Fine-tuning 2. RAS: Random Aligned Substitution, specially designed training method to align semantic embeddings Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com

21. mRASP: multilingual Random Aligned Substitution Pre-training Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 21 21 www.volcengine.com

22. mRASP 优于其他相关工作 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 22 22 www.volcengine.com

23. mRASP 在低资源语对上具有极大的提升 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 23 23 www.volcengine.com

24. 多：多语言预训练模型 mRASP 24 24 通过多个语言的共同预训练增加各语向之间的翻译能力已在火山翻译的多语言模型中得到应用 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com

25. 快：训练推理加速引擎 LightSeq 25 25 训练时间长推理延迟高成本高昂 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

26. 26 Seq2seq 模型包括：序列编码模块特征计算和自回归的解码算法 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] 26 www.volcengine.com

27. 模型计算的瓶颈 27 27 1. IO 密集型计算（如 Reshape 和 Layer Normalization）的细粒度核函数调用带来大量冗余显存读写，成为特征计算性能瓶颈。 2. 复杂动态 shape 为计算图优化带来挑战，导致模型推理期间大量显存动态申请，耗时较高。 3. 解码生成每一步字符过程逻辑复杂，难以并行化计算从而发挥硬件优势。 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

28. 算子融合 28 28 矩阵乘法之间的运算全部都用一个定制化核函数实现，大大减少了核函数调用和显存读写 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

29. 动态显存复用 29 29 1. 对动态维度限定最大值，如序列长度。 2. 模型加载时分配所有张量显存，对动态维度，按最大值分配。 3. 计算图优化，对无依赖张量复用显存一张 T4 显卡上，LightSeq 可以同时部署多达 8 个 Transformer big 模型 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

30. 层级式解码计算 30 30 生成阶段需要对单词的概率进行排序 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

31. 层级式解码计算 31 31 粗排精排 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

32. 加速效果 32 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] 32 www.volcengine.com

33. 快：训练推理加速引擎 LightSeq 33 33 LightSeq 已经应用于火山翻译、搜索、广告、推荐、教育、电商等公司内部业务，并在开源社区获得大量关注（1.7K+ Star）。 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com

34. 好：桥接预训练模型 Graformer 34 34 双语语料 ≪ 单语语料利用单语语料： Pre-training encoder / decoder (BERT / GPT) www.volcengine.com

35. 通过 Pre-trained models 来利用单语语料 35 Hallo! Hello! German English BERT GPT Grafting Chinese 35 French Bonjour! www.volcengine.com

36. 难点：模型架构不一致 36 36 Feed-forward Network Feed-forward Network ? Cross Attention Self Attention Self Attention Pre-trained (Masked) Language Models Translation Decoder www.volcengine.com

37. tention 相关工作：可行，但次优 37 37 ERT/GPT Feed-forward Network Feed-forward Network Cross Attention Self Attention Self Attention × N × N BERT BERT/GPT www.volcengine.com

38. Graformer：嫁接预训练模型，保留原始架构 38 38 Softmax 1. 保留预训练模型的原始架构 --> Feed-forward Network 最大程度利用预训练模型生成能力 Cross Attention Feed-forward Network 2. 将预训练的语言模型输出与翻译模型输出合并 ✖ K ✖ K Self Attention Self Attention mBERT mGPT --> 利用大规模语言模型的生成能力改善翻译 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com

39. 在 x ->en 语向上有平均 5.8 个 BLEU 的提升 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] 39 39 www.volcengine.com

40. 单语越多，提升越大 40 40 横坐标：单语量与双语量的比例纵坐标：提升量 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com

41. 有效提升零资源翻译 41 41 在德英上训练在法英上推理提升 13.4 个 BLEU Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com

42. 多：多语言预训练模型 mRASP 42 42 通过嫁接预训练模型有效利用海量单语语料已在视频翻译、飞书翻译中得到应用 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com

43. 省：绿色词表模型 VOLT 43 43 词表大、容易覆盖不全序列会非常长 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

44. 省：绿色词表模型 VOLT 44 44 词表大、容易覆盖不全序列会非常长粒度多细？ Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

45. 信息学的角度：减少每字比特的熵！ 45 45 词表大小的本质：用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC)： Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

46. 信息学的角度：减少每字比特的熵！ 46 46 词表大小的本质：用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC)：小 IPC 更优，但词表更大。 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

47. 信息学的角度：减少每字比特的熵！ 47 47 词表大小的本质：用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC)：小 IPC 更高效，但词表更大。什么是最优？词表的边际信息熵最大！ Marginal Utility of information for Vocabulary (MUV)： MUV = IPC 对词表大小的梯度 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

48. 词表的边际信息熵与 BLEU 的分布有相似的规律 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 48 48 www.volcengine.com

49. 最优此表 --> 最大化 MUV --> ? 49 49 过大的搜索空间是不可接受的 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

50. 最优此表 --> 最大化 MUV --> 最优传输 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 50 50 www.volcengine.com

51. 最优此表 --> 最大化 MUV --> 最优传输 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 51 51 www.volcengine.com

52. VOLT 在维持 BLEU 表现的前提下显著减小了所需的词表大小 52 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 52 www.volcengine.com

53. 省：绿色词表模型 VOLT 53 53 通过减少词表大小显著减少模型参数量和计算量被录用为 ACL 2021 Best Paper Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

54. 火山翻译 54 54 火山翻译的应用场景：万物皆可翻火山翻译的自研技术：多快好省 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com

55. 欢迎加入 55 扫码关注扫码关注 “火山引擎开发者社区”公众号 “火山翻译”公众号 55 www.volcengine.com

56. www.volcengine.com