机器翻译在字节跳动的探索与应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 机器翻译在字节跳动 的探索与应用实践 韦泽逊 字节跳动算法工程师 2021/10/30 1
2. 1. 机器翻译在字节跳动的应用 2. 火山翻译的自研前沿技术 2 2
3. 3 机器翻译在字节跳动的应用
4. 火山翻译:字节跳动旗下的机器翻译品牌 4 火山翻译是字节跳动旗下企业级技术服务平 台火山引擎的核心 AI 中台能力之一,依托 百亿数据积累和前沿技术创新,提供先进的 翻译技术与服务,打造各大场景智能翻译解 决方案。 图片区域 日均调用量超百亿字符 日服务用户 5000 万人 支持字节内部业务方 280 余个 www.volcengine.com
5. 火山翻译:支持 56 种语言互译 5 5 www.volcengine.com
6. 火山翻译:在专业比赛中斩获头名 6 6 国际机器翻译大赛(WMT)由国际计算语言学协会 (ACL) 举办,是全球学术界 公认的国际顶级机器翻译比赛,包括微软、Facebook、Google DeepMind、 腾讯、华为等公司都会参赛。 整个评估过程由多名经验丰富的语言学家进行,并需要对分数进行标准化加权,历 时四个月,具有非常高的置信度。 火山翻译团队在 2020 年拿下了包括「中文-英文」语向翻译(参赛队伍最多、竞 争最为激烈的方向之一)在内的 7 项冠军。 www.volcengine.com
7. 火山翻译:Translate everything! 7 7 万物皆可翻: 文本:新闻、邮件、聊天、在线文档…… 图像:图片、拍照、Meme…… 视频:视频内容、字幕打轴…… 直播:语音会议、直播同传…… www.volcengine.com
8. 火山翻译:任何文字,所见即所译 聊天翻译 图片区域 8 文档/邮件翻译 图片区域 www.volcengine.com
9. 目前市面上的翻译系统都以句为单位,会忽略上下文信息 图片区域 9 图片区域 www.volcengine.com
10. 火山翻译:上下文友好型翻译 10 www.volcengine.com
11. 火山翻译:各类图像,内容无损翻译 图片翻译 图片区域 11 拍照翻译 图片区域 www.volcengine.com
12. 火山翻译:长短视频,自动生成+人工提效 12 短视频翻译 图片区域 图片区域 www.volcengine.com
13. 火山翻译:长短视频,自动生成+人工提效 短视频翻译 图片区域 13 交互式翻译帮助译员配字幕 图片区域 www.volcengine.com
14. 火山翻译:流式场景,实时翻译 语音会议实时翻译 图片区域 14 同传直播翻译 图片区域 www.volcengine.com
15. 火山翻译:业界领先的机器翻译团队 15 15 www.volcengine.com
16. 16 火山翻译的自研前沿技术
17. 神经机器翻译(Neural Machine Translation) 17 17 训练数据:平行语料 源端的编码器(encoder)将离散的输入单 词转化为连续的向量表示,经过深层神经网 络的计算,由目标端的解码器(decoder) 按词表的概率分布生成离散化的单词 www.volcengine.com
18. 火山翻译的自研前沿技术 • 多:多语言预训练模型 mRASP • 快:训练推理加速引擎 LightSeq • 好:桥接预训练模型 Graformer • 省:绿色词表模型 VOLT 18 18 www.volcengine.com
19. 多:多语言预训练模型 mRASP 19 19 www.volcengine.com
20. mRASP: multilingual Random Aligned Substitution Pre-training 20 20 1. m~P: Multilingual Pre-training and Bilingual Fine-tuning 2. RAS: Random Aligned Substitution, specially designed training method to align semantic embeddings Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com
21. mRASP: multilingual Random Aligned Substitution Pre-training Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 21 21 www.volcengine.com
22. mRASP 优于其他相关工作 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 22 22 www.volcengine.com
23. mRASP 在低资源语对上具有极大的提升 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] 23 23 www.volcengine.com
24. 多:多语言预训练模型 mRASP 24 24 通过多个语言的共同预训练增加各语向之间的翻译能力 已在火山翻译的多语言模型中得到应用 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com
25. 快:训练推理加速引擎 LightSeq 25 25 训练时间长 推理延迟高 成本高昂 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
26. 26 Seq2seq 模型包括:序列编码模块特征计算和自回归的解码算法 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] 26 www.volcengine.com
27. 模型计算的瓶颈 27 27 1. IO 密集型计算(如 Reshape 和 Layer Normalization)的细粒度核函数调用 带来大量冗余显存读写,成为特征计算性能瓶颈。 2. 复杂动态 shape 为计算图优化带来挑战,导致模型推理期间大量显存动态申请, 耗时较高。 3. 解码生成每一步字符过程逻辑复杂,难以并行化计算从而发挥硬件优势。 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
28. 算子融合 28 28 矩阵乘法之间的运算全部都用 一个定制化核函数实现,大大 减少了核函数调用和显存读写 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
29. 动态显存复用 29 29 1. 对动态维度限定最大值,如序列长度。 2. 模型加载时分配所有张量显存,对动态维度,按最大值分配。 3. 计算图优化,对无依赖张量复用显存 一张 T4 显卡上,LightSeq 可以同时部署多达 8 个 Transformer big 模型 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
30. 层级式解码计算 30 30 生成阶段需要对单词的概率进行排序 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
31. 层级式解码计算 31 31 粗排 精排 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
32. 加速效果 32 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] 32 www.volcengine.com
33. 快:训练推理加速引擎 LightSeq 33 33 LightSeq 已经应用于火山翻译、搜索、广告、推荐、教育、电商等 公司内部业务,并在开源社区获得大量关注(1.7K+ Star)。 LightSeq: A High Performance Inference Library for Transformers [Wang et al., NAACL-Industry 2021] www.volcengine.com
34. 好:桥接预训练模型 Graformer 34 34 双语语料 ≪ 单语语料 利用单语语料: Pre-training encoder / decoder (BERT / GPT) www.volcengine.com
35. 通过 Pre-trained models 来利用单语语料 35 Hallo! Hello! German English BERT GPT Grafting Chinese 35 French Bonjour! www.volcengine.com
36. 难点:模型架构不一致 36 36 Feed-forward Network Feed-forward Network ? Cross Attention Self Attention Self Attention Pre-trained (Masked) Language Models Translation Decoder www.volcengine.com
37. tention 相关工作:可行,但次优 37 37 ERT/GPT Feed-forward Network Feed-forward Network Cross Attention Self Attention Self Attention × N × N BERT BERT/GPT www.volcengine.com
38. Graformer:嫁接预训练模型,保留原始架构 38 38 Softmax 1. 保留预训练模型的原始架构 --> Feed-forward Network 最大程度利用预训练模型生成能力 Cross Attention Feed-forward Network 2. 将预训练的语言模型输出与翻译模 型输出合并 ✖ K ✖ K Self Attention Self Attention mBERT mGPT --> 利用大规模语言模型的生成能力改 善翻译 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com
39. 在 x ->en 语向上有平均 5.8 个 BLEU 的提升 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] 39 39 www.volcengine.com
40. 单语越多,提升越大 40 40 横坐标: 单语量与双语量的比例 纵坐标: 提升量 Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com
41. 有效提升零资源翻译 41 41 在德英上训练 在法英上推理 提升 13.4 个 BLEU Multilingual Translation via Grafting Pre-trained Language Models [Sun et al., EMNLP 2021] www.volcengine.com
42. 多:多语言预训练模型 mRASP 42 42 通过嫁接预训练模型有效利用海量单语语料 已在视频翻译、飞书翻译中得到应用 Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [Lin et al., EMNLP 2020] www.volcengine.com
43. 省:绿色词表模型 VOLT 43 43 词表大、容易覆盖不全 序列会非常长 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
44. 省:绿色词表模型 VOLT 44 44 词表大、容易覆盖不全 序列会非常长 粒度多细? Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
45. 信息学的角度:减少每字比特的熵! 45 45 词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC): Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
46. 信息学的角度:减少每字比特的熵! 46 46 词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC): 小 IPC 更优,但词表更大。 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
47. 信息学的角度:减少每字比特的熵! 47 47 词表大小的本质:用最少的词表达最多的信息、最大程度地减少句子的熵 Information per char (IPC): 小 IPC 更高效,但词表更大。 什么是最优?词表的边际信息熵最大! Marginal Utility of information for Vocabulary (MUV): MUV = IPC 对词表大小的梯度 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
48. 词表的边际信息熵与 BLEU 的分布有相似的规律 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 48 48 www.volcengine.com
49. 最优此表 --> 最大化 MUV --> ? 49 49 过大的搜索空间是不可接受的 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
50. 最优此表 --> 最大化 MUV --> 最优传输 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 50 50 www.volcengine.com
51. 最优此表 --> 最大化 MUV --> 最优传输 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 51 51 www.volcengine.com
52. VOLT 在维持 BLEU 表现的前提下显著减小了所需的词表大小 52 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] 52 www.volcengine.com
53. 省:绿色词表模型 VOLT 53 53 通过减少词表大小显著减少模型参数量和计算量 被录用为 ACL 2021 Best Paper Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
54. 火山翻译 54 54 火山翻译的应用场景:万物皆可翻 火山翻译的自研技术:多快好省 Vocabulary Learning via Optimal Transport for Neural Machine Translation [Xu et al., ACL 2021] www.volcengine.com
55. 欢迎加入 55 扫码关注 扫码关注 “火山引擎开发者社区”公众号 “火山翻译”公众号 55 www.volcengine.com
56. www.volcengine.com

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 21:06
浙ICP备14020137号-1 $Map of visitor$