盘古泰语大模型业务落地探索

1. 盘古泰语大模型业务落地探索华为2012文本机器翻译实验室 / 张敏

2.

3. 提纲 • 泰语大模型现状 • 盘古大模型支持泰语的实现 • 基于RAG的呼叫中心提效 • 基于Agent的个性化营销活动

4. 泰语大模型现状

5. 泰语大模型现状 • 2022年OpenAI ChatGPT的出现，率先展现出大模型的无限潜力，掀起了Decode-Only架构大模型的研究浪潮

6. 泰语大模型现状 • 目前的大模型主要以英文、中文为主，对中低资源语种的支持较少 • 目前支持泰语的大模型 • ChatGPT/GPT-4 • PolyLM • WangChanGLM • Typhoon

7. 泰语大模型现状 • 中低资源语种大模型的训练范式：以Typhoon为例 • Base LLM：Mistral-7B • 扩词表：增加5K泰语token • CPT（Continue PreTraining）：50/50比率的泰英数据 • SFT（ Supervised Fine-Tuning ）

8. 泰语大模型现状 • 泰语（低资源语种）大模型需求与发展的矛盾 • 语言使用人口数量高 vs.语言数据占比低语言人口数据 Llama 2：2万亿token语言分布

9. 泰语大模型现状 • 泰语（低资源语种）大模型需求与发展的矛盾 • 单语数据稀缺，训练资源昂贵 • 对话数据稀缺，尤其是多轮对话 • 人类偏好数据稀缺，RLHF训练繁琐 • 如何直接将高资源语言知识迁移至低资源语言？

10. 盘古大模型支持泰语的实现

11. 盘古大模型支持泰语的实现 • 再次思考CPT： • 只用泰语数据？ • 英文+泰语的混合 • ❌ 英文知识会被遗忘，等同重训 ✔️ 借助英文知识来加速泰语的学习能不能借助英文的知识来回答泰语的问题？ YES!

12. 盘古大模型支持泰语的实现 • 最朴素的实现方式 • 机器翻译 + 高资源语种大模型泰语Question 泰英翻译英语大模型 • Work Well • 问题：错误传递、文化风格、知识缺失等英泰翻译泰语Answer

13. 盘古大模型支持泰语的实现 • 再次思考思维链 • 把机器翻译做到LLM中，变成一种思维链（CoT） • Step1：将泰语问题翻译为英文问题 • Step2：LLM给出英文回答 • Step3：将英文答案翻译为泰语答案

14. 盘古大模型支持泰语的实现 • 基于思维链翻译（CoT-MT）的方式 • 把机器翻译通过LLM来实现，作为思维链 ü 利用LLM知识，翻译质量更好 ü 非级联系统，缓解错误传递 ü 实现泰语英语知识更好的对齐

15. 盘古大模型支持泰语的实现 • CoT-MT的三阶段训练策略 • 阶段1：扩展泰语词表，泰语数据CPT • 阶段2：英泰双向翻译训练 • • Sent_TH <EN> Sent_EN， Sent_EN <TH> Sent_TH 阶段3：翻译思维链SFT • Query_TH <EN> Query_EN <RESPONSE> Response_EN <TH> Response_TH • Query_EN <RESPONSE> Response_EN

16. 盘古大模型支持泰语的实现 • CoT-MT的训练方式 ü 盘古13B基座模型 ü 10B泰语数据 ü 100W英泰平行数据 ü SFT数据：Alpaca数据+翻译 ü LoRA方式训练

17. 盘古大模型支持泰语的实现 • • 问题：林先生在暹罗商业银行存有5万泰铢，定期存款3年，林先生能赚多少利息？ • SFT：存了3年，林将赚取11固定周的利息，成本为1利息。由于林有50,000泰铢，利息将是11利息，即11 x 11 x 5泰铢= 575泰铢，利息 575 泰铢 x 3 年 = 1725 泰铢 • CoT-MT：50,000泰铢的3年期定期存款的利息是根据此时的当前利率计算的，当前的利率是标准的0.03正常，所以林的3年期固定利息将是50,000泰铢x 0.03正常x 3 = 4,500泰铢。但是，利率定期波动。因此，有必要现在就查看当前的利率，看看最准确的利率。问题：有的月份有30天，有的月份有31天，有多少个月有28天？ • SFT：有 2 个月，共 28 天：二月。和十一月 • CoT-MT：闰年没有一个月有 28 天。常规日历格式一年有 365 天，常规日历格式闰年有 366 天。有 28 天的月份是二月。

18. 盘古大模型支持泰语的实现 • 实验结果 • 单轮对话能力 • 多轮对话能力 • 翻译能力 • 安全性

19. 盘古大模型支持泰语的实现 • AlpacaEval：GPT-4打分（0-10），仅差于GPT-4 • 5个不同数据集上的单轮对话问题

20. 盘古大模型支持泰语的实现 • MT-Bench：GPT-4打分（0-10）多轮能力强于ChatGPT • 高质量多轮对话测试集：8大类别

21. 盘古大模型支持泰语的实现 • MT-Bench：人工评测，代码和抽取能力项上弱于ChatGPT

22. 盘古大模型支持泰语的实现 • MT-Bench上的消融实验

23. 盘古大模型支持泰语的实现 • 第一轮：评价两款智能手机的提纲，少于200字 MT-Bench Case分析第二轮：将以上内容改写为五行打油诗(Limerick) ChatGPT重复第一轮答案： เ ร ิ ่ ม ต ้ นโ ด ย ร ะ น้ นท ี ่ ป ร ะ เ ด ็ น ม เ ร ็ ว ใ นก า ร ป ร ะ า ง ก ั น เ พื ่ อ ช ร แ ล ะ ก า ร ใ ช ้ ง า น บ ุ ช ส ํ า ม ว ล ผ ว ย ผ ข อ ง ต อ แ ล ะ ส เ ป ก ข อ ง ส ม า ร ัเ ช ่ น ก ล ้ อ ง ป ร ะ ส ิ ท ล แ ล ะ า ุ ณส ม บ ั ต ิ พ ิ เ อ ่ า นต ั ด ส ิ นใ จ ไ ด นเ อ ง Ours成功改写为打油诗： แ น ่ น อ น ! น ี ่ า ื อ โ า ล ง เ ก เ ท ี ย บ : า ร ั ้ ง ในึ ่ ง เ า ย ม ี ส ม า ร ด ้ ว ย า ุ ณส ม บ ั ต ิ ท ี ่ ท ํ ใ จ ร ิ ง จ อ แ ส ด ง ผ ล ข อ ง พว ก เ ข า ส ว ก ล ้ อ ง ถ ่ า ย ร ู ป ถ ่ า ย ภ า พ แ ล ะ ป ร ะ ส ิ ท ธ ิ ภ า พก ็ ส ม บ ย ว ก บ ส ม า ร ท โ ฟนส อ ง ร ุ ใ้ พว ก เ ข า เ ป ท โ ฟนท ธ ิ ภ า พข ศ ษอ ื ่ น ถ ู ก ต ้ อ ท โ ฟนส อ ง ร นท นส า ง แ ล ะ ช ั ด เ จ น ท ี ่ ร ั ก ม า ก ร ณ์ แ บ บ Sure! Here's a limerick about the two smartphones being compared: There once were two smartphones so fine, With features that made them truly divine. Their displays were bright and clear, Their cameras took pictures so dear, And their performance was simply divine. ย อ ด เ ย ง ศ ั ก ด ง ส อ ง อ ง แ บ ต เ ๆ ท ี ่ ท ง ต า ม า ว นท จ ต ํ า ถ ย ม ม า ก ส ิ ท ธ ิ า อ ใ ม ก ร ใ ต น แ อ นเ า ว า ต ก ต ง ก า ก เ ป ร อ ย ย บ า ง แ ท

24. 盘古大模型支持泰语的实现 • 翻译能力评估（FLORES测试集）模型 ChatGPT Transformer 盘古大模型语项英-泰英-泰英-泰 BLEU 31.26 36.27 33.99 COMET 0.8547 0.8506 0.8677 模型 ChatGPT Transformer 盘古大模型语项泰-英泰-英泰-英 BLEU 23.47 27.82 27.68 COMET 0.8629 0.8645 0.8697

25. 盘古大模型支持泰语的实现 • 安全性：在AdvBenchmark数据集上优于GPT-4 • 攻击大模型数据集

26. 基于RAG的呼叫中心提效

27. 基于RAG的呼叫中心提效 • 泰国金融客户：通过大模型更好的整合客户数据，提升效果 Onebox, Sharepoint, Excel, and etc 0 How to report the loss of a credit card CUSTOMER AS-IS Manual Search is inefficient 1 How to cancel a credit card Contact Center Agent (Manual customer) API and GUI 2 To-Be Intelligent Search Pangu LLM How to cancel a credit card 3 Summarize the task problems and solution To cancel a credit card here are the steps… Work order system

28. 基于RAG的呼叫中心提效 • KooSearch：大模型时代的搜索引擎

29. 基于RAG的呼叫中心提效 • 我们的方案：KooSearch + Pangu LLM Solution highlights: ü KTC knowledge-based RAG----Accurate ü KooSearch+Pangu LLM as an assistant------Intelligent ü Answer output in seconds----------Efficient ü Both Thailand and English supported-----Bilingual Q1A1 Q2A2 Q3A3 … Direct output when the matching threshold is reached KTC service-related questions Query Answer Search for Top N possible answers Query classification Generate the final answer Chat User Pangu AI

30. 基于RAG的呼叫中心提效 • 关键技术指标 • Query分类（2分类：业务QA+闲聊QA）：F1 0.99 • 业务QA（问题解决率）：人工评测90%，可基本满足业务需要 • 闲聊QA（多轮能力）：人工评测达GPT-4的80分位

31. 基于Agent的个性化营销活动

32. 基于Agent的个性化营销活动客户需求 Ø 个性化商家推荐 Ø 商家精确信息查询 Ø Query理解：NL2SQL Ø Agent调用

33. 基于Agent的个性化营销活动方案拆解：让大模型做擅长的事情

34.

35.

36. 大模型比赛成绩个性化营销活动 • • SemEval 2024 国际语义评测大赛 • 大模型法律领域知识推理任务，第一名 • 无监督语义相似度旁遮普语项，第一名 • 大模型反常识推理任务，第二名 ACL 2024 Shared Task • • 基于大模型的知识图谱问答比赛，第二名 WSDM 2024 CUP • 基于大模型的多文档问答比赛，第三名

37.

38.