山海医疗大模型的构建及其应用实践

1. 山海医疗大模型的构建及其应用实践刘升平发VP 云知声AI Labs 研

2.

3.

4. 56.53% vs. 73.71% [2302.10724] ChatGPT: Jack of all trades, master of none

5.

6. 行业大模型企业级大模型应用级大模型面向行业面向企业需求面向应用或场景基于行业知识和任务优化接入企业私有数据，文档和服务基于所需特定能力优化成为行业专家企业私有化部署通用大模型通用能力，探索AGI的边界六边形战士

7. 类型通用医学文本临床多模态生物药物发布者模型名称模型大小/基座模型智谱AI ChatGLM 开源6B，商用达130B 云知声山海商用13B，70B 百度文心一言 260B 港中（深）、深圳大数据研究院华佗GPT- 13B/7B Ziya-LLaMA-13B-Pretrain- v1/Baichuan-7B 本草BenTsao LLaMA-7B/Bloom-7B/活字 1.0/Alpaca-Chinese-7B5 医联 MedGPT LLaMA/BLOOMZ/Baichuan/ Qwen/ChatGLM/XVERSE/Inte rnLM 训练方式预训练-指令微调- RLHF 预训练-指令微调- RLHF 训练数据补充了图谱基于医患对话与 ChatGPT薅羊毛 , 进行指令微调通过医学知识图谱与薅羊毛，进行指令微调二次预训练指令微调 RLHF DPO 上海AI Lab、华东理工，上海交通等 OpenMedLab/ PULSE 开源采用 bloomz-7b1-mt 医书，考题等指令微调澳门理工大学 XrayGLM OpenMEDLab/ Xrayplus 盘古药物分子大模型 VisualGLM-6B 指令微调使用MIMIC- CXR/OpenI数据从2维到SMILE序列的转换在文本模型上融合生信多模态的编码器哈工大上海AI Lab 华为清华大学智能产业研究院 Bio-medGPT Pulse Ecoder-Decoder架构 LLaMA2以及各种模态的编码器，大约10B 下游任务与特点多行业，多场景多行业，多场景多行业，多场景医疗问答医疗领域问答与医联的已有各种下游任务融合健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗影像诊断、多轮问答报告生成，多模态会话成药性预测分子、基因以及蛋白的各种知识问答四类医疗大模型： • 通用模型数据来源有医学知识，能做医学问答。 • 医学文本模型在通用开源模型上，补充医学文本做二次预训练或指令微调。 • 临床多模态模型融合医学文本模型与影像数据。 • 生物医药模型编码分子、基因与蛋白，再与文本模型融合。

8. PromptCBLUE的目标是评估LLM在不同医疗任务的总体表现，其中包括医疗文本信息抽取、医疗术语归一化、医学文本分类、医疗对话理解与生成 4大类问题共计16个子任务。排名参与者组织 score CMeEE- V2- Micro- F1 CMeIE- Micro- F1 CHIP- CDN- Micro- F1 CHIP- CDEE- Micro- F1 IMCS- CHIP- V2-NER- MDCFNPC Micro- -Micro- F1 F1 IMCS- V2-SR- Micro- F1 IMCS- V2-DAC- Macro- F1 CHIP- CTC- Macro- F1 CHIP- STS- Micro- F1 KUAKE- IR- Micro- F1 KUAKE- QIC- Macro- F1 KUAKE- QQR- Micro- F1 KUAKE- QTR- Micro- F1 MedDG- RougeL IMCS- V2-MRG- RougeL 1 UNIGPT-MED 云知声 73.91 71.85 64.67 92.99 66.67 89.58 81.98 72.98 100.00 72.31 84.85 89.79 94.27 77.68 63.11 9.55 50.25 2 UPSIDE- DOWN 国网信产 72.54 福建亿榕 70.34 51.79 92.33 67.88 90.21 82.71 71.41 100.00 78.12 85.52 87.26 84.98 77.76 61.92 8.76 49.62 3 hhhhhh 惠每科技 72.28 68.25 54.96 87.69 67.05 89.78 82.60 70.50 100.00 76.95 84.17 86.73 90.56 76.51 60.77 11.87 48.13

9. • 12个开源数据集包含了六种生物医学数据模式（文本、放射学（CT、MRI和X 光）、病理学、皮肤病学、乳房X光检查和基因组学）， • 14个任务涵盖五种类型（问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用）。 [2307.14334] Towards Generalist Biomedical AI (arxiv.org)

10.

11. 按能力划分大模型能力应用场景核心难点文本生成能力病历文书生成系统检查检验报告单生成系统医学文献写作系统减少文书生成的幻觉长文本写作的规划能力文本理解能力临床数据中心和专病库的数据自动化抽取, 不良事件自动发现、单病种上报病历文本后结构化的精准性（实体、关系、事件抽取）医疗专业知识能力患者教育、医患沟通建议、医学知识助手（医疗知识咨询、检查检验报告解读，用药指南）知识回答的有用性、精准性可解释性临床推理决策能力面向患者的虚拟医生（导诊和问诊）、临床辅助决策（诊断和治疗方案推荐）、病历质控（包括病案首页、医保结算清单）决策的鲁棒性，可解释性，低幻觉

12. 医患对话门诊病历角色分离+语音识别山海医疗大模型对话文本生成摘要生成病历

13.

14. 大语言模型可以帮助医学生和医生了解最新的医学研究成果和治疗方法，提高医疗水平。实时更新个性化推荐教育与培训

15. 大语言模型可以根据患者的病情和药物信息，帮助患者正确用药。症状分析药物匹配副作用提示用药提醒

16. 1.阅读理解病历 • 病历后结构化 • 术语归一化 2.结合医疗知识和病历书写规范 • 医疗知识图谱 • 病历书写规则 3.发现病历中的内涵错误 • 不完整 • 不一致 • 不正确 • 不合理

17. 内置25类审核点，80000+审核规则，可根据不同地市进行审核规则选择与配置

18. 大语言模型结合患者的基因信息、病史和症状，可以为患者制定个性化的治疗方案。数据分析与理解个性化治疗方案推荐副作用提示辅助决策

19.

20. 模型训练阶段预训练微调数据工程模型应用阶段对齐推理（解码）提示工程算力工程检索增强

21. 6种武器黑盒（调用大模型API） 1种秘方 1. 提示工程 2. 检索增强 3. 指令微调可修改模型参数 4. 对齐（反馈学习） 5. 增量预训练可修改解码器 6. 解码策略数据生产、选择与配比

22. 先让大模型“深吸一口气，再一步一步思考”，会更聪明 [2309.03409] Large Language Models as Optimizers

23. 给大模型来点情感激励（PUA），它也会更聪明 [2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli

24. 给大模型来点情感激励（PUA），它也会更聪明 [2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli

25. [2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (arxiv.org)

26. [2306.06427] Boosting Language Models Reasoning with Chain-of-Knowledge Prompting (arxiv.org)

27. [2301.00234] A Survey on In-context Learning (arxiv.org)

28. 王昊奋：知识增强大模型：垂域落地的最后一公里

29.

30. [2312.10997] Retrieval-Augmented Generation for Large Language Models: A Survey (arxiv.org)

31. NLP任务训练数据对话数据机器合成数据

32. 生成方式特点缺点方法直接使用大模型适用模型本身的知识直接生成丰富的数据，方法简单生成多轮对话数据存在信息少的问题；幻觉问题 Self-Instruct，Self- Align，Evol-Instruct 利用外部知识通过具体的外部知识（如科普文章、法律案件）生成更准确的数据、减少幻觉需要构建外部知识库和检索系统；外部知识不一定有用 Self-QA ChatDoctor，ChatLaw 对话迭代通过多模型模拟用户迭代进行对话，提升对话内容的信息量方法较为复杂，需要构造或生成开场白来启动对话 Role-Playing Self-Chat，UltraChat

33. [2312.01700] Data Management For Large Language Models: A Survey (arxiv.org)

34. 指令微调对底座模型的影响是什么？有什么作用？ • 从能力的角度 ü激发能力，理解指令（替代 few-shot ICL） ü弥补预测下一个Token 和任务表示的差异 ü新任务泛化能力 • 从知识的角度 ü不适合给模型添加新知识。超出大模型知识边界的微调指令，会导致严重幻觉。 üLLM中的知识是在大规模的预训练运行期间植入的，很难在有限的模型微调中添加新知识与BERT 微调的区别 • BERT微调是让模型学会 X到Y的映射 ü训练数据越多越好 • 大模型（类GPT）指令微调的目的是激发能力 ü指令数据重在X到Y映射之间的表达多样性，和预训练语料中的说法要对应 ü指令数据不在于增加 X到Y的映射数据 [2310.00492] From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning (arxiv.org)

35. OpenAI 如何优化 LLM 的效果 | Breezedeus.com

36. 从RLHF、RLAIF 到 DPO RLHF：偏好数据根据人类反馈（标注），使用强化学习——成本高，不稳定 RLAIF：偏好数据可以自动生成，使用强化学习 DPO：直接通过偏好对比数进行微调训练

37. [2308.03188] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction

38. 底座模型训练控制中心调度层基础设施层 3D混合并行技术自适应混合精度底层算子优化显存优化技术自动托管调度通信策略优化数据管理中心任务运行与监控多用户管理模型仓库服务发布拖拽式运行交互 AI 任务调度器 GPU 集群（NvLink） CPU集群海量分布式存储集群高速 IB 网络互联集群自动安装与配置镜像仓库监控日志采集

39. [2312.01700] Data Management For Large Language Models: A Survey (arxiv.org)

40. 基于采样概率 • Sample Search ü 按照概率分布进行采样，生成多样化结果 ü 采样到长尾词，可能导致语句不通顺 • Top-P、Top-K Sample ü 仅采样高频词汇 • 其它解码微调策略 ü repetition penatity：重复惩罚，避免生成重复内容 ü length penality：长度惩罚 ü temperature scale：温度缩放，调整概率密度适用场景：创意内容生成、行程安排等场景

41. 基于最大概率 • Greedy Search • 每个时间步都取条件概率最大的输出 � � = �� ∈� �(�|� 1 , � 2 , . . . , � �−1 , �) • Beam Search • 每个时间步保留topN个最优路径 • 接近全局最优适用场景：选择、推理等答案相对确定的场景

42. • 对比解码（ Contrastive Decoding ）引入辅助模型，借鉴AlphaGo • 较小的语言模型（LMs）比较大的语言模型更容易产生不良的模式（例如，重复、主题漂移和自相矛盾）。奖励大型专家LMs所偏爱的文本模式，并惩罚小型业余LMs所偏爱的模式。 • Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks • 猜测解码（ Speculative Decoding） • 可以在不损失生成效果前提下，获得3x以上的加速比。GPT-4泄密报告也提到OpenAI线上模型推理使用了它。 • 一个是原始目标模型，另一个是比原始模型小得多的近似模型。近似模型用于进行自回归串行采样，而大型模型则用于评估采样结果。解码过程中，某些token的解码相对容易，某些token的解码则很困难。因此，简单的token生成可以交给小型模型处理，而困难的token则交给大型模型处理。 • 树搜索解码 • 受到AlphaGo树搜索机制的启发，结合思维树ToT，构建了TS-LLM树搜索框架。采用一个训练获得的价值函数在训练和推理阶段引导LLM进行解码和决策。 • [2309.09117] Contrastive Decoding Improves Reasoning in Large Language Models (arxiv.org) • [2211.17192] Fast Inference from Transformers via Speculative Decoding (arxiv.org) • [2309.17179] Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training (arxiv.org)

43. • 只能调用大模型API，算力几乎没有 • 提示工程 • 检索增强（ RAG ）+ 知识增强（KG-Enhanced） • 微调：部分大模型API提供微调接口 • 基于开源底座模型，算力不多（1~20台服务器） • 指令微调：全量或 LoRA • 解码策略优化 • 对齐优化（反馈学习） • 算力尚可（>20台服务器） • 在开源底座模型上做增量预训练 • 从零开始预训练自己的底座模型能解决一部分落地问题可以对大部分任务优化到极致可以从根本上提升模型效果

44. 医疗大模型是什么 • 经过医疗知识增强和医疗任务优化，面向医疗应用的大模型医疗大模型怎么用 • 根据大模型的生成、理解、知识和推理决策能力成熟度，对幻觉的容忍度，选择合适的场景医疗大模型怎么做 • 面向应用场景对通用大模型做定制优化：六种武器，一个秘方

45.

46.