山海医疗大模型的构建及其应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 山海医疗大模型的构建 及其应用实践 刘升平 发VP 云知声AI Labs 研
2.
3.
4. 56.53% vs. 73.71% [2302.10724] ChatGPT: Jack of all trades, master of none
5.
6. 行业大模型 企业级大模型 应用级大模型 面向行业 面向企业需求 面向应用或场景 基于行业知识和任务优化 接入企业私有数据,文档和服务 基于所需特定能力优化 成为行业专家 企业私有化部署 通用大模型 通用能力,探索AGI的边界 六边形战士
7. 类型 通用 医学 文本 临床 多模 态 生物 药物 发布者 模型名称 模型大小/基座模型 智谱AI ChatGLM 开源6B,商用达130B 云知声 山海 商用13B,70B 百度 文心一言 260B 港中(深)、深圳大 数据研究院 华佗GPT- 13B/7B Ziya-LLaMA-13B-Pretrain- v1/Baichuan-7B 本草BenTsao LLaMA-7B/Bloom-7B/活字 1.0/Alpaca-Chinese-7B5 医联 MedGPT LLaMA/BLOOMZ/Baichuan/ Qwen/ChatGLM/XVERSE/Inte rnLM 训练方式 预训练-指令微调- RLHF 预训练-指令微调- RLHF 训练数据补充了图 谱 基于医患对话与 ChatGPT薅羊毛 , 进行指令微调 通过医学知识图谱 与薅羊毛, 进行指令微调 二次预训练 指令微调 RLHF DPO 上海AI Lab、华东理 工,上海交通等 OpenMedLab/ PULSE 开源采用 bloomz-7b1-mt 医书,考题等 指令微调 澳门理工大学 XrayGLM OpenMEDLab/ Xrayplus 盘古药物分子 大模型 VisualGLM-6B 指令微调 使用MIMIC- CXR/OpenI数据 从2维到SMILE序列 的转换 在文本模型上融合 生信多模态的编码 器 哈工大 上海AI Lab 华为 清华大学智能产业研 究院 Bio-medGPT Pulse Ecoder-Decoder架构 LLaMA2以及各种模态的编码 器,大约10B 下游任务与特点 多行业,多场景 多行业,多场景 多行业,多场景 医疗问答 医疗领域问答 与医联的已有各种下游任务融 合 健康教育、医师考试问题、报 告解读、医疗记录结构化以及 模拟诊断和治疗 影像诊断、多轮问答 报告生成,多模态会话 成药性预测 分子、基因以及蛋白的各种知 识问答 四类医疗大模型: • 通用模型 数据来源有医学知识,能做医学 问答。 • 医学文本模型 在通用开源模型上,补充医学文 本做二次预训练或指令微调。 • 临床多模态模型 融合医学文本模型与影像数据。 • 生物医药模型 编码分子、基因与蛋白,再与文 本模型融合。
8. PromptCBLUE的目标是评估LLM在不同医疗任务的总体表现,其中包括医疗文本信息抽取、医疗术语归一化、 医学文本分类、医疗对话理解与生成 4大类问题共计16个子任务。 排名 参与者 组织 score CMeEE- V2- Micro- F1 CMeIE- Micro- F1 CHIP- CDN- Micro- F1 CHIP- CDEE- Micro- F1 IMCS- CHIP- V2-NER- MDCFNPC Micro- -Micro- F1 F1 IMCS- V2-SR- Micro- F1 IMCS- V2-DAC- Macro- F1 CHIP- CTC- Macro- F1 CHIP- STS- Micro- F1 KUAKE- IR- Micro- F1 KUAKE- QIC- Macro- F1 KUAKE- QQR- Micro- F1 KUAKE- QTR- Micro- F1 MedDG- RougeL IMCS- V2-MRG- RougeL 1 UNIGPT-MED 云知声 73.91 71.85 64.67 92.99 66.67 89.58 81.98 72.98 100.00 72.31 84.85 89.79 94.27 77.68 63.11 9.55 50.25 2 UPSIDE- DOWN 国网信产 72.54 福建亿榕 70.34 51.79 92.33 67.88 90.21 82.71 71.41 100.00 78.12 85.52 87.26 84.98 77.76 61.92 8.76 49.62 3 hhhhhh 惠每科技 72.28 68.25 54.96 87.69 67.05 89.78 82.60 70.50 100.00 76.95 84.17 86.73 90.56 76.51 60.77 11.87 48.13
9. • 12个开源数据集 包含了六种生物医学数据模式(文本、放射学(CT、MRI和X 光)、病理学、皮肤病学、乳房X光检查和基因组学), • 14个任务 涵盖五种类型(问题回答、报告生成和摘要、视觉问题回答、 医学图像分类和基因组变体调用)。 [2307.14334] Towards Generalist Biomedical AI (arxiv.org)
10.
11. 按能力划分 大模型能力 应用场景 核心难点 文本生成能力 病历文书生成系统 检查检验报告单生成系统 医学文献写作系统 减少文书生成的幻觉 长文本写作的规划能力 文本理解能力 临床数据中心和专病库的数据自动化抽取, 不良事件自动发现、单病种上报 病历文本后结构化的精准性 (实体、关系、事件抽取) 医疗专业知识能力 患者教育、医患沟通建议、 医学知识助手(医疗知识咨询、检查检验报告解读, 用药指南) 知识回答的有用性、精准性 可解释性 临床推理决策能力 面向患者的虚拟医生(导诊和问诊)、 临床辅助决策(诊断和治疗方案推荐)、 病历质控(包括病案首页、医保结算清单) 决策的鲁棒性,可解释性,低 幻觉
12. 医患对话 门诊病历 角色分离+语音识别 山海医疗大模型 对话文本 生成摘要 生成病历
13.
14. 大语言模型可以帮助医学生和医生了解最新的医学研究成果和治疗方法,提高医疗水平。 实时更新 个性化推荐 教育与培训
15. 大语言模型可以根据患者的病情和药物信息,帮助患者正确用药。 症状分析 药物匹配 副作用提示 用药提醒
16. 1.阅读理解病历 • 病历后结构化 • 术语归一化 2.结合医疗知识和病历书写规范 • 医疗知识图谱 • 病历书写规则 3.发现病历中的内涵错误 • 不完整 • 不一致 • 不正确 • 不合理
17. 内置25类审核点,80000+审核规则,可根据不同地市进行审核规则选择与配置
18. 大语言模型结合患者的基因信息、病史和症状,可以为患者制定个性化的治疗方案。 数据分析与理解 个性化治疗方案推荐 副作用提示 辅助决策
19.
20. 模型训练阶段 预训练 微调 数据工程 模型应用阶段 对齐 推理(解码) 提示工程 算力工程 检索增强
21. 6种武器 黑盒 (调用大模型API) 1种秘方 1. 提示工程 2. 检索增强 3. 指令微调 可修改模型参数 4. 对齐(反馈学习) 5. 增量预训练 可修改解码器 6. 解码策略 数据生产、选择与配比
22. 先让大模型“深吸一口气,再一步一步思考”,会更聪明 [2309.03409] Large Language Models as Optimizers
23. 给大模型来点情感激励(PUA),它也会更聪明 [2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli
24. 给大模型来点情感激励(PUA),它也会更聪明 [2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli
25. [2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (arxiv.org)
26. [2306.06427] Boosting Language Models Reasoning with Chain-of-Knowledge Prompting (arxiv.org)
27. [2301.00234] A Survey on In-context Learning (arxiv.org)
28. 王昊奋:知识增强大模型:垂域落地的最后一公里
29.
30. [2312.10997] Retrieval-Augmented Generation for Large Language Models: A Survey (arxiv.org)
31. NLP任务训练数据 对话数据 机器合成数据
32. 生成方式 特点 缺点 方法 直接使用大模型 适用模型本身的知识直接生成丰富的数据,方法简单 生成多轮对话数据存在信息少的问题;幻觉问 题 Self-Instruct,Self- Align,Evol-Instruct 利用外部知识 通过具体的外部知识(如科普文章、法律案件)生成更准 确的数据、减少幻觉 需要构建外部知识库和检索系统;外部知识不 一定有用 Self-QA ChatDoctor,ChatLaw 对话迭代 通过多模型模拟用户迭代进行对话,提升对话内容的信息 量 方法较为复杂,需要构造或生成开场白来启动 对话 Role-Playing Self-Chat,UltraChat
33. [2312.01700] Data Management For Large Language Models: A Survey (arxiv.org)
34. 指令微调对底座模型的影响是什么?有什么作用? • 从能力的角度 ü激发能力,理解指令(替代 few-shot ICL) ü弥补 预测下一个Token 和 任务表示的差异 ü新任务泛化能力 • 从知识的角度 ü不适合给模型添加新知识。超出大模型知识边界的微调指令,会导致严重幻觉。 üLLM中的知识是在大规模的预训练运行期间植入的,很难在有限的模型微调中添加新知识 与BERT 微调的区别 • BERT微调是让模型学会 X到Y的映射 ü训练数据越多越好 • 大模型(类GPT)指令微调的目的是激发能力 ü指令数据重在X到Y映射之间的表达多样性,和预训练语料中的说法要对应 ü指令数据不在于增加 X到Y的映射数据 [2310.00492] From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning (arxiv.org)
35. OpenAI 如何优化 LLM 的效果 | Breezedeus.com
36. 从RLHF、RLAIF 到 DPO RLHF:偏好数据根据人类反馈(标注),使用强化学习——成本高,不稳定 RLAIF: 偏好数据可以自动生成,使用强化学习 DPO:直接通过偏好对比数进行微调训练
37. [2308.03188] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction
38. 底座模型 训练 控制中心 调度层 基础 设施层 3D混合并行技术 自适应混合精度 底层算子优化 显存优化技术 自动托管调度 通信策略优化 数据管理中心 任务运行与监控 多用户管理 模型仓库 服务发布 拖拽式运行交互 AI 任务调度器 GPU 集群(NvLink) CPU集群 海量分布式存储集群 高速 IB 网络互联集群 自动安装 与配置 镜像 仓库 监控 日志 采集
39. [2312.01700] Data Management For Large Language Models: A Survey (arxiv.org)
40. 基于采样概率 • Sample Search ü 按照概率分布进行采样,生成多样化结果 ü 采样到长尾词,可能导致语句不通顺 • Top-P、Top-K Sample ü 仅采样高频词汇 • 其它解码微调策略 ü repetition penatity:重复惩罚,避免生成重复内容 ü length penality:长度惩罚 ü temperature scale:温度缩放,调整概率密度 适用场景:创意内容生成、行程安排等场景
41. 基于最大概率 • Greedy Search • 每个时间步都取条件概率最大的输出 � � = ������ �∈� �(�|� 1 , � 2 , . . . , � �−1 , �) • Beam Search • 每个时间步保留topN个最优路径 • 接近全局最优 适用场景:选择、推理等答案相对确定的场景
42. • 对比解码( Contrastive Decoding ) 引入辅助模型,借鉴AlphaGo • 较小的语言模型(LMs)比较大的语言模型更容易产生不良的模式(例如,重复、主题漂移和自相矛 盾)。奖励大型专家LMs所偏爱的文本模式,并惩罚小型业余LMs所偏爱的模式。 • Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks • 猜测解码( Speculative Decoding) • 可以在不损失生成效果前提下,获得3x以上的加速比。GPT-4泄密报告也提到OpenAI线上模型推理使 用了它。 • 一个是原始目标模型,另一个是比原始模型小得多的近似模型。近似模型用于进行自回归串行采样, 而大型模型则用于评估采样结果。解码过程中,某些token的解码相对容易,某些token的解码则很困 难。因此,简单的token生成可以交给小型模型处理,而困难的token则交给大型模型处理。 • 树搜索解码 • 受到AlphaGo树搜索机制的启发,结合思维树ToT,构建了TS-LLM树搜索框架。采用一个训练获得的 价值函数在训练和推理阶段引导LLM进行解码和决策。 • [2309.09117] Contrastive Decoding Improves Reasoning in Large Language Models (arxiv.org) • [2211.17192] Fast Inference from Transformers via Speculative Decoding (arxiv.org) • [2309.17179] Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training (arxiv.org)
43. • 只能调用大模型API,算力几乎没有 • 提示工程 • 检索增强( RAG )+ 知识增强(KG-Enhanced) • 微调:部分大模型API提供微调接口 • 基于开源底座模型,算力不多(1~20台服务器) • 指令微调:全量 或 LoRA • 解码策略优化 • 对齐优化(反馈学习) • 算力尚可(>20台服务器) • 在开源底座模型上做增量预训练 • 从零开始预训练自己的底座模型 能解决一部分落地问题 可以对大部分任务 优化到极致 可以从根本上 提升模型效果
44. 医疗大模型是什么 • 经过医疗知识增强和医疗任务优化,面向医疗应用的 大模型 医疗大模型怎么用 • 根据大模型的生成、理解、知识和推理决策能力成熟 度,对幻觉的容忍度,选择合适的场景 医疗大模型怎么做 • 面向应用场景对通用大模型做定制优化:六种武器, 一个秘方
45.
46.

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 14:28
浙ICP备14020137号-1 $お客様$