大模型调优数据的高效构建与进化方法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 大模型调优数据的高效构建 与进化方法 演讲人:单海军 博士
2. 02 数据构建的背景与痛点 03 数据新生的思路 04 大模型数据构建方法 大模型数据构建发展趋势
3.
4. 01
5. 背景:数据是智能时代的油矿 数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程 人工智能是以数据为中心的,而不是以模型为中心。有标注的高质量数 炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼 据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人 化’形成高质量数据集,才能助力大模型精准学习数据特征与规律。 工智能的发展会更快。 ——中国信息通信研究院 ——斯坦福 吴恩达(Andrew Ng)为代表的学者观点 数据是千行百业智能升级的源动力 数 据 智能引擎 千行百业应用
6. 痛点1:“数据肥胖症”- 数据量激增与价值稀疏的矛盾 数据增长相当迅速,总量十分惊人 数据稀缺 or 有价值的数据稀缺? 2 0 2 5 .6 .4 I DC 发 布最 新 预测 ,2025 年全球 数 据生 产 量预 计 达 213.56 ZB。其中,中国市场 2025 年将产生 51.78ZB 数据,到 数据 数据资源 数据要素 价值 2029 年增长至 136.12ZB,复合年增长率达到 26.9%。 数据不稀缺: 数据指杂乱无章的原始电子记录 • 数据可以无限生产,伴随着人类行为、设备运转、政府职等随时产生。 • 数据具有非竞争性、非排他性,数据尚未被开发,其价值具有不确定性。 数据资源有限稀缺: 数据资源指经过处理后,有使用价值的数据。 • 数据成为数据资源的过程,经历数据加工、存储、管理等流程,耗费人力、时间和资 金等资源,特别是大规模或复杂的数据集成本更加高昂。 • 数据资源具有使用价值,不同主体可能将数据资源视为未来可变现的资产,不愿与其 他主体分享 ZB = 10^21 B, 以1B重1g计算,单年数据生成量已达地球总质量的万分之一 数据要素具有稀缺性: 数据要素指可以交易或投入生产,有价值的数据资源。 • 数据要素是高质量的数据资源,具有使用价值和价值,挖掘数据要素价值,有利于提 高资源配置效率,创造新产业新模式,实现对经济发展的倍增效应。
7. 痛点2:面向具体场景的高质量数据集供给日趋关键 高质量场景数据倒三角 依赖 通用基座模型 原始数据 梳理,脱敏,去重 依赖 可用数据 行业领域模型 可真正发挥价值的场景 依赖 可用场景数据 场景大模型 依赖 按场景使用标准标注,为训练做准备 高质量场景 数据集 训练场景垂类模型 的重要抓手 隐藏在冰面下的反而稀少
8. 02
9. 高价值数据+场景化数据工程的解决思路 不同场景、不同系统产生的数据格式多样,受制于数据 采集、加工过程中各类误差、工具手段稳定性等影响, 数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚 至错误数据等问题。 AI数据原生工厂(自动标注+场景数据萃取+合成数据) 原始数据(CO₂)+ 数据智能工厂(叶绿体) → 高质量数据集(O₂) 数据加工技术有待优化 场景化数据集尺度不一 面向行业业务的数据标准,数据质量评价体系
10. 数据智能工厂:数据自动构建与质量评估体系 公开数据集: 基于模型的方法 数据集级别去重 隐私数据发现 SFT标注 RLHF标注 • 书生-万卷文本数据集 • 线性分类器 • 人工剔除 • 正则表达式 • 大模型标注 • 智能标注 • SkyPile-150B天工数据集 • 支持向量机 • 命名实体识别 • 智能改写 • 辅助撰写 • 关键字匹配 • 人工标注 • 多人可视 • 模式匹配与替换 • 内容审核 • 随机抽检 • WuDaoCorpora 文本数据集 • CCI中文互联网语料库 • CLUECorpus2020语料 …… 文档级别去重 基于规则的方法 • 利用哈希算法 • 语言过滤 • 利用相似度匹配 公开世界数据: 网页、百科、图书、 • 统计特征过滤 期刊 • 关键词过滤 • 噪声过滤 段落、句子级别去重 • 利用唯一标识符 • 利用数据字段 私有数据集: 指令提质与进化 隐私数据消除 • 利用机器学习 • 数据脱敏 • 数据泛z化 • SFT筛选 • 数据匿名化 • 智能指令进化 • 差分隐私 • 文档、报告、手册 • 邮件、对话、代码 去掉特殊字 原始数据 符、特殊字 段等 100% “语义通顺” 的数据 90% 质量过滤 “可用” 的数据 70% 冗余去除 “非重复”的 数据 50% 隐私消除 “无隐私”的数据 40% 数据标注 调优数据 20% Rank标注 对齐数据 5%
11. 沉淀为全链路多模态数据构建与评估平台 数据质量评估与安全 数据质量评估 数据打标签 数据权限 数据脱敏 数据加密传输 问答对数据标注 偏好数据标注 多轮对话数据标注 图片理解数据标注 音频理解数据标注 视频理解数据标注 文生图数据标注 自动标注工具 多人协同标注 批量审核 文档解析 问答对数据去重 问答对数据清洗 问答对数据进化 问答对抽取 数据标注 数据处理和增强 数据接入与管理 多模态数据去重 多模态数据清洗 多模态数据增强 图像数据预处理 表格数据清洗 视频数据预处理 文本规则过滤 文本清洗 文本去重 文本隐私脱敏 纯文本数据接入 问答对数据接入 偏好数据接入 文档解析 数据集版本管理 数据预览 文生图数据
12. 如何理解“高质量”数据? 大模型“高质量”数据的三大不确定性 语料形态的不确定性 语料种类不确定性 • 由于人们对模型能力需求不断变化,大 模型的主要训练素材从对话内容到书籍、 科研论文再到代码、教材不断变化,因 此“高质量语料”的范围是变化而不确 定的 • 自动驾驶领域、仿真数据、模型上下文 建模能力的增强都让越来越多的数据被 纳入了大模型训练的范畴,更多的数据 形态难以有统一的“高质量”标准 语料混合的不确定性 • 在大模型训练中需要混合多种类型的不同 语料,但按照怎样的配比混合才能获得最 佳效果的比例目前并无绝对配比,混合哪 些、按什么比例混合都存在不确定性
13. 03 大模型数据构建方法
14. 大模型训调数据的形式 预训练 训调阶段 训练数据 纯文本数据 {"text": "厦门万里石股份有限公司 二○一五年 数据样例 SFT 指令调优数据 {"instruction": "你是一个金融领域的专家请根据下 第二次临时股东大会决议 厦门万里石股份有限公 面的经济解读片段问答我的问题。我的问题:根据 司(以下简称“公司”)于 2015年 9月 16日在 2014年焦作市国民经济和社会发展统计公报,分析 公司会议室召开二○一五年第二次临时股东大会。 焦作市第三产业比重提高的原因及其对经济结构调 本次会议由公司董事会召集,出席本次会议的股 整的影响。", 东及股东代理人共计 15人,…… "} "input": "2014年焦作市国民经济和社会发展 统计公报2014年,在市委市政府的正确领导 下,……", "output": "根据2014年焦作市国民经济和社会 发展统计公报,焦作市第三产业比重从上年的24.8% 提高到25.1%,虽然提升幅度不大……" } 1.只包含原始文本; 数据特点 2.原文本通常篇幅较长; 3.训练模型学习领域知识. RLHF / DPO 问答偏好数据 问题:银行业务中的清算和结算分别是什么样的过 程? A:一般而言,支付活动的过程包括交易、清算和结算。其中 ,清算和结算均是清偿收付双方债权债务关系的过程及手段 …… B: 清算就是“算”:你欠我多少,我欠你多少,咋俩核对核 对。给个结果,看最终是你给我钱还是我给你钱。…… C:清查和核查是在会计学里的两种专门方法。…… 1.一问一答形式; 1.对话历史加上多个回答的形式; 2.指令任务类型多样; 2.不同的回答的用户偏好度不同,通常用正负 3.训练模型遵循指令同时学习领域知识; (chosen/rejected)来表示; 4.可以添加fewshot辅助模型理解指令. 3.使模型的输出更紧密地与人类偏好和期望对齐.
15. 数据处理主要流程 数据采集 数据存储 数据清洗 数据分类 SFT指令进化 SFT质量筛选 SFT数据标注 预训练数据准备 数据审核 RLHF数据构建 数据版本管理 数据安全管控
16. 阶段一:预训练数据准备环节 1.行业领域细分 2.数据搜集 通用大模型:海量的高质量 数据,不需标注,主要来源 是网页、书籍、期刊论文、 代码等;该阶段的训练数据 在保证质量的前提条件下希 望可以覆盖尽可能多的信 息。 确定各领域或应用场景所需的预训练语料,通过网络爬取、数据 ① 不同语料数据类型解析 采购、内部收集等方式汇总 ② 数据分类统计 行业大模型:增量预训练, 则确定行业领域的细分应用 金融行业大模型数据示例 数据种类 应用场景 监管合规 法规知识库检索问答 监管机构法规文档、行政处罚案例 尽调报告生成 企业年报数据、企业发债数据 信贷知识库检索问答 法规政策文档 投顾问答 上市公司公告 研报内容生成 行业研报 行业舆情分析 金融新闻、社媒数据 金融衍生品问答 金融理财产品信息 保险 保险顾问 保险产品信息 营销 营销报告生成 活动复盘文档、历史策划文档 支付结算 贸易知识问答 外汇规章制度、外汇合规信息 信贷 场景,如金融大模型,则收 集信贷、营销、监管、证 3.数据清洗 证券 券、保险等数据。 ③ 低质数据过滤、数据去重 ④ 数据合规检查、数据脱敏
17. 大模型源数据清洗 源数据解析模块 源数据分类统计模块 PDF解析、 OCR识别、 HTML解析 语言:EN、ZH…… 领域:监管法规、公 司财报…… 来源:证监会官网、 国家统计局…… 纯文本 Model based+ Heuristic based 源数据低质过滤模块 TF-IDF+ MinHash+ SimHash 源数据去重模块 获取数据权 限+用户隐私 脱敏+文本数 据规范化 源数据标准化与合规检查模块 大模型源数据清洗模块 1.数据解析模块:支持对word、pdf、 txt、html等多种复杂格式的精准解析得到 纯文本内容 2.数据分类统计模块:对每一条源数据从 语言、领域、来源等多个维度打标,方便 溯源 3.数据低质过滤模块:①训练质量筛选模 型进行分类器式过滤②采用启发式规则删 除低质文本 4.数据去重模块:①TF-IDF词频统计,发 现类似文本②MinHash+SimHash近似匹配 去重 5.源数据标准化与合规检查模块: ①确保整个流程符合数据隐私法律法规, 获得必要权限,保护数据中的个人信息和 敏感信息 ②繁体简体转换,剔除高配无用的空格以 及特殊符号、网络表情等
18. 大模型数据打标签及分类 由于数据的使用场景、数据格式、数据用途、数据类型存在较大差异,通过数据集的分类管理,可以提升用户在大模型精调、推理、评估及应用过 程中的使用效率和交互体验,更加精准的进行数据过滤,减少误操作。 语言大模型 大 模 型 数 据 分 类 标 准 行业类别 任务类型 数据类型 数据用途 财经新闻 金融 知识问答 视觉大模型 法律 摘要生成 医疗 语音大模型 教育 实体抽取 科技 …… 分析总结 逻辑计算 … 文本 图片 音频 视频 Json 其他 … 模型预训练 模型精调 模型评测 模型推理 多 模 态 大 模 型
19. 预训练数据工作总结 数据量 数据隐私去除 大批量数据仍然是 LLM 预训练的关 键,去重是必要的,但并不追求绝对 的完全的没有重复 数据隐私不仅对大模型训练没有帮 助,而且可能还是有害的,因此需要 对样本进行隐私去除 1 2 3 多领域混合 质量管控 多领域混合和合适的领域配比是十分 重要的,但如何寻找合适的领域配比 仍有发展空间 数据质量控制通常包括质量筛选、去 重和有害信息筛选三个步骤,目前最 行之有效的方法是借助模型帮助 2025/6/27 中电金信数字科技集团股份有限公司 4 19
20. 阶段二:SFT指令数据构建流程 数据准备 {"prompt": "什么是场内清算?", "response": "场内清算是..."} 分词 ["什么", "是", "场内","清算 ", "?", "场内 ", "清算", "是 ", ...] 向量化 "什么" -> [0.45,0.78,...] "是" -> [0.13,-0.62,...] ... 正向传播 计算误差 与预训练阶段类 似,向量通过网 络进行正向传播 与预训练类似, 模型对下一个 token进行预测, 将预测结果与真 实标签进行对 比,计算误差。 一般不计算 prompt部分的 loss 反向传播更新 参数 和预训练阶段一 样,计算出误差 后,反向传播计 算梯度并更新参 数
21. 微调训练的三大范式 全参数微调 参数冻结微(Freeze) 参数高效微调(PEFT) 全参数微调是指对整个预训练 好的模型进行微调,包括所有 的模型参数。 Freeze 微调方法一般仅微调 后几层的全连接层参数,而冻 结其它所有参数。 在这种方法中,预训练模型的 所有层和参数都会被更新和优 化,以适应目标任务的需求。 这种微调方法通常适用于任务 和预训练模型之间存在较大差 异的情况,或者任务需要模型 具有高度灵活性和自适应能力 的情况。 由于大模型已经学习到了丰富 的语言表示能力,包括词义、 语法和语境信息。因此,只微 调后几层的全连接层参数,可 以保留预训练模型的大部分知 识,同时通过微调来适应具体 任务的特定要求。 PEFT(Parameter- Efficient Fine-Tuning)是 一种在保持预训练模型大部分 参数不变的情况下,通过仅调 整少量额外参数来适应新任务 的技术。这些额外参数可以是 新添加的嵌入层、低秩矩阵或 其他类型的参数,它们被用来 “引导”或“调整”预训练模 型的输出,以使其更适合新任 务。 全参数微调需要较大的计算资 源和时间,但可以获得更好的 性能。
22. 参数高效微调训练(PEFT)的类别 Adapters类: 加入小的全连接 层,微调只学习新 加的全连接层参 数。 Soft prompts类: 直接在输入的 embedding 中加 向量作为 soft prompts ,并对 这些向量的参数 进行微调, Selective类: 选择模型中的部分 层比如最后几层、 或偏置项进行微 调。 Reparametrizati on-based类: 利用低秩表征来最小 化可训练的参数 ,本 质上就是认为大量的 参数中,仅仅一部分 起到关键作用,在这 个起关键作用的子空 间中去寻找参数进行 22 微调。
23. 高质量SFT指令数据构建思路 2.微调指令数据设计 1.场景+任务确定 确定应用场景类型 ① 监管报送 对信贷场景的各个任务进行任务细分与微调语 ①标注团队进行批量简单任务标注 料prompt设计 ②业务专家强化任务难度 ② 营销助手 概念解释 ③ 信贷审核 检索问答 ④ …… 文本比对 确定应用任务类型 3.数据标注 场景任务 通用 概念解释 特定文件 概念解释 单项查询 多文件查询 条件判断 多版本细节对比 通用 对比 分析总结 4.标注质量评估采用 通用 分析总结 特定文件 分析总结 ① 文档问答 ③大模型辅助标注 ①业务专家抽检评估简洁性、流畅度、 时间类 施行/废止时间查询 ② 指标计算 指标计算 指标计算的公式 场景覆盖度等 ③ 报告生成 报告生成 生成合规报告 摘要总结 / ②大模型评估问答对构件质量 事件抽取 / 实体识别 / 文本分类 / 相似度判别 / 关系抽取 / ④ …… 通用任务 ③cherryLLM等开源框架评估 ④语义相关性、子串重复度等进行统计 指标评估
24. SFT指令数据构建与治理 人工标注构建 大模型辅助 构建 开源数据集 改写 SFT数据构建 实体抽取 任务 文本生成 任务 问答任务 金融计算 任务 摘要任务 文本分类 任务 数据质量评估 专家评估 事实正确性 大模型评估 丰富度 指令难度进化 开源评估框架 CxxxR ChxxxLM 逻辑连贯性 可负责程度 Superfiltering WizxxxxLM 从添加约束、增加推理步 骤以及输出复杂化等多个 维度对现有的指令进行难 度进化 tokenizat ion
25. SFT数据标注的注意事项:业务类型、任务类型全覆盖,不可单一 问答类任务 任务类型 金融场景 报送数据填报助手 监管合规 监管制度解读查询 报送报告生成助手 信贷知识助手 信贷 贸易金融 信贷尽调报告 贸易业务问答 研报片段生成助手 证券 投研问答助手 证券尽调报告生成 证券监管制度查询 智能陪练 保险 营销 保险监管制度查询 理财产品问答助手 金融问答助手 通用场景 金融名词解释助手 会议纪要生成助手 总计 检索 单轮 问答 多轮 问答 长文本阅 读理解 时间 查询 生成类任务 名词概 念解释 规则 校验 条件 判断 文档 摘要 分析 总结 文本 生成 处理类任务 标题 生成 细节 对比 文本 审核 情感 分析 实体 抽取 关系 抽取 事件主 体识别 关键 词抽取 文本 分类 金融 计算 语义相似 度判别 复合 任务 总计
26. SFT数据的智能批量标注 解决场景数据实时化、工程化难题,可以通过少量标注数据学习,然后使用该预测模型进行批量自动标注 原文 保险资金委托投资管理暂行办法 训练集 模型优化 种子模型 告(一)变更投资管理人或托管人;(二)发生与委托投资有关的…… 人工标注 少量 种子数据 第二十八条 保险公司应当在下列情形发生5个工作日内,向中国保监会报 测试集 已标注数据 问答任务 效果未达预期 准确率 F1 instruction:请问什么情况下,保险公司需要向保监会报告? output:(一)变更投资管理人…… 模型评估 大量 剩余数据 批量自动标注 效 果 良 好 优化迭代循环 总结摘要任务 instruction:请总结这个法规的主要内容:第二十八条…… output:此法规主要是列举保险公司需要向保监会报告的各种情形 。 实体抽取任务 预测模型 instruction:请抽取这段法规中的实体,类别有“监管部门、个体”,内 容如下:第二十八… output:监管部门-保监会、个体-保险公司
27. SFT数据提质与进化方法 数据提质:对SFT数据集进行打分,保留高质量数据 CherryLLM IFD打分范式 dataA score:0.8 CaR dataA RLHF打分范式 Superfiltering 数据集辅助评估范式 Nuggets dataB dataC 大模型(人类专家)打分范式 dataB score:0.7 dataC score:0.6 AlignBench 数据进化:对SFT数据进行多维度指令改写,提升回答难度和多样性 Instruction: 假定名义货币供给量不变,价格总水平上升将导致一条向右上方倾斜的 Instruction: 假定名义货币供给量不变,价 格总水平上升将导致一条向右 上方倾斜的LM曲线上的一点如 何变化? LM曲线上的一点如何变化?请考虑实际货币供给的情况下进行分析。并 深度进化 SFT指令 进化器(LLM) 大模型改写指令,相同领域联想, 扩充数据领域范围 广度进化 给出表格形式的结果。 Instruction: 在固定汇率制度下,如果中央银行增加外汇储备,LM曲线将如何移动? 指令消除 Instruction: 根据给定提示,在名义货币给的总数不变且总体价格增长的情况下,LM曲 线上的一点如何变化?
28. 大模型RLHF对齐数据构造 Instruction 银行业务中的清算和结算分 别是什么样的过程? ①用户提供:指令instruction以及候选答 案对outputA、outputB。 模块支持人工或引导大模型进行choosen or rejected打标 人类专家标注 ②用户提供:指令instruction以及 choosen 或者rejected任意一个候选答 案。 模块支持人工编写或引导大模型自动生成另 一个配对的候选答案 A: 一般而言,支付活动的过程包括交易、清算和 结算。其中,清算和结算均是清偿收付双方债权 债务关系的过程及手段…… B: 清算就是“算”:你欠我多少,我欠你多少, 咋俩核对核对。给个结果,看最终是你给我钱还 是我给你钱。…… OR RLAIF大模型 构造 No1:一般而言,支付活动的过程包括交易、清算和 结算。其中,清算和结算均是清偿收付双方债权债务关系的 过程及手段…… 8分 No2: 清算就是“算”:你欠我多少,我欠你多少,咋俩核 对核对。给个结果,看最终是你给我钱还。……6分 No3:清查和核查是在会计学里的两种专门方法。……4分
29. 数据质量评估体系 - 从业务维度和技术维度 业务评估维度 维度描述 任务大类 有相关数据。例如要计算基金收益率,输入中必须包括成本和利润。 2、指标缺失值是否可接受,如客户风险等级、历史还款记录。 3、时间序列连续,如股价、公司营业额等 准确性 生成类 会议纪要、研报片段生成任务 1、与内部权威数据源对齐,如对账系统、主数据管理系统、征信数据源对比核 否则会有歧义。 3、数据间无逻辑矛盾 时效性 检索问答任务 问答类 QA 可解释性 唯一性 长文本阅读理解任务 bleu-4、rouge-l 、bge_similarity 单轮问答任务 1、数据来源版本合理,例如客户信贷信息应为近30天数据,落后数据可能引发 指标解释任务 审批错误。 1、业务涵盖范围全面,比如银行场景中,移动端、网银、柜面系统交易数据均 多样性 bleu-4、rouge-l、 bge_similarity、 bge_diff、llm_judge 问答任务 验。 2、命名规范统一,如 account_id 在不同系统不能同时叫 acct_id 和 user_id, 标题生成任务 Generate 1、多源数据标准统一 一致性 测评指标与逻辑 摘要生成任务 1、数据字段齐全且内容完整,例如财报分析任务相关数据中,输入需要包含所 完整性 技术任务名称 实体抽取任务 需整合。 2、同业务不同模态涵盖全面,结构化(财务报表)、半结构化(PDF报表)、 指令类 非结构化(通话录音、邮件)都应统一纳入数据中。 Instruct 事件抽取任务 1、特征含义清晰,可被业务人员明确含义 1、数据唯一不重复,相同的任务和场景的数据最好只保留一条,尽可能精简数 据有助于提高模型效果。 关系抽取任务 其他 …… 正则精准匹配答案 指标采用acc、 recall、f1 ……
30. 大模型数据版本管理 为了使数据集的使用更加灵活,同时保证数据的可追溯性,通过数据版本管理,实现数据的更新机制。 数据集版本管理 数据集状态 • 同一个数据集数据类型、使用场景和用途需要保证一致;数据可以通过导入方式或者数据操作(如清洗 数据集版本状态:已发布、未发布 • 为了保证数据的稳定性,及在训练数据可追溯性,保证产出结果可复现、可验证 、增强)生成新的版本,可以继承历史版本、生成新版本、新数据集。 ,减少误操作,数据发布后不可增删改; • 校验数据集类型、数据使用场景是否一致。 • 已发布的数据集才能进行训练、验证、评估和推理,且发布后不可能增改善 • 未发布的数据支持增删改、数据清洗、增强等操作; data1 data2 V1 数据清洗或增强 已发布 未发布 新版本新数据 数据继承导入 • 不支增删改; V4 V1 • 支持继承、复制; • 可以进行训练、推理和评估。 V2 数据清洗 V3 V5 数据清洗 V6 • 可以修改、编辑、标注、清洗 、增强等; • 无法进行训练、推理和评估。
31. 04 大模型数据处理发展趋势
32. 合成数据技术突破 多模态统一处理 从堆规模到重效率
33.
34.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 08:59
浙ICP备14020137号-1 $访客地图$