基于大模型实现结构化标签提取

如果无法正常显示，请先停止浏览器的去广告插件。

1. SpotterGPT 基于大模型实现结构化标签提取 —— 助力指标体系用户画像构建 2024.07.06 主讲人：梁伟

2. 目录 01 引言 02 传统算法方案及其局限 03 生成式大模型的优势与发展 04 系统架构与关键技术 05 实际效果与自动化能力分析 2

3. 业务需求 01 用户焦点挖掘灵活数据标签对于海量的用户声音 , 难以快速分析用户关注点，聚焦用户讨论中心当前固定的分类标签，无法快速响应事件爆发和产品迭代 02 各式各样的数据采集源素材分类整理产品反馈通路用户画像构建对于海量的社区用户发布的素材难以快速检索、分类整理对于用户在各个渠道反馈的产品 / 服务等优化建议 , 难以快速检索并传递至有需要的团队对用户需求和行为缺乏深刻理解，无法制定出精准的营销策略、产品设计和服务方案，导致资源浪费和用户满意度下降 03 04 o 挖 w? 掘标 h 签 05 易于分析的指标平台

4. 预期目标 5. 预测及决策活动策划收益预估 4. 实时监控 3. 统计结论用户情感波动预测… 车型上市实时舆情分析舆论事件舆情分析… 站内VOC分析和监控公域流量舆情监控… 2. VOC打标社区内容打标内测圈打标 NPS问卷内容打标… 1. 情绪分析科技活动日首日用户情绪旧款车型退市用户情绪…

5. 行业痛点 01 提取准确率采用传统机器学习算法实现，准确率较低，无法满足实际应用数据分析，需要大量人工校准。 02 人力成本 03 内容覆盖率大量数据需要人工标注，不仅耗时且标准不统一问题严重目前仅针对调研、问卷、工单等内容进行了识别处理；且企业内部形成数据孤岛，无法联动车展宣发内测反馈线下活动 NPS问卷 73%+准确率人工标注速度 <100 条 / 天 <10% 抽样比例

6. 传统算法方案输入实体命名识别非结构化文本通用命名实体识别候选实体生成上下文扩充搜索引擎基于名称字典的构造方法字典匹配候选实体消歧输出基于图方法正确的实体对象基于概率主题模型基于词向量分类基于深度学习昨天上午九点多，在广州实验小学内消防部门举办了一场消防知识宣传讲座。时间地点主体事件

7. 传统模型 VS 生成式大模型生成式大模型传统模型传统模型包括机器学习相关的经典统计算法，如 SVM/PCA/HMM 等，同时也包括深度学习模型，如 word2vec 词向量模型 /RNN/LSTM/bert 等。能力上限低知识容积小训练开销小 ( 算力 / 数据 ) 通用性较差小而美传统模型一般参数量较少，通过巧妙的结构设计来适应不同领域的分析要求。在训练后能胜任具体的下游任务，能力一般但速度快。通常是具有大规模参数和计算能力的自然语言处理模型。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大而强生成式大模型参数量很大，通过海量知识进行预训练后能胜任绝大部分 NLP 任务，能力接近人类但速度慢，训练开销大能力上限高储备世界知识训练开销大适配所有 NLP 任务

8. 大模型应用发展路径 P ro m p t E n g i n e e ri n g RAG 第四阶段第三阶段 Prompt Engineering 是设计和优化输入提示（ prompts ）以引导大规模语言模型（如 GPT-4 ）产生所需输出的技术。这不需要修改模型本身，只需调整输入格式。内容生成问答系统文本翻译文本摘要总结 01 第一阶段 RAG 是一种结合检索和生成的方法。该方法将信息检索与生成式模型结合，通过从大型数据库中检索相关信息，再利用语言模型基于这些信息生成答案。开放域回答知识密集型任务文本生成增强 02 第二阶段 03 F i n e - Tu n i n g Fine-Tuning 是指在预训练模型的基础上，通过使用特定领域或任务的数据进行进一步训练，使模型适应特定场景的任务需求。情感分析特定垂域文本分类实体识别 04 Agent 智能代理（ Agent ）是一种能够自主感知环境、决策并执行动作的系统。基于大语言模型的智能代理能够理解自然语言指令并自动执行任务。智能客服自动化办公系统机器人规控个人助手智能家居管理

9. 系统架构

10. 关键技术项 01 02 03 04 知识内化注入提示工程优化自动化数据生产模型训练与更新大模型知识内化是指通过各种方法使大规模语言模型能够有效地吸收、记忆和利用知识。通过在预训练 / 微调过程中使用大量数据来实现，使模型能够在其参数内部编码和内化广泛的知识。提示工程优化是设计、测试和优化输入提示，以提高大模型生成正确和有用输出的效果。通过巧妙构造输入与输出来提升模型的推理性能。自动化数据生产是使用自动化工具和方法生成大规模训练数据集，这些数据集可以用于预训练大模型。该方法能够大幅度降低数据获取和人工标注的成本。大模型的训练与更新涉及构建、优化和定期更新大规模语言模型，以提升其在单一任务上的表现。定期更新维护下游数据集进行重新训练以及在新硬件和算法上的优化。

11. 关键技术一：知识内化注入我们遇到的第一个问题是如何让大模型从标签库中找到对应的标准词？ • 方案一 • 方案二 • 方案三直接将所有词全部输入到 prompt 提示中，让模型从标签词库中找到合适的词语进行组合将 VOC 词对分批次放到 prompt 中，通过多次推理，综合每次推理内容输出最终结果通过训练数据将标签库知识内化，把标签作为知识的一部分，写入到模型参数中去实际效果：实际效果：实际效果：由于 prompt 长度过长的原因，训练和推理流程将合理的对象词与现象词组合作为 VOC 词库，按更为复杂。由于词库过大，导致模型拟合的效果不佳，模型无法从几百个词中准确提取出正确的照 20 个 VOC 为一组分为 N 组，每次分析让模型在 20 个 VOC 中挑选正确的 VOC 进行输出，最终将取消 prompt 中的词库，通过扩展训练数据，让所有的标准词都出现在训练数据中，通过训练数据学习不同的自然词应该转化为哪一个标准词。词语。所有的 VOC 结果进行聚合。输出内容包含大量空推理阶段直接由模型推理句子中的存在的对象词缺点：结果，消耗了非常多的资源和现象词。成功将【标签库】这一知识内化到模 1. 模型不能完全消化理解词库中的内容。在大模缺点：型中。 1. 需要手动筛选一遍标准 VOC 词对，将不合理缺点： 2. 推理消耗资源过多，标准 VOC 词对分为 N 组，分错误情况型上做验证测试时，发现模型并不能很好的理解这一任务 2. 即使能做到抽取正确的实体，但不能理解词语的 VOC 词对删除，人工处理费时，且不便于拓展 1. 模型能够正确的抽取标准词，但依然会出现部应该来自于词库中，会遗忘大部分标签，随机生即一次推理需要 N 次模型计算，大约需要 1 分钟左 2. 训练数据与词库绑定，当词库调整时，训练数成不在库的标签。右。据也需要调整，同时还需要重新训练模型 3. 推理开销过大，一次推理输入 prompt 长度大 3. 模型输出时，会存在大量无效结果，即 VOC 结论：可用约 2000 字，推理速度极慢。结论：不可用词对中没有合适的结果，浪费推理资源。结论：不可用

12. 关键技术二：提示工程优化 50% 90% 70% 增加自动合成数据流设计输出 CoT 过程调整词库注入方式将词库注入到训练数据中，通过训练数据让模型内化标签知识。针对词库中覆盖率较低的标签，通过自动化合成数据生成该标签相关的真实数据，提升模型准确率在输出部分设计推理过程的 CoT ，增加关键词到标签的映射推理关系，帮助模型理解任务 60% 80% 设计输入 prompt 词库辅助匹配模型设计 prompt ，在提示中明确任务，规范边界条件，采用 1shot 结构限制格式通过对比学习等方法训练一个小规模的词库辅助匹配模型，在后处理时过滤不在词库中的结果

13. 关键技术三：自动化数据生产

14. 关键技术四：模型训练与更新

15. 算法效果对比机器学习算法基于大模型算法 100 传统算法缺点：大模型算法优点： 1. 词库不灵活，基于静态词库进行一次性开发 1. 词库灵活，可持续增加 / 修改词库内容 2. 模型能力弱，在复杂 case 上模型准确率很低 3. 标签输出简单，只能提取实体标签，无法进行实体 + 情绪的关联标记 2. 模型能力强，通过少量训练数据即可覆盖大部分 hard 场景，模型本身具有很强的泛化能力。 3. 标签更复杂，对原始数据中的信息进行了更详尽的提取，信息压缩比低。 50 0 词库灵活性模型泛化能力标签完整性输出稳定性准确率准确率 73%+ 92%+

16. 自动化能力相较于传统的算法开发流程，我们设计了三个自动化流水线，来取代开发 / 运营过程中的人工部分 73% 自动化数据合成 50% 整体自动化率根据实际需求自动化合成训练数据，并采用二次校验的方式提高合成准迭代速度确性，减少了人工标注数据成本。 65% 训练数据来自自动合成，数据合成准确率达到 93% 自动化模型训练将训练数据进行线上化管理后，我们设计了模型训练流水线，自动将数据构建成训练集并调用训练组件进行训练，并实现半自动化评测。自动化模型训练 + 评测提升效率 70% 100 90 80 100 100 90 70 70 60 60 50 自动化能力迭代将自动化数据合成与模型训练结合，我们开发了一整套自动化模型能力迭代流程，以 badcase 数据为基础，自动对训练数据进行纠错和补充。实现模型自主迭代，实现数据资产和模型能力的双闭环 45 40 30 20 10 0 数据制备模型训练模型评测模型上线算法开发流程线上推理模型迭代

17. 应用场景指标平台 + 智能推荐指标平台 + PLM 将指标平台与产品生命周期管理（ PLM ）结合，为企业提供更全面和高效的方式来管理产品从概念到退市的全过程。通过数据驱动产品定义，优化资源分配，客户反馈快速集成。指标平台 + 大数据将指标平台和大数据相结合，可以为企业和组织提供更强大的数据分析和业务决策能力。包括实时监控异常波动，深度分析用户行为、根据用户需求个性化展示数据等。指标平台利用智能推荐系统提供更精细、更个性化的业务指标分析。通过了解用户的行为和偏好，可以生成针对不同用户群体的定制化指标报告。通过指标平台结合智能推荐，为不同区域用户推荐更匹配的金融产品和车型选择意见。指标平台 + 用户画像基于指标平台，依据用户的行为、兴趣和需求等要素，为用户创建细致的描述分析，实现个性化精准服务，比如定向推送用户常用的功能更新，根据用户用车习惯推送相关周边产品指标平台 + 内容运营将指标平台与内容运营相结合，为企业提供一种全面的数据驱动的内容管理策略。这种结合能够帮助企业优化内容创建、分发、和评估流程，从而更好地吸引和留住用户，提升品牌影响力，包括跨平台整合、社区内容质量提升、内容运营效果评估等。

18. 谢谢！