基于大模型实现结构化标签提取
如果无法正常显示,请先停止浏览器的去广告插件。
1. SpotterGPT
基于大模型实现结构化标签提取
—— 助力指标体系用户画像构建
2024.07.06
主讲人:梁伟
2. 目录
01
引言
02
传统算法方案及其局限
03
生成式大模型的优势与发展
04
系统架构与关键技术
05
实际效果与自动化能力分析
2
3. 业务需求
01
用户 焦点挖掘 灵活数据标签
对于海量的用户声
音 , 难以快速分析用
户关注点,聚焦用
户讨论中心 当前固定的分类
标签,无法快速
响应事件爆发和
产品迭代
02
各式各样 的数据采集源
素材分类整理 产品反馈通路 用户画像构建
对于海量的社区用
户发布的素材难以
快速检索、分类整
理 对于用户在各个渠
道反馈的产品 / 服务
等优化建议 , 难以快
速检索并传递至有
需要的团队 对用户需求和行为
缺乏深刻理解,无
法制定出精准的营
销策略、产品设计
和服务方案,导致
资源浪费和用户满
意度下降
03
04
o 挖
w? 掘
标 h 签
05
易于分析的指标平台
4. 预期目标
5. 预测及决策
活动策划收益预估
4. 实时监控
3. 统计结论
用户情感波动预测…
车型上市实时舆情分析
舆论事件舆情分析…
站内VOC分析和监控公域流量舆情监控…
2. VOC打标
社区内容打标 内测圈打标 NPS问卷内容打标…
1. 情绪分析
科技活动日首日用户情绪
旧款车型退市用户情绪…
5. 行业痛点
01
提取准确 率
采用传统机器学习算法实
现,准确率较低,无法满足
实际应用数据分析,需要大
量人工校准。
02
人力成本
03
内容覆盖率
大量数据需要人工标注,不仅
耗时且标准不统一问题严重
目 前仅针对调研、问卷、 工
单等内容进 行 了识别处理;
且企业内部形成数据孤岛,
无法联动
车展宣发
内测反馈
线下活动
NPS问卷
73%+准确率
人工标注速度 <100 条 / 天
<10%
抽样比例
6. 传统算法方案
输入 实体命名识别
非结构化
文本 通用命名
实体识别
候选实体生成
上下文扩充
搜索引擎
基于名称字典
的构造方法
字典匹配
候选实体消歧 输出
基于图方法 正确的实体对象
基于概率主题
模型
基于词向量分
类
基于深度学习
昨天上午九点多,在广州实验小学内消防部门举办了一场消防知识宣传讲座。
时间
地点
主体
事件
7. 传统模型 VS 生成式大模型
生成式大模型
传统模型
传统模型包括机器学习相关的经典统计算法,如 SVM/PCA/HMM 等,同时
也包括深度学习模型,如 word2vec 词向量模型 /RNN/LSTM/bert 等。
能力上限低
知识容积小
训练开销小 ( 算力 / 数据 )
通用性较差
小而美
传统模型一般参数量较
少,通过巧妙的结构设
计来适应不同领域的分
析要求。在训练后能胜
任具体的下游任务,能
力一般但速度快。
通常是具有大规模参数和计算能力的自然语言处理模型。这些模型可以通过大量的数
据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。
大而强
生成式大模型参数量很
大,通过海量知识进行
预训练后能胜任绝大部
分 NLP 任务,能力接近
人类但速度慢,训练开
销大
能力上限高
储备世界知识
训练开销大
适配所有 NLP 任务
8. 大模型应用发展路径
P ro m p t E n g i n e e ri n g
RAG
第四阶段
第三阶段
Prompt Engineering 是设计
和优化输入提示( prompts )
以引导大规模语言模型(如
GPT-4 )产生所需输出的技
术。这不需要修改模型本身,只
需调整输入格式。
内容生成 问答系统
文本翻译 文本摘要总结
01
第一阶段
RAG 是一种结合检索和生成的方
法。该方法将信息检索与生成式
模型结合,通过从大型数据库中
检索相关信息,再利用语言模型
基于这些信息生成答案。
开放域回答
知识密集型任务
文本生成增强
02
第二阶段
03
F i n e - Tu n i n g
Fine-Tuning 是指在预训练模
型的基础上,通过使用特定领域
或任务的数据进行进一步训练,
使模型适应特定场景的任务需
求。
情感分析
特定垂域文本分类
实体识别
04
Agent
智能代理( Agent )是一种能
够自主感知环境、决策并执行动
作的系统。基于大语言模型的智
能代理能够理解自然语言指令并
自动执行任务。
智能客服
自动化办公系统
机器人规控
个人助手
智能家居管理
9. 系统架构
10. 关键技术项
01 02 03 04
知识内化注入 提示工程优化 自动化数据生产 模型训练与更新
大模型知识内化是指通过各
种方法使大规模语言模型能
够有效地吸收、记忆和利用
知识。通过在预训练 / 微调
过程中使用大量数据来实
现,使模型能够在其参数内
部编码和内化广泛的知识。 提示工程优化是设计、测
试和优化输入提示,以提
高大模型生成正确和有用
输出的效果。通过巧妙构
造输入与输出来提升模型
的推理性能。 自动化数据生产是使用自
动化工具和方法生成大规
模训练数据集,这些数据
集可以用于预训练大模
型。该方法能够大幅度降
低数据获取和人工标注的
成本。 大模型的训练与更新涉及构
建、优化和定期更新大规模
语言模型,以提升其在单一
任务上的表现。定期更新维
护下游数据集进行重新训练
以及在新硬件和算法上的优
化。
11. 关键技术一:知识内化注入
我们遇到的第一个问题是如何让大模型从标签库中找到对应的标准词?
• 方案一
• 方案二
• 方案三
直接将所有词全部输入到 prompt 提示中,让模型
从标签词库中找到合适的词语进行组合 将 VOC 词对分批次放到 prompt 中,通过多次推
理,综合每次推理内容输出最终结果 通过训练数据将标签库知识内化,把标签作为知识
的一部分,写入到模型参数中去
实际效果: 实际效果: 实际效果:
由于 prompt 长度过长的原因,训练和推理流程 将合理的对象词与现象词组合作为 VOC 词库,按
更为复杂。由于词库过大,导致模型拟合的效果
不佳,模型无法从几百个词中准确提取出正确的
照 20 个 VOC 为一组分为 N 组,每次分析让模型在
20 个 VOC 中挑选正确的 VOC 进行输出,最终将
取消 prompt 中的词库,通过扩展训练数据,让
所有的标准词都出现在训练数据中,通过训练数
据学习不同的自然词应该转化为哪一个标准词。
词语。 所有的 VOC 结果进行聚合。输出内容包含大量空 推理阶段直接由模型推理句子中的存在的对象词
缺点: 结果,消耗了非常多的资源 和现象词。成功将【标签库】这一知识内化到模
1. 模型不能完全消化理解词库中的内容。在大模 缺点: 型中。
1. 需要手动筛选一遍标准 VOC 词对,将不合理 缺点:
2. 推理消耗资源过多,标准 VOC 词对分为 N 组, 分错误情况
型上做验证测试时,发现模型并不能很好的理解
这一任务
2. 即使能做到抽取正确的实体,但不能理解词语
的 VOC 词对删除,人工处理费时,且不便于拓展
1. 模型能够正确的抽取标准词,但依然会出现部
应该来自于词库中,会遗忘大部分标签,随机生 即一次推理需要 N 次模型计算,大约需要 1 分钟左 2. 训练数据与词库绑定,当词库调整时,训练数
成不在库的标签。 右。 据也需要调整,同时还需要重新训练模型
3. 推理开销过大,一次推理输入 prompt 长度大 3. 模型输出时,会存在大量无效结果,即 VOC 结论:可用
约 2000 字,推理速度极慢。
结论:不可用
词对中没有合适的结果,浪费推理资源。
结论:不可用
12. 关键技术二:提示工程优化
50%
90%
70%
增加自动合成数据流
设计输出 CoT 过程
调整词库注入方式
将词库注入到训练数据
中,通过训练数据让模
型内化标签知识。
针对词库中覆盖率较低
的标签,通过自动化合
成数据生成该标签相关
的真实数据,提升模型
准确率
在输出部分设计推理过
程的 CoT ,增加关键词
到标签的映射推理关
系,帮助模型理解任务
60% 80%
设计输入 prompt 词库辅助匹配模型
设计 prompt ,在提示中
明确任务,规范边界条
件,采用 1shot 结构限制
格式
通过对比学习等方法训
练一个小规模的词库辅
助匹配模型,在后处理
时过滤不在词库中的结
果
13. 关键技术三:自动化数据生产
14. 关键技术四:模型训练与更新
15. 算法效果对比
机器学习算法
基于大模型算法
100
传统算法缺点: 大模型算法优点:
1. 词库不灵活,基于静态词库进行一次性开发 1. 词库灵活,可持续增加 / 修改词库内容
2. 模型能力弱,在复杂 case 上模型准确率很低
3. 标签输出简单,只能提取实体标签,无法进行
实体 + 情绪的关联标记
2. 模型能力强,通过少量训练数据即可覆盖大部
分 hard 场景,模型本身具有很强的泛化能力。
3. 标签更复杂,对原始数据中的信息进行了更详
尽的提取,信息压缩比低。
50
0
词库灵活性
模型泛化能力
标签完整性
输出稳定性
准确率 准确率
73%+ 92%+
16. 自动化能力
相较于传统的算法开发流程,我们设计了三个自动化流水线,来取代开发 / 运营过程中的人工
部分
73%
自动化数据合成
50%
整体自动化率
根据实际需求自动化合成训练数据,并采用二次校验的方式提高合成准
迭代速度
确性,减少了人工标注数据成本。 65% 训练数据来自自动合成,数据
合成准确率达到 93%
自动化模型训练
将训练数据进行线上化管理后,我们设计了模型训练流水线,自动将数
据构建成训练集并调用训练组件进行训练,并实现半自动化评测。自动
化模型训练 + 评测提升效率 70%
100
90
80
100
100
90
70
70
60
60
50
自动化能力迭代
将自动化数据合成与模型训练结合,我们开发了一整套自动化模型能力
迭代流程,以 badcase 数据为基础,自动对训练数据进行纠错和补充。
实现模型自主迭代,实现数据资产和模型能力的双闭环
45
40
30
20
10
0
数据制备
模型训练
模型评测
模型上线
算法开发流程
线上推理
模型迭代
17. 应用场景
指标平台 + 智能推荐
指标平台 + PLM
将指标平台与产品生命周期管理( PLM )
结合,为企业提供更全面和高效的方式来
管理产品从概念到退市的全过程。通过数
据驱动产品定义,优化资源分配,客户反
馈快速集成。
指标平台 + 大数据
将指标平台和大数据相结合,可以为
企业和组织提供更强大的数据分析和
业务决策能力。包括实时监控异常波
动,深度分析用户行为、根据用户需
求个性化展示数据等。
指标平台利用智能推荐系统提供更精细、更个性化
的业务指标分析。通过了解用户的行为和偏好,可
以生成针对不同用户群体的定制化指标报告。通过
指标平台结合智能推荐,为不同区域用户推荐更匹
配的金融产品和车型选择意见。
指标平台 + 用户画像
基于指标平台,依据用户的行为、兴趣和
需求等要素,为用户创建细致的描述分
析,实现个性化精准服务,比如定向推送
用户常用的功能更新,根据用户用车习惯
推送相关周边产品
指标平台 + 内容运营
将指标平台与内容运营相结合,为
企业提供一种全面的数据驱动的内
容管理策略。这种结合能够帮助企
业优化内容创建、分发、和评估流
程,从而更好地吸引和留住用户,
提升品牌影响力,包括跨平台整
合、社区内容质量提升、内容运营
效果评估等。
18. 谢谢!