背景和意义
近年来,金融市场信用风险环境发生了显著变化,违约事件频发,随着证券公司信用业务种类和敞口增加,资讯舆情风险监测能力逐步成为证券公司的重要竞争力;证券公司需要针对自身需求场景,多角度发掘企业主体的经营风险和潜在价值信号,实现对舆情资讯精准高效的分析分类。提高了业务部门接收市场舆情的精准度和时效,助力业务人员识别风险和发掘价值机会。
智能化的风险资讯监测,首先需要全面的数据来源,例如工商图谱、舆情、交易数据等等。投资机构需要充分发掘企业公开的财务、经营数据,计算分析衍生指标,从而掌握金融资产、企业经营状况等动态数据;也需要借助资讯数据系统,从海量、多态的信息中提取有价值的资讯主题、分析主流观点倾向,通过多维、强关联属性的舆情数据及时把握市场情绪,通过机器学习和深度学习的方法,自动识别资讯风险,将资讯监测的手段从线下转为线上,把经验驱动转成数据驱动,精准、高效地识别和预警资讯风险,为证券公司的经营活动保驾护航。
基于今年来的成果,德邦证券组织力量对智能舆情风险监测系统进行了深度优化,缓解了预训练数据的分布不均匀问题,同时增大了舆情训练量,并着重调研和训练测试前沿的自监督深度学习分类模型,添加机构命名实体识别模块和相似文本去重功能,同时为推送端支持了关键词词云展示服务。
舆情分析理论基础
自然语言处理
舆情分析的对象是自然语言文本,人类的自然语言需要描述复杂多变的社会活动事件,传播思想和也承载情感表达;语言本身及其所描述外部世界的复杂性,是自然语言理解(NLU)和自然语言处理(NLP)复杂性的根源。在海量信息时代,大量自然语言样本和前沿智能算法的发展,为自然语言处理舆情监测场景,提供了的落地赋能的契机,自然语言处理方法也越来越多的被应用在风险资讯分析任务中。
文本情感分类的研究出现的时间较晚。Bollen J等人基于实验心理学计量理论,通过对海量社交短文本的情感状态评分量表分析,识别到公众情绪的波动与社会经济事件在时间序列上的强相关联系。随着计算机技术的快速发展,机器学习算法逐渐成为情感分类任务的主流方法。基于传统的机器学习算法,Pang B等人使用支持向量机、最大熵模型等算法,对电影评论进行情感分类任务研究;Bengio Y等人使用神经网络的方法构建语言模型,开启了神经网络在自然语言处理领域的应用。但早期由于技术的限制,复杂的神经网络架构无法得到有效的训练和学习。随后G.E.Hinton等人提出了一种新的梯度下降算法,模型的优化和训练得到了很大程度的提升,并促进了深度学习的发展。Kim等人通过词向量嵌入技术把文本信息转化为向量表示,并将图像识别领域常用的卷积层神经网络带入自然语言处理领域,证明了深度学习的广泛适用性。随着深度学习理论的发展和数值计算能力的提升,拥有高复杂度的循环神经网络和注意力机制在自然语言处理问题中也得到了广泛的关注。这些方法为券商风险管理的方法手段提供了新思路。
风险标签分类体系构建
舆情资讯的风险监测指标体系可以从多种方面着手。根据公开的财务资讯数据,结合自身需求场景建立指标体系,从侧面发掘企业的风险事件和潜在价值信号;根据新闻公告等舆情信息的类别体系,构建舆情模型推理指标体系,对舆情资讯进行分析和标签分类,及时发现关注企业的负面舆情、经营、涉诉风险等。
此监测系统的舆情分类标签体系旨在识别和推理资讯内容的情感性偏向和风险事件标签。情感性偏向标签可以划分为[-3,-2,-1, 0, 1, 2, 3];其中正数表示为正面情感偏向,负数表示为负面情感偏向,0表示中性情感事件;同时,数值的绝对值大小决定了情感性的偏向程度。风险事件标签从治理和管理风险、经营风险、付息兑付、证券市场风险、融资公告、信用风险、财务风险、股权股本、交易提示、财务报告、发行上市、经营管理入和其他入手,全方位展示企业主体的风险状况。
模型训练
海量资讯数据样本中存在样本分布不均衡问题,此系统采用下采样的方法以数据量少的标签的样本数量为准,减少大样本标签数据;同时提出了一种不修改目标函数的优化算法改进方法,已将此优化算法申请专利《处理舆情信息和训练分类模型的方法、装置以及存储介质》,通过初审已进入公示。
输入海量资讯数据样本,样本里每条样本资讯都包括标题、内容、正负情感性标签和风险事件标签。分别使用FastText、Bert、RoBERTa、Bert-WWM和RoBERTa-WWM模型进行训练和比较。
FastText模型是由Facebook公司在2016年推出一款文本分类工具,典型的应用场景就是带有监督性质的文本分类,它有着简单且高效的表征和分类方法。模型架构包含三个部分:输入层、隐藏层和输出层。FastText模型结构如下图所示:
FastText结构资料来源:论文《Bag of Tricks for Efficient Text Classification》
FastText模型在输入层输入的是一段文本的词序列(w1,w2,...,wn),词序列通过线性变换映射到隐藏层(hidden layer),即对多个词向量的叠加平均。为了解决词序信息丢失的问题,在输入层加入由连续n个单词组成的N-gram特征向量,用来捕获词序列中局部的词序信息。在输出层使用层次 Softmax函数(Hierarchical Softmax),一定程度上提高了计算效率,输出该文本属于不同类别分类的概率。
对于一个包含N个文本的数据集,FastText模型的目标损失函数如下式所示:
其中,yn是类别标签,A和B是权重矩阵,xn是第n文本的标准化特征包,f示softmax函数。FastText模型在训练过程中可以通过随机梯度下降法求解模型的参数。
Bert模型是谷歌团队在2018年提出的一种预训练预言表示的方法,基于一个大型文本语料库上训练的一个通用模型,将该模型应用于通用任务。
Bert的预训练方式采用了两个独有的自监督任务:(1)MLM(mark language model):通常的做法是随机掩盖每一句子中15%的词,让机器利用其上下文对掩盖的词做预测,但是缺点在于掩盖的词数量过高,会导致在微调阶段的时候模型会存在一些未出现过的单词。(2)NSP(next sentence prediction):判断一个句子是否是另一个句子的下文。同时,Bert模型的结构采用了双向多层transformer框架,利用了多头自注意力机制的优势,实现文本的双向语义表示。Bert的预训练结构如图所示:
Bert预训练结构 资料来源:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
在掩词模型MLM中,Bert的作者提出了全词masking的方法WWM(Whole Word Masking),和原先的掩词方法不同的是,全词masking连续掩盖所有能组成一个词语的字,而原先的掩词方法掩盖的对象是词语。后来WWM的方法被用到Bert和RoBERTa的预训练模型中,记为Bert-WWM、RoBERTa-WWM模型。
RoBERTa模型是Facebook和华盛顿大学提出的模型,模型框架沿用了Bert的模型框架,对于中文文本训练中,RoBERTa在Bert模型的基础上做了几处重要的改进:
将原先的静态掩词方法改为动态掩词,同时去除了NSP过程,取而代之的是Full-Sentence方法,每次输入连续多个句子,直到上限长度512,亦可跨文本进行输入。并且,RoBERTa加入了字节对编码,使用了更大的词表,从原先Bert使用的词表大小从30k增加到50k。最后,RoBERTa在预训练模型中使用了更大的训练数据和batch size,但是训练时间也会随之增加。从实验数据上看,RoBERTa是对Bert模型的成功优化调参。
通过不同的分类模型训练舆情数据,在舆情测试数据集上得到如下表精确度结果图:
在对比精确度效果后,系统落地方案中采用 RoBERTa-WWM 模型实现对资 讯的情感性偏向分类,使用 RoBERTa 模型实现对资讯的风险标签分类。
下一期将着重介绍舆情过滤方法、标签推理、算法落地实践等。