基于情感依存元组的新闻文本主题情感分析
如果无法正常显示,请先停止浏览器的去广告插件。
1. 第 4
9卷 第 1
2期
21
04年 1
2月
山 东 大 学 学 报 (
理 学 版)
V l 9 N .2
o 4 o1
.
D c 21
e. 04
Junl f hnogU i rt( a r Si c)
ora o S adn n e i N t a c ne
v sy
ul e
文章编号:6195 ( 04 1 0 D I100 jin17 50419
17 2 21 ) 20 10
3
0 6
O :064 / s .619 23215
.s
3
基于情感依存元组的新闻文本主题情感分析
周文,
张书卿,
欧阳纯萍,
刘志明,
阳小华
(
南华大学计算机科学与技术学,湖南 衡阳 410 )
201
摘要:
以情感依存元组( D )
E T 作为中文情感表达的基本结构,
把新闻文本主题情感倾向性判别任务分成主题识
别、
情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对 T F方法进行改进,
FI
D
再结合基
于交叉熵方法提取主题特征词,
同时考虑了新闻文章标题的主题表征作用,
将标题词纳入主题特征集;
然后基于
空间向量模型计算句子与主题特征向量的相似度,
在此基础上考虑句子位置、
长度及句子与标题的相似度,
计算
句子的主题相关度以抽取主题句;
最后建立情感依存元组判别模型计算主题句的情感,
采用主、
客观分类规则筛
选出新闻倾向关键句。本方法在 C A 04评测中各项指标皆逼近最好成绩,
O E21
表明基于情感依存元组的分类方
法具有较高的分类性能。
关键词:
情感分析;
情感依存元组;
主题情感;
倾向关键句
中图分类号: P9 文献标志码:
T 31
A
T p et et nl i o C i s e s ae n
oi n m n aa s f h eenw bsdo
cs i
ys
n
e o oa dpnec ul
m t nl eednyt e
i
p
ZO
H UWe,Z A GS uq g U A GC ui ,LUZ i i ,Y N
n H N hi ,O Y N hnp g I h n
n
n
m g A GXau
i ha
o
( col f o pt Si c n eho g,U i rt f ot h a egag410 ,H nn h a
Sho o C m u r c neadT cnl y n e i
e e
o
v syo S u
hC i ,H nyn 201 ua,C i )
n
n
A s atT k gt m t nl eednyt l E T st ai t c r f h eee o oa epes n h
bt c ai h
r : n ee o oa dpnec u e( D )a h s r t eo C i s m t nl xr i ,t
i
p
eb csu u
n
i
so
e
nw t thm m t nr on i akw s i ddi ot e rges esbt k:t i i n f ao,e o oa
e se t ee o o e gio s a d i n h epor i u ss o c d ti t n m t nl
x e
i c t nt
ve t r
sv
a
p s e ic i
i
t dn oses nl i uj t eadoj t ec s f ao.T Fm t dw si poe e r dn fi h
e et uns aa s ,sb cv n b cv l si t n FI
n i
ys
ei
e i a ic i
D e o a m rvdbf ei ty gt
h
o ei n e
e ec r
h
n
r
e
ar
p p s ao
t i n hnt rs et pae e o a cm i dt x athm s et e od.T e oi r r eti
o c dt h os n oybsdm t dw s o b e oet c t e f u w rs h t c e e n t n
p ,a
o t nw tl w sae n os e t na t sm t e n h tl w rs e ptn h t m f t e e
fh e sie a t ni ocni r i th a e i ,adt ie od w r u i ot h e e u st
e
t
k
t
d ao
e
m
et
e
t e e
ar .
T es irybtensn ne n h t i f t e et w s a u t ae nt vc r pc m dl o e t
h i l i e e et c adt o c e u vc r a cl le sdo h et sae oe
m at w
e
e p ar
o
c a db
e o
.S m s
a
tta rl sc s et c psi , et c l g n et c’ s irywt ie e addo h fudt n
ii lu s uha sn ne oio sn nee t dsn ne s i l i i t w r de nt sonao
sc
e
e
tn
e
n ha
e
m a t htl
e
i
i
t e t i et cs i l ,t m t nl eednyt l i r i n m dl a s b se ocl lesn
ogto csn ne.Fn l h
p
e
ay ee o oa dpnec u ed c m n t oe w set lhdt a u t e
i
p si a
ai
ca
t cs m t nadt sb cv adoj t e ug etu w r ue oft oth t dnykysn ne h a
e e e o o n h uj t e n b cv j m n rl e sdt ie u t e ec e et c.T e p
n
i
e ei
ei d
e e
lr
e n
e
ui
as
a ec s f ao
h
poci ot eteu so epr et ae nC A 04ea ao a hw hth l si t nm t d
rah gt h s r l f xe m n bsdo O E21 vl t ndt o st t a ic i e o
n
eb
st
i
bsdo h D a h hc s f ao e om ne
ae nt
eE Ths i l si t npr r ac.
g a ic i
f
K yw rssn m n aa s ;e o oa dpnec ul hm m t nl ednykysn ne
e od:et et nl i m t nl eednyt e e ee o oa nec e et c
i
ys
i
p ;t
i ;t
e
0
引言
1
文本情感分析又称意见挖掘 [ ],
是对包含用户观点、
喜好、
情感等主观性文本进行挖掘、
分析及判别。
收稿日期:040 ;网络出版时间:041 74
21 2
88
21 1 ∶9
0 71
网络出版地址:t : / w .nintkm /o/064 / in17 .32321 .5 .t l
h p /w w ck.e/c sdi .00 j s .6195 ..0419 h
t
1
.s
m
基金项目:
湖南省自然科学基金资助项目( 1J071 J 06 ;
1 J 4 ,3J 7 ) 湖南省教育厅优秀青年项目( 3 11 ;
6
4
1 B 0 ) 南华大学重点学科和创新团队建设基
金资助项目;
衡阳市科技局科技计划项目( 03 G 621 K 6 )
21 K 6 ,03 G 7
作者简介:
周文( 98- ) 男,
18
, 硕士研究生,
研究方向为自然语言处理、
信息检索与知识发现. a: r etn om i cm
Em i m w n a@fx a.o
l
i
l
2. 2
山 东 大 学 学 报 (
理 学 版)
第4
9卷
它是一个多学科交叉的研究领域,
涉及概率论、
数据统计分析、
计算机语言学、
自然语言处理、
机器学习、
信息
2
检索、
本体学( n l y 等多个学科及其相关技术 [ ]。鉴于其在用户意见挖掘、
O to )
og
垃圾邮件过滤及舆情分析等
多个领域具有重要的应用价值,
文本情感分析正受到国内外众多研究机构和学者的重视。
情感分析可归纳为情感信息抽取、
情感信息分类及情感信息的检索与归纳三项层层递进的研究任
务
[]
1
。本文研究的重点是情感信息分类,
旨在将文本情感分为褒义、
贬义两类或者更细致的情感类别。按
照分析文本的粒度不同,
情感信息分类可分为词语级、
短语级、
句子级、
篇章级等几个研究层次。目前,
情感
分类大致涌现出两种研究思路:
基于情感知识和基于特征。前者主要是基于已有的情感词典或情感知识库
对文本中带有情感或极性的词(
或词语单元)
进行加权求和,
而后者主要是对文本提取具有类别表征意义的
特征,
再基于这些特征使用机器学习算法进行分类。国内外学者均从这两方面对情感分类展开了大量的研
3
究。Km等 [ ]采用第一种思路,
i
对英文文本中评价词和词组的极性加权求和得出句子及篇章的极性。T r
u
计算根据预定义规则选取的词语搭配与种子词 “ xeet 和
ecln”
l
ny4 在无监督的情况下使用互信息方法,
e[ ]
5
“ or的互信息差值来判别文本情感。Pn
po”
ag等人 [ ]首次采用机器学习方法对英文文本进行情感分类。还
有大量研究采用的是基于 S M 的距离监督学习、
V
基于 K N语料的强化学习、
N
基于朴素贝叶斯( B 的特征
N )
学习等方法。由于语言的差异,
国外的一些研究方法不能直接应用于中文文本情感分析,
国内学者针对中文
6
7
o Nt
的特点对情感分类问题做了相应研究。如,
朱嫣岚等人 [ ]和韩忠明等人 [ ]都是在 H w e情感词典的基础
上,
分别采用语义相关场和构建自动机的方法实现了情感分类;
还有一些学者采用 C F 信息增益等算法分
R、
别与不同特征选择方法结合实现情感分析。
上述方法在中英文情感分析方面取得了不错进展,
但无论是国外还是国内的研究,
在进行情感分析时都
8
将文本看作是词的集合 [ ](
词袋模型 bgo od)
af rs。但实际上人们并不是以情感词为单位表达情感的,
w
而
是基于一定的情感表达结构。词袋模型忽略了情感词在语法和语义上的关联使得情感分析的准确率不高,
9
随之,
一些学者提出了依存分析的情感分类方法。如 Ma u o
tm t
s o等人 [ ]利用句子的依存关系作为 S M 的
V
Wu 1]
特征对文本进行情感分类, 等 [0 利用依存分析对评论文本进行了情感分析。这些基于依存关系的情感
分类方法在一定程度上提高了情感分类的性能。
依存语法 ( eednyga m r G) 称 配 价 语 法, 理 论 由 法 国 语 言 学 家 特 斯 尼 耶 尔 ( ui
dpnec r a,D 又
m
其
Lc n
e
T si e 在 15
en r) 99年创立,
è
他认为:
句子是一个有组织的整体,
构成成分是词;
词会和邻近词产生联系,
这些词
相互联系构成了句子的框架,
并表达思想。目前基于依存语法的研究大多只是借助依存语法构造基于机器
学习的高精度句法分析程序,
并没有实现从句法层面到语义层面的转换。在进行情感分析时,
以情感词为单
位不考虑词间关系,
或对句法依存关系笼统分析都容易引入与主题不相关情感噪声,
但依存语法对句子结构
的合理设想使得句法分析更为直接有效。为避免主题不相关情感带来的噪声影响,
本文借鉴依存语法以动
词为架构实现句子框架的思想,
提出一种情感表达的基本结构:
情感依存元组( D ,E o oa dpnec
E T m t nl eedny
i
tl,
u e 它以主题特征词为核心,
p)
其他修饰成分依附于核心词。以句子中含有的主题特征词作为 E T的核心
D
构建基于情感依存元组的句子情感判别模型,
使得提取的情感紧扣主题且情感值计算更精确。基于此本文
实现了一种分层的文本篇章级情感倾向性分析方法。
1
基于情感元组模型的主题情感判别
新闻文本大量存在于门户网站、
博客及论坛中,
并大多具有情感倾向性,
对其进行倾向性判断可以为用
户掌握社会动态和判别舆情状况提供重要的依据。新闻报道是新闻事件的载体,
要求用语规范、
句法正确、
[1
修辞合理,
并要交代清楚新闻事件的“
六何” 何时、
(
何地、
何人、
何故、
如何、
何事)1],
新闻事件的这些信息
往往出现在新闻标题和首段中。新闻标题被认为是“
新闻的眼睛” 具有长度受限,
,
以单行、
陈述句为主,
信
息量丰富等特点。因此,
加强对新闻标题、
首句、
首段的充分利用能挖掘更多有用信息。
11
相关概念介绍
新闻倾向性 ( T :
N ) 新闻倾向性至少有两种,
一种是新闻事件本身的倾向性( E ) 例如自然灾害、
N T,
人员
财产损失属于 负 面 新 闻, 技、 育 和 人 文 方 面 的 进 展 则 具 有 正 倾 向 性; 一 种 是 新 闻 报 道 的 倾 向 性
科
体
另
( R ) 例如“
N T,
高铁车票打折”
事件,
有的报道对其进行褒奖,
有的进行批判。本文优先判别新闻报道的倾向
3. 第 1
2期
3
周文, 基于情感依存元组的新闻文本主题情感分析
等:
{
性,
不具备前者时提取新闻事件的倾向性, N
即 T=
N TN T
R ,R ≠ ,
N T N T= 。
E,R
倾向关键句:
倾向关键句必须能表达篇章主题的总体倾向性,
因此篇章的倾向关键句须包含两个要素:
S , K 为主题关键词, K用来概括篇章的主题; K为倾向关键词,
S
T
用来表征篇章倾向性。
〈K T 〉
情感依存元组( D ) 以主题特征作为中心词( W) 情感词( W)
E T:
C ,
E 依附于中心词,
程度词( W)
D 和否定
N 序列修饰中心词和情感词,
构成情感表达的基本结构,
其匹配模型为 E T= N D [ [
D [ W/ W]
词( W)
N D E C [ N D E 。
W/ W] W] W[ W/ W] W]
12
主题句抽取
直接对新闻文本整体进行倾向性分析,
往往会受到一些与主题无关的情感因素的干扰,
且无法区分新闻
报道和新闻事件两种倾向性。因此,
本文先抽取篇章主题句,
再对主题句进行情感判别来排除这一干扰。
121
构建情感本体库
文本情感线索主要来源于情感词,
单一情感词典对网络新词、
热词、
变形词和潜在情感词收录不及时,
情
o Nt
感线索的覆盖能力有限,
情感分类前需先构建情感本体库。我们采用 H w e 情感词和评价词作为基础情
感本体库,
将大连理工情感词典去除中性词, 7类情感归为褒、
把
贬两类,
再连同台湾大学中文情感词典
(TS)
N U D 及搜狗词库的网络新词部分与基础本体库进行去重融合,
构建了较为完整的情感本体库。
中文句子词语间没有显式的划分,
文本分类前需要先将文本进行词汇化处理。我们采用基于层次隐马
尔科夫模型的中科院汉语分词工具( L I )
N PR 作为分词器。分词前要把收集的与样本领域相关的网络词汇
和情感本体库中的情感词添加到自定义分词词典中,
并先从整篇文章提取新词加入分词词典,
再逐句进行分
词和词性标注,
以提高分词的准确性。分词后的结果表示为 D ={ 1, 2, 3, S, S} S 表示文章 D
S S S …, j …, n , j
i
i
句子中的第 j
条句子, j= W1, 2, Wk …, m} Wk表示句子 S 中的第 k
S { W …, , W ,
个词。
j
122
构建主题特征集
文章的主题概念可由主题特征表示,
主题特征项形如 (
主题词,
主题相关度) 所以主题特征集 T=
,
{ W1, cr( 1) , W2, cr( 2) , ( k Soe Wk ) …, Wn, cr( n) } FI F t m f qe
( Soe W ) ( Soe W ) …, W , cr( ) , ( Soe W ) 。T (e r un
D
r e
1]
c vr ou etr uny 的思想 [2 :
yi e edcm n f qec)
n s
e
一个词在特定文档中出现的频率越高,
则它表征该文档内容属性
T ) 该词在文档集中出现的范围越 广, 它 区 分 文 档 内 容 属 性 的 能 力 越 低 (D )
则
I F 。传 统
的能力越强( F ;
T I F没有考虑一个词在某个文档中出现次数相对其在文档集中出现总数的概率,
FD
而这一要素对该词的表
征能力具有重要影响。因此本文将这一要素考虑进来, T I F公式进行如下改进:
对 FD
N
u
N
( N ) · ( Num ) ,
m
k
T I F = ·tk dk k= ·tk o
FD ′ α f·i ·f α f·l
f
g
i
k
i
i
k
()
1
a
l
l
其中,f为特征项 Wk在文档 D 中出现次数与总出现次数的比值,
N为文档总数, k 表示含有特征项的文
N
k
i
Nm
N m l为特征项 Wk在所有文档中出现的次数。
档数, u k为特征项 Wk在文档 D 中出现的次数, u al
i
根据公式( )
1 计算每个词的 T I F值,
FD
得到一个特征子集 T td)
(f f。为了提高篇章主题特征的准确性,
i
使用基于交叉熵的方法进行主题特征提取,
得到另一个特征子集 T c s ,
( r s 然后对 T td) T c s)
o)
(f f和 ( r s 特征
i
o
项的主题相似度作归一化处理,
再根据公式( )
2 进行融合,
得到初步特征集合 T t p :
(e )
m
T t p α (f fi+ ·T c s i
(e )= ·T td) β ( r s ,
m
i
o)
()
2
其中, 和 β
是加权系数,
通过下文的实验(
实验 2 对比两个权系系数在不同组合下提取主题特征词的效果
)
α
进行系数选择。鉴于新闻标题对主题具有很好的表征作用,
首先通过统计 T t p 中特征项主题分值的分
(e )
m
布情况选定上下两个阈值为 85和 55 然后在 T t p 之上执行以下操作:
,
(e )
m
依次从标题中取出标题词 Wk
,
若 T t p 中含有 Wk且其主题分值低于 85 则调整 Wk的分值为 85 若 T t p 中不包含 Wk则将 Wk加
(e )
m
,
; (e )
m
入 T t p,
(e ) 并设置其主题得分为 55
m
。完成标题词与 T t p 的融合得到完整的主题特征集 T
(e )
m
。
123
主题句提取
为文章每个句子和主题特征集 T建立空间向量,
采用空间向量模型与规则相结合的方法抽取与 T相似
度较高的句子为主题句,
具体做法如下。
()
1 计算余弦距离:
以主题特征集 T中的各项作为向量的维,
分别构建特征向量
V T { e h, e h, wi t
( )= w i t w i t …, e hn}
g1
g2
g
4. 4
山 东 大 学 学 报 (
理 学 版)
第4
9卷
和句子向量
V S)= N ·w i t N ·w i t …, 2·w i t ,
(j { 1
eh,2
g1
eh, N
g2
e hn}
g
n
()
V S)
其中, 为 T的特征项个数。V T 以各特征项的主题相似度作各维的权重, ( j 以句子所含特征词的个数
与其相似度之积作为该维权值,
计算 V T 与 V S)
()
( j 的余弦距离 Soe cs作句子的主题得分基值;
cr( o)
2
主题特征提取时未能考虑句子的位置特征,
而新闻中篇章首句、
末句成为主题句的
( )计算位置得分:
可能性很大,
中间句子多为细节句,
即首尾句子主题得分高,
中间句子得分低,
这符合二次函数的特点,
本文
采用 a x 0 5 2 函数计算句子的位置分值 Soe l )
·( - . )
cr(o ;
c
( )句子长度特征:
3
句子越长含有特征项的可能越大,
本文采用句子各词的 T I F值之和与句子长度
FD
cr(e ,
n
开方值之商作为句子的长度分值 Soe l ) 来调整句子长度的影响;
( )计算标题相似度:
4
标题能反应主题占 9 %以上,
0
考虑标题相似度能弥补特征向量方法的不足,
标题
cr(ie
t)
相似度以句子含有标题词的个数作为标题相似度 Soe tl ;
( )将上述各得分作归一化处理后加权融合抽取候选主题句集,
5
其融合公式如下:
4
Soen = i ∑ Soe
crs t γ·
cri
,
e
()
3
ii
=
当 i 1~
取
4时, cri分别表示( )~ 4 项得分, i为各项得分的权重系数,
Soe
1 ()
先通过经验估计 γ的初值,
再
γ
1
使用单一变量的原则进行实验确定其他变量的取值,
然后再对 γ做调整,
最终确定各系数的权值,
具体见下
1
文实验 3
。
13
主题句的倾向性分析
句子的情感表达以情感依存元组为单位,
句子情感值是其包含的情感依存元组的情感综合体现。对主
题句的倾向性分析先要对句子进行句法分析,
分析其中的依存关系,
从中提取出情感依存元组。然后基于情
感依存元组建立情感判别模型进行倾向性分析。
131
情感依存元组抽取
获取情感依存元组的中心词是抽取情感依存元组的关键。我们以主题句中包含的实词性主题特征词作
为中心词以保证抽取情感的主题相关性。为了更直观地展示提取流程,
以句子“
记者还发现很多心态较好
的股民十分乐观。 为例进行分析。首先对其进行分词和词性标注生成字符序列: 记者 / N 还 / D 发现 /
”
“
N
A
V
V很多 / D心态 / N较好 / 的 / E
C
N
J
J D G股民 / N十分 / D乐观 / A ,
N
A
V ” 然后再通过句法分析处理生成句法
分析树和关系依赖。
情感依存元组的抽取流程为: 1 提取句子包
()
含的实词性(
不含数词、
量词)
主题特征词作为情感
表1
情感依存元组提取规则
T b 1 m t nl eednyt l x at nrl
al E o oa dpnec u eet co u s
e
i
p
r i
e
编号 中心词 法分析树中找到“ 1 名词 形容词、
股民” 然后根据本文统计的规则 动词、
, 名词、
数量词
( 1 在中心词所在树的兄弟节点以及兄弟节点的 2 动词 形容词、
表 ) 副词、
名词
所有子树中提取中心词的修饰成分。根据规则可以 3 代词 形容词、
动词、
名词、
数量词
4 形容词
依存元组的中心词,
如例句中的“
股民” 2 在句
。( )
提取 出 〈 民,心 态 〉 股 民,较 好 〉 股 民,
股
,〈
,〈
修饰成分
形容词、
副词
乐观〉三 对 形 如 〈 心 词 , 饰 词 〉 修 饰 结 构 。
中
修
的
()
3 从句子的依赖关系中提取中心词和修饰词的否定依赖和程度依赖关系 av o (
dm d 乐观:0
1 ,十分: )
9和
nm o(
u m d 心态:,很多:) 否定依赖和程度依赖作为一个整体可叠加计算。
5
4,
完整的情感依存元组包括一个中心词和若干个修饰词,
每个中心词和修饰词又包含若干个否定和程度
修饰。
132
主题情感倾向判别
基于情感元组建立句子情感判别模型, S sb 表示中心词的情感值,
用 (u)
初值为 1 S dc 表示修饰词情
, ( e)
, (e 为整个情感元组的情感基值。分别从情感词典获取中心词和修饰词的情感值,
r
正情
感值,
初值为 0 S t m)
感词情感值为 1 负情感词情感值为 - 。然后计算中心词和每个修饰词的否定程度 N g w r) 对每个
,
1
eW( od ;
中心词和修饰词获其所有否定依赖,
每个获得一个否定依赖 N g w r)=- eW( od ;
eW( od
N g w r) 对每个否定依
赖词获取其程度修饰,
每个获得一个程度修饰 N g w r)= eW( od W( od , w r)
eW( od N g w r)
w r) W( od 为程度词
的程度系数。否定程度将否定和程度作为一个整体进行考虑,
并可以叠加计算多层否定和程度关系,
中心词
5. 第 1
2期
周文, 基于情感依存元组的新闻文本主题情感分析
等:
5
可拥有多个修饰词,
故情感依存元组的情感值为
n
S t m)= (u) N g sb [ ∏ S dc N g dc + ]
(e
r
S sb eW(u)
( ei
) eW( ei 1,
)
i
()
4
其中, 为中心词的修饰词个数。情感依存元组的情感极性由中心词的极性和修饰词的情感极性共同决定,
n
加 1使得当没有修饰词或修饰词无情感时,
情感极性由中心词的极性决定。句子的情感值为句子各情感依
存元组的情感之和,
当句子没有情感元组或无法进行句法分析时采用基于情感词典的方法进行计算,
所以句
子总的情感计算模型如下:
n
{
Soe sn
cr(e)=
(e ,n 0
r
∑ S t m) > ,
j1
=
m
5
()
(m )
e o ,n 0
∑ S e o W( m ) = 。
=
i1
其中 n
为句子 sn
e 中情感元组的个数, n 0时累加句子中每个情感词的情感值得到句子情感;
当 =
m为句子
中情感词数;m 为情感词。根据此模型即可计算出每个主题句的情感值。
eo
133
主客观情感分类
通过上述步骤计算得到的主题句的情感包括新闻报道的情感和新闻事件本身的情感两种,
我们基于以
下主客观特征对主题句进行主客观分类,
以优先选择新闻报道的情感:
第一,
主语的人称和词性。先从句子
依赖关系中抽取主谓依赖,
分句导致主谓结构可能不止一个,
主句的主谓关系往往最先出现,
所以从第一个
主谓关系中提取句子的主语和谓语,
如将主语为第一人称名词、
代词的句子标记为主观句。第二,
谓语的特
定用词。将谓语为新闻报道的特殊谓语用词的句子标记为客观句。第三,
不能区分主客观的句子,
都标记为
客观句。新闻情感的选择方法为,
先从候选主题句中选择与主题最相关的主观句作为情感关键句获取新闻
报道情感,
当没有主观句时取主题最相关的主题句获取新闻的本身情感。
2
参数设置与结果分析
实验语料来自第六届中文倾向性评测( O E21 ) 源于各新闻网站、
C A 04 ,
博客、
论坛的新闻文本共 1 00
00
篇。从这些未标注的语料中随机抽取了 20篇文本,
0
按评测要求人工标注其情感关键句与倾向性,
并每篇提
取1
5个主题特征词。对标注结果进行一致性检查,
将最终得到 10篇标注文本作为测试数据。
4
21
参数设置实验
在情感判别过程中对一些方法进行改进或采用多种方法融合的策略来提升情感分析的效果。为了通过
实验验证方法改进的有效性或选择不同方法的权重,
共设计三组实验。
实验 1
用改进的 T F方法和传统 T F方法分别对测试集的每篇文章提取一定数目的主题特征
FI
D
FI
D
词,
计算匹配度。图 1为两者在提取各数量特征词时匹配度的对比,
从图中可以看出改进后的 T I F方法
FD
匹配度高的比例明显大于传统方法,
证明本文对 T I F方法的改进是有效的。综合考虑特征词的召回率和
FD
匹配准确度,
选择每篇文章提取 2
2个特征词。
实验 2
对比 T F方法和交叉熵方法在不同权重比值下提取的主题特征词与标题和人工标注主题
FI
D
特征词的相似度。图 2显示了各权重分配下两个相似度都大于 05的篇章占测试集的比例,
最终设置 T
F
I F方法与交叉熵方法比重为 0901
D
∶ 。
实验 3
提取主题句时,
在句子向量与主题特征向量的余弦距离基础上考虑句子位置、
长度和与标题相
似度三个因素,
用与人工标注的主题句匹配度作为评测标准来确定四者的比重。实验先估计余弦距离权值
确定其最优比值后再调整 γ,
γ = ,
1 05 然后分别单一调整其它各参数的值,
1 最终确定 4个参数的比值为
05 ∶ ∶ ∶5
γ∶ 2∶ 3∶ 4 = 5020101 。
1 γ γ γ
22
结果分析
我们参加了第六届中文倾向性评测( O E21 )
C A 04 任务“
面向新闻的情感关键句抽取与判定” 采用 F值
,
( esr) 正确率( r io)
Fm aue 、
pe s n 和召回率( ea)
ci
R cl 以及微平均( c ) A cr y值作评测结果评价指标。
l
Mi o 和 cua
r
c
本任务共 1
2支参赛队提交 2
1组结果,
本文方法结果的各项评测指标均远高出均值,
微平均各指标均排在
二、
三位,
如表 2所示。
6. 6
山 东 大 学 学 报 (
理 学 版)
图 1 FD
T I F改进前后效果对比
Fg1 FD ot sbfr n f rm rvd
i T I Fcn at e eada e i poe
.
r
o
t
第4
9卷
图2
主题特征提取方法参数权重对比
Fg2 hm s et e x at nm t dpr e r e h cn at
i T e e f u et co e o a m t w i t ot s
.
ar r i
h
a e
gs r
表2
评测结果
T b 2 h vl t nr u s
al T eea ao e l
e
u i st
Im Ng Ng N g1 A cr y E TB sd 025 0 008 8 013 9 000 9
t eR eP eF cua D ae 1 20 6 30 0 70 6 00
e c
Mi oR cl Mi oR c i Mi o esr
c ea
r
l c eio
r
s n c Fm aue
r
039 8 mdn 007 8 001 4 007 3 000 5 020 6 008 1 014 5
4 50 ei 6 62 5 75 5 16 4 57 2 18 6 25 0 18
a
mx 029 9 004 1 019 5 005 5 038 9 014 0 014 2
a 3 41 8 69 0 24 6 20 8 76 0 10 6 28
003 6
9 20
017 5
4 20
从评测结果来看,
基于情感依存元组判别模型方法的各项评测指标都远高出均值,
接近最好成绩,
说明
通过以主题特征词为核心构建情感依存元组,
建立情感判别模型确实能避免非主题情感的干扰,
且情感元组
的情感计算较为准确;
其次对新闻情感关键句的倾向性判别任务进行分解的方法切实可行,
这种分层的思想
能够将问题细化,
对每个子问题更有针对性地提出决绝方案。同时数据也反映了各项指标分值普遍不高,
经
分析,
召回率不高主要有以下几个原因: 1 提取情感元组时,
()
忽略了中心词的同义词替换,
导致同义主题特
征词未被识别; 2 建立情感依存元组分析模型时未考虑上下文对情感倾向性的影响。准确率偏低主要由
()
于句子划分误差和长度过长影响了句法分析树和依赖关系准确性,
加之情感词典构建不够完善对句子情感
判别也会产生影响。所以对中心词作更深一步处理,
考虑复杂的句型结构对情感的消解情况,
对情感词典和
分词词典进行扩充等,
都将是我们提高各指标的有效途径。
3
总结
本文将主题情感判别分解为主题识别、
主题情感倾向分析及主客观情感分类三个不同层次的子任务,
任
务分解降低了难度,
针对不同层次的子任务采用分治的思想。对单个任务采用多方法融合,
实验确定各方法
权重的策略提高了最终情感判别的准确性。提出情感依存元组的情感表达形式,
对情感单元的情感计算更
为精细和准确,
以句子包含的实词性主题特征词作情感依存元组的中心词,
构建基于情感依存元组的情感判
别模型,
排除了非主题情感噪音的干扰。
评测结果在表明本文方法切实有效的同时也暴露了本方法在细节处理之处的不足,
如未考虑上下文情
感元组之间的歧义消解等。为排除三个层次的子任务上误差叠加的影响,
我们下一步将在已标注的数据上
分别采用分类和聚类算法进行情感判别对比实验,
以进一步验证本方法的分类性能。
参考文献:
[ ]赵妍妍,
1
秦兵,
刘挺.文本情感分析[]
J.软件学报, 00 2 ( ) 13 4 .
21 , 1 8 : 841 8
8
ZA
H OY na,Q NBn,LUTn. et et nl i J.Junl f ota , 00 2 ( ) 13 4 .
ayn I i
g I i Sn m n aa s [] ora o S f r 21 , 1 8 :841 8
g
i
ys
w e
8
[ ]姚天窻,
2
程希文,
徐飞玉,
等.文本意见挖掘综述[]
J.中文信息学报, 08 2 ( ) 7 .
20 , 2 3 : 18
0
Y OTaf g H N
A i a ,C E GXw n UFi ,e a
nn
ie,X e u t l
y
.Asre f p i i n o t t[] ora o C i s Ifr ao
uvyo oi o n gfre s J.Junl f h ee nom t n
n nm i
x
n
i
Poes g 20 , 2 3 : 18 .
rcs n, 08 2 ( ) 7
i
0
(
下转第 1
1页)
7. 第 1
2期
1
1
宋爽, 基于在线评论的消费者品牌转换意向模糊推理
等:
[ ]R S ,R L N ,A T O YJ A O I .C s m r as co,cs m r e n o,adm re sa [ ] ora o
2 U T O A DT N H N
Z H RK ut e stf t n ut e r et n n a t hr J .Junl f
o
ia i
o
t i
k
e
r ai , 93 6 2 :9 5
e in 19 , 9( ) 132 .
tl g
1
[ ]L P ZJ
3 O E PM,R D N OYP LV NFJ .T ei pc o cs m r e t nh hr t ii o ut e s ih g
EO D
,O I A
S h m at f ut e r aosi a c rts ncs m r wt i
o
li pc a e sc
o
cn
bhv r ie ne btens ihr ads yr J.Maai e i uly 20 , 6 6 :5 4
eai :d f ecs e e wt e n t e []
o fr
w
c s
a s
ng gSr c at 06 1 ( ) 565 .
n
v eQ i ,
7
[ ]H N I . h e eto ue r i s nol e ucai eai ars m lp pouta gr sD . afri U i
4 A K NL T e f c f sre e o n n pr s gbhv r c s u i e rdcct oi [ ] C lon : n
f s
vw
i
h n
o o
tl
e e
i a
vrt f afri 20 .
ei
syo C lon , 07
i a
[ ]S N C L Y V I ,J C U SN N E .T e nl ne f n n pouteo m naos ncnu e n n co e
5 E E A ,S L A N A Q E A T L h i u c o ol e rdc r m edt n o osm r ol e hi s
fe
i
c
i
s i
c
[] ora o R tl g 20 , 0 2 :5 9
J.Junl f e in, 04 8 ( ) 191 .
ai
6
[ ]O I E
6 LV RRL
.Acgiv oe o t n cdn adcneune o stf t ndc i sJ .Junl f ren e
on i
t em dl fh t eet n osqecs f as co eio [ ] ora o Ma t gR
ea e
s
ia i
sn
ki
sa h 18 , 7 4 :6 9
er , 90 1 ( ) 404 .
c
6
[ ]Z IH MLVA osm r e et n o pi ,qat n a e m as n oe adsn eio ei ne J.Ju
7 ET A
.C nu e pr p os f r e uly dvl :a en dm dl n yt s f v ec[] or
c i
c
i ,a
u
e
h s
d
nl f ren, 98 5 ( ) 22 .
a o Ma t g 18 , 2 3 :
ki
2
[ ]B K RDA R MP O
8 A E
,C O T NJ .Q at as co n eai a i et n[ ] na o T ui R sa h 00 7
L uly tf t nadbhv r n n os J.A nl f orm eer ,20 ,2
i ,s ia i
ol t i
s
s
c
( ) 7584
3 :8 .
0
[ ]L PE R ,FLA R U TP H B TJC a esa g a e t nqat t t y
9 A IR EJ II T A L ,C E A
.V l t t yr hr h ulysa g:acs f ui s t bs es
u re
t
a
i re
aeo bs eso ui s
n n
poes nle i sJ.Junl f ui s R sa h 19 , 5 2 :3 6
rf i a sr c [] ora o B s es eer , 99 4 ( ) 252 .
so
ve
n
c
4
[0 A
1 ]L UGT E
,L ESH osm r t si badadt l kt r dl ay J.Junl f re F csdMaae et
.C nu e r tna r
s u
n n h i oba o l [] ora o Ma t oue
en
n yt
k
ngm n
,
19 , ( ) 3130
99 4 4 :4 .
7
[ 1 A E HJ R O DM J R Y O D
1 ]G N S ,A N L
, E N L SKE U drad gt cs m r ae fe i poi r A xm nt no t
. ne t i h ut e bs o sr c rv e : nea i i fh
sn n e o
ve
ds
ao
e
d f ecs e ens ihr ads yr J.Junl f ren, 00 6 ( ) 6 .
ie ne bt e wt e n t e [] ora o Ma t g 20 , 4 3 :58
fr
w
c s
a s
ki
7
[2
1 ]那日萨,
李媛.
基于在线评论的消费者模糊情感计算与推理[] 情报学报,011 ( ) 4243
J.
21 ,3 4 :1 .
2
Z A a s,L Y a.O l er i ae uz o pt gadi e ne f osm r et etJ.Junl f h C i
H ON ra I un n n v w bsdfzycm u n n n r c o cnu e sn m n ] ora o T e h
i
i ee
i
fe
i [
2
n oiyF r c n f n ehi lnom t n 21 , 3 4 :1 3
aS c t o Si ti dT cn a Ifr ao, 01 1 ( ) 424 .
e
e ica
c
i
(
编辑:
许力琴)
(
上接第 6页)
[ ]K M SM,H V E u m t e co f p i er gw rsadsn ne[ ] /rcei so t J N P20 .
3 I
O Y .A t acdt t no oi o a n od n et cs C /Poed g f h C L 05
o i ei
n nb i
e
n
eI
Mort n C , 056 .
rs w :A L 20 :16
io
6
[ ]T R E
4 U N YPD hm s po dw e at oi ti pldt nue i do r i sC /Poedns f 0hA na
.T u b u r o nSm n c r n t nap e ouspr s fe e [ ] /rceog o 4 t nul
i e ao
i
ve
vw
Met go t s c t nfr o pti i u ts o e e C , 024744
en fh s ii o C m u t nLn ii .S m r t
i
eA o ao
ao
g sc
s :A L 20 :1 .
2
[ ]P N B ,L EL A T Y N T A S hm su?Sn m n c s f ao s gm ci eri ehi e[ ] /
5 A G o E ,V IH A A H N .T u b p et et l si t nui ah el n gt n us C /
i
a ic i
n
n a n c q
Poed g o t 20 of ec nE p i l t d I a r L nug rcs n.S m r t C , 027 .
rcei s fh 02C ne neo m ic Me os nN t a agaePoes g o e e
n
e
r
ra
h
ul
i
s :A L 20 :98
6
[ ]朱嫣岚,闵锦,周雅倩, 基于 H w e的词汇语义倾向计算[] 中文信息学报, 06 2 ( ) 1 .
6
等.
o Nt
J.
20 , 0 1 :42
0
Z UY n n
H
al ,MI i H UY q n t lSm n c r n t ncm u n ae nH w e J.Junl f h ee no
a
NJ ,Z O ai ,e a e at oi ti o pt gbsdo o N t ] ora o C i s Ifr
n
a
.
i e ao
i
[
n
m t nPoes g 20 , 0 1 :42 .
ao rcs n, 06 2 ( ) 1
i
i
0
[ ]韩忠明,
7
张玉沙,
张慧,
等.有效的中文微博短文本倾向性分类算法[]
J.计算机应用与软件, 02 2 ( 0 :99 .
21 , 9 1 ) 8
3
H NZ og i ,Z A GY sa H N H i t l ne et esotetednyc s f ao l rh fr h ee
A hnm n H N
g
uh,Z A G u
,e a
.O f cv hrt t ec l si t na oi m o ci s
f i
x n
a ic i g t
n
m c b gi J.C m u r plaos n ota , 02 2 ( 0 :99 .
i ol g g[] o pt A p ct n adS f r 21 , 9 1 ) 8
r o n
e
i i
w e
3
[ ]冯时,
8
付永东,
阳锋,
等.基于依存句法的博文情感倾向分析研究[]
J.计算机研究与发展, 024 ( 1 :3520 .
21 ,9 1 ) 29 6
4
F N h UY ndn,Y N eg t l l et et r n t naa s bsdo eednyprn J.Junl
E GS i
,F ogog A GFn,e a o n m n oi ti nl i ae ndpnec a i
.B bs i
e ao
ys
s g[] ora
o C m u r eer n ee p et 21 , 9 1 ) 29 0 .
f o pt R sa hadD vl m n 02 4 ( 1 :352 6
e
c
o
,
4
[ ]MA S MO OS A A R ,O U R
9
T U T ,T K MU AH K MU AM.Sn m n c s f ao s gw r u qecs n eednysb
et et l si t nui odsbs une addpnec u
i
a ic i
n
e
t e[ ] /rco 9hPc i A i of ec o nweg Dsoe n a Mi n.B rn pi e 20 : 0 1
r sC /Po f t aic s
e
f aC ne ne nK o l e i vr dD t n g e i
r
d
c ya
a i
l :S r gr 05 313 .
n ,
1
[0
1 ]WUY ab ,Z A GQ,H A G X aj g t l haedpnec a i o oi o i n [ ] /rcei so
uni H N
n
i U N
un n,e a
i
.P r
s eednyprn r p i
s gf
n nm n g C /Poed g f
i
n
4 t nul en fh s c t nfr o pti a Lnu ts o e e A L 20 :5314 .
7hA na Met go t
i
eA s ii o C m u t nl i ii .S m r t C , 0913 1
o ao
ao
g sc
s:
5
[1
1 ]王伟,
赵东岩,
赵伟.中文新闻关键事件的主题句识别[]
J.北京大学学报:
自然科学版, 01 4 ( ) 7976
21 , 7 5 :8 .
9
WA GWe Z A oga, H OWe Ieti t no t isn ne bu kyeetnci s nw [] Si trm
N
i H OD nyn Z A
,
i dn f ao fo c et c aot e vn i h ee e sJ. c n a
.
ic i
p
e
n
e iu
N t au U i rtiPk es , 01 4 ( ) 7976
a ri
u l m n e it ei ni 21 , 7 5 :8 .
v sas
n s
9
[2
1 ]施聪莺,
徐朝军,
杨晓江.T I F算法研究综述[] 计算机应用, 09 2 ( ) 1710
FD
J.
20 , 9 6 : 6 .
8
S I ogi , UC aj , A GXajn. t yo T I Fa oi m[] Junl f o pt A p ct n, 09 2
H C ny g X ho n Y N i i g Su f FD l rh J. orao C m u r plaos 20 , 9
n
u
oa
d
g t
e
i i
( ) 1710
6 :6 .
8
(
编辑:
许力琴)