基于情感依存元组的新闻文本主题情感分析

1. 　第４９卷　第１２期２１０４年１２月　山　东　大　学　学　报　（理　学　版）　　　　　　　　　　　Ｖｌ９Ｎ．２ｏ４　ｏ１．Ｄｃ２１　ｅ．０４ＪｕｎｌｆｈｎｏｇＵｉｒｔ（ａｒＳｉｃ）ｏｒａｏＳａｄｎｎｅｉＮｔａｃｎｅｖｓｙｕｌｅ　文章编号：６１９５（０４１  ０  　　　ＤＩ１００ｊｉｎ１７  ５０４１９１７  ２２１）２０１０３０６Ｏ：０６４／ｓ．６１９２３２１５．ｓ３基于情感依存元组的新闻文本主题情感分析周文，张书卿，欧阳纯萍，刘志明，阳小华（南华大学计算机科学与技术学，湖南衡阳４１０）２０１摘要：以情感依存元组（Ｄ）ＥＴ作为中文情感表达的基本结构，把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对Ｔ  Ｆ方法进行改进，ＦＩＤ再结合基于交叉熵方法提取主题特征词，同时考虑了新闻文章标题的主题表征作用，将标题词纳入主题特征集；然后基于空间向量模型计算句子与主题特征向量的相似度，在此基础上考虑句子位置、长度及句子与标题的相似度，计算句子的主题相关度以抽取主题句；最后建立情感依存元组判别模型计算主题句的情感，采用主、客观分类规则筛选出新闻倾向关键句。本方法在ＣＡ０４评测中各项指标皆逼近最好成绩，ＯＥ２１表明基于情感依存元组的分类方法具有较高的分类性能。关键词：情感分析；情感依存元组；主题情感；倾向关键句中图分类号：Ｐ９　　　文献标志码：Ｔ３１ＡＴｐｅｔｅｔｎｌｉｏＣｉｓｅｓａｅｎｏｉｎｍｎａａｓｆｈｅｅｎｗｂｓｄｏｃｓｉｙｓｎｅｏｏａｄｐｎｅｃｕｌｍｔｎｌｅｅｄｎｙｔｅｉｐＺＯＨＵＷｅ，ＺＡＧＳｕｑｇＵＡＧＣｕｉ，ＬＵＺｉｉ，ＹＮｎＨＮｈｉ，ＯＹＮｈｎｐｇＩｈ ｎｎｎｍｇＡＧＸａｕｉｈａｏ（ｃｏｌｆｏｐｔＳｉｃｎｅｈｏｇ，Ｕｉｒｔｆｏｔｈａｅｇａｇ４１０，ＨｎｎｈａＳｈｏｏＣｍｕｒｃｎｅａｄＴｃｎｌｙｎｅｉｅｅｏｖｓｙｏＳｕｈＣｉ，Ｈｎｙｎ２０１ｕａ，Ｃｉ）ｎｎＡｓａｔＴｋｇｔｍｔｎｌｅｅｄｎｙｔｌＥＴｓｔａｉｔｃｒｆｈｅｅｅｏｏａｅｐｅｓｎｈｂｔｃａｉｈｒ：ｎｅｅｏｏａｄｐｎｅｃｕｅ（Ｄ）ａｈｓｒｔｅｏＣｉｓｍｔｎｌｘｒｉ，ｔｉｐｅｂｃｓｕｕｎｉｓｏｅｎｗｔｔｈｍｍｔｎｒｏｎｉａｋｗｓｉｄｄｉｏｔｅｒｇｅｓｅｓｂｔｋ：ｔｉｉｎｆａｏ，ｅｏｏａｅｓｅｔｅｅｏｏｅｇｉｏｓａｄｉｎｈｅｐｏｒｉｕ ｓｓｏｃｄｔｉｔｎｍｔｎｌｘｅｉｃｔｎｔｖｅｔｒｓｖａｐｓｅｉｃｉｉｔｄｎｏｓｅｓｎｌｉｕｊｔｅａｄｏｊｔｅｃｓｆａｏ．Ｔ  Ｆｍｔｄｗｓｉｐｏｅｅｒｄｎｆｉｈｅｅｔｕｎｓａａｓ，ｓｂｃｖｎｂｃｖｌｓｉｔｎＦＩｎｉｙｓｅｉｅｉａｉｃｉＤｅｏａｍｒｖｄｂｆｅｉｔｙｇｔｈｏｅｉｎｅｅｅｃ  ｒｈｎｒｅａｒｐｐｓａｏｔｉｎｈｎｔｒｓｅｔｐａｅｅｏａｃｍｉｄｔｘａｔｈｍｓｅｔｅｏｄ．Ｔｅｏｉｒｒｅｔｉｏｃｄｔｈｏｓｎｏｙｂｓｄｍｔｄｗｓｏｂｅｏｅｔｃｔｅｆｕｗｒｓｈｔｃｅｅｎｔｎｐ，ａｏｔｎｗｔｌｗｓａｅｎｏｓｅｔｎａｔｓｍｔｅｎｈｔｌｗｒｓｅｐｔｎｈｔｍｆｔｅｅｆｈｅｓｉｅａｔｎｉｏｃｎｉｒｉｔｈａｅｉ，ａｄｔｉｅｏｄｗｒｕｉｏｔｈｅｅｕｓｔｅｔｋｔｄａｏｅｍｅｔｅｔｅｅａｒ．Ｔｅｓｉｒｙｂｔｅｎｓｎｎｅｎｈｔｉｆｔｅｅｔｗｓａｕｔａｅｎｔｖｃｒｐｃｍｄｌｏｅｔｈｉｌｉｅｅｅｔｃａｄｔｏｃｅｕｖｃｒａｃｌｌｅｓｄｏｈｅｔｓａｅｏｅｍａｔｗｅｅｐａｒｏｃａｄｂｅｏ．Ｓｍｓ  ａｔｔａｒｌｓｃｓｅｔｃｐｓｉ，ｅｔｃｌｇｎｅｔｃ’ ｓｉｒｙｗｔｉｅｅａｄｄｏｈｆｕｄｔｎｉｉｌｕｓｕｈａｓｎｎｅｏｉｏｓｎｎｅｅｔｄｓｎｎｅｓｉｌｉｉｔｗｒｄｅｎｔｓｏｎａｏｓｃｅｅｔｎｅｎｈａｅｍａｔｈｔｌｅｉｉｔｅｔｉｅｔｃｓｉｌ，ｔｍｔｎｌｅｅｄｎｙｔｌｉｒｉｎｍｄｌａｓｂｓｅｏｃｌｌｅｓｎｏｇｔｏｃｓｎｎｅ．Ｆｎｌｈｐｅａｙｅｅｏｏａｄｐｎｅｃｕｅｄｃｍｎｔｏｅｗｓｅｔｌｈｄｔａｕｔｅ ｉｐｓｉａａｉｃａｔｃｓｍｔｎａｄｔｓｂｃｖａｄｏｊｔｅｕｇｅｔｕｗｒｕｅｏｆｔｏｔｈｔｄｎｙｋｙｓｎｎｅｈａ ｅｅｅｏｏｎｈｕｊｔｅｎｂｃｖｊｍｎｒｌｅｓｄｔｉｅｕｔｅｅｃｅｅｔｃ．ＴｅｐｎｉｅｅｉｅｉｄｅｅｌｒｅｎｅｕｉａｓａｅｃｓｆａｏｈｐｏｃｉｏｔｅｔｅｕｓｏｅｐｒｅｔａｅｎＣＡ０４ｅａａｏａｈｗｈｔｈｌｓｉｔｎｍｔｄｒａｈｇｔｈｓｒｌｆｘｅｍｎｂｓｄｏＯＥ２１ｖｌｔｎｄｔｏｓｔｔａｉｃｉｅｏｎｅｂｓｔｉｂｓｄｏｈＤａｈｈｃｓｆａｏｅｏｍｎｅａｅｎｔｅＥＴｈｓｉｌｓｉｔｎｐｒｒａｃ．ｇａｉｃｉｆＫｙｗｒｓｓｎｍｎａａｓ；ｅｏｏａｄｐｎｅｃｕｌｈｍｍｔｎｌｅｄｎｙｋｙｓｎｎｅｅｏｄ：ｅｔｅｔｎｌｉｍｔｎｌｅｅｄｎｙｔｅｅｅｅｏｏａｎｅｃｅｅｔｃｉｙｓｉｐ；ｔｉ；ｔｅ０　引言１文本情感分析又称意见挖掘［］，是对包含用户观点、喜好、情感等主观性文本进行挖掘、分析及判别。收稿日期：０４０  ；网络出版时间：０４１  ７４２１  ２８８２１  １ ∶９０７１网络出版地址：ｔ：／ｗ．ｎｉｎｔｋｍ／ｏ／０６４／ｉｎ１７．３２３２１．５．ｔｌｈｐ／ｗｗｃｋ．ｅ／ｃｓｄｉ．００ｊｓ．６１９５．．０４１９ｈｔ１．ｓｍ基金项目：湖南省自然科学基金资助项目（１Ｊ０７１Ｊ０６；１Ｊ４，３Ｊ７）湖南省教育厅优秀青年项目（３１１；６４１Ｂ０）南华大学重点学科和创新团队建设基金资助项目；衡阳市科技局科技计划项目（０３Ｇ６２１Ｋ６）２１Ｋ６，０３Ｇ７作者简介：周文（９８－）男，１８，硕士研究生，研究方向为自然语言处理、信息检索与知识发现．  ａ：ｒｅｔｎｏｍｉｃｍＥｍｉｍｗｎａ＠ｆｘａ．ｏｌｉｌ

2. ２　　山　东　大　学　学　报　（理　学　版）第４９卷　它是一个多学科交叉的研究领域，涉及概率论、数据统计分析、计算机语言学、自然语言处理、机器学习、信息２检索、本体学（ｎｌｙ等多个学科及其相关技术［］。鉴于其在用户意见挖掘、Ｏｔｏ）ｏｇ垃圾邮件过滤及舆情分析等多个领域具有重要的应用价值，文本情感分析正受到国内外众多研究机构和学者的重视。情感分析可归纳为情感信息抽取、情感信息分类及情感信息的检索与归纳三项层层递进的研究任务［］１。本文研究的重点是情感信息分类，旨在将文本情感分为褒义、贬义两类或者更细致的情感类别。按照分析文本的粒度不同，情感信息分类可分为词语级、短语级、句子级、篇章级等几个研究层次。目前，情感分类大致涌现出两种研究思路：基于情感知识和基于特征。前者主要是基于已有的情感词典或情感知识库对文本中带有情感或极性的词（或词语单元）进行加权求和，而后者主要是对文本提取具有类别表征意义的特征，再基于这些特征使用机器学习算法进行分类。国内外学者均从这两方面对情感分类展开了大量的研３究。Ｋｍ等［］采用第一种思路，ｉ对英文文本中评价词和词组的极性加权求和得出句子及篇章的极性。Ｔｒｕ 计算根据预定义规则选取的词语搭配与种子词 “ ｘｅｅｔ和ｅｃｌｎ” ｌｎｙ４在无监督的情况下使用互信息方法，ｅ［］５ “ ｏｒ的互信息差值来判别文本情感。Ｐｎｐｏ” ａｇ等人［］首次采用机器学习方法对英文文本进行情感分类。还有大量研究采用的是基于ＳＭ的距离监督学习、Ｖ基于ＫＮ语料的强化学习、Ｎ基于朴素贝叶斯（Ｂ的特征Ｎ）学习等方法。由于语言的差异，国外的一些研究方法不能直接应用于中文文本情感分析，国内学者针对中文６７ｏＮｔ的特点对情感分类问题做了相应研究。如，朱嫣岚等人［］和韩忠明等人［］都是在Ｈｗｅ情感词典的基础上，分别采用语义相关场和构建自动机的方法实现了情感分类；还有一些学者采用ＣＦ信息增益等算法分Ｒ、别与不同特征选择方法结合实现情感分析。上述方法在中英文情感分析方面取得了不错进展，但无论是国外还是国内的研究，在进行情感分析时都８将文本看作是词的集合［］（词袋模型ｂｇｏ ｏｄ）ａｆｒｓ。但实际上人们并不是以情感词为单位表达情感的，ｗ而是基于一定的情感表达结构。词袋模型忽略了情感词在语法和语义上的关联使得情感分析的准确率不高，９随之，一些学者提出了依存分析的情感分类方法。如Ｍａｕｏｔｍｔｓｏ等人［］利用句子的依存关系作为ＳＭ的ＶＷｕ１］特征对文本进行情感分类，等［０利用依存分析对评论文本进行了情感分析。这些基于依存关系的情感分类方法在一定程度上提高了情感分类的性能。依存语法（ｅｅｄｎｙｇａｍｒＧ）称配价语法，理论由法国语言学家特斯尼耶尔（ｕｉｄｐｎｅｃｒａ，Ｄ又ｍ其ＬｃｎｅＴｓｉｅ在１５ｅｎｒ）９９年创立， è 他认为：句子是一个有组织的整体，构成成分是词；词会和邻近词产生联系，这些词相互联系构成了句子的框架，并表达思想。目前基于依存语法的研究大多只是借助依存语法构造基于机器学习的高精度句法分析程序，并没有实现从句法层面到语义层面的转换。在进行情感分析时，以情感词为单位不考虑词间关系，或对句法依存关系笼统分析都容易引入与主题不相关情感噪声，但依存语法对句子结构的合理设想使得句法分析更为直接有效。为避免主题不相关情感带来的噪声影响，本文借鉴依存语法以动词为架构实现句子框架的思想，提出一种情感表达的基本结构：情感依存元组（Ｄ，ＥｏｏａｄｐｎｅｃＥＴｍｔｎｌｅｅｄｎｙｉｔｌ，ｕｅ它以主题特征词为核心，ｐ）其他修饰成分依附于核心词。以句子中含有的主题特征词作为ＥＴ的核心Ｄ构建基于情感依存元组的句子情感判别模型，使得提取的情感紧扣主题且情感值计算更精确。基于此本文实现了一种分层的文本篇章级情感倾向性分析方法。１　基于情感元组模型的主题情感判别新闻文本大量存在于门户网站、博客及论坛中，并大多具有情感倾向性，对其进行倾向性判断可以为用户掌握社会动态和判别舆情状况提供重要的依据。新闻报道是新闻事件的载体，要求用语规范、句法正确、［１修辞合理，并要交代清楚新闻事件的“ 六何” 何时、（何地、何人、何故、如何、何事）１］，新闻事件的这些信息往往出现在新闻标题和首段中。新闻标题被认为是“ 新闻的眼睛” 具有长度受限，，以单行、陈述句为主，信息量丰富等特点。因此，加强对新闻标题、首句、首段的充分利用能挖掘更多有用信息。１１  　相关概念介绍新闻倾向性（Ｔ：Ｎ）新闻倾向性至少有两种，一种是新闻事件本身的倾向性（Ｅ）例如自然灾害、ＮＴ，人员财产损失属于负面新闻，技、育和人文方面的进展则具有正倾向性；一种是新闻报道的倾向性科体另（Ｒ）例如“ ＮＴ，高铁车票打折” 事件，有的报道对其进行褒奖，有的进行批判。本文优先判别新闻报道的倾向

3. 　第１２期　　３周文，基于情感依存元组的新闻文本主题情感分析等： { 性，不具备前者时提取新闻事件的倾向性，Ｎ即Ｔ＝ＮＴＮＴ  Ｒ，Ｒ ≠ ，ＮＴＮＴ＝。Ｅ，Ｒ  倾向关键句：倾向关键句必须能表达篇章主题的总体倾向性，因此篇章的倾向关键句须包含两个要素：Ｓ，Ｋ为主题关键词，Ｋ用来概括篇章的主题；Ｋ为倾向关键词，ＳＴ用来表征篇章倾向性。〈ＫＴ〉情感依存元组（Ｄ）以主题特征作为中心词（Ｗ）情感词（Ｗ）ＥＴ：Ｃ，Ｅ依附于中心词，程度词（Ｗ）Ｄ和否定Ｎ序列修饰中心词和情感词，构成情感表达的基本结构，其匹配模型为ＥＴ＝  ＮＤ［［Ｄ［Ｗ／Ｗ］   词（Ｗ）ＮＤＥＣ ［ＮＤＥ。Ｗ／Ｗ］Ｗ］Ｗ［  Ｗ／Ｗ］Ｗ］１２  　主题句抽取直接对新闻文本整体进行倾向性分析，往往会受到一些与主题无关的情感因素的干扰，且无法区分新闻报道和新闻事件两种倾向性。因此，本文先抽取篇章主题句，再对主题句进行情感判别来排除这一干扰。１２１  　构建情感本体库文本情感线索主要来源于情感词，单一情感词典对网络新词、热词、变形词和潜在情感词收录不及时，情ｏＮｔ感线索的覆盖能力有限，情感分类前需先构建情感本体库。我们采用Ｈｗｅ情感词和评价词作为基础情感本体库，将大连理工情感词典去除中性词，７类情感归为褒、把贬两类，再连同台湾大学中文情感词典（ＴＳ）ＮＵＤ及搜狗词库的网络新词部分与基础本体库进行去重融合，构建了较为完整的情感本体库。中文句子词语间没有显式的划分，文本分类前需要先将文本进行词汇化处理。我们采用基于层次隐马尔科夫模型的中科院汉语分词工具（ＬＩ）ＮＰＲ作为分词器。分词前要把收集的与样本领域相关的网络词汇和情感本体库中的情感词添加到自定义分词词典中，并先从整篇文章提取新词加入分词词典，再逐句进行分词和词性标注，以提高分词的准确性。分词后的结果表示为Ｄ＝｛１，２，３，Ｓ，Ｓ｝Ｓ表示文章ＤＳＳＳ …，ｊ …，ｎ，ｊｉｉ句子中的第ｊ条句子，ｊ＝Ｗ１，２，Ｗｋ …，ｍ｝Ｗｋ表示句子Ｓ中的第ｋＳ｛Ｗ …，，Ｗ，个词。ｊ１２２  　构建主题特征集文章的主题概念可由主题特征表示，主题特征项形如（主题词，主题相关度）所以主题特征集Ｔ＝，｛Ｗ１，ｃｒ（１），Ｗ２，ｃｒ（２），（ｋＳｏｅＷｋ） …，Ｗｎ，ｃｒ（ｎ）｝ＦＩＦｔｍｆｑｅ （ＳｏｅＷ）（ＳｏｅＷ） …，Ｗ，ｃｒ（），（ＳｏｅＷ）。Ｔ  （ｅｒｕｎＤｒｅ１］ｃ ｖｒｏｕｅｔｒｕｎｙ的思想［２：ｙｉｅｅｄｃｍｎｆｑｅｃ）ｎｓｅ一个词在特定文档中出现的频率越高，则它表征该文档内容属性Ｔ）该词在文档集中出现的范围越广，它区分文档内容属性的能力越低（Ｄ）则ＩＦ。传统的能力越强（Ｆ；ＴＩＦ没有考虑一个词在某个文档中出现次数相对其在文档集中出现总数的概率，ＦＤ而这一要素对该词的表征能力具有重要影响。因此本文将这一要素考虑进来，ＴＩＦ公式进行如下改进：对ＦＤＮｕＮ ( Ｎ ) · ( Ｎｕｍ ) ，ｍｋＴＩＦ＝ ·ｔｋｄｋｋ＝ ·ｔｋｏＦＤ ′ α ｆ·ｉ ·ｆ α ｆ·ｌｆｇｉｋｉｉｋ（）１ａｌｌ其中，ｆ为特征项Ｗｋ在文档Ｄ中出现次数与总出现次数的比值，Ｎ为文档总数，ｋ表示含有特征项的文ＮｋｉＮｍＮｍｌ为特征项Ｗｋ在所有文档中出现的次数。档数，ｕｋ为特征项Ｗｋ在文档Ｄ中出现的次数，ｕａｌｉ根据公式（）１计算每个词的ＴＩＦ值，ＦＤ得到一个特征子集Ｔｔｄ）（ｆｆ。为了提高篇章主题特征的准确性，ｉ使用基于交叉熵的方法进行主题特征提取，得到另一个特征子集Ｔｃｓ，（ｒｓ然后对Ｔｔｄ）Ｔｃｓ）ｏ）（ｆｆ和（ｒｓ特征ｉｏ项的主题相似度作归一化处理，再根据公式（）２进行融合，得到初步特征集合Ｔｔｐ：（ｅ）ｍＴｔｐ α （ｆｆｉ＋ ·Ｔｃｓｉ（ｅ）＝ ·Ｔｔｄ） β （ｒｓ，ｍｉｏ）（）２其中，和 β 是加权系数，通过下文的实验（实验２对比两个权系系数在不同组合下提取主题特征词的效果） α 进行系数选择。鉴于新闻标题对主题具有很好的表征作用，首先通过统计Ｔｔｐ中特征项主题分值的分（ｅ）ｍ布情况选定上下两个阈值为８５和５５然后在Ｔｔｐ之上执行以下操作：  ，（ｅ）ｍ依次从标题中取出标题词Ｗｋ，若Ｔｔｐ中含有Ｗｋ且其主题分值低于８５则调整Ｗｋ的分值为８５若Ｔｔｐ中不包含Ｗｋ则将Ｗｋ加（ｅ）ｍ ，  ；（ｅ）ｍ入Ｔｔｐ，（ｅ）并设置其主题得分为５５ｍ  。完成标题词与Ｔｔｐ的融合得到完整的主题特征集Ｔ（ｅ）ｍ。１２３  　主题句提取为文章每个句子和主题特征集Ｔ建立空间向量，采用空间向量模型与规则相结合的方法抽取与Ｔ相似度较高的句子为主题句，具体做法如下。（）１计算余弦距离：以主题特征集Ｔ中的各项作为向量的维，分别构建特征向量ＶＴ｛ｅｈ，ｅｈ，ｗｉｔ（）＝ｗｉｔｗｉｔ …，ｅｈｎ｝ｇ１ｇ２ｇ

4. ４　　山　东　大　学　学　报　（理　学　版）第４９卷　和句子向量ＶＳ）＝Ｎ ·ｗｉｔＮ ·ｗｉｔ …，２·ｗｉｔ，（ｊ｛１ｅｈ，２ｇ１ｅｈ，Ｎｇ２ｅｈｎ｝ｇｎ（）ＶＳ）其中，为Ｔ的特征项个数。ＶＴ以各特征项的主题相似度作各维的权重，（ｊ以句子所含特征词的个数与其相似度之积作为该维权值，计算ＶＴ与ＶＳ）（）（ｊ的余弦距离Ｓｏｅｃｓ作句子的主题得分基值；ｃｒ（ｏ）２主题特征提取时未能考虑句子的位置特征，而新闻中篇章首句、末句成为主题句的（）计算位置得分：可能性很大，中间句子多为细节句，即首尾句子主题得分高，中间句子得分低，这符合二次函数的特点，本文采用ａｘ０５２函数计算句子的位置分值Ｓｏｅｌ） ·（－．）ｃｒ（ｏ；ｃ（）句子长度特征：３句子越长含有特征项的可能越大，本文采用句子各词的ＴＩＦ值之和与句子长度ＦＤｃｒ（ｅ，ｎ开方值之商作为句子的长度分值Ｓｏｅｌ）来调整句子长度的影响；（）计算标题相似度：４标题能反应主题占９％以上，０考虑标题相似度能弥补特征向量方法的不足，标题ｃｒ（ｉｅｔ）相似度以句子含有标题词的个数作为标题相似度Ｓｏｅｔｌ；（）将上述各得分作归一化处理后加权融合抽取候选主题句集，５其融合公式如下：４Ｓｏｅｎ＝ｉ ∑ Ｓｏｅｃｒｓｔ γ· ｃｒｉ，ｅ（）３ｉｉ＝当ｉ１～取４时，ｃｒｉ分别表示（）～４项得分，ｉ为各项得分的权重系数，Ｓｏｅ１（）先通过经验估计 γ的初值，再 γ １使用单一变量的原则进行实验确定其他变量的取值，然后再对 γ做调整，最终确定各系数的权值，具体见下１文实验３。１３  　主题句的倾向性分析句子的情感表达以情感依存元组为单位，句子情感值是其包含的情感依存元组的情感综合体现。对主题句的倾向性分析先要对句子进行句法分析，分析其中的依存关系，从中提取出情感依存元组。然后基于情感依存元组建立情感判别模型进行倾向性分析。１３１  　情感依存元组抽取获取情感依存元组的中心词是抽取情感依存元组的关键。我们以主题句中包含的实词性主题特征词作为中心词以保证抽取情感的主题相关性。为了更直观地展示提取流程，以句子“ 记者还发现很多心态较好的股民十分乐观。为例进行分析。首先对其进行分词和词性标注生成字符序列：记者／Ｎ还／Ｄ发现／ ” “ ＮＡＶＶ很多／Ｄ心态／Ｎ较好／的／ＥＣＮＪＪＤＧ股民／Ｎ十分／Ｄ乐观／Ａ，ＮＡＶ ” 然后再通过句法分析处理生成句法分析树和关系依赖。　　情感依存元组的抽取流程为：１提取句子包（）含的实词性（不含数词、量词）主题特征词作为情感表１　情感依存元组提取规则Ｔｂ１ｍｔｎｌｅｅｄｎｙｔｌｘａｔｎｒｌａｌ　Ｅｏｏａｄｐｎｅｃｕｅｅｔｃｏｕｓｅｉｐｒｉｅ编号中心词法分析树中找到“ １名词形容词、股民” 然后根据本文统计的规则动词、，名词、数量词（１在中心词所在树的兄弟节点以及兄弟节点的２动词形容词、表）副词、名词所有子树中提取中心词的修饰成分。根据规则可以３代词形容词、动词、名词、数量词４形容词依存元组的中心词，如例句中的“ 股民” ２在句。（）提取出〈民，心态〉股民，较好〉股民，股，〈，〈　　　　修饰成分形容词、副词乐观〉三对形如〈心词，饰词〉修饰结构。中修的（）３从句子的依赖关系中提取中心词和修饰词的否定依赖和程度依赖关系ａｖｏ（ｄｍｄ乐观：０１，十分：）９和ｎｍｏ（ｕｍｄ心态：，很多：）否定依赖和程度依赖作为一个整体可叠加计算。５４，完整的情感依存元组包括一个中心词和若干个修饰词，每个中心词和修饰词又包含若干个否定和程度修饰。１３２  　主题情感倾向判别基于情感元组建立句子情感判别模型，Ｓｓｂ表示中心词的情感值，用（ｕ）初值为１Ｓｄｃ表示修饰词情，（ｅ），（ｅ为整个情感元组的情感基值。分别从情感词典获取中心词和修饰词的情感值，ｒ正情感值，初值为０Ｓｔｍ）感词情感值为１负情感词情感值为－。然后计算中心词和每个修饰词的否定程度Ｎｇｗｒ）对每个，１ｅＷ（ｏｄ；中心词和修饰词获其所有否定依赖，每个获得一个否定依赖Ｎｇｗｒ）＝－ｅＷ（ｏｄ；ｅＷ（ｏｄＮｇｗｒ）对每个否定依赖词获取其程度修饰，每个获得一个程度修饰Ｎｇｗｒ）＝ｅＷ（ｏｄ Ｗ（ｏｄ，ｗｒ）ｅＷ（ｏｄＮｇｗｒ）ｗｒ）Ｗ（ｏｄ为程度词的程度系数。否定程度将否定和程度作为一个整体进行考虑，并可以叠加计算多层否定和程度关系，中心词

5. 　第１２期周文，基于情感依存元组的新闻文本主题情感分析等：　　５可拥有多个修饰词，故情感依存元组的情感值为ｎＳｔｍ）＝（ｕ）Ｎｇｓｂ  [ ∏ Ｓｄｃ Ｎｇｄｃ＋ ] （ｅｒＳｓｂ  ｅＷ（ｕ）（ｅｉ）ｅＷ（ｅｉ１，）ｉ（）４其中，为中心词的修饰词个数。情感依存元组的情感极性由中心词的极性和修饰词的情感极性共同决定，ｎ加１使得当没有修饰词或修饰词无情感时，情感极性由中心词的极性决定。句子的情感值为句子各情感依存元组的情感之和，当句子没有情感元组或无法进行句法分析时采用基于情感词典的方法进行计算，所以句子总的情感计算模型如下：ｎ { Ｓｏｅｓｎｃｒ（ｅ）＝（ｅ，ｎ０ｒ ∑ Ｓｔｍ）＞，ｊ１＝ｍ５（）（ｍ）ｅｏ，ｎ０ ∑ Ｓｅｏ Ｗ（ｍ）＝。＝ｉ１其中ｎ为句子ｓｎｅ中情感元组的个数，ｎ０时累加句子中每个情感词的情感值得到句子情感；当＝ｍ为句子中情感词数；ｍ为情感词。根据此模型即可计算出每个主题句的情感值。ｅｏ１３３  　主客观情感分类通过上述步骤计算得到的主题句的情感包括新闻报道的情感和新闻事件本身的情感两种，我们基于以下主客观特征对主题句进行主客观分类，以优先选择新闻报道的情感：第一，主语的人称和词性。先从句子依赖关系中抽取主谓依赖，分句导致主谓结构可能不止一个，主句的主谓关系往往最先出现，所以从第一个主谓关系中提取句子的主语和谓语，如将主语为第一人称名词、代词的句子标记为主观句。第二，谓语的特定用词。将谓语为新闻报道的特殊谓语用词的句子标记为客观句。第三，不能区分主客观的句子，都标记为客观句。新闻情感的选择方法为，先从候选主题句中选择与主题最相关的主观句作为情感关键句获取新闻报道情感，当没有主观句时取主题最相关的主题句获取新闻的本身情感。２　参数设置与结果分析实验语料来自第六届中文倾向性评测（ＯＥ２１）源于各新闻网站、ＣＡ０４，博客、论坛的新闻文本共１００００篇。从这些未标注的语料中随机抽取了２０篇文本，０按评测要求人工标注其情感关键句与倾向性，并每篇提取１５个主题特征词。对标注结果进行一致性检查，将最终得到１０篇标注文本作为测试数据。４２１  　参数设置实验在情感判别过程中对一些方法进行改进或采用多种方法融合的策略来提升情感分析的效果。为了通过实验验证方法改进的有效性或选择不同方法的权重，共设计三组实验。实验１　用改进的Ｔ  Ｆ方法和传统Ｔ  Ｆ方法分别对测试集的每篇文章提取一定数目的主题特征ＦＩＤＦＩＤ词，计算匹配度。图１为两者在提取各数量特征词时匹配度的对比，从图中可以看出改进后的ＴＩＦ方法ＦＤ匹配度高的比例明显大于传统方法，证明本文对ＴＩＦ方法的改进是有效的。综合考虑特征词的召回率和ＦＤ匹配准确度，选择每篇文章提取２２个特征词。实验２　对比Ｔ  Ｆ方法和交叉熵方法在不同权重比值下提取的主题特征词与标题和人工标注主题ＦＩＤ特征词的相似度。图２显示了各权重分配下两个相似度都大于０５的篇章占测试集的比例，  最终设置Ｔ  ＦＩＦ方法与交叉熵方法比重为０９０１Ｄ  ∶ 。实验３　提取主题句时，在句子向量与主题特征向量的余弦距离基础上考虑句子位置、长度和与标题相似度三个因素，用与人工标注的主题句匹配度作为评测标准来确定四者的比重。实验先估计余弦距离权值确定其最优比值后再调整 γ， γ ＝ ，１０５然后分别单一调整其它各参数的值，１最终确定４个参数的比值为０５ ∶ ∶ ∶５ γ∶ ２∶ ３∶ ４＝ ５０２０１０１。１ γ γ γ ２２  　结果分析我们参加了第六届中文倾向性评测（ＯＥ２１）ＣＡ０４任务“ 面向新闻的情感关键句抽取与判定” 采用Ｆ值，（  ｅｓｒ）正确率（ｒｉｏ）Ｆｍａｕｅ、ｐｅｓｎ和召回率（ｅａ）ｃｉＲｃｌ以及微平均（ｃ）Ａｃｒｙ值作评测结果评价指标。ｌＭｉｏ和ｃｕａｒｃ本任务共１２支参赛队提交２１组结果，本文方法结果的各项评测指标均远高出均值，微平均各指标均排在二、三位，如表２所示。

6. ６　　山　东　大　学　学　报　（理　学　版）图１ＦＤ　ＴＩＦ改进前后效果对比Ｆｇ１ＦＤｏｔｓｂｆｒｎｆｒｍｒｖｄｉ　ＴＩＦｃｎａｔｅｅａｄａｅｉｐｏｅ．ｒｏｔ第４９卷　图２　主题特征提取方法参数权重对比Ｆｇ２ｈｍｓｅｔｅｘａｔｎｍｔｄｐｒｅｒｅｈｃｎａｔｉ　Ｔｅｅｆｕｅｔｃｏｅｏａｍｔｗｉｔｏｔｓ．ａｒｒｉｈａｅｇｓｒ表２　评测结果Ｔｂ２ｈｖｌｔｎｒｕｓａｌ　ＴｅｅａａｏｅｌｅｕｉｓｔＩｍＮｇＮｇＮｇ１ＡｃｒｙＥＴＢｓｄ０２５０００８８０１３９０００９ｔｅＲｅＰｅＦｃｕａＤ ａｅ １２０ ６３０ ０７０ ６００ｅｃＭｉｏＲｃｌＭｉｏＲｃｉＭｉｏ  ｅｓｒｃｅａｒｌｃｅｉｏｒｓｎｃＦｍａｕｅｒ０３９８ｍｄｎ００７８００１４００７３０００５０２０６００８１０１４５ ４５０ｅｉ ６６２ ５７５ ５１６ ４５７ ２１８ ６２５ ０１８ａｍｘ０２９９００４１０１９５００５５０３８９０１４００１４２ａ ３４１ ８６９ ０２４ ６２０ ８７６ ０１０ ６２８００３６ ９２００１７５ ４２０　　从评测结果来看，基于情感依存元组判别模型方法的各项评测指标都远高出均值，接近最好成绩，说明通过以主题特征词为核心构建情感依存元组，建立情感判别模型确实能避免非主题情感的干扰，且情感元组的情感计算较为准确；其次对新闻情感关键句的倾向性判别任务进行分解的方法切实可行，这种分层的思想能够将问题细化，对每个子问题更有针对性地提出决绝方案。同时数据也反映了各项指标分值普遍不高，经分析，召回率不高主要有以下几个原因：１提取情感元组时，（）忽略了中心词的同义词替换，导致同义主题特征词未被识别；２建立情感依存元组分析模型时未考虑上下文对情感倾向性的影响。准确率偏低主要由（）于句子划分误差和长度过长影响了句法分析树和依赖关系准确性，加之情感词典构建不够完善对句子情感判别也会产生影响。所以对中心词作更深一步处理，考虑复杂的句型结构对情感的消解情况，对情感词典和分词词典进行扩充等，都将是我们提高各指标的有效途径。３　总结本文将主题情感判别分解为主题识别、主题情感倾向分析及主客观情感分类三个不同层次的子任务，任务分解降低了难度，针对不同层次的子任务采用分治的思想。对单个任务采用多方法融合，实验确定各方法权重的策略提高了最终情感判别的准确性。提出情感依存元组的情感表达形式，对情感单元的情感计算更为精细和准确，以句子包含的实词性主题特征词作情感依存元组的中心词，构建基于情感依存元组的情感判别模型，排除了非主题情感噪音的干扰。评测结果在表明本文方法切实有效的同时也暴露了本方法在细节处理之处的不足，如未考虑上下文情感元组之间的歧义消解等。为排除三个层次的子任务上误差叠加的影响，我们下一步将在已标注的数据上分别采用分类和聚类算法进行情感判别对比实验，以进一步验证本方法的分类性能。参考文献：［］赵妍妍，１秦兵，刘挺．文本情感分析［］Ｊ．软件学报，００２（）１３  ４．２１，１８：８４１８８ＺＡＨＯＹｎａ，ＱＮＢｎ，ＬＵＴｎ．ｅｔｅｔｎｌｉＪ．Ｊｕｎｌｆｏｔａ，００２（）１３  ４．ａｙｎＩｉｇＩｉＳｎｍｎａａｓ［］ｏｒａｏＳｆｒ２１，１８：８４１８ｇｉｙｓｗｅ８［］姚天窻，２程希文，徐飞玉，等．文本意见挖掘综述［］Ｊ．中文信息学报，０８２（）７  ．２０，２３：１８０ＹＯＴａｆｇＨＮＡｉａ，ＣＥＧＸｗｎＵＦｉ，ｅａｎｎｉｅ，Ｘｅｕｔｌｙ．Ａｓｒｅｆｐｉｉｎｏｔｔ［］ｏｒａｏＣｉｓＩｆｒａｏｕｖｙｏｏｉｏｎｇｆｒｅｓＪ．ＪｕｎｌｆｈｅｅｎｏｍｔｎｎｎｍｉｘｎｉＰｏｅｓｇ２０，２３：１８．ｒｃｓｎ，０８２（）７  ｉ０（下转第１１页）

7. 　第１２期　　１１宋爽，基于在线评论的消费者品牌转换意向模糊推理等：［］ＲＳ，ＲＬＮ，ＡＴＯＹＪＡＯＩ．Ｃｓｍｒａｓｃｏ，ｃｓｍｒｅｎｏ，ａｄｍｒｅｓａ［］ｏｒａｏ２ＵＴＯＡＤＴＮＨＮＺＨＲＫｕｔｅｓｔｆｔｎｕｔｅｒｅｔｎｎａｔｈｒＪ．Ｊｕｎｌｆｏｉａｉｏｔｉｋｅｒａｉ，９３６２：９  ５ｅｉｎ１９，９（）１３２．ｔｌｇ１［］ＬＰＺＪ３ＯＥＰＭ，ＲＤＮＯＹＰＬＶＮＦＪ．ＴｅｉｐｃｏｃｓｍｒｅｔｎｈｈｒｔｉｉｏｕｔｅｓｉｈｇＥＯＤ，ＯＩＡＳｈｍａｔｆｕｔｅｒａｏｓｉａｃｒｔｓｎｃｓｍｒｗｔｉｏｌｉｐｃａｅｓｃｏｃｎｂｈｖｒｉｅｎｅｂｔｅｎｓｉｈｒａｄｓｙｒＪ．Ｍａａｉｅｉｕｌｙ２０，６６：５  ４ｅａｉ：ｄｆｅｃｓｅｅｗｔｅｎｔｅ［］ｏｆｒｗｃｓａｓｎｇｇＳｒｃａｔ０６１（）５６５．ｎｖｅＱｉ，７［］ＨＮＩ．ｈｅｅｔｏｕｅｒｉｓｎｏｌｅｕｃａｉｅａｉａｒｓｍｌｐｐｏｕｔａｇｒｓＤ．ａｆｒｉＵｉ４ＡＫＮＬＴｅｆｃｆｓｒｅｅｏｎｎｐｒｓｇｂｈｖｒｃｓｕｉｅｒｄｃｃｔｏｉ［］Ｃｌｏｎ：ｎｆｓｖｗｉｈｎｏｏｔｌｅｅｉａ  ｖｒｔｆａｆｒｉ２０．ｅｉｓｙｏＣｌｏｎ，０７ｉａ［］ＳＮＣＬＹＶＩ，ＪＣＵＳＮＮＥ．Ｔｅｎｌｎｅｆｎｎｐｏｕｔｅｏｍｎａｏｓｎｃｎｕｅ  ｎｎｃｏｅ５ＥＥＡ，ＳＬＡＮＡＱＥＡＴＬｈｉｕｃｏｏｌｅｒｄｃｒｍｅｄｔｎｏｏｓｍｒｏｌｅｈｉｓｆｅｉｃｉｓｉｃ［］ｏｒａｏＲｔｌｇ２０，０２：５  ９Ｊ．Ｊｕｎｌｆｅｉｎ，０４８（）１９１．ａｉ６［］ＯＩＥ６ＬＶＲＲＬ．ＡｃｇｉｖｏｅｏｔｎｃｄｎａｄｃｎｅｕｎｅｏｓｔｆｔｎｄｃｉｓＪ．Ｊｕｎｌｆｒｅｎｅｏｎｉｔｅｍｄｌｆｈｔｅｅｔｎｏｓｑｅｃｓｆａｓｃｏｅｉｏ［］ｏｒａｏＭａｔｇＲ  ｅａｅｓｉａｉｓｎｋｉｓａｈ１８，７４：６  ９ｅｒ，９０１（）４０４．ｃ６［］ＺＩＨＭＬＶＡｏｓｍｒｅｅｔｎｏｐｉ，ｑａｔｎａｅｍａｓｎｏｅａｄｓｎｅｉｏｅｉｎｅＪ．Ｊｕ ７ＥＴＡ．Ｃｎｕｅｐｒｐｏｓｆｒｅｕｌｙｄｖｌ：ａｅｎ ｄｍｄｌｎｙｔｓｆｖｅｃ［］ｏｒｃｉｃｉ，ａｕｅｈｓｄｎｌｆｒｅｎ，９８５（）２２．ａｏＭａｔｇ１８，２３： ｋｉ２［］ＢＫＲＤＡＲＭＰＯ８ＡＥ，ＣＯＴＮＪ．Ｑａｔａｓｃｏｎｅａｉａｉｅｔｎ［］ｎａｏＴｕｉＲｓａｈ００７ＬｕｌｙｔｆｔｎａｄｂｈｖｒｎｎｏｓＪ．Ａｎｌｆｏｒｍｅｅｒ，２０，２ｉ，ｓｉａｉｏｌｔｉｓｓｃ（）７５８４３：８  ．０［］ＬＰＥＲ，ＦＬＡＲＵＴＰＨＢＴＪＣａｅｓａｇａｅｔｎｑａｔｔｔｙ９ＡＩＲＥＪＩＩＴＡＬ，ＣＥＡ．Ｖｌｔｔｙｒｈｒｈｕｌｙｓａｇ：ａｃｓｆｕｉｓｔｂｓｅｓｕｒｅｔａｉｒｅａｅｏｂｓｅｓｏｕｉｓｎ  ｎｐｏｅｓｎｌｅｉｓＪ．ＪｕｎｌｆｕｉｓＲｓａｈ１９，５２：３  ６ｒｆｉａｓｒｃ［］ｏｒａｏＢｓｅｓｅｅｒ，９９４（）２５２．ｓｏｖｅｎｃ４［０Ａ１］ＬＵＧＴＥ，ＬＥＳＨｏｓｍｒｔｓｉｂａｄａｄｔｌｋｔｒｄｌａｙＪ．ＪｕｎｌｆｒｅＦｃｓｄＭａａｅｅｔ．Ｃｎｕｅ ｒｔｎａｒｓｕｎｎｈｉｏｂａｏｌ［］ｏｒａｏＭａｔｏｕｅｅｎｎｙｔｋ ｎｇｍｎ，１９，（）３１３０９９４４：４  ．７［１ＡＥＨＪＲＯＤＭＪＲＹＯＤ１］ＧＮＳ，ＡＮＬ，ＥＮＬＳＫＥＵｄｒａｄｇｔｃｓｍｒａｅｆｅｉｐｏｉｒＡｘｍｎｔｎｏｔ．ｎｅｔｉｈｕｔｅｂｓｏｓｒｃｒｖｅ：ｎｅａｉｉｆｈｓｎｎｅｏｖｅｄｓａｏｅｄｆｅｃｓｅｅｎｓｉｈｒａｄｓｙｒＪ．Ｊｕｎｌｆｒｅｎ，００６（）６  ．ｉｅｎｅｂｔｅｗｔｅｎｔｅ［］ｏｒａｏＭａｔｇ２０，４３：５８ｆｒｗｃｓａｓｋｉ７［２１］那日萨，李媛．基于在线评论的消费者模糊情感计算与推理［］情报学报，０１１（）４２４３Ｊ．２１，３４：１  ．２ＺＡａｓ，ＬＹａ．Ｏｌｅｒｉ ａｅｕｚｏｐｔｇａｄｉｅｎｅｆｏｓｍｒｅｔｅｔＪ．ＪｕｎｌｆｈＣｉＨＯＮｒａＩｕｎｎｎ ｖｗｂｓｄｆｚｙｃｍｕｎｎｎｒｃｏｃｎｕｅｓｎｍｎ］ｏｒａｏＴｅｈｉｉｅｅｉｆｅｉ［  ２ｎｏｉｙＦｒｃｎｆｎｅｈｉｌｎｏｍｔｎ２１，３４：１  ３ａＳｃｔｏＳｉｔｉｄＴｃｎａＩｆｒａｏ，０１１（）４２４．ｅｅｉｃａｃｉ（编辑：许力琴）（上接第６页）［］ＫＭＳＭ，ＨＶＥｕｍｔｅｃｏｆｐｉｅｒｇｗｒｓａｄｓｎｎｅ［］／ｒｃｅｉｓｏｔＪＮＰ２０．３ＩＯＹ．ＡｔａｃｄｔｔｎｏｏｉｏａｎｏｄｎｅｔｃｓＣ／ＰｏｅｄｇｆｈＣＬ０５ｏｉｅｉｎｎｂｉｅｎｅＩＭｏｒｔｎＣ，０５６  ．ｒｓｗ：ＡＬ２０：１６ｉｏ６［］ＴＲＥ４ＵＮＹＰＤｈｍｓｐｏｄｗｅａｔｏｉｔｉｐｌｄｔｎｕｅｉｄｏｒｉｓＣ／Ｐｏｅｄｎｓｆ０ｈＡｎａ．ＴｕｂｕｒｏｎＳｍｎｃｒｎｔｎａｐｅｏｕｓｐｒｓｆｅｅ［］／ｒｃｅｏｇｏ４ｔｎｕｌｉｅａｏｉｖｅｖｗＭｅｔｇｏｔｓｃｔｎｆｒｏｐｔｉｉｕｔｓｏｅｅＣ，０２４７４４ｅｎｆｈｓｉｉｏＣｍｕｔｎＬｎｉｉ．ＳｍｒｔｉｅＡｏａｏａｏｇｓｃｓ：ＡＬ２０：１  ．２［］ＰＮＢ，ＬＥＬＡＴＹＮＴＡＳｈｍｓｕ？Ｓｎｍｎｃｓｆａｏｓｇｍｃｉｅｒｉｅｈｉｅ［］／５ＡＧｏＥ，ＶＩＨＡＡＨＮ．ＴｕｂｐｅｔｅｔｌｓｉｔｎｕｉａｈｅｌｎｇｔｎｕｓＣ／ｉａｉｃｉｎｎａｎｃｑＰｏｅｄｇｏｔ２０ｏｆｅｃｎＥｐｉｌｔｄＩａｒＬｎｕｇｒｃｓｎ．ＳｍｒｔＣ，０２７  ．ｒｃｅｉｓｆｈ０２ＣｎｅｎｅｏｍｉｃＭｅｏｓｎＮｔａａｇａｅＰｏｅｓｇｏｅｅｎｅｒｒａｈｕｌｉｓ：ＡＬ２０：９８６［］朱嫣岚，闵锦，周雅倩，基于Ｈｗｅ的词汇语义倾向计算［］中文信息学报，０６２（）１  ．６等．ｏＮｔＪ．２０，０１：４２０ＺＵＹｎｎＨａｌ，ＭＩｉＨＵＹｑｎｔｌＳｍｎｃｒｎｔｎｃｍｕｎａｅｎＨｗｅＪ．Ｊｕｎｌｆｈｅｅｎｏ ａＮＪ，ＺＯａｉ，ｅａｅａｔｏｉｔｉｏｐｔｇｂｓｄｏｏＮｔ］ｏｒａｏＣｉｓＩｆｒｎａ．ｉｅａｏｉ［ｎｍｔｎＰｏｅｓｇ２０，０１：４２．ａｏｒｃｓｎ，０６２（）１  ｉｉ０［］韩忠明，７张玉沙，张慧，等．有效的中文微博短文本倾向性分类算法［］Ｊ．计算机应用与软件，０２２（０：９９．２１，９１）８  ３ＨＮＺｏｇｉ，ＺＡＧＹｓａＨＮＨｉｔｌｎｅｅｔｅｓｏｔｅｔｅｄｎｙｃｓｆａｏｌｒｈｆｒｈｅｅＡｈｎｍｎＨＮｇｕｈ，ＺＡＧｕ，ｅａ．ＯｆｃｖｈｒｔｔｅｃｌｓｉｔｎａｏｉｍｏｃｉｓｆｉｘｎａｉｃｉｇｔｎｍｃｂｇｉＪ．Ｃｍｕｒｐｌａｏｓｎｏｔａ，０２２（０：９９．ｉｏｌｇｇ［］ｏｐｔＡｐｃｔｎａｄＳｆｒ２１，９１）８  ｒｏｎｅｉｉｗｅ３［］冯时，８付永东，阳锋，等．基于依存句法的博文情感倾向分析研究［］Ｊ．计算机研究与发展，０２４（１：３５２０．２１，９１）２９  ６４ＦＮｈＵＹｎｄｎ，ＹＮｅｇｔｌｌｅｔｅｔｒｎｔｎａａｓｂｓｄｏｅｅｄｎｙｐｒｎＪ．ＪｕｎｌＥＧＳｉ，ＦｏｇｏｇＡＧＦｎ，ｅａｏｎｍｎｏｉｔｉｎｌｉａｅｎｄｐｎｅｃａｉ．Ｂｂｓｉｅａｏｙｓｓｇ［］ｏｒａｏＣｍｕｒｅｅｒｎｅｅｐｅｔ２１，９１）２９  ０．ｆｏｐｔＲｓａｈａｄＤｖｌｍｎ０２４（１：３５２６ｅｃｏ，４［］ＭＡＳＭＯＯＳＡＡＲ，ＯＵＲ９ＴＵＴ，ＴＫＭＵＡＨＫＭＵＡＭ．Ｓｎｍｎｃｓｆａｏｓｇｗｒｕ ｑｅｃｓｎｅｅｄｎｙｓｂｅｔｅｔｌｓｉｔｎｕｉｏｄｓｂｓｕｎｅａｄｄｐｎｅｃｕ ｉａｉｃｉｎｅｔｅ［］／ｒｃｏ９ｈＰｃｉＡｉｏｆｅｃｏｎｗｅｇＤｓｏｅｎａＭｉｎ．Ｂｒｎｐｉｅ２０：０  １ｒｓＣ／Ｐｏｆｔａｉｃｓｅｆ  ａＣｎｅｎｅｎＫｏｌｅｉｖｒｄＤｔｎｇｅｉｒｄｃｙａａｉｌ：Ｓｒｇｒ０５３１３．ｎ，１［０１］ＷＵＹａｂ，ＺＡＧＱ，ＨＡＧＸａｊｇｔｌｈａｅｄｐｎｅｃａｉｏｏｉｏｉｎ［］／ｒｃｅｉｓｏｕｎｉＨＮｎｉＵＮｕｎｎ，ｅａｉ．ＰｒｓｅｅｄｎｙｐｒｎｒｐｉｓｇｆｎｎｍｎｇＣ／Ｐｏｅｄｇｆｉｎ４ｔｎｕｌｅｎｆｈｓｃｔｎｆｒｏｐｔｉａＬｎｕｔｓｏｅｅＡＬ２０：５３１４．７ｈＡｎａＭｅｔｇｏｔｉｅＡｓｉｉｏＣｍｕｔｎｌｉｉｉ．ＳｍｒｔＣ，０９１３  １ｏａｏａｏｇｓｃｓ：５［１１］王伟，赵东岩，赵伟．中文新闻关键事件的主题句识别［］Ｊ．北京大学学报：自然科学版，０１４（）７９７６２１，７５：８  ．９ＷＡＧＷｅＺＡｏｇａ，ＨＯＷｅＩｅｔｉｔｎｏｔｉｓｎｎｅｂｕｋｙｅｅｔｎｃｉｓｎｗ［］ＳｉｔｒｍＮｉＨＯＤｎｙｎＺＡ，ｉｄｎｆａｏｆｏｃｅｔｃａｏｔｅｖｎｉｈｅｅｅｓＪ．ｃｎａ．ｉｃｉｐｅｎｅｉｕＮｔａｕＵｉｒｔｉＰｋｅｓ，０１４（）７９７６ａｒｉｕｌｍｎｅｉｔｅｉｎｉ２１，７５：８  ．ｖｓａｓｎｓ９［２１］施聪莺，徐朝军，杨晓江．ＴＩＦ算法研究综述［］计算机应用，０９２（）１７１０ＦＤＪ．２０，９６：６  ．８ＳＩｏｇｉ，ＵＣａｊ，ＡＧＸａｊｎ．ｔｙｏＴＩＦａｏｉｍ［］ＪｕｎｌｆｏｐｔＡｐｃｔｎ，０９２ＨＣｎｙｇＸｈｏｎＹＮｉｉｇＳｕｆＦＤｌｒｈＪ．ｏｒａｏＣｍｕｒｐｌａｏｓ２０，９ｎｕｏａｄｇｔｅｉｉ（）１７１０６：６  ．８（编辑：许力琴）