网文领域新词发现
一
背景
二
新词发现
三
算法引进
四
实验效果
如上所述,利用TFIDF,PMI,信息熵以及子词挖掘,我们就可以从ngram中挖掘出新词来。在实验中,我们对1万本网络小说进行了挖掘。以下是部分从《大奉打更人》一书挖掘的一部分新词:
五
结论
通过上述方法,我们可以挖掘出小说中的新词,有助于我们完善切词,提升搜索召回的准确率。这种方法的优点是不需要标注,可以进行快速的尝试与应用,也可以与其他方法进行补充使用。简单,实用。
参考文献
[1] Kenneth Ward Church and Patrick Hanks. 1990. Word association norms, mutual information, and lex- icography. Comput. Linguist., 16(1): 22--29, March.
[2] Minlie Huang, Borui Ye, Yichen Wang, Haiqiang Chen, Junjun Cheng, and Xiaoyan Zhu. 2014. New Word Detection for Sentiment Analysis. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 531–541, Baltimore, Maryland. Association for Computational Linguistics.
[3] Matrix67. 互联网时代的社会语言学:基于SNS的文本数据挖掘
[4] Ted Dunning. 1993. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1):61-74.
[5] Daille, B. (1994). Approche mixte pour l'extraction automatique de terminologie: statistiques lexicales et filtres linguistiques. PhD thesis, Universit Paris 7. 1994
作者介绍