基于统计学习框架的中文新词检测方法

Computer Science ›› 2012, Vol. 39 ›› Issue (2): 236-239.

Method of New Chinese Word Detection Based on Statistical Learning Framework ZHANG Hai-ju

Online:2018-11-16 Published:2018-11-16

Abstract

Abstract: 新词自动检测是中文信息处理的重要基础，但中文字符极强的构词能力给新词检测带来了巨大困难。提出一种新词检测的形式化描述模型，用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模型作为框架来整合不同类型的可用特征，以充分发挥特征之间的组合作用，进一步改善新词检测效果。实验表明，统计框架方法的性能明显地优于特征的简单叠加，能有效提高新词检测效果，开放实验和封闭实验的F值分别为49. 72 0 0 和69. 83 0 o，达到了目前的较好水平。

Key words: Statistical framework, New words detection, Repeats, Linguistic knowledge feature, Statistical feature