Computer Science ›› 2012, Vol. 39 ›› Issue (2): 236-239.
Previous Articles Next Articles
Online:
Published:
Abstract: 新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出 一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模 型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统 计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49. 72 0 0 和69. 83 0 o,达到了目前的较好水平。
Key words: Statistical framework, New words detection, Repeats, Linguistic knowledge feature, Statistical feature
0 / / Recommend
Add to citation manager EndNote|Reference Manager|ProCite|BibTeX|RefWorks
URL: https://www.jsjkx.com/EN/
https://www.jsjkx.com/EN/Y2012/V39/I2/236
Cited