计算机科学 ›› 2012, Vol. 39 ›› Issue (2): 236-239.

• 人工智能 • 上一篇    下一篇

基于统计学习框架的中文新词检测方法

张海军,栗静,李勇,齐向伟   

  1. (新疆师范大学计算机科学技术学院 乌鲁木齐 830054); (中国科学技术大学计算机科学与技术学院 合肥 230027)
  • 出版日期:2018-11-16 发布日期:2018-11-16

Method of New Chinese Word Detection Based on Statistical Learning Framework ZHANG Hai-ju

  • Online:2018-11-16 Published:2018-11-16

摘要: 新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出 一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模 型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统 计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49. 72 0 0 和69. 83 0 o,达到了目前的较好水平。

关键词: 统计框架,新词检测,重复模式,语言知识特征,统计特征

Abstract: 新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出 一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模 型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统 计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49. 72 0 0 和69. 83 0 o,达到了目前的较好水平。

Key words: Statistical framework, New words detection, Repeats, Linguistic knowledge feature, Statistical feature

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!