计算机科学 ›› 2007, Vol. 34 ›› Issue (9): 174-175.

• 软件工程与数据库技术 • 上一篇    下一篇

中文分词及词性标注一体化模型研究

  

  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    本课题得到2002年山东省科技发展计划项目基金资助(项目号:2002276-022090104).

  • Online:2018-11-16 Published:2018-11-16

摘要: 本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。

关键词: 中文分词 词性标注 N-最短路径法

Abstract: In this paper, we present a model integrating Chinese word segment with part-of-speech tagging. In the early stage, reserves the top N segmentation results as candidates. After Unknown words recognized and POS tagging finished, we get the final result by

Key words: Chinese word segmentation, Part-of-speech tagging, N-shortest paths method

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!