计算机科学 ›› 2008, Vol. 35 ›› Issue (5): 163-166.

• • 上一篇    下一篇

关于对数线性模型在词性标注中的应用

  

  • 出版日期:2018-11-16 发布日期:2018-11-16

  • Online:2018-11-16 Published:2018-11-16

摘要: 词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低。为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法——对数线性模型,以此来提高词性标注精度。此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比。结果表明综合了多源信息的对数线性模型标注精度达81.52%,取得了比传统的

关键词: 对数线性模型 最大熵模型 词性标注 自然语言理解

Abstract: This paper presented our latest approaches for improving English part-of-speech tagging with a large tagset by using a log-linear model. We found that integration of multiple probability models log-linearly led to significant improvements on part-of-speec

Key words: Log-linear model, Maximum entropy, Natural language processing, Part-of-speech tagging

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!