一种新的错误驱动学习方法在中文分词中的应用

计算机科学 ›› 2006, Vol. 33 ›› Issue (3): 160-164.

一种新的错误驱动学习方法在中文分词中的应用

夏新松肖建国

北京大学计算机科学技术研究所,北京100084

出版日期:2018-11-17 发布日期:2018-11-17

XIA Xin-Song,　 XIAO Jian-Guo　（Institute of Computer Science and Technology of Peking University, Beijing 100084）

Online:2018-11-17 Published:2018-11-17

摘要/Abstract

摘要： 中文分词应用中一个很重要的问题就是缺乏词的统一性定义.不同的分词标准会导致不同的分词结果，不同的应用也需要不同的分词结果.而针对不同的分词标准开发多个中文分词系统是不现实的，因此针对多种不同的分词标准，如何利用现有的分词系统进行灵活有效的输出就显得非常重要.本文提出了一种新的基于转换的学习方法，对分词结果进行后处理，可以针对不同的分词标准进行灵活有效的输出.不同于以往的用于分词的转换学习方法，该方法有效利用了一些语言学信息，把词类和词内结构信息引入规则模板和转换规则中.为了验证该方法，我们在4个标准测试集

关键词: 中文分词规则模板词类词内结构基于转换的学习（TBL）

Abstract: A well known problem for Chinese word segrnentation（CWS）is that we can not have a unique definition of words. Different standards may result in different word segmentation outputs. It is unrealizable to develop different CWS systems according to different

Key words: Chinese word segmentation, Rule template, Word class, Word internal structure, Transformation-based Learning（TBL）

夏新松肖建国. 一种新的错误驱动学习方法在中文分词中的应用[J]. 计算机科学, 2006, 33(3): 160-164. https://doi.org/

XIA Xin-Song,　 XIAO Jian-Guo　（Institute of Computer Science and Technology of Peking University, Beijing 100084）. [J]. Computer Science, 2006, 33(3): 160-164. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed