计算机科学 ›› 2012, Vol. 39 ›› Issue (11): 201-203.
于江德,王希杰,樊孝忠
摘要: 汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质 都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应 用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢? 为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任 务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测13akcof f多种语料上进行了 封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分 析性能的贡献比上文的贡献高出6个百分点以上。
No related articles found! |
|