计算机科学 ›› 2015, Vol. 42 ›› Issue (Z11): 49-54.

• 智能计算 • 上一篇    下一篇

基于Hash结构词典的双向最大匹配分词法

陈之彦,李晓杰,朱淑华,付丹龙,邢诒海   

  1. 暨南大学国际学院 广州510632,暨南大学国际学院 广州510632,暨南大学信息科学技术学院 广州510632,暨南大学信息科学技术学院 广州510632,广州市经济贸易信息中心 广州510032
  • 出版日期:2018-11-14 发布日期:2018-11-14
  • 基金资助:
    本文受国家自然科学基金(61272415,7),国家863计划重大项目(2013AA01A212),广东省自然基金团队研究项目(S2012030006242),广州市重点实验室开放基金(2012-224)资助

Bi-direction Maximum Matching Method Based on Hash Structural Dictionary

CHEN Zhi-yan, LI Xiao-jie, ZHU Shu-hua, FU Dan-long and XING Yi-hai   

  • Online:2018-11-14 Published:2018-11-14

摘要: 针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。

关键词: 分词词典,双向最大匹配法,基于Hash的单字索引,互信息歧义处理

Abstract: In the Chinese natural language processing,aimming at the problem that ordinary dictionary cannot be used for reverse maximum matching method and it is difficult to maintain a reverse dictionary,we put forward a new kind of dictionary structure and corresponding bi-direction maximum matching method,and added mutual information ambiguity processing block in the algorithm.Compared with the previous maximum matching method,this algorithm can increase the segmentation accuracy significantly.It is applicable to some Chinese natural language processing systems which have high segmentation accuracy requirement.

Key words: Segmentation dictionary,Bi-direction maximum matching method,Single word index based on Hash structure,Mutual information ambiguity processing

[1] 奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,5(2):41-45
[2] 罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,3(6):1122-1128
[3] 吴育良.百度中文分词技术浅析[J].河南图书馆学刊,2008(8):115-117
[4] 莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,4(5):1802-1807
[5] 吴旭东.正向最大匹配分词算法的分析与改进[J].科技传播,2011(20)
[6] 王瑞雷,栾静,潘晓花,等.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,8(3):195-197
[7] 张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45
[8] 赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31
[9] 罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,8(1):80-83
[10] 丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,9(12):3208-3211

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!