计算机科学 ›› 2016, Vol. 43 ›› Issue (Z11): 77-82.doi: 10.11896/j.issn.1002-137X.2016.11A.017
依不拉音·乌斯曼,王悦
Ibrayim·OSMAN and WANG Yue
摘要: 随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文“一语多文”特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的“一带一路”战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。
[1] Turditohti,akbar,askarhamdulla.Adaptive word grouping algorithm based on mutual information in Uyghur language[J].计算机应用研究,2013,30(2):82-85 [2] 图尔妮萨塞麦提,吾守尔斯拉木.现代维吾尔文与斯拉夫维吾尔文转换规则研究[J].标准化研究,2013,9:56-59 [3] 吐尔地托合提,维尼拉木沙江,艾斯卡尔艾木都拉.基于词间关联度度量的维吾尔文自动切分方法[J].北京大学学报,2016,52(1):155-162 [4] 亚森依明.基于国际标准编码系统的维文拉丁文转写规则研究[J].标准化研究,2011,6:49-51 [5] 赵永霄,哈力旦阿布不都热依木.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用,2014,1(11):3269-3272 [6] 李连倍.基于跨语本体重用的维文本体构造方法研究[D].乌鲁木齐:新疆大学,2014 [7] 沙吾提江亚森.基于本体的维文语义搜索引擎的研究与实现[D].成都:电子科技大学,2015 [8] 瓦依提阿布力孜,依不拉音吾斯曼,阿依佐克拉.提高维吾尔搜索引擎质量的一些关键技术[J].数学的实践与认识,2013,43(3):119-122 [9] 艾孜尔古丽,齐向卫,玉素莆.基于网站用词调查的现代维吾尔语词干提出和应用研究[J].计算机应用与软件,2012,29(3):32-34 [10] 刘丽杰.基于量子行为进化算法的聚集爬虫搜索策略[J].计算机应用研究,2012,9(11):4281-4283 [11] 王新青,池中华.丝绸之路经济带中亚5国语言状况考察与思考[J].云南师范大学学报(社会科学版),2015,47(5):14-20 [12] 陈国华,汤庸.基于学术社区的学术搜索引擎设计[J].计算机科学,2011,38(8):171-175 [13] 岑荣伟.基于用户行为分析的搜索引擎评价研究[D].北京:清华大学,2010 [14] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,4(8):1424-1433 [15] 江腾蛟,万常选,刘德喜.基于语义分析的评价对象-情感词对抽取[J].计算机学报,2016,9:1-15 [16] 付剑生,徐林龙.分布式全网职位搜索引擎的研究与实现[J].计算机技术与发展,2015,5(5):6-9 [17] http://www.xjuloud.com [18] http://www.izda.com [19] http://www.ulinix.com |
No related articles found! |
|