计算机科学 ›› 2016, Vol. 43 ›› Issue (Z11): 77-82.doi: 10.11896/j.issn.1002-137X.2016.11A.017

• 智能计算 • 上一篇    下一篇

面向维吾尔跨文字搜索引擎的统一转换机制设计

依不拉音·乌斯曼,王悦   

  1. 新疆财经大学计算机科学与工程学院 乌鲁木齐830012,中央财经大学信息学院计算机系 北京100081
  • 出版日期:2018-12-01 发布日期:2018-12-01
  • 基金资助:
    本文受新疆财经大学科研基金:维吾尔语言文字信息化进程研究(2014XYB006),国家自然科学基金(61503422),北京市社会科学基金(15JGC150)资助

Uniform Converting Mechanism for Cross-characters Search Engine of Uyghur

Ibrayim·OSMAN and WANG Yue   

  • Online:2018-12-01 Published:2018-12-01

摘要: 随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文“一语多文”特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的“一带一路”战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。

关键词: 维文信息检索,维文搜索引擎,跨文字转换机制

Abstract: With the development of the web technologies in Xinjiang,more and more websites for Uyghur people are on line.Due to the historical reasons,the Uyghur language has many different forms of characters,such as Uyghur ErebYziqi (UEY),Uyghur Latin Yziqi (ULY),and Uyghur SirilYziqi (USY).Current Uyghur search engines only support UEY,however,the most common used characters in international communication are the ULY and USY.Therefore,how to design a search engine to support the multi-characters of Uyghur will be a big challenge for the Uyghur information retrieval area.The related breakout may affect the “The Belt and Road Initiative” deeply.This paper stu-died the converting technologies between UEY,ULY and USY,and proposed the corresponding converting algorithms based on the Unicode coding system.This paper also implemented a uniform converting prototype system to retrieve the contents of UEY webpages through the ULY and USY.We verified our methods converting different characters of Uyghur precisely and smoothly in the experiments.The search results by using ULY or USY reach the same rank of UEY based search engines in our prototype system.

Key words: Uyghur information retrieval,Uyghur search engine,Cross-character converting mechanism

[1] Turditohti,akbar,askarhamdulla.Adaptive word grouping algorithm based on mutual information in Uyghur language[J].计算机应用研究,2013,30(2):82-85
[2] 图尔妮萨塞麦提,吾守尔斯拉木.现代维吾尔文与斯拉夫维吾尔文转换规则研究[J].标准化研究,2013,9:56-59
[3] 吐尔地托合提,维尼拉木沙江,艾斯卡尔艾木都拉.基于词间关联度度量的维吾尔文自动切分方法[J].北京大学学报,2016,52(1):155-162
[4] 亚森依明.基于国际标准编码系统的维文拉丁文转写规则研究[J].标准化研究,2011,6:49-51
[5] 赵永霄,哈力旦阿布不都热依木.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用,2014,1(11):3269-3272
[6] 李连倍.基于跨语本体重用的维文本体构造方法研究[D].乌鲁木齐:新疆大学,2014
[7] 沙吾提江亚森.基于本体的维文语义搜索引擎的研究与实现[D].成都:电子科技大学,2015
[8] 瓦依提阿布力孜,依不拉音吾斯曼,阿依佐克拉.提高维吾尔搜索引擎质量的一些关键技术[J].数学的实践与认识,2013,43(3):119-122
[9] 艾孜尔古丽,齐向卫,玉素莆.基于网站用词调查的现代维吾尔语词干提出和应用研究[J].计算机应用与软件,2012,29(3):32-34
[10] 刘丽杰.基于量子行为进化算法的聚集爬虫搜索策略[J].计算机应用研究,2012,9(11):4281-4283
[11] 王新青,池中华.丝绸之路经济带中亚5国语言状况考察与思考[J].云南师范大学学报(社会科学版),2015,47(5):14-20
[12] 陈国华,汤庸.基于学术社区的学术搜索引擎设计[J].计算机科学,2011,38(8):171-175
[13] 岑荣伟.基于用户行为分析的搜索引擎评价研究[D].北京:清华大学,2010
[14] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,4(8):1424-1433
[15] 江腾蛟,万常选,刘德喜.基于语义分析的评价对象-情感词对抽取[J].计算机学报,2016,9:1-15
[16] 付剑生,徐林龙.分布式全网职位搜索引擎的研究与实现[J].计算机技术与发展,2015,5(5):6-9
[17] http://www.xjuloud.com
[18] http://www.izda.com
[19] http://www.ulinix.com

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!