计算机科学 ›› 2014, Vol. 41 ›› Issue (12): 168-171.doi: 10.11896/j.issn.1002-137X.2014.12.036

• 人工智能 • 上一篇    下一篇

基于隐马尔可夫模型的查询扩展方法

矫健,张仰森   

  1. 北京信息科技大学智能信息处理研究所 北京100192;北京信息科技大学智能信息处理研究所 北京100192
  • 出版日期:2018-11-14 发布日期:2018-11-14
  • 基金资助:
    本文受国家自然科学基金(61070119,61370139),北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519),北京市教委专项(PXM2013_014224_000042,PXM2014_014224_000067)资助

Query Expansion Method Based on Hidden Markov Model

JIAO Jian and ZHANG Yang-sen   

  • Online:2018-11-14 Published:2018-11-14

摘要: 对查询进行扩展的目的是找出查询中的潜在语义,确定用户意图,进而构造更适合于搜索引擎检索的查询语句,以提高检索的准确率。提出利用隐马尔可夫模型预测查询中的潜在语义的方法,该模型在大规模用户查询日志上进行训练。由该模型预测出的扩展语句查询的准确率较词共现扩展、同义词扩展等方案均有明显提升。

关键词: 隐马尔可夫模型,扩展查询,查询日志

Abstract: Automatic query expansion has been a main technique to improve retrieval performance by identifying the potential intentions of the users.In this paper,a method to identify the potential intentions of the users based on hidden Markov models was proposed.The model is trained with large amount of query logs provided by Sogou laboratory.Experiments show that the proposed method has significant improvements in retrieval accuracy for query expansion than other methods.

Key words: HMM,Query expansion,Query logs

[1] Crouch C J.A cluster-based approach to thesaurus construction[C]∥Eleventh International ACMSIGIR Conference on Research and Development in Information Retrieval.1988:309-320
[2] Blondel V D,Senellart P P.Automatic extraction of synonyms in a dictionary [R].Presented at the Text Mining Workshop,2002
[3] Salton G.The Smart Retrieval System-Experiments in Automatic Document Processing[M].New Jersey,USA:Prenvtice Hall.Inl,1971
[4] 陈建超,郑启伦,李庆阳,等.基于特征词关联性的同义词集挖掘算法[J].计算机应用研究,2009,26(7):2517-2519
[5] Schutze H,Pedersen J.A co-occurrence-based thesaurus and two applications to information retrieval[J].Information Processing and Management,1997,33(3):307-318
[6] 吴云芳,石静,金彭.基于图的同义词集自动获取方法[J].计算机研究与发展,2011,48(4):610-616
[7] Matsuo Y,Sakaki T,Uchiyama K,et al.Graph-based clustering using a Web search engine [C]∥Proc of EMNLP.2006:542-550
[8] Turney P D.Mining the Web for synonyms:PMI-IR versus LSA on TOEFL[C]∥Proceedings of the Twelfth European Confe-rence on Machine Learning (ECML-2001).Freiburg,Germany,2001:491-52
[9] 崔世起,刘群,林守勋,等.中文缩略语自动抽取初探[C]∥孙茂松,陈群秀.自然语言处理与大规模内容计算.北京:清华大学出版社,2005:53-58
[10] 谢丽星,孙茂松,佟子健,等.基于用户查询日志和锚文字的汉语缩略语识别[C]∥孙茂松,陈群秀.中国计算语言学研究前沿进展.北京:清华大学出版社,2009:551-556
[11] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J].软件学报,2008,19(8):2043-2053
[12] 熊桂喜,王开锋.基于语义的查询扩展研究[J].微计算机信息,2008,4(30):177-178,7
[13] 杨清琳,李陶深,农健.基于领域本体知识库的语义查询扩展[J].计算机工程与设计,2011,32(11):3853-3856
[14] 李海芳,史俊冰,段利国,等.一种基于含糊同义词的查询扩展方法[J].计算机应用与软件,2011,8(12):41-43
[15] 余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[J].中文信息学报,2007,21(1):109-114
[16] 岑荣伟,刘奕群,张敏,等.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2010,24(3):49-54
[17] 窦志成,袁晓洁,何松柏.大规模中文搜索日志中查询重复性分析[J].计算机工程,2008,34(21):40-41,44
[18] 张泽伟,矫健,张仰森.基于PMI-IR的联想词表构造方法研究[J].计算机技术与发展,2014,24(6):140-144

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!