计算机科学 ›› 2014, Vol. 41 ›› Issue (12): 168-171.doi: 10.11896/j.issn.1002-137X.2014.12.036
矫健,张仰森
JIAO Jian and ZHANG Yang-sen
摘要: 对查询进行扩展的目的是找出查询中的潜在语义,确定用户意图,进而构造更适合于搜索引擎检索的查询语句,以提高检索的准确率。提出利用隐马尔可夫模型预测查询中的潜在语义的方法,该模型在大规模用户查询日志上进行训练。由该模型预测出的扩展语句查询的准确率较词共现扩展、同义词扩展等方案均有明显提升。
[1] Crouch C J.A cluster-based approach to thesaurus construction[C]∥Eleventh International ACMSIGIR Conference on Research and Development in Information Retrieval.1988:309-320 [2] Blondel V D,Senellart P P.Automatic extraction of synonyms in a dictionary [R].Presented at the Text Mining Workshop,2002 [3] Salton G.The Smart Retrieval System-Experiments in Automatic Document Processing[M].New Jersey,USA:Prenvtice Hall.Inl,1971 [4] 陈建超,郑启伦,李庆阳,等.基于特征词关联性的同义词集挖掘算法[J].计算机应用研究,2009,26(7):2517-2519 [5] Schutze H,Pedersen J.A co-occurrence-based thesaurus and two applications to information retrieval[J].Information Processing and Management,1997,33(3):307-318 [6] 吴云芳,石静,金彭.基于图的同义词集自动获取方法[J].计算机研究与发展,2011,48(4):610-616 [7] Matsuo Y,Sakaki T,Uchiyama K,et al.Graph-based clustering using a Web search engine [C]∥Proc of EMNLP.2006:542-550 [8] Turney P D.Mining the Web for synonyms:PMI-IR versus LSA on TOEFL[C]∥Proceedings of the Twelfth European Confe-rence on Machine Learning (ECML-2001).Freiburg,Germany,2001:491-52 [9] 崔世起,刘群,林守勋,等.中文缩略语自动抽取初探[C]∥孙茂松,陈群秀.自然语言处理与大规模内容计算.北京:清华大学出版社,2005:53-58 [10] 谢丽星,孙茂松,佟子健,等.基于用户查询日志和锚文字的汉语缩略语识别[C]∥孙茂松,陈群秀.中国计算语言学研究前沿进展.北京:清华大学出版社,2009:551-556 [11] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J].软件学报,2008,19(8):2043-2053 [12] 熊桂喜,王开锋.基于语义的查询扩展研究[J].微计算机信息,2008,4(30):177-178,7 [13] 杨清琳,李陶深,农健.基于领域本体知识库的语义查询扩展[J].计算机工程与设计,2011,32(11):3853-3856 [14] 李海芳,史俊冰,段利国,等.一种基于含糊同义词的查询扩展方法[J].计算机应用与软件,2011,8(12):41-43 [15] 余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[J].中文信息学报,2007,21(1):109-114 [16] 岑荣伟,刘奕群,张敏,等.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2010,24(3):49-54 [17] 窦志成,袁晓洁,何松柏.大规模中文搜索日志中查询重复性分析[J].计算机工程,2008,34(21):40-41,44 [18] 张泽伟,矫健,张仰森.基于PMI-IR的联想词表构造方法研究[J].计算机技术与发展,2014,24(6):140-144 |
No related articles found! |
|