李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256-260
基于Word2vec的句子语义相似度计算研究
Research on Sentence Semantic Similarity Calculation Based on Word2vec
投稿时间:2016-08-12  修订日期:2016-12-24
DOI:10.11896/j.issn.1002-137X.2017.09.048
中文关键词:  句子相似度,word2vec,词向量,语义,句法结构
英文关键词:Sentence similarity,Word2vec,Distributed representation,Semantic,Syntactic structure
基金项目:本文受国家自然科学基金:面向甲骨学知识图谱的实体发现及语义关系挖掘研究(U1504612),河南省高等学校重点科研项目计划:基于语义向量空间模型的中文文本相似度计算研究(16A520037)资助
作者单位E-mail
李晓 安阳师范学院计算机与信息工程学院 安阳455002  
解辉 清华大学计算机科学与技术系 北京100084  
李立杰 北京理工大学软件学院 北京100081 joylx@163.com 
摘要点击次数: 242
全文下载次数: 171
中文摘要:
      word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。
英文摘要:
      Using the idea of deep learning,word2vec can automatically learn the essential information of data from large-scale text data.Therefore,with the help of LTP platform of Harbin Institute of Technology,based on the word2vec model,the processing of the sentence is simplified as a vector in the vector space algorithm,and the similarity of vector space represents the sentence semantic similarity.In addition,the sentence structure information is added to the sentence similarity calculation,the algorithm are improved on the special sentence pattern,and the syntax relationship between words is taken into account.The experimental results show that this method is more accurately to reveal the semantic relations between sentences,syntactic structure and improved extraction algorithm also solve the problem of computing the similarity of complex sentences,finally improve the accuracy of the similarity calculation.
查看全文  查看/发表评论  下载PDF阅读器