计算机科学 ›› 2018, Vol. 45 ›› Issue (11A): 417-421.

• 大数据与数据挖掘 • 上一篇    下一篇

基于词项聚类的文本语义标签抽取研究

李雄, 丁治明, 苏醒, 郭黎敏   

  1. 北京工业大学信息学部 北京100124
  • 出版日期:2019-02-26 发布日期:2019-02-26
  • 通讯作者: 丁治明(1966-),男,博士,教授,主要研究方向为感知大数据、数据挖掘,E-mail:zmding@bjut.edu.cn
  • 作者简介:李 雄(1992-),男,硕士生,主要研究方向为自然语言处理、数据挖掘
  • 基金资助:
    本文受国家自然科学基金(91546111)资助。

Word Clustering Based Text Semantic Tagging Extraction Method

LI Xiong, DING Zhi-ming, SU Xing, GUO Li-min   

  1. Department of Information,Beijing University of Technology,Beijing 100124,China
  • Online:2019-02-26 Published:2019-02-26

摘要: 本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。

关键词: 分布式表示假说, 聚类, 相似度, 语义抽取

Abstract: This research mainly solves the problem of extracting key semantic information from a large number of text data.Text is the information carrier of the natural language.When the text information is analyzed and processed,the characteristics of text messages are different,due to different goals and methods.In the past,the semantic tagging extraction method is usually focused on the single text,but the semantic relationships between different texts are ignored.To this end,this paper proposed a text semantic tagging extraction method based on word clustering.The proposed method is based on semantic tagging extraction processing target,which employs a distributed Hinton representation hypothesis to express text information,and uses word clustering algorithm to maximize the semantic tagging and semantic similarity between the original text data.Experiments show that since the method involves all vocabularies in the cluster computing,the semantic richness and power of information expression of the proposed method outperform many existing methods.

Key words: Clustering, Distributed representation hypothesis, Semantic extraction, Similarity

中图分类号: 

  • TP391
[1]文继军,王珊.SEEKER:基于关键词的关系数据库信息检索[J].软件学报,2005,16(7):1270-1281.
[2]张阔,李涓子,吴刚,等.基于关键词元的话题内事件检测[J].计算机研究与发展,2009,46(2):245-252.
[3]李峰,黄金柱,李舟军,等.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):373-380.
[4]吴舜尧,邵峰晶,王金龙,等.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227.
[5]VIDAL M,MENEZES G V,BERLT K,et al.Selecting Keywords to Represent Web Page Using Wikipedia Information[J].WebMedia,2012,4(10):15-18.
[6]TURNEY P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303-336.
[7]BELLAACHIA A.NE-Rank:A Novel Graph-based Keyphrase Extraction in Twitter[J].Web Intelligence and Intelligent Agent Technology,2013,1(12):372-379.
[8]李然,张华平,赵燕平,等.基于主题模型与信息熵的中文文档自动摘要技术研究[J].计算机科学,2014,41(S2):298-300.
[9]刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究,2016,33(2):365-369.
[10]陈伟鹤,刘云.基于词或词组长度和频数的短中文文本关键词提取算法[J].计算机科学,2016,43(12):50-57.
[11]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.
[12]李鹏,王斌,石志伟,等.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351.
[13]罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725.
[14]李晓超,赵书良,罗燕,等.中文文本同频词统计规律及在关键词提取中的应用[J].计算机应用研究,2016,33(4):1007-1012.
[15]潘虹,徐朝军.LCS算法在术语抽取中的应用研究[J].情报学报,2010,29(5):853-857.
[16]车海燕,冯铁,张家晨,等.面向中文自然语言文档的自动知识抽取方法[J].计算机研究与发展,2013,50(4):834-842.
[17]夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013,29(9):30-34.
[18]方康,韩立新.基于HMM的加权TextRank单文档的关键词抽取算法[J].信息技术,2015,4(4):114-116.
[19]顾益军.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014,30(7):41-47.
[20]BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[1] 柴慧敏, 张勇, 方敏.
基于特征相似度聚类的空中目标分群方法
Aerial Target Grouping Method Based on Feature Similarity Clustering
计算机科学, 2022, 49(9): 70-75. https://doi.org/10.11896/jsjkx.210800203
[2] 鲁晨阳, 邓苏, 马武彬, 吴亚辉, 周浩浩.
基于分层抽样优化的面向异构客户端的联邦学习
Federated Learning Based on Stratified Sampling Optimization for Heterogeneous Clients
计算机科学, 2022, 49(9): 183-193. https://doi.org/10.11896/jsjkx.220500263
[3] 吴子仪, 李邵梅, 姜梦函, 张建朋.
基于自注意力模型的本体对齐方法
Ontology Alignment Method Based on Self-attention
计算机科学, 2022, 49(9): 215-220. https://doi.org/10.11896/jsjkx.210700190
[4] 李斌, 万源.
基于相似度矩阵学习和矩阵校正的无监督多视角特征选择
Unsupervised Multi-view Feature Selection Based on Similarity Matrix Learning and Matrix Alignment
计算机科学, 2022, 49(8): 86-96. https://doi.org/10.11896/jsjkx.210700124
[5] 曾志贤, 曹建军, 翁年凤, 蒋国权, 徐滨.
基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨
Fine-grained Semantic Association Video-Text Cross-modal Entity Resolution Based on Attention Mechanism
计算机科学, 2022, 49(7): 106-112. https://doi.org/10.11896/jsjkx.210500224
[6] 刘丽, 李仁发.
医疗CPS协作网络控制策略优化
Control Strategy Optimization of Medical CPS Cooperative Network
计算机科学, 2022, 49(6A): 39-43. https://doi.org/10.11896/jsjkx.210300230
[7] 黄少滨, 孙雪薇, 李熔盛.
基于跨句上下文信息的神经网络关系分类方法
Relation Classification Method Based on Cross-sentence Contextual Information for Neural Network
计算机科学, 2022, 49(6A): 119-124. https://doi.org/10.11896/jsjkx.210600150
[8] 鲁晨阳, 邓苏, 马武彬, 吴亚辉, 周浩浩.
基于DBSCAN聚类的集群联邦学习方法
Clustered Federated Learning Methods Based on DBSCAN Clustering
计算机科学, 2022, 49(6A): 232-237. https://doi.org/10.11896/jsjkx.211100059
[9] 郁舒昊, 周辉, 叶春杨, 王太正.
SDFA:基于多特征融合的船舶轨迹聚类方法研究
SDFA:Study on Ship Trajectory Clustering Method Based on Multi-feature Fusion
计算机科学, 2022, 49(6A): 256-260. https://doi.org/10.11896/jsjkx.211100253
[10] 王毅, 李政浩, 陈星.
基于用户场景的Android 应用服务推荐方法
Recommendation of Android Application Services via User Scenarios
计算机科学, 2022, 49(6A): 267-271. https://doi.org/10.11896/jsjkx.210700123
[11] 毛森林, 夏镇, 耿新宇, 陈剑辉, 蒋宏霞.
基于密度敏感距离和模糊划分的改进FCM算法
FCM Algorithm Based on Density Sensitive Distance and Fuzzy Partition
计算机科学, 2022, 49(6A): 285-290. https://doi.org/10.11896/jsjkx.210700042
[12] 陈景年.
一种适于多分类问题的支持向量机加速方法
Acceleration of SVM for Multi-class Classification
计算机科学, 2022, 49(6A): 297-300. https://doi.org/10.11896/jsjkx.210400149
[13] 陈佳舟, 赵熠波, 徐阳辉, 马骥, 金灵枫, 秦绪佳.
三维城市场景中的小物体检测
Small Object Detection in 3D Urban Scenes
计算机科学, 2022, 49(6): 238-244. https://doi.org/10.11896/jsjkx.210400174
[14] 成科扬, 王宁, 崔宏纲, 詹永照.
基于局部注意力图互迁移的可解释性优化方法
Interpretability Optimization Method Based on Mutual Transfer of Local Attention Map
计算机科学, 2022, 49(5): 64-70. https://doi.org/10.11896/jsjkx.210400176
[15] 邢云冰, 龙广玉, 胡春雨, 忽丽莎.
基于SVM的类别增量人体活动识别方法
Human Activity Recognition Method Based on Class Increment SVM
计算机科学, 2022, 49(5): 78-83. https://doi.org/10.11896/jsjkx.210400024
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!