计算机科学 ›› 2008, Vol. 35 ›› Issue (5): 131-133.

• • 上一篇    下一篇

基于概念获取的多文档主题划分研究

孔庆苹 刘宗田 廖涛   

  1. 上海大学计算机科学与工程学院,上海200072
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    本文受国家发改委项目基金(SNMCFIP-2006S001)资助.

KONG Qing-ping LIU Zong-tian LIAO Tao (School of Computer Science and Engineering,Shanghai University,Shanghai 200072 ,China)   

  • Online:2018-11-16 Published:2018-11-16

摘要: 对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值。当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果。本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题。实验结果表明该方法对多个相关文档的主题划分取得了良好的效果。

关键词: 信息处理 知网 概念 主题聚类 主题划分

Abstract: Topic partition is a significant problem during text structuring in many domains such as information retrieval and automatic summarization. The popular technique is 'using the frequency of words to express the documents, but using the concept will improve

Key words: Information processing, HowNet,Concept,Document clustering,Topic partition

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!