基于关键词聚类和节点距离的网页信息抽取

计算机科学 ›› 2007, Vol. 34 ›› Issue (4): 213-216.

• 计算机网络与信息安全 • 上一篇下一篇

基于关键词聚类和节点距离的网页信息抽取

邓健爽郑启伦彭宏林旭东

华南理工大学计算机科学与工程学院人工智能实验室,广州510641

出版日期:2018-11-16 发布日期:2018-11-16
基金资助:
广东省科技攻关项目（2005810101033）（A10202001）、广州市科技攻关项目（200422-D0091）.

DENG Jian-Shuang, ZHENG Qi-Lun, PENG Hong ,LIN Xu-Dong （Department of Computer Science, The South China University of Technology, Guangzhou 510641）

Online:2018-11-16 Published:2018-11-16

摘要/Abstract

摘要： 大部分网页信息抽取方法都针对特定的网站，例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时，必须人为地增加抽取规则或者提供新的训练网页集。而且，当网站的模版改变时，也要重新设计这些规则或重新输入训练网页集。这些方法难以维护，因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法，该方法基于特定主题的关键词组和节点距离，能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示，该方法能够不依赖网页的来源而

关键词: 聚类信息抽取机器学习节点距离

Abstract: Many Web information retrieval methods are related to special Web sites, for example, the method based on extracting rules and the one based on training page samples. These methods can do well in a Web site but fail in the others without adding new rules

Key words: Cluster, Information retrieval, Machine learning, Instance of node

邓健爽郑启伦彭宏林旭东. 基于关键词聚类和节点距离的网页信息抽取[J]. 计算机科学, 2007, 34(4): 213-216. https://doi.org/

DENG Jian-Shuang, ZHENG Qi-Lun, PENG Hong ,LIN Xu-Dong （Department of Computer Science, The South China University of Technology, Guangzhou 510641）. [J]. Computer Science, 2007, 34(4): 213-216. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

基于关键词聚类和节点距离的网页信息抽取

PDF (PC)

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

本文评价

推荐阅读 0