计算机科学 ›› 2007, Vol. 34 ›› Issue (4): 213-216.

• 计算机网络与信息安全 • 上一篇    下一篇

基于关键词聚类和节点距离的网页信息抽取

邓健爽 郑启伦 彭宏 林旭东   

  1. 华南理工大学计算机科学与工程学院人工智能实验室,广州510641
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    广东省科技攻关项目(2005810101033)(A10202001)、广州市科技攻关项目(200422-D0091).

DENG Jian-Shuang, ZHENG Qi-Lun, PENG Hong ,LIN Xu-Dong (Department of Computer Science, The South China University of Technology, Guangzhou 510641)   

  • Online:2018-11-16 Published:2018-11-16

摘要: 大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而

关键词: 聚类 信息抽取 机器学习 节点距离

Abstract: Many Web information retrieval methods are related to special Web sites, for example, the method based on extracting rules and the one based on training page samples. These methods can do well in a Web site but fail in the others without adding new rules

Key words: Cluster, Information retrieval, Machine learning, Instance of node

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!