摘要: 大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而
邓健爽 郑启伦 彭宏 林旭东. 基于关键词聚类和节点距离的网页信息抽取[J]. 计算机科学, 2007, 34(4): 213-216. https://doi.org/
DENG Jian-Shuang, ZHENG Qi-Lun, PENG Hong ,LIN Xu-Dong (Department of Computer Science, The South China University of Technology, Guangzhou 510641). [J]. Computer Science, 2007, 34(4): 213-216. https://doi.org/