计算机科学 ›› 2007, Vol. 34 ›› Issue (4): 210-212.

• 计算机网络与信息安全 • 上一篇    下一篇

基于重复模式的Web信息抽取

高强 张敬之 耿桦 潘金贵   

  1. 南京大学计算机软件新技术国家重点实验室,南京210093
  • 出版日期:2018-11-16 发布日期:2018-11-16

GAO Qiang ,ZHANG Jing-Zhi, GENG Hua, PAN Jin-Gui (State Key Lab. for Novel Software Technology, Nanjing University, Nanjing 210093)   

  • Online:2018-11-16 Published:2018-11-16

摘要: 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。

关键词: Web信息抽取 重复模式 后缀树

Abstract: In a data-rich, multiple-record Web page, the "useful and relevant" information items are usually arranged regularly and compactly, with similar pattern of HTML tags and consistent style of presentation. In other words, the semi-structured Web document of

Key words: Web information extraction, Repeated pattern, Suffix tree

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!