基于重复模式的Web信息抽取

计算机科学 ›› 2007, Vol. 34 ›› Issue (4): 210-212.

• 计算机网络与信息安全 • 上一篇下一篇

基于重复模式的Web信息抽取

高强张敬之耿桦潘金贵

南京大学计算机软件新技术国家重点实验室,南京210093

出版日期:2018-11-16 发布日期:2018-11-16

GAO Qiang ,ZHANG Jing-Zhi, GENG Hua, PAN Jin-Gui （State Key Lab. for Novel Software Technology, Nanjing University, Nanjing 210093）

Online:2018-11-16 Published:2018-11-16

摘要/Abstract

摘要： 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织，从而形成一致的表现形式。根据这一特征，本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构，分析页面结构中所包含的重复模式，进而从模式的实例中抽取出对应的数据记录。

关键词: Web信息抽取重复模式后缀树

Abstract: In a data-rich, multiple-record Web page, the ＂useful and relevant＂ information items are usually arranged regularly and compactly, with similar pattern of HTML tags and consistent style of presentation. In other words, the semi-structured Web document of

Key words: Web information extraction, Repeated pattern, Suffix tree

高强张敬之耿桦潘金贵. 基于重复模式的Web信息抽取[J]. 计算机科学, 2007, 34(4): 210-212. https://doi.org/

GAO Qiang ,ZHANG Jing-Zhi, GENG Hua, PAN Jin-Gui （State Key Lab. for Novel Software Technology, Nanjing University, Nanjing 210093）. [J]. Computer Science, 2007, 34(4): 210-212. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

基于重复模式的Web信息抽取

PDF (PC)

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

本文评价

推荐阅读 0