摘要: 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。
高强 张敬之 耿桦 潘金贵. 基于重复模式的Web信息抽取[J]. 计算机科学, 2007, 34(4): 210-212. https://doi.org/
GAO Qiang ,ZHANG Jing-Zhi, GENG Hua, PAN Jin-Gui (State Key Lab. for Novel Software Technology, Nanjing University, Nanjing 210093). [J]. Computer Science, 2007, 34(4): 210-212. https://doi.org/