基于最大频繁等价类的Web信息自动抽取

计算机科学 ›› 2006, Vol. 33 ›› Issue (12): 169-173.

• 计算机网络与信息安全 • 上一篇下一篇

基于最大频繁等价类的Web信息自动抽取

出版日期:2018-11-17 发布日期:2018-11-17
基金资助:
国家自然科学基金（50474033）、福建省自然科学基金（A0310008）、福建省重点科技项目（2003H043）.

Online:2018-11-17 Published:2018-11-17

摘要/Abstract

摘要： 在定义模板的基础上，提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型，设计了一个基于最大频繁等价粪的抽取算法EBMFEC，通过分析给定的数据导向型页面的终端符号的出现情况，找出最大频繁等价类，并推导出用于生成页面的未知模板。然后使用推导出的模板，从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明，EBMFEC在大部分情况下都可以从给定页面中推导出模板，并正确抽取出数据信息。

关键词: 等价类信息抽取模式模板

Abstract: A novel approach based on MFEC （Maximal and Frenquent Equivalence Classes）is proposed to solve the problem of automatically extracting data from data-intensive Web pages. A template is defined and a model of page creation is proposed to describe how value

Key words: Equivalence classes, Information extraction,Schema,Template

. 基于最大频繁等价类的Web信息自动抽取[J]. 计算机科学, 2006, 33(12): 169-173. https://doi.org/

参考文献

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

基于最大频繁等价类的Web信息自动抽取

PDF (PC)

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

本文评价

推荐阅读 0