计算机科学 ›› 2006, Vol. 33 ›› Issue (12): 169-173.
• 计算机网络与信息安全 • 上一篇 下一篇
出版日期:
发布日期:
基金资助:
Online:
Published:
摘要: 在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价粪的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。
关键词: 等价类 信息抽取 模式 模板
Abstract: A novel approach based on MFEC (Maximal and Frenquent Equivalence Classes)is proposed to solve the problem of automatically extracting data from data-intensive Web pages. A template is defined and a model of page creation is proposed to describe how value
Key words: Equivalence classes, Information extraction,Schema,Template
. 基于最大频繁等价类的Web信息自动抽取[J]. 计算机科学, 2006, 33(12): 169-173. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2006/V33/I12/169
Cited