计算机科学 ›› 2006, Vol. 33 ›› Issue (12): 169-173.

• 计算机网络与信息安全 • 上一篇    下一篇

基于最大频繁等价类的Web信息自动抽取

  

  • 出版日期:2018-11-17 发布日期:2018-11-17
  • 基金资助:
    国家自然科学基金(50474033)、福建省自然科学基金(A0310008)、福建省重点科技项目(2003H043).

  • Online:2018-11-17 Published:2018-11-17

摘要: 在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价粪的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。

关键词: 等价类 信息抽取 模式 模板

Abstract: A novel approach based on MFEC (Maximal and Frenquent Equivalence Classes)is proposed to solve the problem of automatically extracting data from data-intensive Web pages. A template is defined and a model of page creation is proposed to describe how value

Key words: Equivalence classes, Information extraction,Schema,Template

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!