计算机科学 ›› 2013, Vol. 40 ›› Issue (Z6): 157-159.

• 数据存储与挖掘 • 上一篇    下一篇

面向领域的Web数据抽取与集成

李贵,李征宇,陈韶刚,韩子扬,孙平,孙焕良   

  1. 沈阳建筑大学信息与控制工程学院 沈阳110168;沈阳建筑大学信息与控制工程学院 沈阳110168;沈阳建筑大学信息与控制工程学院 沈阳110168;沈阳建筑大学信息与控制工程学院 沈阳110168;沈阳建筑大学信息与控制工程学院 沈阳110168;沈阳建筑大学信息与控制工程学院 沈阳110168
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    本文受国家自然科学基金(61070024)资助

Web Data Extraction and Integration in Domain

LI Gui,LI Zheng-yu,CHEN Shao-gang,HAN Zi-yang,SUN Ping and SUN Huan-liang   

  • Online:2018-11-16 Published:2018-11-16

摘要: 面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。

关键词: Web结构数据模型,Web表模式,领域模型,领域数据抽取与集成

Abstract: Web data mining in a domain includes Web data extraction and Web data integration.In the phase of Web data extraction,the paper proposes a Web structural data model and a Web table schema,and puts forward the Web table positioning and records extracting algorithm.In the phase of Web data integration,a Web data integration algorithm based on the domain model is presented.The experiment results are given to show effectiveness of the proposed algorithms.

Key words: Web structural data model,Web table schema,Domain model,Domain data extraction and integration

[1] Cafarella M J,Halevy A,Wang D Z,et al.WebTables:Exploring the Power of Tables on the Web[C]∥Proceedings of VLDB-08.Auckland,New Zealand,2008:538-549
[2] Crestan E,Pantel P.Web-Scale Knowledge Extraction from Semi-Structured Tables[C]∥Proceedings of WWW-2010.Raleigh,North Carolina,USA,2010
[3] Liu Bing.Web Data Mining[M].俞勇,薛贵荣,韩定一,译.北京:清华大学出版社,2009:265-26
[4] Chen H,Tsai S,Tsai J.Mining Tables from Large-Scale HTML Texts[C]∥Proceedings of COLING-00.Saarbrücken,Germany,2000
[5] Robert G,Wilks Y.Information extraction:Beyond documentretrieval[J].Journal of Documentation,1998,54(1):70-105
[6] Gatterbauer W,Bohunsky P,Herzog M,et al.Towards Domain-Independent Information Extraction from Web Tables[C]∥Proceedings of WWW-07.Banff,Canda,2007:71-80

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!