计算机科学 ›› 2012, Vol. 39 ›› Issue (12): 149-152.
朱炎 朱凯
摘要: 通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有: (1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控 提取同一网址中的W cb信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为 XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能, 可满足不同的信息提取需求,其简单实用,便于扩展。
No related articles found! |
|