计算机科学 ›› 2007, Vol. 34 ›› Issue (2): 137-140.

• 计算机网络与信息安全 • 上一篇    下一篇

领域相关的Web网站抓取方法

李刚 周立柱 郭奇 林玲   

  1. 清华大学计算机科学与技术系,北京100084
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    国家自然科学基金重大国际合作项目:超对等语义搜索引擎,2004-2006,项目编号,60520130299.

LI Gang ,ZHOU Li-Zhu ,GUO Qi ,LIN Ling (Department of Computer Science and Technology, Tsinghua University, Beijing 100084)   

  • Online:2018-11-16 Published:2018-11-16

摘要: 本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,迭到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。

关键词: Meta-Search 聚焦爬虫(Focused Crawler) 启发式搜索

Abstract: In this paper, we propose a new approach to discover the Websites for special topic in WWW with high precision and low cost. This approach improves traditional Focused Crawler techniques, different from the common Web crawler which accesses the Web graph

Key words: Meta-Search , Focused crawler, Heuristic search

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!