计算机科学 ›› 2007, Vol. 34 ›› Issue (2): 137-140.
• 计算机网络与信息安全 • 上一篇 下一篇
李刚 周立柱 郭奇 林玲
出版日期:
发布日期:
基金资助:
LI Gang ,ZHOU Li-Zhu ,GUO Qi ,LIN Ling (Department of Computer Science and Technology, Tsinghua University, Beijing 100084)
Online:
Published:
摘要: 本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,迭到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。
关键词: Meta-Search 聚焦爬虫(Focused Crawler) 启发式搜索
Abstract: In this paper, we propose a new approach to discover the Websites for special topic in WWW with high precision and low cost. This approach improves traditional Focused Crawler techniques, different from the common Web crawler which accesses the Web graph
Key words: Meta-Search , Focused crawler, Heuristic search
李刚 周立柱 郭奇 林玲. 领域相关的Web网站抓取方法[J]. 计算机科学, 2007, 34(2): 137-140. https://doi.org/
LI Gang ,ZHOU Li-Zhu ,GUO Qi ,LIN Ling (Department of Computer Science and Technology, Tsinghua University, Beijing 100084). [J]. Computer Science, 2007, 34(2): 137-140. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2007/V34/I2/137
Cited