计算机科学 ›› 2006, Vol. 33 ›› Issue (7): 71-74.

• • 上一篇    下一篇

遗传算法在主题Web信息采集中的应用研究

  

  • 出版日期:2018-11-17 发布日期:2018-11-17

  • Online:2018-11-17 Published:2018-11-17

摘要: 传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,利用元搜索技术可进一步提高网络蜘蛛的性能,具有更高的查全率和查准率,能够较好地解决现存问题。

关键词: 网络蜘蛛 遗传算法 Web社区 信息采集

Abstract: Traditional focused crawler uses local search algorithms. It causes the problems of ‘topic drift' and ‘partially most superior'. Based on the knowledge of Web structure and web crawler's online status and meta-search technology, we proposed a new global s

Key words: Genetic algorithm, Web spider, Web community, Information retrieve

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!