计算机科学 ›› 2007, Vol. 34 ›› Issue (7): 116-119.

• 计算机网络与信息安全 • 上一篇    下一篇

基于超链接的镜像页面比较策略研究

杨楠   

  1. 中国人民大学信息学院,北京100872
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    本文得到教育部211项目子课题《WEB资源发现技术研究》的资助.

YANG Nan (School of Information, Renmin University of China, Beijing 100872)   

  • Online:2018-11-16 Published:2018-11-16

摘要: Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。

关键词: 链接分析 镜像页面 页面相似度

Abstract: There are many duplicated pages in Web. These mirrors of pages will distort the analysis result. The duplicates also occupy much space and resources, degrading system efficiency. How to delete these duplicates is a very important issue. The thesis analyze

Key words: Link analysis, Duplicated pages, Page resemblance

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!