计算机科学 ›› 2007, Vol. 34 ›› Issue (7): 116-119.
• 计算机网络与信息安全 • 上一篇 下一篇
杨楠
出版日期:
发布日期:
基金资助:
YANG Nan (School of Information, Renmin University of China, Beijing 100872)
Online:
Published:
摘要: Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。
关键词: 链接分析 镜像页面 页面相似度
Abstract: There are many duplicated pages in Web. These mirrors of pages will distort the analysis result. The duplicates also occupy much space and resources, degrading system efficiency. How to delete these duplicates is a very important issue. The thesis analyze
Key words: Link analysis, Duplicated pages, Page resemblance
杨楠. 基于超链接的镜像页面比较策略研究[J]. 计算机科学, 2007, 34(7): 116-119. https://doi.org/
YANG Nan (School of Information, Renmin University of China, Beijing 100872). [J]. Computer Science, 2007, 34(7): 116-119. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2007/V34/I7/116
Cited