摘要: HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。
朱沿旭,王怀民,史殿习,尹刚,袁霖,李翔. 基于缩进轮廓的HTML文档重复模式挖掘方法[J]. 计算机科学, 2011, 38(8): 165-168. https://doi.org/
ZHU Yan-xu,WANG Huai-min,SHI Dian-x,YIN Gang,YUAN Lin, LI Xiang. Indent Shape Based Approach for Mining Repeated Patterns of HTML Documents[J]. Computer Science, 2011, 38(8): 165-168. https://doi.org/