计算机科学 ›› 2015, Vol. 42 ›› Issue (Z6): 465-469.
牛怡晗,海沫
NIU Yi-han and HAI Mo
摘要: 聚类是数据挖掘中的一门重要技术,用于将物理或抽象对象的集合划分成由相似对象构成的多个类。如何将传统聚类算法应用于大规模数据的聚类,是当前大数据研究领域中的热点研究问题。对云计算平台Hadoop下开源机器学习软件库——Mahout中的Canopy、标准K-means、模糊K-means 3种聚类算法的原理及其MapReduce实现进行了比较,并在构建的有不同个数节点的集群上,在不同规模的数据集下对这3种聚类算法进行了实验,从加速比、可扩展性和规模增长性3个方面进行比较。实验结果表明,在并行环境下:Canopy算法运行速度最快, K-means算法次之,模糊K-means最慢;3种算法均有较好的加速比,其中Canopy算法加速比最好,模糊K-means算法在数据量和节点个数达到一定规模后加速比大幅提高;3种算法均有较好的可扩展性和规模增长性,且随着数据规模增加,可扩展性和规模增长性增强,其中Canopy算法可扩展性最好,模糊K-means算法的可扩展性和规模增长性增强幅度最大。
[1] 赵卫中,马慧芳,傅燕翔,等.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011(10):166-168,176 [2] Owen S,Anil R,Dunning T,et al.Mahout in action[M].USA:Manning Publications,2010 [3] 胡俊.集群环境下聚类算法的并行化研究与实现[D].上海:华东师范大学,2010 [4] Ericson C,Pallickara S.On the performance of high dimensional data clustering and classification algorithms[J].Future Generation Computer Systems,2013(29):1024-1034 [5] 潘吴斌.基于云计算的并行K-means气象数据挖掘研究与应用[D].南京:南京信息工程大学,2013 [6] 怀特.Hadoop权威指南[M].北京:清华大学出版社,2010 [7] 王彦明,奉国和,薛云.近年来Hadoop国外研究综述[J].计算机系统应用,2013,2(6):1-5,28 [8] Apache Hadoop.http://Hadoop.apache.org [9] Apache Mahout.http://Mahout.apache.org [10] 张明辉.基于Hadoop的数据挖掘算法的分析与研究[D].昆明:昆明理工大学,2012 |
No related articles found! |
|