计算机科学 ›› 2011, Vol. 38 ›› Issue (10): 184-188.
向小军,高阳,商琳,杨育彬
XIANG Xiao-jun,GAO Yang,SHANE Lin,YANG Yu-bin
摘要: 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年 随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha- doop分布式平台下实现了一简单有效的文本分类算法—TFIDF分类算法,即一种基于向量空间模型的分类算法, 它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在 实际领域中得到良好的应用。
No related articles found! |
|