计算机科学 ›› 2009, Vol. 36 ›› Issue (11): 148-151.
刘建伟,李卫民
LIU Jian-wei, LI Wei-ming
摘要: 传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要研究新的流数据模式查询算法。提出了一种基于摘要技术的在线快速混合模型流数据聚类算法,该算法为分阶段混合模型 聚类过程。算法首先对最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,提取足够的统计信息。对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块用多维网格结构进行划分,对划分形成的每一个单元提取足够的摘要信息。对该摘要运行基于模型的贪心聚类算法形成聚类混合模型。在判断是否可以把新到达的模型合并到现有的混合模型中去时,提出了三种合并标准。实验表明,该算法减少了分类误差,其速度也比传统的基于模型的贪心聚类算法大大加快。
No related articles found! |
|