摘要: 传统的分布式数据流挖掘模型是一种挖掘结果中逐层进行的层次模型,通信带宽是一个瓶颈。为了减少分布式数据流结点的通信,本文采用一种基于数据密度的偏倚抽样方法对分布式数据流组中的每个流进行抽样,只维护抽样数据中最近期的元素。在频繁项挖掘过程中,设计了一种哈希计数方法(不同于传统哈希计数算法),可以同时对数据的计数进行增加和删减,计数的值是有一定误差保证的近似值,算法称为FFIDDS算法。实验结果证明,通信负担和处理时间均明显比传统HCS模型的算法优秀。
No related articles found! |
|