计算机科学 ›› 2005, Vol. 32 ›› Issue (10): 149-153.
黄东 唐俊 汪卫 施伯乐
HUANG Dong, TANG Jun, WANG Wei, SHI Bai-Le(Department of Compater Science and Engineering, Fudan University, Shanghai 200433)
摘要: 基因组序列拼接的主流方法是将整条序列随机打断成小片段,然后根据片段间重叠关系连接成长序列.由于较多噪音存在,算法复杂度高,加之生物数据的海量增长,序列拼接处理导致巨大的时空开销而无法完成.本文提出一种基于最大频繁序列模式的聚类算法,将整个数据集分成若干个子集,分别高效地处理,实现了一个基因拼接网格系统、透明动态的资源管理,大大扩展了基因拼接计算能力.基于最大频繁序列模式聚类算法及挖掘算法,针对生物数据的特性做出了优化.
No related articles found! |
|