计算机科学 ›› 2005, Vol. 32 ›› Issue (10): 149-153.

• 计算机网络与信息安全 • 上一篇    下一篇

CuMen:基于最大频繁序列模式的聚类算法及其在基因拼接中的应用

黄东 唐俊 汪卫 施伯乐   

  1. 复旦大学计算机与信息技术系,上海200433
  • 出版日期:2018-11-17 发布日期:2018-11-17
  • 基金资助:
    本课题得到教委高校网格项目200309和上海科委重大项目03dz15027资助.

HUANG Dong, TANG Jun, WANG Wei, SHI Bai-Le(Department of Compater Science and Engineering, Fudan University, Shanghai 200433)   

  • Online:2018-11-17 Published:2018-11-17

摘要: 基因组序列拼接的主流方法是将整条序列随机打断成小片段,然后根据片段间重叠关系连接成长序列.由于较多噪音存在,算法复杂度高,加之生物数据的海量增长,序列拼接处理导致巨大的时空开销而无法完成.本文提出一种基于最大频繁序列模式的聚类算法,将整个数据集分成若干个子集,分别高效地处理,实现了一个基因拼接网格系统、透明动态的资源管理,大大扩展了基因拼接计算能力.基于最大频繁序列模式聚类算法及挖掘算法,针对生物数据的特性做出了优化.

关键词: 最大频繁序列模式 序列聚类 序列拼接 网格 基因组序列 序列模式 拼接处理 聚类算法 应用 生物数据 算法复杂度 网格系统 资源管理

Abstract: Sequencing genomes is a fundamental aspect of biological research. A variety of assembly programs have been previously proposed and implemented. Because of great computational complexity and increasingly large size, they incur great time and space overhea

Key words: Maximal frequent sequential pattern, Sequence clustering, Sequence assembly, Grid

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!