摘要: 序列中重复模式的识别与提取算法在数据挖掘、模式识别、数据压缩、生物信息学等领域中具有广泛的实际应用。提出一种全新的基于QSA数组计算所有带有约束条件的NE重复模式的算法RPT。算法设计中充分考虑了NE重复模式的特征,以建立特征和重复模式检测结果之间的统计联系;算法中的约束条件包括最小周期pmin和最大间距gmax,其可用于筛选符合条件的NE重复模式,并可按照递增序输出所有NE重复模式的出现位置。与已有的基于后缀索引的算法相比,此算法的空间效率得到了提高。在分类属性数据样本集上进行的实验表明,算法RPT对生物序列尤其是DNA序列以及维吾尔语Web文本中NE重复模式的识别与提取都很有效。
[1] Benson G.Tandem repeats finder:a program to analyze DNA se-quences[J].Nucleic Acids Research,1999,27(2):573-580 [2] Lander E S,Linton L M,Birren B,et al.Initial Sequencing and Analysis of the Human Genome[J].Nature,2001,409(6822):860-921 [3] Price A L,Jones N C,Pevzner P A.De novo identification of repeat families in large genomes[J].Bioinformatics,2005,21(Suppl.):351-358 [4] 霍红卫,王小武.DNA序列中基于适应性后缀树的重复体识别算法[J].计算机学报,2010,33(4):747-754 [5] 纪震,周家锐,姜来,等.DNA序列数据压缩技术综述[J].电子学报,2010,38(5):1113-1121 [6] Franek F,Smyth W F,Tang Yu-dong.Computing all repeats using suffix arrays[J].Automata,Languages and Combinatorics,2003,8(4):579-591 [7] Narisawa K,Inenaga S,Bannai H,et al.Efficient computation of substring equivalence classes with suffix arrays[C]∥Proc.18th Annual Symp.Combinatorial Pattern Matching.2007:340-351 [8] Puglisi S J,Smyth W F,Yusufu M.Fast optimal algorithms for computing all the repeats in a string[J].Mathematics in Computer Science,2010,3(4):373-389 [9] 胡吉祥,许洪波,刘悦,等.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程,2007,33(2):65-67 [10] Franek F,Holub J,Smyth W F,et al.Computing quasi suffix arrays[J].J.Automata,Languages & Combinatorics,2003,8(4):593-606 |
No related articles found! |
|