测试数据集

DNA/RNA真实数据集

Ancient human partial mitochondrial DNA

  • 古代人类线粒体高可变区I和高可变区II的基因序列,长度350bp左右,293条高可变区I,100条高可变区II,数据集混在一起,比对时需要分开使用

  • Ref: Ancient DNA Reveals Key Stages in the Formation of Central European Mitochondrial Genetic Diversity. DOI: 10.1126/science.1241844

  • 下载 (zipped file): mt.zip

mitochondrial genomes

  • 人类线粒体基因组,672条高度相似的DNA序列,最大长度16579bp

  • Ref: Tanaka M., et al. (2004) Mitochondrial genome variation in eastern Asia and the peopling of Japan. Genome Res,14(10a), 1832-1850.

  • Download: 1x (219KB) 20x (4.27MB) 50x (10.666MB) 100x (21.325MB)

Human Genome

人类基因组基因

  • 含有21个人的完整基因,因数据量过大,仅提供基因组的下载链接

  • 注意:CHM13_T2T_v1.1 已经更新为 CHM13_T2T_v2.0,请使用 这个链接 获取。

人类Y染色体基因组

  • 共44条,均由多个片段拼接而成(参考序列见 CHM13_T2T_v2.0)

  • Download: Link

  • Ref1: Hallast, Pille, et al. “Assembly of 43 human Y chromosomes reveals extensive complexity and variation.” Nature (2023): 1-10.

  • Ref2: Rhie, Arang, et al. “The complete sequence of a human Y chromosome.” Nature (2023): 1-11.

3条人类1号染色体

16S rRNA

  • 16S rRNA基因是细菌上编码rRNA相对应的DNA序列,相似度不高,最大长度1586bp

  • Ref: DeSantis, T. Z., et al.(2006) NAST: a multiple sequence alignment server for comparative analysis of 16S rRNA genes. Nucleic Acids Res, 34, W394-399.

  • Download: small (21.864MB) big (197.224MB)

Mycobacterium 23S rRNA sequences

  • 641 Mycobacterium 23S rRNA sequences with lengths ranging from 1909 to 3485 bp were downloaded as another dataset from the SILVA rRNA database of Bacteria, Archaea and Eukarya.

  • Download: 23s_rRNA.tar.xz

COVID-19

猴痘数据集

  • 完整数据集(即完整测序的数据集 MPoxBR.complete.fasta.xz)相似度较高,有 1739 条序列,没有对齐,fasta 格式的 DNA 数据集,长度在 183230~210919 之间,平均长度 197135

  • 部分数据集(即部分测序的数据集 PoxBR.incomplete.fasta.xz)相似度较低,有 4631 条序列,没有对齐,fasta 格式的 DNA 数据集,长度在 17~228869 之间,平均长度 177921

  • 最后更新日期:2023-08-19

  • Dataset Mainpage

  • Dataset Link

Neisseria-meningitidis

  • 5 条序列,长度为 2,190,088,fasta 格式

  • Download: link

Streptococcus-pneumoniae

  • 11 条序列,长度 2,138,975~2,139,054,fasta 格式

  • Download: link

Escherichia-coil

  • 30 条序列,长度 5,060,511~5,060,749,fasta 格式。由于数据过大,采用了分卷压缩

  • Download: part 1, part 2

GMGC 数据集

HIV 数据集

DNA/RNA模拟数据集

Hierarchical tree simulated datasets

Star-tree simulated datasets

  • 14 simulated datasets, each dataset contained 1000 sequences in each dataset with different similarities (99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 85%, 80%, 70%, and 60%).

  • Ref: HAlign 3: Fast Multiple Alignment of Ultra-Large Numbers of Similar DNA/RNA Sequences.

  • Download: star_simudata_1000seq.tar.xz

RNA模拟数据

模拟noncoding数据

蛋白质数据集

MUSCLE 数据集

extHomFam 数据集

  • 相似度较低,序列长度短(<100bp),文件内序列数量多(最多415519条),有金标准对齐,fasta格式,蛋白质数据集

  • 金标准对比结果同样采用 Q Score 程序

  • Dataset Link

QuanTest2 数据集

  • 蛋白质数据集,相似度较低

  • Ref: Sievers, F. et al. (2020) QuanTest2: benchmarking multiple sequence alignments using secondary structure prediction, Bioinformatics, 36(1), January 2020, 90–95.

  • 原版利用二级结构进行预测,下载地址

  • 利用 Q Score 和 TC Score 进行得分计算,Dataset Mainpage

Pfam(38.1) full子数据集

  • 基于Pfam full alignment 构建的真实蛋白质家族子集,从多个Pfam家族中抽取部分成员形成测试数据。Pfam家族以多序列比对和profile HMM表示,full alignment包含更大范围的同源成员,适合构建真实场景下的MSA测试集。

  • 蛋白质数据集,覆盖不同家族规模、序列长度和相似度水平,可用于测试比对方法在低相似、高冗余、规模变化等条件下的表现。

  • 与BAliBASE等结构参考基准不同,该数据集强调真实家族覆盖与规模多样性,适合用于算法性能评测、参数敏感性分析以及大规模比对实验;若需参考型质量评估,可结合Pfam seed alignment或其他高可信参考集进行比较。Pfam的seed是经整理的核心对齐,full则是在profile HMM搜索基础上扩展得到的更大成员集合。

  • 下载: pfam_subset.7z

IQ-TREE3模拟数据集

  • 基于IQ-TREE3的AliSim模拟器构建,通过控制序列长度、叶子节点数、进化距离和替换模型等参数,生成不同难度与不同规模的模拟多序列比对数据。

  • 数据集覆盖从低分化到高分化、从小规模到大规模、从短序列到长序列的多种场景,适合测试多序列比对算法在复杂进化条件下的准确性、稳定性与可扩展性。

  • 下载: iqtree_simulated.7z