基因组比对

  • 基因组学 (Genomics)中的比较基因组学 (Comparative Genomics)是一门基于基因组图谱和测序技术,通过比较已知基因特征和基因组结构,探索基因功能、表达机制以及不同物种亲缘关系的生物学研究领域。在基因组范围内进行序列比对,有助于揭示不同物种在核苷酸组成、同线性关系和基因顺序上的异同,从而为基因分析、基因定位以及物种系统发育关系的研究提供重要信息 [1]。

  • 多基因组比对是当前基因组学领域中迅速发展的前沿方向。由于该领域的研究尚处于早期阶段,相关的算法和标准仍在不断演进和优化,因此尚未形成严格的定义。本节内容将从比较基因组学的实际需求出发,围绕多基因组比对的现状与挑战,概述这一领域的研究历史和发展方向。

早期发展

  • 在早期的基因组研究中,由于全基因组测序和组装的成本极为高昂,研究通常聚焦于基因组中的小区域或单个基因。为了比较这些序列间的关系,多序列比对(如 MAFFTT-COFFEE 等方法)成为常用手段。然而,随着数据规模的不断扩大,精确多序列比对的计算复杂度呈三次方增长,逐渐限制了其应用范围。与此同时,高质量基因组组装技术的进步以及高通量测序的普及,推动了重测序技术成为基因组分析的主流方法。

  • 重测序技术是一种基于高通量测序的实用且可扩展的基因组分析方法,通过将读段与参考基因组比对,检测个体或物种基因组中的变异(如 SNP、Indel、结构变异等)。该技术依赖参考基因组作为比对基础,专注于识别样本与参考序列之间的差异,广泛应用于遗传学研究、变异分析和个性化医学等领域。以 minimap2 为代表性的比对方法,能够同时分析成千上万个基因组,其成本远低于从头组装全基因组,仅占测序总成本的一小部分,从而成为大规模基因组研究的核心技术之一。

多基因组比对

  • 尽管重测序技术高效且简单,但是重测序技术存在参考偏差 (reference bias)问题(只有与参考基因组足够相似且能够进行比对的序列,其精确的基因组关系才可见,这种现象被称为参考偏差),其在检测结构变异或参考基因组中缺失的序列时尤为明显。例如人类泛基因组比 GRCh38 大 1% 至 10%,且每个新个体中都有数百万碱基对的序列不存在于参考基因组中。重测序中固有的参考偏差仍将限制研究者将新序列与这些区域关联的能力,因此多基因组比对 (MGA)的的研究成为当今研究的热点。

图 1 (引用自文献2): a. 基因组集合中发生的大规模重排、插入和缺失,线条表示同源片段边界,交叉线表示倒位。 b. 虚线框内区域的锚点(anchors),标记相同的块为潜在同源位点。 c. 合并线性基因组图生成比对图,MGA 的目标是找到共线路径,即基因组按相同顺序遍历的锚点序列。 d. 移除噪声锚点(如 F)简化比对图,生成更长的共线路径,用颜色标记每组路径。 e. 对每条共线路径执行多序列比对,生成最终的基因组比对结果。

  • 由于基因组中存在大规模结构变异,MGA 的首要任务是寻找核心基因组 (即所有基因组中共有的同源片段)。大多数基因组比对软件遵循图 1 所示的流程:首先在多个序列中识别高度相似的区域,利用这些锚点识别局部共线块,随后通过多序列比对对这些块进行精确对齐。

  • 双基因组比对的代表性工具包括 MUMmerLastZ,以其高效性和精确性广泛应用于基因组间比对。

  • 多基因组比对的代表性工具有 ProgressiveMauveMugsyParsnp,这些方法在处理多个基因组的复杂比对任务中表现出色。

多物种基因组比对

图 1 所示的流程和软件通常适用于细菌基因组、同一物种内不同基因组,以及相对相似的跨物种基因组的比对。然而,当研究范围扩展到多个物种时,由于跨染色体易位、染色体分裂与融合等大规模结构变异的存在,比对的复杂性显著增加,难度进一步提升。 尽管已有如 Cactus 这样的工具能够实现跨物种基因组比对,但其受限于时间复杂度,仅能处理少量物种的比对任务。 近期,Progressive Cactus 通过采用渐进式策略和 Cactus图结构,成功比对了 600 个羊膜动物基因组,成为目前该领域的代表性方法。

  • 在前期研究中,主要使用 MAF (Multiple Alignment Format)格式来表示多基因组比对结果。MAF是一种标准化的文本格式,用于存储多序列比对结果。 MAF 格式以块的形式记录基因组比对的同源片段,每个块包括比对的得分、比对的序列名称、起始位置、比对方向、序列长度和比对序列内容。其简单且结构化的设计,使其适合表示多基因组间的相似区域,便于后续的注释、变异分析和可视化操作。

  • 随着 Progressive Cactus 使用 HAL(Hierarchical Alignment Format) 作为输出格式,HAL 逐渐成为多基因组比对领域的主流格式。HAL 是一种层次化的比对格式,用于高效存储多基因组比对结果及其进化关系。 它能够以树状结构组织基因组数据,将比对信息与系统发生关系整合在一起,支持表示基因组间的插入、缺失、倒位和其他复杂变异。相比 MAF 格式,HAL 格式具有更高的存储效率,并支持对比对数据的快速查询和灵活操作,是当前多基因组比对分析的重要工具。

评估标准

  • 评估多基因组比对结果是一项极具挑战的任务。除了通过主观的下游分析进行间接验证外,目前较为客观且可量化的方法是基于模拟数据集,通过与“ground truth”进行对比来进行评估。

  • Alignathon 是一个具有代表性的基准,被广泛用于评估 MGA 工具的性能。该基准通过 Evolver 模拟生成哺乳类和灵长类基因组,并提供多种多基因组比对方法的比对结果及评估指标,长期以来被视为该领域的重要参考标准。然而,随着测序数据规模的迅速增长,Alignathon 的适用性也逐渐显现出一定的局限性。

  • 在获得比对结果并生成 MAF 文件后,可通过特定评估指标对比对质量进行评估。比对中的残基对集合被称为比对关系。评估比对时,工具通常比较两个 MAF 文件 A 和 B,以评估它们的比对关系。对于模拟数据集,A 表示工具生成的预测比对结果,B 则表示模拟的真实结果。 评估步骤是使用mafTools中的mafComparator对A和B进行比较,然后使用comparatorSummarizer.py脚本打印结果。

  1. 精确度定义为 A 和 B 的交集中残基对的数量与 A 中总残基对数量的比值,反映了正确比对的比例;

  2. 召回率则定义为 A 和 B 的交集中残基对的数量与 B 中总残基对数量的比值,表示正确比对的覆盖范围。

  3. 为了提供整体准确性指标,F1 分数通过精确度和召回率的调和平均数进行计算,从而综合反映比对质量。

泛基因组

图 2(引用自文献3): (a) 参考基因组与泛基因组比较:(i) 基于参考的分析通过比较基因组(A–D)与参考基因组(R)进行。(ii) 泛基因组分析直接建立基因组间关系,参考基因组可任意选择。(iii) 新基因组 Δ 在参考分析中通过参考基因组加入。(iv) 在泛基因组中,新基因组与所有基因组直接比较后加入。 (b) 比对能力差异:(i) 某些基因组区域无法与参考比对,无法表示变异。(ii) 泛基因组图模型支持全对全比较,捕获完整的序列关系。 (c) 泛基因组表示:(i) 泛基因组为一组序列集合。(ii) 多序列比对捕获其相互关系。 (d) 图模型的优势:(i) de Bruijn 图是一种高效的序列表示方法,通过将序列分解为固定长度的 k-mers,以无偏的方式构建图结构,表示序列中 k-mers 的重叠关系。(ii) 无环序列图等价于多序列比对。(iii) 通用序列图可紧凑表示结构变异,如通过边连接正反链表示倒位。
  • 泛基因组是一种数据结构,用于表示某个群体、物种或系统发育分支中所有基因组元素的完整集合。与基于参考的基因组方法不同,泛基因组允许新基因组直接与泛基因组中的所有基因组关联,从而减少因参考基因组导致的偏差 (图1 (a))。 构建泛基因组数据结构的方法取决于模型类型。泛基因组可以是简单的序列集合,类似于基因组或宏基因组组装;也可以包含比对信息,压缩为基于参考序列的变异集合。若比对基于 k-mers,可表示为 de Bruijn 图;若为完整的、有缺口的比对,涵盖小变异和大变异,则可视为全基因组比对。 尽管泛基因组理论上可以有多种表示形式,但近年来,大多数研究主要采用图结构来表示泛基因组。

  • 在表示泛基因组时,序列图是一种广泛应用的图结构模型,它通过压缩冗余输入序列构建更小的数据结构,同时仍能代表完整的序列集合。序列图的节点通常标注为序列片段,边则表示这些片段如何在模型中连接。通过遍历序列图中的路径,可以重建构建图的所有原始序列(图2d(ii))。 当序列图表示 DNA 双链及其倒位时,称为双向图 (图2d(iii))。序列图最初用于多序列比对,随后被广泛应用于基因组组装中,例如表示测序读段集合(如字符串图)或固定长度的 k-mers(如 de Bruijn 图)(图2d(i))。 作为序列图的一种扩展,基因组图不仅表示全基因组关系,还支持路径遍历以反映基因组的重组模式。

  • 为了标准化序列图的表示,GFA (Graphical Fragment Assembly)格式 被广泛采用。GFA 是一种用于描述序列节点及其连接关系的标准化文件格式,能够支持重复序列、变异及其他复杂结构的表示,是基因组组装和泛基因组学研究中的重要工具。 除此之外,VG格式 (Variant Graph)作为变异图的一种表示方式,专注于存储复杂变异及其在基因组中的关系,能够高效支持泛基因组的构建、比对和变异分析,是泛基因组研究领域的重要工具。

  • 该领域正处于蓬勃发展阶段,目前已有多种用于构建泛基因组图的算法。其中较具代表性的是 Minigraph-CactusPGGB。Minigraph-Cactus可直接从全基因组比对中生成泛基因组,并成功扩展至处理人类泛基因组参考联盟 (HPRC)的 90 个单倍型。PGGB则通过 all-all 比对(即所有基因组两两之间都进行比对)构建了无偏见的泛基因组变异图。

参考文献

  1. 维基百科-比较基因组学

  2. Kille, Bryce, et al. “Multiple genome alignment in the telomere-to-telomere assembly era.” Genome Biology 23.1 (2022): 182.

  3. Eizenga, Jordan M., et al. “Pangenome graphs.” Annual review of genomics and human genetics 21.1 (2020): 139-162.

  4. Sherman, Rachel M., and Steven L. Salzberg. “Pan-genomics in the human genome era.” Nature Reviews Genetics 21.4 (2020): 243-254.