宋宝兴课题组发表植物基因组序列比对方法综述论文
2023-09-26
宋宝兴课题组在Trends in Plant Science期刊发表了题为New whole-genome alignment tools are needed for tapping into plant diversity的综述文章。文章系统总结了数十年来基因组比对软件的算法;根据植物基因组的特点首次提出了全基因组复制(whole-genome duplication aware)比对方法的概念;阐述了多等位基因的普遍性和重要性;展望了未来植物群体规模从头基因组拼装时代,物种内和物种间进行基因组比对以及数量遗传学、群体遗传学分析面临的技术挑战和发展方向。
随着测序和组装技术的快速提升,全基因组拼装开始逐渐走向了群体规模。深度挖掘基因组数据中蕴含的遗传变异规律进而揭示物种的遗传特性、进化历程、生态适应性等物种特性的研究逐渐展开。全基因组比对作为基因组序列分析最主要的技术之一,其在群体及数量遗传学研究,基因组进化,系统发育关系,功能序列的识别等方面扮演重要角色,可以帮助人们深入理解序列之间的进化关系、功能差异。 Needleman-Wunsch algorithm(NWA)和Smith-Waterman algorithm(SWA)诞生于上世纪八九十年代,但计算耗时长、内存消耗大。Banded Smith-Waterman algorithm优化了NWA及SWA处理时间长及内存消耗大的问题,但它可能产生非最优比对结果。而Hirschberg算法可以将经典算法的内存消耗降低一个数量级。得益于近些年CPU技术的进步,动态规划算法结合单指令多数据(SIMD)指令集可使比对时间缩短十倍以上。2020年发表的wavefront 算法的内存消耗与输入序列的长度不直接相关,而是与输入序列间的不相似性联系,因而使其可以比对更长的序列。 即使对每一对同源染色体的全局比对在计算消耗方面具有了可行性,但动态规划算法产生的比对具有固定的顺序和方向,使其无法识别倒位或易位等基因组重排变异。此外,当物种发生过全基因组复制时,物种间基因组某些序列的对应关系也不是一对一的。
seed-and-extend方法可以高效的进行大规模的序列比对,该策略通过使用共有的k-mers或者共线性的k-mers作为seed向两侧延伸,产生一个近似的最优比对。该思想已经被广泛应用到包括全基因组比对的多种序列比对问题,但其对于具有高度序列多样性以及大量重复元件的基因组的比对效果不好。
另外一个策略是利用系统发育关系近的基因组的大规模共线性特性。包括共线性图谱构建,以及使用全局比对算法对每一个共线性区块进行单碱基分辨率的序列比对结果两个步骤。这些方法在长indel比对方面表现良好,具有较高的灵敏度。凭借着最新全局序列比对算法计算效率的提升,minimap2和AnchorWave采用了该策略。在具有相同核型的个体之间,对每条同源染色体分别进行两两全基因组比对能提高比对速度及特异性,但其对易位到另外一个染色体的序列不会进行比对。AnchorWave通过对每一对同源染色体进行一个端到端的比对,将染色体内或染色体之间的易位当作供体上的缺失及受体上的插入,将拷贝数变异比对为indel。
一般的全基因组比对是在两个物种之间进行,但是许多进化推断是基于多个物种样本进行的。多序列比对是多基因组比对的起点,经常被用于系统发育及进化分析。多序列比对通常使用全长输入序列进行比对,这类似于全局比对,其除了结合一系列成对的序列比对外还需要额外的步骤。尤其在研究多个个体间的变异类型及保守序列时,可以用来对多个个体之间的插入和缺失进行归一化。基于动态规划算法的多序列比对由于过长的处理时间及过高的内存消耗而不具有可行性,而基于渐进式算法的MAFFT、MUSCLE、 CLUSTAL、T-coffee等可以实现近似全局最优比对。这些多序列比对方法有解决基因组重排(rearrangement)无法识别的附加功能,而且已经被扩展到基因组尺度。ROAST从成对的比对输出结果渐进地构建多物种比对,Cactus也是采用渐进性的比对策略。Cactus在植物中的应用还需要解决基因组序列多样性高和多倍体的问题。
现有的大多数基因组序列比对软件是针对人类等哺乳动物基因组的特点进行开发和优化的,植物基因组的序列多态性给植物基因组比对软件提出了更高的要求。很多亲缘关系较近植物之间存在全基因组复制和染色体重新排列组合等差异;植物的序列差异性更高,基因组中很多保守的重要功能元件较短,使用k-mer的启发式算法会丢失掉这部分序列;多个拷贝的转座子和其他机制形成的重复序列会引起很多假阳性的比对结果;转座子的跳跃和衰减会产生50bp到几千bp长度的插入和缺失。
植物基因组染色质组织方式与哺乳动物不同,顺式作用元件不一定调节与其临近的基因,多个相邻的基因可能受到共同的调节。共表达基因可能具有功能的联系,因此在比对过程中识别染色体间共线性区块极度必要 。目前,AnchorWave以及NGSEP 4 使用了该策略。 与动物相比,许多植物在进化历程中发生过多倍体化,但目前许多软件仅简单假设序列间一对一同源,在一个基因组中的某段序列只比对到另一个基因组中的一个序列。检测基因组间非共享全基因组复制(unshared WGD),一种简单的做法是将两个基因组中的基因进行比对,并绘制共线性点图。有些植物多倍体化之后,又发生了二倍体化过程,具有较少保守共线性序列,一般通过计算基因组间成对基因的每个位点的同义替换分布来鉴别古老的全基因组复制事件。quota-alignment,MCScan-X,CoGeuse使用编码基因作为锚点识别基因组、亚基因组间的共线性区块。AnchorWave改进了该思想,其可以产生碱基水平的全基因组比对结果。 渐进式全基因组比对使用系统发育树引导比对,但亚基因组间的亲缘关系会因染色体序列的重排而不同,GENESPACE, CoGe, POInT, SubPhaser这些新开发的方法可以用来区分亚基因组。但到目前为止,还没有方法自动执行这些复杂的分析过程。 DNA聚合酶的错误以及损伤修复不完善导致短indel产生,TE以及非等位基因的同源重组导致长indel产生。植物中的TE活性高、进化快,产生了较多长indel。可以通过识别全基因序列比对结果中不发生序列比对的位置来识别长indel。SyRI、 Assemblytics 和其他自定义流程,通过考虑沿着一条序列的每一对连续的比对、这些比对的间隔和方向来识别indel,但是识别的indel最大长度不超过10kbp。minimap2和AnchorWave通过采用2-piece affine gap 得分的全局比对算法直接产生长indel的比对,识别不同的变异类型。在当前的动态规划算法框架下,每一个增加的gap cost piece 都会增加计算时间,需要相比对现有的动态规划算法更高效的计算方法来进一步增加长indel的比对效果。 先前一些研究表明玉米不同品系之间的核苷酸多样性大于人和黑猩猩。与哺乳动物相比植物保守的非编码序列(CNS)更加多样,可能在基因表达调控上起重要作用。植物中的超保守元件相对较少,其保守非编码序列一般短于动物。比对参数,核苷酸替换得分,空位罚分对比对结果有重大影响。除了简单的匹配与否的得分,HOSD,BISR 得分矩阵提供了信息化选项可以用来提高比对的敏感性和特异性。植物不同区域有不同的多样性,比如基因内SNP少 ,基因间SNP多。如何对基因组不同区域自动精确有效的优化得分参数还需要继续探索。 多等位变异在植物中普遍存在,由于植物中的普遍存在indel和结构变异,SNPs出现的位置经常和这些变异位置重叠因而形成多等位变异。
使用短读法对植物群体分型时,经常把多等位变异简化为二等位变异。在植物群体中,不同长度的indel、倒位、易位经常会发生重叠。转座子插入到了先前已经存在的转座子中,即嵌套转座子。这些嵌套的SNP及indel变异与非嵌套相比很可能具有不同的功能。考虑到长indel和倒位会影响基因组的很大一部分序列,因而这种嵌套变异在植物中很普遍。无参考全基因组比对及图形基因组可能是利用多等位基因的一个解决方案。应用于植物的全基因组比对工具需要处理全基因组复制及其伴随的染色体融合,高度序列多样性,高度转座子活性等植物序列特性。使用单一线性的的参考基因型很难去识别多等位基因变异。
图形基因组对等位基因变异的描述,有利于促进我们离将表型和基因型进行更精准的关联。图模型被广泛应用到全基因组多比对,图形基因组可以明确提供序列之间的差异及相似性,从而可以可视化比对结果。其对于群体规模的全基因组比对越来越重要。最近十年,物种内图形泛基因组已经被构建,并作为一个群体规模短读比对的图形参考。随着基因组测序价格的进一步下降,有望在未来取代现有的短读长全基因组重测序技术,图形参考基因组期望在不久的将来会被更加普遍使用。
相关论文信息:https://www.sciencedirect.com/science/article/pii/S1360138523002753