Plant Communications|郭立团队破译生菜完整基因组揭示着丝粒结构和表观遗传特征
生菜(Lactuca sativa L.)属于菊科莴苣属一年生植物,常用于鲜切蔬菜,也是沙拉中最受欢迎的配料之一,其营养丰富,口感清脆,深受消费者喜爱。生菜富含维生素、矿物质、多酚和类胡萝卜素,对健康有诸多益处。2021年,生菜的全球总产值达到166亿美元,其中中国、美国和西欧为主要生产国。然而,栽培生菜长期驯化导致其遗传多样性狭窄,因而容易受到各种非生物和生物胁迫的影响。因此,生菜分子育种主要以提高产量、品质和抗病虫为目标,并很大程度上依赖于丰富的遗传和基因组资源,如分子标记和参考基因组等。2017年美国加州大学Davis分校Michelmore团队发表了第一个生菜品种Salinas基因组,并在2022年发布了改进后的生菜参考基因组v11。2023年北京农林科学院组装了莴苣(茎用生菜)(L. sativa var. Augustana)的基因组。尽管这些组装极大地促进了生菜/莴苣遗传学研究,但它们仍然高度碎片化且不完整,包含了数百个缺口,并未报道重要区域如着丝粒、核糖体DNA和端粒序列,从而给生菜功能基因组研究、基因克隆和分子设计育种留下了瓶颈。
2024年6月26日,北京大学现代农业研究院郭立研究员领导的研究团队在国际著名植物学期刊《Plant Communications》在线发表了题为“The complete telomere-to-telomere genome assembly of lettuce”的研究论文。该论文首次公布了生菜(2n=18)2.59Gb的端粒到端粒(telomere-to-telomere,T2T)完整无缺口基因组序列,揭示了高度复杂的生菜基因组结构特征以及着丝粒的重复序列特征,首次揭示了生菜三维基因组构象和表观遗传特征,为理解高等植物基因组复杂性提供了重要洞见。此外,本研究系统预测了生菜NLR(Nucleotide-binding site leucine-rich repeat)家族抗病基因并分析它们在灰霉病侵染中的表达模式,为生菜抗病机制研究提供了新的线索。本研究利用一个高度纯和的罗马生菜(Romaine)品种PKU06,总共生成了112.4x覆盖度的PacBio-HiFi 测序数据和42.9x的超长纳米孔测序(ONT)数据序列,以及染色质构象捕获测序(Hi-C)数据,用于组装生菜完整基因组。经过HiFi和ONT数据的初步组装和Hi-C数据挂载后,基因组中仅剩两个Gap。通过抓取原始ONT 超长读长数据填补剩余的两个Gap,再经过对核仁组织区域(NOR)序列组装,以及全基因组序列的抛光,本研究最终获得了全部九条染色体的完整组装。最终的基因组大小为2.59 Gb,Contig N50为320.7Mb,并填补了Salinas版本中的384个gap(大部分为重复序列和着丝粒序列),显著的提升了生菜基因组组装质量。组装质量检验表明生菜T2T基因组的QV值为58,表明改组装具有很高的碱基正确率。本研究注释了生菜基因组中大量的重复元件(占总基因组的81.4%,主要为转座子),并基于全长转录组预测了45507个蛋白质编码基因,并进行了功能注释。本研究进一步通过全基因组预测发现生菜基因组编码514个抗病相关的NLR基因家族的成员,其中有4个NLR基因位于新组装的序列中。此外,转录组分析发现58个NLR基因在灰霉菌侵染中显著上调表达,其中包括36个编码TIR-NB-ARC(-LRR)结构域的基因,表明这类NLR基因具有潜在重要的抗病功能,有待将来的进一步研究。三维基因组结构是影响植物基因表达和功能的重要因素。本研究利用高覆盖度的Hi-C数据首次对生菜基因组三维结构进行了研究和空间构象建模,描绘了生菜染色体的三维折叠构象。进一步分析发现,生菜基因组存在明显的TAD结构和A/B 区室。有趣的是,A/B 区室间切换频率较低,且着丝粒大多位于B 区室,这可能与其异染色质特性有关。此外,A 区室具有较高的基因密度和较低的转座元件密度,而B 区室则富集有H3K9me2等异染色质标记。组蛋白修饰的ChIP-seq分析表明,标记基因转录激活和抑制的H3K4me3和H3K27me3富集于A 区室,而B 区室则富集了H3K9me2等异染色质标记。这些结果表明,生菜三维基因组结构与已知的大多数植物三维基因组结构相近,但也存在显著的独特性。着丝粒是基因组重要的功能区域,关系到细胞分裂中染色体能否正确分离。因此,着丝粒及其特异结合组蛋白CENH3的研究对于理解基因组进化和开展单倍体诱变育种、基因组合成工程具有重要意义。为了鉴定生菜完整基因组中的着丝粒序列,本研究利用CENH3抗体进行ChIP-seq实验并分析了CENH3结合序列,确定了生菜基因组的着丝粒区域,着丝粒平均长度为3.425 Mb。生菜着丝粒的重复序列十分复杂,由Gypsy(56.6%)、Copia(13.1%)和卫星DNA(16.3%)混合组成。生菜着丝粒存在明显的高阶重复结构,主要由卫星DNA中的62bp单体和一些其他短重复序列构成。着丝粒Gypsy序列主要来源于Tekay,Angela和CRM亚家族成员,其中CRM序列在着丝粒中存在特异的快速扩张和进化,与非着丝粒区域重复序列有显著差异。ChIP-seq信号富集分析发现,CENH3主要倾向结合在着丝粒Gypsy和卫星DNA上,表明这两类重复序列在着丝粒功能中的重要作用。综上所述,本研究首次破译了生菜的完整基因组序列,并描绘了其三维基因组结构、着丝粒复杂的结构特征和表观遗传景观,为加快生菜的研究和遗传改良提供了重要的资源。
图1. 生菜完整基因组揭示着丝粒结构、表观遗传学和NLR 抗病基因景观
北京大学现代农业研究院与山东农业大学联合培养研究生王可、北京大学现代农业研究院助理研究员金京运和科研助理王靖萱为论文共同第一作者,北京大学现代农业研究院郭立研究员为通讯作者。该研究得到了北京大学现代农业研究院单分子测序平台、高性能计算中心的技术支持,以及山东省重点研发计划、山东省自然科学基金杰青项目以及山东省泰山学者等项目的资助。
原文链接:https://doi.org/10.1016/j.xplc.2024.101011