【育种MBA】 0007 大数据、人工智能和基因组-环境组集成预测驱动的智能育种
2022-09-15
培育高产、优质和多抗的植物新品种是满足人类日益增长的食物需求的最重要途径。植物产量等表型性状是其基因型及其所处环境共同作用的结果。目前育种所采用的基因组预测和选择技术大都是根据个体的基因型来预测表型,很少考虑到个体所处环境中具体环境因子对植物表型的影响,因此这类预测所进行的基因组选择通常是有偏差的或因环境而发生变化。把一个已知的基因型放置在一个已知的外界环境下,我们期待可以更加精准地预测个体的表现。基于这样一种假定,徐云碧博士领衔的国际科学家团队,倡导了大数据和人工智能驱动下的智能育种新策略,把基于基因组预测的常规基因组育种,拓展到同时基于基因组和环境组进行集成预测(integrated genomic-enviromic prediction, iGEP)的智能育种。由于多组学和时空组学信息的引入,形成了与植物育种相关的大数据,必须借助于人工智能进行数据分析、处理和预测,而大数据的获取等许多过程需要智能机器人的参与。基因组-环境组集成预测(iGEP)新策略的提出,彻底改变了过去主要利用基因型和表型进行选择的育种模式,使未来育种能够在基因型(G)-表型(P)-环境型(E)全方位信息支撑下,准确预测特定基因型在特定环境下的表现,实现真正意义上的定向育种、适应气候变化的育种、适应特定环境的育种,从而帮助人类应对气候变化,开展高效育种和选择,培育高产优质多抗新品种,保障人类食物安全。该项智能育种新策略近日以“大数据、人工智能和基因组-环境组集成预测驱动下的智能育种(Smart breeding driven by big data, artificial intelligence and genomic-enviromic prediction)”为题,在线发表在Molecular Plant上(https://www.cell.com/molecular-plant/fulltext/S1674-2052(22)00295-7)。
参与倡导智能育种新策略的国际科学家小组来自中国农业科学院作物科学研究所(钱前和李慧慧)、北京大学现代农业研究院(张兴平)、佛山科学技术学院、上海市农业科学院(郑洪建)、石家庄博瑞迪生物技术股份有限公司(张嘉楠)、国际玉米小麦改良中心(Michael Olson 和B. M Prasanna),以及澳大利亚莫道克大学(Rajeev Varshney)。
新策略背景:大数据与智能育种的兴起
智能育种只是近几年才兴起的一个新兴学科,它伴随着大数据和人工智能而产生。其标准的英文翻译因场景而已。目前所能搜索到的最早关于smart breeding的文章是2013年关于宠物狗的育种(https://www.noblevestaldoodles.com/dog-training-and-breeding)。这篇网络文章在讨论宠物狗对于家庭生活的适应性时,采用了含有smart breeding文字的标题(Smart breeding – increasing your Australian Labradoodle’s chances to a good life)。但其通篇文章里却没有再出现过smart 这个单词。比较正式的使用smart breeding是2014年10月现在绿色和平网站上的两篇文章,在讨论利用分子标记辅助选择来避开”遗传工程“时,采用了“smart breeding”作为标题的一部分,将MAS称为smart conventional breeding(https://www.greenpeace.org)。这其实与我们所说的smart breeding的涵义相去甚远。尽管利用Bing搜索“smart breeding” 可以获得十亿次以上的相关结果,但真正讨论smart breeding的论文十分有限。值得一提的大概要数发表在Plant Breeding: Current and Future Views 一书中的”Smart Breeding for Climate Resilient Agriculture“一章(Bakala et al. 2020)。Smart breeding 通俗地老说,就是让育种过程本身变得更聪明的一些技术,目前还远没有达到智能的程度。因此smart breeding目前是比intelligent breeding之类的名词更为切合实际。
我们从什么时候开始关注大数据和智能育种已经无法考证了。但对于大数据的认识应该始于第一个芯片数据的产生。在利用含有1536个SNP标记的第一代玉米固相芯片对770个玉米材料进行检测之后,突然发现所产生的数据已经无法采用CIMMYT当时购买的电子表格软件进行操作了,因为那时的电子表格只能处理252列以下的数据,第一次感受到了数据之大,一般的电脑应用软件都没法承载了。于是在CIMMYT工作的徐云碧博士第一个向所领导申请要求更新电子表格的版本以便可以操作770列的数据。这件事大概是发生在2007-2008年之间,因为有关1536x770的“大数据”2009年发表在Theor Appl Genet上(Lu et al. 120:93–115),也许是当时公共研究机构发表的带有最大分子标记信息的种质资源数据集。
徐云碧博士从2018年开始应邀在全国性会议或特别场合作有关大数据与智能育种的专题报告。首次报告是2018年4月在河北唐山举办的“第五届全国计算生物学与生物信息学大会”上题为“大数据与人工智能育种”的报告。随后一发不可收拾,两年内在全国各地不同场合做了九场相关的中英文报告(表1)。将具有重要育种应用价值的基因组选择与大数据和人工智能相结合是未来育种研究大势之所趋。
表1 徐云碧博士近年有关大数据和智能育种的专题报告或讲座
新策略背景:环境型、环境型鉴定和环境组学
长期以来,育种中主要利用基因型的信息进行表型预测。由于表型是基因型和环境共同作用的结果,同样的基因型在不同的环境下可能有着完全不同或差别巨大的表型,因此表型预测在确定基因型的同时,还应当考虑基因型所处的所有环境因子及其对表型的影响。2016年,徐云碧博士第一次在世界上完整而系统地提出了环境型鉴定的概念,把对影响植物生长发育的所有环境因子的检测称为环境型鉴定(envirotyping), 并与基因型鉴定(genotyping)和表型鉴定(phenotyping)一起称为统称为三型技术(tri-typing technology)。环境型概念的提出引起国内外的广泛关注,最初发表论文近两年引用量激增,并由此发展了从环境型(envirotype)到环境型鉴定(envirotyping)和环境组学(enviromics)的完整概念体系。著名数量遗传学家Rex Bernardo博士把环境型鉴定与转基因、基因编辑、QTL作图、关联分析、分子标记辅助选择、基因组选择并列作为1990年代以来影响植物育种的七大新概念之一(图1)。
图1 环境型鉴定(envirotyping)的提出及其国内外影响
从2018年开始第一场“大数据与人工智能育种”的专题报告开始,三年后着手起草论文…历时六个月,包括利用整个春节及所有的节假日。初审之后历时三个月全面修改,期间录得读书笔记100页,新增参考文献100篇,文稿增加二十余页,全面讨论新模型下的相关策略(图2)。以下按照论文的章节顺序,依次简要介绍相关内容(后续内容引自Mol Plant 植物科学 “徐云碧博士领衔倡导大数据和人工智能驱动下的智能育种新策略”)。
图2 新策略论文初审后的修改过程中所做的读书笔记
大数据与多维育种信息
在表型选择的条件下,遗传增益的提升取决于可供利用的遗传变异、目标性状的遗传率、选择强度和世代周期。在基因组选择下,遗传率由基因组预测所获得的基因组预测值与真实育种值之间的相关性所代替。预测的准确性受很多因素的影响。传统的基因组预测是通过测定训练群体的基因型和表型来建立预测模型。然后根据育种群体每一个体的基因型,利用预测模型进行表型预测,从而省去常规的表型鉴定和评价。这样可以在任何时间、地点和环境对相关性状作出评价和选择。iGEP的目标就是利用所有可供利用的大数据和人工智能技术来改进预测的准确性。
与育种有关的数据通常是结构化的,可以通过电子表格或普通数据库来进行组织和管理。然而,育种过程中也涉及很多非结构化的数据,比如邮件、社交媒体帖子、网页、语音和影像文献等。未来的智能育种将同时从结构化和非结构化的数据中提取有价值的信息。首先,现代育种面临着多种不同来源大数据的采集、存档和挖掘,同时把育种相关的数据加工成为人工智能和计算机可以利用的格式。数据的加工包括数据清理、集成、转换、降维、离散化和抽样等。这需要结合使用各种大数据技术、云计算,…(图3)。
图3 利用大数据和人工智能进行智能育种的系统总览
结构化的育种大数据主要来自三个方面,简称三型(基因型、表型和环境型)。基因型可以从DNA序列决定的多态性差异(特别是标记基因型)扩展到各种组学水平下的分子基因型。表型数据除了肉眼可见的形态和生理特征外,还包括很多通过分析测定才能获得的各种理化指标以及分子水平差异的分子表型 (图3)。同时,各种表型测定仪器的使用,大大拓展了表型数据的范围。论文重点讨论了环境型鉴定及其数据。这是长期以来被大多数育种项目所忽视的重要数据类型。尽管基因型的鉴定已经发展到了多组学阶段,但环境型鉴定才刚刚开始。环境变量和基因型变量一样,可以根据其可预测性、可重复性和可控性进行分类。大环境(mega-environment)变量主要由维度、精度和海拔高度以及土壤特性等可重复性环境因子决定。我们可以采用分析基因型的方法来分析环境变异及其互作。此外,在不同时空条件下(包括多年多点多时期)进行三型数据的采集,就将三维育种数据扩展到了多维。
多维育种大数据给我们带来了多方面的挑战。一是需要建立行业都能共同采纳的数据采集标准和手册;二是要制造可以延伸人手和感官的信息采集设施;三是如何实现数据采集系统的高通量;四是保证数据的准确性和精度;五是获取和分析个体和群体的数据。将各类数据应用于预测的最大挑战是如何集成不同来源的同一类数据以及将不同类型数据的集成应用于预测。可以通过链接集成、视图集成、数据仓库或数据云的方式进行数据集成,可以在分析前进行串联集成、转换集成和模型集成。卷积 (convolution) 和池化(pooling) 是两种主要的数据集成策略。多组学和时空数据具有高度的异质性和高维性。现有各种数据集成平台和工具可以用于数据提取、数据清洗、数据存储、宏数据管理、数据链接、数据剖析等 (图3)。
三型数据的采集以及为机械化、工程化和设施农业所进行的育种,需要集成人工智能和机器人技术。大数据的整合、分析以及育种预测(包括iGEP)也需要借助于人工智能, 特别是机器学习。人工智能与现代统计分析技术相结合有望帮助我们应对利用高维大数据进行预测时所面临的各种挑战和问题。
基因组-环境组集成预测(iGEP):概念
针对常规的基因组预测存在的限制,提出了将环境组数据用于预测的基因组-环境组集成预测(iGEP)方法。这一方法的广义化,就可以利用多时空下的多组学数据对多个目标性状进行综合预测。根据可供利用的数据,iGEP分为以下五类 (表2):一是跨环境的基因组预测,这就是将常规基因组选择推广到多个环境,因而可以分析基因型X环境互作对基因组选择的贡献和影响。二是集成了环境数据的iGEP,这是最简单的iGEP模型。三是考虑了多组学和环境型数据的iGEP,这时所涉及的基因型信息从一维变成多维。四是考虑多时空下多组学和环境型数据的iGEP,这时有关G和E的信息都成为多维。五是多性状的iGEP,目标性状从单一变量变成一维向量。如果有多时空组学数据可供利用,所有的变量都成为多维,这就成为最为复杂的iGEP预测模型。
表2 集成大数据和人工智能的智能育种预测模型
iGEP涉及到前所未有、错综复杂的大数据,因此面临众多挑战。除了管理海量大数据外,需要采用科学有效的技术和方法进行特征选择和降维处理,包括主成分分析、奇异值分解、谱变换、内核卷积等,也可以通过压缩变量或构建指数变量。随着变量的增多、预测群体的增加,预测模型容易出现过拟合的问题,即构建的模型只适合训练群体本身,而不能进行外延拓展。需要通过增加或累积训练样本、修改假设或改变参数、改变或优化特征、改进算法等来减缓过拟合。当只有少数预测因子包含在模型中而不能很好地代表数据的完整结构时,欠拟合(模型对训练群体本身的预测准确性欠佳)就会发生了。为保持过拟合和欠拟合之间的最佳平衡就要增加和累积训练群体的数据。面对复杂的数据结构,需要将变量之间相关性的度量指标由简单的分子标记拓展到包括代谢和转录等在内的各类组学以及生理生化特性。同时,模型应该尽可多地应用环境信息,特别是宏环境的信息。随着数据的累积和不断优化,就有可能建立最优模型,以充分了解系统生物学内部的互作以及系统与环境之间的互作。
基因组-环境组集成预测(iGEP):实施
用于基因组-环境组集成预测的人工智能模型,可以分为监督学习(采用具有特征,比如基因型和表型的数据进行训练)、非监督学习(采用没有特征,比如非表型鉴定的数据去发现隐藏的模式),以及半监督学习(居于两者之间)。用于iGEP的环境数据,一部分可以针对单个的基因型或家系进行采集,而另一些只能在实验站或试验点水平上针对所有训练或预测群体进行整体评价。同时,机器学习模型也可以根据其所涉参数分为参数模型、非参数模型和半参数模型。文章讨论了与不同模型相关的核技巧(kernel trick)、隐藏层和损失函数(loss function)等。深度学习(作为机器学习的一部分),可以更有效地将多组学和G-P-E数据整合到模型中,通过了解相关性状之间的关系来改进预测,也可以从大数据中提取代表性特征来解释特征之间的互作。多模态深度学习具有自动提取特征、处理高维数据、捕获复杂模式的能力,将在iGEP中发挥重要作用。随着更多数据的累积、计算资源的可用、时空多组学下复杂模式的建立、迁移和强化学习的实施、深度生成模型的开发、模型校正的使用、数据分享和开源育种、以及更多用户友好型软件的开发等,深度学习将在iGEP的应用中超越传统的机器学习方法。文章综述了机器学习,特别是深度学习在基因组预测中的应用并展望了在iGEP中的应用前景。
在预测模型中增加时空组学和环境数据,极大地增加了iGEP的维度和复杂性。时空组学数据的产生只是最近才发生的事情。这些数据的空间和时间挖掘赋予时空组学数据以新的生命。时空模型涉及植物的生长发育、环境的特征分析、iGEP算法的开发等。
考虑到各类环境型变量的复杂性,我们可以借用基因型变量的类似处理方法,其中之一就是利用多种环境型变量构建一个综合指标——环境指数。根据不同环境变量的可预测性、可重复性和可控性,构建一个与经典选择指数类似的环境指数,并以此作为一个新的变量参与模型的构建和预测。支持向量机作为一种监督学习方法,可以用于环境分类和环境指数的构建。环境指数以及有关的环境变量可以用于GxExM和GIS–GEI的研究, 而环境核(enviromic kernel)构建后可用于捕获主环境因素(macro-environment)之间的相关性。
植物育种数据包含复杂的因子和多层时空结构。如果考虑多性状和多环境,遗传率较低的性状可以通过与之相关的遗传率较高的性状、特别是遗传率较高的次级性状来显著增加其可预测性。多环境下的性状相关也可以起到类似的作用。贝叶斯多性状多环境模型和随机森林模型可以用于捕获性状和年际间的相关从而提高预测准确性。iGEP中的多层性代表了不同类型的G-P-E,比如来自天气、气候、土壤、冠层、农艺措施和伴生生物的不同层次的环境数据。多层感知机中的输入层接受输入信号,输出层进行分类和预测。因为包含了一层以上的隐藏层,深度学习成为传统的人工神经网络模型,因而可以更好地捕捉各种复杂互作、各种非线性和非加性效应。如何选择一个合适的超参数开始学习过程,是深度学习成功与否的关键。因此要对网络拓扑、激活函数、隐藏层数、每一层的神经元数量、学习速率等进行超参数调优,这无疑是计算密集性的。随着G-P-E数据的累积,超参数调优就会更加高效。正则化(压抑疗法)常用来防止过拟合并改进模型的泛化性。可以通过损失函数的最小化或丢弃法(dropout,即对于网络的每一层,随机的丢弃一些单元)来实现正则化。
基于预测的作物重新设计与智能育种
遗传学、基因组学和分子生物学的发展极大地加快了功能基因、代谢途径和分子网络的发现。多组学信息正在推动植物育种从基于选择的项目育种走向基于预测的重新设计育种,通过创造和利用遗传变异来改进遗传增益。利用iGEP进行智能育种可以提高选择效率、加速育种进程、从头驯化培育新作物、合成生物学设计理想作物类型。其主要策略包括代谢途径驱动的育种、从头驯化和合成生物学(表3)。虽然这些很少需要统计模型的介入,但有关基因、代谢途径和代谢网络的信息可以转化成为新一维的基因型数据,并集成到预测模型中。
表3 微观和宏观水平下的作物重新设计策略
在微观水平上,作物重新设计育种可以在基因、代谢和网络水平上进行。水稻作为模式作物已经克隆和分析了大量的功能基因,因而可以针对最佳等位基因、等位基因组合、有利单倍型等进行鉴别、模拟、编辑、设计之后用于分子标记辅助选择和预测。在微观水平上,代谢途径可以通过取代、修饰或改良进行重新设计,例如通过将C4代谢途径引入水稻、增加光合效率的C4水稻,将抗旱节水的代谢途径引入水稻可能引发“蓝色革命”的节水抗旱稻。网络水平上的调节可以通过测定mRNA合成、稳定性和衰变,蛋白质翻译、活性、亲和性和衰变等方面的变化来检测。网络模型中影响性节点的基因组变异会对网络集线、拓扑结构和聚类等网络性质产生干扰,并成为性状变异的来源。控制农艺性状的基因、代谢途径和网络可以构成相对独立的模块,以分别控制产量、品质和抗病性等。以此为基础的分子模块育种在水稻上取得了显著的进展。未来微观水平上的作物重新设计育种需要集成多层信息,在系统水平上预测作物网络的表现及其在变化环境下的动力学。最近提出的网络重新布线(network rewiring)设想就是基于网络节点和边缘连接、单个节点拓扑属性、子网络属性、全局拓扑属性等的变化。
宏观水平的作物重新设计育种可以在个体、群体和物种水平进行。个体水平的设计可以追溯到早期对产量做出了重要贡献的小麦、水稻和玉米的理想株型育种。这类设计同时改变和优化了个体和群体的结构。而物种水平的重新设计将彻底重塑使之适应完全不同的生态环境或生产方式。两个典型的例子就是多年生水稻和自花受粉的二倍体马铃薯。前者通过培育带有宿根再生特性、可以多年连续收割的水稻而减少劳作和保护环境,后者通过彻底改变繁殖方式以求实现育种和种子繁殖的革命性变化。这类变革都是在基因组学等现代生物技术的推动下才能实现,例如利用染色体水平和单倍型分辨率下的基因组组装来重新构建栽培马铃薯的单倍型。
根据广义的合成生物学概念,通过生物合成获得比原生代谢途径更为有效的代谢途径。烟草和水稻中报道了通过改变代谢途径而显著提高光合效率的例子。希望通过合成修饰改变非豆科植物的固氮能力也取得了一定的进展。此外,关键驯化基因的发现表明从头驯化可能作为作物重新设计的有效途径之一。通过选择特定器官、从头驯化不同倍性的野生种、亚种的异源多倍体化或从近缘物种渐渗新的等位基因等,可以形成新的物种。野生物种也可以通过再驯化培育改良的栽培品种,以适应气候变化和环境胁迫。此外,克服转基因和基因编辑的遗传转化过程中对于基因型的依赖性,将会拓展这两种方法在再驯化中的应用。
利用智能育种提升遗传增益
文章的最后部分展望了如何利用智能育种提升植物改良中所能获得的遗传增益。这就需要集成和利用各种资源,包括大数据、人工智能以及iGEP在内的各种创新育种技术和方法(图4)。首先,植物育种长期以来被认为是一种艺术+科学,未来需要将其转变为更多数据驱动的科学。这种转变具有四个显著特征:特定的目标设计、预测后的选择、流水线驱动、站在“巨人”肩膀(优良的底盘品种)上的逐步改良。建立在多年多点时空数据下的预测模型,有理由超越任何单一环境下的精准到极致的肉眼选择,因为新育成品种的表现最终要靠多年多点的平均表现来决定。现代育种、特别是跨国种业公司的育种都依赖于将育种家、技术人员、平台、设施、实验站以及多环境测试集成在一起的流水线。智能育种就是要在大数据、人工智能和iGEP的驱动下,将物联网与智能设施和作物管理集成起来(图4)。
图4 通过大数据、人工智能和iGEP创新育种技术和方法提升遗传增益
未来希望能够与iGEP集成的育种技术和方法,除了最基本的三型(基因型、表型和环境型)鉴定技术外,还包括可以对作物进行重新设计的设计育种(CD)技术、转移外源基因的转基因(TG)技术、可以对基因实施各种编辑的基因编辑(GE)技术,可以提高育种中选择效率的分子标记辅助选择(MAS)和基因组选择(GS)技术,可以用于加快育种材料纯合进度的双单倍体(DH)技术,可以用于加快植物生长发育的快速育种(SP)技术。这些技术可以集成到育种流程中的不同育种阶段,可以分别或同时使用。
除了大型跨国种业公司外,一般中小育种公司或公共育种单位难以建立独立且完整的智能育种流水线。大型跨国公司由于规模大,涉及作物众多、生态区域广泛、育种需求巨大,可以系统地构建智能育种所需的各种设施和平台,并高效运转,同时降低运行和使用成本,形成巨大的成本优势。同时因为大量的经验和技术累积,可以使系统随育种流程不断优化。就iGEP而言,训练群体的大量累积和优化,为预测模型的不断优化和重组创造了无以比拟的优势。这远远超过利用单一训练群体进行预测所能获得的效果。同时,其育种总是在最优底盘品种的基础上综合采用各种技术不断改进,水涨船高,一步一个脚印地获得新的遗传增益,远超仅仅基于一般品种和单一技术的遗传改良。因此,我们建议在中小公司和公共育种单位,通过资源(包括平台、技术、设施、群体、数据、模型、甚至育种材料)共享,实现资源利用和育种效率的最大化。目前国际和国内都构建了与育种有关的各种共享和服务平台,为充分利用服务平台和开源育种创造了条件。我们期待,在开源育种和服务平台的支持下,能有效地开展智能育种,并可以大大缩小中小公司、公共育种单位与国际跨国种业企业之间的差距。
与智能育种相关的研究得到国家重点研发计划 (2016YFD0101803)、中国农业科学院作物科学研究所中央非公益类基础研究项目(Y2020PT20)、中国农业科学院科技创新项目(CAAS-XTCX2016009)、石家庄市科技孵育计划(191540089A)、河北省创新能力提升计划项目(19962911D)、海南崖州湾种子实验室项目(B21HJ0223)、宁夏科学技术厅项目(NXNYYZ202001). 比尔盖茨基金会和CGIAR MAIZE项目的支持。作者感谢美国依阿华州立大学余建明博士、北京大学现代农业研究院邓兴旺博士、中国农业科学院作物科学研究所张红伟博士以及三名匿名审稿人对论文提出的宝贵建议和评论。
【育种MBA】公众号迄今已经发表的与育种有关的系列论文:
【育种MBA】0001 植物育种家的成功秘诀
https://mp.weixin.qq.com/s/jf1dLuwbPG1CAMVrOopVmQ
【育种MBA】0002 从遗传率的定义看育种中的环境控制及其重要性
https://mp.weixin.qq.com/s/SyAcyYKDtj1mwqLiXyBriA
【育种MBA】0003 植物快速育种及其对人类睡眠健康的启示
https://mp.weixin.qq.com/s/tecST73ggoWkm2VV_PB9BQ
【育种MBA】0004 稻农一席谈:作物生产的规模化和机械化与育种
https://mp.weixin.qq.com/s/j3PnJu8nEltD0nh15eapcA
【育种MBA】0005 三位同时代的植物育种家:庄巧生、布劳格和阿拉德
https://mp.weixin.qq.com/s/RkHrf8zr3n_qpoSksutBqg
【育种MBA】0006 十种人类驯化培育前后模样截然不同的果蔬:第一名 西瓜