全基因组选用之模型篇 (全基因组选择有哪些优点)
本文目录导航:
全基因组选用之模型篇
在引见GS模型之前,咱们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM)。
混合线性模型是一种方差重量模型,既然是线性模型,象征着各量之间的相关是线性的,可以运行叠加原理,即几个不同的输入量同时作用于系统的照应,等于几个输入量独自作用的照应之和(公式1)。

𝒚=+=𝒃+𝒃𝒙+𝒃𝒙+⋯+𝒃𝒙+𝒆(公式1)
式中𝒚示意照应变量的测量值向量,为固定效应自变量的设计矩阵,是与对应的固定效应参数向量;𝒃、𝒃、⋯、𝒃是未知参数;𝒙、𝒙、⋯、𝒙是影响各要素的观察值;𝒆是残差。同时须要满足条件: E(y)=Xβ,Var(y)=σI, y 听从正态散布。
既然是混合效应模型,则既含有固定效应,又含有随机效应。
所谓固定效应是指一切或许出现的等级或水平是已知且能观察的,如性别、年龄、种类等。
所谓随机效应是指随机从总体中抽取样本时或许出现的水平,是不确定的,如集体加性效应、母体效应等(公式2)。
=++𝒆 (公式2)
式中为观测值向量;为固定效应向量;为随机效应向量,听从均值向量为0、方差协方差矩阵为G的正态散布;为固定效应的关联矩阵;为随机效应的关联矩阵;𝒆为随机误差向量,其元素不用为独立同散布,即。同时假定 Cov(G,R)=0 ,即G与R间无相关相关,的方差协方差矩阵变为 Var(y)=ZGZ+R 。若不存在,则为固定效应模型。若不存在,则为随机效应模型。
在传统的线性模型中,除线性相关外,照应变量还有正态性、独立性和方差齐性的假定。
混合线性模型既保管了传统线性模型中的正态性假定条件,又对独立性和方差齐性不作要求,从而扩展了实用范围,目前已宽泛运行于基因组选用。
很早以前就无通常上提出了最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的统计方法,但由于计算技术滞后限度了运行。
直到上世纪70年代中期,计算机技术的开展为BLUP在育种中的运行提供了或许。
BLUP结合了最小二乘法的优势,在协方差矩阵已知的状况下,BLUP是剖析动植物育种目的性状现实的方法,其称号含意如下:
在混合线性模型中,BLUP是对随机效应中随机因子的预测,BLUE(Best Linear Unbiased Estimation)则是对固定效应中的固定因子的预算。
在同一个方程组中既能对固定效应启动预计,又能对随机遗传效应启动预测。
BLUP方法最后运行在生物育种上。
传统的生物模型是基于系谱消息构建的亲缘相关矩阵(又称A矩阵)来求解混合模型方程组(Mixed Model Equations,MME)的,因此称之ABLUP。
Henderson提出的MME如下所示:
式中X为固定效应矩阵,Z为随机效应矩阵,Y为观测值矩阵。其中R和G:
其中A为亲缘相关矩阵,因此可转化公式为:
进一步可转化为:
经过求解方程组,计算残差和加性方差的方差组分,即可失掉固定因子效应值(BLUE)和随机因子效应值(BLUP)。
作为传统BLUP方法,ABLUP齐全基于系谱消息来构建亲缘相关矩阵,进而求得育种值,此方法在早期生物育种中运行较多,如今已基本不独自经常使用。
VanRaden于2008年提出了基于G矩阵的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩阵由一切SNP标志构建,公式如下:
GBLUP经过构建基因组相关矩阵G替代基于系谱消息构建的亲缘相关矩阵A,进而直接预算集体育种值。
GBLUP求解环节同传统BLUP方法,仅仅在G矩阵构建不同。
除了VanRaden的基因组相关构建G矩阵外,还有其余G矩阵构建方法,但运行最多的还是VanRaden提出的方法。
如Yang等提出的按权重计算G矩阵:
Goddard等提出的基于系谱A矩阵计算G矩阵:
目前GBLUP曾经宽泛运行于动植物育种中,并且由于它的高效、持重等优势,如今仍饱受青眼。
GBLUP假定一切标志对G矩阵具备相反的效应,而在实践基因组范围中只要大批标志具备主效应,大局部标志效应较小,因此GBLUP仍有很大的改良空间。
在生物育种中,由于各种各样的要素造成少量具备系谱记载和表型消息的集体没有基因型,单步法GBLUP(single-step GBLUP,ssGBLUP)就是处置育种集体中无基因型集体和有基因型集体的基因组育种值预计疑问。
ssGBLUP将传统BLUP和GBLUP结合起来,即把基于系谱消息的亲缘相关矩阵A和基因组相关矩阵G启动整合,建设新的相关矩阵H,到达同时预计有基因型和无基因型集体的育种值。
H矩阵构建方法:
式中w为加权因子,即多基因遗传效应所占比例。
构建H矩阵后,其求解MME环节也是与传统BLUP一样:
ssBLUP由于基因分型集体同时含有系谱记载和表型数据,相关于GBLUP往往具备更高的准确性。
该方法已成为以后生物育种中最罕用的生物模型之一。
在植物育种中,往往缺乏较片面的系谱消息,集体中集体的基因型也容易被测定,因此没有推行开来。
假设把GBLUP中构建协变量的集体亲缘相关矩阵换成SNP标志造成的相关矩阵,构建模型,而后对集体启动预测,这就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思绪。
为什么不直接用最小二乘法?最小二乘法将标志效应假定为 固定效应 ,分段对一切SNP启动回归,而后将每段中清楚的SNP效应相加失掉集体基因组育种值。
该方法只思考了少数清楚SNP的效应,很容易造成多重共线性和过拟合。
RRBLUP是一种改良的最小二乘法,它能预计出一切SNP的效应值。
该方法将标志效应假定为 随机效应 且听从正态散布,应用线性混合模型预算每个标志的效应值,而后将每个标志效应相加即失掉集体预计育种值。
普通而言,基因型数据中标志数目远大于样本数(p>>n)。
RRBLUP由于是以标志为单位启动计算的,其运转期间相比GBLUP更长,准确性相当。
GBLUP是直接法的代表,它把集体作为随机效应,参考集体和预测集体遗传消息构建的亲缘相关矩阵作为方差协方差矩阵,经过迭代法预计方差组分,进而求解混合模型失掉待预测集体的预计育种值。
RRBLUP是直接法的代表,它首先计算每个标志效应值,再对效应值启动累加,进而求得育种值。
下图比拟了两类方法的异同:
直接法预计,直接法预计标志效应之和 M 。
当K=M’M且标志效应g听从独立正态散布(如上图所示)时,两种方法预计的育种值是一样的,即= M 。
基于BLUP通常的基因组选用方法假定一切标志都具备相反的遗传方差,而实践上在全基因组范围内只要少数SNP有效应,且与影响性状的QTL连锁,大少数SNP是有效应的。
当咱们将标志效应的方差假定为某种先验散布时,模型变成了贝叶斯方法。
经常出现的贝叶斯方法也是Meuwissen提进去的(就是提出GS的那团体),关键有BayesA、BayesB、BayesC、Bayesian Lasso等。
BayesA假定每个SNP都有效应且听从正态散布,效应方差听从尺度逆卡方散布。
BayesA方法事前假定了两个与遗传相关的参数,自在度v和尺度参数S。
它将Gibbs抽样引入到马尔科夫链蒙特卡洛通常(MCMC)中来计算标志效应。
BayesB假定少数SNP有效应,且效应方差听从听从逆卡方散布,大少数SNP有效应(合乎全基因组实践状况)。
BayesB方法的标志效应方差的先验散布经常使用混合散布,难以构建标志效应和方差各自的齐全条件后验散布,因此BayesB经常使用Gibbs和MH(Metropolis-Hastings)抽样对标志效应和方差启动联结抽样。
BayesB方法在运算环节中引入一个参数π。
假定标志效应方差为0的概率为π,听从逆卡方散布的概率为1-π,当π为1时,一切SNP都有效应,即和BayesA等价。
当遗传变异受少数具备较大影响的QTL管理时,BayesB方法准确性较高。
BayesB中的参数π是人为设定的,会对结果带来客观影响。
BayesC、BayesCπ、BayesDπ等方法对BayesB启动了优化。
BayesC方法将π作为未知参数,假定其听从U(0,1)的平均散布,并假定有效应的SNP的效应方差不同。
BayesCπ方法在BayesC的基础上假定SNP效应方差相反,并用Gibbs抽样启动求解。
BayesDπ方法对未知参数π和尺度参数S启动计算,假定S的先验散布和后验散布均听从(1,1)散布,可直接从后验散布中启动抽样。
下图较为笼统地说明了不同方法的标志效应方差散布:
Bayesian Lasso(Least absolute shrinkage and selection operator)假定标志效应方差听从指数散布的正态散布,即拉普拉斯(Laplace)散布。
其与BayesA的区别在于标志效应听从的散布不同,BayesA假定标志效应听从正态散布。
Laplace散布可准许极大值或极小值以更大略率出现。
从以上各类贝叶斯方法可看出,贝叶斯方法的重点和难点在于如何对超参的先验散布启动正当的假定。
Bayes模型相比于BLUP方法往往具备更多的待估参数,在提高预测准确度的同时带来了更大的计算量。
MCMC须要数万次的迭代,每一次性迭代须要重估一切标志效应值,该环节延续且无法并行,需消耗少量的计算期间,限度了其在时效性需求较强的动植物育种通常中的运行。
为提高运算速度和准确度,很多学者对Bayes方法中的先验假定和参数启动优化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。
但目前最罕用的Bayes类方法还是上述的几种。
各种模型的预测准确度较大水平的取决于其模型假定能否适宜所预测表型的遗传构建。
普通而言,调参后贝叶斯方法的准确性比BLUP类方法要略高,但运算速度和鲁棒性不如BLUP。
因此,咱们应依据自身需求权衡利害启动正入选用。
除了基于BLUP和Bayes通常的参数求解方法外,基因组选用还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。
机器学习是人工默认的一个分支,其重点是经过将高度灵敏的算法运行于观察到的集体( 标志的数据 )的已知属性( 特色 )和结果来预测未观察到的集体( 未标志的数据 )的结果。
结果可以是延续的,分类的或二元的。
在动植物育种中, 标志的数据 对应于具备基因型和表型的训练集体,而 未标志的数据 对应于测试集体,用于预测的 特色 是SNP基因型。
相比于传统统计方法,机器学习方法具备诸多优势:
支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监视学习方法。
它既可处置分类疑问,又可用于回归剖析。
SVM基于结构危险最小化准则,统筹了模型拟合和训练样本的复杂性,尤其是当咱们对自己的集体数据不够了解时,SVM或许是基因组预测的备选方法。
SVM的基本思维是求解能够正确划分训练数据集并且几何距离最大的分别超平面。
在支持向量回归(Support Vector Regression,SVR)中,通经常常使用近似误差来替代像SVM中那样的最佳分别超平面和支持向量之间的余量。
假定ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。
SVR的目的就是同时最小化阅历危险和权重的平方范数。
也就是说,经过最小化阅历危险来预计超平面。
下图1比拟了SVM中回归(图A)和分类(图B)的差异。
式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,ϕ示意特色空间映射。
当SVM用于预测剖析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的运行能大大简化内积,从而处置维数劫难。
因此,核函数的选用(须要思考训练样本的散布特点)是SVM预测的关键。
目前最罕用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。
其中, RBF具备宽泛的顺应性,能够运行于训练样本(具备适当宽度参数)的任何散布。
虽然有时会造成过拟合疑问,但它仍是经常使用最宽泛的核函数。
集成学习(Ensemble Learning)也是机器学习中最经常出现的算法之一。
它经过一系列学习器启动学习,并经常使用某种规定把各个学习结果启动整合,从而取得比单个学习器更好的效果。
深刻地说,就是一堆弱学习器组分解一个强学习器。
在GS畛域,随机森林(Random Forest,RF)和梯度优化机(Gradient Boosting Machine,GBM)是运行较多的两种集成学习算法。
RF是一种基于决策树的集成方法,也就是蕴含了多个决策树的分类器。
在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。
用于分类时,留意须要事前将集体中集体按表型值的高下启动划分。
RF算法可分为以下几个步骤:
最后,RF会结合分类树或回归树的输入启动预测。
在分类中,经过计算投票数(通经常常使用每个决策树一票)并调配投票数最高的类别来预测未观察到的类别。
在回归中,经过对ntree输入启动求平均。
有两个影响RF模型结果的关键要素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。
构建回归树时,mtry默以为p/3(p是构建树的预测数量),构建分类树时,mtry为[图片上行失败...(image-10f518-27)] ;二是决策树的数量。
很多钻研标明树并非越多越好,而且构树也是十分耗时的。
在GS运行于植物育种中,通常将RF的ntree设置在500-1000之间。
当GBM基于决策树时,就是梯度优化决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是蕴含了多个决策树。
但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果启动投票或便捷计算均值选出最终结果。
而GBDT是基于boosting算法,它经过迭代的每一步构建弱学习器来补偿原模型的缺乏。
GBM经过设置不同的损失函数来处置各类学习义务。
虽然曾经有不少钻研尝试了将多种经典机器学习算法运行于基因组预测中,但优化的准确性依然有限,而且比拟耗时。
在有数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的运行程序及其最优方法和参数是不同的。
相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来运行于基因组预测更好的选用。
传统的机器学习算法如SVM,普通是浅层模型。
而深度学习除了输入和输入层,还含有多个暗藏层,模型结构的深度说明了它名字的含意。
DL的实质是经过构建具备很多暗藏层的机器学习模型和海量的训练数据,来学习更有用的特色,从而最终优化分类或预测的准确性。
DL算法的建模环节可便捷分为以下三步:
在GS畛域,钻研较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。
MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到繁多的输入数据集上。
MLP包括至少一个暗藏层,如下图2中所示,除了一个输入层和一个输入层以外,还包括了4个暗藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后经过激活函数转化,将输入映射到输入端。
CNN是一类蕴含卷积计算且具备深度结构的前馈神经网络,通常具备表征学习才干,能够按其阶级结构对输入消息启动平移不变分类。
CNN的暗藏层中蕴含卷积层(Convolutional layer)、池化层(Pooling layer)和全衔接层(Fully-connected layer)三类,每一类都有不同的配置,比如卷积层的配置关键是对输入数据启动特色提取,池化层对卷积层特色提取后输入的特色图启动特色选用和消息过滤,而全衔接层相似于ANN中的暗藏层,普通位于CNN暗藏层的最末端,并且只向全衔接层传递信号。
CNN结构如下图3所示。
须要留意的是,深度学习不是万能的。
经常使用DL的前提是必定具备足够大和品质好的训练数据集,而且依据GS在动植物方面的钻研标明,一些DL算法和传统的基因组预测方法相比,并没有清楚的优势。
不过有分歧的证据标明, DL算法能更有效地捕捉非线性形式。
因此,DL能够依据不同起源的数据经过集成GS传统模型来启动辅佐育种。
总之,面对未来海量的育种数据,DL的运即将显得越来越关键。
以上是GS中经常出现的预测模型,不同分类形式或许会有所区别。
这里再便捷引见一下上述未提及到但比拟关键的方法,其中一些是上述三类方法的拓展。
再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它经常使用高斯核函数来拟合以下模型:
RKHS模型可驳回贝叶斯框架的Gibbs抽样器,或许混合线性模型来求解。
GBLUP依然是动植物育种中宽泛运行的方法,它假定一切标志都具备相反的效应。
但在实践状况中,任何与目的性状有关的标志用来预计亲缘相关矩阵都会稀释QTL的作用。
很多钻研对其启动改良,关键有几种思绪:
沿用以上的思绪,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因管理的性状,这样基因型相关矩阵的构建仅仅经常使用了与性状关联的标志。
假设要在亲缘相关矩阵中思考集体结构带来的影响,可依据集体遗传相关的相似性将其分组,而后将紧缩后的组别当做协变量,交流掉原来的集体,而组内集体的亲缘相关都是一样的。
因此在构建基因组相关矩阵时,可用组别的遗传效应值来替代集体的值,用集体对应的组来启动预测,这就是cBLUP(Compressed BLUP)。
以上思绪都提到了将已验证和新发现的位点整合到模型中,这些位点从何而来?最经常出现起源自然是全基因组关联剖析(Genome Wide Association Study, GWAS)。
GS和GWAS有着自然的咨询,将GWAS的清楚关联位点思考进GS中,直接的好处是能维持多世代的预测才干,直接的好处是能参与已验证突变的数量。
下图比拟了GWAS辅佐基因组预测的各类方法比拟。
a示意分子标志辅佐选用方法(MAS),只应用了少数几个主效位点;b示意经典GS方法,应用了所有标志,且标志效应相反;c对标志按权重调配;d将清楚关联标志视为固定效应;e将清楚关联标志视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵调配为不同的随机效应。
GWAS辅佐基因组预测的结果会比拟复杂,单纯地思考将关联信号归入模型不必定都能提高准确性,详细体现应该和性状的遗传构建有关。
GS对遗传效应的预计有两种不同的战略。
一是关注预计育种值,将加性效应从父母传递给子代。
而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。
当预计方差组分时,非加性效应通常和随机的环境效应一同被当成噪音处置。
另一种战略同时关注加性和非加性效应,通罕用于杂种优势的探求。
杂交优势普通以为是显性和上位性效应的结果,因此,假设非加性效应很清楚,而你恰恰将它们疏忽了,遗传预计将会发生偏向。
杂种优势应用是植物育种,尤其是水稻、玉米等主粮作物的关键钻研课题。
将非加性遗传效招思考进GS模型启动杂交种预测,也是以后基因组预测在作物育种中钻研的热点之一。
当然,杂种优势效应的组成也是随性状而变动的,不异性状的基因组预测须要与鉴定杂优QTL位点结合起来。由于普通配合力GCA(加性效应的反映)和不凡配合力SCA(非加性效应的反映)或许来自不同遗传效应,所以预测杂交种F应该区分思考GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘相关矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是经常使用非线性模型,如贝叶斯和机器学习方法。据报道,关于加性模型的中低遗传力性状,机器学习和普通统计模型比拟分歧。但在非加性模型中,机器学习方法体现更优。
传统的GS模型往往只针对单个环境中的单个表型性状,疏忽了实践状况中多性状间或多环境间的相互相关。
一些钻研经过对多特性状或多个环境同时启动建模,也能提高基因组预测的准确性。
以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式示意:
多性状选用普通用于性状间共有某种水平的遗传构建,即在遗传上是相关的。
尤其实用于对低遗传力性状(随同高遗传力性状相关)或许难以测量的性状。
农作物的环境条件不如生物容易管理,而且大局部性状都是数量性状,很容易遭到环境影响。
多环境(Multi-environment,ME)实验施展了关键作用,基因型与环境互作(Genotype by E nvironment,G × E)效应也是以后基因组选用关注的焦点。
除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或许基于非线性的机器学习方法。
咱们知道,基因经过转录翻译以及一系列调控后才干最终体如今表型特色上,它只能在必定水平上反映表型事情出现的后劲。
随着多组学技术的开展,整合多组学数据用于基因组预测也是目前GS钻研的一个关键方向。
在植物育种中,除基因组外,转录组学和代谢组学是以后GS钻研相对较多的两个组学。
转录组将基因表白量与性状启动关联预测,代谢组则将调控表型的小分子含量与性状启动关联预测,关于某些特定的性状而言,或许会提高预测才干。
最好的方法是将各个组学的数据独特整合进模型,但这样会大大参与模型的复杂度。
表型测定的准确性直接影响模型的构建。
关于一些复杂性状,单凭肉眼观察记载显然已无法取,而且表型考查费时费劲,老本很高。
因此,高通量表型组也是GS开展的关键方向。
表型的范围十分之广,当集体性状无法便捷测量时,咱们也可驳回多组学数据,如蛋白组、代谢组等数据来替代。
思考到老本效益疑问,多组学技术在动植物育种中仍处于钻研阶段,但代表了未来的运行方向。
sciif是什么
1. SCI中的IF代表影响因子(Impact Factor)。
影响因子是权衡期刊学术关键性的一个目的,它基于特定期间内该期刊宣布的文章被援用的次数来计算。
2. 在数学中,假设一个整数n能够被另一个整数m整除,没缺乏数,咱们称m是n的一个因数(factor)。
这种相关是互逆的,即假设m是n的因数,那么n也是m的倍数(multiple)。
3. 在农业畛域,增产因子(factors for increased yield)是指那些能够提高农作物产量的有益成分。
例如,“蓝色晶典”肥料含有锌、硼、锰、钼、铜和铁等微量元素,这些都是增产因子。
此外,它还含有芸苔素内酯、KT-30细胞决裂素等植物成长调理剂,雷同也是增产因子。
4. “十乐素”肥料关键以氨基酸类物质为关键增产因子,而“壮汉”肥料则蕴含腐植酸类和高钾类物质作为增产因子。
5. 因子剖析(factor analysis)是一种统计方法,它旨在从多个变量中提取出潜在的特性因子。
这一技术最后由心思学家用于钻研在校生的效果,他们发现各科效果之间存在相关性,推测或许是某些潜在的智力因子影响了学习效果。
6. 因子剖析可以协助识别和缩小变量数量,同时测验变量间的相关假定。
经过将实质相反的变量归入一个因子,钻研者可以简化数据集,更有效地启动剖析。
数学统计的疑问?
选规范差,和方差一样,是用来比拟稳固水平的。
文章评论