生物信息学原理 |
您所在的位置:网站首页 › 基因遗传的原理 › 生物信息学原理 |
彬彬 binbin 读完需要 16分钟速读仅需 6 分钟 / 基因定位和全基因组关联分析 / 1 重点 复习和掌握遗传学基本概念 (见备注) 为何需要分子标记(Molecular Marker)? QTL (Quantitative Trait Locus) 及其定位原理、常用方法、实验流程 遗传率(Heritability)大小与 QTL/GWAS 定位基因什么关系? LOD 值 (Logarithm of the odds score) 及如何确定其阈值? 全基因组关联分析 (Genome-wide association study, GWAS) 的原理及优缺点 、实验流程 什么是连锁不平衡 (Linkage Disequilibrium) ?会造成什么问题?为什么? 群体结构及其影响什么是混合线性模型? 为何 GWAS 要用混合线性模型? 亲缘关系 (Kinship) 矩阵及其作用 曼哈顿图 (Manhattan) 和 QQ-Plot 基因型填补(Imputation)的概念 哪些因素决定全基因组关联分析和 QTL 定位的精度? 2 遗传学基本概念回顾: (1)数量性状:在一个群体内表现为连续变异的性状,相对性状间没有质的差异。 质量性状:在一个群体内表现不连续变异的性状,相对性状间有质的差异。 (2)多基因假说: ①数量性状受一系列微效多基因的支配,其遗传仍符合基本遗传规律。 ②多基因之间通常不存在显隐性关系,表现为增效和减效作用;因此,F1 代大多表现两个亲本的中间类型。 ③多基因的效应相等,而且彼此间的作用可以累加 (additive),后代的分离表现为连续变异。 ④所有基因独立遗传。 ⑤多基因对外界环境的变化比较敏感。 (3)分子标记:是以个体间遗传物质核苷酸序列变异为基础的遗传标记 以 Southern 杂交为核心的一代分子标记 以 PCR 为核心的二代分子标记 以 SNP 为核心的三代分子标记 竞争性等位基因特异性 PCR :基于引物未端碱基的特异匹配来对 SNP 进行分型。适用于检测大量样本的少量标记。 基因组重测序: 指对已有参考基因组序列的物种进行个体的全基因组测序。可以获得全基因组的序列变异。 转录组测序: 对细胞的 mRNA 等进行建库后,用高通量测序技术进行测序。可获得基因区的序列变异。 GBS: Genotyping by Sequencing,一种简化基因组测序的方法,只测酶切位点附近的序列。 (3)遗传率:遗传变异在总变异中所占的比值,反映了通过表型预测基因型的可靠程度。遗传率是个统计概率,用于群体而不是用于个体。 遗传率反映了通过表型值预测基因型值的可靠程度,表明了亲代变异传递到子代的能力;也是考查亲代与子代相似程度的指标,作为对杂种后代性状选择的依据。 (4)连锁作图:根据基因间的重组值确定基因在染色体上的相对位置的过程。 重组率的概念、计算方法:重组型的配子百分数称为重组率。 遗传图:某一物种的染色体图谱,显示所知的基因或遗传标记的相对位置。 物理图:DNA 中一些可识别的界标在 DNA 上的物理位置。 图距单位及其意义:遗传图距即标记间的距离,单位为 cM。1 cM 表示两个基因间的重组率为 1%。 (6)纯系学说: 纯系:一个基因型纯合个体自交产生的后代,其后代群体的基因型也是纯合的。 纯系内个体的差异是由环境引起的,也就是非遗传变异引起的,选择无效。纯系内个体的差异是基因型的不同,也就是遗传变异造成,选择有效。 纯系的纯是相对的、暂时的,绝对的纯系是不存在的 3 QTL QTL(quantitative trait locus):代表染色体上影响数量性状的某个区段,区段内可能会有一个甚至多个影响数量性状的功能基因 QTL 定位(Quantitative trait loci):指检查分子标记与 QTL 间的连锁关系,并估算 QTL 的表型效应;其本质是利用功能基因与分子标记间的连锁与重组,实现对功能基因位置的定位(目的) QTL 的定位基本原理:当标记与控制特定性状基因连锁时,不同标记基因型的表型值存在显著差异,通过分析表型与标记间的相关性,就可以确定控制数量性状的基因在染色体上的位置及效应。QTL 本质就是利用功能基因与分子标记间的连锁与重组,实现对功能基因位置的定位。 4 QTL 定位基本步骤 ①分离世代群体建立,②遗传标记检测,③表型测定,④统计分析,⑤候选基因鉴定。 1.构建合适的作图群体 ①亲本的选择:稳定的表型差异;序列变异密度及分布有讲究;注意育性和偏分离的问题; ②群体大小:初定位和精细定位的要求不同;平衡工作量和目标、成本; ③分离群体的类型:表型重复性;QTL 显隐性;QTL 定位的阶段 2.获得基因型图谱/构建遗传连锁图 对作图群体中的每个个体或家系进行分子标记的检测,记录其基因型数据,然后根据连锁分析和重组频率,构建分子标记的遗传图谱,确定各标记的顺序和距离。 Bin map:当标记密度很高时,完全连锁的标记形成共分离区段——“bin” 3.获取表型数据 在多个环境和年份下,对作图群体中的每个个体或家系进行表型观测,记录其数量性状的表现值,然后进行数据的质量控制和统计分析,计算各个环境下的表型均值和方差等。准确的表型数据,是 QTL 准确定位的基础。 4.QTL 的初步定位 利用基因型图谱或分子标记图谱和表型数据进行连锁分析。 5.QTL 的精细定位和候选基因鉴定 对初步定位的 QTL,利用近等基因系、重组自交系或重组体系等方法,增加目标区域的重组频率,缩小 QTL 的定位区间,然后利用高通量测序、基因芯片或质谱等技术,对目标区域进行功能基因组学分析,如 eQTL、meQTL、caQTL、bQTL 或 pQTL 等,筛选出候选基因,并进行功能验证和机制解析。 6.遗传图谱的同线性分析 对不同物种或品种的遗传图谱进行可视化和比较,分析其同源性和同线性,发现共同的 QTL 或基因,探索其进化关系和遗传多样性。 5 QTL 定位原理 5.1 QTL 定位的常用统计方法: ①单标记分析:方差分析(F 检验)、t 检验、线性回归 ②区间作图法(Interval mapping,IM) 在线性模型的基础上,利用最大似然法对相邻标记构成的区间内任意一点可能存在的 QTL 进行似然比检验,进而获得其效应的极大似然估计 ③复合区间作图法(composite Interval mapping,CIM): 使用逐步回归,将其他与表型关联的 QTL 作为协变量控制背景遗传效应 5.2 LOD 值及 LOD 置信区间 标记与 QTL 的重组率 r:QTL 效应=a,则标记效应=(1-2r)a LOD 值 logarithm of the odds score,LOD=log10(L1/L0),其中 L1 是这个位点有 QTL 的概率,L0 是这个位点无 QTL 的概率。如果 LOD=3,则意味着这个位点有 QLT 的概率是无 QTL 的概率的 1000 倍。这个和 p value 的概念略有不同。P value 是这个位点不存在 QTL 的概率。 LOD 图中,峰值所在的区域一般表示该区域对应的标记与控制目标性状的遗传位点连锁。 LOD 置信区间 QTL 定位的结果是 1 个 LOD 值在染色体上变化的波形图(如下图),QTL 区域的 LOD 值会形成一个信号峰。功能基因理论上就位于信号最强(LOD 值最大)的峰尖附近。但功能基因通常只是位于这个区间内,而不是必然位于峰尖。离峰尖距离越远的位置,LOD 值不断下降,功能基因位于该位置的概率越低。 LOD 波动曲线从峰的最大值降低 2 的时候(Y 轴), 对应在遗传图谱上跨越的区域(X 轴)。2-LOD 置信区间大概对应 99.8%的置信区间,即功能基因有 99.8%概率已经落在这个区域内了 显著性阈值的确定 使用 permutation test 确定显著性阈值:随机打乱表型和基因型的对应关系并记录区间中最大的 LOD 值,重复 1000 次得到在表型和基因型不关联的情况下的 LOD 值的分布,在这个随机模型里再取 LOD 值的前 5%或 1%作为显著性的阈值。 人工给定的阈值 2~3 都可以。 6 GWAS 6.1 概念 全基因组关联分析是应用基因组中数以百万计的 SNP 作为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种分析方法。(如果 SNP 变化与表型变化高度相关,则认为该位点可能会影响表型),是连接遗传变异 (Genetic Variants, GVs)和表型 (phenotypes)的主要工具。 6.2 流程 自然群体资源的收集和鉴定(纯化) 获取目标性状的多次表型数据 表型数据分析(如:BLUP) 获取基因型数据 基因型补缺和过滤 遗传多样性、群体结构、亲缘关系、LD 等分析 关联分析 候选基因筛选与挖掘 实验验证、分子机制解析 特点 ①标记密度高,理论上可获得群体中所有的变异,并能利用历史上的重组,因 而具有较高的定位精度。 ②具有丰富的变异,与人工构建的群体变异来源于两个或少数几个亲本相比,自然群体中的变异来自与几百上千乃至数十万的个体。 ③快速简便,无需构建群体耗时耗力的过程。 困难 ①标记数目多达几百至几千万,运算量较大。 ②较复杂的遗传背景,易造成较高的假阳性和假阴性。 ③不同频率的变异检出效率不同,只能检出常见变异。 6.3 方法 T-test 线性模型 混合线性模型 混合线性模型:既包括固定效应组分,又包括随机效应组分的线性模型。GWAS 中,混合线性模型相较于简单线性模型增加了随机效应组分,用于表征群体内个体间异质的亲缘关系造成的多基因效应,可以有效校正群体结构和亲缘关系,降低假阳性。 混合线性模型:混合线性模型是一种方差分量模型,它既含有固定效应,又含有随机效应。考虑了群体结构的模型就是一般线性模型(GLM),既考虑了群体结构又考虑了 Kinship 矩阵的模型就是混合线性模型(MLM)。 使用 MLM(LMM)可以有效校正群体结构和群体内复杂的亲缘关系。 6.4 结果展示 曼哈顿图 曼哈顿图用基因所在染色体号作为 x,-log10(P)作为 y 曼哈顿图是一种散点图,通常用于显示具有大量数据点,许多非零振幅和更高振幅的数据。常用于 GWAS 分析。 QQ 图 QQ 图用期望-log10(P)作为 x,观测-log10(P)作为 y。 QQ 图是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一块比较,主要用于检验数据分布的相似性。 7 连锁不平衡(LD) 连锁不平衡(LD)是指给定种群中不同基因座(位点)上的等位基因之间的非随机关联性,即分属两个或两个以上基因座位的等位基因同时出现的频率高于预期的现象。 7.1 连锁和连锁不平衡 连锁是指位于同一染色体上的基因具有一起遗传的倾向,连锁的两个位点物理上接近。 物理上接近的位点往往 LD,但 LD 的两个位点不一定物理上接近,如:不同染色体上的位点由于遗传漂变等可产生连锁不平衡。 连锁是“个体”中两个位点物理上接近,而 LD 是“群体”遗传学的概念,两个位点在某个群体中 LD,在另外的群体中不一定也 LD。 7.2 LD 衰减 (LD decay) 随着物理距离增加,标记之间的 LD 倾向于减小,称为 LD 衰减。LD 是 GWAS 的基础(不必知道所有标记的基因型) LD 衰减距离较长的群体,GWAS 需要的标记量较小,定位精度低。通过比较 LD 衰减距离和标记间平均距离,能判断标记是否有足够覆盖度 8 群体结构 概念 群体结构指由于个体之间非随机交配导致的群体亚群之间等位基因频率的系统差异。亚群分化会导致标记间的非连锁关联,形成群体结构,进而导致关联分析结果出现假阳性。 群体结构的影响 由于变异之间有 LD,GWAS 才能只检测一部分变异就可以定位基因; 由于距离很远的变异之间也可能 LD,GWAS 的显著位点有不少假阳性 9 Imputation 缺失基因型填补 原理:基于家系样本中的遗传特性。具有已知亲缘关系的个体之间具有共享的单体型(haplotype),这些由有限个遗传标记所构成的单体型随祖先一起遗传,反映连锁不平衡。在具有相同单体型的家系中,遗传标记少的样本可以参照遗传标记多的样本进行基因型填充。对于没有亲缘关系的样本,以上理论也基本适用,主要的差别在于无血缘关系的样本之间共享的单体型比家系样本之间的要短很多。对无亲缘关系样本进行基因型填充需要一个高密度遗传标记构成的单体型图谱作为参照。通过对比待填充样本和参考模板,找到两者之间共有的单体型,然后就可以将匹配上的参考模板中的位点复制到目标数据集中。 10 GWAS 和 QTL 10.1 GWAS 与人工群体 QTL 定位相比有何优缺点? 全基因组关联分析(GWAS)和人工群体 QTL 定位(QTL mapping)都是一种利用分子标记来寻找影响数量性状的基因或区域的方法,但是它们有一些不同的优缺点,可以从以下几个方面进行比较: 群体(构建、结构) GWAS 一般使用自然群体或者人工设计群体,这些群体具有较高的遗传多样性和复杂的群体结构,因此需要考虑群体结构、亲缘关系、连锁不平衡等因素的影响,避免假阳性的结果。QTL mapping 一般使用经过人工控制杂交的遗传连锁群体,如 F2、BC、DH 等,这些群体具有较低的遗传多样性和简单的群体结构,因此不需要考虑群体结构的影响,但是需要花费较长的时间和较多的资源来构建和维持。 变异(数量、等位基因数及频率) GWAS 可以利用自然群体中存在的大量的遗传变异,如单核苷酸多态性(SNP)等,可以同时检测相同位点的多个等位基因,将优良等位变异直接利用于育种实践。QTL mapping 只能利用亲本间存在的有限的遗传变异,一般只能检测两个等位基因,而且可能会丢失一些稀有等位变异。 重组数量 GWAS 利用的是历史重组,即自然群体中发生的大量的重组事件,因此可以提高定位的分辨率,但是也可能导致连锁不平衡的产生,影响关联分析的准确性。QTL mapping 利用的是人工重组,即通过人工控制杂交产生的有限的重组事件,因此可以减少连锁不平衡的影响,但是也可能导致定位的分辨率降低,需要进行精细定位。 分辨率 GWAS 的分辨率一般较高,可以定位到单个 SNP 或者较小的区域,但是也可能存在多个候选基因,需要进行进一步的验证和分析。QTL mapping 的分辨率一般较低,只能定位到较大的区域,需要进行精细定位或者候选基因筛选,才能找到真正的功能基因。 10.2 决定 GWAS 和 QTL 定位精度的因素 ①重组事件的数目是最根本的因素:所以标记数目、群体大小、群体结构、群体类型都会有所影响; ②表型的遗传率和测量误差也会有所影响; ③模型的选择也会影响; ④位点之间是否存在复杂的互作也会有所影响。 10.3 全基因组关联分析和 QTL 定位仍然存在什么挑战 不同群体的结果存在异质性; 对罕见和结构变异型突变不敏感; 如何定位候选基因; 如何确定关键变异; 如何解析分子机制。 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |