单基因及复杂疾病致病或易感位点研究方案

研究背景

单基因遗传病，即孟德尔遗传疾病，是指受一对等位基因（主效基因）控制的遗传性疾病。孟德尔遗传病是新生儿出生缺陷的重要原因之一，目前全球已知的单基因遗传疾病大约多种，而且大部分的潜在疾病基因尚未研究清楚。复杂疾病，是由多个基因及环境因素相互作用所致的疾病，例如心血管疾病、二型糖尿病、原发性高血压、银屑病等。这类疾病发病率一般超过0.，在临床或流行病学方面具有一定程度的家族倾向，但又不表现典型的孟德尔遗传方式。一般认为微效作用模式在复杂疾病的发生机制中起主要作用，即来自多个位点的大多数风险基因在群体中的发生频率都很低，它们之间有相互作用，通过数量性状的剂量效应关系，达到疾病发生的临界阈值，而共同决定了复杂疾病的遗传易感性。

单核苷酸多态性，是指存在于基因组特定位置上的单个核苷酸的变异，即由单个核苷酸置换、颠换、插入或缺失所形成的遗传变异现象。一般来说，一个SNP位点只有两种等位基因，而检测这一对等位基因类型的技术则被称为基因分型（genotyping）。SNP作为第三代遗传诊断标记，在单基因疾病和复杂疾病基因组研究中具有重大意义。目前，高通量基因分型技术主要包括SNP基因分型芯片和高通量测序（具体检测平台详见附录）。

单基因遗传疾病的研究策略[1,2]

针对散发样本或小家系样本，可应用全外显子组测序或全基因组测序检测致病变异，并进行变异过滤分析，即通过样本间的比较和已知数据库的注释，筛选可能的致病变异。这种方式可能会找到目的致病变异，但缺点是无法提供统计意义上的致病性评估，可能会受到各种预料外的因素影响。要获得统计意义上的确认，那只能通过连锁分析。

针对中等、大家系样本，家系连锁分析则是研究单基因遗传疾病致病基因/位点的最有效方法。连锁分析是一种较为传统的遗传定位方法，主要观察发生在家系内的遗传重组。研究者已利用该方法发现了大量如囊性纤维化、亨廷顿病等单基因疾病的致病基因。此外，连锁分析还可以提供统计学上的致病性评估，且分析策略可根据疾病外显率和拟表型情况进行校正。连锁分析依赖家系中所有有信息价值成员的基因型数据。SNP芯片检测依旧是个不错的方式，同时也是比较方便地完成连锁定位的方式，还能避免过多的变异带来的干扰。研

究者可利用SNP基因分型芯片对家系中患病及正常对照样本进行基因分型，用基因分型数据进行连锁分析来定位候选区段，定位后要找到确切的致病变异就需要依赖测序了，后续可利用全外显子组测序或目标区域捕获测序检测候选区段内的致病变异。

复杂疾病的研究策略[3]

全基因组关联分析（Genome-wideassociationstudy，GWAS）被广泛应用于探索复杂疾病易感位点研究中，主要分为基于无关个体的方法和基于核心家系的方法。全基因组关联研究是应用基因组中数以百万计的单核苷酸多态性为分子遗传标记，检测全基因组范围的遗传变异与复杂疾病性状之间遗传关联的一种策略。其基本思想是基于连锁不平衡的原理，直接检测基因本身或基因附近的微小区域（0.1cM）的SNP标记与复杂性状表型信息的关联来实现致病位点的精细定位。GWAS研究需要注意，等位基因结构（数量、类型、作用大小和易感变异频率）在不同性状/疾病中可能具有不同特征。例如年龄依赖性黄斑变性由少数几个较大效应的常见遗传变异导致，而克罗恩病则发现数十个遗传变异与该疾病相关，且这些变异只能解释一小部分病例表型。另外，在一个群体中GWAS结果显著的SNP在其它群体中有时并不显著，这是由于不同群体可能具有不同的等位基因频率以及连锁不平衡区域，因此GWAS研究需要排除人群分层的影响。最后，GWAS是一种检测常见变异的方法，即一般最小等位基因频率（MinorAlleleFrequency，MAF）大于5%的变异，但不能有效检测低频（1%MAF5%）或罕见（MAF1%）的风险等位基因位点。

针对复杂疾病中的低频或罕见变异，由于其发生频率过低，导致差异性检验结果一般不显著而无法被发现。因此，需要对低频和罕见变异位点进行分组，提高低频和罕见变异集合整体的出现频率、减少多重检验次数，再利用差异性检验找出低频和罕见突变集合与疾病的关联性。

技术路线

分析筛选策略及结果展示

3.1单基因遗传疾病

策略一：SNP芯片家系连锁分析+个别家系成员全外显子组测序

若有中等大家系，可先利用SNP芯片进行家系连锁分析，找到与疾病或性状关联的连锁区段。通过连锁分析，我们会得到一个象征连锁关系显著度的值，即LOD值，根据LOD值来判断致病位点与分子标记之间的连锁情况。对分析所得LOD2或者LOD3的区段，利用软件Merlin(v1.1.2)和Haplopainter可进行单倍型的分析及图形的绘制，根据单倍型分析结果可查看所患病或同一表型的个体所携带的单倍型是否一致，而正常个体中是否携带不同的单倍型。

对已确定的连锁候选区段，选取家系中个别样本进行高通量测序，进行筛选，以期找到真正相关的致病或关联位点。值得注意的是，即便得到一个非常显著的LOD值，仍然存在假阳性的可能。也有可能在LOD非常显著的区域内，测序无法找到候选的致病位点。造成这种情况的原因很多，比如真正的致病位点没能捕获下来，致病位点测序深度太低，致病位点位于重复序列区域难以分析，致病位点在非编码区等等，当各种基因组序列的检测分析都做完后还没能找到致病位点的，可以考虑下区段内是否有CNV的情况。更进一步，在获得候选致病位点后，如果能提供一定的功能实验进行验证说明将是非常好的结果。

案例分享：全基因组连锁分析和外显子测序在非综合征耳聋家系中鉴定DMXL2基因变异

期刊：GenetMed

影响因子：7.

发表时间：

使用服务：IlluminaInfiniumHumanOminiZhongHua-8基因芯片和外显子组测序

研究背景

已知有超过多的基因，其所含的致病变异会对听觉系统造成不同的功能影响，并引起相应的听力损失，但对非综合征耳聋而言，依旧有超过50多相关位点的遗传致病机制还未详细阐明。本文利用全基因组SNP芯片及全外显子组测序技术对一非综合征耳聋家系中的21个样本进行全基因组连锁分析，并通过对个别家系样本进行全外显子组测序和对所有家系样本进行Sanger测序来鉴定候选的致病变异。

图1(a)患有常染色体显性的非综合征听力丧失家系图谱。箭头所指为先证者，星号标记的个体参与了SNP芯片连锁分析，三角标记个体（II-1，IV-1，IV-4，IV-6）则后续用来进行全外显子组测序，下划线标记个体II-2，则包含了一个关键的重组事件。（b）15号染色体连锁分析的LOD值，当把II-2个体包括后，其最大的LOD值达到了4.33。

研究结果

全基因组连锁分析在家系中的10个case及11个control中进行，分析得到9.68Mb的致病候选区段，LOD值为4.03。该区段中未发现与综合征或非综合征耳聋相关的已知致病基因，因此，该家系听力丧失的症状可能是由一个新基因变异造成。文章随后对家系中三个患病个体及一个正常对照个体进行了全外显组测序，分析得到3个候选致病变异，并结合对家系所有样本，尤其是对II-2样本进行sanger测序，最终鉴定出唯一一个在家系个体中呈现共分离的变异位点DMXL2:NM_174116:exon29:c.GA:p.ArgHis。结合后期的功能实验阐明了DMXL2基因在内耳功能中的重要作用。

参考文献

Chen,D.Y.,etal.,AdominantvariantinDMXL2islinkedtononsyndromichearingloss.GenetMed,.

策略二：全外显子组测序直接筛选

对于单基因疾病来说，可以假设真正的疾病基因对应的突变具有非常大的作用，因此应该具有以下特点：1）在人群中罕见，只出现在少数病人中；2）位于基因组蛋白编码区域；3）直接影响突变基因的蛋白功能。所以对于样本收集困难，或关键样本缺失的家系，利用遗传模式、变异人群频率、蛋白危害度预测及疾病数据库等信息可直接过滤筛选可能的致病变异。对于筛选得到的候选位点在致病性的判断方面可遵循ACMG(theAmericanCollegeofMedicalGeneticsandGenomics)于15年发布的序列变异分类解读指南[4]。

例如，针对一个显性遗传家系模型，过滤筛选方式如下：

图2基于显性遗传家系模型的样本选取和突变过滤筛选方法。

样本选取问题

无论是关联分析还是连锁分析都是依赖于染色体重组进行计算的。在人的染色体中，约1Mb长度的染色体发生重组的概率约为1%，于是就有了1Mb≈1cM（厘摩尔根）的概念。如果致病位点与所检测的marker之间的距离非常近，比如kb，那么重组率θ=0.，那意味着致病位点与marker之间几乎不可能发生重组，也就是紧密连锁。因此这个marker就可以作为致病变异的代表存在。致病区段的定位依赖于有效的重组信息，如在父母亲这一代的样本中，两个相近的杂合位点才可以对分析提供有价值的连锁信息，如果不是，它将无法提供重组的有效信息。在遗传模式不明的家系中，如果祖父母辈这一代的信息缺失，那么至少需要两个第三代的儿童才有可能提供足够的连锁信息。

当研究经费受限时，怎样的样本挑选策略才能既经济又能得到有指导意义的结果？对于常染色体显性遗传病家系模型，挑选亲缘关系较远的多数（两个以上）患者和一两个正常对照，检测的两个患者样本的亲缘关系越远越好。基于的原理则是亲缘关系越远，拥有相同遗传片段的概率越低，得到的LOD值越高。对于常染色体隐性遗传病家系模型，可选取患者及父母亲样本。对于Denovo突变模型，同样选取患者及父母亲样本，然而该策略需要选取多个患者样本，而针对每个患者需要做三个外显子组测序（患者和父母样本），样本量较大，一般只适用于其他策略不能使用且病人双亲样本可获得的情况。

案例分享：外显子组测序发现WDR35变异与颅骨外胚层发育不良有关

期刊：AmJHumGenet

影响因子：10.

发表时间：

使用服务：外显子组测序，Sanger测序

研究背景

颅骨外胚层发育不良（Sensenbrennersyndrome/cranioectodermaldysplasia，CED）是一种常染色体隐性疾病，表现为颅缝早闭、面部、外胚层和骨骼异常。研究人员曾用Affymetrixkarrays对2例散发样本进行检测并没有发现致病的拷贝数变异或大的纯合子区域。

研究结果

研究人员重新对两例散发的CED患者进行外显子组测序，平均在每个患者中检测到个非同义突变，通过对突变数据进行筛选，排除了dbSNP、0G以及已发表文献中的已知变异，保留了2%的非同义突变位点。研究人员考虑CED的致病基因可能含有复合杂合突变，从而在2位患者中找到一些含有至少2个突变位点的潜在致病基因，再用Sanger测序检测患者及其父母的这些基因，发现患者WDR35基因上的复合杂合突变分别遗传自父亲和母亲。1号患者WDR35exon2的剪切位点具有一个突变(c.25-2AG[p.I9TfsX7])，以及exon17上含有一个错意突变（c.AG[p.EG]），研究人员用RT-PCR证实了发生在WDR35的exon2的剪切位点上的突变可以导致转录提前终止；2号患者WDR35exon25上含有一个缺失突变（1:c.delC[p.PLfsX15]）会导致移码突变以及转录提前终止，在exon23含有一个碱基置换（c.GA[p.AT]）会导致一个高度保守的丙氨酸变为苏氨酸。研究人员又检测了8名CED患者，发现2名患者的WDR35同样携带复合杂合突变。

图3（A）WDR35的基因和蛋白结构域以及检测得到的突变位点。（B）IGV展示exon2的剪切位点附近的复合杂合突变。（C）Sanger测序验证1号患者的位于剪切位点附近的突变遗传自母亲。（D）lane1显示剪切位点的突变导致转录产生2种序列，lane2显示正常对照的RNA序列。（E）展示剪切位点突变与正常对照。

参考文献

Gilissen,C.,etal.,ExomesequencingidentifiesWDR35variantsinvolvedinSensenbrennersyndrome.AmJHumGenet,.87(3):p.-23.

3.2复杂疾病

3.2.1常见变异的关联研究

GWAS的统计分析依据研究设计不同可采用不同的分析方法：

针对无关个体质量性状的关联分析，最常采用病例-对照分析(Case-controlsStudy)，比较病例组和对照组中标记位点的等位基因频率，通过卡方检验、Logistic回归等统计分析找到显著差异的位点，则认为此位点同疾病相关。针对无关个体数量性状的关联分析，数量性状是连续变异的性状，比如人的身高、血压等等，需收集患病散发人群样本，以数量性状为因变量，通过单因素方差分析、协方差分析或线性回归等统计分析找到显著差异的位点。

针对核心家系样本的关联分析，最常用的就是传递不平衡检验（transmissiondisequilibriumtest，TDT）。TDT的基本思想是分析等位基因从杂合子双亲传递到受累后代的概率，若概率偏离0.5，则发生了传递不平衡，即标记和疾病基因存在关联(假设群体中标记位点总体上不存在对孟德尔分离的偏离)。这种关联由以下两个原因引起：（1）标记本身就是疾病基因；（2）标记与疾病基因存在连锁不平衡；从而可以进行基因定位。TDT分析的优势在于可以排除人群分层对于关联分析的影响，不足之处在于（1）TDT要求对家系进行取样，当研究的疾病是中老年发病的话，收集父母双亲较为不易；（2）与case-control的关联设计类似，当疾病存在异质性时，将明显降低其检出力。这时可按疾病病理性状、种族特征等将患者区分为不同的亚组，可能有助于提升分析效力；（3）同样与case-control关联分析类似，如疾病存在外显不全而出现发病晚的特点时，将导致部分患病个体被当作正常个体对待，影响检出力。在这种情况下，可选择用高龄个体作为对照。

图4GWAS分析方法

在设计初始GWAS实验时，一般分两个阶段。初筛阶段，应用SNP基因分型芯片、全外显子组测序或全基因组测序对样本进行SNP分型和统计分析，筛选得到少量阳性SNPs；验证阶段，应用Fluidigm平台或Sanger测序等方法在大量样本，甚至多种人群样本中对这些阳性SNPs进行基因分型，最后整合两个阶段的结果进行分析。GWAS两阶段研究策略减少了工作量和成本，通过重复实验也减小了假阳性率。

主成分分析

主成分分析（PrincipalComponentAnalysis,PCA）的原理是找到数据方差最大的两个或者三个主成分(就是向量)，将数据投影在这些主成分上，以达到降维的目的，通过图像上的点之间的相互距离来显示样品之间的相似度。考察样品的分布情况，验证实验设计的合理性，生物学重复样品的均一性（至少2组数据）。

将不同区域的样本进行PCA主成分分析，观察样本的聚类情况，探索地域差异与遗传差异对群体差异的影响。选择使用合适方法对关联分析的结果进行校正，减少人群分层带来的假阳性。

图5PCA分析示意图

全基因组关联分析

针对不同的疾病分型，采用Allelic、Genotypic、Dominant、Recessive等多种遗传模型进行基于case-control的关联分析，并绘制相关结果图形。

（1）曼哈顿图(ManhattanPlot)

图6曼哈顿图。X-轴为基因组坐标，Y-轴为每个单核苷酸多态性的关联p值的负对数。

（2）QQ图(Quantile-Quantile)

图7QQ图。X-轴为理论P值，Y轴为检测到的P值，可用来观测观察值是否显著偏离理论值。

(3)区域关联分析图

通过GWAS分析筛选出与疾病相关的显著性位点，再通过MACH1.0对客户数据中缺失的位点进行模拟填补，最后构建显著位点所在染色体区段的关联图谱。图中横坐标为染色体位置，纵坐标为各个位点的显著性，紫色菱形为的显著性位点，GWAS分析获得数据以圆形表示，叉为预测的SNP（imputedSNP），颜色深浅为各个位点同显著位点的连锁情况（红色r^2大于0.8，橙色r^2在0.6-0.8之间，绿色r^2在0.4-0.6之间，浅蓝色r^2在0.2-0.4之间，蓝色r^2小于0.2）。图中的蓝紫色线为重组率。

图8区域关联分析图。

显著区段连锁不平衡分析

对显著区段，可进一步的进行连锁不平衡的分析，连锁不平衡（linkagedisequilibrium,LD）是指基因组中不同基因座间存在的非随机关联，即不同基因座的非等位基因间的非随机组合。LDPlot表示该基因所有snp的的连锁情况，各个方块的颜色由浅至深（白—红），表示连锁程度由低到高，深红色表示完全连锁。

图9显著区段连锁不平衡分析

案例分享：汉族人红斑狼疮易感基因GWAS研究

期刊：NatGenet

影响因子：31.

发表时间：

使用服务：IlluminaHuman-QuadBeadChips

研究背景

中国科学家通过对多名汉族系统性红斑狼疮患者以及健康对照者的研究，发现了5个红斑狼疮易感基因，并确定了4个新的易感位点。系统性红斑狼疮是一种常见的自身免疫性疾病，好发于女性，特别是育龄期妇女，可累及全身各个系统和脏器，最终诱发肾衰竭、狼疮性脑病和严重继发感染，导致患者死亡。该病病情易反复，目前临床上无治愈手段。据估计，目前我国有红斑狼疮患者多万人。研究成果对红斑狼疮的预警、临床诊断及新药开发具有重大意义。

研究思路

研究结果

研究者通过对多例中国汉族红斑狼疮患者和健康对照样本进行研究，发现了5个与汉族人群发病密切相关的易感基因ETS1、IKZF1、RASGRP3、SLC15A4和TNIP1，并确定了4个新的易感位点；研究同时验证出在欧洲人中发现的7个易感基因在汉族人中同样存在。该项研究首次通过遗传学研究证明了红斑狼疮发病机制中的遗传危险因素在不同人种间具有相同和不同的易感基因；同时，该项研究是当时世界上红斑狼疮全基因组关联分析研究中样本量最大的研究项目。

图10左图为GWAS曼哈顿图，横坐标为染色体位置，纵坐标为显著性p值；b.GWAS分析的Q-Qplot图

该研究成果使人类对红斑狼疮的发病机制有了更加深入的理解，对疾病的预测、早期诊断和治疗也可提供帮助。比如，某人被测得携带有危险的基因型，可以通过避免危险的环境因素，降低疾病发生的危险；已是红斑狼疮患者的，将来可以根据基因型进行特异性、个体化的治疗，从而减少治疗的副作用，降低治疗费用，提高患者生活质量。

参考文献

HanJW,ZhengHF,CuiY,etal.Genome-wideassociationstudyinaChineseHanpopulationidentifiesninenewsusceptibilitylociforsystemiclupuserythematosus.NatGenet,,41(11):-.

3.2.2罕见变异的关联研究

在针对常见变异（MAF0.01）的疾病关联性分析流程中，一般直接统计单个SNV或indels分别在疾病组和控制组中的出现频率，然后进行差异性检验。但是对单个低频突变而言，其在疾病组和对照组中的出现频率都非常低，导致其差异性检验结果一般不显著。同时，低频突变位点数量巨大（一个VCF文件中包含的低频突变往往在个以上），对所有位点同时进行差异性检验后需要极其严格的P值校正。因此单位点检验法不适合低频突变的关联性分析。在分析策略上，有必要通过对低频变异位点分组，比如将来自同一基因的罕见变异集合起来作为一个整体进行分析，从而提高低频突变集合整体的出现频率、减少多重检验次数，再利用差异性检验找出低频突变集合与疾病的关联性。分组后可利用Burden检验对各个低频突变集合进行关联性检验[5]。最后，基于不同MAF及不同分组，将每组中排名前20的显著差异的基因进行富集分析。

案例分享：外显子组测序发现LDLR和APOA5罕见变异增加心肌梗塞风险

期刊：Nature

影响因子：31.

发表时间：

使用服务：外显子组测序，目标区域捕获测序，IlluminaHumanExomeBeadchip

研究背景

心肌梗塞（Myocardialinfarction，MI）是一种在全世界范围内致人死亡的常见原因，表现为一种复杂的遗传模式。当MI发生于人生早期（男性≤50岁发病，女性≤60岁发病），遗传因素是主要的风险因素。之前的研究发现，LDL（low-densitylipoprotein）基因上的罕见变异增加单个家庭中的成员发生MI风险，而其常见变异与人群中的MI风险相关。该研究LDL基因上的罕见变异是否会增加人群在早期发生MI的风险。

研究结果

研究人员通过结合外显子组测序、基因芯片、靶向测序在大量疾病和对照样本的筛选与MI相关的罕见变异（需要至少00样本量才能达到80%的统计功效）。研究人员再对筛选到的罕见变异（MAF1%）进行分组，包括Nonsynonymous、Deleterious（PolyPhen）、Deleterious（broad）、Deleterious（strict）和Disruptive组，采用Burden检验法对这些罕见变异集合进行关联性分析找出与MI显著相关的罕见变异，最后通过计算OR值判断这些罕见变异导致MI的风险。经过分析发现MI患者的2个基因含有罕见变异的频率显著高于正常人。携带LDLR（low-densitylipoproteinreceptor）罕见非同义突变患MI风险比正常人高4.2倍，携带LDLR无义突变患MI的风险高13倍。大约2%的早期MI患者LDLR基因含有罕见致病突变。携带APOA5基因罕见非同义突变患MI的风险增加2.2倍。与非携带者相比，LDLR突变携带者的血浆LDL胆固醇较高，APOA5突变携带者的血浆甘油三酯较高。总结其它研究结果来看，脂蛋白甘油三酯以及LDL胆固醇代谢紊乱会增加MI患病风险。

图11(a)通过对例样本进行测序发现位于LDLR的罕见变异（包括MAF1%的包括无义变异、可变剪切变异、移码变异）。(b)在不同罕见变异分组中患者的LDL胆固醇水平。

参考文献

Do,R.,etal.,ExomesequencingidentifiesrareLDLRandAPOA5allelesconferringriskformyocardialinfarction.Nature,.():p.-6.

附录

4.1常用数据库列表

人群基因组数据库包含人群（总体）的基因组频率数据，这对于评估变异在正常人群中的发生频率至关重要。注意，数据库中不仅仅只包括正常个体信息，也会包括一些致病的变异，但不会描述变异相关的功能及关联的表型性状。在使用时需要注意其中信息是来自正常人还是病人，是否来自家系等等。疾病数据库则包含来自病人的基因组变异信息，用以参考评价疾病与基因/变异之间的关系。疾病数据库中通常会包括一些被错误分类的变异，因此，在使用时必须注意患者是如何被收集鉴别的。

表1常用人群基因组和疾病数据库[4]

4.2预测评估程序

现在有大量商业化的或是开源的评估变异的软件，它们可以评估变异在核苷酸或氨基酸水平造成的影响，包括造成的转录本的变化，对其他对基因组结构的影响，以及对蛋白质功能的影响。

错义突变造成的影响主要取决于该变异所在氨基酸或核苷酸序列的进化保守性、对应蛋白质序列中的位置及氨基酸替换所造成的生化结果。目前大多数用来预测错义突变影响的算法准确性只有65-80%，例如会过高的评估一个错义突变为有害的，或评估突变为中性变异时并不可靠，参考时需要注意。现有针对非同义突变最常用的评估程序是Polyphen2，SIFT和MutationTaster。另外，对于可变剪切的评估，也有很多对应的软件程序，常用的可变剪切位点评估的软件也总结在表2中。考虑到每个方法及程序拥有自己独特的优势及局限性，所以在进行序列变异危害评估时，推荐综合使用多个软件程序，并且慎重采用预测出的结果，切不可将其作为临床诊断的唯一参考。

表2常见预测算法[4]

4.3SNP芯片平台

SNP芯片平台主要有AffymetrixGeneChip芯片平台、AffymetrixGeneTitan芯片平台和Illumina芯片平台。相对于全外显子测序，使用SNP芯片对样本进行分型成本更低。但与测序不同的是，SNP芯片仅可得到特定的一组位点信息，一般作为分子标记来使用，通过分子标记与致病（易感）位点之间存在的连锁或连锁不平衡来进行定位。SNP芯片分型多用在连锁分析和常见变异GWAS（MAF5%）研究中。除特殊定制的芯片以外，常规芯片不适合进行致病位点筛选和罕见变异（MAF1%）关联分析研究。以下是几款常用的SNP芯片。

4.3.1基于GeneTitan平台的基因分型芯片

芯片推荐：AffymetrixAxiom?PrecisionMedicineResearchArray(PMRA)

为了应对测序价格迅速走低带来的竞争，并适应精准医疗带来的巨大市场需求，Affymetrix于年推出了名为“精准医疗研究芯片”（PrecisionMedicineResearchArray，PMRA）的SNP芯片。PMRA有以下特点：

（1）PMRA提供了来自最新的0GenomePhaseIII和更新至年5月份的NHGRI-EBIGWAScatalog数据库中的内容，为关联分析提供更精准的标记；

（2）囊括已经临床验证的致病位点；

（3）覆盖来自GWAS研究的癌症相关常见变异（monvariants）；

（4）覆盖了免疫和转移相关的变异，包括HLA和KIR相关的marker，并可使用AxiomHLA分型软件进行HLA分型；

（5）包括了血细胞表型相关的marker，和血液病学GWAS研究中得到的结果；

（6）与其它分型平台共享了一些fingerprintSNPs，可用于追踪样本。

作为一款高密度SNP芯片，SNP标记平均覆盖了全基因组，可保证PMRA满足全基因组关联分析和遗传连锁分析的需要。另外，PMRA囊括了当前最新GWAScatalog数据库中的SNP位点，可一定程度上提升关联分析检测效力。

表3PMRA芯片SNP疾病易感位点标记数

4.3.2基于GeneChip平台的基因分型芯片

芯片推荐：Genome-WideHumanSNPArray6.0

芯片介绍：AffymetrixGenome-WideHumanSNP6.0芯片产品涵盖超过1,,个遗传变异标志物：包括超过,个SNP和超过,个用于检测拷贝数变化（CNV,CopyNumberVariation）的探针:

（1）,个SNP来自于前代产品K和SNP5.0芯片；

（2）,个SNP包括国际HapMap计划中的标签SNP，X，Y染色体和线粒体上具有代表性的SNP,以及来自于重组热点区域和K芯片设计完成后新加入dbSNP数据库的SNP；

（3）,个用于检测5,个已知拷贝数变异区域的探针，这些区域来源于多基因组变异体数据库。该数据库中3,个非重叠片断区域平均用61个探针来检测；

（4）,个探针平均分配到整个基因组上，用来发现未知的拷贝数变异区域。

图12AffymetrixSNP6.0芯片物理覆盖度

4.3.3基于Illumina平台的基因分型芯片

IlluminaSNPGenotyping采用激光共聚焦微珠芯片技术（BeadArrayTM），可对全基因组或特定SNP位点进行分析，其检测质量可靠，得到业界所广泛认可。IlluminaSNP芯片平台拥有多种系列芯片，包括已广泛成熟应用的基于人类HapMap和0G数据库设计的Omni芯片家族。

芯片推荐：InfiniumOmniZhongHua-8Kit

（1）覆盖了中国人特有常见和稀有变异，是第一款人类种群特异的全基因组芯片。

（2）经过优化的标签SNP内容来自HapMap所有三个阶段以及千人基因组计划（1kGP），可用于在中国人种群中探索全新的疾病和性状关联。

（3）特别覆盖中国人81%的常见变异（MAF5%）和60%的稀有变异（MAF2.5%），适合全基因组关联研究（GWAS）。

（4）采用Illumina专利的BeadArrayTM技术，可提供非常高的数据质量，平均检出率99%，重复率99.9%。

4.3.4Fluidigm平台

Fluidigm基因分析系统（Juno-Biomark?HD系统）是集成了流体通路（IntegratedFluidicCircuit，IFC）技术、实时定量PCR技术及强大的基因分析软件的技术平台，可实现高效准确SNP分型。Fluidigm的SNP分析系统适合应用于对GWAS等研究筛选出的潜在致病位点在大量样本中进行验证。

JunoBiomark?HD系统配套的检测芯片有如下几种格式，满足不同SNP位点和样本数的研究需求，分别为12*12（12样本*12位点），48*48（48样本*48位点），96*96（96样本*96位点），*24（样本*24位点）。

图13JunoBiomark?HD系统

Fluidigm的SNP检测技术基于荧光读取判断，每孔采用双色荧光检测单个样本中一个位点可能的两种基因型，不同的SNP模板对应不同的荧光产物。

(1)准确度：基因分型的准确率99%；

(2)特异性：Fluidigm采用其特有KASP的通用荧光引物设计，为24-26bp，比传统的Taqman特异性更高，SNPcallrate更可达到99.9%；

(3)成本低：KASP的非荧光标记引物保质期长，利于大量采购和保存；

(4)通量高：一次芯片最多可进行个反应；

(5)灵活性：可选择已有芯片或定制新芯片。

4.4测序捕获平台

高通量基因组测序包括全基因组重测序、外显子组测序和目标区域捕获测序。全基因组重测序（WholeGenomeSequencing，WGS）是对人类不同个体或群体进行全基因组重新测序，通过与原有基因进行比较，得到丰富的全基因组变异信息，并在个体或群体水平上进行生物信息分析。全外显子组测序（WholeExomeSequencing，WES）利用探针杂交富集外显子区域的DNA序列，结合高通量测序，可以发现外显子区域相关变异信息。目标区域捕获测序是通过定制基因组目标区域的探针，与基因组DNA进行杂交，将目标区域DNA富集后进行高通量测序的技术手段。目标区域测序对于目标基因进行高深度测序，可精确检测变异，通常配合全基因组测序和外显子测序对已获得基因突变进行大样本量的验证。

AgilentSureSelect捕获系统

Agilent液相探针杂交捕获技术，由Agilent公司与麻省理工学院-哈佛大学博德研究所共同开发，研究成果刊登于年8月的《自然—生物技术》杂志上。至今，该技术已经被数千篇权威学术论文引用。

AgilentSureSelectHumanAllExonV6人全外显子捕获系统，依托上述的液相捕获系统，采用-mer的RNA作为“诱饵”探针，能够高效地捕获带有SNV，InDel等突变的基因组序列。目前，该技术广泛应用于癌症等复杂疾病相关的遗传变异研究中，并获得了国际癌症协会（ICGC）的鉴定认可。

图14SureSelect人全外显子V6高度优化的捕获探针设计结合严格的捕获工作流程，获得的高在靶效率能够确保读出序列对靶标的特异性映射，从而实现深度覆盖。此外显子组靶向包括难捕获区域的相关数据库的更新内容，可实现蛋白质编码区域的全面分析。

技术优势

（1）最全面的内容，适用于任何应用的外显子组解决方案

i.包含相关数据库的最新核心内容，可靶向捕获区域在内的更多外显子

ii.轻松添加用于转化研究的UTR、用于癌症研究的COSMIC，或用于特定应用的定制内容

（2）高覆盖率、高深度测序，可准确的检测出疾病相关的常见及稀有变异

参考文献

1.Gilissen,C.,etal.,Diseasegeneidentificationstrategiesforexomesequencing.EurJHumGenet,.20(5):p.-7.

2.Ott,J.,J.Wang,andS.M.Leal,Geneticlinkageanalysisintheageofwhole-genomesequencing.NatRevGenet,.16(5):p.-84.

3.Manolio,T.A.,Genomewideassociationstudiesandassessmentoftheriskofdisease.NEnglJMed,.(2):p.-76.

4.Richards,S.,etal.,Standardsandguidelinesfortheinterpretationofsequencevariants:ajointconsensusremendationoftheAmericanCollegeofMedicalGeneticsandGenomicsandtheAssociationforMolecularPathology.GenetMed,.17(5):p.-24.

5.Do,R.,etal.,ExomesequencingidentifiesrareLDLRandAPOA5allelesconferringriskformyocardialinfarction.Nature,.():p.-6.

基因组测序研究方案系列

医学领域

1.肿瘤样本基因组测序研究方案

2.单基因及复杂疾病致病或易感位点研究方案

农林领域（敬请期待）

赞赏

长按向我转账

受苹果公司新规定影响，iOS版的赞赏功能被关闭，可通过转账支持。

辽宁治疗白癜风的医院
治疗白癜风的中药方

转载请注明：http://www.imjuc.com/xjgsys/10372.html

上一篇文章：湖北省急性心血管疾病医疗救治中心急性心肌
下一篇文章：慢性病和特殊病申请认定就医审批和报销

单基因及复杂疾病致病或易感位点研究方案

最新文章

推荐文章

热点文章