4006-506-908

GWAS数据分析服务

发布时间:2019-04-12 分享到:

一、GWAS数据分析流程

 

二、数据分析内容

1、分型数据质量评估:

1)根据GWAS芯片的原始数据,通过Genomestudio V2011 genotype module V1.9.4中Manifest file及Cluster file进行分型数据质量评估,从而保证关联分析的数据质量。

 

 

2)根据GWAS芯片中的质控参数——Staining、Extension、Hybridization、Target Removal、Stringency、Non-specific binding、Non polymorphic等进行芯片的检测质量核实。

 

2、原始数据预处理:

1)样品质控筛选:基于SNP分型数据,根据样品的callRate、分型一致率等对样品进行质量控制。剔除分型失败的样品、重复样品和可能具有亲缘关系的样品,观察样品是否污染,检验样品性别等;如将单个样本位点检测率<95%删除、将推断性别与实际性别不符的样本删除等。

 

2)位点质控筛选:对callRate、MAF、HWE检验结果等指标对SNP位点进行预处理,如将HWE<10-5不符合孟德尔遗传的位点删除、将MAF<0.01的频率过低的位点删除等。

 

3)Imputation分析:基于1000Genomes及Hapmap PhaseII+III中的CHB数据,采用ImptuteV2、FastPHASE、MACH等软件,针对未进行基因分型的位点之等位基因进行预测,从而有效填补GWAS的数据,增加SNP的基因覆盖度,从而使得在已经发现的关联位点周围寻找疾病位点成为可能,同时也能提高对采用了不合适的标签SNP进行标记的SNP检验效能,已经成为目前GWAS数据分析中重要的组成部分,尤其是针对特定人群采用较低覆盖度GWAS芯片进行检测,如针对中国人群采用GSA芯片的检测等。

 

4)人群分层分析:基于不同人群的遗传结构存在差异,为了排除人群分层对于关联分析结果影响,进行人群分层分析,进行主成分分析(principal compent analysis,PCA)或混合模型分析(mixed models)等。

 

 

3、关联分析

1)Logistic/liner regression分析:通过plink软件,根据本研究中的样本的表型分组,或者样本的数量性状进行SNP的关联分析,包括imputaion的SNP位点在内,结合样本的基线数据如性别、年龄等协变量进行校正分析,进行Bonferroni、BH_FDR等多重检验,从而最大限度排除假阳性位点。

    并在不同遗传模型(Allelic、Genotypic、Domiant、Recessive)进行关联分析,从而优化关联分析的P值。此外,结合样本的相关指标,进行亚组区分,并对其进行关联分析,从而分析亚分组间的异质性,及显著关联位点的区域功能关系等。

 

2)QQ plot分析:基于上述关联分析的P值进行通过SPSS或Plink软件进行Quantile-Quantile Plot分析。

 

3)Manhattan plot /Region association analysis:基于关联分析的P值,采用Python或者haploview软件进行分析。

 

 

4、SNP单倍型分析

为了研究位置相邻的SNP协同作用对于样本表型或数量性状的影响,采用SHEsis/haploview软件进行单体型分析,并基于单体型进行关联分析。

 

5、Gene ontology分析

1)Gene annotation(注释):根据易感SNP位于的基因及附近基因进行注释。

Name

Chr

Coordinate

GeneSymbol

GeneLocation

VG06S52442

6

32292393

C6orf10

INTRON

VG07S50448

7

117250656

CFTR

CODING

rs9666486

11

82449606

FAM181B | PRCP

INTERGENIC

kgp9732843

11

20380417

DBX1 | HTATIP2

INTERGENIC

rs3740915

11

126174038

DCPS

CODING

rs12272467

11

5617987

TRIM6 /

COMPLEX

rs7478974

11

45343932

SYT13 | FLJ41423

INTERGENIC

rs2276302

11

113850140

HTR3A

INTRON

rs1397048

11

56466099

LOC642975 |

INTERGENIC

rs7120582

11

11552072

GALNTL4

INTRON

rs11215954

11

116348066

LOC100288599 | BUD13

INTERGENIC

2)Gene enrichment analysis:针对关联位点的易感基因及基因区域进行Go/pathway分析,从而推断分子调控机制的功能。

 

3)Gene Network analysis:基于SNP的关联分析数据,进行基因网络调控分析,从而分析不同基因的联合效应关系。

 

备注:

上述分析采用的软件包括:PlinkGCTAR packagesSNPstatsSHEsis、ImputeV2.........