经过前两期的讲解,我们已经了解进行GWAS分析所需的数据类型和质控方法,现在进入我们的核心主题:关联分析。GWAS分析通常会构建回归模型,以检验标记与表型之间的关联性。具体来说:① 零假设(H0)是标记的回归系数为零,意味着标记(即SNP)对表型没有影响;② 备择假设(H1)则是标记的回归系数不为零,表示标记(即SNP)与表型存在关联。
在第一期中,我们提到表型数据可以分为三类:数量性状、质量性状和分级性状。在进行关联分析前,我们需要根据不同类型的表型选择合适的方法,并通过校正p值来减少假阳性的发生。
1. 连续性状
连续性状指的是在群体中呈现连续分布的特征,例如身高、体重和血压等。可用的方法包括T检验(Student's test)和线性回归(linear regression)。具体操作如下:
- 对于assoc,采用卡方检验与优势比,不允许添加协变量;
- 对于linear,线性回归方法允许协变量,使用时需添加--covar参数。
例如,进行关联分析时,可以使用以下命令:plink --bfile test --assoc --out result_assoc 或者 plink --bfile test --linear --covar cov_file --out result_linear。
2. 阈值性状
阈值性状是指表型值数据分为两类(如1和2),其中0和-9表示缺失值。常见的比较对象为对照组(1)与实验组(2)。可以选择的方法有卡方检验和逻辑回归(X²分析和logistic分析)。具体操作如下:
- 对于assoc,使用卡方检验与优势比,不允许添加协变量;
- 对于logistic,逻辑回归允许协变量,需使用--covar参数。
例如,关联分析的命令为:plink --bfile test --assoc --out result_assoc 或者 plink --bfile test --logistic --covar cov_file --out result_logistic。
3. 分级性状
分级性状是指可通过人为观察进行分类的离散变量。需要注意的是,分级性状的定义依赖于我们的经验处理。比如,植物的抗病性可依据叶片病斑的面积分类,也可以设定阈值将其定义为分级性状(如高、中、低)。可以使用卡方检验和逻辑回归进行分析,具体如下:
- 对于assoc,使用卡方检验与优势比,不允许添加协变量;
- 对于logistic,逻辑回归允许协变量,需使用--covar参数。
进行关联分析的命令示例如下:plink --bfile test --assoc --out result_assoc 或者 plink --bfile test --logistic --covar cov_file --out result_logistic。
在本次关联分析中,我们终于获得了显著性结果。此时,可以对结果表进行p值筛选,从而过滤出假阳性,同时也能进行可视化展示,例如Q-Q图和曼哈顿图。别急,我们将在下一期讲解如何进行可视化分析,敬请期待。
总之,随着对生物医疗研究的深入探索,尊龙凯时将不断为您提供最前沿的知识和技术支持,让我们共同迈向更健康的未来。