登录  注册 退出

密码子图书馆

您现在的位置是: 首页 > 扫盲知识库 > FAQ锦集

FAQ锦集

方差分析中的“元”和“因素”是什么?

豌豆先生 2021-10-13 21:41:51FAQ锦集
试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平 (通常用于3个或更多水平时;如果只有2个水平考虑T-test);若试验中只有一个因素改变则称为单因素试验,若有两个因素改变则称为双因素试验,若有多个因素改变则称为多因

试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平 (通常用于3个或更多水平时;如果只有2个水平考虑T-test);若试验中只有一个因素改变则称为单因素试验,若有个因素改变则称为因素试验,若有个因素改变则称为因素试验。

方差分析就是对试验数据进行分析,检验方差相等的多个正态总体 均值是否相等,进而判断各因素对试验指标的影响是否显著;根据影响试验指标条件的个数可以区分为单因素方差分析、双因素方差分析和多因素方差分析。(来源于:百度百科)

方差分析中的因素

方差分析中的因素通常是人为选定或可控的影响条件,如对样品的人为处理、样品自身的标记属性等。不可控因素如病人的心情、试验操作人的心情等一般不视为因素或不作为关注的因素;(还有一些不可控因素或通常认为不会带来很多影响的因素,如不同的取样时间、不同的RNA提取时间、提取人、细胞所处的分裂周期等;在某些情况下,如果我们记录了这些因素并且关心这些因素时,也会变为方差分析中的因素)。

举个例子,比如病人服用不同浓度药物后基因表达变化试验中:

  • 基因表达试验指标;

  • 药物浓度是因素,假设有3个水平低浓度中浓度高浓度

这就是单因素方差分析 (one-way ANOVA),比较病人服用不同浓度药物后基因表达的均值是否相等;

如果同时考虑病人的年龄的影响,则

  • 年龄也是因素,有多个水平比如幼年青年成年老年等。

这就是两因素方差分析 (two-way ANOVA),比较用药浓度和年龄对基因表达变化的影响,称为“主效应”影响;有时还需要同时比较浓度+年龄组成的新变量对基因表达变化的影响,称为“交互效应”影响。(如果只是比较浓度+年龄组成的新变量对基因表达变化的影响,就又是单因素方差分析了)

如果再考虑病人的籍贯、药物种类、吃药时间、病人Marker突变等的影响,就是多因素方差分析了。

方差分析中的试验指标

试验中要考察的指标称为试验指标。在上面的例子中基因表达是一个试验指标,不过很笼统,默认为是个基因的表达,称为一元方差分析

那如果是关注个基因或所有基因的表达变化整体是否有差异呢?

这就是多元方差分析,每组样本不是只包含一个试验指标而是多个试验指标

表现在数据形式上:

  • (一元)方差分析是比较多组向量的均值是否存在显著差异。

  • 多元方差分析是比较多组矩阵的均值是否存在显著差异。

因此,比较多组样本整体基因表达的差异、多组样本整体菌群构成的差异,就需要多元方差分析了。

多元方差分析

在统计学中,多元方差分析 (MANOVA, multivariate analysis of variance) 是一种对多个分组中检测了多个指标变量 (这里的变量等同于上面的指标;如每个样本中每个物种的丰度信息、每个样本中每个基因的表达信息)的样本整体均值的检验方法  。作为一个多变量过程,它在有两个或多个因变量时使用,并且通常会分别涉及各个因变量的显着性检验。它有助于回答:

  1. 自变量 (因素)的变化是否对因变量 (试验指标)有显着影响?

  2. 因变量之间有什么关系?

  3. 自变量之间有什么关系?

注: 对应上面 - 所有的因素都是自变量 (independent variable),而试验指标因变量 (dependent variable)。这在看英文文献或不同教程时需要注意描述差异。

多元方差分析 (MANOVA, multivariate analysis of variance)的前提假设可类比于一元方差分析 (观测指标值的独立性、正态性、方差齐性)

  1. 数据独立性。

  2. 每个分组内的检测指标符合多元正态分布。

  3. 每个分组内的检测指标的协方差矩阵一致。

但在很多生物、生态和环境数据集中,多元方差分析的前提假设通常难以满足。

一些鲁棒性更强、对数据分布依赖更少的检验方法被提出来并且获得广泛应用,如ANOSIM (analysis of similarities), PERMANOVA (permutational multivariate analysis of variance) (也称为NPMANOVA, non-parametric MNOAVA), 和Mantel test。这些方法都通过一个样本间的距离矩阵或相似性矩阵构建ANOVA分析类似的统计量,然后对每组的观测结果进行随机置换来计算显著性P-value。对于单因素分析,对数据唯一的假设条件就是观察指标数据存在可置换性 (exchangeability)。

下面我们再介绍如何应用PERMANOVA来检验PcOA等的结果的显著性。

文章转自 微信公众号  生信宝典