秩和检验的类型

内容摘要  秩和检验的类型  秩和检验的类型有:  1、配对。对配对比较的资料应采用符号秩和检验,其基本思想是若检验假设成立,则差值的总体分布应是对称的,故正负秩和相差不大。  2、成组。两样本成组资料的比较应用Wilcoxon秩和检验,其基本思想是若检验假设成立,则两组的秩和不会相差太大。  3、多样。多个样本比较

  秩和检验的类型

  秩和检验的类型有:

  1、配对。对配对比较的资料应采用符号秩和检验,其基本思想是若检验假设成立,则差值的总体分布应是对称的,故正负秩和相差不大。

  2、成组。两样本成组资料的比较应用Wilcoxon秩和检验,其基本思想是若检验假设成立,则两组的秩和不会相差太大。

  3、多样。多个样本比较的秩和检验可用KruskalWallis法。

  4、等级。这类资料的特点是无原始值,只知道资料所在组段,故应用该组段秩次的平均值作为其秩次,在此基础上计算秩和并进行假设检验。

  秩和检验的类型

   对配对比较的资料应采用符号秩和检验(signed-rank test),其基本思想是:若检验假设成立,则差值的总体分布应是对称的,故正负秩和相差不应悬殊。检验的基本步骤为:

  (1)建立假设;

  H0:差值的总体中位数为0;

  H1:差值的总体中位数不为0;检验水准为0.05。

  (2)算出各对值的代数差;

  (3)根据差值的绝对值大小编秩;

  (4)将秩次冠以正负号,计算正、负秩和;

  (5)用不为“0”的对子数n及T(任取T+或T-)查检验界值表得到P值作出判断。

  应注意的是当n>25时,可用正态近似法计算u值进行u检验,当相同秩次较多时u值需进行校正。 两样本成组资料的比较应用Wilcoxon秩和检验,其基本思想是:若检验假设成立,则两组的秩和不应相差太大。其基本步骤是:

  (1)建立假设;

  H0:比较两组的总体分布相同;

  H1:比较两组的总体分布位置不同;检验水准为0.05。

  (2)两组混合编秩;

  (3)求样本数最小组的秩和作为检验统计量T;

  (4)以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表;

  (5)根据P值作出统计结论。

  同样应注意的是,当样本含量较大时,应用正态近似法作u检验;当相同秩次较多时,应用校正公式计算u值。 多个样本比较的秩和检验可用Kruskal-Wallis法,其基本步骤为:

  (1)建立假设;

  H0:比较各组总体分布相同;

  H1:比较各组总体分布位置不同或不全相同;检验水准为0.05。

  (2)多组混合编秩;

  (3)计算各组秩和Ri;

  (4)利用Ri计算出检验统计量H;

  (5)查H界值表或利用卡方值确定概率大小。

  应注意的是当相同秩次较多时,应计算校正Hc 这类资料的特点是无原始值,只知其所在组段,故应用该组段秩次的平均值作为其秩次,在此基础上计算秩和并进行假设检验,其步骤与两组或多组比较秩和检验相同。需注意的是由于样本含量较多,相同秩次也较多,应用校正后的u值和H值。

  t检验和秩和检验区别

  t检验和秩和检验区别在于与t检验相比,秩和检验没有对样本分布作任何假设,适用于更广泛的情况。

  选用t-检验的基本前提假设是,两组样本都服从正态分布,且方差相同

  在实际问题中,首先计算出实际样本的t值,然后根据t分布可以查出在原假设下取得该t值的p pp值,最后根据适当的显著性水平(如0.05)来决定是否拒绝原假设,推断两类样本的均值是否有显著差异。

  Wilcoxon秩和检验(rank-sum test),有时也叫Mann-Whitney U检验,是另一类非参数检验方法,它们不对数据分布作特殊假设,因而能适用于更复杂的数据分布情况。而当数据实际上满足正态分布时,用t tt检验更有效。

  秩和检验的做法是,首先将两类样本混合在一起,对所有样本按照所考察的特征从小到大排序。

  在两类样本中分别计算所得排序序号之和,称作秩和。秩和检验的基本思想是,如果一类样本的秩和显著地比另一类小(或大),则两类样本在所考察的特征上有显著差异。秩和检验的统计量就是某一类的秩和

  为了比较两类样本的秩和是否差异显著,需要比较T分布,当样本数目较大时,人们可以用正态分布来近似秩和

  单细胞数据分析中的秩和检验与t检验

   在单细胞数据分析的过程中,寻找差异基因的过程需要用到对基因统计的假设检验(例如函数FindAllMarkers中的test.use参数),我们这里来深入了解一下假设检验的方法和应用环境。

   秩和检验适用于广泛的统计学环境,秩和检验是检验总体分布位置是否相同,因而称为非参数检验(Nonparametric test)。秩和检验(rank sum test)是一类常用的非参数检验。秩和检验首先将数据按从小到大或等级从弱到强转换成秩(也就是顺序),然后求秩和并计算秩和统计量,最后做出统计推断。本文简单介绍秩和检验的原理并基于R语言进行秩和检验的操作。

   假设我们从总体A和总体B中分别采样n_a和n_b个样本构成样本集合a和b。通过将样本集a和b中的所有样本按从小到大顺序转化为秩之后我们可以通过绘图的方式对转换的结果进行展示,在图中我们使用“•”代表来自样本集a,使用“o”代表数据来自样本集b。

   如果总体A和总体B总体分布位置分布相同(H_0:A=B),那么转换的结果如下图所示:

   首先是python(范例),借助于python模块scipy来实现。

   其次是R的实现:(wilcox.test的函数)

   这里可以发现,秩和检验仅仅和数据的总体分布有关,适用于一般的环境 ,在单细胞数据中寻找markergene 的过程中,大部分默认就是采用此方法,当然,这种检验只是一种很常规的检验,离我们真正的数据分析还很遥远。

   t检验,亦称student t检验(Students t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 [1] t检验是用t分布理论来推论差异发生的 概率 ,从而比较两个平均数的差异是否显著。它与 f检验 、 卡方检验 并列。

   这里我们需要注意一下:

   (1)t检验对于大样本分布需要转换,而我们单细胞的数据分布属于大样本分布。

   (2)数据分布为正态分布,单细胞数据是否为正态分布,在我的文章 单细胞数据分析之PCA再认识与ScaleData函数 做了详细的介绍,大家可以看一下。

   t检验最常见的四个用途:

   1、 单样本均值检验(One-sample t-test)

   用于检验 总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等

   2、两独立样本均值检验(Independent two-sample t-test)

   用于检验两对独立的正态数据或近似正态的样本的均值是否相等,这里可根据总体方差是否相等分类讨论

   3、配对样本均值检验(Dependent t-test for paired samples)

   用于检验 一对配对样本的均值的差是否等于某一个值

   4、回归系数的显著性检验(t-test for regression coefficient significance)

   用于检验回归模型的解释变量对被解释变量是否有显著影响。

   单样本T检验用于比较一组数据与一个特定数值之间的差异情况。

   应用场景:

   某个医生检测40名从事铅作业工人的血红蛋白含量,其均数为130.83g/L,标准差为25.74g/L,试分析从事铅作业的工人血红蛋白含量是否不同于正常成年人平均值140g/L?

   我们来看一下这个结果,以p=0.2696,以p=0.05为界,说明没有统计意义。

   两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。

   2、使用的前提条件

   (1)两个样本应该是相互独立的;

   (2)样本来自的两个总体应该服从正态分布。

   显然单细胞使用的就是两独立样本均值检验。

   用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比,配对样本T检验要求样本是配对的。两个样本的样本量要相同;样本先后的顺序是一一对应的。

   配对样本t检验用于样品的两个相关组之间的比较手段。在这种情况下,同一样本有两个值(即一对值)。

   举个例子,在1个月内有20只小鼠接受了治疗X。我们想知道处理X是否会对小鼠的体重产生影响。

   为了回答这个问题,在治疗之前和之后测量了20只小鼠的体重。通过测量相同小鼠体重的两次,我们得到了治疗前的20组值和治疗后的20组值。

   在这种情况下,可以使用配对t检验比较治疗前后的平均体重。

   似然比(likelihood ratio, LR) 是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值,且非常稳定。似然比的计算只涉及到灵敏度与特异度,不受患病率的影响。因检验结果有阳性与阴性之分,似然比可相应地区分为阳性似然比(positive likelihood ratio, +LR)和阴性似然比(negative likelihood ratio, -LR)。阳性似然比是筛检结果的真阳性率与假阳性率之比。说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数。比值越大,试验结果阳性时为真阳性的概率越大。阴性似然比是筛检结果的假阴性率与真阴性率之比。表示错误判断阴性的可能性是正确判断阴性可能性的倍数。其比值越小,试验结果阴性时为真阴阳性的可能性越大。

   似然比检验(likelihood ratio test, LRT) 是一种检验 参数能否反映真实约束 的方法(分布或模型的某参数 θ 等于 θ 0 是否为真实约束)。似然比检验的思想是:“如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在 比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值 。” 可以看出,似然比检验是一种通用的检验方法(比 t 检验、 Κ 2 检验等具有更广的适用范围)。

   这个有点难,我们不展开讨论了,主要就是检验分群结果结束以后,基因的表达分布是否是受到约束的

   Identifies markers of gene expression using ROC analysis. For each gene, evaluates (using AUC) a classifier built on that gene alone, to classify between two groups of cells. An AUC value of 1 means that expression values for this gene alone can perfectly classify the two groupings (i.e. Each of the cells in cells.1 exhibit a higher level than each of the cells in cells.2). An AUC value of 0 also means there is perfect classification, but in the other direction. A value of 0.5 implies that the gene has no predictive power to classify the two groups. Returns a predictive power (abs(AUC-0.5) * 2) ranked matrix of putative differentially expressed genes.

   关于roc的讲解在我的文章里 深入理解R包AUcell对于分析单细胞的作用 详细提到过,大家可以看一下。

 
反对 0 举报 0 收藏 0 打赏 0 评论 0
24小时热闻
今日推荐
浙ICP备2022006665号-2