一篇文章初步了解卡方检验 – TongLi's Blog 您所在的位置:网站首页 p值的大小与拒绝原假设的对或错无关 一篇文章初步了解卡方检验 – TongLi's Blog

一篇文章初步了解卡方检验 – TongLi's Blog

2024-06-02 08:28| 来源: 网络整理| 查看: 265

目录

卡方检验的英文是Chi-Square Test,“卡”是音译。在大数据运营场景中,通常用在检验某个变量(或特征)值是不是和另一个变量有显著关系,因此卡方检验是一个非常重要的算法。而其更大的作用,就是高考要考!!!最近数学刚好在学这个,那我就顺便把它了解详细一些。

本文中查阅和引用了许多资料,由于我本身就菜,如果有任何表述或知识方面的错误,非常欢迎指出。纠正错误既能对我有帮助,也可以避免误导别人!

什么是卡方检验

卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

——摘自百度百科 为什么需要卡方检验 独立性检验:如果我们已知了一些变量之间的关系,那么我们可以推算出各种情况出现的可能,而反过来,如上面所说,我们可以基于已有的数据,通过用卡方检验计算出多个变量之间是否有显著的关系。拟合优度检验:检验一个因素多项分类的实际观察频数与理论频数是否接近。同质性检验:分析鉴定多个不同群体中同一变量的分布是否有显著差异。 卡方检验的原理

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检验主要用于分类变量。

分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造 业”等。

——摘自百度百科 如何进行卡方检验 卡方检验的公式

卡方检验的通用公式:$$X^2=\sum{\frac{\left(A-T\right)^2}{T}} \\A是实际频数(观测到的各个结果的实际出现次数) \\T是理论频数(各个结果理论上会出现的次数)$$

如何求出理论频数T呢?对于两个分类变量\(X\)和\(Y\),他们分别有\(R\)和\(C\)个取值,则可以列出如下的一个\(R×C\)联列表:

\(y_1\)…\(y_C\)总计\(x_1\)\(O_{1,1}\)…\(O_{1,C}\)\(O_{1·}\)……………\(x_R\)\(O_{R,1}\)…\(O_{R,C}\)\(O_{R·}\)总计\(O_{·1}\)…\(O_{·C}\)\(N\)这里的\(O\)指实际出现的频数

每一种情况出现的理论频数T就是在实验\(N\)次时,其出现次数的期望$$E_{i,j}=\frac{O_{i·}×O_{·j}}{N}$$对于多个变量,只需要将这个公式向高纬度拓展即可!但是实际上,在高维联列表中,往往会使用对数线性模型而不再是卡方检验。

自由度

自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常\(df=n-k\)。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

——摘自百度百科 Δ不同自由度的卡方分布图象

例如有两个变量\(a\)和\(b\),且已知\(a+b=10\),那么这个式子的自由度就是1而不是2,因为当\(a\)确定时,\(b\)的值也就确定了,所以只有一个可以不受限制的变量。

为什么要在卡方检验中用到“自由度”这个概念呢?因为卡方检验的基础是卡方分布:

若n个相互独立的随机变量\(ξ_1、ξ_2、……、ξ_n\),均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和\(Q=\sum_{i=1}^{n}ξ_i\)构成一个新的随机变量,其分布规律称为\(X^2\)分布,其中参数\(v\)是自由度,如果两个\(X^2\)分布的\(v\)不同,那么这就是两个不同的\(X^2\)分布,记为\(Q \sim X^2(v)\)或\(Q \sim X_v^2\)

——摘自百度百科

。由此我们知道,不同的自由度会有不同的卡方分布情况,所以进行卡方检验的时候,必须要考虑自由度!通常,在有\(n\)个变量,\(k\)条限制条件的情况下,其自由度是\(n-k\)。对于一个\(R×C\)联列表,其自由度为\((R-1)(C-1)\)。

显著性水平与置信水平

显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。怎么理解呢?就是对于一个命题,我们经过一系列对数据的分析,最终选择相信它是对的或是错的,但是这只是相信与否,与命题本身的对错是无关的,所以有一定的概率,我们选择的那个认值是错误的。你能接受最大的错误的概率,就是显著性水平,记作\(α\)。由此可以看出,α越大,越有可能接纳错误的结果;α越小,得到的结果越有可能准确。

置信度/置信水平是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。怎么理解呢?就是在实验中,永远不可能得到绝对准确的结果,一定会有误差,而对于一些小的误差,我们可以允许他们的存在。置信区间就是我们允许误差存在的一定范围,这是一个主观决定的量,而结果满足正态分布的基础上分布在置信区间内的概率就是置信,记作\(1-α\)。由此可以看出,置信水平越高,置信区间越大,越容易接纳误差。

P值

P值(P value)就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

——摘自百度百科

简单来说就是,如果P



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有