一篇文章初步了解卡方检验 – TongLi's Blog

2024-06-02 08:28| 来源: 网络整理| 查看: 265

卡方检验的英文是Chi-Square Test，“卡”是音译。在大数据运营场景中，通常用在检验某个变量(或特征)值是不是和另一个变量有显著关系，因此卡方检验是一个非常重要的算法。而其更大的作用，就是高考要考！！！最近数学刚好在学这个，那我就顺便把它了解详细一些。

本文中查阅和引用了许多资料，由于我本身就菜，如果有任何表述或知识方面的错误，非常欢迎指出。纠正错误既能对我有帮助，也可以避免误导别人！

什么是卡方检验

卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

——摘自百度百科为什么需要卡方检验独立性检验：如果我们已知了一些变量之间的关系，那么我们可以推算出各种情况出现的可能，而反过来，如上面所说，我们可以基于已有的数据，通过用卡方检验计算出多个变量之间是否有显著的关系。拟合优度检验：检验一个因素多项分类的实际观察频数与理论频数是否接近。同质性检验：分析鉴定多个不同群体中同一变量的分布是否有显著差异。卡方检验的原理

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。卡方检验主要用于分类变量。

分类变量（categorical variable）是说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。

——摘自百度百科如何进行卡方检验卡方检验的公式

卡方检验的通用公式：$$X^2=\sum{\frac{\left(A-T\right)^2}{T}} \\A是实际频数（观测到的各个结果的实际出现次数） \\T是理论频数（各个结果理论上会出现的次数）$$

如何求出理论频数T呢？对于两个分类变量$X$和$Y$，他们分别有$R$和$C$个取值，则可以列出如下的一个$R×C$联列表：

$y_1$…$y_C$总计$x_1$$O_{1,1}$…$O_{1,C}$$O_{1·}$……………$x_R$$O_{R,1}$…$O_{R,C}$$O_{R·}$总计$O_{·1}$…$O_{·C}$$N$这里的$O$指实际出现的频数

每一种情况出现的理论频数T就是在实验$N$次时，其出现次数的期望$$E_{i,j}=\frac{O_{i·}×O_{·j}}{N}$$对于多个变量，只需要将这个公式向高纬度拓展即可！但是实际上，在高维联列表中，往往会使用对数线性模型而不再是卡方检验。

自由度

自由度(degree of freedom, df)指的是计算某一统计量时，取值不受限制的变量个数。通常$df=n-k$。其中n为样本数量，k为被限制的条件数或变量个数，或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

——摘自百度百科

Δ不同自由度的卡方分布图象

例如有两个变量$a$和$b$，且已知$a+b=10$，那么这个式子的自由度就是1而不是2，因为当$a$确定时，$b$的值也就确定了，所以只有一个可以不受限制的变量。

为什么要在卡方检验中用到“自由度”这个概念呢？因为卡方检验的基础是卡方分布：

若n个相互独立的随机变量$ξ_1、ξ_2、……、ξ_n$，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和$Q=\sum_{i=1}^{n}ξ_i$构成一个新的随机变量，其分布规律称为$X^2$分布，其中参数$v$是自由度，如果两个$X^2$分布的$v$不同，那么这就是两个不同的$X^2$分布，记为$Q \sim X^2(v)$或$Q \sim X_v^2$

——摘自百度百科

。由此我们知道，不同的自由度会有不同的卡方分布情况，所以进行卡方检验的时候，必须要考虑自由度！通常，在有$n$个变量，$k$条限制条件的情况下，其自由度是$n-k$。对于一个$R×C$联列表，其自由度为$(R-1)(C-1)$。

显著性水平与置信水平

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，用α表示。怎么理解呢？就是对于一个命题，我们经过一系列对数据的分析，最终选择相信它是对的或是错的，但是这只是相信与否，与命题本身的对错是无关的，所以有一定的概率，我们选择的那个认值是错误的。你能接受最大的错误的概率，就是显著性水平，记作$α$。由此可以看出，α越大，越有可能接纳错误的结果；α越小，得到的结果越有可能准确。

置信度/置信水平是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度。怎么理解呢？就是在实验中，永远不可能得到绝对准确的结果，一定会有误差，而对于一些小的误差，我们可以允许他们的存在。置信区间就是我们允许误差存在的一定范围，这是一个主观决定的量，而结果满足正态分布的基础上分布在置信区间内的概率就是置信，记作$1-α$。由此可以看出，置信水平越高，置信区间越大，越容易接纳误差。

P值

P值（P value）就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。

——摘自百度百科

简单来说就是，如果P

【本文地址】

公司简介

联系我们