朴素贝叶斯分类:原理

2024-03-07 00:38| 来源: 网络整理| 查看: 265

贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人，他的经历类似梵高。生前没有得到重视，死后，他写的一篇关于归纳推理的论文被朋友翻了出来，并发表了。这一发表不要紧，结果这篇论文的思想直接影响了接下来两个多世纪的统计学，是科学史上著名的论文之一。

贝叶斯原理

贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章，尝试解答在没有太多可靠证据的情况下，怎样做出更符合数学逻辑的推测。什么是“逆向概率”呢？所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解，比如我们已经知道袋子里面有 N 个球，不是黑球就是白球，其中 M 个是黑球，那么把手伸进去摸一个球，就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角，即了解了事情的全貌再做判断。

一个袋子里有10个球，其中6个黑球，4个白球；那么随机抓一个黑球的概率是0.6！

在现实生活中，我们很难知道事情的全貌。贝叶斯则从实际场景出发，提了一个问题：如果我们事先不知道袋子里面黑球和白球的比例，而是通过我们摸出来的球的颜色，能判断出袋子里面黑白球的比例么？

正是这样的一个问题，影响了接下来近 200 年的统计学理论。这是因为，贝叶斯原理与其他统计学推断方法截然不同，它是建立在主观判断的基础上：在我们不了解所有客观事实的情况下，同样可以先估计一个值，然后根据实际结果不断进行修正。假设有一种病叫做“贝叶死”，它的发病率是万分之一，现有一种测试可以检验一个人是否得病的准确率是 99.9%，它的误报率是 0.1%，那么现在的问题是，如果一个人被查出来患有“叶贝死”，实际上患有的可能性有多大？

问题分析：随机拉一个人进行检查，误报率是0.1%。那么如果一个人被检查患病，实际上患有的概率。也就是说，检查出患病准确率是99.9%，那么实际患病的概率是不是99.9%？

先验概率：通过经验来判断事情发生的概率，比如说“贝叶死”的发病率是万分之一，就是先验概率。

后验概率：后验概率就是发生结果之后，推测原因的概率。比如说某人查出来了患有“贝叶死”，那么患病的原因可能是 A、B 或 C。**患有“贝叶死”是因为原因 A 的概率就是后验概率。**它是属于条件概率的一种。

条件概率：事件 A 在另外一个事件 B 已经发生条件下的发生概率，表示为 P(A|B)。比如原因 A 的条件下，患有“贝叶死”的概率，就是条件概率。

似然函数（likelihood function）：

你可以把概率模型的训练过程理解为求参数估计的过程。似然在这里就是可能性的意思，它是关于统计参数的函数。

介绍完贝叶斯原理中的这几个概念，我们再来看下贝叶斯原理，实际上贝叶斯原理就是求解后验概率，我们假设：A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。

患有贝叶死的情况下，测出为阳性的概率为 P(A|B1)=99.9%，没有患贝叶死，但测出为阳性的概率为 P(A|B2)=0.1%。对万分之一的解读：。患有贝叶死的概率为 P(B1)=0.01%，没有患贝叶死的概率 P(B2)=99.99%。

那么我们检测出来为阳性，而且是贝叶死的概率 P(B1，A）–联合概率分布在这里插入图片描述然后我们想求得是检查为阳性的情况下，患有贝叶死的概率，也即是 P(B1|A)

朴素贝叶斯

朴素贝叶斯，它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯，**是因为它假设每个输入变量是独立的。**这个假设很硬，现实生活中根本不满足，但是这项技术对于绝大部分的复杂问题仍然非常有效。

朴素贝叶斯模型由两种类型的概率组成： 1、每个类别的概率P(Cj)； 2、每个属性的条件概率P(Ai|Cj)。

我们回归到贝叶死的案例中来，类型概率是患病，不患病；条件概率是：患病的条件下，被检查出阳性的概率，不患病的条件下，检查出阳性的概率（误诊的概率）。要求的被检查出阳性，那么患病的概率（贝叶斯是求后验概率–知道结果，推测原因的概率，“求什么什么是类别，其它的就是属性条件”！）

为了训练朴素贝叶斯模型，我们需要先给出训练数据，以及这些数据对应的分类。那么上面这两个概率，也就是类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来，概率模型就可以使用贝叶斯原理对新数据进行预测。

贝叶斯原理、贝叶斯分类和朴素贝叶斯这三者之间是有区别的贝叶斯原理是最大的概念，它解决了概率论中“逆向概率”的问题，在这个理论基础上，人们设计出了贝叶斯分类器，朴素贝叶斯分类是贝叶斯分类器中的一种，也是最简单，最常用的分类器。朴素贝叶斯之所以朴素是因为它假设属性是相互独立的，因此对实际情况有所约束，**如果属性之间存在关联，分类准确率会降低。**不过好在对于大部分情况下，朴素贝叶斯的分类效果都不错。

在这里插入图片描述

离散数据案例

我以下面的数据为例，这些是根据你之前的经验所获得的数据。然后给你一个新的数据：身高“高”、体重“中”，鞋码“中”，请问这个人是男还是女？在这里插入图片描述男女就是类型，男C1，女C2; 属性条件：身高A1，体重A2，鞋码A3 那么我们想求在 A1、A2、A3 属性下，Cj 的概率，用条件概率表示就是 P(Cj|A1A2A3)。根据上面讲的贝叶斯的公式，我们可以得出：因为一共有 2 个类别，所以我们只需要求得 P(C1|A1A2A3) 和P(C2|A1A2A3) 的概率即可，然后比较下哪个分类的可能性大，就是哪个分类结果。等价于求 P(A1A2A3|Cj)P(Cj) 最大值

我们假定 Ai 之间是相互独立的，那么：在这里插入图片描述

连续数据案例

在这里插入图片描述那么如果给你一个新的数据，身高 180、体重 120，鞋码 41，请问该人是男是女呢？公式还是上面的公式，这里的困难在于，由于身高、体重、鞋码都是连续变量，不能采用离散变量的方法计算概率。而且由于样本太少，所以也无法分成区间计算。怎么办呢？

这时，可以假设男性和女性的身高、体重、鞋码都是正态分布，通过样本计算出均值和方差，也就是得到正态分布的密度函数。有了密度函数，就可以把值代入，算出某一点的密度函数的值。

比如，男性的身高是均值 179.5、标准差为 3.697 的正态分布。（我们选择不同条件下的样本，得出的均值，标准差就是条件下的概率分布了。这点稍后计算中体现）

所以男性的身高为 180 的概率为 0.1069。怎么计算得出的呢? –excel

NORMDIST(x,mean,standard_dev,cumulative) 函数，一共有 4 个参数：在这里插入图片描述这里我们使用的是 NORMDIST(180,179.5,3.697,0)=0.1069。同理我们可以计算得出男性体重为 120 的概率为 0.000382324，男性鞋码为 41 号的概率为 0.120304111。很明显这组数据分类为男的概率大于分类为女的概率。

总结：

朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。

第一阶段：准备阶段在这个阶段我们需要确定特征属性，比如上面案例中的“身高”、“体重”、“鞋码”等，同时明确预测值是什么。并对每个特征属性进行适当划分，然后由人工对一部分数据进行分类，形成训练样本。

这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段：训练阶段

这个阶段就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。

输入是特征属性和训练样本，输出是分类器。

第三阶段：应用阶段

这个阶段是使用分类器对新数据进行分类。

输入是分类器和新数据，输出是新数据的分类结果。

可以考虑：自编程实现第一阶段，第二阶段！

思考题：

如果你的女朋友，在你的手机里发现了和别的女人的暧昧短信，于是她开始思考了 3 个概率问题，你来判断下下面的 3 个概率分别属于哪种概率：

1、你在没有任何情况下，出轨的概率；（先验概率） 2、在你的手机里发现了暧昧短信，认为你出轨的概率。（条件概率） 3、如果你出轨了，那么你的手机里有暧昧短信的概率；（后验概率）

对应到贝叶斯案例 1、假设有一种病叫做“贝叶死”，它的发病率是万分之一， 2、现有一种测试可以检验一个人是否得病的准确率是 99.9%，它的误报率是 0.1% 3、那么现在的问题是，如果一个人被查出来患有“叶贝死”，实际上患有的可能性有多大？

tips：知道客观事实，诊断出病/认为你出轨（主观判断）这是条件概率–知道原因，推测结果的概率。另一种局面：认为你出轨/诊断出病，推测原因（客观事实）出现的概率这是后验概率（知道结果推测原因发生的概率）

贝叶斯算法的优缺点

优点：（1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。（2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。（3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。缺点：（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。（2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。（3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。（4）对输入数据的表达形式很敏感。

参考文献

数据分析实战45讲统计学习方法（李航）理论推导看这里：https://www.jianshu.com/p/b6cadf53b8b8

【本文地址】

公司简介

联系我们