机器学习中的“分布”

2024-01-06 00:29| 来源: 网络整理| 查看: 265

文章目录前言什么叫分布？随机变量概率分布机器学习中的 “分布” 是概率分布吗？如何理解 “分布” 的概念 BN 论文中所提及的 “分布”

前言

从在输入空间中的一个具体的实例上抽出一些属性，将这些属性组成一组向量，这组向量被称为特征向量。当一个特征向量输入到“学习器”中，“学习器”可以依据输入的特征向量返还一个期望的结果。用通俗的话讲，可以将“学习器”视为一个函数，建立一个输入空间到输出空间的映射，映射规则是由不断训练建立起来的。

一个特征向量所期望的结果，被称为标签。在学习器的训练阶段，我们将特征向量与该特征向量对应的标签一同输入到学习器内，学习器根据自身输出与期望输出的“距离”进行自我优化，不断缩小输出与期望的差距。

考虑到学习器的泛化问题，我们并不要求学习器的输出与期望完全一致，通常我们设立一个相对较“软”的指标。比如对于分类任务而言，我们并不要求学习器输出具体的类别，而是要求学习器输出该特征向量所描述的实例属于某个类的概率是多少；对于回归任务而言，我们期望输出值与期望值尽可能的接近而非完全相同。

习惯上讲特征向量组成的空间称为“特征空间”，也叫”样本空间“，所以特征向量又称为“样本”。在西瓜书中写道：

通常假设样本空间中全体样本服从一个未知的“分布”（distribution），我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”（independent and identically distributed，简称 i.i.d.） ——《机器学习》周志华

那么问题来了，什么叫分布？什么叫独立同分布？为什么要这样假设？

本文即是我个人对机器学习中“分布”的理解。

什么叫分布？

现在的我是一名大四学生，对于分布这个词，我能想到的也就是概率分布，所以我试图从概率分布对分布进行理解，要理解概率分布，先要搞清楚一个名词——随机变量

随机变量

随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。

随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数，灯泡的寿命等等，都是随机变量的实例。

简单来说，随机变量就是把事件抽象为一个数值，这个数值可以是事件的结果、事件的编号、事件的属性等。同一个事件，从不同角度进行抽象，将得到不同的随机变量。比如“一枚灯泡的寿命”，如果从单枚灯泡的角度进行抽象，那么寿命可以为 1年，2年，10年，这里 1 2 10 就是一组随机变量，如果从不同类型的灯泡角度抽象，1号灯泡寿命到达10年，2号灯泡寿命到达10，4号灯泡寿命到达10年，这里的 1 2 4 又是一组随机变量，这两组随机变量因为意义不同，所以是不能放在一起讨论的，所以只有相同意义的随机变量才能放在一起讨论，下面概率分布中所提及的随机变量，都是指意义相同的随机变量。

概率分布

概率分布，是指用于表述随机变量取值的概率规律。将随机变量作为横轴，概率作为纵轴，把随机变量与对应变量画上去，构成一个图形，这个图像就是概率分布的直观表示。通常也用概率分布函数表示 F ( x ) F(x) F(x) 来描述一个概率分布，概率分布函数被定义为： F ( x ) = P { X < x } F(x)=P\{X

【本文地址】

公司简介

联系我们