什么是正态分布?为何如此重要?终于有人讲明白了 您所在的位置:网站首页 如何理解峰度的计算结果 什么是正态分布?为何如此重要?终于有人讲明白了

什么是正态分布?为何如此重要?终于有人讲明白了

2023-10-07 23:32| 来源: 网络整理| 查看: 265

导读:为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。

在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。

我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。

作者:Farhad Malik

译者:Monanfei

来源:AI科技大本营(ID: rgznai100)

▲1893年人类身高分布图,作者:Alphonse Bertillon

本文的主要内容如下:

概率分布是什么正态分布意味着什么正态分布的变量有哪些如何使用 Python 来检验数据的分布如何使用 Python 参数化生产一个正态分布正态分布的问题01 简短的背景介绍 首先,正态分布又名高斯分布它以数学天才 Carl Friedrich Gauss 命名 正态分布又名高斯分布越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。 因此,理解正态分布非常有必要。 02 什么是概率分布? 首先介绍一下相关概念。

考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。

如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。 事件的概率越大,该事件越容易出现。在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。如果将所有概率值求和,那么求和结果将会是100%

世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。

03 初遇正态分布

我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。

如下图所示,为正态分布的概率分布曲线:

理解和估计变量的概率分布非常重要。

下面列出的变量的分布都比较接近正态分布:

人群的身高成年人的血压传播中的粒子的位置测量误差回归中的残差人群的鞋码一天中雇员回家的总耗时教育指标

此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有