统计学基础

您所在的位置：网站首页 › 概率分布是什么形式 › 统计学基础

统计学基础

2024-02-14 14:17| 来源: 网络整理| 查看: 265

变量类型：连续型变量如：指数分布、正态分布离散型变量如：二项分布、泊松分布三者之间的关系

二项分布(Binomial distribution)

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布，记作 $B(n,\pi )$ 。伯努利试验是只有两种可能结果的单次随机试验。

伯努利试验都可以表达为“是或否”的问题。例如，抛一次硬币是正面向上吗？刚出生的小孩是个女孩吗？等等

如果试验E是一个伯努利试验，将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。进行一次伯努利试验，成功(X=1)概率为p(020时，Poisson分布可视为近似正态分布。

下图表示出了 $\lambda$ 对泊松分布的影响， $\lambda$ 表示泊松分布的均值。当 $\lambda$ 变大时，不仅整个分布模式向右移动，数据也更加分散，方差随之变大。

泊松分布的特性总体均数与总体方差相等：均为 $\lambda$ 。可加性：从总体均数分别为 $\lambda$ 1 和 $\lambda$ 2 的两个Poisson分布总体中各自随机抽出一份样本，其中稀有事件的发生次数分别为 $X_{1}$ 和 $X_{2}$ ，则合计发生数 $T=X_{1}+X_{2 }$ 也服从Poisson分布，总体均数为 $\lambda$ 1 + $\lambda$ 2 。

可加性的运用：分5次，每次都是监测5毫升的水样，得到的 $\lambda$ 都比20小，但是5次 $\lambda$ 相加的之后形成的 $\lambda$ 比20大的话，我们就可以10毫升水样当中的细菌数的分布用正态近似法了

例：某放射性物质半小时内发出的脉冲数服从Poisson分布，平均为 360个，试估计该放射性物质半小时内发出的脉冲数大于400个的概率。

$\begin{align} P(X400) & = 1-P(X\leq 400)\approx 1-\Phi (\frac{400+0.5-360}{\sqrt{360}}) \\ & = 1-\Phi(2.135)=0.0164 \end{align}$

其中，0.5表示连续型校正，表示处理离散型变量，应用到连续型的正态分布的时候，效果更佳的一种修正。

注意：泊松分布不具备可乘性。

指数分布

设随机变量X的分布密度函数为

$f(x)=\left\{\begin{matrix} \lambda e^{-\lambda x},x0\\ 0,x\leq 0 \end{matrix}\right.$

其中 $\lambda 0$ 为常数，我们称 $X$ 服从参数为 $\lambda$ 的指数分布，记作 $X\sim E(\lambda )$ ，其相应的分布函数为

$F(x)=\left\{\begin{matrix} 1-e^{-\lambda x},x0 \\ 0,x\leq 0 \end{matrix}\right.$

$f(x)$ 和 $F(x)$ 的图形见下图。

指数分布的特性总体均数 $E(X)=\frac{1}{\lambda}$ ，总体方差 $D(X)=\frac{1}{\lambda ^{2}}$ 。

指数分布通常用作各种“寿命”的分布。例如，无线电元件的寿命，动物的寿命等，另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布，因此，它在排队论和可靠性理论等领域中有广泛的应用。

例、某电子元件的使用寿命X是一个连续型随机变量，其概率密度为

$f(x)=\left\{\begin{matrix} k e^{-\frac{x}{100}},x0\\ 0,x\leq 0 \end{matrix}\right.$

(1)确定常数k

(2)求寿命超过100小时的概率

(3)已知该元件已经正常使用200小时，求它至少还能正常使用100小时的概率。

解：

(1)由概率密度函数性质2知

$\int_{0}^{+\propto }ke^{-\frac{x}{100}}dx=[-100ke^{-\frac{x}{100}}]|_{0}^{+\propto}=100k=1$ ，得 $k=0.01$ 。

(2)寿命超过100小时的概率为

$P(X100)=1-F(100)=1-(1-e^{-0.01\times 100})=e^{-1}\approx 0.3679$

(3)条件概率

$\begin{align} P(X300|X200) &=\frac{P(X300,X200)}{P(X200)}\\&=\frac{P(X300)}{P(X200)}\\&=\frac{e^{-3}}{e^{-2}}=e^{-1}\approx 0.3679 \end{align}$

由(2),(3)可知，该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率，这个性质称为指数分布的“无记忆性”。

若随机变量X对任意的 $s0,t0$ 都有 $P(Xs+t|Xs)=P(Xt)$ ，则称X的分布具有无记忆性。

因此，指数分布具有无记忆性，若某元件或动物的寿命服从指数分布，则上式表明，如果已知寿命长于s年，则再“活”t年的概率与s无关，即对过去的s时间没有记忆，也就是说只要在某时刻s仍“活”着，它的剩余寿命的分布和原来的寿命分布相同，所以人们也戏称指数分布是“永远年轻的”。

正态分布(Normal distribution)

正态分布的概率密度函数（即纵向的曲线高度）

$f(X)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}$ ， $-\infty X +\infty$

$\sigma$ 规定了曲线的形状， $\mu$ 反应了其在横轴上的位置不同。

正态分布的特征关于 $x=\mu$ 对称，即正态分布以均数为中心，左右对称。在 $x=\mu$ 处取得概率密度函数的最大值，在 $x=\mu\pm \sigma$ 处有拐点，表现为钟形曲线。即正态曲线在横轴上方均数处最高。正态分布有两个参数，即均数 $\mu$ 和标准差 $\sigma$ 。 $\mu$ 是位置参数， $\sigma$ 是变异度参数（形状参数）。常用 $N(\mu ,\sigma ^{2})$ 表示均数为 $\mu$ ，标准差为 $\sigma$ 的正态分布；用 $N(0 ,1)$ 表示标准正态分布。正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1（也常写作100%）。正态方程的积分式（概率分布函数）:

概率分布函数即为正态概率密度曲线下的面积。

$F(X)=\frac{1}{\sigma \sqrt{2\pi }}\int_{-\infty }^{X}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}dX$

$F(X)$ 为正态变量 $X$ 的累计分布函数，反映正态曲线下，横轴尺度自 $-\infty$ 到 $X$ 的面积，即下侧累计面积。

标准正态分布

均数为0，标准差为1的正态分布，这种正态分布称为标准正态分布。

对于任意一个服从正态分布 $N(\mu ,\sigma ^{2})$ 的随机变量，可作如下的标准化变换，也称 $Z$ (z-score)变换：

其中， $Z=\frac{X-\mu }{\sigma }$ ，标准正态分布的概率密度函数： $f(Z)=\frac{1}{\sqrt{2\pi }}e^{-\frac{Z^{2}}{2}}$

标准正态分布方程积分式(概率分布函数)：

$\Phi (Z)=\frac{1}{2\pi }\int_{-\infty }^{Z}e^{-\frac{Z^{2}}{2}}dZ$

$\Phi (Z)$ 为标准正态变量 $Z$ 的累计分布函数，反映标准正态曲线下，横轴尺度自 $-\infty$ 到 $Z$ 的面积，即下侧累计面积，如下图所示。

标准正态分布表

用查表代替计算必须注意：

表中曲线下面积为 $-\infty$ 到 $Z$ 的面积。当 $\mu$ , $\sigma$ 和 $X$ 已知时，先求出 $Z$ 值， $Z=\frac{X-\mu }{\sigma }$ ，再用Z值查表，得所求区间占总面积的比例。当 $\mu$ 和 $\sigma$ 未知时，要用样本均数 $\overline{X}$ 和样本标准差 $S$ 来估计 $Z$ 值， $Z=\frac{X-\overline{X} }{S}$ 。曲线下对称于0的区间，面积相等。曲线下横轴上的面积为1 （即100% ）。

正态分布是一种对称分布，其对称轴为直线 $X=\mu$ ，即均数位置。

理论上：

$\mu \pm 1\sigma$ 范围内曲线下的面积占总面积的68.27% $\mu \pm 1.96\sigma$ 范围内曲线下的面积占总面积的95% $\mu \pm 2.58\sigma$ 范围内曲线下的面积占总面积的99%

实际上：

$\overline{X} \pm 1S$ 范围内曲线下的面积占总面积的68.27% $\overline{X} \pm 1.96S$ 范围内曲线下的面积占总面积的95% $\overline{X} \pm 2.58 S$ 范围内曲线下的面积占总面积的99%

实际应用中，我们一般将1.96看似成2，2.58看似成3。

标准正态分布的 $\mu$ =0， $\sigma$ =1，则

$\mu \pm 1\sigma$ 相当于区间(1，1) $\mu \pm 1.96\sigma$ 相当于区间(1.96，1.96) $\mu \pm 2.58\sigma$ 相当于区间(2.58，2.58)区间(1,1)的面积： $1-2\Phi (-1)$ =1-2×0.1587=0.6826=68.26% 区间(1.96,1.96)的面积： $1-2\Phi (-1.96 )$ =1-2×0.0250=0.9500=95.00%区间(2.58,2.58)的面积： $1-2\Phi (-2.58)$ =1-2×0.0049=0.9902=99.02%

例: 已知某地1986年120名8岁男童身高均数 $\overline{X}=123.02cm$ ， $S=4.79cm$ ，估计(1)该地8岁男孩身高在130 $cm$ 以上者占该地8岁男孩总数的百分比；(2)身高界于120 $cm$ ~128 $cm$ 者占该地8岁男孩总数的比例；(3)该地80%男孩身高集中在哪个范围？