统计学基础 您所在的位置:网站首页 概率分布是什么形式 统计学基础

统计学基础

2024-02-14 14:17| 来源: 网络整理| 查看: 265

变量类型: 连续型变量         如:指数分布、正态分布离散型变量         如:二项分布、泊松分布 三者之间的关系

二项分布(Binomial distribution)

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作B(n,\pi )。伯努利试验是只有两种可能结果的单次随机试验。

伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等

如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。进行一次伯努利试验,成功(X=1)概率为p(020时,Poisson分布可视为近似正态分布。

下图表示出了\lambda对泊松分布的影响,\lambda表示泊松分布的均值。当\lambda变大时,不仅整个分布模式向右移动,数据也更加分散,方差随之变大。

泊松分布的特性 总体均数与总体方差相等:均为\lambda 。可加性:从总体均数分别为\lambda1 和\lambda2 的两个Poisson分布总体中各自随机抽出一份样本,其中稀有事件的发生次数分别为X_{1}X_{2} ,则合计发生数T=X_{1}+X_{2 }也服从Poisson分布,总体均数为\lambda1 +\lambda2 。

可加性的运用:分5次,每次都是监测5毫升的水样,得到的\lambda都比20小,但是5次\lambda相加的之后形成的\lambda比20大的话,我们就可以10毫升水样当中的细菌数的分布用正态近似法了

例:某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为  360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。

\begin{align} P(X400) & = 1-P(X\leq 400)\approx 1-\Phi (\frac{400+0.5-360}{\sqrt{360}}) \\ & = 1-\Phi(2.135)=0.0164 \end{align}

其中,0.5表示连续型校正,表示处理离散型变量,应用到连续型的正态分布的时候,效果更佳的一种修正。

注意:泊松分布不具备可乘性。

指数分布

设随机变量X的分布密度函数为

f(x)=\left\{\begin{matrix} \lambda e^{-\lambda x},x0\\ 0,x\leq 0 \end{matrix}\right.

其中\lambda 0为常数,我们称X服从参数为\lambda的指数分布,记作X\sim E(\lambda ),其相应的分布函数为

F(x)=\left\{\begin{matrix} 1-e^{-\lambda x},x0 \\ 0,x\leq 0 \end{matrix}\right.

f(x)F(x)的图形见下图。

指数分布的特性 总体均数E(X)=\frac{1}{\lambda},总体方差D(X)=\frac{1}{\lambda ^{2}}

指数分布通常用作各种“寿命”的分布。例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。

例、某电子元件的使用寿命X是一个连续型随机变量,其概率密度为

f(x)=\left\{\begin{matrix} k e^{-\frac{x}{100}},x0\\ 0,x\leq 0 \end{matrix}\right.

(1)确定常数k

(2)求寿命超过100小时的概率

(3)已知该元件已经正常使用200小时,求它至少还能正常使用100小时的概率。

解:

(1)由概率密度函数性质2知

\int_{0}^{+\propto }ke^{-\frac{x}{100}}dx=[-100ke^{-\frac{x}{100}}]|_{0}^{+\propto}=100k=1,得k=0.01

(2)寿命超过100小时的概率为

P(X100)=1-F(100)=1-(1-e^{-0.01\times 100})=e^{-1}\approx 0.3679

(3)条件概率

\begin{align} P(X300|X200) &=\frac{P(X300,X200)}{P(X200)}\\&=\frac{P(X300)}{P(X200)}\\&=\frac{e^{-3}}{e^{-2}}=e^{-1}\approx 0.3679 \end{align}

由(2),(3)可知,该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率,这个性质称为指数分布的“无记忆性”。

若随机变量X对任意的s0,t0都有P(Xs+t|Xs)=P(Xt),则称X的分布具有无记忆性。

因此,指数分布具有无记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s无关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以人们也戏称指数分布是“永远年轻的”。

正态分布(Normal distribution)

正态分布的概率密度函数(即纵向的曲线高度)

f(X)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}-\infty X +\infty

\sigma规定了曲线的形状,\mu反应了其在横轴上的位置不同。

正态分布的特征 关于x=\mu对称,即正态分布以均数为中心,左右对称。在x=\mu处取得概率密度函数的最大值,在x=\mu\pm \sigma处有拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。正态分布有两个参数,即均数\mu和标准差\sigma\mu是位置参数,\sigma是变异度参数(形状参数)。常用N(\mu ,\sigma ^{2})表示均数为\mu,标准差为\sigma的正态分布;用N(0 ,1)表示标准正态分布。正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1(也常写作100%)。 正态方程的积分式(概率分布函数):

概率分布函数即为正态概率密度曲线下的面积 。

F(X)=\frac{1}{\sigma \sqrt{2\pi }}\int_{-\infty }^{X}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}dX

F(X)为正态变量X的累计分布函数,反映正态曲线下,横轴尺度自-\inftyX的面积,即下侧累计面积。

标准正态分布

均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。

对于任意一个服从正态分布N(\mu ,\sigma ^{2})的随机变量,可作如下的标准化变换,也称Z(z-score)变换:

其中,Z=\frac{X-\mu }{\sigma },标准正态分布的概率密度函数:f(Z)=\frac{1}{\sqrt{2\pi }}e^{-\frac{Z^{2}}{2}}

标准正态分布方程积分式(概率分布函数):

\Phi (Z)=\frac{1}{2\pi }\int_{-\infty }^{Z}e^{-\frac{Z^{2}}{2}}dZ

\Phi (Z)为标准正态变量Z的累计分布函数,反映标准正态曲线下,横轴尺度自-\inftyZ的面积,即下侧累计面积,如下图所示。 

标准正态分布表

用查表代替计算必须注意:

表中曲线下面积为-\inftyZ的面积。当\mu,\sigmaX已知时,先求出Z值, Z=\frac{X-\mu }{\sigma },再用Z值查表,得所求区间占总面积的比例。当\mu\sigma未知时,要用样本均数\overline{X}和样本标准差S来估计Z值,Z=\frac{X-\overline{X} }{S}。曲线下对称于0的区间,面积相等。 曲线下横轴上的面积为1 (即100% )。

正态分布是一种对称分布,其对称轴为直线X=\mu,即均数位置。

理论上:

\mu \pm 1\sigma范围内曲线下的面积占总面积的68.27%\mu \pm 1.96\sigma范围内曲线下的面积占总面积的95%\mu \pm 2.58\sigma范围内曲线下的面积占总面积的99% 

实际上:

\overline{X} \pm 1S范围内曲线下的面积占总面积的68.27%\overline{X} \pm 1.96S范围内曲线下的面积占总面积的95%\overline{X} \pm 2.58 S范围内曲线下的面积占总面积的99% 

实际应用中,我们一般将1.96看似成2,2.58看似成3。

标准正态分布的\mu=0,\sigma=1,则 

\mu \pm 1\sigma相当于区间(­1,1)\mu \pm 1.96\sigma相当于区间(­1.96,1.96)\mu \pm 2.58\sigma相当于区间(­2.58,2.58)区间(­1,1)的面积:1-2\Phi (-1)=1­-2×0.1587=0.6826=68.26% 区间(­1.96,1.96)的面积:1-2\Phi (-1.96 )=1­-2×0.0250=0.9500=95.00%区间(­2.58,2.58)的面积:1-2\Phi (-2.58)=1­-2×0.0049=0.9902=99.02% 

例: 已知某地1986年120名8岁男童身高均数 \overline{X}=123.02cmS=4.79cm,估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高界于120cm~128cm者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围?

(1)先做标准化转换:

Z=\frac{X-\overline{X} }{S}=\frac{130-123.02}{4.79}=1.46

\Phi (-Z)=\Phi (-1.46)=0.0721         根据标准正态分布的对称性

理论上该地8岁男孩身高在130 cm以上者占该地8岁男孩总数的7.21%。

(2)

Z_{1}=\frac{X_{1}-\overline{X} }{S}=\frac{120-123.02}{4.79}=-0.63      \Phi (Z_{1})=\Phi (-0.63)=0.2643

Z_{2}=\frac{X_{2}-\overline{X} }{S}=\frac{128-123.02}{4.79}=1.04         \Phi (Z_{2})=1-\Phi (-1.04)=0.8508

\Phi (Z_{2})-\Phi (Z_{1})=0.8508-0.2643=0.5865

(3)

查标准正态分布界值表,标准正态分布曲线下左侧面积为0.10所对应的Z值为­1.28,所以80%的8岁男孩身高值集中在\overline{X} \pm 1.28S区间内,即116.9cm~129.2cm

正态分布的应用

制定参考值范围的步骤:

选择足够数量的正常人作为调查对象。样本含量足够大。确定取单侧还是取双侧正常值范围。

有些指标过高过低都是异常的,我们需要制定双侧的正常值范围

有些指标过低才是异常的,比如肺活量,我们只要制定单侧的正常值范围

选择适当的百分界限。

在实际操作当中,我们一般将正常人中的5%排除在外,计算95%参考值范围。

选择适当的计算方法。

正态近似法:适用于正态分布或近似正态分布的资料。

例1  某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L  ,试估计该地正常女性血红蛋白的95%医学参考值范围。

分析:正常人的血红蛋白过高过低均为异常,要制定双侧正常值范围。

 \overline{X} \pm 1.96S=117.4\pm 1.96\times 10.2 = 97.41\sim 137.39

该指标的95%医学参考值范围为97.41~137.39(g/L) 

百分位数法:适用于偏态分布资料。 

例2 某年某市调查了200例正常成人血铅含量(μg/100g)  如下,试估计该市成人血铅含量的95%医学参考值范围。

分析:血铅的分布为偏峰分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。

P_{95}=L+\frac{i}{f_{x}}(n\cdot x \%-\sum f_{L})=38+\frac{5}{7}(200\times 95\%-189)=38.7\mu g /100g

 

 

 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有