统计学基础 | 您所在的位置:网站首页 › 概率分布是什么形式 › 统计学基础 |
变量类型:
连续型变量 如:指数分布、正态分布离散型变量 如:二项分布、泊松分布
三者之间的关系
二项分布(Binomial distribution)
二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机试验。 伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。进行一次伯努利试验,成功(X=1)概率为p(020时,Poisson分布可视为近似正态分布。下图表示出了对泊松分布的影响,表示泊松分布的均值。当变大时,不仅整个分布模式向右移动,数据也更加分散,方差随之变大。 泊松分布的特性 总体均数与总体方差相等:均为 。可加性:从总体均数分别为1 和2 的两个Poisson分布总体中各自随机抽出一份样本,其中稀有事件的发生次数分别为 和 ,则合计发生数也服从Poisson分布,总体均数为1 +2 。可加性的运用:分5次,每次都是监测5毫升的水样,得到的都比20小,但是5次相加的之后形成的比20大的话,我们就可以10毫升水样当中的细菌数的分布用正态近似法了 例:某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为 360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。 其中,0.5表示连续型校正,表示处理离散型变量,应用到连续型的正态分布的时候,效果更佳的一种修正。 注意:泊松分布不具备可乘性。 指数分布设随机变量X的分布密度函数为 其中为常数,我们称服从参数为的指数分布,记作,其相应的分布函数为 和的图形见下图。 指数分布的特性 总体均数,总体方差。指数分布通常用作各种“寿命”的分布。例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。 例、某电子元件的使用寿命X是一个连续型随机变量,其概率密度为 (1)确定常数k (2)求寿命超过100小时的概率 (3)已知该元件已经正常使用200小时,求它至少还能正常使用100小时的概率。 解: (1)由概率密度函数性质2知 ,得。 (2)寿命超过100小时的概率为 (3)条件概率 由(2),(3)可知,该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率,这个性质称为指数分布的“无记忆性”。 若随机变量X对任意的都有,则称X的分布具有无记忆性。 因此,指数分布具有无记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s无关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以人们也戏称指数分布是“永远年轻的”。 正态分布(Normal distribution)正态分布的概率密度函数(即纵向的曲线高度) , 规定了曲线的形状,反应了其在横轴上的位置不同。 正态分布的特征 关于对称,即正态分布以均数为中心,左右对称。在处取得概率密度函数的最大值,在处有拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。正态分布有两个参数,即均数和标准差。是位置参数,是变异度参数(形状参数)。常用表示均数为,标准差为的正态分布;用表示标准正态分布。正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1(也常写作100%)。 正态方程的积分式(概率分布函数):概率分布函数即为正态概率密度曲线下的面积 。 为正态变量的累计分布函数,反映正态曲线下,横轴尺度自到的面积,即下侧累计面积。 标准正态分布均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。 对于任意一个服从正态分布的随机变量,可作如下的标准化变换,也称(z-score)变换: 其中,,标准正态分布的概率密度函数: 标准正态分布方程积分式(概率分布函数): 为标准正态变量的累计分布函数,反映标准正态曲线下,横轴尺度自到的面积,即下侧累计面积,如下图所示。 标准正态分布表用查表代替计算必须注意: 表中曲线下面积为到的面积。当,和已知时,先求出值, ,再用Z值查表,得所求区间占总面积的比例。当和未知时,要用样本均数和样本标准差来估计值,。曲线下对称于0的区间,面积相等。 曲线下横轴上的面积为1 (即100% )。正态分布是一种对称分布,其对称轴为直线,即均数位置。 理论上: 范围内曲线下的面积占总面积的68.27%范围内曲线下的面积占总面积的95%范围内曲线下的面积占总面积的99%实际上: 范围内曲线下的面积占总面积的68.27%范围内曲线下的面积占总面积的95%范围内曲线下的面积占总面积的99%实际应用中,我们一般将1.96看似成2,2.58看似成3。 标准正态分布的=0,=1,则 相当于区间(1,1)相当于区间(1.96,1.96)相当于区间(2.58,2.58)区间(1,1)的面积:=1-2×0.1587=0.6826=68.26% 区间(1.96,1.96)的面积:=1-2×0.0250=0.9500=95.00%区间(2.58,2.58)的面积:=1-2×0.0049=0.9902=99.02%例: 已知某地1986年120名8岁男童身高均数 ,,估计(1)该地8岁男孩身高在130以上者占该地8岁男孩总数的百分比;(2)身高界于120~128者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围? (1)先做标准化转换: 根据标准正态分布的对称性 理论上该地8岁男孩身高在130 以上者占该地8岁男孩总数的7.21%。 (2)
(3) 查标准正态分布界值表,标准正态分布曲线下左侧面积为0.10所对应的值为1.28,所以80%的8岁男孩身高值集中在区间内,即116.9~129.2。 正态分布的应用制定参考值范围的步骤: 选择足够数量的正常人作为调查对象。样本含量足够大。确定取单侧还是取双侧正常值范围。有些指标过高过低都是异常的,我们需要制定双侧的正常值范围 有些指标过低才是异常的,比如肺活量,我们只要制定单侧的正常值范围 选择适当的百分界限。在实际操作当中,我们一般将正常人中的5%排除在外,计算95%参考值范围。 选择适当的计算方法。正态近似法:适用于正态分布或近似正态分布的资料。 例1 某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L ,试估计该地正常女性血红蛋白的95%医学参考值范围。 分析:正常人的血红蛋白过高过低均为异常,要制定双侧正常值范围。
该指标的95%医学参考值范围为97.41~137.39(g/L) 百分位数法:适用于偏态分布资料。 例2 某年某市调查了200例正常成人血铅含量(μg/100g) 如下,试估计该市成人血铅含量的95%医学参考值范围。 分析:血铅的分布为偏峰分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。
|
CopyRight 2018-2019 实验室设备网 版权所有 |