什么是负二项分布?(the negative binomial distribution?)

负二项分布是用于离散随机变量的概率分布。这种类型的分布关系到为获得预定数量的成功而必须进行的试验次数。正如我们将看到的,负二项分布与二项分布相关。此外,该分布推广了几何分布。...

负二项分布是用于离散随机变量的概率分布。这种类型的分布关系到为获得预定数量的成功而必须进行的试验次数。正如我们将看到的,负二项分布与二项分布相关。此外,该分布推广了几何分布。

Student works on a mathematics problem

背景

我们将从观察导致负二项分布的设置和条件开始。其中许多条件与二项式设置非常相似。

  1. 我们有一个伯努利实验。这意味着我们进行的每项试验都有明确的成功和失败,而这是唯一的结果。
  2. 无论我们做了多少次实验,成功的概率都是恒定的。我们用p来表示这个常数概率。
  3. 该实验重复进行X个独立试验,这意味着一个试验的结果对后续试验的结果没有影响。

这三个条件与二项分布中的条件相同。不同之处在于,二项式随机变量具有固定的试验次数n。X的唯一值是0,1,2,…,n,所以这是一个有限分布。

负二项分布与试验次数X有关,试验次数X必须发生,直到我们成功。数字r是我们在开始进行试验之前选择的整数。随机变量X仍然是离散的。然而,现在随机变量的值可以是X=r,r+1,r+2。。。这个随机变量是可数无限的,因为它可能需要任意长的时间才能获得r。

实例

为了帮助理解负二项分布,值得考虑一个例子。假设我们掷一枚公平的硬币,我们会问这样一个问题,“我们在第一次掷X枚硬币时得到三个头的概率是多少?”这种情况需要负二项分布。

掷硬币有两种可能的结果,成功的概率是恒定的1/2,试验是相互独立的。我们询问在掷X枚硬币后获得前三个头的概率。因此,我们必须掷硬币至少三次。然后我们继续翻转,直到第三个头出现。

为了计算负二项分布的概率,我们需要更多的信息。我们需要知道概率质量函数。

概率质量函数

负二项分布的概率质量函数只需稍加考虑即可得到。每个试验都有p给出的成功概率。由于只有两种可能的结果,这意味着失效概率是常数(1-p)。

第X次和最后一次试验必须成功。之前的x-1试验必须包含完全r-1的成功。这可能发生的方式的数量由组合的数量给出:

C(x-1,r-1)=(x-1)/[(r-1)!(x-r)!]。

除此之外,我们还有独立的事件,所以我们可以将概率相乘。把所有这些放在一起,我们得到了概率质量函数

f(x)=C(x-1,r-1)pr(1-p)x-r。

分发的名称

我们现在能够理解为什么这个随机变量具有负二项分布。通过设置x-r=k,我们在上面遇到的组合数可以以不同的方式写入:

(x-1)/[(r-1)!(x-r)!]=(x+k-1)/[(r-1)!k!]=(r+k-1)(x+k-2)。(r+1)(r)/k!=(-1)k(-r)(-r-1)。(-r-(k+1)/k!。

这里我们看到了负二项式系数的出现,当我们将二项式表达式(a+b)提升为负幂时,会用到这个系数。

意思是

知道分布的平均值很重要,因为它是表示分布中心的一种方法。这类随机变量的平均值由其期望值给出,等于r/p。我们可以用这个分布的矩母函数仔细地证明这一点。

直觉也引导我们找到这个表达。假设我们进行一系列试验n1,直到获得r成功。然后我们再做一次,只是这次需要2次试验。我们一次又一次地继续这个过程,直到我们有大量的试验组N=n1+n2+…+nk。

这些k试验中的每一个都有r个成功案例,因此我们总共有kr个成功案例。如果N很大,那么我们将看到Np的成功。因此,我们将它们等同在一起,得到kr=Np。

我们做一些代数,发现N/k=r/p。这个等式左侧的分数是我们k组试验中每个试验所需的平均试验次数。换句话说,这是执行实验的预期次数,因此我们总共获得了r个成功。这正是我们希望找到的期望。我们看到这等于r/p公式。

方差

负二项分布的方差也可以用矩母函数来计算。当我们这样做时,我们看到该分布的方差由以下公式给出:

r(1-p)/p2

矩母函数

这类随机变量的矩母函数相当复杂。回想一下,力矩生成函数被定义为期望值E[etX]。通过将此定义与概率质量函数结合使用,我们得到:

M(t)=E[etX]=∑(x-1)/[(r-1)!(x-r)!]etXpr(1-p)x-r

经过一些代数运算,这就变成了M(t)=(pet)r[1-(1-p)et]-r

与其他分配的关系

上面我们已经看到负二项分布在许多方面与二项分布相似。除此之外,负二项分布是几何分布的更一般版本。

几何随机变量X统计第一次成功之前所需的试验次数。很容易看出,这正是负二项分布,但r等于1。

负二项分布的其他公式也存在。一些教科书将X定义为直到r故障发生的试验次数。

示例问题

我们将看一个示例问题,了解如何处理负二项分布。假设一个篮球运动员是80%的罚球命中率。此外,假设一次罚球与下一次罚球无关。对于这个球员来说,第八个篮筐在第十次罚球时被投进的概率是多少?

我们看到有一个负二项分布的设置。成功的恒定概率为0.8,因此失败的概率为0.2。我们想确定当r=8时X=10的概率。

我们将这些值插入概率质量函数:

f(10)=C(10-1,8-1)(0.8)8(0.2)2=36(0.8)8(0.2)2,约为24%。

然后我们可以问,在这名球员投进8次罚球之前,罚球的平均次数是多少。由于预期值为8/0.8=10,因此这是放炮次数。

  • 发表于 2021-10-07 11:15
  • 阅读 ( 879 )
  • 分类:数学

你可能感兴趣的文章

分类(classification)和二项式命名法(binomial nomenclature)的区别

...项命名法都有助于区分物种。 目录 1. 概述和主要区别 2. 什么是分类 3. 什么是二项式命名法 4. 分类法与二项式命名法的相似性 5. 并列比较——表格形式的分类与二项命名法 6. 摘要 什么是分类(classification)? 分类是根据相似性...

  • 发布于 2020-09-22 04:52
  • 阅读 ( 492 )

二项式(binomial)和正态分布(normal distribution)的区别

...个离散的随机变量;因此,二项分布也是离散的。   The distribution is denoted as X ~B(n,p) where n is the number of experiments and p is the probability of success. According to probability theory, we can deduce that B(n,p) follows the probability mass function . From this equati...

  • 发布于 2020-10-24 22:11
  • 阅读 ( 1995 )

均匀分布

什么是均匀分布(uniform distribution)? 在统计学中,均匀分布指的是一种概率分布,其中所有结果的可能性相等。一副牌里面有均匀的分布,因为画一颗心、一根棍子、一颗钻石或一把黑桃的可能性是相同的。一枚硬币也有一个均...

  • 发布于 2021-05-30 18:53
  • 阅读 ( 236 )

离散分布

什么是离散分布(discrete distribution)? 离散分布是一种概率分布,描述了离散(个别可数)结果的发生,如1,2,3。。。或者零对一。例如,二项式分布是一种离散分布,它评估在给定次数的试验中出现“是”或“否”结果的概率...

  • 发布于 2021-05-31 21:52
  • 阅读 ( 425 )

对称分布

什么是对称分布(symmetrical distribution)? 当变量的值以规则频率出现,并且通常平均值、中值和模态都出现在同一点时,就会出现对称分布。如果在图形的中间画一条线,它会显示出相互镜像的两面。 在图形形式中,对称分布可...

  • 发布于 2021-06-04 09:29
  • 阅读 ( 454 )

概率分布

什么是概率分布(a probability distribution)? 概率分布是一个统计函数,它描述了一个随机变量在给定范围内所能获得的所有可能值和可能性。该范围将限定在最小和最大可能值之间,但概率分布上可能绘制的可能值的精确位置取决...

  • 发布于 2021-06-09 07:49
  • 阅读 ( 179 )

如何计算二项式概率(calculate binomial probability)

二项式分布是概率论和统计学中离散随机变量的基本概率分布之一。它之所以得名,是因为它的二项式系数涉及到每一个概率计算。它在每个配置的可能组合数中占权重。 考虑一个统计实验,每个事件有两种可能性(成...

  • 发布于 2021-06-27 00:17
  • 阅读 ( 467 )

集中化(centralized)和分布式数据库(distributed database)的区别

...高。这将使生产效率降到最低。 什么是分布式数据库(a distributed database)? A distributed database contains two or more database files located at different locati*** in the network. In other words, the database is split into multiple files. The users can access the nearest data...

  • 发布于 2021-06-30 18:00
  • 阅读 ( 633 )

pdf格式(pdf)和pmf公司(pmf)的区别

为了理解PDF和PMF之间的区别,理解什么是随机变量是很重要的。随机变量是任务不知道其值的变量;换句话说,这个值取决于实验的结果。例如,在抛硬币时,硬币的正面或反面的价值取决于结果。pdf格式(pdf) vs. pmf公司(pmf)PDF和...

  • 发布于 2021-07-09 22:58
  • 阅读 ( 254 )

如何对分布的峰度进行分类(classify the kurtosis of distributions)

数据分布和概率分布的形状不尽相同。有些是不对称的,向左或向右倾斜。其他分布为双峰分布,有两个峰值。讨论分布时要考虑的另一个特征是最左侧和最右侧分布尾部的形状。峰度是分布尾部厚度或重量的度量。分布的峰...

  • 发布于 2021-09-23 21:01
  • 阅读 ( 285 )
dnog983
dnog983

0 篇文章

相关推荐