随机序列的游程检验

给定一系列数据，我们可能想知道的一个问题是，这些序列是偶然现象还是数据不是随机的。随机性很难识别，因为很难简单地查看数据并确定它是否仅仅是偶然产生的。一种可以用来帮助确定序列是否真的是偶然发生的方法称为运行测试。...

给定一系列数据，我们可能想知道的一个问题是，这些序列是偶然现象还是数据不是随机的。随机性很难识别，因为很难简单地查看数据并确定它是否仅仅是偶然产生的。一种可以用来帮助确定序列是否真的是偶然发生的方法称为运行测试。

Wooden cutout numbers sitting on a table

运行检验是一种显著性检验或假设检验。此测试的过程基于具有特定特征的数据的运行或序列。为了理解runs测试是如何工作的，我们必须首先检查run的概念。

数据序列

我们首先来看一个运行示例。考虑下面的随机数字序列：

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

对这些数字进行分类的一种方法是将它们分为两类，偶数（包括数字0、2、4、6和8）或奇数（包括数字1、3、5、7和9）。我们将查看随机数字序列，并将偶数表示为E，奇数表示为O：

E-O-O-O-E-O-E-O-E-O-O

如果我们重写它，使所有操作系统都在一起，所有Es都在一起，那么运行就更容易看到了：

欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧欧

我们计算偶数或奇数块的数量，看到数据总共有10次运行。四个梯段长度为一，五个梯段长度为二，一个梯段长度为五

条件

对于任何重要的测试，了解进行测试所需的条件是很重要的。对于运行测试，我们将能够将样本中的每个数据值分为两类中的一类。我们将计算相对于属于每个类别的数据值数量的运行总数。

测试将是一个双面测试。这是因为运行次数太少意味着随机过程可能没有足够的变化和运行次数。如果一个流程在类别之间的交替过于频繁，以致于无法随机描述，则会导致太多的运行。

假设和p值

每项显著性检验都有一个无效假设和一个替代假设。对于运行测试，无效假设是序列是随机序列。另一种假设是样本数据序列不是随机的。

统计软件可以计算对应于特定测试统计的p值。还有一些表格给出了总运行次数在一定意义上的临界值。

运行测试示例

我们将通过下面的示例来了解运行测试是如何工作的。假设一项作业要求一名学生掷硬币16次，并记下出现的正面和反面的顺序。如果我们最终得到这个数据集：

高高高

我们可能会问学生是否真的做了家庭作业，或者他是否作弊并写下了一系列看似随机的H和T？运行测试可以帮助我们。运行测试满足假设，因为数据可分为两组，即头部或尾部。我们继续计算跑步次数。重新组合后，我们可以看到以下内容：

高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时高时

我们的数据有十次运行，七个尾部是九个头部。

无效假设是数据是随机的。另一种选择是它不是随机的。对于α的显著性水平等于0.05，通过查阅适当的表格，我们发现当运行次数小于4次或大于16次时，我们拒绝了零假设。由于我们的数据中有十次运行，我们无法拒绝零假设H0。

正态近似

运行测试是确定序列是否可能是随机的一个有用工具。对于大型数据集，有时可以使用法线近似。这种正态近似要求我们使用每个类别中的元素数量，然后计算适当正态分布的平均值和标准偏差。

发表于 2021-10-05 03:54
阅读 ( 189 )
分类：数学

你可能感兴趣的文章

随机引物(random primers)和寡脱氧胸苷酸(oligo dt)的区别

随机引物和oligo-dT的关键区别在于，随机引物是所有可能的六聚体寡核苷酸序列的混合物，而寡聚dT引物则是由12-18个脱氧胞嘧啶组成的单链。反转录是一种利用mRNA或任何一种RNA合成cDNA的机制。为了获得cDNA，需要提供逆转录...

发布于 2020-10-05 15:47
阅读 ( 675 )

苹果正在改用随机序列号。这就是为什么。。。

苹果将在未来的产品中使用全新的随机序列号，而任何目前正在出货的硬件都将继续使用当前的序列号格式。 ...

发布于 2021-03-11 11:31
阅读 ( 247 )

双尾检验

...如产品袋中食品的数量，5%的拒收率可能是合适的。随机抽样双尾检验也可以在公司的某些生产活动中实际使用，例如在特定工厂生产和包装糖果。如果生产设施指定每袋50个糖果作为其目标，可接受的分配范围为45至55个糖...

发布于 2021-05-31 08:55
阅读 ( 413 )

平稳和非平稳过程简介

...的均值、方差和协方差。非平稳行为可以是趋势、周期、随机游动或三者的组合。通常，非平稳数据是不可预测的，无法建模或预测。使用非平稳时间序列得到的结果可能是虚假的，因为它们可能表明两个变量之间的关系，其...

发布于 2021-06-10 18:20
阅读 ( 177 )

t检验(t-test)和方差分析(anova)的区别

...固定效应模型，仅在其手段上有所不同；b）假设数据的随机效应模型描述了不同种群的层次结构，其差异受层次结构的约束；c）混合效应模型，即存在固定效应和随机效应的情况。总结 t检验用于确定两个平均值或平均值是...

发布于 2021-06-23 14:03
阅读 ( 453 )

方差分析(anova)和t检验(t-test)的区别

...平均数，看他们是否彼此不同时进行。它主要用于当一个随机分配是给定的，只有两个，不超过两个，集比较。在进行T检验时，需要满足一些条件，这样才能得到准确的结果。主要假设是要收集的总体数据是正态分布的，并且...

发布于 2021-06-23 15:51
阅读 ( 1388 )

描述的(descriptive)和分析流行病学(analytic epidemiology)的区别

...实验流行病学和观察流行病学。在实验流行病学中，采用随机选择的方法对不同的研究群体进行研究。有时，它可以是临床程序，研究新药，以防止在一个社区的特定疾病。相反，观察流行病学是基于非随机研究。此外，他们主...

发布于 2021-07-01 23:50
阅读 ( 480 )

t检验(t-test)和f试验(f-test)的区别

...获得t值的可能性。假设单样本t检验需要以下统计假设：随机独立抽样。数据来自正态分布人群。[注：一旦N>30，单样本t检验通常被认为对违反这一假设具有稳健性。]什么是f试验(f-test)？“F检验”使用F分布。它使用F统计量来...

发布于 2021-07-07 02:30
阅读 ( 1054 )

概率抽样(probability sampling)和非概率抽样(non-probability sampling)的区别

...样非概率抽样定义根据某种设置和先决条件从列表中随机选择项目的几种抽样类型之一。通过一个过程收集的样本，在这个过程中，所有属于该样本的成员都没有机会被选中。研究结论性研究探索性研究方** 这类研究...

发布于 2021-07-08 13:43
阅读 ( 253 )

z-检验(z-test)和p值(p-value)的区别

...续的而不是离散的。数据服从正态概率分布。样本必须是随机的，否则检验统计结果可能不正确。总体标准差已知什么是p值(p-value)？P值是在假设零假设正确的情况下，检验统计结果被拒绝或接受的概率。实验设定显著性水平，...

发布于 2021-07-09 14:44
阅读 ( 2184 )