协方差是一种统计计算,可以帮助你了解两组数据之间的关系。例如,假设人类学家正在研究某种文化中的人群的身高和体重。对于研究中的每个人,身高和体重可以用一个(x,y)数据对来表示。这些数值可以用一个标准公式来计算协方差关系。本文将首先解释寻找数据集协方差的计算方法。然后,它将讨论两种更自动化的方法来寻找结果。...
方法1方法1的4:用标准公式手工计算协方差
- 1学习标准协方差公式及其组成部分。计算协方差的标准公式是Σ(xi-xavg)(yi-yavg)/(n-1){displaystyle\Sigma (x_{i}-x_{text{avg})(y_{i}-y_{text{avg})/(n-1) }。要使用这个公式,你需要了解这些变量和符号的含义。Σ{\displaystyle Σ }这个符号是希腊字母 "s"。- 这个符号是希腊字母 "sigma"。在数学函数中,它意味着把后面的一系列东西加起来。在这个公式中,Σ符号意味着你将计算分数分子后面的数值,并将它们全部相加,然后再除以分母。 xi{displaystyle x_{i}}这个变量读作 "x子"。- 这个变量被读作 "x sub i"。i下标代表一个计数器。它意味着你将对数据集中的每个x值进行计算。xavg{displaystyle x_{avg}}这个变量读作 "x sub i"。- avg "表示x(avg)是你所有的x数据点的平均值。平均值有时也被写成一个x,上面画一条短的水平线。在这种风格下,该变量被读作 "x-bar",但它仍然意味着数据集的平均值。yi{displaystyle y_{i}}- 这个变量被读作 "y sub i"。i下标代表一个计数器。它意味着你将对你的数据集中的每个y值进行计算。yavg{displaystyle y_{avg}}- avg "表示y(avg)是你所有的y数据点的平均值。平均值有时也被写成一个y,上面画有一条短的水平线。在这种风格下,该变量被读作 "y-bar",但它仍然意味着数据集的平均值。n{displaystyle n}--该变量代表你的数据集中的项目数。请记住,对于协方差问题,一个 "项目 "是由一个X值和一个Y值组成的。n的值是数据点的对数,而不是单个数字。
- 2设置你的数据表。在你开始工作之前,收集你的数据是有帮助的。你应该制作一个由五列组成的表格。你应该给每一列贴上如下标签:x{displaystyle x}--用你的x数据点的值填入这一列。y{displaystyle y}--用你的y数据点的值填入这一列。请注意将Y值与相应的X值对齐。在协方差问题中,数据点的顺序以及x和y的配对很重要。(xi-xavg){displaystyle (x_{i}-x_{text{avg})}。- 开始时这一栏留空。(yi-yavg){displaystyle (y_{i}-y_{text{avg})} 开始时将这一列留空,在你计算完x数据点的平均值后,你将用数据填充它。}- 开始时这一栏留空。你将在计算y数据点的平均值后用数据填充它。 Product{displaystyle {text{Product}}最后一列也留空。}- 最后这一栏也留空。你将会在你进行的过程中填补它。
- 3计算X数据点的平均值。这个样本数据集包含9个数字。为了找到平均数,把它们加在一起,然后用总和除以9,这样你就得到了1+3+2+5+8+7+12+2+4=44的结果。当你除以9时,平均数是4.89。这就是你在接下来的计算中要使用的x(avg)值。
- 4计算y数据点的平均值。同样,y列应该由9个数据点组成,与x数据点重合。找到这些数据的平均数。对于这个样本数据集,这将是8+6+9+4+3+3+2+7+7=49。用这个总和除以9,得到平均数为5.44。在接下来的计算中,你将使用5.44作为y(avg)的值。
- 5计算(xi-xavg){\displaystyle(x_{i}-x_{text{avg})}值。对于x列中的每一项,你需要找到该数字与平均值之间的差异。对于这个样本问题,这意味着从每个x数据点中减去4.89。如果原始数据点小于平均值,那么你的结果将是负数。如果原始数据点大于平均值,那么你的结果将是正数。请确保你跟踪负号。例如,x列的第一个数据点是1。在(xi-xavg){displaystyle (x_{i}-x_{text{avg})}列的第一行要输入的值是1-4.89,也就是-3.89。对每个数据点重复这一过程。因此,第二行将是3-4.89,也就是-1.89。第三行将是2-4.89,也就是-2.89。对所有的数据点继续这个过程。这一栏的九个数字应该是:-3.89,-1.89,-2.89,0.11,3.11,2.11,7.11,-2.89,-0.89。
- 6计算(yi-yavg){\displaystyle(y_{i}-y_{text{avg})}值。在这一栏中,你将进行类似的减法,使用y-数据点和y平均值。如果原始数据点小于平均值,那么你的结果将是负数。如果原始数据点大于平均值,那么你的结果将是正数。请确保你记录下负号。因此,对于第一行,你的计算结果将是8-5.44,也就是2.56。第二行将是6-5.44,也就是0.56。当你完成后,这一栏的九个数值应该是2.56,0.56,3.56,-1.44,-2.44,-2.44,-3.44,1.56,1.56。
- 7计算每个数据行的乘积。你将在最后一列的行中填入你在前面两列中计算的数字(xi-xavg){displaystyle(x_{i}-x_{text{avg})}和(yi-yavg){displaystyle(y_{i}-y_{text{avg})}相乘。}小心地逐行工作,并将两个数字乘以相应的数据点。在你进行的过程中,要跟踪任何负号。在这个数据样本的第一行,你计算的(xi-xavg){displaystyle (x_{i}-x_{text{avg}})}是-3.89,(yi-yavg){displaystyle (y_{i}-y_{text{avg})}值是2.56。这两个数字的乘积是-3.89*2.56=-9.96。对于第二行,你将把两个数字相乘-1.88*0.56=-1.06。继续逐行相乘,直到数据集结束。当你完成后,这一列的九个数值应该是-9.96,-1.06,-10.29,-0.16,-7.59,-5.15,-24.46,-4.51,-1.39。
- 8找到最后一列的数值之和。这就是 "Σ "符号发挥作用的地方。在进行了到目前为止的所有计算后,你将把结果相加。对于这个样本数据集,你在最后一列应该有九个数值。把这九个数字加在一起。仔细注意每个数字是正数还是负数。对于这个样本数据集,其总和应该是-64.57。把这个总数写在该列底部的空格中。这代表了标准协方差公式的分子值。
- 9计算协方差公式的分母。标准协方差公式的分子是你刚刚完成计算的数值。分母用(n-1)表示,它只比你的数据集中的数据对的数量少一个。
- 10用分子除以分母。计算协方差的最后一步是将分子Σ(xi-xavg)(yi-yavg){displaystyle\Sigma (x_{i}-x_{text{avg})(y_{i}-y_{text{avg})}除以分母(n-1){displaystyle (n-1)}。这个商就是你的数据的协方差。对于这个样本数据集,这个计算是-64.57/8,得出的结果是-8.07。
方法2方法2之4:使用Excel电子表格计算协方差
- 1注意重复的计算。协方差是一个你应该手工进行几次的计算,这样你就能理解结果的含义。然而,如果你要在解释数据时经常使用协方差值,你会希望找到一种更快、更自动化的方法来获得结果。你现在应该注意到,对于我们这个只有九对数据的相对较小的数据集,计算包括寻找两个平均值,进行十八个单独的减法,九个单独的乘法,一个加法,以及最后一个除法。这就是31次相对较小的计算,以找到一个解决方案。在这一过程中,你有可能丢掉负号或错误地复制你的结果,从而破坏了结果。
- 2创建一个电子表格来计算协方差。如果你能熟练使用Excel(或其他具有计算能力的电子表格),你可以轻松地建立一个表格来寻找协方差。将五列的标题标为手工计算的标题:x、y、(x(i)-x(avg))、(y(i)-y(avg))和Product。为了简化你的标签,你可以把第三列称为 "x差",第四列称为 "y差",只要你记得数据的含义。如果你在电子表格的左上角开始你的表格,那么A1单元格将是x的标签,其他的标签将跨越到E1单元格。
- 3填入数据点。在标有x和y的两列中输入数据值。记住,数据点的顺序很重要,所以你需要把每个y和它相应的x值配对。你的x值将从A2单元格开始,并将继续向下输入你所需要的数据点。
- 4找出x和y值的平均数。Excel会很快为你计算出平均数。在每一列数据下面的第一个空缺单元格中,输入公式=AVG(A2:A___)。在空白处填入与最后一个数据点相对应的单元格编号。例如,如果你有100个数据点,它们将填入A2至A101单元格,所以你将输入=AVG(A2:A101)。对于Y数据,输入公式=AVG(B2:B101)。记住,在Excel中,你以=符号开始公式。
- 5输入(x(i)-x(avg))列的公式。在单元格C2中,你需要输入计算第一个减法的公式。这个公式将是=A2-____。你将在空白处填入包含x数据平均值的单元格地址。对于100个数据点的例子,平均数将在A103单元格,所以你的公式将是=A2-A103。
- 6 对(y(i)-y(avg))数据点重复上述公式。按照同样的例子,这将进入单元格D2。公式将是=B2-B103。
- 7输入 "产品 "栏的公式。在第五列的单元格E2中,你需要输入公式来计算前面两个单元格的乘积。这将是=C2*D2。
- 8将公式复制下来,以填充表格。到目前为止,你只对第2行的第一对数据点进行了编程。使用你的鼠标,突出显示C2、D2和E2单元格。然后将你的光标放在右下角的小方框上,直到出现一个加号。点击鼠标按钮,按住不放,然后向下拖动鼠标,扩大高亮显示的方框,使之充满整个数据表。这一步将自动把C2、D2和E2单元格中的三个公式复制到整个表格中。你应该看到表格自动填充了所有的计算结果。
- 9计算最后一列的总和。你需要找出 "产品 "列中的项目之和。在该列最后一个数据点下的空缺单元格中,输入公式=sum(E2:E___)。在空白处填上最后一个数据点的单元格地址。在100个数据点的例子中,这个公式将进入E103单元格。你将输入=sum(E2:E102)。
- 10找到协方差。你也可以让Excel为你进行最后的计算。最后的计算,在我们的例子中的单元格E103中,代表协方差公式的分子。在该单元格下面,你可以输入公式=E103/___。在空白处填上你所拥有的数据点的数量。在我们的例子中,这将是100。结果将是你的数据的协方差。
方法3 方法3的4:使用网站协方差计算器
- 1 在互联网上搜索协方差计算器。一些学校、编程公司或其他来源已经创建了网站,将非常容易地为你计算协方差值。使用任何搜索引擎,输入搜索词 "协方差计算器"。
- 2输入你的数据。仔细阅读网站上的说明,确保你正确地输入你的数据。重要的是,你的数据对要保持顺序,否则你将产生一个不正确的协方差结果。不同的网站有不同的风格来输入你的数据。例如,在网站http://ncalculators.com/statistics/covariance-calculator.htm,有一个水平框用于输入X值,第二个水平框用于输入Y值。你被告知要输入你的术语,只用逗号隔开。因此,本文前面计算的x数据集将被输入为1,3,2,5,8,7,12,2,4。y数据集将是8,6,9,4,3,3,2,7,7。在另一个网站,https://www.thecalculator.co/math/Covariance-Calculator-705.html,你被提示在第一个框中输入你的x数据。数据是垂直输入的,每行有一个项目。因此,在这个网站上的输入会看起来像:1325871224
- 3计算你的结果。这些计算网站的吸引力在于,在你输入数据后,你一般只需要点击 "计算 "按钮,结果就会自动出现。大多数网站会向你提供x(平均值)、y(平均值)和n的中间计算结果。
方法4 方法4:解释协方差结果
- 1寻找一个正的或负的关系。协方差是一个单一的统计数字,表示一个数据集与另一个数据集的关系。在介绍中提到的例子中,身高和体重都被测量。你会想到,随着个人身高的增长,他们的体重也会增加,从而导致协方差数字为正。再比如,假设收集的数据代表某人练习高尔夫的小时数和他或她可能获得的分数。在这种情况下,你会期待一个负的协方差,这意味着随着练习时间的增加,高尔夫的分数会下降。(在高尔夫运动中,分数越低越好。)考虑一下上面计算的样本数据集。结果协方差是-8.07。这里的负号意味着,随着X值的增加,Y值将趋于下降。事实上,你可以通过观察其中几个值看到这一点。例如,1和2的X值对应于7、8和9的Y值。8和12的x值分别与3和2的y值配对。
- 2解释协方差的大小。如果协方差分数的数字很大,要么是一个大的正数,要么是一个大的负数,那么你可以解释为这意味着这两个数据元素有很强的联系,要么是正的,要么是负的。对于样本数据集,-8.07的协方差是相当大的。请注意,数据值范围从1到12,所以8是一个相当高的数字。这表明x和y数据集之间有很强的联系。
- 3了解缺乏关系的情况。如果你最终得到的协方差等于或非常接近0,你可以得出结论,数据点是相对不相关的。也就是说,一个数值的增加可能会也可能不会导致另一个数值的增加。这两个项几乎是随机联系的。例如,假设你在比较鞋子的大小和SAT的分数。由于影响学生SAT分数的因素很多,我们期望协方差分数接近0,这表明两个数值之间几乎没有联系。
- 4以图形方式查看关系。为了直观地理解协方差,你可以在X-Y坐标平面上绘制你的数据点。当你这样做的时候,你应该很容易看到,这些点虽然不在一条完全的直线上,但倾向于形成一个集群,近似于一条从左上方到右下方的对角线。这就是对负协方差的描述。另外,请注意协方差的数值是-8.07。与数据点相比,这是一个相当大的数字。这个数字很高,说明协方差相当大,你可以从数据点的线性外观中看到这一点。
-
发表于 2022-03-11 13:41
- 阅读 ( 120 )
- 分类:教育