相關性(correlation)和回歸(regression)的區別

相關和回歸是統計學中用來研究變數之間關係的兩種方法。相關性和回歸的主要區別在於相關性衡量兩個變數之間的關聯程度,而回歸是描述兩個變數之間關係的一種方法。回歸還可以更準確地預測因變數對自變數給定值的取值。...

主要區別-相關與回歸

相關和回歸是統計學中用來研究變數之間關係的兩種方法。相關性和回歸的主要區別在於相關性衡量兩個變數之間的關聯程度,而回歸是描述兩個變數之間關係的一種方法。回歸還可以更準確地預測因變數對自變數給定值的取值。

什麼是相關性(correlation)?

In statistics, we say there is a correlation between two variables if the two variables are related. If the relati***hip between the variables is a linear one, we can express the degree to which they are related using a number called Pearson’s correlation coefficient  .  takes a value between -1 and 1. A value of 0 means that the two variables are uncorrelated. Negative values indicate that the correlation between the variables is negative: i.e. as one variable increases, the other variable decreases. Similarly, a positive value for means that the data is positively correlated (when one variable increases, the other variable increases too).

A value of  that is -1 or 1 gives the strongest possible correlation. When  the variables are said to be completely negatively correlated and when  the values are said to be completely positively correlated. The figure below shows several shapes of scatter plots between two variables and the correlation coefficient for each case:

Difference Between Correlation and Regression - Correlation_coefficient

Pearson’s correlation coefficient for different types of scatter plots

Pearson’s correlation coefficient for two variables and is defined as follows:

Here,  is the covariance between  and :

The terms  and  stand for standard deviati*** of  and  respectively.This is defined as:

and 

Let us see how the correlation coefficient is calculated using an example. We will try to calculate the correlation coefficient for the following set of 20 values for and  :

-0.9557 0.5369
-1.6441 -0.1560
1.2254 1.9230
1.9062 1.9957
1.9679 2.1673
-0.3469 0.7954
-0.2328 0.5415
1.5064 1.2335
0.4278 0.7754
-0.6359 0.3534
0.0061 0.7565
0.8407 1.5326
0.2713 1.3354
0.4664 1.9980
-0.1813 1.2539
1.4384 2.0383
1.9001 2.7755
0.1022 0.7861
0.1251 0.7456
-0.6314 0.9942

The values of  are plotted against the values of  on the graph shown below:

相關性(correlation)和回歸(regression)的區別

Looking at the equati*** needed to calculate the correlation coefficient, we will first calculate values for . These are the mean values of and respectively. We find that:

Next, we will calculate and . We will put these values next to our values of  and  on the table above:

-0.9557 0.5369 -0.5131 1.7782 0.4654
-1.6441 -0.1560 0.2565 4.0881 1.8909
1.2254 1.9230 2.3564 0.7184 0.4955
1.9062 1.9957 3.8042 2.3360 0.6031
1.9679 2.1673 4.2650 2.5284 0.8991
-0.3469 0.7954 -0.2759 0.5252 0.1795
-0.2328 0.5415 -0.1261 0.3728 0.4592
1.5064 1.2335 1.8581 1.2737 0.0002
0.4278 0.7754 0.3317 0.0025 0.1969
-0.6359 0.3534 -0.2247 1.0276 0.7495
0.0061 0.7565 0.0046 0.1382 0.2140
0.8407 1.5326 1.2885 0.2143 0.0983
0.2713 1.3354 0.3623 0.0113 0.0135
0.4664 1.9980 0.9319 0.0079 0.6067
-0.1813 1.2539 -0.2273 0.3126 0.0012
1.4384 2.0383 2.9319 1.1249 0.6711
1.9001 2.7755 5.2737 2.3174 2.4223
0.1022 0.7861 0.0803 0.0760 0.1875
0.1251 0.7456 0.0933 0.0639 0.2242
-0.6314 0.9942 -0.6277 1.0185 0.0506

利用這些值,我們可以計算協方差:

我們還可以計算標準偏差:

現在我們可以計算相關係數:

什麼是回歸(regression)?

Regression is a method for finding the relati***hip between two variables. Specifically, we will look at linear regression, which gives an equation for a “line of best fit” for a given sample of data, where two variables have a linear relati***hip. A straight line can be described with an equation in the form of  where  is the gradient of the line and  axis, and linear regression allows us to calculate the values of  and  . Once we have calculated the correlation coefficient  , we can calculate these values as:

Note that in these cases, is taken to be the dependent variable while is the independent variable. From our previous calculati***, we know that

, and  . Therefore,  .

and  . Therefore,  .

The image below shows the previous scatter plot with the line  :

Difference Between Correlation and Regression - Regression

The data, with the best-fitting straight line obtained from regression ****ysis

As we mentioned before, regression ****ysis aids us to make predicti***. For instance, if the value of the independent variable ( ) was 1.000, then we can predict that  would be close to  . In reality, the value of  may not necessarily be exactly 1.614. Due to uncertainty, the actual value is likely to be different. Note that the accuracy of the prediction is higher for data with a correlation coefficient closer to ±1.

相關性(correlation)和回歸(regression)的區別

描述關係

相關性描述了兩個變數的相關程度。

回歸給出了一種尋找兩個變數之間關係的方法。

做預測

相關性僅僅描述了兩個變數的相關性。分析兩個變數之間的相關性並不能提高對自變數給定值預測因變數值的準確性。

回歸使我們能夠更準確地預測自變數給定值的因變數值。

變數之間的依賴關係

在分析相關性時,哪個變數是獨立的,哪個是獨立的並不重要。

在分析回歸時,有必要區分因變數和自變數。

 

Image Courtesy:

“redesign File:Correlation_examples.png using vector graphics (SVG file)” by DenisBoigelot (Own work, original uploader was Imagecreator) [CC0 1.0], via Wikimedia Comm***

  • 發表於 2021-06-27 11:05
  • 閱讀 ( 46 )
  • 分類:科學

你可能感興趣的文章

進步的(progressive)和迴歸染色(regressive staining)的區別

...酸酒精中進行鑑別來去除多餘的汙漬。 什麼是迴歸染色(regressive staining)? 迴歸染色是一種更快速的染色技術,其中組織被故意過度染色,直到染料浸透所有組織成分。然後組織被選擇性地去染色,直到它到達正確的終點。去染...

  • 發佈於 2020-09-16 11:06
  • 閲讀 ( 66 )

描述的(descriptive)和相關研究(correlational research)的區別

描述性研究與相關研究 雖然描述性研究和相關研究都是廣泛應用的研究變體,但這兩種型別之間存在一定的差異。說到研究,可以根據研究的性質、目的、發現和使用的方法以不同的方式進行分類。描述性研究主要是為了更...

  • 發佈於 2020-10-23 06:06
  • 閲讀 ( 68 )

分類(classification)和迴歸(regression)的區別

...組。它旨在闡明因變數所帶來的分類反應。 什麼是迴歸(regression)? 迴歸是一種基於假定或已知的數值輸出值的預測方法。這個輸出值是一系列遞迴分割槽的結果,每個步驟都有一個數值和另一組因變數,這些變數會分支到另一...

  • 發佈於 2020-10-23 10:08
  • 閲讀 ( 53 )

因果關係的(causal)和相關研究(correlational research)的區別

因果關係的(causal)和相關研究(correlational research)的區別 儘管有人認為因果關係研究在本質上是相似的,但這兩種研究之間存在著明顯的差異。自然科學和社會科學的研究都是為了各種目的而進行的。這些研究探索了這一現象...

  • 發佈於 2020-10-29 01:02
  • 閲讀 ( 150 )

因果關係(causation)和相關性(correlation)的區別

關鍵區別——因果關係與相關性   因果關係和相關性是科學和健康研究中經常使用的術語,它們之間存在一些差異。任何科學家都會告訴你,要找到現象的真正原因是很困難的。有時,因果關係密切,但往往不是,這就是問...

  • 發佈於 2020-11-02 21:39
  • 閲讀 ( 43 )

正相關(positive correlation)和負相關(negative correlation)的區別

正相關與負相關 相關性是兩個變數之間關係強度的度量。相關係數根據另一個變數的變化來量化一個變數的變化程度。在統計學中,相關性與相關性的概念有關,即兩個變數之間的統計關係。 皮爾遜相關係數或皮爾遜積矩相...

  • 發佈於 2020-11-03 07:58
  • 閲讀 ( 111 )

如何用excel求相關係數

最簡單和最常見的統計Excel計算之一是相關性。這是一個簡單的統計資料,但當你想知道兩個變數是否相關時,它可以提供很多資訊。如果你知道正確的命令,在Excel中找到相關係數是非常容易的。 ...

  • 發佈於 2021-03-11 16:27
  • 閲讀 ( 62 )

多元線性回歸(mlr)

什麼是多元線性回歸(mlr)(multiple linear regression (mlr))? 多元線性回歸(MLR),也稱為多元回歸,是一種使用多個解釋變數來預測響應變數結果的統計技術。多元線性回歸(MLR)的目標是建立解釋變數(自變數)和反應變數(因...

  • 發佈於 2021-06-10 11:43
  • 閲讀 ( 56 )

在excel中建立線性回歸模型

什麼是線性回歸(linear regression)? 線性回歸是將自變數和因變數之間的線性關係繪製成圖形的資料圖。它通常用於直觀地顯示關係的強度和結果的離散度——所有這些都是為瞭解釋因變數的行為。 比如說,我們想測試吃冰淇淋...

  • 發佈於 2021-06-11 18:26
  • 閲讀 ( 55 )

相關係數正、負和零意味著什麼?

相關係數是兩個不同變數x和y之間線性關係強度的指標。大於零的線性相關係數表示正相關關係。小於零的值表示負關係。最後,值為零表示兩個變數x和y之間沒有關係。本文闡述了線性相關係數對投資者的意義,如何計算股票...

  • 發佈於 2021-06-12 05:23
  • 閲讀 ( 68 )
a129058
a129058

0 篇文章

作家榜

  1. admin 0 文章
  2. 孫小欽 0 文章
  3. JVhby0 0 文章
  4. fvpvzrr 0 文章
  5. 0sus8kksc 0 文章
  6. zsfn1903 0 文章
  7. w91395898 0 文章
  8. SuperQueen123 0 文章

相關推薦