相关系数r的第二个公式在统计学中,相关系数(通常用r表示)是衡量两个变量之间线性关系强度和路线的一个重要指标。我们通常所知的相关系数公式是基于协方差与标准差的比值,即:
$$ r = \frac\textCov}(X, Y)}\sigma_X \cdot \sigma_Y} $$
但除了这个常用公式之外,还有一个等价的表达方式,被称为“相关系数r的第二个公式”。该公式更便于手动计算或领会其数学结构。
一、相关系数r的第二个公式的定义
相关系数r的第二个公式为:
$$ r = \fracn\sum xy – (\sum x)(\sum y)}\sqrt[n\sum x^2 – (\sum x)^2][n\sum y^2 – (\sum y)^2]}} $$
其中:
– $ n $ 是数据对的数量;
– $ x $ 和 $ y $ 分别是两个变量的观测值;
– $ \sum xy $ 表示所有x与y乘积之和;
– $ \sum x $ 和 $ \sum y $ 分别是x和y的总和;
– $ \sum x^2 $ 和 $ \sum y^2 $ 分别是x和y的平方和。
二、与第一个公式的区别
| 特征 | 第一个公式 | 第二个公式 |
| 公式形式 | 基于协方差与标准差 | 基于原始数据的求和 |
| 计算方式 | 需要先计算均值 | 可直接通过数据求和得到 |
| 领会难度 | 较抽象 | 更直观 |
| 适用场景 | 适用于已知均值的情况 | 适用于手动计算或教学讲解 |
三、使用示例
假设我们有下面内容数据:
| x | y |
| 1 | 2 |
| 2 | 4 |
| 3 | 6 |
| 4 | 8 |
根据第二个公式计算:
– $ n = 4 $
– $ \sum x = 1 + 2 + 3 + 4 = 10 $
– $ \sum y = 2 + 4 + 6 + 8 = 20 $
– $ \sum xy = (1×2) + (2×4) + (3×6) + (4×8) = 2 + 8 + 18 + 32 = 60 $
– $ \sum x^2 = 12 + 22 + 32 + 42 = 1 + 4 + 9 + 16 = 30 $
– $ \sum y^2 = 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120 $
代入公式:
$$
r = \frac4×60 – (10)(20)}\sqrt[4×30 – (10)^2][4×120 – (20)^2]}}
= \frac240 – 200}\sqrt[120 – 100][480 – 400]}}
= \frac40}\sqrt20×80}}
= \frac40}\sqrt1600}}
= \frac40}40} = 1
$$
结局表明,x与y之间存在完全正相关关系。
四、拓展资料
相关系数r的第二个公式提供了一种不依赖均值的计算方式,更加适合手工计算或教学中使用。它从原始数据出发,通过简单的加法和乘法运算得出相关系数,有助于加深对相关性本质的领会。
| 公式名称 | 公式表达 | 优点 |
| 第一个公式 | $ r = \frac\textCov}(X, Y)}\sigma_X \cdot \sigma_Y} $ | 更具学说意义 |
| 第二个公式 | $ r = \fracn\sum xy – (\sum x)(\sum y)}\sqrt[n\sum x^2 – (\sum x)^2][n\sum y^2 – (\sum y)^2]}} $ | 更便于手动计算 |
