线性相关系数r公式
【线性相关系数r公式】线性相关系数(Pearson相关系数)是衡量两个变量之间线性关系密切程度的统计指标,通常用符号 r 表示。其取值范围在 -1 到 1 之间,数值越接近 1 或 -1,表示变量之间的线性相关性越强;数值接近 0,则表示两者之间几乎没有线性关系。
以下是关于线性相关系数 r 的公式及其应用说明的总结:
一、线性相关系数r的公式
线性相关系数 r 的计算公式如下:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $:样本数量
- $ x $、$ y $:两组数据的观测值
- $ \sum xy $:对应数据乘积之和
- $ \sum x $、$ \sum y $:各自数据之和
- $ \sum x^2 $、$ \sum y^2 $:各自数据平方之和
二、公式中各部分的意义
| 公式部分 | 说明 |
| $ n $ | 样本容量 |
| $ \sum xy $ | 所有x与y对应值的乘积之和 |
| $ \sum x $、$ \sum y $ | x与y的总和 |
| $ \sum x^2 $、$ \sum y^2 $ | x与y的平方和 |
| 分子部分 | 衡量两个变量之间的协方差 |
| 分母部分 | 衡量两个变量的标准差乘积 |
三、r值的解释
| r值范围 | 相关性描述 |
| 1.0 | 完全正相关 |
| 0.7~1.0 | 强正相关 |
| 0.4~0.7 | 中等正相关 |
| 0.1~0.4 | 弱正相关 |
| 0 | 无相关性 |
| -0.1~0 | 弱负相关 |
| -0.4~-0.1 | 中等负相关 |
| -0.7~-1.0 | 强负相关 |
| -1.0 | 完全负相关 |
四、使用注意事项
1. 线性相关系数仅反映线性关系,不能说明因果关系。
2. 数据需为连续型变量,且呈近似正态分布。
3. 当数据存在异常值时,可能会影响r值的准确性。
4. 该公式适用于两组变量之间的线性关系分析,不适用于非线性或分类型数据。
五、实例说明
假设我们有以下两组数据:
| x | y |
| 1 | 2 |
| 2 | 4 |
| 3 | 6 |
| 4 | 8 |
通过代入公式计算得:
- $ n = 4 $
- $ \sum x = 10 $
- $ \sum y = 20 $
- $ \sum xy = 1×2 + 2×4 + 3×6 + 4×8 = 2 + 8 + 18 + 32 = 60 $
- $ \sum x^2 = 1 + 4 + 9 + 16 = 30 $
- $ \sum y^2 = 4 + 16 + 36 + 64 = 120 $
代入公式计算:
$$
r = \frac{4×60 - (10×20)}{\sqrt{[4×30 - (10)^2][4×120 - (20)^2]}} = \frac{240 - 200}{\sqrt{(120 - 100)(480 - 400)}} = \frac{40}{\sqrt{20×80}} = \frac{40}{\sqrt{1600}} = \frac{40}{40} = 1
$$
结果为 r = 1,表示x与y之间存在完全正相关。
六、总结
线性相关系数 r 是一种常用的统计工具,用于评估两个变量之间的线性关系强度和方向。通过上述公式及表格内容,可以更清晰地理解其计算方式与实际意义。在实际数据分析中,应结合数据特征与背景知识,合理使用该指标。
线性相关系数r公式