【修正的拟合优度怎么算】在统计学中,拟合优度(Goodness of Fit)用于衡量模型对数据的拟合程度。常见的拟合优度指标包括R²(决定系数)和调整后的R²(Adjusted R-squared)。其中,调整后的R²是对R²的修正,尤其适用于多元回归分析中,以避免因增加自变量而导致的虚假拟合。
一、什么是修正的拟合优度?
修正的拟合优度,通常指的是调整后的R²(Adjusted R-squared),它在原始R²的基础上进行了调整,考虑了模型中自变量的数量与样本量之间的关系。其目的是防止模型因为加入更多不相关的变量而显得“更好”。
二、调整后的R²公式
调整后的R²计算公式如下:
$$
\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right)
$$
其中:
- $ R^2 $:普通决定系数
- $ n $:样本数量
- $ k $:自变量个数
这个公式通过惩罚更多的自变量来反映模型的真实拟合效果。
三、调整后的R²与普通R²的区别
特性 | 普通R² | 调整后的R² |
定义 | 表示模型解释的总变异比例 | 在R²基础上调整,考虑变量数量 |
取值范围 | [0, 1] | [0, 1] |
增加变量影响 | 会随着变量增加而上升 | 不一定上升,可能下降 |
适用场景 | 简单线性回归 | 多元回归分析 |
优点 | 简单直观 | 更准确反映模型质量 |
四、如何计算调整后的R²?
假设我们有以下数据:
样本 | 自变量X1 | 自变量X2 | 因变量Y |
1 | 1 | 2 | 3 |
2 | 2 | 3 | 5 |
3 | 3 | 4 | 7 |
4 | 4 | 5 | 9 |
进行多元线性回归后,得到:
- $ R^2 = 0.98 $
- $ n = 4 $
- $ k = 2 $
代入公式:
$$
\text{Adjusted } R^2 = 1 - \left( \frac{(1 - 0.98)(4 - 1)}{4 - 2 - 1} \right) = 1 - \left( \frac{0.02 \times 3}{1} \right) = 1 - 0.06 = 0.94
$$
因此,调整后的R²为 0.94,说明模型虽然有较高的R²,但考虑到变量数量,拟合效果稍有下降。
五、总结
调整后的R²是评估多元回归模型拟合优度的重要指标,能够更真实地反映模型的实际解释能力。相比普通的R²,它避免了因变量过多而带来的高估问题。在实际建模过程中,应优先参考调整后的R²来判断模型的质量。
表格总结:
指标 | 公式 | 说明 |
R² | $ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} $ | 衡量模型解释的总变异比例 |
调整后的R² | $ 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1} $ | 考虑变量数量的R²修正值 |
适用场景 | 单变量或简单模型 | 多变量回归模型 |
优点 | 简单易懂 | 更准确反映模型质量 |
通过合理使用调整后的R²,可以更科学地评估和选择回归模型。