线性回归公式的推导
如下图,平面上有一些点,然后我们想用一个直线来拟合它,就是找出最小化下面的那个平方误差的 m 和 b
我们将 SE 化简,然后对 m和b 求偏导
我们会得出在最优的拟合曲线上有两点 \((\overline{x}, \overline{y})\) 和 \((\frac{\overline{x^2}}{\overline{x}}, \frac{\overline{xy}}{\overline{x}})\)
决定系数
决定系数表示 多少y 的总波动能被 x 的总波动表示出来
y 的总波动(Total sum of variation in y):
$$
SST= \sum_{i=i}^n (y_i-\overline{y})^2
$$
回归线没有描述的波动:
$$
SSR = \sum_{i=1}^n (y_i-f_i)^2
$$
决定系数:
$$
R^2 = 1 - \frac{SSR}{SST}
$$
R*2 is a statistic that will give some information about the goodness of fit of a model (from wikipedia)
解释成视频里的什么总波动反倒难以理解
协方差
$$
Cov(X,Y) = E\left[(X-E(X))(Y-E(Y))\right]
\
= E(XY)-E(X)E(Y)
$$
\(\chi^2 \)分布
假定 X~N(0,1)
$$
Q_1 = X^2
$$
\(Q_1\)是一个 \(\chi^2 \) 分布 \(Q_1\) ~ \(\chi_1^2\)
$$
Q_2 = X_1^2 + X_2^2
$$
\(Q_2\) 是自由度为2 的 \(\chi_2^2 \) 分布
$$
Q_3 = X_1^2+X_2^2+X_3^2
$$
\(Q_3\) 是自由度为3 的 \(\chi_3^2 \) 分布