统计学part4


线性回归公式的推导

如下图,平面上有一些点,然后我们想用一个直线来拟合它,就是找出最小化下面的那个平方误差的 m 和 b

image

image

image

我们将 SE 化简,然后对 m和b 求偏导

image

image

我们会得出在最优的拟合曲线上有两点 \((\overline{x}, \overline{y})\) 和 \((\frac{\overline{x^2}}{\overline{x}}, \frac{\overline{xy}}{\overline{x}})​\)

image

image

决定系数

决定系数表示 多少y 的总波动能被 x 的总波动表示出来

y 的总波动(Total sum of variation in y):
$$
SST= \sum_{i=i}^n (y_i-\overline{y})^2
$$
回归线没有描述的波动:
$$
SSR = \sum_{i=1}^n (y_i-f_i)^2
$$

决定系数:
$$
R^2 = 1 - \frac{SSR}{SST}
$$
R*2 is a statistic that will give some information about the goodness of fit of a model (from wikipedia)

解释成视频里的什么总波动反倒难以理解

协方差

$$
Cov(X,Y) = E\left[(X-E(X))(Y-E(Y))\right]
\
= E(XY)-E(X)E(Y)
$$

image

\(\chi^2 \)分布

假定 X~N(0,1)
$$
Q_1 = X^2
$$
\(Q_1​\)是一个 \(\chi^2 ​\) 分布 \(Q_1​\) ~ \(\chi_1^2​\)
$$
Q_2 = X_1^2 + X_2^2
$$
\(Q_2​\) 是自由度为2 的 \(\chi_2^2 ​\) 分布
$$
Q_3 = X_1^2+X_2^2+X_3^2
$$
\(Q_3\) 是自由度为3 的 \(\chi_3^2 \) 分布

image


文章作者: lovelyfrog
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 lovelyfrog !
 上一篇
循环神经网络 循环神经网络
本文总结了 cs231n lecture 9的知识点,介绍了循环神经网络原理,以及 LSTM 模型循环神经网络(RNN)是一类用于处理序列数据的神经网络,可以扩展到更长的序列,大多数循环网络也能处理可变长度的序列。 需要一个额
2019-04-20
下一篇 
GBDT算法 GBDT算法
前向分布算法AdaBoost 就是一种前向分布算法,可以认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。 加法模型: 对于加法模型,在给定训练数据及损失函数L(y
2019-03-03
  目录