统计学part1


统计学基础概念

样本均值:\( \overline{x}\ \)

总体均值:\( \mu \)

方差
$$
\sigma^2 = \frac{\Sigma_{i=1}^N (x_i - \mu)^2}{N} \
=\frac{\Sigma_{i=1}^N x_i^2}{N} - \mu^2
$$

样本方差
$$
S_n^2 = \frac{\Sigma_{i=1}^n (x_i-\overline{x})^2}{n}
$$

无偏样本方差
$$
S_{n-1}^2 = \frac{\Sigma_{i=1}^n (x_i-\overline{x})}{n-1}
$$
标准差
$$
\sigma = \sqrt{\sigma^2}
$$
样本标准差
$$
S = \sqrt{S^2}
$$
随机变量:X,Y,Z 这些大写字母来表示,通常有离散随机变量和连续随机变量,下图是作者假设的一个连续随机变量,降雨量的概率分布图

image

一些概率分布

二项分布

数学期望就是总体均值,二项分布的期望是:
$$
E(X) = n \cdot p
$$
泊松分布

比如我们想知道一个小时内通过道路上一个位置处的车辆数,假设我们知道这个分布的均值为 \(\lambda \ (cars/hour) \),将其近似为二项分布,比如每分钟有车经过的概率为 \(\frac{\lambda}{60}​\) ,实验时间为60分钟,想要知道的60分钟里有车经过的分钟的概率(也就是60次试验中,成功发生次数的概率)

image

当这里的 n 无穷大时(也就是时间划分的无限小时):
$$
P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}
$$
事实上当 n 无穷大时,P(X=k) 就表示在一个小时内通过汽车数量的概率

正态分布(高斯分布)

概率分布函数
$$
p(x) = \frac{1}{\sigma \sqrt{2\pi}}\cdot \exp \left(-\frac{1}{2} (\frac{x-\mu}{\sigma})^2\right)
$$
当二项分布的次数趋近于无穷时,得到的就是正态分布,而泊松分布同样也是 n 趋近于无穷,但它是保持期望不变

Z-score: 离均值有多少个标准差远(可用于任何分布)

大数定律

$$
\overline{X_n} = \frac{X_1+X_2+…+X_n}{n}
$$

当 n 趋近于无穷时
$$
\overline{X_n} \ \ \rightarrow \ \ E(X)
$$


文章作者: lovelyfrog
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 lovelyfrog !
 上一篇
统计学part2 统计学part2
中心极限定理我们可以从任何分布中取很多次样本均值(也不一定是均值,样本和也可以),将其画在图上会发现它趋近于一个正态分布 正偏态分布和负偏态分布: 正峰态分布和负峰态分布: 你会从图中发现,当样本容量从5增加到25时,得到的分
2019-03-01
下一篇 
训练神经网络part2 训练神经网络part2
在测试的时候,需要注意 \(\mu_j\) 和 \(\sigma_j\) 不能用测试时的数据求得,需要用训练时的数据的移动平均值 上面的是对全链接神经网络的BN层,如果是对CNN,它的每一层输出层是 NxCxHxW,在 对每个 C
2018-12-08
  目录