统计学基础概念
样本均值:\( \overline{x}\ \)
总体均值:\( \mu \)
方差:
$$
\sigma^2 = \frac{\Sigma_{i=1}^N (x_i - \mu)^2}{N} \
=\frac{\Sigma_{i=1}^N x_i^2}{N} - \mu^2
$$
样本方差:
$$
S_n^2 = \frac{\Sigma_{i=1}^n (x_i-\overline{x})^2}{n}
$$
无偏样本方差:
$$
S_{n-1}^2 = \frac{\Sigma_{i=1}^n (x_i-\overline{x})}{n-1}
$$
标准差:
$$
\sigma = \sqrt{\sigma^2}
$$
样本标准差:
$$
S = \sqrt{S^2}
$$
随机变量:X,Y,Z 这些大写字母来表示,通常有离散随机变量和连续随机变量,下图是作者假设的一个连续随机变量,降雨量的概率分布图
一些概率分布
二项分布
数学期望就是总体均值,二项分布的期望是:
$$
E(X) = n \cdot p
$$
泊松分布:
比如我们想知道一个小时内通过道路上一个位置处的车辆数,假设我们知道这个分布的均值为 \(\lambda \ (cars/hour) \),将其近似为二项分布,比如每分钟有车经过的概率为 \(\frac{\lambda}{60}\) ,实验时间为60分钟,想要知道的60分钟里有车经过的分钟的概率(也就是60次试验中,成功发生次数的概率)
当这里的 n 无穷大时(也就是时间划分的无限小时):
$$
P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}
$$
事实上当 n 无穷大时,P(X=k) 就表示在一个小时内通过汽车数量的概率
正态分布(高斯分布):
概率分布函数
$$
p(x) = \frac{1}{\sigma \sqrt{2\pi}}\cdot \exp \left(-\frac{1}{2} (\frac{x-\mu}{\sigma})^2\right)
$$
当二项分布的次数趋近于无穷时,得到的就是正态分布,而泊松分布同样也是 n 趋近于无穷,但它是保持期望不变
Z-score: 离均值有多少个标准差远(可用于任何分布)
大数定律
$$
\overline{X_n} = \frac{X_1+X_2+…+X_n}{n}
$$
当 n 趋近于无穷时
$$
\overline{X_n} \ \ \rightarrow \ \ E(X)
$$