统计学part2


中心极限定理

我们可以从任何分布中取很多次样本均值(也不一定是均值,样本和也可以),将其画在图上会发现它趋近于一个正态分布

image

正偏态分布和负偏态分布:

image

正峰态分布和负峰态分布:

image

你会从图中发现,当样本容量从5增加到25时,得到的分布图的偏度和峰度以及标准差很明显都更小了,当样本容量趋近于无穷时,得到的就是正态分布

image

原分布的方差,均值与采样均值分布的方差,均值关系:
$$
\mu_{\overline{x}} = \mu
\
\sigma_{\overline{x}}^2 = \frac{\sigma^2}{n}
$$

伯努利分布

伯努利分布是二项分布在 n=1 时的特例,假设每次试验成功的概率为 p
$$
\mu = p
\
\sigma^2 = p(1-p)
$$
误差范围

国家选举总统,有两个候选人 A 和 B,假设 B 的投票率是 p,那么 A 的投票率就是 1-p, 假设 A=0, B=1,这就是一个伯努利分布,它的均值就是 p,因为国家的人很多,我们不可能直接统计得出 p 但是我们可以采样得出 p 的一个大概范围并估计它的误差范围。

假设我们采样了 100 人,57个人投 A,43个人投 B ,我们可以得出这个采样的均值和标准差:
$$
\overline{x} = 0.43
\
S = 0.50
$$

根据中心极限定理我们可以得到采样均值的分布是一个大致的正态分布,而原伯努利分布的的标准差可以用采样的标准差来近似,那么我们可以近似得出 \(\sigma_{\overline{x}}​\)

image

根据正态分布的性质我们可以得出:
$$
P(|\overline{x}-\mu_{\overline{x}}| < 2\sigma_{\overline{x}}) = 95.4\%
$$

这里的
$$
\overline{x} = 0.43
\
\sigma_{\overline{x}} \approx 0.05
\
\mu_{\overline{x}} = \mu = p
$$

所以:
$$
P(|p-0.43|<0.1) \approx 95.4\%
$$
即 p 在 33%~53% 这个区间内的概率约为 95.4%,这个范围我们称之为误差范围

而当采样的n 很小时,我们不能用 \(S\) 来近似 \(\sigma_{\overline{x}}\),这样可能会带来很带误差,我们就不能用正态分布,需要用 t 分布


文章作者: lovelyfrog
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 lovelyfrog !
 上一篇
随机森林算法 随机森林算法
集成学习集成学习通过构建并结合多个学习器来完成学习任务,通常获得比单一学习器更好的泛化性能,这针对弱学习器尤为明显 个体学习器个体学习器通常由一个现有的算法从训练数据产生,集成中若只包含同种类型的个体学习器,那么称之为同质集成,若包含
2019-03-01
下一篇 
统计学part1 统计学part1
统计学基础概念样本均值:\( \overline{x}\ \) 总体均值:\( \mu \) 方差:$$\sigma^2 = \frac{\Sigma_{i=1}^N (x_i - \mu)^2}{N} \=\frac{\Sigma_
2019-02-28
  目录