中心极限定理
我们可以从任何分布中取很多次样本均值(也不一定是均值,样本和也可以),将其画在图上会发现它趋近于一个正态分布
正偏态分布和负偏态分布:
正峰态分布和负峰态分布:
你会从图中发现,当样本容量从5增加到25时,得到的分布图的偏度和峰度以及标准差很明显都更小了,当样本容量趋近于无穷时,得到的就是正态分布
原分布的方差,均值与采样均值分布的方差,均值关系:
$$
\mu_{\overline{x}} = \mu
\
\sigma_{\overline{x}}^2 = \frac{\sigma^2}{n}
$$
伯努利分布
伯努利分布是二项分布在 n=1 时的特例,假设每次试验成功的概率为 p
$$
\mu = p
\
\sigma^2 = p(1-p)
$$
误差范围:
国家选举总统,有两个候选人 A 和 B,假设 B 的投票率是 p,那么 A 的投票率就是 1-p, 假设 A=0, B=1,这就是一个伯努利分布,它的均值就是 p,因为国家的人很多,我们不可能直接统计得出 p 但是我们可以采样得出 p 的一个大概范围并估计它的误差范围。
假设我们采样了 100 人,57个人投 A,43个人投 B ,我们可以得出这个采样的均值和标准差:
$$
\overline{x} = 0.43
\
S = 0.50
$$
根据中心极限定理我们可以得到采样均值的分布是一个大致的正态分布,而原伯努利分布的的标准差可以用采样的标准差来近似,那么我们可以近似得出 \(\sigma_{\overline{x}}\)
根据正态分布的性质我们可以得出:
$$
P(|\overline{x}-\mu_{\overline{x}}| < 2\sigma_{\overline{x}}) = 95.4\%
$$
这里的
$$
\overline{x} = 0.43
\
\sigma_{\overline{x}} \approx 0.05
\
\mu_{\overline{x}} = \mu = p
$$
所以:
$$
P(|p-0.43|<0.1) \approx 95.4\%
$$
即 p 在 33%~53% 这个区间内的概率约为 95.4%,这个范围我们称之为误差范围
而当采样的n 很小时,我们不能用 \(S\) 来近似 \(\sigma_{\overline{x}}\),这样可能会带来很带误差,我们就不能用正态分布,需要用 t 分布