標本誤差の話
大きさNの母集団でAが成り立つ比率をπとするとき、 無作為抽出でn個のサンプルを取った時のAが成り立つ標本比率をpとする。 このとき、pの分散は、
V(p) = (N-n)/(N-1)・π(1-π)/n
で与えられる(この計算をエレガントにやるには??)。 nが十分大きい時は、中心極限定理でpが正規分布に従うと考えてよく、 信頼度95%で母集団比率を推定すると、ε=1.96√V(p) が絶対精度となる。 つまり、πがp±εの間にある確率が95%以上ということ。
有名な話で、ビデオリサーチ社はn=600世帯のサンプルで視聴率を推定しているが、 この場合の信頼度を計算してみると、N を十分大きいとして、(N-n)/(N-1)〜1 で近似して、πは10%=0.1としてみると、
V(p) 〜 0.1 * 0.9 / 600 = 0.00015
1.96√V(p) ≒ 0.024
となるので、信頼度95%の絶対精度は約2.4%。少なくとも小数点以下の数字は ほとんど意味がないと言ってもいいだろう。