不偏推定量
赤池情報量規準AICを考える。
AICは対数尤度をモデルの次元で補正することで、
モデルのパラメータ数を増やすことに対するペナルティを与えている。
ペナルティ項の決め方として、単に次元を引き算するという方法に
なにか理由があるのだろうか、と言う問題を考える。
答えはAICが「近似的に」期待平均対数尤度の不偏推定量になるような
補正項を与えたから、である。
不偏推定量とは、母数θをもつ母集団から得られた観測値に基づく
推定値の平均値がもとの母数に一致することをいう。
教科書的によく出てくる例では、θが母分散のとき、観測値から得られる
分散の計算を平均からの差の2乗の和を測定個数のnではなく
(n-1)で割っている場合などがある。
それは分散の推定値を不偏にするためであり、
そのため、不偏分散などと呼ぶことがある。
上でAICが「近似的に」期待平均対数尤度の
不偏推定量になっていると言ったが、正しくは竹内情報量規準が
サンプルの個数の-3/2 乗を法として不偏推定量になっており、
さらに真の分布がモデルの上にあるとして、竹内情報量規準の
補正項を近似したのがAICである。この流れでAICを説明してあるのが、
サイエンス社「情報理論の基礎」(村田昇)や
岩波書店「モデル選択」(下平英寿 他)など。
竹内情報量規準の導出のところで、自然にフィッシャー行列が
登場することもあって、情報幾何的な説明がしてある。
AICをそういうふうに導入するのが最近の流行なのかも知れない。