Gini index
決定木の木構造を決めるための指標として Gini index というのがあり、 同じ名前または Gini Coefficient として経済学の所得分布の話ででてくる 指標がある。時々混乱してしまうので、調べてみたのでまとめておこう。
| 決定木に出てくるGiniIndex | 所得分布に出てくるGini係数 | |
|---|---|---|
| 対象 | 離散分布 | 連続分布 |
| 定義 | 1-Σpi2 | ローレンツ曲線と45度線で囲まれる部分の相対面積 |
| 別の定義(変形) | Σpipj(i≠j) | Σ|xi-xj|/2n2μ |
決定木の木構造を決めるための指標として Gini index というのがあり、 同じ名前または Gini Coefficient として経済学の所得分布の話ででてくる 指標がある。時々混乱してしまうので、調べてみたのでまとめておこう。
| 決定木に出てくるGiniIndex | 所得分布に出てくるGini係数 | |
|---|---|---|
| 対象 | 離散分布 | 連続分布 |
| 定義 | 1-Σpi2 | ローレンツ曲線と45度線で囲まれる部分の相対面積 |
| 別の定義(変形) | Σpipj(i≠j) | Σ|xi-xj|/2n2μ |
EMアルゴリズムを実装してみた。2項の混合正規分布をひとつ与え、 その分布に従うサンプルをいくつか作り、初期値とそのサンプルから 元の混合正規分布を学習するプログラムである。
例によって Java Web Start で作った。 jnlpファイル で起動してみてください。 answer が学習の対象となる混合正規分布。それぞれの項の標準偏差(σ)と平均(μ) および第1項が選ばれる確率をαで与える。 同様に mix に学習の初期値を与える。 sample には学習の材料となるサンプルの個数を与える。 INIT ボタンを押すと、赤色で answer の確率分布、青色で mix の確率分布が 表示され、answer に従うサンプルのヒストグラムがそれに重ねて書かれる。 STEP ボタンを押すたびに一回EMアルゴリズムを実行する。mix には実行後の 混合正規分布の標準偏差、平均が表示される。 結構収束は速い。
EMアルゴリズムとは、隠れ変数を持つ観測データから最尤モデルを反復法で局所
最適解を求める方法。その意味ではニュートン法に似ている。詳細はサイエンス社の
「情報理論の基礎」か産総研の赤穂さんのドキュメント
有限混合分布モデルの学習に関する研究 (Web 版)
が詳しい。どちらも式を書き下してあるため、これらを参考にすれば実装は容易。
EMアルゴリズムを情報幾何的に理解することが、はやりなのかな?
e平坦性によって、モデル多様体の外に出て、m平坦性から再び
モデル多様体に射影される。これを繰り返すことで、尤度を(局所的に)
最大のモデルに収束することを利用する。
オープンソースの統計解析システムの R で AIC を計算することができる。 R については
などが詳しい。VineLinux にも WindowsXP にも問題無くインストールできた。 最近は大学の学部の演習などにも使われているらしい。 東工大の下平先生の講義ノート はとても充実していてRのチュートリアルとしても使える。 と言うか、使いました。ありがとうございます。 で、この下平先生の講義ノートに R で AIC を使ってモデル選択する 話(重回帰モデルのパラメータ選択)が載っている。lm() 関数で求めたモデルを step() 関数で逐次選択を行う。ただし、step() 関数の実行時に表示される AIC の値と AIC() 関数の結果は違う(意味は下平先生の講義ノートに書いてある)。
赤池情報量規準AICを考える。
AICは対数尤度をモデルの次元で補正することで、
モデルのパラメータ数を増やすことに対するペナルティを与えている。
ペナルティ項の決め方として、単に次元を引き算するという方法に
なにか理由があるのだろうか、と言う問題を考える。
答えはAICが「近似的に」期待平均対数尤度の不偏推定量になるような
補正項を与えたから、である。
不偏推定量とは、母数θをもつ母集団から得られた観測値に基づく
推定値の平均値がもとの母数に一致することをいう。
教科書的によく出てくる例では、θが母分散のとき、観測値から得られる
分散の計算を平均からの差の2乗の和を測定個数のnではなく
(n-1)で割っている場合などがある。
それは分散の推定値を不偏にするためであり、
そのため、不偏分散などと呼ぶことがある。
上でAICが「近似的に」期待平均対数尤度の
不偏推定量になっていると言ったが、正しくは竹内情報量規準が
サンプルの個数の-3/2 乗を法として不偏推定量になっており、
さらに真の分布がモデルの上にあるとして、竹内情報量規準の
補正項を近似したのがAICである。この流れでAICを説明してあるのが、
サイエンス社「情報理論の基礎」(村田昇)や
岩波書店「モデル選択」(下平英寿 他)など。
竹内情報量規準の導出のところで、自然にフィッシャー行列が
登場することもあって、情報幾何的な説明がしてある。
AICをそういうふうに導入するのが最近の流行なのかも知れない。
統計的モデルでなぜFisher計量が重要なのか。 またなぜα接続と呼ばれる接続の族が重要なのか。 それは次の2点
情報幾何では計量よりも接続が重要な役割を占める。
統計的モデルにはα接続と言う特別な接続と、双対性が
知られているが、それについて詳しく述べる前に
アフィン接続とアフィン座標について。
アフィン接続とは、多様体の接束のベクトル束としての接続のことである。
ベクトル束の接続には、捩率テンソルと曲率テンソルが定義される。
このとき、次は同値であり、このときにアフィン接続が平坦であると言う。
ニューロ多様体と言うと難しそうだが、統計的モデルの話の枠組で言うと、
ニューラルネットワークを結合の強さをパラメータとした
確率分布の族だと考えて、多様体構造を考えるのがニューロ多様体。
幾何であるから計量や接続を使って調べることになる。
問題意識としては
学習理論ではサンプルから確率分布を推定する問題が多く取り上げられるが、
普通はパラメータを持つ確率分布の族の中から推定する。
このパラメータを変数として微分積分を行う。見方を変えて、
このパラメータを多様体上の点と考え、多様体の各点に確率分布がのっている
として計量や接続を考えるのが情報幾何の立場。
詳しくは
情報幾何の方法
の第2章など。
Kullback-Leibler情報量(相対エントロピー)によって、二つの確率分布の間の差を
計ることができるが、これを統計モデル上の関数とみなしたとき、そのテイラー展開の
2次の係数にいわゆるFisher行列が表れる。情報幾何の立場では、Fisher行列を
リーマン計量とみなす。そういう意味で相対エントロピーと幾何が結び付いている。
詳しくは
数理科学No.366の黒瀬先生の記事とか、
統計科学のフロンティア「モデル選択」
の第1部2章など。
情報幾何と言う言葉は1980年代からあるようだが、最近岩波の
「統計科学のフロンティア」や「物理の世界」などで紹介されて
興味を持ち、古い文献から当たってみることにした。
パターン認識、モデル選択などを幾何の言葉で理解しようと言う方向性は、
昔幾何をやっていた立場からすると、参入するよい足掛かりになるし、
何より異なる分野の間の新たな関係性を見出すと言う作業はとても面白い。
というわけで、調べた結果、疑問点などをメモ的に記録することにする。