犀角(Diceros Horn)

とくながの「書き散らかし」です

ここは研究・調査・開発などの記録がメインのページです。 日常の雑事、読書記録は はてなダイアリー の方に書いています。よろしければそちらもどうぞ。

Wed, 08 Feb 2006

Gini index

決定木の木構造を決めるための指標として Gini index というのがあり、 同じ名前または Gini Coefficient として経済学の所得分布の話ででてくる 指標がある。時々混乱してしまうので、調べてみたのでまとめておこう。


決定木に出てくるGiniIndex 所得分布に出てくるGini係数
対象 離散分布 連続分布
定義 1-Σpi2 ローレンツ曲線と45度線で囲まれる部分の相対面積
別の定義(変形) Σpipj(i≠j) Σ|xi-xj|/2n2μ
xi達が離散値を取るとして、Gini係数の方の定義で、 異なるxiとxjをfixしたとき、そのiとjについて 1/2n2を足し合わせたものを、fixした値の出る確率の積 pipj と考える(iとjを交換するので2がつく)。 すると、 |xi-xj|/μ = 1 として離散分布の空間に距離を入れたと考えれば、両者は一致する。

参考:

posted at 01:52 | category: /Math/InfoGeom | 固定リンク(Gini index )

Tue, 03 May 2005

EMアルゴリズム(続)

EMアルゴリズムを実装してみた。2項の混合正規分布をひとつ与え、 その分布に従うサンプルをいくつか作り、初期値とそのサンプルから 元の混合正規分布を学習するプログラムである。

例によって Java Web Start で作った。 jnlpファイル で起動してみてください。

answer が学習の対象となる混合正規分布。それぞれの項の標準偏差(σ)と平均(μ) および第1項が選ばれる確率をαで与える。 同様に mix に学習の初期値を与える。 sample には学習の材料となるサンプルの個数を与える。 INIT ボタンを押すと、赤色で answer の確率分布、青色で mix の確率分布が 表示され、answer に従うサンプルのヒストグラムがそれに重ねて書かれる。 STEP ボタンを押すたびに一回EMアルゴリズムを実行する。mix には実行後の 混合正規分布の標準偏差、平均が表示される。 結構収束は速い。

posted at 23:40 | category: /Math/InfoGeom | 固定リンク(EMアルゴリズム(続))

Mon, 25 Apr 2005

EMアルゴリズム

EMアルゴリズムとは、隠れ変数を持つ観測データから最尤モデルを反復法で局所 最適解を求める方法。その意味ではニュートン法に似ている。詳細はサイエンス社の 「情報理論の基礎」か産総研の赤穂さんのドキュメント 有限混合分布モデルの学習に関する研究 (Web 版) が詳しい。どちらも式を書き下してあるため、これらを参考にすれば実装は容易。
EMアルゴリズムを情報幾何的に理解することが、はやりなのかな? e平坦性によって、モデル多様体の外に出て、m平坦性から再び モデル多様体に射影される。これを繰り返すことで、尤度を(局所的に) 最大のモデルに収束することを利用する。

混合正規分布に適用される場合、隠れ変数は混合係数。この場合が説明されている のがほとんど。これは正規分布の空間がe平坦であることも関係しているのだが、 これ以外の例にお目にかからない。

posted at 03:48 | category: /Math/InfoGeom | 固定リンク(EMアルゴリズム)

Mon, 21 Mar 2005

R で AIC

オープンソースの統計解析システムの R で AIC を計算することができる。 R については

などが詳しい。VineLinux にも WindowsXP にも問題無くインストールできた。 最近は大学の学部の演習などにも使われているらしい。 東工大の下平先生の講義ノート はとても充実していてRのチュートリアルとしても使える。 と言うか、使いました。ありがとうございます。

で、この下平先生の講義ノートに R で AIC を使ってモデル選択する 話(重回帰モデルのパラメータ選択)が載っている。lm() 関数で求めたモデルを step() 関数で逐次選択を行う。ただし、step() 関数の実行時に表示される AIC の値と AIC() 関数の結果は違う(意味は下平先生の講義ノートに書いてある)。

posted at 18:45 | category: /Math/InfoGeom | 固定リンク(R で AIC)

Sun, 20 Mar 2005

不偏推定量

赤池情報量規準AICを考える。 AICは対数尤度をモデルの次元で補正することで、 モデルのパラメータ数を増やすことに対するペナルティを与えている。 ペナルティ項の決め方として、単に次元を引き算するという方法に なにか理由があるのだろうか、と言う問題を考える。 答えはAICが「近似的に」期待平均対数尤度の不偏推定量になるような 補正項を与えたから、である。
不偏推定量とは、母数θをもつ母集団から得られた観測値に基づく 推定値の平均値がもとの母数に一致することをいう。 教科書的によく出てくる例では、θが母分散のとき、観測値から得られる 分散の計算を平均からの差の2乗の和を測定個数のnではなく (n-1)で割っている場合などがある。 それは分散の推定値を不偏にするためであり、 そのため、不偏分散などと呼ぶことがある。
上でAICが「近似的に」期待平均対数尤度の 不偏推定量になっていると言ったが、正しくは竹内情報量規準が サンプルの個数の-3/2 乗を法として不偏推定量になっており、 さらに真の分布がモデルの上にあるとして、竹内情報量規準の 補正項を近似したのがAICである。この流れでAICを説明してあるのが、 サイエンス社「情報理論の基礎」(村田昇)や 岩波書店「モデル選択」(下平英寿 他)など。 竹内情報量規準の導出のところで、自然にフィッシャー行列が 登場することもあって、情報幾何的な説明がしてある。 AICをそういうふうに導入するのが最近の流行なのかも知れない。

posted at 01:35 | category: /Math/InfoGeom | 固定リンク(不偏推定量)

Thu, 17 Mar 2005

Fisher計量とα接続

統計的モデルでなぜFisher計量が重要なのか。 またなぜα接続と呼ばれる接続の族が重要なのか。 それは次の2点

  • パラメータ(統計多様体と見たときの多様体の座標)によらない
  • 確率変数の変換に関して不変
という条件を満たすものとして、特徴づけられるからである。 詳しくは甘利先生の「情報幾何の方法」§2.3に書いてある。
さて、α接続は実数のパラメータαでパラメトライズされた 接続の族だが、
  • α接続に関して平坦
  • -α接続に関して平坦
が同値という性質がある。実際にα=±1のとき平坦になる。 α=1のときのアフィン座標系を考えると、 指数型の分布族が表れ、α=-1のときには、混合型の分布族が表れる。

posted at 22:19 | category: /Math/InfoGeom | 固定リンク(Fisher計量とα接続)

接続

情報幾何では計量よりも接続が重要な役割を占める。 統計的モデルにはα接続と言う特別な接続と、双対性が 知られているが、それについて詳しく述べる前に アフィン接続とアフィン座標について。
アフィン接続とは、多様体の接束のベクトル束としての接続のことである。 ベクトル束の接続には、捩率テンソルと曲率テンソルが定義される。 このとき、次は同値であり、このときにアフィン接続が平坦であると言う。

  • アフィン座標系が存在する
  • 捩率テンソルと曲率テンソルがともに0
情報幾何では、単なる平坦性ではなく、二つの接続が組となって、 双対平坦性と言う概念があり、それに基づいて拡張された ピタゴラスの定理が成り立つ。

おまけ:サイエンス社から数理科学の別冊で「情報理論の基礎」という 本が出ているが、情報幾何に関することがらもコンパクトにまとまっている 良書である。

posted at 09:44 | category: /Math/InfoGeom | 固定リンク(接続)

Tue, 15 Mar 2005

ニューロ多様体

ニューロ多様体と言うと難しそうだが、統計的モデルの話の枠組で言うと、 ニューラルネットワークを結合の強さをパラメータとした 確率分布の族だと考えて、多様体構造を考えるのがニューロ多様体。 幾何であるから計量や接続を使って調べることになる。
問題意識としては

  • 特異点の構造
  • 曲率(特に平坦かどうか)とモデルの間の関係
  • より大きなモデルに埋め込まれるときの部分多様体としての構造
など。

posted at 09:25 | category: /Math/InfoGeom | 固定リンク(ニューロ多様体)

Sun, 06 Mar 2005

統計的モデル

学習理論ではサンプルから確率分布を推定する問題が多く取り上げられるが、 普通はパラメータを持つ確率分布の族の中から推定する。 このパラメータを変数として微分積分を行う。見方を変えて、 このパラメータを多様体上の点と考え、多様体の各点に確率分布がのっている として計量や接続を考えるのが情報幾何の立場。 詳しくは 情報幾何の方法 の第2章など。
Kullback-Leibler情報量(相対エントロピー)によって、二つの確率分布の間の差を 計ることができるが、これを統計モデル上の関数とみなしたとき、そのテイラー展開の 2次の係数にいわゆるFisher行列が表れる。情報幾何の立場では、Fisher行列を リーマン計量とみなす。そういう意味で相対エントロピーと幾何が結び付いている。 詳しくは 数理科学No.366の黒瀬先生の記事とか、 統計科学のフロンティア「モデル選択」 の第1部2章など。

posted at 17:52 | category: /Math/InfoGeom | 固定リンク(統計的モデル)

情報幾何事始め

情報幾何と言う言葉は1980年代からあるようだが、最近岩波の 「統計科学のフロンティア」や「物理の世界」などで紹介されて 興味を持ち、古い文献から当たってみることにした。 パターン認識、モデル選択などを幾何の言葉で理解しようと言う方向性は、 昔幾何をやっていた立場からすると、参入するよい足掛かりになるし、 何より異なる分野の間の新たな関係性を見出すと言う作業はとても面白い。
というわけで、調べた結果、疑問点などをメモ的に記録することにする。

posted at 12:28 | category: /Math/InfoGeom | 固定リンク(情報幾何事始め)