犀角(Diceros Horn) 2006 02 08

とくながの「書き散らかし」です

ここは研究・調査・開発などの記録がメインのページです。 日常の雑事、読書記録は はてなダイアリー の方に書いています。よろしければそちらもどうぞ。

Wed, 08 Feb 2006

Gini index

決定木の木構造を決めるための指標として Gini index というのがあり、 同じ名前または Gini Coefficient として経済学の所得分布の話ででてくる 指標がある。時々混乱してしまうので、調べてみたのでまとめておこう。


決定木に出てくるGiniIndex 所得分布に出てくるGini係数
対象 離散分布 連続分布
定義 1-Σpi2 ローレンツ曲線と45度線で囲まれる部分の相対面積
別の定義(変形) Σpipj(i≠j) Σ|xi-xj|/2n2μ
xi達が離散値を取るとして、Gini係数の方の定義で、 異なるxiとxjをfixしたとき、そのiとjについて 1/2n2を足し合わせたものを、fixした値の出る確率の積 pipj と考える(iとjを交換するので2がつく)。 すると、 |xi-xj|/μ = 1 として離散分布の空間に距離を入れたと考えれば、両者は一致する。

参考:

posted at 01:52 | category: /Math/InfoGeom | 固定リンク(Gini index )