犀角(Diceros Horn)

とくながの「書き散らかし」です

ここは研究・調査・開発などの記録がメインのページです。 日常の雑事、読書記録は はてなダイアリー の方に書いています。よろしければそちらもどうぞ。

Thu, 27 Apr 2006

Graphical Modeling

グラフィカルモデリングの可視化ツールを作ってみました。

グラフィカルモデリング計算機(Java Web Start)

テキストエリアにcsvで1行目に項目を、2行目以降にデータをコピー&ペーストで 貼り付けて GraphGenerate ボタンを押してください。JUNG を使って グラフを生成します。ただし、関連があるかどうかは、偏相関係数の絶対値が Threshold の値よりも大きいときとします。 初期状態では、2005年のプロ野球パリーグの打撃成績をサンプルとして表示してあります。 そのまま GraphGenerate ボタンを押せば様子がわかると思います。Threshold の値を0.35 ぐらいにするといいかな。 (JWSじゃなければ、ファイルも読めるんだけど・・・・)

履歴

2006/4/26
JTextArea にサンプルを初期表示。スクロールバーも出るようにする。辺には偏相関係数を表示するようにした。見にくいかな?
2006/4/25
グラフィカルモデリングの勉強を兼ねてプロトタイプ作成。可視化はJUNGを使う。

posted at 02:14 | category: /Math/Statistics | 固定リンク(Graphical Modeling )

Mon, 17 Apr 2006

数量化理論

統計の分野で数量化理論として知られているのは、質的データを統計で扱うための手法。

数量化1類
説明変数が質的変数のときの回帰分析の方法
数量化2類
説明変数が質的変数のときの判別分析の方法
数量化3類
説明変数が質的変数のときに主成分分析のように変数の値が似たものをまとめる方法

などがある。下手に使うと簡単に逆説的なことが言えてしまうので、そのような変な例などを探してみることにする。

posted at 01:57 | category: /Math/Statistics | 固定リンク(数量化理論 )

統計を勉強しなおす

理数系のスタンダードなカリキュラムだと、確率論といっしょに簡単な推定と検定を勉強し、 その後抽象的な確率論(測度論)を勉強して、後は個別の解析対象に応じて勉強していく。 なので、実は社会科学における統計の使い方というのはあまり詳しくない。 というわけで少しずつ勉強していくことにする。

  • 面白い例を考える
  • 簡単な実験プログラムを作る

参考文献

  • 『人文・社会科学の統計学』東京大学教養学部統計学教室(東京大学出版会)
  • 『社会を読み解く数理トレーニング』松原望(東京大学出版会)

posted at 01:48 | category: /Math/Statistics | 固定リンク(統計を勉強しなおす )

Fri, 24 Mar 2006

チャーノフの顔グラフ

多変数データを人間の顔の輪郭や鼻、口、目などであらわしたもの。18個までのパラメータを 表現できるとのこと(つまり18次元空間)。人間が顔の表情については微妙な違いも認識 しやすいことから、統計データの観測値の性質などを表情に対応させて比較する。

こういうちょっとした面白プログラムはきっと誰かが作って公開しているはず。 と思ったら、やっぱりありました。

自分のポートフォリオを登録しておいて、市場の値動きをチャーノフグラフで可視化して メールで送ってくれたり、アイコンにしてブログに貼り付けたりできると面白いかもしれない。

posted at 02:10 | category: /Math/Statistics | 固定リンク(チャーノフの顔グラフ )

Thu, 23 Mar 2006

標本誤差の話

大きさNの母集団でAが成り立つ比率をπとするとき、 無作為抽出でn個のサンプルを取った時のAが成り立つ標本比率をpとする。 このとき、pの分散は、

V(p) = (N-n)/(N-1)・π(1-π)/n

で与えられる(この計算をエレガントにやるには??)。 nが十分大きい時は、中心極限定理でpが正規分布に従うと考えてよく、 信頼度95%で母集団比率を推定すると、ε=1.96√V(p) が絶対精度となる。 つまり、πがp±εの間にある確率が95%以上ということ。

有名な話で、ビデオリサーチ社はn=600世帯のサンプルで視聴率を推定しているが、 この場合の信頼度を計算してみると、N を十分大きいとして、(N-n)/(N-1)〜1 で近似して、πは10%=0.1としてみると、

V(p) 〜 0.1 * 0.9 / 600 = 0.00015
1.96√V(p) ≒ 0.024

となるので、信頼度95%の絶対精度は約2.4%。少なくとも小数点以下の数字は ほとんど意味がないと言ってもいいだろう。

posted at 02:00 | category: /Math/Statistics | 固定リンク(標本誤差の話 )