統計リテラシー。リテラシーって何?

1724viewsMitzyMitzy

このエントリーをはてなブックマークに追加
統計学が最強の学問である

データをビジネスに使う為の3つの問い

  • 【何かの要因が変化すれば利益は向上するのか】
  • 【そうした変化を起こすような行動は実際に可能なのか】
  • 【変化を起こす行動が可能だとして、そのコストは利益を上回るのか】

これをクリアして始めて、行動を起こすことで利益を向上させる見通しが立つ

ビジネスにおいては

  • その解析が利益に直接的に、
  • もしくはそこに至る因果関係の道筋が明らかな指標でないと、意味が無い。
どうやって、今あるデータを利益に繋げるか、何が一番利益に繋がりそうなのかを考える。

ランダム化比較実験(Generalized linear model)

  • 試したいパターン全てを試し、比較する方法。
  • ランダムにすることで、推測結果の誤差が制御できる(p115)
  • しかし、「現実」「倫理」「感情」の3つの面に置いて、この方法は使えない。

誤差に注意

  • p値=実際には何の差もないのに、誤差や偶然によってたまたまデータのような差が生じる確率
  • 誤差を考えない統計には意味が無い。
  • p値が5%以上であれば、その統計結果は信用ならないもの。

カイ二乗検定

  • ランダム化比較実験棟について、意味ある偏りなのか、それとも誤差の範囲内なのかを確かめる解析方法

回帰分析

  • データ間の関係性を記述する、もしくは、一方のデータから他方のデータを予測する数式を推定する考え方
  • 真値=無制限にデータを集めたときの、真に知りたい値。
  • たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを整理すれば、より適切な判断が下せる。
  • 説明変数=どのような分析軸を使うか
  • 結果変数=どのような値を比較したいか
  • ダミー変数=二つのグループ、又は二値の変数を0か1かで表現するやり方。

重回帰分析

  • 説明変数が複数ある状況へ拡張された回帰分析
  • 複数の回帰係数を同時に推定する
  • 回帰係数=回帰式を表現する数値

データマイニング

  • 有用でかつ既知でない知識を、データから抽出する、自明でない一連の手続き
  • データの予測それ自体がゴールなのであれば、データマイニングは有効。だが、解析の結果何かを示せる訳ではないので注意

ベイズ派の統計方法

  • 事前確率を用いる(扱う確率が、果たしていかさまなのか本当なのかを視野に入れて計算する)
  • 詳しい方法はp268-272に載っている。
  • 感想

    最後の「恐らく我々がすべきことの多くは、すでに文献やデータの上で明らかなのである。だがそれを現実のものとして実行するまでのギャップが我々を「最善」から遠ざけているのではないかと思う」という一段落が印象に残った。
    世界全ての事柄が明らかになっているとは言わないが、文献や知識を自分の目で調べる手段、考え方を私たちが身につけるだけで、もっと効率は上がるのかも知れない。
    大学で使用していた文献サーチサイトを、今後も利用したいと思った。

関連まとめ

本のまとめカテゴリー


コメントを書く