はじめまして!インターンの安岡です。

初投稿から志が低いことを書いてしまうのは心苦しいのですが、私は定期的に何かをするということが続いたことがない性分なので、他のインターンの方々のように自分の学んだことを随時報告することはできないと思います。

その代わりに、社内にある本棚にある本や何かアマゾンで面白そうだと思った本の簡単な要約や感想・考えたことを本の紹介として(自分の備忘録も兼ねて)書いていきます。自分が本を読んで一週間以内(もしくは頭の整理がついたと思えたら)に無理なく更新したいです。面白くなかったら面白くなかったという報告だけを簡潔にしたいと思います。

とりあえず今回は基礎統計の復習に利用した「マンガでわかる統計学」「今日から役立つ統計学の教科書」「入門統計解析」の三冊を書こうと思います。

〇内容雑感

◎マンガでわかる統計学

女子高生ルイちゃんが家庭教師に統計学を教えてもらうストーリー。漫画のわりに本格的に統計学の初歩を学べるとしてアマゾンでも☆4を獲得していますが、ヒストグラムや度数分布の理解に一章をかけていたルイちゃんが終盤には天下り的に渡されたχの二乗検定を自在に使っているので信用できません。数学ⅠAを忘れてしまった人や、三冊目の「入門統計解析」で数学の式を見ているうちに目的を見失ってしまってどうも困るという人はおすすめですが、基礎知識を入れるのには二冊目の今日から役立つ統計学の教科書のほうがいいかなと思います。

◎今日から役立つ統計学の教科書

勘経験度胸のKKDから脱出してデータによる解析に切り替えていこうと説く本です。あまり難しい話は出てこずに実際統計データが出てきたときにどう扱うかということにどう扱うかということに主軸があって、TableauやAAで出してきたデータの分析に使えないかなと思って読んでいました。途中統計の有用性を示すために歴史を紹介してくるのですが、ほぼ意味がないので飛ばしてもよいと思います。p88は面白いです。

◎この二冊で確認したこと(忘れていたこと)

・データはカテゴリーデータと数量データの二種類、統計は推測統計(データから全体ひの特性を推測)と記述統計(グラフや偏差値で全体の特性を表す)の二種類

・パレートの法則(上位二割が八割を占めている)(これ自身の真偽はともかく累積度数の重要性)

・正規分布で±σに68%、±1.96σに95%が含まれる感覚

・χの二乗分布の意義(理論値との乖離を調べる)

・ABC分析(売り上げ貢献度ごとにグループ分けすること),CSポートフォリオ分析(満足度と重要度で項目の分析),PSM分析(適正な価格設定をするための手法)などなどいろいろな分析の仕方があること

 

◎入門統計解析

大学の基礎統計の教科書でした。数学がぼちぼち出てくるのですが、前書き通り高校二年生までの知識+αで読めます。いわゆる「大学の教科書」のようではなくて、統計量や検定方法に対してきちんと例が載っていて、わかりにくいところには説が載っています。エクセルを用いる練習問題がついていて、これをやった当時は適当にやっていたのですが現在は反省して暇な時間にエクセルをポチポチしています。上の二冊を読んだ後だと式変形をしている途中に迷子になることはすくないのではないかなあと思います。

 

〇統計に関するまとめ(StanとRでベイズ統計モデリング (Wonderful R)より)

◎データを取る前に

・背景知識の収集:その分野で頻繁に使われる仮定や手法、可視化手法を調べる

・問題設定:そもそもデータから何を知って何を主張しようとするのか。

・解析計画:ベストシナリオ「仮定Aが成り立っていそうなことが分かって計画Bが見える。」やマイルストーン(この結果が出たら先に進める、撤退するの判断)

◎データ収集後

・データの分布の確認(クロス集計や散布図、ヒストグラムetc…)

をすること。

 

個人的にはデータを取る前の解析計画ができていないせいで、意味のないクロス集計を作り続けて爆死するパターンが多く感じられるのでもう少しベストシナリオを自分なりにでも考えられるようになったらと思います。

〇これからの勉強

今後は『統計学入門』は入門を一通り終えた人におすすめ(Colorless Green Ideas) (この記事を書くにあたって参考にしたサイトです。)で紹介されている

一年で身に付ける!Rと統計学・機械学習の4ステップ(アイアナ:データ分析や人工知能(AI)などの技術雑記)や、

ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊六本木で働くデータサイエンティストのブログ

で紹介されているような本を読みつつちゃんと学んだことをまとめていければと思います。

〇現在読んでいる本

趣味:まぐれ

R関連:楽しいR,StanとRでベイズ統計モデリング (Wonderful R)

これらを読み終わったら(挫折したら)上の統計関連の本を読みます。

 

全体的に雑な投稿となってしまい申し訳ありませんでした。次回以降はもう少し中身のある事を載せられたらと思います。では