統計学は誰もが一度は勉強したいと思ったことがあると思います。
数学が得意でない人も、ビジネスや生活に役立つという理由で参考書を買ってみたり、特別講義に参加したりしますよね。
もっと簡単に統計のポイントとは何か、知りたいとみんな願っているはず。
統計学はあなたの心を変える科学です。
事実に基づいた決定を下すことも難しいですが、多くの場合、事実すら持っていないこともありますね。
有名な著書にファクトフルネスという本があります。
こちらはいかに人類間違った思い込みをしているのかを思い知らされる本なので、一度手にとって読んでみると良いでしょう。
統計は、不確実性の下であなたの心や考え方を変える科学です。
統計を知ることで、世界の見方が変わり、行動や習慣、考えが変わります。善悪の判断をする基準を作ることもできるでしょう。
ベイジアンは信用についての考えを変えます。
少し専門用語が出てきました。ベイズ統計は、信用に関するデータの組み込みを扱う考え方です。
ベイズ統計とは、主観確率を扱う統計学です。
データが不十分であっても、「あるイベントが発生する確率」を最初に設定(事前確率を設定)した後、さらなる情報が得られる度に「あるイベントが発生する確率」(事後確率)を更新していき、本来起こるであろう事象の確率(主観確率)を導き出す、という手法です。
得られたデータから確率を更新していきます。この概念を、ベイズ更新といいます。
仮説は、世界がどのように見えるかを説明したものです。
仮説の立て方で有名なものとして、帰無仮説というものがあります。
例えば、帰無仮説としてふたつの仮説に「差がない」という仮説が立てられた場合、これが棄却されることにより、対立仮説の「差がある」を結論とするという使われ方をします。
データを使って、帰無仮説が立証しないということを納得させたら、考えを変えて別の行動を取るほうがよいでしょう。
仮説検定
仮説検定は質問することです。
帰無仮説を棄却するということは、私たちがデータから何かを学んだことを意味し、考えを変える必要があるということです。帰無仮説を棄却しないということは、森の中をハイキングに行って人間がいないことを確認して、地球上に人間がいないことを証明するみたいなことです。データから何も学ばなければ、考えを変える理由はないので、デフォルトの行動を続ければいいと思います。
では、なにか有益なことを学んだかをどうやって知るのでしょうか。
その答えを得るために、p値または信頼区間を利用します。
p値
p値とは、テストの結果が起こる確率を示します。 p値が低いほど、その結果が偶然発生したということが言いづらく、つまり、何らかの要因があって結果に違いが発生しているのでは? ということになります。
テストを実行するには、そのp値を有意水準と呼ばれるしきい値と比較します。
一般的には、p<0.05の状態で「有意差有り」と判断されますが、5%はまだ偶然の可能性が残っているので、もっと厳密に判断したければ、「p値」がより小さくなるまでテストを継続する必要もあるでしょう。
信頼区間は、仮説検定の結果を報告するための方法です。
例えば95%信頼区間の場合、母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれるよ、ということです。テスト結果を要約するための単なる方法の一つです。
統計学が注目を浴びている
統計学は近年になってますます注目を浴びるようになりました。その理由は、コンピューターの発展が大きく関係していると言われています。
データサイエンティストやデータサイエンス、AIという言葉が流行り出したのも、この影響が大きいでしょう。
統計学という学問の歴史は長いです。しかしそれは、あくまで学問としての統計であって、実生活に生かされるシーンは少なかったのです。理由としては、データを解析するための機器が発展しておらず、解析するには人間が紙に計算式を書いて計算をする必要がありました。そのため実際には今ほど役に立たず、学問の発展も滞っていました。
しかし、コンピュータの発展によって、面倒な計算をコンピューターにやらせるという考えが主流になってきました。
最近では「ビッグデータ」という考え方もあります。膨大すぎて処理することのできなかったデータが、コンピューターの発展により処理が迅速に行うことができるようになりました。それにより、これまでは価値のなかったデータから様々な分析を行えるようになった、これがデータと統計学の発展と活用です。
人の感覚値によることが多かった分野においても実際のデータに基づいた統計的分析をすることで確実な成果を生むようになっております。
具体的には筆者の書き方の傾向や、ベストセラーになる書籍の傾向の分析などです。
こういったものは、今まで文学者の感覚によって判断されてきましたが、AIによる解析を通して、売れる本の傾向が解明されています。
この記事を読んだ人におすすめ記事▼
【データサイエンティストが解説】これだけ読めば初心者でもA / Bテストを完全理解!