データサイエンスとは一体なんなんだろう?

 データサイエンスという言葉をよく聞くようになりました。
 2020年、もっともセクシーな職業にデータサイエンティストが選ばれたりしましたが、一般的な人にとっては、よくわからない仕事かもしれません。

データサイエンスは、データをより有用なものにするための学問であり技術だともいえるでしょう

  データサイエンスは大きく分けると、

 この三つです。

 データサイエンスの歴史をざっと見てみると、

  • コンピューターでより大きなデータをいじくりまわしたい
  • 統計学者は、コーディングすることはできない

 このような理由から、データサイエンスが生まれたようです。

いわゆるデータサイエンティストは、コードが書ける統計学者というイメージです

 統計学者と機械学習エンジニアの違いは、一方がRを使用し、もう一方がPythonを使用することではありません。そういうことではない。なんなら、SQLでMLを実行することも最近できるようです。

データマイニングとデータ分析

 最善策が浮かばない場合、データマイニングや分析から始めることをお勧めします。

分析の黄金律:見ることができるものについてのみ結論を出します。

 意思決定の組み立てがわからなければ、まずはリサーチと分析です。
データマイニングとは、大量のデータを分析し、有用なパターンやルールを発見し、ビジネスを支援する統計的手法やツールの集合体みたいなものです。データマイニングで大切なのは、見えているものについてのみ結論を出し、見えないものについては結論を出さない、そしてバイアス(先入観)を全て取っ払うということです。

統計的推論

 インスピレーションはふわっとしたものですが、厳密さはビジネスに置いて高価なものです。データを超えて飛躍したい場合は、専門家が必要になります。 統計を理解する結構難しいですね。

 データを超えて世界に関する結論を打ち出す、高品質で管理された重要な意思決定を行う場合は、統計スキルがチームにとって不可欠になるでしょう。

統計は不確実性の下で心を変える科学です。

機械学習

 機械学習とは、基本的に、例を使用して、物にラベルを付け、レシピを作成することです。 AIともまた異なります
 具体的には、コンピューターがデータから反復的に学習し、そこに潜むパターンを見つけ出すみたいなことです。学習した結果を新たなデータにあてはめることで、パターンにしたがって将来を予測することができます。

なぜ多くのAIビジネスが失敗するのか?

まとめ

 データサイエンティストは、3つの分野(分析、統計、ML / AI)すべての専門知識を持つ人物だと思います。 ただ、これは色々な記事や人によって見解が異なるので、これが正しいというわけではありませんが、統計学知識とコーティングに関する知識の双方が必要であることは、間違いないと言っても良いでしょう。