データサイエンティストとは?求められるスキルと資質

  • このエントリーをはてなブックマークに追加
  • LINEで送る

データサイエンティストとして働くためにはどんなスキルを持っていればよいのでしょうか。

必須のスキルはありますが、求められるスキルや知識は応用分野ごとに異なるため一概には言えません。

ここではデータサイエンティストに「共通して」必要になるスキルと知識、そしてデータサイエンティストに求められる資質について紹介します。

データサイエンティストに求められる3つのスキルと資質

一般にデータサイエンティストは、「ビジネス」「IT」「データサイエンス」の3つのスキルを兼ね備える必要があるといわれます。

データサイエンスは多くの研究分野の集合体です。

そのため、データサイエンティストとして業務をおこなうためには、膨大なスキルと知識が求められます。

では、まずは、どのスキル、知識を身につけていけばよいのでしょうか。

まずは学んでいただきたいスキルをお伝えしていきます。

データサイエンティストになるために身につけるべきこと

ここからは、データサイエンティストになるために、何をどの順番で身につけていけばよいか段階ごとに紹介していきます。

第一段階

・プログラミング言語を書く

解析向けの言語として、R言語とPythonの2つが重要です。

R言語は統計的な手法を用いた分析に向いており、Pythonはディープラーニングの実装などAIエンジニアに向いています。

基本的な文法と自分で調べられて解決できるだけのスキルは身に付けてください。

一般的なコンペであるkaggleのデータを用いた演習が効果的です。

・データをハンドリング(加工)する

一般的には、SQL言語を使ったツール(ETLといいます)を使うことが多いです。

データベース(RDB)の基本的な役割と構造を理解している必要があります。

データ分析の環境を構築できるようになるのが目標です。

・クラウドサーバーを扱うスキル

まずはAmazon、Googleのクラウドサーバーだけで良いと思います。

サーバーの基礎的な設定ができ、分析ライブラリーが使えるまでになってください。

ライブラリーとしては、NumPy(数値計算)、Pandas(データ解析)、Scikit-learn(機械学習)、NLTK(自然言語処理)は必須です。

・統計的な知識

高度なアルゴリズムを理解するには、統計2級程度の知識が欲しいです。

さらに、解析モデルの補強には数Ⅲレベルの学力が基本的に備わっている必要があります。

・ビジネスの構造を知る

まずは、特定の業界の複数の会社のビジネスの実態を完全に理解します。

取引先などの企業体は何を重視して考えるかを知らないと、分析結果を有効に使えないだけでなく、指導力も発揮できなくなるからです。

第二段階

・機械学習アルゴリズム/統計モデリングの学習

AI(人工知能)の基礎となる機械学習アルゴリズムを理解してしてさい。

3つの基本アルゴリズムとして、線形回帰、k近傍法、k平均法は必須です。

・データを収集する

Webスクレイピングでネット上のデータをリアルタイムで収集するなどの技術を身につけてください。

その他、Webログの収集方法、位置データの収集方法、機械操作ログなど、複数のデータ収集技術を扱えるとよいです。

・分析基盤の構築

NoSQL(データベースの操作方法がSQLに限定されないDB)、Hadoop(Googleが開発した分散処理フレームワーク)、MongoDB(DBの拡張ができる)などの要素技術を理解し、構築ができるようになりましょう。

インフラを支える技術の革新はすさまじく、絶えず実験してブラッシュアップしておく必要があります。

・データビジュアライゼーション技術

R言語やPythonを使った図表、ビジュアライゼーションソフトを使った作図ができるようになりましょう。

ビジネスの構造や社会の変動要因が理解できていることが前提で、意味のあるビジュアライゼーションができることが重要です。

スキル・知識を使いこなせるようになるには

これらのスキル・知識を使いこなせるようになるには実践を積むしかありません。

ここでいう「実践」にはふたつの意味があります。

まずは、顧客あるいは、組織と相対すること。

ビジネスパートナーは常に複雑です。

完璧な情報を持ち合わせているような相手はいません。

どうしても自身の知識による推測が必要になります。

何度も失敗を繰り返しながら、答え合わせをして精度をあげていく経験が必要になります。

どのような技術や企画を選択すべきだったかは、結果をみないとわからないということです。

もうひとつは、実装することです。

実装には、それぞれの置かれた環境によって起こりうる障害が異なります。

データが重すぎる、汚すぎる、変更が頻繁にある、セキュリティ上のリスクが異なる、アクセスの集中度が読めない等、実装するにあたって捕捉しないといけない範囲が膨大に増えます。

それらすべてに対応することが、実装するということです。

知識とスキルを少しずつ増やしていこう

結論的なことを言うと、

「学ぶべき何かを察知する能力(判断力)」
「学ぶべき対象から効率よく学ぶ能力(吸収力)」
「学んだものを効果的に表現する能力(リーダーシップ)」

が備わったスーパーマンのような人間像がデータサイエンティストです。

これらの膨大な時間がかかりそうなスキルと知識の取得量に圧倒されるかもしれません。

しかし、皆さんがデータ分析が好きな人であれば、そんなに苦にはならない気がします。

それくらい、データサイエンティストの仕事は魅力と面白さが備わっていると思います。

SNSでもご購読できます。

プロ講師の授業を体験!