センサーや通信機器技術が発達し、インターネット上でもさまざまなサービスが普及したことで、さまざまな種類の膨大なデータ(ビッグデータ)が収集・蓄積可能になりました。
その中で注目を浴びているのが、*「データサイエンティスト」*と呼ばれる職業の人々です。

最近では、AI(人工知能)の普及により消えてしまう職業が注目を浴びる一方、今後ますます重要になる職業のひとつに、「データサイエンティスト」が並んでいます。
しかし、中には「データサイエンティスト」という言葉を聞いたことはあるけれど、一体どんなことをしているのかわからない人もいるのではないでしょうか。

今回は、最近よく聞く「データサイエンティスト」が何をする職業で、どんなことが求められているのか、具体的にまとめていきます。

参考:
今やっている仕事、10年後にはなくなるかも?これからテック業界で求められる9つの新しい職業

職業としてのデータサイエンティスト

image01.jpeg

データサイエンティストに明確な定義はありませんが、一般的にはあらゆる種類の膨大なデータ(ビッグデータ)を分析して意味を与え、企業の経営資源に活用する職業と理解されています。

世界中をシームレスに移動する*「経営の三資源」として「ヒト」「モノ」「カネ」が重要であることがよく知られていますが、最近ではそこに「情報」*が加えられることも多くなりました。

ただし、現場から集められた生のデータ(raw data)は、それ自身では意味を持っていなかったり、そのデータの集合を見てもかなり乱雑していて、何を意味しているかが分からなかったりするので、このままでは経営資源としては活用できないケースがあります。
バラバラでまったく整理されていないデータは、今の技術では機械的な処理だけではできません。
そこには人間的な発想や直感、評価軸が必要であり、まだ現在の技術ではロボットには代替することができない職業であると言われています。

どんな仕事をするの?

image02.jpeg

データサイエンティストの仕事は、データサイエンティスト同士が集まって仕事をするというよりは、各事業ごとに配置されるケースのほうが多いようです。
それぞれの事業で、与えられたビッグデータの解析を行い、その分析をもとにして今ある課題の解決や状況改善のための施策立案を行います。

もちろん、データの分析を行うのに、数学や統計、ITやマーケティングに精通しているのはもちろん、仮説を立てて検証し、実務に落とし込んでいく能力や、コミュニケーションやプレゼンテーションを行う能力も求められています。

データサイエンティストに求められている9つのスキル

image03.jpeg

それでは、データサイエンティストになるために、どんなスキルが必要なのでしょうか。
この分野の変化は激しいので、明確に定義されてはいませんが、一般的には次のような能力が必要だと言われています。

1. 基本的なITスキル

どのような分野の企業でも、共通して持っておかなければならないのは基本的なITスキルです。
ここでいう*「基本的なITスキル」*とは、単にパソコンを操作できるというレベルではなく、統計調査を行うためにRubyやPythonなどの言語を扱うことができたり、SQL言語を使ってデータベース操作を行えるほどのレベルを期待されています。

2. 統計学

同様にデータサイエンティストとして、最低限の統計学の知識が必要です。
実際にデータサイエンティストは大量のデータを捌く必要があるため、その重要性はどの分野の企業にも当てはまりますが、とりわけユーザーデータを集めて直接プロダクトに反映させるような企業、コマースやSNSなどをサービスとして提供している企業にとって、統計を活用するスキルはクリティカルだと言えます。

3. 機械学習

データが膨大になればなるほど、人間だけで扱うのには限界があるため、*機械学習(マシーンラーニング)*を用いた自動化ができるようになることが求められています。
「基本的なITスキル」とも重なりますが、必要であればRubyやPythonのライブラリなども用いてアルゴリズムの設計から行なっていきます。

4. 多変数微積分・線形代数

データサイエンティストは膨大なデータを整えて解説するだけの職業だと捉えていると、就職面接の際に苦い顔をされるかもしれません。

実際のところデータの連続性を多面的に分析するために*「多変数微積分」「線形代数」*の知識を有していたり活用することができるのかどうかを最も重視している企業もあります。
特に、データこそがプロダクトのかなめであり、小さな改善によって大きな利益や損失を生み出すようなFinTech系企業や膨大なアクティブユーザーを抱えている企業は、この点を非常に重要視しています。

5. データマンジング

データマンジング(data munging)とは、受け取ったデータのフォーマットをその他のフォーマットに変換することです。
ただし、この中には
類似したデータをまとめて分類するスキル
も含まれています。

たとえば、「New York」という文字列に関して調べるときに、「new york」や「NY」「ny」という文字列も含めたり、「2017-09-03」や「2017/09/03」あるいは「1504364400」というUNIXタイムスタンプも同じ値として処理できるようにアルゴリズムを調整します。

6. データビジュアライゼーション

データを可視化してそこから意味を見いだすことはデータサイエンスにおいて極めて重要です。
データの分析から重要な経営判断や意思決定を行うことも多いので、データを適切に加工して可視化する技術も求められています。

7. ソフトウェア設計

比較的小さな会社に入ったり、会社の中でデータサイエンティストが自分しかいない場合などは、ソフトウェア設計の経験があればなお魅力的です。

8. データサイエンス的思考

データサイエンティストの求人を出している企業は、膨大なデータを使って問題解決を行うことができる人間を求めています。
これは、単純に数学や計算機科学に長けているだけでなく、問題解決能力や問題解決に向かう姿勢があるひとを求めています。

9. データに対する直感

多かれ少なかれ、企業はデータサイエンティストのデータに対する嗅覚の鋭さも期待しています。
というのは、同じデータであっても評価軸によってはまったく異なる経営判断になったり、そのために180度変わる損益が生まれる可能性もあるからです。

一概にこの直感を図ることはできませんが、フェルミ推定などを通じて仮説と検証を繰り返して直感力を磨いておくのは期待に応える方法のひとつだと言えるでしょう。