データ・サイエンティストとは?
役割の定義、業務の内容、なりたい理由
データ・サイエンティストとは、さまざまな意思決定の局面において、データにもとづいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。統計解析やITのスキルに加えて、ビジネスや市場トレンドなど幅広い知識が求められます。
データ・サイエンティストは数学者、コンピューター・サイエンティスト、トレンドスポッターの素養をあわせ持っています。また、ビジネスとITどちらの世界にも精通しているため、今や引く手あまたとなっており、高い収入が見込めます。今や誰もが憧れる職業のひとつと言えます。
これは時代の趨勢でもあります。10年前には注目する人も少なかったのですが、突如として人気を博してきた背景には、ビッグデータを重視するようになった企業の姿勢があります。この手に負えないほど膨大な非構造化情報は、もはや無視することも忘れ去ることもできません。ビッグデータは飛躍的な収益増に役立つ「金山」であり、誰も思いついたことすらないようなビジネス・インサイトを誰かが掘り当ててくれるのを待っています。つまり、データ・サイエンティスト時代が始まっているのです。
データ・サイエンティスト誕生の背景
多くのデータ・サイエンティストは、統計担当者やデータ分析担当者としてキャリアをスタートしています。しかし、ビッグデータ(およびHadoopなどのビッグデータ向けストレージ/処理テクノロジー)が成長と進化を始めると、それらの役割も進化していきました。データはもはや、IT部門が事後に処理すればよいものではありません。組織にとって重要な情報であり、分析、クリエイティブな好奇心、ハイテクの発想を利益創出の新たな方法へと変換するコツが求められます
データ・サイエンティストという役割のルーツは学術界にもあります。大学では数年前から、プログラマーであると同時にチームプレイヤーでもある人材を経営者が求めていることに気づき始めました。こうした要請に応じて講義内容を調整する教授たちが現れ、ノースカロライナ州立大学高度アナリティクス研究所などのように、次世代データ・サイエンティストを養成するための課程が設置されるようになりました。現在では米国各地の大学で同様の課程が60以上も提供されています。
同じような日常業務が続くこともありますが、週単位で仕事の内容が大きく変わる場合もあります。何週間かはテキストマイニングのプロジェクトにかかりきりとなり、その後はお客様向けの予測モデルの作成に取り組む、といった具合です。その合間には、アナリティクスやそれをビジネスの別の領域に役立てる方法に関するミーティングも行います。
アレックス・ヘリントン(Alex Herrington)氏
米国の大手小売企業のデータ・サイエンティスト
インタビュー記事を読む(英語)
Kirk Borne, PhD, Principal Data Scientist at Booz Allen Hamilton, addresses the misconception that data science is an IT function – and how data scientists can help in the new era of bigger, more complex data.
データ・サイエンティストの典型的な職務
データ・サイエンティストの役割に関しては、どの組織にも共通する確たる職務内容が決まっているわけではありません。
しかし、以下に示すような職務は担当する可能性が高いでしょう。
- 統一性のない大量のデータの収集と、より利用しやすいフォーマットへの変換
- ビジネス課題をデータ主導型の手法を用いて解決
- SAS、R、Pythonを含む幅広いプログラミング言語による作業
- 統計情報の的確な理解(統計的検定と統計的分布を含む)
- 分析手法に関する最新動向の把握(機械学習、ディープ・ラーニング、テキスト・アナリティクスなど)
- IT部門および業務部門とのコミュニケーションとコラボレーション
- データに潜む秩序やパターンの発見と、ビジネスの最終利益に寄与する傾向の特定
データ・サイエンティストが駆使するツールとは?
以下の用語やテクノロジーはデータ・サイエンティストが共通して使用するものです。
- データ・ビジュアライゼーション(データ視覚化):データ分析の結果を容易に把握できるようにするために、図形やグラフィックの形式で表現します。
- 機械学習:人工知能の一系統であり、数学的アルゴリズムと自動処理という2つの技術にもとづきます。
- ディープ・ラーニング:機械学習に関する研究の一領域であり、データを利用して複雑な抽象概念をモデル化します。
- パターン認識:データ内のパターンを認識するテクノロジーです(多くの場合は機械学習と同じ意味で使われます)。
- データ準備:生データを別のフォーマットに変換して、分析作業で利用しやすくするプロセス。
- テキスト・アナリティクス:非構造化データを調べて重要なビジネス・インサイトを導き出すプロセス。
典型的な日には、ビジネスで生じる疑問に答えを出す方法についてチームとブレインストーミングや課題解決を行ったり、スタッフが仕上げた分析やレコメンデーションの結果をチェックしたり、さまざまなミーティングに出席したりします
クリスティン・カーニー(Kristin Carney)氏
データ・サイエンティスト、World’s Foremost Bank
インタビュー記事を読む(英語)
データ・サイエンティストになる方法
これからデータ・サイエンス分野でのキャリアを目指すことは、将来を見据えた賢明な判断のひとつと言えるでしょう。就職の機会が豊富にあるのみならず、実験や創造性の余地があるテクノロジー領域で働けることも大きな魅力です。では、あなたに合った戦略とは?
学生の場合
データ・サイエンスの学位を取得できるか、少なくともデータ・サイエンスやアナリティクスのクラスを受講できる大学を選ぶことが、最初の重要なステップとなります。米国の場合、データ・サイエンス課程を設置している大学の例としては、オクラホマ州立大学、アラバマ大学、ケネソー州立大学(ジョージア州)、サザン・メソジスト大学(テキサス州)、ノースカロライナ州立大学、テキサスA&M大学などがあります。
キャリアアップを図りたい社会人の場合
ほとんどのデータ・サイエンティストはデータ分析担当者や統計担当者としての経験がありますが、ビジネスや経済学などIT系ではない分野の出身者もいます。このように幅広い経歴の社会人たちは、どのようにしてデータ・サイエンスという同じ分野に集まってくるのでしょうか?ここで重要なのは、課題解決の手腕、優れたコミュニケーション能力、物事の仕組みに関する飽くことのない好奇心など、共通の資質に注目することです。
また、こうした資質とは別に、以下のような領域について一定以上の理解があることも必要です。
- 統計と機械学習
- SAS、R、Pythonなどのコーディング言語
- MySQLやPostgresなどのデータベース
- データ・ビジュアライゼーションとレポーティングのテクノロジー
- HadoopとMapReduce.
これらのスキルを独学で身につけるのが難しい場合には、オンライン講座を受講するか、短期集中トレーニングに参加するとよいでしょう。そしてもちろん、人脈を広げることも大事です。お勤め先のデータ・サイエンティストに接触したり、オンライン・コミュニティ(英語)で交流を深めたりするのです。きっと、データ・サイエンティストの仕事について当事者ならではの情報を教えてくれるでしょう。就職に関するアドバイスも得られるかもしれません。
データ・サイエンティストを雇用する準備が整っている企業や組織とは?
データ・サイエンティストとしての職を得る前に、その企業や組織について、いくつかの点を見極める必要があります。
- 大量のデータを扱っており、かつ、複雑な課題を解決する必要を抱えているか?データ・サイエンティストを本当に必要としている組織には2つの共通点があります。膨大な量のデータを管理していることと、難しい課題に日常的に直面していることです。典型的なのは、金融、官公庁、製薬などの業種です。
- データに価値を置いているか?データ・サイエンティストを雇用する必要があるかどうかの判断には、組織の文化も影響を及ぼします。アナリティクスをサポートする環境が整っているでしょうか?経営幹部の賛同は得られているでしょうか?そうではない場合、データ・サイエンティストへの投資は、資金の無駄遣いにしかなりません。
- 変化を受け入れる準備ができているか?データ・サイエンティストとして働くようになると、分析にもとづく進言を真剣に受け止めてもらえることを期待し、少しでも自分の仕事が実を結ぶ様子を見たいと考えるでしょう。組織が優れた成果を上げる方法を見つけるために時間を費やすのですから、これは当然のことです。ただし、そうした適切に欲求が満たされるかどうかは、データ・サイエンティストが導き出した知見を積極的に業務に反映させるという点について、組織側の態勢が整っているかどうかに依存します。
データにもとづいてビジネスの意思決定を導くためにデータ・サイエンティストを雇用することは、組織によっては大決断であり、そのような場合は、組織全体の足並みが揃うまでにも時間がかかります。ですから、就業予定先の組織が適切な考え方をしており、かつ、変化を受け入れる準備が整っていることを必ず確認すべきです。
私は俊敏性を重視する会社で働いており、状況の変化に柔軟に適応することが求められます。例えば先週は、いくつもの作業を行っていました。レコメンデーション・スコアの改善、業務コンテンツ管理システムとの統合のチューニング、アフィニティ・モデルで使用するための消費者行動にもとづいた新しい変換変数の作成、既存のパフォーマンス・レポート/分析ダッシュボードのリファクタリングなどです
マニュエルデイヴィッド・ガルシア(Manuel-David Garcia)氏
ハイデルベルク(ドイツ)の中堅企業のデータ・サイエンティスト
インタビュー記事を読む(英語)