データ・サイエンティストの素顔:パトリック・ホール

インタビュー・執筆: ステファニー・ロバートソン(Stephanie Robertson)、「SAS Insights」編集者

パトリック・ホールは米国ノースカロライナ州立大学の分析学修士課程を修了してからわずか数年後に、チームの一員として、データマイニングの根幹をなす課題の1つである「データセットに含まれるクラスター数の判定」を解決するアルゴリズムの特許を出願しました。今回の「データ・サイエンティスト・シリーズ」では、SASで働くホールにインタビューしました。

大学では何を学ばれたのでしょうか?
ホール
(以下同様):もともとはノースカロライナ大学で数学の学士号を取得しました。イリノイ大学で物理化学の博士号を取ろうと思っていたのですが、自分には向いていないことが分かりました。プログラミングのスキルを身につけていましたので、ノースカロライナ州のトライアングル地区(訳注:同州ダーラム、ローリー、チャペルヒルからなる全米屈指の学術研究拠点)に戻り、小さな新興企業で働き始めました。2年ほどしてノースカロライナ州立大学の分析学修士課程に復学しました。現在はSASで働いています。

パトリック・ホール、データ・サイエンティスト
パトリック・ホール、データ・サイエンティスト

データ・サイエンティストとしては、どのようなスキルが最も役に立っていますか?
データ・サイエンティストを定義するのは難しいのですが、私の考えでは、大量のデータを操作できることが、分析担当者や統計担当者といった従来の役割からデータ・サイエンティストを差別化する要因だと思います。異種混在のソースから収集したデータを組み合わせるためには、通常は独自のソフトウェア・ツールの作成が必要になりますが、いったんデータを適切なフォーマットに変換してしまえば、それを分析し、視覚化し、説得力のあるストーリーを伝えるのがとても簡単になります。

データ・サイエンティストになりたいと自覚したのは、いつのことでしたか?何が決め手になったのでしょうか?
高校や学部生の頃にはデータ・サイエンスを意識していませんでしたが、大学院で化学を学んでいるときに、自分は分析や視覚化という作業が好きだと気づきました。それからは高度なデータ分析手法への興味がどんどん強まりましたし、実験結果を伝えるために多用するビジュアライゼーションを作成するのも大好きでした。

現在の所属部門と直属の上司を教えてください。
SAS Enterprise MinerのR&D部門に勤務しており、直属の上司はアドバンスト・アナリティクス担当ディレクターのスーザン・ハラー(Susan Haller)です。

現職に就いてからの期間はどのくらいでしょうか?また、最初からデータ・サイエンティストとして雇用されたのでしょうか?
SAS Enterprise MinerのR&D部門には2012年中頃から在籍しています。正式な役職はシニア・スタッフ・サイエンティストです。データ・サイエンティストのもうひとつの分かりやすい定義は、ほとんどのプログラマーよりも優れた統計担当者であり、ほとんどの統計担当者よりも優れたプログラマーである、というものです。これが基本的に、現在の役割で私に求められているものだと思います。

仕事はチームで行うのですか?その場合、どのようなメンバー構成なのでしょうか?
はい!優秀ですばらしい、たくさんの仲間と一緒に仕事をしています。その多くは、高度な専門性を備えた統計担当者、数学者、プログラマーです。お互いに補い合えますし、一緒になって、かなり面白いことにも挑戦できています。

お仕事の内容はどんな感じなのでしょう?毎日がほぼ同じなのか、それとも日によって大きく異なるのでしょうか?業務内容の概要と、どのようなプロジェクトに取り組まれているのかを教えていただけますか?
毎日が違いますよ。コードを書くときもあれば、お客様が見たこともないような分析手法のプロトタイプを作成するときもあります。また、本や論文の執筆もしますし、お客様が抱えている問題に取り組むこともあります。

最大の課題は何でしょうか?
私にとって最大の課題は、お客様が直面している特定の問題に関係したものがほとんどです。こうした問題の解決は難しくて時間がかかる場合もありますが、お客様と連絡を取り続けることは、ご提供するツールを継続的に改良していく上で極めて重要です。

ご自身にとって、これまでで最大の業績は何でしょうか?
データセットに含まれるクラスター数を推定できるアルゴリズムに関して、同僚たちと一緒に特許を出願したことです。データセットに含まれるクラスター数の判定は、データマイニングやカスタマー・リレーションシップ・マネジメント(CRM)における根本的な問題です。

余暇には何されているのでしょうか?
私はかなりのオタクです。データマイニングに関するコンテストのプラットフォームであるKaggleには多くの時間を費やしていますし、最新テクノロジーの勉強もやっています。例えば、Pythonで書かれたデータ・ビジュアライゼーション・パッケージのBokehなどですね。サイクリングもやっていて、時間があればノースカロライナ州の丘陵地帯に挑戦しています。

お気に入りの最新テクノロジーやアプリは何でしょうか?
Quora(ユーザー・コミュニティが運営するQ&Aサイト)、Strava(サイクリング/ランニングのタイムを計測するアプリ/サービス)、Github(Webでバージョン管理が行えるサービス)の3つが同率首位というところです。どれも少し前からあるものですが。

Data scientist series

関連情報

Back to Top