Data Scientists Special Talk Session
データサイエンティストが語るアナリティクスの現在と未来

【 後編:データサイエンティストが切り拓く未来 】(1/4)

多種多様なデータが爆発的に増加する現在。そこから知見を見出すアナリティクスの重要性が増しています。そこで注目を集める存在が「データサイエンティスト」。SAS Technical Newsでは、気鋭のデータサイエンティスト 孝忠大輔氏をNECビッグデータ戦略本部からお招きし、SASのコンサルタントと3名による特別鼎談を行いました。後編となる今回では、データサイエンティストが担うべき役割、切り拓く世界へと、広く深く話題が展開していきます。
※本記事は2016年4月発行のSAS Technical News 2016 Springに記載されたものです。

kochu-daisuke2

孝忠 大輔氏

日本電気株式会社
ビッグデータ戦略本部 主任
データサイエンティスト

tsuji-hitoshi

辻 仁史

SAS Institute Japan株式会社
ソリューションコンサルティング本部
Information Management グループ
アナリティクスリード シニアマネージャー(取材時)

yamashita-katsunori2

山下 克之

SAS Institute Japan株式会社
ソリューションコンサルティング本部
エンタープライズアナリティクス
推進グループ 部長

「生い立ち」が決める、データ分析のスタイル

――お伺いしていると、皆さんさまざまな経験を積まれることで、現在お持ちのノウハウに達したのかなと感じられます。そのご経験自体にも、読者の方々は興味があるかと思うのですが。

孝忠 前回の話の中でも出てきた、生ログをなぜ見るようになるのか、という部分ですが。一番わかりやすいのは、生ログを見なかったが故に失敗する…ということが結構あるんですよ。そしてそれは、お客様の業務を、ちゃんと理解できていなかったということだったりするんですよね。生ログを見ていたら気付いただろうことに、気付けない。データクレンジングの話とも、分離し難い話ではあるんですけど。
例えば、データを100件しっかり見るだけでも、何が自明なのかが見えてきます。例を挙げれば、売上というデータ項目に、プラスのデータとマイナスのデータが入っていれば、それは打ち消し合って返金しているんだなといったことが、一発でわかるわけです。けれどもそれを合計すると0になっちゃいますから、返金というデータが入っていること自体が見えない、ということが起こります。
そういった失敗をすると、必ず生ログを見るようになりますし、「業務を知る」という観点から、しっかりデータの動きを追っていくようになります。
生ログを使ってデータの動きを追っていないと、「この人は1万円の買い物をしました」と、一瞬で通り過ぎちゃう。けれども、その1万円はどういう買い物だったのか?どういう動きを辿って購買に至ったのか?それを知りたくなったら、生ログを見ざるを得ません。

Data Scientists Special Talk Session (JP)

――辻さんはいかがでしょうか?

 私の場合は、分析を始めたのが昔でしたから、環境が今とは違っていたんですね。データの項目定義書があって、ファイル形式のデータばかり扱っていた。項目名はこっち側の紙にあるんです。データは数字か文字です。プログラム上では、例えば最初の1カラム目からがIDで、8桁の文字列であると定義されている。そんな定義をひたすらプログラムを書いて実行すると、SASのデータができる。そこから分析を始める…というやり方でずっとやってきたので、必ず生データを見ていたんです。

―― プロセス上の必然だったということですね?

 私には実感として「人間の行動パタンは崩れにくい」というのがあるんですが、それもやはり、こういうルーツがあるからだと思います。ですから、今例えばRDBがポンとあったとしても、生データで「あ、こういうデータ形式で入っていくのか」とか、幾つかのIDを見て「この人はこういう動きをしているのか」という昔の確認パタンでデータを見るようになっている。

孝忠 私もそうですね。もともと、データウェアハウスを構築するSEをやっていたんです。ですから生のデータを扱うことが仕事の一部で。辻さんと私は、一般化しづらい特殊なケースなのかもしれません(笑)。

 「データサイエンティストは一般的に…」という話ではなくてね。そういう生い立ちで2人はやってきたから「生データは見るものですよね」という共感が生まれている状態ですね。

―― とはいえ、それはデータサイエンティストの姿としても、あるべき姿なのではないかと、お二人は思われているわけですよね?

 いえ、そこはおそらく人それぞれですし、もっと効率的なやり方っていうのも、生い立ちが違えばあるんじゃないでしょうか。

―― もっと違う可能性もあるだろうと。その点はぜひ、新しい世代のデータサイエンティストの皆さんに期待したいところですね。