日本語のテキストマイニングは、なぜ困難なのか?– そのハードルと解法をSASが解説する

今や当たり前に使われるようになっている言葉「ビッグデータ」。しかし「ビッグデータを当たり前のように活用できているか」といえば、どうだろう?顧客の購買履歴や、システムが書き出すログデータのように、定型化され、分析しやすいデータの活用は進んでいても、各種報告書やユーザーに実施したアンケートのように、テキストで構成されているデータについては後回しになっているという企業も多いだろう。商品開発や業務改善に役立つ情報が満載のはずと分かっていても、定型化されていないデータの分析は確かにハードルが高い。特に日本語は言語上の特異性ゆえに分析が困難だとされてきた。

やはりテクノロジーが進化しても、日本語のデータ分析は不可能なのか?そこで弊社 ソリューションコンサルティング第一本部 担当部長 津田 高治を訪ね、テキストマイニング・ソリューションの必要性や実用性などについて話を伺った。

seminar-text-mining-tsuda

SAS Institute Japan株式会社
ソリューションコンサルティング第一本部
担当部長 津田 高治

非定型データに埋蔵された情報が、ビジネスにインパクトを与える

「企業が持っているデータのうち、テキストや音声のような非定型データの割合は7~8割を占めると言われています。定型データが顧客のビヘイビア(行い)を外側から観察するのに適したデータである一方、コメントやツィートなどのテキストデータは、人の心の内側、ビヘイビアの裏にある動機を知るのに役立ちます。技術開発が進んだことで、テキストも具体的な分析対象となり、その分析結果が様々なビジネスにインパクトを与えつつある、というのが今の状況です」(津田)

SAS Institute(以下、SAS)といえば、数値を基盤とした分析を得意としているイメージが強いが、実は言葉(テキスト)の統計分析でも大きな成果を上げている。SASがテキスト分析ソリューションの開発に取り組んだきっかけの一つは、医療・医薬分野からの要望だった。それは、テキストで記された症状や所見、投薬履歴などのデータと、実際の病気との関連性を見つけることで、早期診断や薬の飲み合わせによる副作用の発見に役立てたいというものだった。これを受けてSASは今世紀初頭からテキストマイニング・ソリューションの本格的な開発・提供を開始、その結果、医療・医薬分野では既に大きなシェアを獲得している。その他の分野でもSASのテキストマイニング・ソリューションは、マーケティングをはじめとする様々な用途に利用されるようになっている。どうしても機密情報に関係するため公表は難しいが、かなりの社数にのぼると述べておこう。

現在の主流は、「ルール・ベース」と「機械学習ベース」

津田によれば、現在のテキストマイニング・ソリューションは、大別してルール・ベースのものと、機械学習ベースの2種類に分けられるという。ルール・ベースのソリューションは、データ内に出現する言葉が意味するものや、その言葉と紐付けるべきものを人間が予め定義づけしておき、分析・予測に役立てるというもの。例えば顧客からのコメントデータに「クレーム」「ニーズ」などのタグ付け(ルール設定)を行っておくと、そこに含まれる言葉を参考に、新たに寄せられたコメントがクレームなのか、ニーズなのかを、システムが自動的に分類・判断してくれるという仕組みだ。ルールを設定するためには、その分野に精通したエキスパート的な人材が不可欠となるが、極めて精度の高い分析が行える。SASのソリューションでは、取り込んだテキストデータをカテゴライズするSAS Enterprise Content Categorizationや、Webをクローリングし、その書き込みからユーザーの感情を抽出・レポートするSAS Sentiment Analysisなどが、このタイプだ。SASのユーザーには、顧客の言葉を分析し、それぞれに薦めるべき商品(購入してもらえる確率が高い商品)の選定に利用している金融機関もあるという。

一方、機械学習ベースのソリューションは、与えられたテキストデータをシステム自ら分類し、自動でルールを設定していく。精度はルール・ベースに比べて少し及ばないものの、特定の分野や内容に縛られることなく、大量で多様なテキストを一定の品質で処理できるのが特長だ。SASのソリューションでは、SAS Text Minerがこれにあたり、多彩な分野のマーケティング業務に活用されている。

テキストの分析によって得た気づきからビジネスチャンスが生まれることも

日本語はその構造上、テキストマイニングでは扱いにくい言語と言われてきたが、上述の通り、既に技術は実用化され、数々のベネフィットを生み出している。「分析で得た情報は、既存ビジネスに役立てることもできますし、新たなビジネスを企画・提案していくための礎としても使っていただけます」と津田が言うように、テキストの分析によって、これまでになかった気づきを得られれば、そこにビジネスチャンスが生まれることも考えられる。

※本コンテンツは、マイナビニュースに掲載された記事を一部編集して転載したものです。

Back to Top