自然言語処理(NLP)
概要と重要性
自然言語処理(NLP)は、人工知能(AI)の下位分野であり、 コンピューターが人間の言語を理解、解釈、操作できるようにする取り組みです。NLPでは、人間のコミュニケーションとコンピューター側の理解との間のギャップを解消することを目指し、コンピューター・サイエンスや計算言語学をはじめとする幅広い分野の知見を活用します。
自然言語処理の進化
自然言語処理は新しい科学ではありませんが、人間とマシンのコミュニケーションに対する関心が高まり、また、ビッグデータ、パワフルなコンピューティング、強化されたアルゴリズムが利用できるようになったおかげで、このテクノロジーは今、急速に進歩しつつあります。
あなたは人間として、母国語以外にも、英語、スペイン語、あるいは中国語など複数の言語で会話や読み書きを行えるかもしれません。しかし、コンピューターのネイティブ言語(マシンコードや機械語と呼ばれます)は、ほとんどの人間にとって、ほぼ理解不能です。あなたのデバイスの最も深いレベルでは、コミュニケーションは単語によってではなく、論理的なアクションを生成する無数の「0」と「1」の羅列によって発生しています。
実際、70年前のプログラマーはパンチカードを使って、初期のコンピューターとコミュニケーションをとっていました。この手作業による手間のかかるプロセスは、比較的少数の人々のみが理解していました。今では、あなたが自宅で音楽を聴いているときに「アレクサ、この歌いいね」などと言えば、その再生デバイスは音楽の音量を少し落とした上で「オッケー。評価を保存しました」などと、人間のような音声で返事をしてきます。そして再生デバイスは、あなたが次にそのミュージック・ステーションを聴くときには、その歌やそれと似た曲を再生するようにアルゴリズムを適応させます。
このやり取りを少し詳しく見てみましょう。デバイスは、あなたの発話を聞き取ると自身をアクティブ化し、あなたの言葉の(言外の)意図を理解し、必要なアクションを実行し、流暢な文章でフィードバックを提供してきます。このやり取り全体の所要時間は約5秒です。この完全なやり取りは、NLPを他のAI要素(機械学習やディープ・ラーニングなど)と組み合わせることで実現しています。
顧客の苦情の件数をNLPで削減
Royal Bank of Scotland社は、顧客から様々な形態で寄せられるフィードバックから重要な傾向を抽出するために、NLPの一手法であるテキスト・アナリティクスを活用しています。同社では電子メール、アンケート調査、コールセンターでの応対から収集したデータを分析することで、顧客の不満の根本原因を特定し、改善策を実施しています。カスタマー・リレーションシップを変革するアナリティクスの詳細について、ぜひこのビデオをご覧ください。
NLPが重要な理由
大量のテキストデータ
自然言語処理は、コンピューターが人間の言葉を用いて人間とコミュニケーションすることや、その他の言語関連タスクの処理キャパシティを飛躍的に拡張することを可能にします。例えば、NLPを組み込んだコンピューターは、テキストを読み、人間の話を聞き、内容を解釈し、感情を推し測り、どの部分が重要かを判断することができます。
今日のマシンは、人間よりも大量に、“疲れる” ことなく、一貫したバイアスのない方法で、言語データを分析することができます。医療記録からソーシャルメディアまで、圧倒的に膨大な量の非構造化データが日々生成されていることを考えると、テキストデータや音声データを効率よく完全に分析するためには、自動化が極めて重要になります。
非構造化の度合が高いデータソースの構造化
人間の言語は驚くほど複雑かつ多様です。私たちは話し言葉と書き言葉のどちらでも、無限の方法で自己を表現します。世界には数百種類の言語や方言が存在しているだけでなく、それぞれの言語には固有の文法や構文規則、用語、俗語があります。書き言葉では、スペルミス、短縮表記、句読点の省略が頻繁に発生します。話し言葉では、地域特有のアクセントがあるほか、口ごもり、どもり、他言語からの用語の借用などが生じます。
今では、人間の言語をモデル化するために、教師あり学習と教師なし学習、特にディープ・ラーニングが幅広く利用されていますが、これらの機械学習アプローチが必ずしもカバーしているとは限らない、統語論や意味論の観点からの理解や、当該分野の専門知識が必要になることもあります。NLPが重要な理由は、言語における曖昧さの解消に役立つから、および、数多くの下流側アプリケーション(例:音声認識やテキスト・アナリティクス)にとって有用な数値構造をデータに追加するからです。
NLPの最新動向
自然言語処理は既に、数多くの業種で活用されています。
NLPに関する計画
世界中の企業や組織は、人工知能(AI)とNLPをどのように活用しているのでしょうか?これらのテクノロジーの導入率や将来の計画、予算や導入計画は、どのような状況にあるのでしょう?また、どのようなビジネス課題をNLPアルゴリズムで解決しようとしているのでしょうか?その答えは、このTDWI社のレポートの中で見つかります。
重症化する前に敗血症を特定
非営利公益医療法人のDignity Healthsでは、敗血症の兆候に関して電子医療記録をモニタリングするために、NLPやその他の高度なアルゴリズムを活用しています。患者が敗血症を発症している可能性が高い場合、このシステムは看護師や医師にアラームを送信します。
組織におけるテキスト・アナリティクスの活用法とは?
テキスト・アナリティクスは自然言語処理の一種であり、テキストを分析用のデータに変換します。様々な業種(銀行・金融、医療・ライフサイエンス、製造、官公庁)の企業や組織がカスタマー・エクスペリエンスの向上、不正の削減、社会の改善を推進するために、どのようにテキスト・アナリティクスを活用しているかをご確認ください。
NLPの仕組み
人間の言葉を基本的な言語要素に分解
自然言語処理という分野には、統計解析や機械学習の手法から、ルールやアルゴリズムに基づくアプローチに至るまで、人間の言葉を解釈するための多種多様な技法が含まれます。テキストベースや音声ベースの言語データは多様性に富んでいるため、自然言語処理には幅広いアプローチが必要になります。この点は実用的な応用の場合も同様です。
基本的なNLPタスクとしては、トークン化と解析、見出し語化/ステミング、品詞タグ付け、言語検出、意味関係の特定などがあります。あなたがもし小学校で文章構造を図式化したことがあれば、これらのタスクを手作業でこなした経験があることになります。
一般的な言葉で説明すると、一連のNLPタスクでは、言語を短い基本要素に分解した上で、要素間の関係を理解することを試み、それらの要素全体がどのように連携して意味を表現しているかを探索します。
これらの基本的なタスクは、以下のような、より高度なNLP機能の中で頻繁に使用されます。
- コンテンツ分類:言語学的な特徴に基づいて文書を要約します。検索とインデックス作成、コンテンツに関するアラート、重複の検出などが含まれます。
- トピックの発見とモデリング:テキストのコレクションに含まれる意味とテーマを正確に捕捉します。モデル化の手段として、最適化や予測などの高度なアナリティクスをテキストに適用します。
- コンテキスト(文脈)の抽出:テキストベースのソースから自動的に構造化データの形で情報を取り出します。
- センチメント分析:大量のテキストから気分や主観的な意見を特定します。平均的な感情や意見をマイニングすることもできます。
- 音声テキスト変換とテキスト音声変換:音声による命令などを書き言葉のテキストに変換します。または、その逆の変換を実行します。
- 文書の要約:長いテキストの要約文を自動的に作成します。
- 機械翻訳:テキストまたは音声を、ある言語から別の言語へ自動的に翻訳します。
どのNLP機能においても、最も重要な目標は、入力された生の言語に対して言語学とアルゴリズムを適用することを通して、より大きな価値を生む状態へとテキストを変換または拡充加工(エンリッチメント)することです。
NLPの手法と応用
コンピューターがテキストデータの意味を理解する方法
NLPとテキスト・アナリティクス
NLPは、テキスト・アナリティクスと連携して機能します。テキスト・アナリティクスは、語(単語や連語)の計数/グループ化/分類を行うことで、大量のコンテンツから構造と意味を抽出します。また、テキスト・アナリティクスは、テキスト・コンテンツを探索し、生のテキストから新たな変数を導き出す目的にも使用されます。得られた変数は、ビジュアライゼーションやフィルタリングに利用することや、予測モデルまたはその他の統計手法に対する入力として利用することができます。
NLPとテキスト・アナリティクスは、以下をはじめとする多くの応用領域で一緒に使用されています。
- 犯罪捜査上のディスカバリー:犯罪の検知と解決を支援するために、電子メールや書面による大量の報告書からパターンや手掛かりを洗い出します。
- 分野別の専門知識の整理:適切な行動を取ることや傾向を発見することが可能になるように、コンテンツを有意義なトピックに分類します。
- ソーシャルメディア分析:特定のトピックに関する認知度やセンチメントを追跡し、重要なインフルエンサーを特定します。
日常生活におけるNLPの応用例
私たちの日常生活においても、NLPは数多くの身近で実用的な用途に応用されています。AlexaやSiriのようなバーチャル・アシスタントとの会話のほかにも、以下のような例を挙げることができます。
- 迷惑メールフォルダーに振り分けられた電子メールを見て、件名の類似性に気付いたことはありませんか? これはベイジアン・スパムメール・フィルタリングという統計的なNLP手法が使われているからです。この手法では、スパムメールに含まれる単語を正当な電子メールのそれらと比較してジャンクメールを洗い出します。
- 電話に出損ねた後、電子メールの受信箱やスマートフォンのアプリで「ボイスメールから自動生成されたテキスト」を読んだ経験はありませんか? そこには、NLP機能の一種である音声テキスト変換が使われています。
- Webサイトを閲覧中に、埋め込み型の検索バーを使ったことや、提示されたトピック/エンティティ/分類タグなどを選択したことはありませんか? その経験があれば、検索、トピック・モデリング、エンティティ抽出、コンテンツ分類といったNLP手法の利用を体験していることになります。
近年、NLPの下位分野である自然言語理解(NLU)が注目を集めていますが、その理由はコグニティブ・コンピューティングやAIの応用用途における多大なポテンシャルです。NLUは、言語の構造的な理解を超えたレベルで機能することで、意図を解釈したり、コンテキスト(文脈)や単語の曖昧さを解決したりできるほか、人間の言語を自律的に流暢に生成することさえできます。NLUのアルゴリズムは、意味解釈における極めて複雑な課題、すなわち「私たち人間がつかみ取れる微妙さ、コンテキスト、推論の全てを用いて、話し言葉や書き言葉の意図された意味を理解すること」に取り組まなければなりません。
NLUに向けたNLPの進化は、企業と消費者の双方に対し、数多くの重要な可能性を示唆しています。医学から法律、教室に至るまで、多種多様なコンテキストに即して人間の言語の意味とニュアンスを正しく理解できるアルゴリズムが実現したら何が起きるのか、そのパワーを想像してみてください。非構造化データの情報量が今後も爆発的に増え続けていくのは確実ですから、人間がその全てに潜む重要な意味を把握できるよう支援してくれる “疲れを知らない” コンピューターの能力から、私たちは多大なメリットを享受することになるでしょう。
次にお読みいただきたい資料
- 参加無料型ネットゲームが大きな利益を生む理由参加無料型のMMO(多人数参加型オンライン)ゲームのリーダー企業であるWargaming社は、SASの工業化されたモデリング環境をどのように活用して顧客のニーズに応えているのでしょうか?
- アナリティクスの現在と未来 後編:データサイエンティストが切り拓く未来(1/4)気鋭のデータサイエンティスト 孝忠大輔氏をNECビッグデータ戦略本部からお招きし、SASのコンサルタントと3名による特別鼎談を行いました。後編となる今回では、データサイエンティストが担うべき役割、切り拓く世界へと、広く深く話題が展開していきます。
- IoTデータへの機械学習の適用機械学習やモノのインターネット(IoT)に関する理論的な議論から離れ、実用的なビジネス・アプリケーションについてお話しします。
- アナリティクスの現在と未来 前編:アナリティクスの現在を語る(1/4)気鋭のデータサイエンティスト 孝忠大輔氏をNECビッグデータ戦略本部からお招きし、SASのコンサルタントと3名による特別鼎談を行いました。
- パーソナル・データ・サイエンティストの可能性についてSiriに天気を尋ねるのと同じ感覚で、デスク上のボタンを押して最新の販売予測を確認できるとしたら? 本稿ではパーソナル・データ・サイエンティストの可能性を探ります。
- アナリティクスで都市をスマート化する10の方法児童福祉から交通運輸まで、行政機関が抱える課題の解決や業務の簡素化にアナリティクスが活用されている10の事例をご紹介します。
- 流れ去るデータを捉えるソーシャルメディアやスマートメーター、センサーなど、常に流れ出てくるデータを扱う場合に、まず保存してから分析していませんか?イベント・データ・ストリーミングを使えば、流れこむデータを捉えてその場で分析し、必要なアクションをリアルタイムにとれるようになります。
- 組織に最適な分析を取り入れる4つのステップ組織が分析技術を有効に活用することで不安要素をなくし、発生前の早い段階から今後起こり得る問題に対処できる仕組みを作り上げるための4つのステップを紹介します。