自然言語処理（NLP）

概要と重要性

自然言語処理（NLP）は、人工知能（AI）の下位分野であり、コンピューターが人間の言語を理解、解釈、操作できるようにする取り組みです。NLPでは、人間のコミュニケーションとコンピューター側の理解との間のギャップを解消することを目指し、コンピューター・サイエンスや計算言語学をはじめとする幅広い分野の知見を活用します。

自然言語処理の進化

自然言語処理は新しい科学ではありませんが、人間とマシンのコミュニケーションに対する関心が高まり、また、ビッグデータ、パワフルなコンピューティング、強化されたアルゴリズムが利用できるようになったおかげで、このテクノロジーは今、急速に進歩しつつあります。

人間として、母国語以外にも、英語、スペイン語、あるいは中国語など複数の言語で会話や読み書きを行えるかもしれません。しかし、コンピューターのネイティブ言語（マシンコードや機械語と呼ばれます）は、ほとんどの人間にとって、ほぼ理解不能です。デバイスの最も深いレベルでは、コミュニケーションは単語によってではなく、論理的なアクションを生成する無数の「0」と「1」の羅列によって発生しています。

数十年前、実際のプログラマーはパンチカードを使って、初期のコンピューターとコミュニケーションをとっていました。この手作業中心で骨の折れるプロセスは、限られた人々にしか理解されていませんでした。最近では、 ChatGPTのような生成AI (GenAI)モデルを使えば、コード作成、新しいアイデアのブレインストーミング、研究テーマの要約などを行うことも可能です。

この技術は、NLP（自然言語処理）を用いた大規模言語モデル（LLM）や、機械学習や深層学習などのAI要素によって実現しています。

合成データとその多様な応用

合成生成データは、NLPモデルでよく使用されます。合成データとは何か、なぜそこまで価値があるのか、そして現在どのように活用されているのか、さらに詳しく知りたいですか？動画内でSAS 次世代AI技術製品戦略統括のBrett Wujekが解説しますので、合成データが今後なぜ重要なのかをご覧ください。

記事を読む（英語） Read about synthetic data, including how it works and how it relates to NLP

NLPの最新動向

NLPと大規模言語モデルによるデータ品質

LLMのようなテキスト関連モデルでは、ノイズや重複、曖昧さといった問題が生じる可能性があるため、データが多ければ多いほどよいとは限りません。LLMにおいては、生成される結果はデータの質に直接左右されます。ここではまず、意味論に基づくルールベースの自然言語処理技術がどのように役立つかご紹介します。

ブログ記事を読む（英語） Read the first blog post in a series on LLMs and NLP

自然言語処理（NLP）が規制対応を一新

数千件のパブリックコメントに対して厳密な回答を提供するため、政府機関は手作業による過酷な仕分け作業に追われています。NLP、テキストアナリティクス、生成AIを活用することで、専門家をプロセスの中核に据えつつ、このタスクを効果的かつ正確に管理できます。

ブログ記事を読む Read a blog post about uses of NLP, GenAI and text analytics in the public sector

チャットボットとその仕組み、アナリティクスとAIとの連携

チャットボットとは、人間とコンピューターのやり取りを簡素化するために設計された会話型AIの一種です。高度なチャットボットは、学習と情報収集を通じてユーザーの好みに合わせ、パーソナライズされた応答や提案を行います。これによりデジタルAIアシスタントとしての役割を果たします。

解説記事を読む Learn more about how chatbots work in this explainer article

NLPであらゆる声を届ける

機械が人間の言葉を理解し、微妙なニュアンスまで読み取る仕組みを探ります。AIや自然言語処理（NLP）、そして人間の知見がどのように協力し合い、人と機械のコミュニケーションやデータの価値発見を支えているのか、またNLPが多様な業界で活用されている事例も解説します。

e-bookを入手 Download an e-book to learn more about natural language processing

NLPが重要な理由

大量のテキストデータ

自然言語処理（NLP）は、コンピューターが人間の言葉を用いて人間とコミュニケーションすることや、その他の言語関連タスクの処理キャパシティーを飛躍的に拡張することを可能にします。例えば、NLPを組み込んだコンピューターは、テキストを読み人間の話を聞き内容を解釈し感情を推し測り、どの部分が重要かを判断することができます。

現在の機械は人間よりもはるかに多くの言語データを一定の精度で分析できます。医療記録からソーシャルメディアまで、圧倒的に膨大な量の非構造化データが日々生成されていることを考えると、テキストデータや音声データを効率よく完全に分析するためには、自動化が極めて重要になります。

非構造化の度合が高いデータソースの構造化

人間の言語は驚くほど複雑かつ多様です。私たちは話し言葉と書き言葉のどちらでも、無限の方法で自己を表現します。世界には数百種類の言語や方言が存在しているだけでなく、それぞれの言語には固有の文法や構文規則、用語、俗語があります。書き言葉では、スペルミス、短縮表記、句読点の省略が頻繁に発生します。話し言葉では、地域特有のアクセントがあるほか、口ごもり、どもり、他言語からの用語の借用などが生じます。

今では、人間の言語をモデル化するために、教師あり学習と教師なし学習、特にディープ・ラーニングが幅広く利用されていますが、これらの機械学習アプローチが必ずしもカバーしているとは限らない、統語論や意味論の観点からの理解や、当該分野の専門知識が必要になることもあります。NLPが重要な理由は、言語における曖昧さの解消に役立つから、および、数多くの下流側アプリケーション（例：認識やテキスト・アナリティクス）にとって有用な数値構造をデータに追加するからです。

Kia Motors、AIと高度なアナリティクスを使用して顧客からの声の意味を読み解く

Kia Motors Americaは、品質上の問題を明らかにし、製品を改善するために、車両所有者アンケートからのフィードバックを定期的に収集しています。しかし、顧客の反応を理解し分類することは難しい場合があります。SASの自然言語処理を使用して、KIAはフィードバックを正しく理解できます。NLPモデルでは、各対応における苦情の種類を自動的に分類して抽出するため、既存および将来の車両の設計および製造プロセスで品質問題に対処できます。

事例を読む

NLPの仕組み

人間の言葉を基本的な言語要素に分解

自然言語処理という分野には、統計解析や機械学習の手法から、ルールやアルゴリズムに基づくアプローチに至るまで、人間の言葉を解釈するための多種多様な技法が含まれます。テキストベースや音声ベースのデータは多様性に富んでいるため、自然言語処理には幅広いアプローチが必要になります。この点は実用的な応用の場合も同様です。

基本的なNLPタスクとしては、トークン化と解析、見出し語化／ステミング、品詞タグ付け、言語検出、意味関係の特定などがあります。小学校で文の構造を図解したことがあるなら、これらの作業を手作業で行った経験があるはずです。

一般的な言葉で説明すると、一連のNLPタスクでは、言語を短い基本要素に分解した上で、要素間の関係を理解することを試み、それらの要素全体がどのように連携して意味を表現しているかを探索します。

これらの基本的なタスクは、以下のような、より高度なNLP機能の中で頻繁に使用されます。

コンテンツ分類は、言語学的な特徴に基づいて文書を要約します。検索とインデックス作成、コンテンツに関するアラート、重複の検出などが含まれます。
大規模言語モデル（LLM）ベースの分類、特にBERTを用いた分類は、従来のモデルよりも精度を向上させるために、テキスト内の単語の文脈と意味を把握するために使用されます。
コーパス分析では、効果的なサンプリング、さらなるモデルの入力としてのデータの準備、モデリングアプローチの戦略化などのタスクのために、出力統計を通じてコーパスと文書構造を理解します。
コンテキスト（文脈）抽出では、テキストベースのソースから自動的に構造化データの形で情報を取り出します。
センチメント分析とは、文章や大量のテキストに含まれる感情や主観的な意見を特定し、平均的な感情や意見の傾向を抽出することを含みます。
音声テキスト変換とテキスト音声変換音声による命令などを書き言葉のテキストに変換します。または、その逆の変換を実行します。
文書要約は、大量のテキストの要約を自動的に生成し、多言語コーパス（文書）内の表現言語を検出します。
機械翻訳は、テキストまたは音声をある言語から別の言語へ自動的に翻訳します。

いずれの場合も、言語入力を出発点として、言語学やアルゴリズムを用いながらテキストを加工・強化し、より有益な情報へと高めることが目的です。

NLPの手法と応用

コンピューターがテキストデータの意味を理解する方法

自然言語処理は、テキスト・アナリティクスを通じて、構造化されていないデータを構造化します。テキスト・アナリティクスは、語（単語や連語）の計数／グループ化／分類を行うことで、大量のコンテンツから構造と意味を抽出します。この技術は、テキストコンテンツを解析し、生のテキストから新たな変数を生成する目的でも使用されます。得られた変数は、ビジュアライゼーションやフィルタリングに利用することや、予測モデルまたはその他の統計手法に対する入力として利用することができます。

NLPと生成AIは、以下をはじめとする多くの応用領域で併用されています。

犯罪捜査上のディスカバリー：犯罪の検知と解決を支援するために、電子メールや書面による大量の報告書からパターンや手掛かりを洗い出します。
分野別の専門知識の整理：適切な行動を取ることや傾向を発見することが可能になるように、コンテンツを有意義なトピックに分類します。
コンテンツ作成。特定のトピックに関する新しいコンテンツを生成し、主要な概念を説明します。

日常生活においても、NLPは数多くの身近で実用的な用途に応用されています。業務アシスタントAIとの共同作業に加えて、以下のような例も挙げることができます：

チャットボットを使ってカスタマーサービスの問題を解決したことはありますか？その場合、検索、トピックモデリング、テキスト生成、エンティティー抽出、コンテンツ分類といったNLPツールを使用したことになります。
迷惑メールフォルダーに振り分けられた電子メールを見て、件名の類似性に気付いたことはありませんか？これはベイジアン・スパムメール・フィルタリングという統計的なNLP手法が使われているからです。この手法では、スパムメールに含まれる単語を正当な電子メールのそれらと比較してジャンクメールを洗い出します。
電話に出損ねた後、電子メールの受信箱やスマートフォンのアプリで「ボイスメールから自動生成されたテキスト」を読んだ経験はありませんか？そこには、NLP機能の一種である音声テキスト変換が使われています。

NLPの下位分野である自然言語理解（NLU）は、認知領域やAIの分野で応用されています。NLUは、言語の構造的な理解を超えたレベルで機能することで、意図を解釈したり、コンテキスト（文脈）や単語の曖昧さを解決したりできるほか、人間の言語を自律的に流暢に生成することができます。NLU（自然言語理解）アルゴリズムは、意味解釈という非常に複雑な課題に取り組みます。これは、人間が理解できるような微妙なニュアンスや文脈、推論を含めて、話し言葉や書き言葉の意図された意味を理解することを指します。

NLUに向けたNLPの進化は、企業と消費者にも同様に、数多くの重要な可能性を示唆しています。医学から法律、教室に至るまで、多種多様なコンテキストに即して人間の言語の意味とニュアンスを正しく理解できるアルゴリズムが実現したら何が起きるのか、そのパワーを想像してみてください。非構造化データの情報量が今後も爆発的に増え続けるにつれて、すべてを理解するのに役立つコンピューターのたゆまぬ能力の恩恵を受けています。

SAS^® Visual Text Analytics

大量のテキストデータから迅速かつ容易に疑問の答えを見つけ出すためには、機械学習を自然言語処理やテキスト・アナリティクスと組み合わせるアプローチが効果的です。SASのソリューションなら、課題の特定、センチメントの評価、最新トレンドの察知、隠れた機会の発見といった目的のために、そのようなアプローチで非構造化データを分析することができます。

詳細を見る

お勧めの関連資料

パーソナル・データ・サイエンティストの可能性についてSiriに天気を尋ねるのと同じ感覚で、デスク上のボタンを押して最新の販売予測を確認できるとしたら？本稿ではパーソナル・データ・サイエンティストの可能性を探ります。

自然言語処理（NLP）

概要と重要性