生成AI

概要と重要性

生成AIは既存のデータを取り込んで学習し、類似する特徴を持つデータを生成します。例えば、画像、テキスト、音声、ビデオ、コンピューター・コードなどを生成できます。

生成AIの進化

従来のAI/機械学習システムはデータ内のパターンを認識することで予測を作成します。しかし、生成AIは予測を超えた機能であり、その主要な出力として新たなデータを生成します。想像してみてください。ご自分のアイデアを説明する数個の単語をチャットボット(例:ChatGPT)に伝えた後、ほんの数秒でスピーチ原稿の全文を受け取る様子や、テキストベースの説明から音楽、アート、画像が生成される様子を ──。あるいは、生成AIツールを使えば、会話形式でやり取りする「プロンプト入力」を通じてビジネス戦略を策定することも可能です。

そもそもどこから始まったのでしょうか?

一般的な見解とは対照的に、生成AIは全く新しいものではありません。私たちが数十年にわたり利用してきたAI、機械学習、統計手法などのテクノロジーから構築されています。3つの中核的な生成AIテクノロジーとして、デジタルツイン、大規模言語モデル(LLM)、合成データ生成があります。

生成AIの起源はもっと遡ることができますが、ここでは1966年の「ELIZA(イライザ)」という名前のチャットボットから話を始めましょう。

ELIZAの開発者であるジョセフ・ワイゼンバウム(Joseph Weizenbaum)氏は、患者の発言をそのまま復唱するロジェリアン療法の心理療法士を模倣するためにこれを設計しました。ELIZAはパターン・マッチングを用いてこの偉業を達成しました。ELIZAは、人間のような知的な振る舞いを示す機械の能力を判定する模倣ゲームである「チューリング・テスト」に挑んだ最初のプログラムの一つでした。

非構造化テキストデータの分析手法が進化していくなか、1970年代から1990年代にかけてセマンティック・ネットワーク、オントロジー、リカレント・ニューラル・ネットワークに進展が見られました。2000年から2015年にかけては、言語モデリングと単語埋め込みが改善され、「Google翻訳」が台頭しました。

2014年、イアン・グッドフェロー(Ian Goodfellow)氏とその同僚たちが敵対的生成ネットワーク(GAN)を開発し、2つのニューラル・ネットワークが互いに競争する(トレーニングし合う)ように設定します。片方のネットワークがデータを生成し、他方のネットワークはそのデータが本物か偽物かの判定を試みる、というものでした。2017年には、Transformerモデルが導入されました。これらのモデルは、予測を作成する際、入力のさまざまな部分の重要性に対して重み付けを行える「自己注意機構」(self-attention mechanism)が含まれていました。また、BERTやELMoといったアーキテクチャも人気がでました。

次に登場したのはGPT(Generative pre-trained transformer)モデルであり、2018年に最初のGTPモデルが発表されます。このモデルは、インターネットから取得した大量のテキストデータで事前にトレーニングされており、1億1,700万個のパラメータを用いることで、文体や内容がトレーニング用データに似ているテキストを生成することができました。その後2023年の時点では、複数の大規模な言語GPTモデルが、司法試験のような難しい試験で上々の成績を収めるレベルにまで進化を遂げています。

生成AIテクノロジーの急速な台頭

“破壊的” なテクノロジーとしての生成AIのインパクトは、電気や印刷機のような発見のそれと比較されています。生産性を劇的に向上させるそのポテンシャルにより、ビジネスユーザーや一般ユーザーの間ではChatGPTのような会話型AIモデルの人気が急上昇していますが、その一方で、データ・プライバシー、AIのバイアス、倫理、正確性に関する懸念も高まっています。生成AIの世界市場は2030年までに1,108億ドルに成長すると期待されています

政策立案者がデジタルツイン・テクノロジーを活用して、新しい税制措置が市民に与えうる影響を判断

ベルギーの財務当局(Federal Public Service Finance)にとって、税制改革が生み出す可能性のある “勝者” と “敗者” を事前に判断することは極めて重要です。迅速かつ正確な答えを必要とする財務当局では、同国の所得税を処理する計算機のデジタルツインである「Aurora」を活用して、将来の債務改革をシミュレートしています。より優れたシミュレーションは政策立案者の情報把握の向上、ひいては政策の成果向上を意味します。

生成AIの最新動向

信頼に値する人工知能(AI)の採用

消費者がより強い信頼感を抱くのは、責任ある倫理的なAI利用を実証する企業・組織です。人間中心主義、包摂性、説明責任のために設計された「信頼に値するAIシステム」を採用することが必要不可欠である理由とは?

生成AIのメリットとリスク

生成AIの動作の仕組みや利用前の考慮事項について詳しく知りたいと思っていませんか? このテクノロジーの基本事項を知り、生成AIツールを採用するためのフレームワークについて学び、これを採用するかどうか、どのように採用するべきかを検討しましょう。

教育におけるAI活用の現状を探る

学生たちは既に、コンテンツやグラフィックの作成、コードの記述、モバイルアプリの構築、問題の解決のために生成AIを活用しています。生成AIは楽しく有用なツールとなりえますが、その一方で、誤った答えや “幻覚” を特定・訂正するには人間の存在が必要です。

非現実のリアリティ: 生成AIの現状

AI生成画像の爆発的な増殖は、人間を失敗に導くほどの非現実を生み出せるのでしょうか?「ディープフェイク」という言葉の真の意味を学び、ディープフェイクを “善いこと” のために活用できる方法を知り、AI生成メディアの検知・識別に新たな技法がどのように役立つかを理解しましょう。

人気のAIツールとその使われ方

ニュースで目にするものだけでも、たくさんの人気AIツールがあります。しかし、生成AIツールも含めると市場には1,500以上のツールがあることをご存知でしたか?

今日、最も普及しているのはどのツールなのか、また、さまざまな業界でどのように応用されているかを把握しましょう。

生成AIの業種別用途

生成AIは世界中の幅広い業種やビジネス機能に広がりを見せています。社会での認知度が高まるなか、このテクノロジーは個人、企業、行政機関の間で興奮と恐怖を同時に引き起こしています。いくつかの業界で今現在、生成AIがどのように活用されているのかを見てみましょう。

銀行・金融

銀行とその他の金融サービス業者は、意思決定の改善、リスクの削減、顧客満足度の向上のために生成AIを活用できます。パターン学習や異常値特定のためにトレーニングされた生成AIモデルは、疑わしい挙動にリアルタイムでフラグを立てることができます。ストレステストやシナリオ分析のためにシミュレートされたデータを生成AIで作成すれば、銀行が将来の財務リスクを予測し、損失を回避するために役立ちます。また、バーチャル・アシスタント(例:チャットボット)は人間のような顧客サービスを24時間365日提供できるようになります。

保険

保険業界では、価格設定/準備金算定/保険数理のモデリングのために合成データを利用できます。例えば、保険会社は「過去の保険契約や保険金請求の情報に似ている合成データ」を用いて価格設定モデルをトレーニングおよびテストすることができます。これは、さまざまな価格戦略がどのように機能するかを、顧客の機密的な個人情報を使わずに評価するために役立ちます。また、合成データは、地震やハリケーンのような発生確率の低い事象の影響を評価する際にも役立ちます。

ライフサイエンス

ライフサイエンス業界には、生成AIの有望な応用用途がたくさんあります。創薬の分野では、新しい薬剤候補の同定プロセスをスピードアップすることができます。臨床研究の分野では、「複雑なデータから情報を抽出して、個人集団を代表する合成データやデジタルツインを作成」するために(つまり、プライバシー保護の手段として)、生成AIを活用できる可能性があります。その他の応用用途としては、安全性シグナルの同定や、既存の治療法の新たな用途の発見などがあります。

製造

製造業ではコスト削減、生産性向上、サステナビリティ向上を目指し、さまざまな領域(オペレーション、保守整備、サプライチェーン、エネルギー消費など)の最適化を促進するために生成AIを活用できます。生成AIモデルは既存のデータ(パフォーマンス、保守整備、センサー、外部要因など)から学習した上で、改善に向けた推奨戦略を提示することになります。

官公庁・公共機関

自然言語処理(NLP)とチャットボットは、官公庁・公的機関の職員が市民のニーズ(例:洪水頻発地域における緊急時サービスの改善や、サービスを十分に受けていない住民への援助)に、より迅速に対応するために役立ちます。予測モデルやシミュレーションなどの生成AI技法は、大量の過去データ、住民の感情(センチメント)、その他の指標を分析した上で、交通渋滞の削減、社会インフラ計画の改善、リソース配分の最適化に向けたレコメンデーションを生成することができます。

小売

小売業での成功には、買い物客の需要を理解し、彼らを魅了するショッピング体験を設計し、信頼性・安定性の高いサプライチェーン実行を確保することが必要です。例えば、一部の小売企業は、サプライチェーンの混乱や各種リソースの制限のような潜在的シナリオに関する基本理解を計画担当者にもたらすために、生成AIをデジタルツイン・テクノロジーと一緒に活用しています。これは、洗練されたAIシミュレーションおよびデータモデリングによって実現されています。

生成AIの結果は、その中核において私たち人間を反映しています。(中略)消費者は、会話型AIとやり取りする場合は常に批判的思考を適用し続け、「自動化バイアス」(技術的システムの方が人間よりも正確で真実を突く可能性が高い、という思い込み)を回避しなければなりません。 Reggie Townsend VP of the SAS Data Ethics Practice

生成AIモデルに関する考慮事項

モデルの実行コストは高価であり、膨大な量の計算パワーとデータを必要とします。生成AIモデルを実装する前にROI(費用対効果)を慎重に評価するべきです。また、倫理的な考慮事項もあります。データの出自はどこで、所有者は誰でしょうか? それは信頼に値するデータでしょうか? モデルがどのように構築されたかを正確に理解しているでしょうか?

生成AIの動作の仕組み

生成AIテクノロジーの人気のある実装例としては、DALL-E(テキスト入力から画像を作成する画像生成システム)、ChatGPT(テキスト生成システム)、Google Bardチャットボット、MicrosoftのAIを搭載したBing検索エンジンがあります。また、システム、ビジネスプロセス、さらには人物のデジタル表現を作成するために生成AIを活用している実装例もあります。例えば、特定の人物の現在および将来の健康状態について動的な表現を生成することができます。

生成AIテクノロジーには、デジタルツイン、大規模言語モデル(LLM)、合成データ生成という3つの主要なタイプがあります。

デジタルツイン

デジタルツインは、現実世界の物体またはシステムのバーチャル・モデルであり、各種のデータ(過去、現実世界、合成)から、あるいはシステムのフィードバック・ループから構築されます。構築にはソフトウェア、データ、そして一連の生成/非生成モデルが使われます。それらのモデルはエンティティ、プロセス、システム、製品などの物理システムを詳細に映し出し、動的に同期を取ります。デジタルツインはテスト、最適化、モニタリング、予測のために利用されています。例えばサプライチェーンのデジタルツインは、企業が供給不足の発生時期を予測するために役立ちます。

大規模言語モデル(LLM)

大規模言語モデル(LLM)は、自然言語に含まれる複雑な関係性を識別および処理し、テキストを生成したり、ユーザーと会話したりすることができるパワフルな機械学習モデルです。これらのモデルはディープラーニングやニューラル・ネットワークのような技法を活用します。LLMは、定義的には自然言語処理AIモデルの一種であり、大量のテキストデータでトレーニングされます。その結果として得られるモデルは数十億~数千億個のパラメータを含んでいます。OpenAIのChatGPTは、人気のあるLLMの一例です。

合成データ生成

合成データ生成とは、「現実世界から収集するのではなく、アルゴリズムやルールによってオンデマンドかつセルフサービスで自動的にデータを生成すること」を指します。合成データは多くの場合、現実のデータに欠けている条件を満たすために生成されます。合成データには、トレーニング用データとして使われる現実世界データと同じ統計的特性、確率、パターン、特徴が再現されます。多くの企業・組織は、プライバシーを保護するために、あるいは、現実世界のデータの収集・利用に伴うその他の課題を克服するために合成データを利用しています。そうした課題としては、コスト、時間のかかるデータ準備プロセス、バイアスなどがあります。

他にも数多くのテクノロジーが生成AIの実現と活用を支えています。

アルゴリズムとは、特定のタスクを完了したり問題を解決したりするために設計された、ステップバイステップ方式の操作指示リストです。多くのコンピューター・プログラムは、コンピューターが理解できる方法で記述されたアルゴリズム群を順番に並べたもの(=シーケンス)です。アルゴリズムが人間の意思決定の補完または代替として利用され始めているなか、私たちはアルゴリズムの公平性を詳しく調べ、開発方法の透明性を求めていかなければなりません。

人工知能(AI)は、機械が自律的に経験から学び、新たな入力に順応し、人間が行うようなタスクを実行することを可能にします。AIは多くの場合、ディープラーニングと自然言語処理(NLP)を大量に活用します。これらのテクノロジーにより、大量のデータからパターンを認識させるという方法で、特定のタスクを遂行するようにコンピューターをトレーニングすることができます。

ディープラーニングとは、音声認識、画像識別、予測など人間が行うようなタスクを実行できるようにコンピューターに学習させることを目的とした機械学習の一種です。コンピューターが分類/認識/検知/説明する能力を、データを使って改善することができます。敵対的生成ネットワーク(GAN)や変分オートエンコーダー(VAE)のようなディープラーニング・モデルは、大規模なデータセット群を用いたトレーニングを受けることで、高品質なデータを生成できるようになります。StyleGANモデルやTransformerモデルのようなさらに新しい技法は、現実感の高いビデオ、画像、テキスト、スピーチ(発話音声)を作成できます。

機械学習(マシンラーニング)は、データ分析手法の一種であり、分析モデルの構築を自動化することを目的としています。また、マシンに学習方法をトレーニングする人工知能(AI)の下位分野でもあります。機械学習は、「コンピューター・システムはデータから学習し、パターンを特定し、人間の介入を最小限に抑えた意思決定を実現できる」という考え方に基づいています。

自然言語処理(NLP)は、人工知能(AI)の下位分野であり、コンピューターが人間の言語を理解、解釈、操作できるようにする取り組みです。NLPでは、人間のコミュニケーションとコンピューター側の理解との間のギャップを解消するために、コンピューター・サイエンスや計算言語学をはじめとする多くの分野の知見を活用しています。

ニューラル・ネットワークとは、人間の脳のニューロン(神経細胞)と同じように振る舞うノードが相互接続されたコンピューティング・システムです。ニューラル・ネットワークはアルゴリズムを活用することで、生データに潜むパターンや相関関係の認識、クラスター化、分類を行うことができ、また、時の経過とともに継続的に学習を重ね、処理精度を改善していくことができます。

強化学習では、どの行動が最大の報酬を生み出すかを、アルゴリズムが試行錯誤を通じて突き止めます。機械学習の一種である強化学習は、最良の(=最も報酬が高くなる)ポリシーまたはゴールを徐々に学習していくにあたり、そのフィードバック・メカニズムとして報酬シグナルを活用します。これはロボット工学、ゲーミング、ナビゲーションでよく使われます。

モデルをチューニングするための5つのステップ

生成AIは「学習元のデータに良く似た確率分布や特徴を持つデータ」を生成するために、多種多様なAIアルゴリズムおよびテクノロジーを活用します。以下の5つのステップに従えば、ゼロから構築するのではなく、事前トレーニング済みの基本的な大規模言語モデルをチューニングすることができます。

1. タスクの定義

適切な事前トレーニング済みの大規模言語モデルを選び、チューニングの対象となるタスクを明確に定義します。この場合のタスクとは、テキスト分類(=エンティティ認識)やテキスト生成などです。

2. データの準備

目的のタスク(例:ラベリング、フォーマット、トークン化)に特化したデータを収集し、事前処理を行います。具体的には、トレーニング用、検証用(および、必要に応じてテスト用)のデータセットを作成します。

3. チューニング

チューニング対象のモデルをトレーニングします。ここではトレーニング用データを用いて、そのモデルの重み付けを更新します。その後、過学習を防ぐために、検証用データセットでモデルのパフォーマンスをモニタリングします。

4. 評価とテスト

トレーニングの後、チューニング済みのモデルを検証用データセットで評価し、その結果に基づき必要な調整を行います。調整結果に満足したら、そのモデルをテスト用データセットでテストし、バイアスを含まないパフォーマンス推定値を取得します。

5. デプロイ

モデルのパフォーマンスに確信が持てたら、目的の用途にデプロイ(業務実装・現場展開)します。このステップには、モデルをアプリケーション、Webサイト、その他のプラットフォームに統合する作業が含まれる可能性があります。

合成データとは何か?

データはモデルの構築に欠かせませんが、バイアスやコストの問題から、高品質なデータを見つけるのが難しいこともあります。これらの問題を解決する一つの方法が合成データの使用であり、合成データは人工的に(多くの場合はアルゴリズムを用いて)作成されます。現実世界のデータセットを用いて追加的な合成データ ── 優れた機械学習モデルの構築に適した各種特性を備えたもの ── を生成すると、例えば希少疾病の研究など、事実上どのような目的のモデルでもトレーニングすることができます。

次のステップ

AIソリューションが人間の創造性と取り組みをどのように強化できるのか詳しく確認しましょう。

AI/アナリティクス・プラットフォーム

SAS® Viya® なら「データが多すぎて困る」といった悩みとは無縁です。十億件のデータポイントからキーポイントを見つけ出すための最短の方法とは?


お勧めの関連資料

Connect with SAS