生成AIを企業活動の実態に適合させていくには

データ活用
生成AI

Shinnosuke Yamamoto

読み終わるまで03分

近年、日本企業において生成AI技術が急速に注目され、その企業活動への応用が期待されています。しかし、その利用に際しては、生成AIの特性を理解し、企業特有のニーズに適合させることが不可欠です。ここで重要なのが、企業データの取り扱いやプライバシーに関するリスク管理です。
本記事では、生成AIの基本概念とその可能性、さらにはハルシネーションと呼ばれる問題点について考察し、企業がこの技術を実際の業務に適用するための具体的な手法を紹介します。

生成AIの可能性と限界

生成AIは自然言語すなわち人間の言葉を解釈してコンテンツを生成します。ChatGPTやMicrosoft Copilot、DeepSeekに代表されるような生成AIサービスを例に挙げれば、利用者は普段の話し言葉でチャットボットに対して質問することで、情報を検索して整理したり、大量の文章を要約したり、プログラムを書いたりするなど、さまざまなコンテンツを生成することができます。

一般に「生成AI」と呼ばれる大規模言語モデル（LLM）は、大量の学習データをもとにして、与えられたトークン（単語を処理する単位）の次に続く確率が最も高いトークンを出力することを繰り返すことで文章を生成しています。生成AIが出力する回答は、あくまでトークン同士を確率的に計算して繋ぎ合わせて出力されるため、必ずしもその内容の正確性を担保するものではありません。そのため、時として生成AIが事実と異なる回答を生み出す「ハルシネーション（＝幻覚）」が発生します。

企業活動の中で生成AIを活用していくには、このハルシネーションが大きな障壁となります。生成AIは企業活動のさまざまな業務を効率化する可能性を秘めているにもかかわらず、企業のビジネスの実態や業務の進め方といった企業特有の情報を持っていません。したがって、一般に利用可能な基盤モデル（例えば、GPT-4などの汎用的な生成能力を持つ大規模言語モデル）では、企業活動の実態に即さない的外れな回答をすることが頻繁に発生します。このため、企業は生成AIを利用する際のリスクを認識し、適切な管理が求められます。

▼生成AIについてもっと詳しく知りたい
⇒ 生成AI（Generative AI）｜用語集
▼大規模言語モデル（LLM）についてもっと詳しく知りたい
⇒ 大規模言語モデル（LLM：Large Language Model）｜用語集

生成AIを企業活動に適合させるための手法

では、どのようにすれば、生成AIを企業活動の実態に適合させていくことができるのでしょうか。一般に生成AIのハルシネーションを回避するためのアプローチとして、①プロンプトエンジニアリング、②ファインチューニング、③RAG（Retrieval-Augmented Generation）と呼ばれる手法が用いられます。

プロンプトエンジニアリングとは

プロンプトとは、生成AIに対して利用者が与える指示文のことです。生成AIは利用者が言葉で与えるプロンプトの内容に従って回答を生成します。プロンプトエンジニアリングとは、このプロンプトを工夫することで生成AIの回答を期待する内容に導く手法です。企業特有の情報をプロンプトに組み込むことで、リスクを抑えつつ精度の高い回答を得ることが可能となります。

この手法については、セゾンテクノロジーの生成AI研究チームである「LLM Mavericks」が以下のウェブサイトにて「プロンプトを改善する15のヒント」を公開しています。ぜひご覧ください。

関連記事：プロンプトを改善する15のヒント

生成AIが企業特有の情報をもとに回答するには、このプロンプトに企業特有の情報を付加して指示を行います。プロンプト内で生成AIへの命令の後に、事業や業務に関する参考情報を記載することで、生成AIはそれに基づいてトークン間の確率を求め、企業特有の情報に寄った出力を生成します。このプロンプトエンジニアリングの手法は、「コンテキスト内学習（In-Context Learning）」とも呼ばれ、使いやすさと即効性を兼ね備えています。

ファインチューニングとは

ファインチューニングは、基盤モデルなどの事前学習済みの生成モデルに対して追加データセットによる追加学習を行い、モデルそのものを微調整する手法です。企業独自に特化した生成AIを整備したいのであれば、ファインチューニングが最も有効な手法とされています。フィンチューニングによって業務に関連した内容への調整が可能になり、企業データに基づく正確な情報提供を実現します。

しかしながら、データセットの準備や何度もモデルを学習させる必要があるため、導入のハードルは他の手法と比べて高いと言えます。リスク管理の観点からは、学習に使用するデータの品質とセキュリティを確保することが重要です。

▼ファインチューニングについてもっと詳しく知りたい
⇒ ファインチューニング｜用語集

RAG（Retrieval-Augmented Generation）とは

RAGは、企業が持つ独自のデータを生成AIが参照することにより、企業特有の情報を考慮した回答を生成させる手法です。この手法は、ナレッジベース（情報源）にアクセスすることを意図しており、生成AIが企業の実態や事実に基づいた回答を行うためのものです。そのため、ナレッジベースの整備と安全なデータ管理が求められます。

ナレッジベースには、企業特有の情報を含む様々なデータが用いられます。例えば、ファイルサーバーやクラウドストレージ内に保管されているドキュメントや、顧客管理システム、人事システムなどのデータベースに蓄積されたデータも含まれます。これにより、生成AIは業務特有の条件に基づいた回答を生成し、効率的な意思決定を支援します。

▼RAG（Retrieval Augmented Generation）についてもっと詳しく知りたい
⇒ 検索拡張生成（RAG：Retrieval Augmented Generation）｜用語集

さいごに

いかがでしたでしょうか。今回は、生成AIを企業活動の実態に適合させていくための代表的な手法をご紹介しました。プロンプトエンジニアリングは手軽に始めることができますが、使い勝手の向上が求められます。企業独自の大規模言語モデルのファインチューニングには高いコストがかかるため、導入に際しては十分な計画が必要です。

最後にご紹介したRAGは、社内データを用いて生成AIを活用する一つの方法ですが、ナレッジベースとしてのデータ準備が重要です。企業データを安全かつ効果的に活用することで、生成AIの導入は今後の競争力強化に寄与するでしょう。

次回は、RAGを実現するためのデータ基盤について、整備するうえでのポイントをご紹介したいと思います。

記事を書いた人

所属：データインテグレーションコンサルティング部 Data & AI エバンジェリスト

山本進之介

入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
（所属は掲載時のものです）

生成AIを企業活動の実態に適合させていくには

生成AIの可能性と限界