RAGに求められるデータ基盤の要件とは

データ活用
データ基盤
生成AI

Shinnosuke Yamamoto

読み終わるまで05分

前回は、生成AIを企業活動の実態に適合させていくための手法をいくつかご紹介しました。
今回はその数あるアプローチの一つである「RAG（Retrieval-Augmented Generation）」に着目し、RAGを実現するために必要となるナレッジベースを支えるデータ基盤の整備のポイントをご紹介します。

RAG（Retrieval-Augmented Generation）とは

生成AIが企業特有のデータに基づいて回答を行うアプローチのひとつに「RAG」があります。RAGは「検索拡張生成」と呼ばれ、検索プロセスと生成プロセスを分けて生成AIが回答を行う仕組みです。まず利用者がプロンプト（生成AIに対する指示文）を投稿すると、そのプロンプトに答えるために必要となるデータを検索する検索プロセスが実行されます。検索の結果として得られたデータをもとに、生成プロセスが実行され、最終的な回答が出力されます。

ここでは検索プロセスの検索対象となるナレッジベース（情報源）が大きな役割を果たします。ナレッジベースとは、その名の通り、知識の在り処を示します。この文脈における知識とは、生成AIが参照すべき企業特有の情報です。

▼RAG（Retrieval-Augmented Generation）についてもっと詳しく知りたい
⇒ 検索拡張生成（RAG：Retrieval Augmented Generation）｜用語集
▼生成AIについてもっと詳しく知りたい
⇒ 生成AI（Generative AI）｜用語集

ナレッジベースを支えるデータ基盤

企業が持つ情報とは様々な形で保持されています。例えばファイルやデータベースなどが挙げられます。往々にしてこれらの情報資産は、組織内の様々な部門や利用者のもとにバラバラな状態で存在しています。バラバラな状態とは、データの内部やデータ同士に矛盾や不整合が多く、統一性や一貫性が欠如している状況を指します。このような状態では、人が利用することはおろか、生成AIがナレッジベースとして利用するのも困難です。

ここで重要なのがデータ基盤の整備です。データ基盤は、社内外に散在している様々なデータを統合し活用可能な状態にするためのプラットフォームです。データ基盤を通じて散在するデータを収集・蓄積し、ナレッジベースとして利用可能な状態を実現します。
そのようなデータ基盤を整備する上での考慮すべきポイントをいくつか紹介します。ポイントは様々ありますが、今回は①データの品質、②データの信頼性、③データの統合の三点に絞ってお話しします。

データの品質とは何か

データの品質とは、データが目的に対してどれだけ適切であるかを測る指標です。RAGの導入を進める上で、しばしば生成AIの回答品質が低いという課題に直面することがあります。その原因は様々に考えられますが、その原因のひとつとしてデータの品質が低いことが挙げられます。生成AIが回答するためのインプットとして用いる情報の品質が低ければ、当然アウトプットの品質も低下します。

それでは品質とは具体的にどのようなものなのでしょうか。様々な観点がありますが、今回は、正確性、完全性、最新性の三観点を掘り下げたいと思います。

正確性とは、データが正しいかどうかを示します。例えば、住所の欄に郵便番号が入っていたり、本来数字が入るべき欄に「不明」などの文字列が入っているなど、内容や書式に誤りがないかどうかを評価します。当然ながら、入力されているデータが誤っていれば、そのデータを参考にしたアウトプットも誤ってしまいます。

完全性とは、必要な項目が網羅されているかどうかを示します。本来入力されるべき項目にきちんと入力されているかどうかを評価します。せっかくデータが入力されていたとしても、ほとんどの項目が空白であったり「不明」などと記載されていては、このデータは使い物になりません。

最新性とは、データが適切なサイクルで取得されているかどうかを示します。例えば毎日更新されていくデータを取得できるタイミングが半年後では、せっかくのデータのリアルタイム性が損なわれてしまいます。逆に、月に1回しか更新されていないデータを毎日取得して更新しても、変化がなく意味がありません。データの発生タイミングと取得タイミングが適切に一致しているかを考慮することが重要です。

データ基盤では、データの発生元からデータを収集するうえで、これらの品質の観点に基づいて誤りを検知して修正したり、欠損したデータを除外したり、適切なサイクルで更新していくことが求められます。データ基盤でデータをあるべき正しい形にすることにより、データの品質を維持し、そこから得られるアウトプットの質を担保することができます。

データの信頼性とは何か

前述の品質にも関わる話ですが、データの信頼性が担保されていることは非常に重要です。信頼性とは、そのデータは誰が見ても正しく、同じ理解に基づいて利用可能であることを意味します。
例えば、ある会議で営業部と事業企画部がそれぞれ売上高の状況を報告するとします。それぞれの部門はともにデータを確認してから報告書を作成していますが、営業部と事業企画部それぞれが報告する売上には大きな乖離があります。何が起きているのでしょうか？

どちらの部門もデータを確認していましたが、営業部は顧客管理システムが保持する売上データを確認しており、事業企画部は会計システムが保持する売上データを確認していました。同じ売上データですが、実はそれぞれのシステムで、年次契約における売上計上のタイミングに対する考え方が違っていました。営業部は年次契約を契約時点で一括計上、事業企画部は年次契約を月毎に按分して計上していました。そのため同じ売上データでも数字が乖離してしまったのです。

このように、類似のデータが複数の部門やシステムに存在していることは往々にして起こり得ます。このとき、データの定義が曖昧であったり、データのフォーマットが異なっていたり、システムの所有者や運用状況が不明であったりすると、同じ組織でも共通の意思決定をすることが困難になります。
データ基盤では、このようなデータの定義の明文化といったメタデータの整備や、データの標準化を通じて、どのデータがどのような意味を持ち、それが正しいのかどうかを担保することが求められます。この考え方は「Single Source of Truth (SSoT)」と呼ばれ、生成AIも含めて組織の誰もが共通の意思決定をするために重要な考え方です。SSoTについては、ぜひこちらのコラムもご覧ください。

関連記事：開発者ブログ│Single Source of Truth

データの統合とは何か

ここまで、データの品質と、それがもたらすデータの信頼性の話をしてきました。最後に、品質を維持し信頼性を担保するためのデータの統合について深掘りしていきます。データの統合とは、社内外に散在する様々なデータを一元的に利用できる状態を実現するためのプロセスを意味します。

まず、データに対するアクセシビリティを持つことが重要です。企業が持つ情報は様々な場所に様々な形式で保持されていますので、各システム環境（オンプレ環境、クラウド環境、SaaS等）や各データ形式（ファイル、データベース、API等）に柔軟に接続しデータを取得できることが求められます。

続いて、収集したデータを標準化します。データの標準化とは、データ形式やフォーマット形式（例えば日付の書き方や小数第何位まで表示するか等）を揃えて、データの発生元の違いによるデータの差異を排除することを意味します。データが標準化されることにより、データの発生元（部門やシステム）が異なっていても、複数のデータを組み合わせて活用したり分析したりすることが可能になります。

最後に、標準化したデータを、データが求められている場所に配信します。例えば、複数システムで使われるようなマスタデータを配信したり、APIで分析用のデータを公開したりすることが考えられます。データ基盤を経由してデータを統合することにより、必要なところに必要なデータを渡すことが可能になります。

▼APIについてもっと詳しく知りたい
⇒ API｜用語集

データ基盤を実現するiPaaSとは

さて、RAGに必要となるナレッジベースを準備するためのデータ基盤のポイントについて掘り下げてきましたが、最後にデータ基盤を実現するiPaaSを紹介します。
iPaaS (Integration Platform as a Service) は、その名の通りデータを統合するための基盤です。バラバラに散在する様々なデータを収集し、先に紹介したデータの品質を維持するためのクレンジングやデータの標準化を行い、信頼性あるナレッジベースを整備します。

RAGを実現するうえで、ナレッジベースの整備は必要不可欠です。そのためにはデータを収集し蓄積するデータ基盤の整備が重要であり、信頼性あるデータを提供するためにiPaaSが役に立ちます。

iPaaS型データ連携基盤 HULFT Square（ハルフトスクエア）

生成AI活用に必要なのは、ビジネスに必要なデータをいかにして取り込むか。そんな時代のニーズに応えるセゾンテクノロジーのiPaaS「HULFT Square」の詳細をぜひご確認ください。

▼iPaaSについてもっと詳しく知りたい
⇒ iPaaS｜用語集

いかがでしたでしょうか。今回は、生成AIでデータを活用するRAGを実現するうえでのデータ基盤の整備のポイントを紹介させていただきました。データ基盤の存在は、生成AIに限らず組織のメンバーがデータに基づいて意思決定していくためにも非常に重要であり、早急な整備が求められます。

セゾンテクノロジーは、iPaaSをはじめとするデータ連携プロダクトの国産メーカーとして、これまで多くの企業様のデータ基盤の整備をご支援してきました。RAGやデータ基盤の整備に関心がございましたらぜひお問い合わせフォームよりご相談ください。

記事を書いた人

所属：データインテグレーションコンサルティング部 Data & AI エバンジェリスト

山本進之介

入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
（所属は掲載時のものです）

RAGに求められるデータ基盤の要件とは

RAG（Retrieval-Augmented Generation）とは