RAGに求められるデータ基盤の要件とは
前回は、生成AIを企業活動の実態に適合させていくための手法をいくつかご紹介しました。
今回はその数あるアプローチの一つである「RAG(Retrieval-Augmented Generation)」に着目し、RAGを実現するために必要となるナレッジベースを支えるデータ基盤の整備のポイントをご紹介します。
RAG(Retrieval-Augmented Generation)とは
生成AIが企業特有のデータに基づいて回答を行うアプローチのひとつに「RAG」があります。RAGは「検索拡張生成」と呼ばれ、検索プロセスと生成プロセスを分けて生成AIが回答を行う仕組みです。まず利用者がプロンプト(生成AIに対する指示文)を投稿すると、そのプロンプトに答えるために必要となるデータを検索する検索プロセスが実行されます。検索の結果として得られたデータをもとに、生成プロセスが実行され、最終的な回答が出力されます。
ここでは検索プロセスの検索対象となるナレッジベース(情報源)が大きな役割を果たします。ナレッジベースとは、その名の通り、知識の在り処を示します。この文脈における知識とは、生成AIが参照すべき企業特有の情報です。
▼RAG(Retrieval-Augmented Generation)についてもっと詳しく知りたい
⇒ 検索拡張生成(RAG:Retrieval Augmented Generation)|用語集
▼生成AIについてもっと詳しく知りたい
⇒ 生成AI(Generative AI)|用語集
ナレッジベースを支えるデータ基盤
企業が持つ情報とは様々な形で保持されています。例えばファイルやデータベースなどが挙げられます。往々にしてこれらの情報資産は、組織内の様々な部門や利用者のもとにバラバラな状態で存在しています。バラバラな状態とは、データの内部やデータ同士に矛盾や不整合が多く、統一性や一貫性が欠如している状況を指します。このような状態では、人が利用することはおろか、生成AIがナレッジベースとして利用するのも困難です。
ここで重要なのがデータ基盤の整備です。データ基盤は、社内外に散在している様々なデータを統合し活用可能な状態にするためのプラットフォームです。データ基盤を通じて散在するデータを収集・蓄積し、ナレッジベースとして利用可能な状態を実現します。
そのようなデータ基盤を整備する上での考慮すべきポイントをいくつか紹介します。ポイントは様々ありますが、今回は①データの品質、②データの信頼性、③データの統合の三点に絞ってお話しします。
データの品質とは何か
データの品質とは、データが目的に対してどれだけ適切であるかを測る指標です。RAGの導入を進める上で、しばしば生成AIの回答品質が低いという課題に直面することがあります。その原因は様々に考えられますが、その原因のひとつとしてデータの品質が低いことが挙げられます。生成AIが回答するためのインプットとして用いる情報の品質が低ければ、当然アウトプットの品質も低下します。
それでは品質とは具体的にどのようなものなのでしょうか。様々な観点がありますが、今回は、正確性、完全性、最新性の三観点を掘り下げたいと思います。
正確性とは、データが正しいかどうかを示します。例えば、住所の欄に郵便番号が入っていたり、本来数字が入るべき欄に「不明」などの文字列が入っているなど、内容や書式に誤りがないかどうかを評価します。当然ながら、入力されているデータが誤っていれば、そのデータを参考にしたアウトプットも誤ってしまいます。
完全性とは、必要な項目が網羅されているかどうかを示します。本来入力されるべき項目にきちんと入力されているかどうかを評価します。せっかくデータが入力されていたとしても、ほとんどの項目が空白であったり「不明」などと記載されていては、このデータは使い物になりません。
最新性とは、データが適切なサイクルで取得されているかどうかを示します。例えば毎日更新されていくデータを取得できるタイミングが半年後では、せっかくのデータのリアルタイム性が損なわれてしまいます。逆に、月に1回しか更新されていないデータを毎日取得して更新しても、変化がなく意味がありません。データの発生タイミングと取得タイミングが適切に一致しているかを考慮することが重要です。
データ基盤では、データの発生元からデータを収集するうえで、これらの品質の観点に基づいて誤りを検知して修正したり、欠損したデータを除外したり、適切なサイクルで更新していくことが求められます。データ基盤でデータをあるべき正しい形にすることにより、データの品質を維持し、そこから得られるアウトプットの質を担保することができます。
データの信頼性とは何か
前述の品質にも関わる話ですが、データの信頼性が担保されていることは非常に重要です。信頼性とは、そのデータは誰が見ても正しく、同じ理解に基づいて利用可能であることを意味します。
例えば、ある会議で営業部と事業企画部がそれぞれ売上高の状況を報告するとします。それぞれの部門はともにデータを確認してから報告書を作成していますが、営業部と事業企画部それぞれが報告する売上には大きな乖離があります。何が起きているのでしょうか?
どちらの部門もデータを確認していましたが、営業部は顧客管理システムが保持する売上データを確認しており、事業企画部は会計システムが保持する売上データを確認していました。同じ売上データですが、実はそれぞれのシステムで、年次契約における売上計上のタイミングに対する考え方が違っていました。営業部は年次契約を契約時点で一括計上、事業企画部は年次契約を月毎に按分して計上していました。そのため同じ売上データでも数字が乖離してしまったのです。
このように、類似のデータが複数の部門やシステムに存在していることは往々にして起こり得ます。このとき、データの定義が曖昧であったり、データのフォーマットが異なっていたり、システムの所有者や運用状況が不明であったりすると、同じ組織でも共通の意思決定をすることが困難になります。
データ基盤では、このようなデータの定義の明文化といったメタデータの整備や、データの標準化を通じて、どのデータがどのような意味を持ち、それが正しいのかどうかを担保することが求められます。この考え方は「Single Source of Truth (SSoT)」と呼ばれ、生成AIも含めて組織の誰もが共通の意思決定をするために重要な考え方です。SSoTについては、ぜひこちらのコラムもご覧ください。
関連記事:開発者ブログ│Single Source of Truth
データの統合とは何か
ここまで、データの品質と、それがもたらすデータの信頼性の話をしてきました。最後に、品質を維持し信頼性を担保するためのデータの統合について深掘りしていきます。データの統合とは、社内外に散在する様々なデータを一元的に利用できる状態を実現するためのプロセスを意味します。
まず、データに対するアクセシビリティを持つことが重要です。企業が持つ情報は様々な場所に様々な形式で保持されていますので、各システム環境(オンプレ環境、クラウド環境、SaaS等)や各データ形式(ファイル、データベース、API等)に柔軟に接続しデータを取得できることが求められます。
続いて、収集したデータを標準化します。データの標準化とは、データ形式やフォーマット形式(例えば日付の書き方や小数第何位まで表示するか等)を揃えて、データの発生元の違いによるデータの差異を排除することを意味します。データが標準化されることにより、データの発生元(部門やシステム)が異なっていても、複数のデータを組み合わせて活用したり分析したりすることが可能になります。
最後に、標準化したデータを、データが求められている場所に配信します。例えば、複数システムで使われるようなマスタデータを配信したり、APIで分析用のデータを公開したりすることが考えられます。データ基盤を経由してデータを統合することにより、必要なところに必要なデータを渡すことが可能になります。
▼APIについてもっと詳しく知りたい
⇒ API|用語集
データ基盤を実現するiPaaSとは
さて、RAGに必要となるナレッジベースを準備するためのデータ基盤のポイントについて掘り下げてきましたが、最後にデータ基盤を実現するiPaaSを紹介します。
iPaaS (Integration Platform as a Service) は、その名の通りデータを統合するための基盤です。バラバラに散在する様々なデータを収集し、先に紹介したデータの品質を維持するためのクレンジングやデータの標準化を行い、信頼性あるナレッジベースを整備します。
RAGを実現するうえで、ナレッジベースの整備は必要不可欠です。そのためにはデータを収集し蓄積するデータ基盤の整備が重要であり、信頼性あるデータを提供するためにiPaaSが役に立ちます。
iPaaS型データ連携基盤 HULFT Square(ハルフトスクエア)
生成AI活用に必要なのは、ビジネスに必要なデータをいかにして取り込むか。そんな時代のニーズに応えるセゾンテクノロジーのiPaaS「HULFT Square」の詳細をぜひご確認ください。
▼iPaaSについてもっと詳しく知りたい
⇒ iPaaS|用語集
いかがでしたでしょうか。今回は、生成AIでデータを活用するRAGを実現するうえでのデータ基盤の整備のポイントを紹介させていただきました。データ基盤の存在は、生成AIに限らず組織のメンバーがデータに基づいて意思決定していくためにも非常に重要であり、早急な整備が求められます。
セゾンテクノロジーは、iPaaSをはじめとするデータ連携プロダクトの国産メーカーとして、これまで多くの企業様のデータ基盤の整備をご支援してきました。RAGやデータ基盤の整備に関心がございましたらぜひお問い合わせフォームよりご相談ください。
用語集 コラム一覧
英数字・記号
- 2025年の崖
- 5G
- AI
- API【詳細版】
- API基盤・APIマネジメント【詳細版】
- BCP
- BI
- BPR
- CCPA(カリフォルニア州消費者プライバシー法)【詳細版】
- Chain-of-Thoughtプロンプティング【詳細版】
- ChatGPT(Chat Generative Pre-trained Transformer)【詳細版】
- CRM
- CX
- D2C
- DBaaS
- DevOps
- DWH【詳細版】
- DX認定
- DX銘柄
- DXレポート
- EAI【詳細版】
- EDI
- EDINET【詳細版】
- ERP
- ETL【詳細版】
- Excel連携【詳細版】
- Few-shotプロンプティング / Few-shot Learning【詳細版】
- FIPS140【詳細版】
- FTP
- GDPR(EU一般データ保護規則)【詳細版】
- Generated Knowledgeプロンプティング(知識生成プロンプティング)【詳細版】
- GIGAスクール構想
- GUI
- IaaS【詳細版】
- IoT
- iPaaS【詳細版】
- MaaS
- MDM
- MFT(Managed File Transfer)【詳細版】
- MJ+(行政事務標準文字)【詳細版】
- NFT
- NoSQL【詳細版】
- OCR
- PaaS【詳細版】
- PCI DSS【詳細版】
- PoC
- REST API(Representational State Transfer API)【詳細版】
- RFID
- RPA
- SaaS(Software as a Service)【詳細版】
- SaaS連携【詳細版】
- SDGs
- Self-translateプロンプティング /「英語で考えてから日本語で答えてください」【詳細版】
- SFA
- SOC(System and Organization Controls)【詳細版】
- Society 5.0
- STEM教育
- The Flipped Interaction Pattern(解らないことがあったら聞いてください)【詳細版】
- UI
- UX
- VUCA
- Web3
- XaaS(SaaS、PaaS、IaaSなど)【詳細版】
- XML
- ZStandard(可逆データ圧縮アルゴリズム)【詳細版】
あ行
か行
- カーボンニュートラル
- 仮想化
- ガバメントクラウド【詳細版】
- 可用性
- 完全性
- 機械学習【詳細版】
- 基幹システム
- 機密性
- キャッシュレス決済
- 共通鍵暗号 / DES / AES(Advanced Encryption Standard)【詳細版】
- 業務自動化
- クラウド
- クラウド移行
- クラウドネイティブ【詳細版】
- クラウドファースト
- クラウド連携【詳細版】
- 検索拡張生成(RAG:Retrieval Augmented Generation)【詳細版】
- コンテキスト内学習(ICL: In-Context Learning)【詳細版】
- コンテナ【詳細版】
- コンテナオーケストレーション【詳細版】
さ行
- サーバレス(FaaS)【詳細版】
- サイロ化【詳細版】
- サブスクリプション
- サプライチェーンマネジメント
- シンギュラリティ
- シングルサインオン(SSO:Single Sign On)【詳細版】
- スケーラブル(スケールアップ/スケールダウン)【詳細版】
- スケールアウト
- スケールイン
- スマートシティ
- スマートファクトリー
- スモールスタート(small start)【詳細版】
- 生成AI(Generative AI)【詳細版】
- セルフサービスBI(ITのセルフサービス化)【詳細版】
- 疎結合【詳細版】
た行
- 大規模言語モデル(LLM:Large Language Model)【詳細版】
- ディープラーニング
- データ移行
- データカタログ
- データ活用
- データガバナンス
- データ管理
- データサイエンティスト
- データドリブン
- データ分析
- データベース
- データマート
- データマイニング
- データモデリング
- データリネージ
- データレイク【詳細版】
- データ連携 / データ連携基盤【詳細版】
- デジタイゼーション
- デジタライゼーション
- デジタルツイン
- デジタルディスラプション
- デジタルトランスフォーメーション
- デッドロック/ deadlock【詳細版】
- テレワーク
- 転移学習(transfer learning)【詳細版】
- 電子決済
- 電子署名【詳細版】
な行
は行
- ハイブリッドクラウド
- バッチ処理
- 非構造化データ
- ビッグデータ
- ファイル連携【詳細版】
- ファインチューニング【詳細版】
- プライベートクラウド
- ブロックチェーン
- プロンプトテンプレート【詳細版】
- ベクトル化 / エンベディング(Embedding)【詳細版】
- ベクトルデータベース(Vector database)【詳細版】
ま行
や行
ら行
- リープフロッグ現象(leapfrogging)【詳細版】
- 量子コンピュータ
- ルート最適化ソリューション
- レガシーシステム / レガシー連携【詳細版】
- ローコード開発(Low-code development)【詳細版】
- ロールプレイプロンプティング / Role-Play Prompting【詳細版】
