企業の生成AI活用で成果を出すデータマネジメント
データ利活用の需要は年々増加しています。この背景には、生成AI技術の急速な普及があり、多様な分析手法が利用可能になったことや、自社の情報をAIに回答させるRAG(検索拡張生成)などの技術への注目があります。
これらの技術を活用して競争優位性を確保するには、保持しているデータの品質確保が不可欠で、正しいデータを必要なタイミングで安全に使用するために、データマネジメントの取り組みが重要となります。
この記事では、データマネジメントの概要と実践方法について解説します。
執筆者のご紹介
佐々木 渉
所属:
株式会社メンバーズ メンバーズデータアドベンチャーカンパニー サービス開発室
大手小売企業のクライアント様にて、メタデータ管理やデータセキュリティ管理などのデータマネジメント領域の支援や、データ分析基盤のデータ連携業務を担当。
職歴:
サービス業の店舗営業部にて、複数店舗のマネジメントやシステム導入の推進、データ分析から施策策定まで、幅広いビジネス業務を経験。その後メンバーズに入社、データアナリスト・プロジェクトマネージャーとして従事。
目次
01.| データマネジメントとは
02.|データマネジメントの重要性
03.|生成AI活用におけるデータマネジメント
04.|データマネジメントの領域とプロセス
05.|具体的実行手順
06.|実行に必要なスキル
07.|メンバーズデータアドベンチャーでのデータマネジメント支援事例
08.|まとめ
データマネジメントとは
データマネジメントとは、文字通り組織のデータを管理することです。
具体的には、組織がデータを必要とした時にいつでも正しく安全に活用できるように維持・管理をする取り組みのことで、データの生成、収集、処理、活用、廃棄における一連の流れ(データライフサイクル)を管理するプロセスのことを指します。
一概に管理と言っても、スコープは広範であり、データの説明の管理や、生成から活用までの経路の可視化、アクセスの監視などもデータマネジメントに含まれます。そのため、幅広い知識とリソースが求められます。
データマネジメントの重要性
生成AIの躍進により、自社データの品質を高める重要性はより高まっています。
専門家以外でも様々な分析手法を採用可能になったことで、データ分析に取り組む敷居は下がってきています。 分析から結果を出す工程自体の取り組みやすさは平準化される流れになっています。その状況下で競争優位性を確立するためには、データ利活用の中でも「戦略」と「データ」で差別化することが重要になり、高品質なデータをスピーディに準備できる企業が優位な立場に立てる可能性が高くなると考えます。
このような背景を踏まえ、データを効果的に利活用するプロセスは以下の通りです。
- 戦略策定:ビジネスゴールに沿ったデータ活用戦略を構築
- データ収集・整備:必要なデータを収集し、整理して分析しやすい形に変換
- 可視化や機械学習による分析:データを視覚化したり機械学習手法を用いて分析する
- ビジネス活用:分析結果を基にビジネスに活かす
良い戦略が構築できていても、ビジネス要求に対応した使えるデータが揃っていなければ、分析フェーズで良い手法を適用できたとしても成果に結びつかない可能性が大きくなります。
「Garbage in Garbage out(ゴミを入れたら、ゴミが出てくる)」という言葉がある通り、使えるデータが整備されていない場合、分析結果が誤った方向に導かれてしまいます。
また、データ分析はデータの準備工程(データを探し、品質チェックを行い、処理を行う)に多くの時間を要しますが、適切なデータマネジメントを実施することで、その工数の削減が期待でき、より効率的なデータ分析を実現することができます。
生成AI活用におけるデータマネジメント
生成AI活用においても、データマネジメントは欠かせません。
生成AI導入の代表的なユースケースは以下のようなものが挙げられますが、自社のデータを活用する場合であれば、データ品質の確保は非常に重要です。
- 自然言語による分析
- コードの作成およびレビュー
- カスタマーチャットのサポート
- 社内チャットのサポート
- ドキュメントの作成や要約
技術面でいうと、自社ドキュメントから情報を検索して応答を生成するRAG(Retrieval-Augmented Generation)や、生成AIモデルに自社の情報を学習させるファインチューニングは、いずれも入力するデータの質に大きく依存しています。
それらは、既存のデータパターンに基づいて応答を生成するため、不完全なデータを与えると、その情報に基づいて誤った回答が生成されるリスクがあります。
不完全なデータの例としては、以下のようなケースが挙げられます。
- データに偏りが存在する
- 欠損値が多い
- 誤った情報が含まれている
- 古い情報が残存している
- ドキュメントの形式が多岐にわたり、構造が複雑である
このようなデータ品質やプライバシー・セキュリティを考慮せずに生成AIを導入すると、結果として誤ったビジネス判断を引き起こしたり、手戻りを発生させることで、費やしたリソースを無駄にする可能性が非常に高まります。したがって、生成AIを導入する際はデータマネジメントを十分に考慮することが重要です。
データマネジメントの領域とプロセス
データマネジメントの知識体系をデータの専門家によって解説している書籍のDMBOK(データマネジメント知識体系ガイド)では、広範なデータマネジメントの概念を11の知識領域に分類して定義しています。
図1
*図1出典:『データマネジメント知識体系ガイド 第二版』 DAMA International編著、DAMA日本支部、Metafindコンサルティング株式会社 監訳、日経BP
https://www.dama-japan.org/DMBOK2ImageDownLoad.html#top(2024年11月22日に利用)
円の中心にデータガバナンスが置かれ、外側にそれぞれの機能が示されています。
データガバナンスとは、データマネジメントを統括し、各領域の実行を監督するための枠組みです。具体的には、課題の特定、アクションの整理、ルールの策定などを行い、データ管理の信頼性とセキュリティを確保します。これにより、データマネジメントの成果を最大化することを目指します。
他のそれぞれの機能については下表を参照ください。
知識領域 |
概要 |
データアーキテクチャ |
データの生成から活用までの設計 |
データストレージ・オペレーション |
データベースの維持と管理 |
データ統合と相互運用性 |
様々なデータソースからのデータの統合 |
データモデリングとデザイン |
データ同士の対応関係の可視化 |
参照データとマスターデータ |
相互で整合性のあるデータを管理 |
ドキュメントとコンテンツ管理 |
非構造化データの管理 |
データセキュリティ |
セキュリティルールの管理運用 |
データ品質 |
データ品質の向上と管理 |
データウェアハウジング |
データ分析基盤の管理とデータ提供 |
メタデータ管理 |
データを説明するデータの管理 |
また、DMBOKピラミッドというフレームワークでは、前項に記載した11の知識領域をピラミッド化し、フェーズ毎にどの領域に取り組むかを図化しています。
データマネジメントの取り組みが不十分だった際に起きうる問題例の一部をピラミッドのフェーズ単位で記載しました。複数の領域・フェーズを跨いで発生する問題もあるため、この表現はあくまで例として参照ください。
図2
*図2 Aikenのピラミッドを引用し、和訳・解釈を記載した図
出典:SAP Community『Why HR Data Management Strategy is important in your HR Transformation』(2024年11月22日に利用)
実行方法
データマネジメントのプロジェクトにおいて、優先度は組織の状況によって異なります。
データマネジメントの領域は多岐にわたるため、どこから着手すべきか悩む方が多いかもしれません。
まず、組織のデータマネジメントの全体像を把握するため、DMBOKの11の知識体系を用いて現状を評価し、データライフサイクル内の状況と課題を整理することを推奨します。
このプロセスは、単一の課題を解決するだけでなく、全体のデータマネジメントを俯瞰することで相互に関連する問題を理解し、根本的な改善を図ることが目的です。
各領域の強みと弱みを把握し、優先順位を設定することで、場当たり的な対応を避け、改善後もデータが効果的に活用されない状況や同様の問題の再発を防ぐことができます。
実行については、DMBOKの「データマネジメント成熟度アセスメント」でプロセスが定義されており、「ステークホルダーからの情報収集」「領域毎の評価」「アクション特定・ロードマップ策定」「改善」「再評価」をおこなうフレームワークがあるため、それを採用し体系的に進行することを推奨します。
また、この評価と実行のプロセスには、データマネジメントに関する専門的な知見が必要です。社内にデータマネジメントに精通した人材がいない場合、データガバナンスやデータ品質、データ戦略に関する経験を持つ外部の専門家を調達することを推奨します。
実行に必要なスキル
データマネジメントは組織全体の取り組みであり、一人がすべてのスキルを持つ必要はありません。ITや分析などの専門領域のスキルは、それぞれの部門で保有していれば問題ありません。
データマネジメントを実行するために必要なスキルは以下の通りです。
- データマネジメントの知識
- データガバナンスの知識
- 情報セキュリティの知識
- 法令遵守
- データエンジニアリングのスキル
- 分析領域のスキル
- プロジェクトマネジメントスキル
- ビジネス理解
- 社内データの理解
ただし、データマネジメント、および、データガバナンスの推進者は、各専門領域の担当者やビジネス部門の担当者、データオーナーなど、幅広いレイヤーのステークホルダーとのコミュニケーションを通じて、組織全体のガバナンスを適用することが求められるため、専門知識からプロジェクト推進力まで、広範なスキルが必要となる場合があります。
メンバーズデータアドベンチャーでのデータマネジメント支援事例
弊社でデータマネジメント領域の支援をした事例として、グループ企業間の多岐にわたるデータを収集した分析基盤の運用を行っているクライアント様における、データマネジメント支援について紹介します。
データレビュー
目的:新規連携、提供するデータの詳細を把握し、リスクに対処する。
内容:プロジェクトで取り扱うデータについて、プロジェクト推進側にレビューを実施し、利用目的、データの経路、データの仕様、個人情報の取り扱い方法などの把握を行い、適切なデータの管理を行うと共に、リスクを特定し、問題を未然に防ぐ。
データ一覧管理
目的:分析基盤で保持する全社のデータを一元化し、業務効率を向上させる。
内容:収集・加工・提供されるデータのメタデータを統一して管理。データの流れの可視化や検索性の向上を行い、データ利用者や分析基盤の担当者が迅速に必要な情報にアクセスできる環境を整備する。
データカタログの運用
目的:データの利便性とセキュリティを同時に確保し、データの検索と安全な活用を支援する。
内容:データウェアハウスに連携しているテーブルの情報をカタログに登録し、テーブル・カラムの説明や個人情報の有無などを明示。利用者の効率的なデータ活用と、安全性の担保をサポートする。
データセキュリティ対応
目的:データのセキュリティを確保し、情報漏洩リスクを低減する。
内容:保持しているデータに対してカラム単位で個人情報レベルのチェックを行い、セキュリティリスクを最小限に抑えるための管理体制を整備する。
まとめ
本記事では、データマネジメントの重要性について紹介しました。
データマネジメントは、データ利活用戦略の成果を向上させるために欠かせない取り組みです。分析手法やツールの選定に目が行きがちですが、最も重要なのは「良いデータを必要なタイミングで利用できること」です。
データマネジメントの実行は、非常に広範な領域にわたり、専門知識からプロジェクトマネジメントの能力まで、多様なスキルが求められます。このため、実行には高い難易度がありますが、この記事を通じてデータマネジメントに興味を持っていただければ幸いです。
弊社では、データマネジメントの支援を行っており、状況に応じた提案が可能ですので、ぜひお問い合わせください。
\ データ活用についてのご相談はメンバーズデータアドベンチャーまで /
\ 相談する前に資料を見たいという方はこちら /
参考文献
・ゆずたそ (著, 編集), はせりょ (著), 株式会社風音屋 (著) 「データマネジメントが30分でわかる本」
・データマネジメント研修【MIXI 23新卒技術研修】
https://speakerdeck.com/mixi_engineers/2023-datamanagement-training