【フェーズ別】AIデータ分析とは?成功させるためのAIモデル作成4ステップと落とし穴

生成AIの普及に伴い、現在ではあらゆる企業でAI導入に向けて動き出しています。
しかし、「AIを導入したものの、期待した成果が出ない」という声も少なくありません。AIデータ分析を成功させる鍵は、目的に合わせた適切なプロセスを理解し、実行することにあります。本記事では、AIデータ分析を成功に導くための具体的なステップと、プロジェクトを始める前に知っておきたい「よくある落とし穴と解決策」を分かりやすく解説します。
執筆者のご紹介
名前:西郷 優希
所属:株式会社メンバーズ メンバーズデータアドベンチャーカンパニー アカウントマネジメント室
現在は金融業界にて機械学習モデルの開発や、モデルを活用したデータ分析を中心にご支援させていただいております。
学生時代から機械学習モデルの開発を行っており、国際学会にて作成したモデルについて発表を行った経験もあります。
▶目次
様々な解釈がありますが、ここでは「用途・目的に合ったAIを用いて、予測や分類などを行うデータ分析手法」と定義します。
中でも「用途・目的に合ったAIを用いて」という部分が非常に重要であり、必要に応じて用途・目的に即したAIを作るところから分析を始めなければなりません。
人間による手動分析も非常に数多くの手法があります。例えば、売上の前年比を算出して結果の裏には何の影響があったのか?を様々な数字から仮説を立ててみたり、数字をグラフにして可視化して要因分析してみたりなどが挙げられます。これらに共通する点は、人間が探索的に要因を分析している事。言わば 手動分析 です。
一方でAIは、入力されたデータから自律的に特徴を見つけ出し学習を行います。したがって、AIが結論を導き出した時には既に分析が完了しております。言わば 自動分析 です。
しかし、AIの思考プロセスは人間には見えにくく、「ブラックボックス」と化してしまうことがあります。そのため、ビジネスの現場では「予測精度は高いが、なぜその結論に至ったのか根拠が分からず、重要な意思決定に使いづらい」という課題が生じがちです。その中でも、一部のAIモデルでは、モデルの考えを解釈するための機能を持っているため、それらのモデルによるAIを用いる事でAIによる分析根拠を得る事ができます。これを XAI(説明可能なAI) と呼びます。XAIにより、ユーザーが 持ち合わせていない知見をAIから得る事ができる 場合もあります。
ただし、扱うデータやモデルが複雑な場合には分析根拠を解析するのが困難なため、XAIを実現できる範囲は限定的です。例えば扱うデータが画像や音声といった非構造データの場合、対応できるモデルも深層学習といった複雑なものになるため、分析根拠の解析は難しくなります。
AIデータ分析の種類は、AIが扱う問題の種類から直結します。そのため、ここではAIが扱う問題の種類について説明します。AIが扱う問題にも様々な種類がありますが、代表的な3点を紹介します。
<予測(回帰問題)>
過去のデータから学習し、将来の数値を予測する手法 です。「来月の売上はいくらか?」「キャンペーンによる販売数は何個か?」といった問いに答えるために使われます。
【活用例】
- ・店舗ごとの売上高予測
- ・Webサイトのアクセス数予測
- ・商品の需要予測と在庫最適化
<分類(分類問題)>
データを特定のカテゴリに仕分ける手法 です。「この顧客はAとBのどちらのグループか?」「この取引は正常か異常か?」といった判断を行います。
【活用例】
- ・顧客がサービスを解約するかどうかの予測(チャーン予測)
- ・クレジットカードの不正利用検知
- ・迷惑メールフィルター
<クラスタリング(分類問題)>
明確な正解がないデータの中から、AIが自動的に似た性質を持つグループ(クラスター)を見つけ出す手法 です。人間が気づかなかった新たな顧客セグメントの発見などに繋がります。
【活用例】
- ・顧客の購買傾向に基づいたセグメンテーション
- ・アンケート結果のグループ分けによるインサイト抽出
- ・類似した特徴を持つ製品のグルーピング
本章では、AIデータ分析を成功に導くための分析過程を、3つのステップに分けて説明します。
まずはじめに、AIを用いて「何を分析したいのか」「何を解決したいのか」「どのような成果を得たいのか」という目的 を明確化します。ここが曖昧なまま進むと、分析そのものが目的化してしまい、ビジネス価値のない結果に終わる可能性が高まります。分析目的が決まったら、目的に合ったデータの収集を行う必要があります。データが不足している場合には外部データから調達する必要も生まれます。
どのようなデータが必要かについては目的によって大きく異なるため一概には言えませんが、ここではクレジットカードの自動審査を目的とした例を挙げます。目的は「審査業務のAI移管」とします。これを実現するAIを作るために必要なデータは、審査を行うためのデータに加え、審査してOKな会員とNGな会員を区別するためのフラグです。
過去の実績から、実際に与信した 会員の申込情報 (年齢・年収・業種・役職など)と、その会員が 貸倒したかどうか を集計して1つのデータとしてまとめます。これで、与信してOKな会員とNGな会員の情報を学習させるためのデータセットがひとまず揃います。
一方で、与信するかどうかを判断するために必要な材料として、申込情報だけでは不十分ではないかという懸念点もあります。このような場合には 外部データの調達 を考えます。具体的には、信用情報機関からの外部信用情報を調達したり、法人カードならば東京商工リサーチなど企業情報を扱っている企業から財務情報・企業評価などを調達したりします。
次にAIモデルの選択と学習を行います。これは、データに潜むパターンをAIに学ばせる、データ分析の中核となるプロセスです。
まずは、目的に応じて最適なAIモデル(アルゴリズム)を選択します。例えば、不正利用検知なら「分類」モデル、売上予測なら「予測(回帰)」モデルといった形です。アルゴリズムには決定木、ランダムフォレスト、ディープラーニングなど様々な種類があり、データの特性や求める精度に応じて選び分ける必要があります。
AI分析に加えて、AIの分析根拠を解析したい場合には、XAIを実現できるモデルを選択するのが良いでしょう。自動審査モデルの例を挙げると、扱うデータは表形式の構造化データを扱うので複雑なデータではない点と、モデルがどのような根拠で審査の応諾/否決を出したのかを知りたいというニーズがある事から、精度が出やすくかつ分析根拠を解析できる勾配ブースティングモデルを用いるのが適切と言えます。
モデルを選択したら、早速用意したデータセットを用いて学習を行いたい所ですが、学習の前にデータセットを学習に適した形に加工する必要があります。主に行う加工は以下のものがあり、総じて特徴量エンジニアリングと呼びます。
- ・欠損値の処理
- ・学習に不要な変数の削除
- ・文字型変数の数値変換
- ・教師データの分別
- ・全体データの学習用データと評価用データへの分割
特徴量エンジニアリングが完了したら、AIモデルの学習(機械学習)を行います。機械学習の際は学習用データのみ使用し、こちらがモデルに対して行う事は基本的にはありません。AIが自動的に学習データと教師データからパターンを分析・学習していくプロセスになります。
AIモデルの学習が完了したら、その性能が実用に足るものかを確認する「評価」と、AIがどのような根拠で判断しているかを理解する「解釈」を行います。
学習に使っていない未知の評価用データをモデルに推論させてみて、AIの性能として問題無いか、客観的な評価指標を用いて確かめます。次に、AIの判断根拠を可視化・解釈します。例えば、審査モデルであれば、「年収の高さが承認に強く影響している」「過去の延滞歴が否決の大きな要因になっている」といった根拠をSHAPなどの手法で明らかにします。
判断材料としては簡単なケースを挙げましたが、これによりAIの判断がビジネス上の知見と合致しているかを確認でき、人間では気づかなかった新たなインサイトを得られることもあります。
モデルの有効性が確認できたら、いよいよ実際の業務へ導入し、運用していくステップに移ります。
いきなり全面的に導入するのではなく、まずは限定的な範囲でスモールスタートするのが成功の鍵 です。例えば、「このAI審査モデルを導入すると、全体の何%が自動で承認判定になるか」といったシミュレーションを行い、ビジネスへの影響を事前に予測します。
ただし、作成したモデルを初めて活用するようなプロジェクトはPoCの段階である事が多い点 と、実際に施策を行う時はシミュレーション結果よりやや精度が落ちる事も多い ため、あくまで参考値として扱う事を推奨します。
シミュレーションが完了したら、実際に自動審査を行います。シミュレーションと同じ手順で、審査用データを特徴量エンジニアリングしてAIに入力する事で自動審査が行われます。仮にAIが、人間と同水準のレベルで審査を行うことができた場合、当初の目的である「審査業務のAI移管」は達成となります。
また、モデルは一度作ったら完成!という事は無く、市場環境や顧客の行動は常に変化するため、継続的に再学習など調整を行う必要があります。毎月毎月学習を行う必要は無いですが、精度が落ちてきた場合は再度学習を行ってパフォーマンスを維持できるようにするのも大切です。
多くの企業がAIデータ分析に期待を寄せる一方で、プロジェクトが思うように進まず、途中で頓挫してしまうケースも少なくありません。成功を阻む「落とし穴」は、ある程度パターン化されています。この章では、AIデータ分析プロジェクトで陥りがちな4つの代表的な失敗パターンと、それらを乗り越えるための具体的な解決策を解説します。
良いモデルを作成するためには、十分なデータ量を確保するのが重要です。しかし、ただ量を集めれば良いという訳ではありません。データの質も問題無いか確認する必要があります。よくある例としては以下の通りです。
- ・季節性を無視したデータ収集
例:売上予測なのに夏の3ヶ月分だけを収集→冬の需要が読めないモデルに。最低でも1年通したデータを収集する。 - ・学習データと本番データでカラム定義やカテゴリが違う
例:学習時では「性別:男性/女性」なのに、本番では「性別:Male/Female」になっている。AIにとっては未知の値である。必ずカラム定義は揃える。 - ・極端に少ない教師データ
例:自動審査モデルを作りたいのに、否決データが全体の1%しかなく、モデルがほぼ応諾と予測するだけになってしまう。即ち、学習データが応諾のものばかりなので「あるもの全て応諾だ」と勘違いしやすくなる状態に陥りやすい。極力、教師データの正例/負例バランスは偏りすぎないように考慮する。
【解決策】
AI導入の前に、まずは自社のデータを整備し、いつでも分析に使える状態にする「データ基盤の構築」を優先しましょう。不足しているデータは外部から購入したり、計画的に収集したりする戦略が必要です。また、データの入力ルールを定め、全社で徹底するデータガバナンスの確立も不可欠です。
AIとは基本的に入力から出力までの過程が見えないブラックボックスなものです。AI、特にディープラーニングのような複雑なモデルは、人間が理解できないレベルで無数の計算を行い結論を出すため、なぜその結論に至ったのかを論理的に説明することが困難だからです。
その結果、「予測精度は95%と高いが、なぜこの顧客が『解約する』と予測されたのか根拠が分からないため、具体的な対策が打てない」といった事態に陥ります。重要な経営判断や顧客への説明責任が求められる場面で、根拠の不明なAIの予測を鵜呑みにすることはできません。
【解決策】
分析の目的に応じて、解釈性の高いAIモデルを選択することが重要です。決定木系のモデルや、SHAP・LIMEといったモデルの判断根拠を説明する機能(XAI)を持つモデルを用いるのが有効です。また、AIの専門家が分析結果をビジネスの視点で分かりやすく翻訳し、現場担当者との橋渡し役を担うことも解決策の一つとなります。
AIデータ分析プロジェクトを推進するには、 ビジネス知識、ITスキル、統計学の知識を併せ持つ専門人材が不可欠 です。
データサイエンティストやAIエンジニアと呼ばれるこれらの人材は、専門性が非常に高く、多くの企業で不足しているのが現状です。専門知識がないままプロジェクトを進めようとすると、適切な分析手法を選べなかったり、出てきた結果を正しく評価できなかったりと、多くの問題に直面します。
【解決策】
AIデータ分析の学習コストは非常に高いため、即座にAIデータ分析を取り入れたい場合は外部のデータ活用人材を活用するのが現実的です。加えて、データ活用人材からノウハウを吸収することで、社内のデータサイエンティストやAIエンジニアの育成も効果的に行うことが期待できます。中長期的には、社内研修やリスキリングを通じて自社の人材を育成する計画を立てることが重要になります。
弊社では、AIモデルの開発をはじめとしたデータ活用支援から内製化支援まで幅広くサポートしております。
AIモデルを構築し、高い精度が出ることを確認したものの、 実際の業務改善や売上向上に繋がらず、実証実験(PoC)の段階で終わってしまう「PoC止まり」は、多くの企業が直面する課題 です。
この問題の根底にあるのは、プロジェクトの目的設定の誤りです。分析の目的を「AIモデルを作ること」自体に置いてしまうと、「モデルはできたが、これをどうビジネスに活かせばいいのかわからない」という状況に陥ります。
AIデータ分析はあくまでビジネス課題を解決するための「手段」であり、目的ではありません。
【解決策】
AIデータ分析を開始する前に目的を明確化する事が最も重要です。ゴールを「AI分析する事」にするのではなく、「AI分析して得た結果を施策に繋げる事」まで考えて分析を行いましょう。また、PoCの段階では施策をスモールスタートにして小さな成功体験を重ねながら、AI活用のスケールを広げていく事も有効です。
A. はい、中長期的な視点で見れば、多くのケースで費用対効果は期待できます。 AIデータ分析は初期投資やデータ整備にコストがかかる場合がありますが、予測精度の向上、業務効率化、新たなビジネス機会創出による中長期的なリターンが期待できます。具体的なROI(投資収益率)は目的やデータの質によって異なりますが、スモールスタートで効果を検証し、段階的に投資を拡大するのが賢明です。
A. ゼロからのスタートは難しいですが、オープンデータや外部データとの組み合わせ、あるいは少量データからの学習(転移学習など)で始める方法もあります。ただし、精度を高めるには十分なデータ量が理想です。データ収集戦略を練り、将来を見据えて計画的にデータ収集を行う事から始めるのも立派な手段の1つです。
A. 精度は「ビジネス目的と紐づいた指標」で評価し、「継続的な改善サイクル」を回すことが不可欠です。 精度評価には主に2種類の指標があります。モデルとしての性能を測る評価指標(例:AUCや適合率)と、ビジネス目的と紐づいた指標(例:審査の応諾割合、否決割合)です。双方の指標の良さは比例する事が多いですが、モデル作成過程では前者を、シミュレーション時や施策結果からモデルを見る時は後者を使います。基本的には、ビジネス的に立てた目標数値をモデルが達成できなかった時に改善を検討する流れになります。改善の際には、評価指標の目標数値を達成するように調整すれば問題ありません。
まとめ
本記事では、AIデータ活用を成功させるためのAI作成ステップについて紹介しました。やや技術的な部分が多くなってしまいましたが、これからAI導入を検討している方も、一体AIはどのように作られるのか?どのようなデータが必要なのか?といった事は知っておく必要があります。
中でも「AIを用いた分析をする事」を目的にするのでは無く、「AIを用いた分析を使って何をどう成し遂げるのか」までを目的にして、入口から出口までを一気通貫で考える事が重要です。そこまで考えた上でようやく必要なAIを設計する事ができるのです。
\ データ活用についてのご相談はメンバーズデータアドベンチャーまで /
\ 相談する前に資料を見たいという方はこちら /
▶こちらも要チェック
ベネッセ、メンバーズ、生成AI活用の先駆者が語るデータマネジメントの重要性と未来