データ分析とは?ビジネスで役立つ主な手法11選と選び方

ビジネスのDX(デジタルトランスフォーメーション)が進み、いろいろな場面でデータ分析が行われるようになっています。データ分析は上手く使えば大きな武器になりますが、明確な目的がないままデータ分析に着手してしまったり、選んだ分析手法が目的に対して適切ではなかったりするとその効果を最大限発揮できなくなってしまいます。
この記事では、数多く存在するデータ分析手法の中で、ビジネスの現場で頻繁に使われる主要な手法の概要と、それぞれの分析手法がどのような目的で使われるものなのかをご紹介します。
執筆者のご紹介
名前:長山大貴
所属:株式会社メンバーズ メンバーズデータアドベンチャーカンパニー アカウントマネジメント室
現在は外食企業に常駐し、データ可視化や商品や顧客の分析、施策の効果検証などのデータ分析を主に担当。ただ数字を扱うのではなく、ビジネスの状況を深く理解してより良い意思決定に貢献できるように意識しています。
▶目次
TableauやPower BIは強力なツールですが、
「元のデータ」が整理されていなければ真価を発揮できません。
✔️「綺麗なグラフが作れない」
✔️「分析が次に繋がらない」
といった課題の根本原因と解決策を、
本動画で現役データサイエンティストが体系的に解説します。
データ分析とは、蓄積された情報から傾向や関係性、洞察を導き出すプロセスです。ビジネスでは日々さまざまな意思決定が行われていますが、主観や過去の経験だけに頼ると、判断にブレや再現性の欠如が生じがちです。そこで活躍するのが、客観的なデータを基にした「分析」です。データという客観的な根拠を活用することでより正確で、再現性のある意思決定を行うことができるようになります。
データ分析の取り組みをビジネス成果に結びつけるためには、ビジネスインパクトの大きい課題に取り組むこと、その課題に対する意思決定を行う中でデータ分析を行う目的を明確にすることが重要です。「データの活用」や「特定の分析手法を使うこと」自体を目的にするのではなく、まずは取り組むべき課題を明確にし、その課題に取り組むために最適な手段を検討します。
明確な目的がないままデータ分析を行うと、「勉強にはなったが、分析結果をどのように行動に移したらいいか分からない」という状況に陥ってしまいがちです。そのため、まずは課題解決のための道筋を立てて、その中で目的に沿ったデータ分析手法を選んで使っていくことが重要です。
データ分析を行う前に、まず理解しておきたいのが「データの種類」です。一般的には、量的データ(数値)と質的データ(カテゴリ)といった分類が知られていますが、ビジネス実務の現場ではそれに加えて、「集めたデータ」と「集まったデータ」という視点も非常に重要です。
「集めたデータ」とは、特定の目的のために自社でアンケートを作成したり、調査会社に依頼したりして収集したデータのことです。これらのデータは調査対象や回収方法を適切に設計することで、データの偏りを抑制することができます。例えば、日本の人口構成比に合わせてインタビュー対象者数を設定することによって、市場全体に近い集団をもとにデータ分析を行えるようになります。
一方、「集まったデータ」は、企業の日常的な事業活動に伴い、自然に蓄積されるデータを指します。例えばECサイトの購買履歴や、Webサイトやアプリ上での行動を記録したアクセスログなどです。この「集まったデータ」を扱う際は、データに意図しない偏りが生じていないか気を付ける必要があります。例えば、自社サイトのアクセス履歴は、自社のことを元々知っている人、もしくは検索ブラウザや広告を通して自社に興味を持った人のデータなので、そのデータを分析した結果は、自社のことを一切知らない人たちには当てはまらない可能性があります。他にも、ヘビーユーザーの方がキャンペーンに参加しやすい傾向がある、店舗の立地や形式によって顧客の行動傾向が異なるなど、各ビジネス/サービス特有の偏りは数多く存在するため、分析者はビジネスやサービスのことを深く理解する必要があります。
ここからは主要なデータ分析の手法をご紹介します。
<目的>
- ・傾向の把握
- ・共通認識を持つ
<詳細>
そもそもビジネス上関心がある情報を数字として見たことがない場合、まずはデータを抽出・集計して可視化することは非常に有効です。テーブルやグラフとしてデータを可視化することで、データの推移や規則性、大小関係など多くのことが明らかになります。また、可視化したデータをチーム内外で共有することで、共通認識を持って業務を進められるようになります。
データを可視化する際は、適切な形式を選ぶことが重要です。例えば棒グラフと線グラフは両方時系列のデータを表現するときによく使われますが、棒グラフのほうが数値の大小比較がしやすく、線グラフのほうが数値の上下が分かりやすいという特徴があります。このように、各可視化手法の得意分野を理解し、適切に使い分けることでより効果的に可視化したデータを使えるようになります。
<目的>
- ・情報を集約して使う
<詳細>
データはそのままだと情報量が多くて扱いにくいことが多いので基本統計量を算出して取り回しをよくすることが有効です。基本統計量はデータ全体を表す代表値と、データのばらつきを表す散布度に大きく分けられます。
代表値は平均値が有名ですが、他にも中央値や最頻値などがあります。平均値は非常によく使われる代表値ですが、極端に大きい/小さい外れ値に影響を受けやすいという特徴があり、注意する必要があります。例えば、1人あたりの購買額などほぼ上限がないといえる値は外れ値の影響を受けて平均が高くなりやすいので、データの分布を確認したうえで外れ値を除外したり、中央値を使うなどの対策を検討します。
散布度はあまり耳にする機会が多くないかもしれませんが、データの散らばりを表す「標準偏差」や、最大値と最小値の差である「範囲」などがあります。データのばらつきも非常に重要な指標で、例えば1日あたりの平均売上額が同じでも、標準偏差が大きければ日によって売上の上下が激しく、逆に標準偏差が小さければ毎日安定した売上を出している店舗と言えます。これは平均値だけを見ていては抜け落ちてしまう情報です。
基本統計量を算出することでデータの取り回しがしやすくなり、効率的に情報を伝えたり、比較がしやすくなるなどのメリットがありますが、同時に抜け落ちてしまう情報もあるので注意して使う必要があります。
<目的>
- ・属性や行動など特定の条件ごとに分解して比較したいとき
<詳細>
年代や性別などの属性や特定の行動の有無などで分けて度数や興味のある指標を算出することで、傾向や特徴を見つけることができます。例えば、キャンペーンへの参加率を性別や年代、過去の購買傾向などの条件ごとに算出することで、キャンペーンに興味を持ちやすいセグメントを特定するなどの分析を行うことができます。
クロス集計は取り組みやすい分析ですが、「集まったデータ」など、その分析のために収集したのではないデータを使う場合、データにバイアスがかかっている可能性があるので注意する必要があります。
<目的>
- ・ある事象が起こったことが単なる偶然か、そうでないかを判断する
<詳細>
ある商品をプロモーションするメールを2パターン作り、送信先をランダムに割り当てて送ったとき、メールAを受け取ったユーザーの方がメールBを受け取ったユーザーよりも多く商品を購入したとします。この場合、ただちにメールAのほうが効果的だったということができるでしょうか。このようなケースでは検定を行うことで、差が偶然によるものかそうでないかを判断することができます。それにより、実際には偶然ではないと言い切れない不明確な差に対して投資してしまうことを避けることができます。検定の手法は数多く存在するため、扱うデータや状況にあった検定手法を選定して使用します。
ただし、検定の結果統計的な有意性があったとしても、その差にビジネス上の意味があるかはまた別の問題です。統計的な有意性だけでなく、ビジネスインパクトも考えたうえで意思決定を行う必要があります。
<目的>
- ・データをグループ分けしたいとき
<詳細>
多くの異なるデータの中から、似た性質を持つものを集めてグループ(クラスター)を作るのがクラスター分析です。例えば、顧客の購買履歴や行動パターン、デモグラフィック情報など、様々なデータを使って「似たような顧客」を分類することができます。これにより、漠然とした顧客層を具体的なセグメントとして捉え、それぞれに合わせたマーケティング戦略や商品開発を行うことが可能になります。
クラスター分析は、明確な正解がない「教師なし学習」の手法の一つです。そのため、クラスター分析によって導き出された分類にどのような意味を見出すのか、分析者の専門知識や解釈力が重要になります。また、クラスタリング手法の選定やクラスターの数、クラスター同士の距離の測り方の定義など、設定によって得られる結果や示唆が変わるため、目的に合った手法や設定を選ぶ必要があります。
<目的>
- ・多くの情報から主要な要素を抽出して理解を深めたいとき
<詳細>
主成分分析は、多数の変数を持つデータセットから、それらの変数に共通する「主要な情報(主成分)」を抽出する統計手法です。例えば、顧客アンケートで「商品デザイン」「品質」「価格」「サポート」など多くの評価項目がある場合、相関が高い変数を一つの「主成分」としてまとめることで、次元を削減することができます(例えば、「品質」と「安心感」の相関が高い場合、1つの主成分に集約するなど)。
この分析の主なメリットは、データの次元を削減し、複雑な情報をシンプルな、かつ分かりやすい形に変換できる点です。多くの変数を持つデータでも、数個の主成分に集約することで、データ全体の構造や変数間の関係性を把握しやすくなります。これにより、顧客アンケートのデータから顧客が商品を評価するときの軸を発見したり、作成した主成分を次の分析に活用したりすることができます。
注意点としては、次元を削減することにより情報量が失われるため、複数の変数を主成分に集約したことによりどの程度の情報が失われたのかを把握しておく必要があります。
<目的>
- ・偏りを取り除き、因果関係を捉える
<詳細>
「集まったデータ」を使うときはデータの持つ偏りに注意する必要があると繰り返しご説明していますが、偏りがあるデータを使って出来るだけ純粋な効果を捉えようとする因果推論という考え方があります。因果推論の代表的な分析手法として、差分の差分法、傾向スコアマッチング法などがあります。
差分の差分法では、例えばある施策を行った場合、その施策の影響を受けたグループと施策の影響を受けていない比較対象のグループそれぞれで時系列のデータを準備し、各グループにおける施策前後での数値の差分を算出して、さらにその差分のグループ間での差分を求めることで純粋な因果関係を知ろうとします。施策の影響を受けていないグループの施策前後の変化を見ることで、「施策を行っていなかった場合でも起こっていたと考えられる変化」を加味して純粋な施策による効果を知ることができます。ただし、これは施策の影響を受けたグループと受けていないグループでは施策の影響以外の差がないという仮定のもと分析を行っているため、比較対象のグループをどう設定するかが重要になります。
実務では偏りのあるデータしか手に入らないことも多いため、因果推論を使うことで施策の効果などをより正確に計測し、ビジネスに活用することができます。
<目的>
- ・一緒に買われやすい商品の組み合わせを知る
- ・他商品の購買促進効果を測る
<詳細>
よく一緒に買われている商品の組み合わせを発見し、販売方法などを工夫したり、レコメンデーションに活かしたい場合にはアソシエーション分析を使うことができます。アソシエーション分析では以下の3つの指標を算出し、一緒に買われやすい組み合わせや、他商品の販売促進効果を分析します。
- ・支持度(Support):全データの中で、商品Aと商品Bが一緒に買われた割合
- ・信頼度(Confidence):全ての商品A購入データのうち、商品Bが一緒に買われた割合
- ・リフト値(Lift):商品Aの購入による、商品Bの購入促進効果
仮に信頼度が高かったとしても、商品Aがあまり買われておらず、全体に対する影響度が小さい(=支持度が低い)可能性もあります。また、商品Bが人気商品の場合他の商品と一緒に買われる確率は自然と高くなるため、リフト値も重要な指標です。そのため、それぞれの指標をバランスよく見て判断することが重要です。
例えば支持度が一定以上あり、信頼度も高い場合、商品Aと商品Bを近くに陳列することでセットでの購入を促進する、などの意思決定につなげることが考えられます。
<目的>
- ・予測したいとき
- ・実績を解釈したいとき
<詳細>
回帰分析は将来の予測や実績の解釈などに使うことができ、非常に汎用性の高い分析手法です。過去の傾向から将来を予測したい場合、予測したい数値(被説明変数と呼びます)と、被説明変数に関係のある変数(説明変数と呼びます)を学習させることで、説明変数をもとに被説明変数を予測するモデルを作成することができます。
また、作成したモデルに着目し、被説明変数に対して与える影響が大きい/小さい説明変数を特定することで、実績の解釈に役立てることもできます。
回帰分析を用いた予測では、例えば過去の実績をもとにあるユーザーがキャンペーンに参加する確率を予測するモデルを作成し、参加率が高いユーザーに対してメールを送信するなどの施策に移すことができます。
回帰分析を解釈に役立てたい場合、先述のモデルにおいて被説明変数に対して影響度合いが大きい説明変数を探し、どのような特徴を持ったユーザーがキャンペーンに参加しやすいかを解釈することができます。
<目的>
- ・結果を予測し、その予測に至るプロセスを知りたいとき
<詳細>
決定木分析は、ある結果(例えば「顧客が商品を購入するかしないか」)が、どのような条件の組み合わせで起こるのかを、樹形図(決定木)を使って分析・予測する手法です。データの規則性やパターンをツリー状に分岐させながら可視化するため、予測に至るプロセスが非常に分かりやすいという特徴があります。
例えば、Webサイトの訪問者が商品を購入するかどうかを予測したい場合、決定木分析を使うと、「訪問経路が〇〇で、滞在時間が△△分以上なら購入する確率が高い」といった具体的なルールを発見できます。これにより、顧客がなぜその行動を取るのか、その理由を直感的に理解し、ビジネス戦略に活かすことができます。
ただし、決定木分析は、データに過剰に適合(過学習)しやすいというデメリットもあります。複雑な木を作りすぎると、学習データにはフィットしても、未知のデータへの予測精度が落ちる可能性があるため、適切な木の深さや枝の剪定が重要になります。
<目的>
- ・過去の変動パターンから将来を予測したいとき
<詳細>
時系列分析は、時間とともに変化するデータ(時系列データ)のパターンを分析し、将来の動向を予測する手法です。売上、株価、気温、アクセス数など、時間の経過とともに変動するデータに適用できます。この分析では、データの「トレンド(長期的な傾向)」「季節性(周期的な変動)」「不規則変動(ランダムな動き)」といった要素を分解して捉えることで、より正確な予測を可能にします。
例えば、過去数年間の商品の売上データから、季節ごとの需要の変動パターンや、長期的な売上の成長傾向を把握し、来月の売上を予測することができます。これにより、在庫管理の最適化、生産計画の立案、マーケティング施策のタイミング決定など、多くのビジネスシーンで役立ちます。
時系列分析の課題は、予測が過去のデータパターンに依存するため、予測期間が長くなるほど不確実性が増す点や、予測不能な突発的なイベント(自然災害や経済危機など)には対応しにくい点です。また、データの収集間隔や粒度によって分析結果が大きく変わるため、適切なデータ準備が不可欠です。
まとめ
この記事では、データ分析をビジネス成果につなげるために重要な視点と、主要な分析手法、その使用目的や特徴をご紹介しました。
データ分析をビジネス成果につなげるためには、目的が明確でないままデータ分析を始めるのではなく、まずは取り組むべきビジネス上の課題を決め、その課題に対して取り組む中で目的に合ったデータ分析手法を選んで使う必要があります。また、自然に蓄積した「集まったデータ」を使う場合、データの中に存在する偏りに注意して分析を進める必要があります。これにはビジネスやサービスのドメイン知識が必要なため、分析者もビジネスへの理解を深めることが重要です。
データ分析には数多くの手法が存在しますが、それぞれの目的や注意すべきポイントを正しく理解したうえで活用することで、その効果を最大限発揮させることができます。データ分析を活用することで、経験や直感だけに頼るよりもより質、再現性が高い意思決定が行えるようになります。
\ データ活用についてのご相談はメンバーズデータアドベンチャーまで /
\ 相談する前に資料を見たいという方はこちら /
▶こちらも要チェック
データを可視化!BIツール導入によるデータドリブンの促進