データサイエンティストは1つのデータ活用プロジェクトの中で、 課題定義から結果報告までを行う必要があり、一般的に以下の順番で進めます。

1.課題定義と仮説立案→  2.仮説検証→  3.検証結果の評価を報告

1つ目の「課題定義と仮説立案」では、ヒアリングを行うことで、プロジェクトの課題を理解し、目標(KPIなど)を設定し、その目標を達成するための仮説を立てます仮説を立てることで解決すべき課題やアプローチが明らかになります。

本記事では、データ分析において重要な「仮説」およびその検証についてのポイントを解説します。分析業務に携わる方の参考になれればと思います。

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

データ分析における仮説とは

データ分析業務における「仮説」は、「ビジネスの課題との因果関係があると考えられること」を指しています。分析案件の依頼者が抱える課題に対して、原因や関連性の高い要素(の候補)を抽出することで、仮説を立てることができます。

ただし、因果関係が本当に成り立つかどうかは検証しなければ知ることはできません。仮説の真偽性を検証するために、データ分析を行います。したがって、最終的になんらかの方法で検証可能であることを念頭に入れて仮説を立てる必要があります。例えば、以下が一例です。

「アイスクリームの売り上げは気温、曜日、店舗の立地に依存する」と仮説を立てる。過去の売り上げ、気象のデータ、マップデータなどを使って予測モデルを構築することで検証できそう。

仮説の立て方

ビジネスの目標をKGIやKPIのような形で、具体的に数値で設定することが望ましいですが、最初から常にそのように設定できるとは限りません。目的に曖昧性が残る場合、あるいは定性的にしか目標を設定できない場合、まずは「アイデア」から出発して仮説を立てます。以下が例です。

課題:

  • 「ある弁当屋の売上が、以前に比べて、毎週水曜に下がってしまうという現象が起きている。」
  • 「どうにかして売上を上げたい。弁当の購入者にポイントカードを渡したら、売上の向上に繋がる気がするけど… 」

これらを実行した時のことを想像しながら仮説を立てます。

課題解説のためのアイデア:

  • 「特定の曜日に売上の減少が起きているため、近くの飲食店でフェアが開催されている日など、周期性のある事象との関連性がある」と仮説を設定する。
  • 「今月頭から全ての買い物客にポイントカードを持たせ、500円購入ごとに1ポイントを付与するようにしたら、今月の売り上げは先月に比べて上がる」と仮説を設定する。

検証のためのデータ分析に予測モデルを立てる必要がある場合は、予測モデルにおける説明変数(特徴量)と目的変数(ターゲット)を明らかに宣言することが重要です。

上記の仮説を、データを分析することで仮説を検証することができます。例えば、弁当屋の売上履歴、影響がありそうなイベントの記録、ポイントカードの利用率データの間の相関係数を計算する、などの手法が考えられます。

課題の裏に予期していない他の原因が潜在する可能性があります。仮説検証を行う目的は、予想されている原因の真偽を確認するためであるとともに、新たな原因や新たな課題の発見にもつながります。

課題定義と仮説立案に必要なこと

#1) データ分析によって解決したい課題が明確化されていることが必要です。そうでなければ、当該課題に対するデータ分析の方針と分析結果から生まれる解決策も曖昧なものになってしまいます。

#2) 具体的かつ細かい課題を定義すべきです。

上記の例では、「弁当の売上が下がっている」だけではなく、「なぜか特定の曜日にだけ売上が下がっている」のように細やかに課題を設定すると、解決策を考案しやすくなります。

#3) 気づきを得るために全体を俯瞰することも重要です。データだけを眺めていてもよい仮説を作れません。課題を抱えている弁当屋にのみ注目しては、「売上が急に減少した」理由に気付けにくいでしょう。周りについて考えない限り、近くの飲食店におけるフェア開催に対する気づきが得られないでしょう。

ところが、データから「気づき」を得るためには「経験」と「勘」が必要です。残念ながらこれらは勉強からは得られず、業務に携わることによって得られるものです。「仮説を立てる」とは、課題に対する理由を考えることであり、これには「業務経験」が必要です。

そもそも、データ分析官はプログラマーと同定義ではありません。データ分析において最も重要なのは、プログラミング能力や数学力など単体のスキルではなく、ビジネスに価値のある発見や成果によって評価されます。

データサイエンス(G検定・AI・機械学習・データ分析)

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

実践的な
Python・データ分析スキル

を身に付けたい方へ

何から手をつけたら良いかわからない

独学で挫折したことがある

専門的な内容で身近に相談できる人がいない

このような悩みをお持ちでしたら
AI Academy Bootcampにご相談下さい!

「目的別学習コース」と「手厚いサポート」

AI Academy Bootcampに無料相談する>>

この記事の著者 ヤン ジャクリン

ヤン ジャクリン (講師紹介はこちら

2015年 東京大学大学院 理学系研究科物理学専攻 修了(理学博士)
2015年 高エネルギー加速器研究機構 素粒子原子核研究所(博士研究員)
2017年 株式会社GRI(現職) 講師 兼 分析官
2019年 Tableau Desktop Certified Associate 資格取得

・英検1級
・TOEFL IBT試験満点

北京生まれ、米国東海岸出身(米国籍)、小学高学年より茨城県育ち。

万物の質量の源となるヒッグス粒子の性質を解明し、加速器実験による新粒子発見に関する研究を行い、国際・国内学会発表20件以上、査読論文5件以上。
10年以上に渡り、幅広い年齢層の学習指導を学習塾や大学などで実施(5科目、英会話、受験指導、素粒子物理など)。
現在は、株式会社GRIにて、データ分析官(データ前処理、可視化分析、マーケティング施策の分析 他)
公開講座および法人研修を多数開設。

講座を見る