本日は、統計学でよく聞く「母集団」と「標本」について語りたいと思います。

統計学で最もよく使われるアプローチは記述統計学(descriptive statistics)と推測統計学(inferential statistics)です。本題と関連するので、まずこの2つの違いから説明しましょう。

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

記述統計学と推測統計学の違い

記述統計学では、手元にあるデータの特徴や傾向をわかりやすく表現するために、データを整理し、そこから基礎統計量(平均や分散など)を算出し、表やグラフを作ってデータをビジュアル的に、直感的に説明します

推測統計学では、データ全体(母集団)から一部(標本)を抜き出して、その標本の特性を調査することで母集団全体の特性を推測します。さらにその推測が正しいかどうかを検定します。確率の考え方を土台にしています。

記述統計と推測統計の違いは以下のように表現することができます

●「母集団と標本の区別をするかどうか」

●「全データを対象とするかどうか」

母集団と標本

母集団とは知りたいデータ全体のことです。

標本とは実際に手に入れることのできる、母集団から抽出した一部のサンプルデータのことです。

母集団が大きすぎて直接調査(全数調査)することが困難な場合に標本調査を行います。そもそも、標本(サンプル)を用いて母集団の性質を調べることができるのが推測統計学の良いところです。

ここでは改めて「一部からデータ全体を知る」ことの意味を踏まえて、母集団と標本の関係性を整理したいと思います。

標本の抽出

もしも、母集団全体を調査することが可能であれば、標本を抽出する必要はありません。例えば、選挙では投票者の集団全体の開票結果で当選者が決定されるので、一部のサンプルを抽出し全体を推計するようなことを行いません。

一方で、多くの場合、統計学に基づいた処理は標本に対して適用されます。なぜなら、確実に全ての該当者に調査を行うことが極めて難しいからです。例えば、「国の全人口」や「国内の全ての30代女性」のような集団から一人もれなくデータを取ることは不可能に近いです。

母集団から完全にランダムな手法で標本を抽出することが重要です。これは無作為抽出(random sampling)と呼びます。このように取り出された標本は無作為標本(random sample)と呼びます。無作為抽出を行うことによって、はじめて、母集団と標本が「確率」を介して結びつけられます。

無作為抽出は2つやり方がります。

(#1)非復元抽出:同時に必要な数のデータだけを集団から取り出す。

(#2)復元抽出:集団から取り出しては戻し、また取り出す、を繰り返す。

マーケティングの標本調査の注意点

以下では、マーケティング分野における「市場調査」をテーマに話していきます。ある地域の全ての住民に調査を行うことや、ある商品を購入した人を全て追跡することは不可能ですので、代わりに標本調査が行います。

マーケティングの興味の的は、潜在的なユーザーの属性、嗜好、どのような商品を欲しがるのか、どこでその商品を買うのか、を知ることです。

何も考えずに市場調査には思わぬ欠点があります。例えば、1000人に対する調査を行うことで市場(母集団)の特性を把握するとします。調査の結果をもとに、商品開発を行なったり、プロモーション戦略を立案したりすることはいちおうできます。

しかし、注意しなければいけないのは、抽出したサンプル以外の人たちの特性かを個別に知ることができないのです。本当は様々な属性や好みを持つ潜在的ユーザーがいるはずなのに。

ひと昔の「マス・マーケティング」/「マス広告」の時代においては、よい商品を安く大量に生産し、CMで活発に宣伝すればするほど売上が上がりました。しかし、ユーザーのニーズが多様化している今、このやり方は効果を失いつつあります。今度はOne to oneマーケティングが重要となってきます。

標本調査の結果が可能の限り母集団全体の特徴を忠実に表せるように工夫を施さないといけません。偏りなく市場全体を把握できるように、市場をセグメントに分割し、ターゲットを絞ってから標本調査を行う必要があります。例えば、調査対象を性別や年齢層に分けてそれぞれの特徴を調べ、所得、地域、職業などの細かい要因も考慮します。

ユーザーの行動パターンに沿った調査法

さらに、インターネットの普及により人々の購買行動が変遷してきています。それに従って企業のマーケティング戦略も変わらなければいけません。

かつては、ユーザーの嗜好を知るために、性別、年代、居住地、所得などの比較的変化の少ない「ハードな属性」、そしてデモグラフィック特性やライフスタイルなどを参考としていました。しかし、現在の社会ではこれらの情報だけではユーザーの嗜好を十分にとらえることはできなくなりました。

「一人ひとりが次に何を購入するか」を予測するためにはどうしたら良いのでしょうか。

ユーザーが次に何を購入したいのかを予測する上で、最も信頼できるデータは、該当する人の過去の行動履歴です。幸いなことに、ビッグデータ時代が到来し、ユーザー全員のWebサイトの閲覧履歴、購買履歴、来店記録が簡単に取得できるようになりました。これらのデータは、ユーザーの嗜好を直接的に表現しています。

行動履歴を利用できるようになると、広告業界も変わってきました。かつては、誰にでも同じコンテンツを表示していたのに対して、今のOne to oneマーケティングが時代では、「行動ターゲティング広告」や「レコメンドバナー広告」が日常的に見るようになりました。広告の配信媒体も看板やテレビだけではなく、ウェブ広告やSNS広告など多様化しています。これらは個別のユーザーの行動履歴を分析することで実現された対策です。

データサイエンス(G検定・AI・機械学習・データ分析)

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

実践的な
Python・データ分析スキル

を身に付けたい方へ

何から手をつけたら良いかわからない

独学で挫折したことがある

専門的な内容で身近に相談できる人がいない

このような悩みをお持ちでしたら
AI Academy Bootcampにご相談下さい!

「目的別学習コース」と「手厚いサポート」

AI Academy Bootcampに無料相談する>>

この記事の著者 ヤン ジャクリン

ヤン ジャクリン (講師紹介はこちら

2015年 東京大学大学院 理学系研究科物理学専攻 修了(理学博士)
2015年 高エネルギー加速器研究機構 素粒子原子核研究所(博士研究員)
2017年 株式会社GRI(現職) 講師 兼 分析官
2019年 Tableau Desktop Certified Associate 資格取得

・英検1級
・TOEFL IBT試験満点

北京生まれ、米国東海岸出身(米国籍)、小学高学年より茨城県育ち。

万物の質量の源となるヒッグス粒子の性質を解明し、加速器実験による新粒子発見に関する研究を行い、国際・国内学会発表20件以上、査読論文5件以上。
10年以上に渡り、幅広い年齢層の学習指導を学習塾や大学などで実施(5科目、英会話、受験指導、素粒子物理など)。
現在は、株式会社GRIにて、データ分析官(データ前処理、可視化分析、マーケティング施策の分析 他)
公開講座および法人研修を多数開設。

講座を見る