統計学でよく聞く「分散」と「標準偏差」
本ページにはプロモーションが
含まれていることがあります
代表値とはデータ全体の性質を表した数値のことです。
データの代表値には複数の種類があり、中でも、平均値、中央値、最頻値が主です。それぞれの指標に得意・不得意があり、その使い分けを理解することが重要です。
●平均値(mean, average):すべての数値を足して、数値の個数で割ったもの。データの中の異常値に影響されやすいことに注意。
●中央値(median):数値を小さい方から並べたときに、真ん中に来る値。異常値に対して頑丈性を発揮することが利点、データ全体の変動を捉えきれないことが欠点。
●最頻値(mode):一番頻繁に出現する値。質的データに使える代表値は最頻値のみ。
上記にような代表値だけでは、データ全体の性質をうまく表せないことがあります。平均値と中央値の両方が同じでもデータの分布が異なることもあります。
データのばらつきや広がり具合を示すために、とても重要な指標である「分散」と「標準偏差」をこの記事で解説します。
AI・データサイエンス、機械学習の
実践力を高めたい方へ
- 自分に合う教材を見つけたい
- 無料で勉強をはじめてみたい
AI人材コースを
無料体験してみませんか?
自分のスキルに合わせたカリキュラムが生成できる!
理解度を記録して進捗管理できる!
テキストの重要箇所にハイライトを残せる!
1分で簡単!無料
▶無料体験して特典を受け取る偏差と分散
改めて、データのばらつきの度合いを定量的に指し示す指標を考慮することが必要です。まず「偏差」と「分散」について紹介します。
「偏差」とは、各データの平均値との違いに着目した値です。ところが、「各データ値と平均の差」を全てのデータについて足し合わせると0になってしまい、使い道がなくなります。そこで代わりに、偏差の2乗を足し合わせて、さらにデータの個数で割った値を使います。この値を「分散」と呼びます。
データの個数で割る理由は… もしそうしない場合、データの個数が増えれば触れるほど参考にする指標が大きくなってしまうからです。
分散(よくσ^2と記載)の値は以下のように計算されます。
標準偏差
分散をさらに平方根をとったものを「標準偏差」と呼びます。
なぜ平方根にするのでしょうか?
分散は元のデータ(と平均の差)を2乗したものを使っているので、単位が元のデータと異なります。これの平方根をとれば、ばらつきの指標が本来のデータと同じ単位になれるからです。
データのばらつきが大きくなればなるほど分散、標準偏差が大きくなります。
ちなみに、分散が0となるデータは、全てのデータが同じ値であるようなデータです。
AI・データサイエンス、機械学習の
実践力を高めたい方へ
- AI・データサイエンス・LLMアプリについて知りたい
- AIエンジニア、データサイエンティストになりたい
- DX化推進のための知識を身につけたい
AI人材コースを
無料体験してみませんか?
追加購入不要!これだけで学習できるカリキュラム
充実のサポート体制だから安心
2万円相当の基本講座をプレゼント!
▶AI人材コースを見る
自分のスキルに合わせたカリキュラムが生成できる!
理解度を記録して進捗管理できる!
テキストの重要箇所にハイライトを残せる!
1分で簡単!無料!
▶無料体験して特典を受け取るこの記事の著者 ヤン ジャクリン
2015年 東京大学大学院 理学系研究科物理学専攻 修了(理学博士)
2015年 高エネルギー加速器研究機構 素粒子原子核研究所(博士研究員)
2017年 株式会社GRI(現職) 講師 兼 分析官
2019年 Tableau Desktop Certified Associate 資格取得
・英検1級
・TOEFL IBT試験満点
北京生まれ、米国東海岸出身(米国籍)、小学高学年より茨城県育ち。
万物の質量の源となるヒッグス粒子の性質を解明し、加速器実験による新粒子発見に関する研究を行い、国際・国内学会発表20件以上、査読論文5件以上。
10年以上に渡り、幅広い年齢層の学習指導を学習塾や大学などで実施(5科目、英会話、受験指導、素粒子物理など)。
現在は、株式会社GRIにて、データ分析官(データ前処理、可視化分析、マーケティング施策の分析 他)
公開講座および法人研修を多数開設。