データ分析の選択

広告

Pocket

統計などでデータ分析するときに、
代表的なものに平均値、中央値、最頻値がある。

平均値は「全てを足してその個数で割ったもの」
中央値は「小さいものから並べ、真ん中にくるもの」
最頻値は「1番個数の多いもの」

そしてそれらにはメリットとデメリットがある。
平均値のメリットは全ての値が反映される。
デメリットは極端な値があった場合に大きく影響を受ける。
中央値のメリットは極端な影響を受けづらい。
デメリットは真ん中に焦点を当てるため比較や変化に向かない。
最頻値のメリットは極端な値の影響を受けづらい。
デメリットは個数が少ない場合は使えない。

基本的には平均値と中央値を比べて、
大きくずれていなければ綺麗に分布しているので
平均値を使って問題ないと考えられる。

そして平均値と中央値を比べて、
分布が偏っているのであれば中央値を見ていき、
大きな剥離があれば最頻値も見るのが良い。

ただ分布が偏っている場合は、
一つの代表値で全体を表すことそのものが無意味なので、
注意が必要になってくる。
そういう場合はヒストグラム、分散、箱ひげ図などが
有効になってくる。

まとめ

平均値は全ての値が反映されるが、
極端な値があった場合に大きく影響を受ける。
中央値は極端な影響を受けづらいが、
真ん中に焦点を当てるため比較や変化に向かない。
最頻値は極端な値の影響を受けづらいが、
個数が少ない場合は使えない。

基本的には平均値と中央値を比べて、
大きくずれていなければ平均値を使う。
そして平均値と中央値を比べて、
分布が偏っていれば中央値を見ていき、
大きな剥離があれば最頻値も見る。

ただ分布が偏っている場合は、
一つの代表値で全体を表すことそのものが
無意味な点は注意する必要がある。

広告

ABOUTこの記事をかいた人

藤原大輔 岡山のクリニックで理学療法士として勤務。 "痛み"に対して 日常生活のコントロールの重要性を提唱している。