ヒストグラムについてメモ

ほかの技術知識

先日、統計の初歩の部分を他人に説明する機会を得た。

棒グラフのように要素間に隙間ができてしまっているヒストグラムや、変な検定について気軽にダメ出ししたところ、「じゃあ、正しいのを教えてくださいよ」と言われてしまったので仕方ない。言いだしっぺの法則だ。以下、約20年前の教科書とノートをサルベージしたメモである。なお、水産系の統計学なので、例がいちいち魚だった。

観測データ

1つの観測対象について1つの観測値を得るデータ構造を一次元データと呼ぶのに対して、1つの観測対象について複数の観測値を得るデータ構造を多次元データという。漁獲した魚一匹あたりの体長を並べたデータ構造は一次元であり、体長と体重の値のペアを並べたものは二次元になる。

一次元データ構造

観測対象となる一次元データは、その質に応じて質的データ(分類尺度・順序尺度)と量的データ(離散型・連続型)に分類できる。

観測データの分類

離散型データを視覚的に表現する際によく利用されるのが棒グラフであるのに対して、連続型データを表現するときはヒストグラムを使う。

ヒストグラムの作り方

大雑把にまとめると、度数分布表を作成して各階級ごとの度数を調べ、それをヒストグラムに図示する。階級の数が多すぎると、元のデータを大きさ順に並べたものと差が無くなり、役に立たない。また、階級の数が少なすぎても情報が消えてしまう。データの数に応じて、階級の数を調整する必要がある。

度数分布表作成の手順

  1. 最大値と最小値を見つけ、最大値-最小値(これを範囲という)を計算する。
  2. 範囲を10個の階級に分けたときの1つの階級の幅、20個の階級に分けたときの1つの階級の幅を求め、その間でなるべく簡単な数字(例えば自然数)を選ぶ。これを階級の幅とする。
  3. 階級の境界値はデータの持つ単位より半単位詳しいものを用い、観測値が境界上にないようにする。
  4. データの最小値から半単位小さい方にずらした数を一番値の小さい階級の小さい方の境界とする。
  5. データの最大値が含まれる階級まで階級を作る。

練習

せっかくなので、手を動かして1つ作ってみた。

連続型データの具体例として、取りいそぎ、夕飯の食材「ラムしゃぶ」用の肉を使用した。ラムしゃぶは北海道では一般的な家庭料理であり、牛のしゃぶしゃぶ同様に薄切り肉を熱湯でしゃぶしゃぶしてからタレで頂く料理である。肉質が軟らかくてあっさりしている上に、ほとんど灰汁が出ないので調理しやすい。本州出身者には理解しがたいが、葉物野菜の他に、糸こんにゃくや麺類(ラーメンもしくはうどん)もしゃぶしゃぶする。

連続データとして、しゃぶしゃぶ用薄切り肉一切れあたりの重量を使用した。

つまり、一切れごとに小数点第一位まで重量を測定し、それを連続型データとした。一パックに入っていたのは28切れだったので、データ個数としては物足りないが、単なる練習なので良しとする。

28個の連続型データは、12.8 ,11.3 ,17.0 ,14.3 ,14.9 ,13.0 ,11.1 ,9.3 ,12.8 ,12.5 ,13.0 ,12.2 ,10.9 ,11.1 ,10.5 ,16.0 ,17.5 ,9.5 ,15.5 ,9.0 ,8.5 ,13.5 ,14.5 ,15.0 ,11.1 ,15.5 ,14.0 ,16.5(グラム)となった。最大値が17.5、最小値が8.5なので、最大値ー最小値(範囲)は8.0である(手順1)。範囲を10個の分けたときの階級の幅が0.8、20個に分けたときの幅が0.4であるので、データ数が少ないことを考慮して階級の幅は0.5とする(手順2)。一番値の小さい階級の小さい方の境界は、8.5(最小値)よりも、0.25(階級の幅の半分の値)小さい数値なので、8.25になる(手順3,手順4)。データの最大値(17.5)が含まれる階級まで、階級を作る(手順5)。

ラムしゃぶ用の肉一パックに入っていた肉一切れあたりの重量(グラム)の度数分布表

これを図示すると、下図のようになる。

ラムしゃぶ用の肉一パックに入っていた肉一切れあたりの重量(グラム)のヒストグラム

このヒストグラムを見ても、データの個数が少なすぎてほとん意味を成さないが、作り方の復習にはなった。なお、エクセルのデフォルトの機能を使ってヒストグラムを作ると下図のようになった。

【エクセル版】ラムしゃぶ用の肉一パックに入っていた肉一切れあたりの重量(グラム)のヒストグラム