関東から越してきて早や7年。大阪のほうが東京より暑い!と主張してやまない僕ですが、本当に大阪と東京で差があるのか、統計データから確認してみました。
まずは大阪のデータ。1978年からの、8月の平均気温のデータを気象庁の統計データから入手し、統計値を算出してみました(サンプル数=32)。
平均 | 28.7 |
---|---|
中央値 | 28.7 |
最頻値 | 29.4 |
標準偏差 | 0.944 |
分散 | 0.89 |
そして東京のデータ。同じく、1978年からの、8月の平均気温データの統計値です(サンプル数=32)。
平均 | 27.3 |
---|---|
中央値 | 27.2 |
最頻値 | 27.0 |
標準偏差 | 1.29 |
分散 | 1.65 |
なるほど。平均気温から判断するに、やはり大阪の方が暑いようです。これで結論にしてしまってもいいのですが、もしかしたらサンプリングしたデータが偶然偏っていて、このような結果になってしまったのかもしれません。
そこでt検定という統計手法を使ってみます。この手法を使用することで、2つの群(今回の場合は大阪の気温と東京の気温)の平均値に、本当に差があるといってよいかどうかを検定することができるそうです。
Statistics HacksのHACK#17「2つの群を比較する」にしたがって、検定を行います。*1
まずはt値を求めます。群1の平均値、標準偏差、サンプルサイズを、群2の平均値、標準偏差、サンプルサイズを
とすると、計算式は以下のとおり。
この式に当てはめて、大阪と東京の気温に関するt値を計算すると、5.08となります。サンプルサイズが60の場合、t値が2を超える場合は、有意水準0.05で統計的に有意であるといえます。(すごく大雑把にいうと、この2つの群の平均値には、差があると判断してもまあ大丈夫でしょう、ということ)
ということで、やはり大阪と東京の気温は有意な差があるようです。ちなみに湿度も調べてみたのですが、東京のほうが湿度が高いそうです(大阪の平均=66.2%、東京の平均=71.4%)。逆の印象を持っていたのでびっくりでした。印象だけでなく、実際にデータを調べてみるのも重要ですね。
*1:t検定には、前提として群が正規分布に従っていることがあったり、等分散や異分散の場合で計算方法が違ったりする様ですが、ここでは書籍の方法のみに触れます。また、僕も統計に詳しいわけではないので、記載内容が正確で無いと思いますが、ご容赦を。