WEBDESIGNDAY

WEBDESIGNDAY

第5回 統計学 点推定

統計学
始めに

こんにちは。AIシステム技術部 K山です。
前回は、検定の手法である「分散分析」と「多重比較法」を紹介しました。
分散分析では、関数を使用して一つ一つ値をだすやり方と、Excelの分析機能を使うやり方の2つのやり方で分析しましたね。

 

前回のおさらい

・分散分析には1元配置と2元配置があり、2元配置の場合は分類が二つあるため、
 Aの分類で見た場合、Bの分類で見た場合のP値と、ABの両方の交互作用があるかどうかが観点になる
・2元配置には、同じデータから複数回データをとった場合と1回のみの場合に分けられ、
 同じものからとったデータである場合は、その条件にあったやり方を選ぶ必要がある
・分散分析を行った後、多重比較をすることで、データ群のどこに差があるのかを見つけることができるが、データ群の数などで手法を使い分けないと正確な結果が得られない

 

 

今回は、題名の通り「点推定」をやりたいと思います。

 

 

 

 

 

 

 

 

 

 

 

実は・・・予定通りでしたら、「主成分分析」のはずなのですが、
実際に「主成分分析」をやってみたところ、
計算が複雑ですし、さらにそれをグラフ化するというのも難しかったです。

 

まだ理解できるレベルに達していないという判断をし、
「主成分分析」は統計学の最後に再チャレンジします・・・

 

それでは、今回は「点推定」をやりたいと思います。

 

推定とは

第2回ブログにてご説明しましたが、
推定とは、一部のデータを利用して、手に入れることができなかった残りのデータやそれらの性質を推測する手法です。

 

簡単に言うと、母集団(全データ)の平均と、母集団から抜き取ったデータの平均は等しいとすることです。

 

詳しくはこちらで説明しています

 

 

ちなみに、今回は点推定という手法を紹介しますが、ほかにも区間推定というものがあるそうです。

これらは、以下のような違いがあります。

 

 

 

 

 

 

点推定は、一点の値を求めるのに対し、
区間推定では、ここからここまでの間に求めたい値があるだろう、という結果になります。

 

 

 

とはいえ、母集団の平均と、抜き取った一部のデータの平均は本当に同じになるのでしょうか?
そんなにうまくいくのでしょうか?
まだ区間推定のほうが信頼できそうです・・・

 

 

 

 

調べたところ、「標準誤差」という用語があるそうです。

 

キーワード

標準誤差・・・推定量の精度のこと。小さければ精度が高いといえる。

 

 

推定した結果がどのくらいの正確なのか、こちらも計算で算出するのですね。

つまり、母集団と抜き出したデータの性質は、「絶対に等しい」というわけではないですね!

 

 

 

大まかにまとめると、以下の順序ですね。
母集団から一部のデータを抜き出す → 平均を求める → 標準誤差を求める

 

点推定の手順

それでは、さっそく点推定をやってみましょう。

 

 

こちらは、国内にある寿司屋の店舗数データから、ランダムに抽出した表になります。

 

 

ここで、例えば関東のみを抽出する、など同じ地域をまとめて取り出すと偏りができてしまうので、あくまでランダムでなければいけません。

 

 

早速、平均点を算出しました。

 

 

母集団から抜き取ったデータの平均(115.00)と、母数の平均は等しいだろうということですね!

 

 

 

それでは、標準誤差を計算してみましょう。

 

 

と、言いたいところですが・・・

標準誤差を計算した後は、どうするのでしょうか?
○○.〇のように数値にしても、その値が一般的なのか明らかに誤差が大きいのか、判断が難しいと思います・・・

 

 

 

調べたところ、標準誤差を使って「95%信頼区間」というものを計算するようです。

 

キーワード

95%信頼区間・・・95%の確率で母平均が含まれる区間のこと

 

 

 

点推定は、ピンポイントで値を推測しますよね。
ですが、こちらは、「母平均が含まれる区間」ということなので・・・

 

 

つまり、これは区間推定になるのではないでしょうか!?

 

 

よくよく調べてみると、
点推定は、抽出するデータの値や抽出数によって平均は異なるので、母集団の平均とは一致しないことがある、とのこと。

 

やはり、懸念していた通り、区間推定のほうが母集団の平均と一致する確率が高そうですね。

 

 

 

それでは、区間推定もやってみたいと思います!

 

 

区間推定の手順

まずは、標準誤差を計算しましょう。

 

標準誤差の求め方は以下です。

 

標準誤差 = 標準偏差 ÷ データ数の平方根

 

 

 

標準偏差の計算方法は、「第3回 統計学 検定(前編)」に掲載しています。

では、標準誤差に必要な材料から算出しましょう。

 

 

 

分散、標準偏差、データ数の平方根をだしました。

 

 

分散は、標準偏差を求めるにあたり必要なので記載してます!

 

 

 

 

標準誤差も算出しました!

 

 

 

では、95%信頼区間を計算しましょう

 

95%信頼区間 = 標本平均 ± 標準誤差 × 1.96

 

 

標本とは、母集団から抽出したデータのことです。

実際の計算式は、こちらになります。

①115.00 – 5.54 × 1.96
②115.00 + 5.54 × 1.96

 

 

計算した結果は以下です。

 

 

 

計算の結果からわかることは、
100回無作為にデータを抽出したら、
そのうちの95回は、104.15 から 125.85 の間に母平均が含まれている
ということです。

総論

今回、予定では「要約」の手法である「主成分分析」を紹介する予定でしたが、
まず分析の計算でつまずいてしまいました。

 

調べたところ、さらにそこからグラフにするようなので、時間をかけて計算が理解できたとしても、グラフ化の際に難しくて心が折れてしまいそうだったので、
「主成分分析」は統計の最終回に再チャレンジをすることにいたしました。

 

 

そして、「推定」の手法として紹介する予定だった「点推定」を調べてみたところ、
もう一つ有名な「区間推定」という手法のほうが、推定結果が信頼できるのではないか?と思い、そちらもやってみることにしました。

 

実際に比べてみると、
「点推定」ではピンポイントで母平均を推測しますが、抽出するデータによっては平均が異なる場合があるというデメリットに対し、
「区間推定」では、名前の通り、母平均が含まれる区間をただ推測するだけでなく、
100回抽出するうちの95回は含まれるだろう区間がわかるのです。

 

 

つまり、推定においては、「区間推定」をお勧めします!

 

 

次回は、「予測」の手法を紹介します。
・重回帰分析