第6回 統計学 重回帰分析

始めに

こんにちは。AIシステム技術部　K山です。
前回は、推定の手法を紹介しました。

もともとは、「点推定」のみを紹介する予定でしたが、
調べたところ「区間推定」という手法のほうが、結果の信頼度が高いことに気がついたため、「点推定」「区間推定」の両方を紹介しました。

前回のおさらい

・点推定では、母集団の平均 = 抽出したデータの平均になるだろうと推測する
・区間推定では、100回抽出したうちの95回含まれるである母集団の平均区間を推測する
・点推定は抽出するデータによって平均が異なる場合があるため信頼性に欠ける
　反対に、区間推定では標準誤差と95%信頼区間を使用することにより、ほとんど正確な推測ができる

今回は、題名の通り「重回帰分析」をやりたいと思います。

「重回帰分析」とは、予測をする際に利用される手法です。

そもそも統計での「予測」とは

予測と推定は、なんだか同じような意味合いな気がしますよね。

ですが少し異なります。
推定は、今あるデータの一部を抽出して全体の特徴を推測することで、
予測は、今あるデータからまだ起こっていない事象を予測することです。

利用例として、わかりやすいものでいうと天気予報や、売上予測などがあります。
天気予報のほうが、生活に身近なものだと思います。

予報では、天気・風・降水確率・気温・・・などの情報がわかりますよね。

実は、とても膨大な過去データから、同じようなパターンを読み取り、
「温度や湿度がこのぐらいであれば天気はこう変化する」などの様に予測しています。

降水確率に関しては「%」で表示されますよね。
「雨が降る確率なのかな」と考えがちですがそうではなく、
１mm以上の雨が100回中〇〇(%)回ある、ということなんです！

例えば、降水確率10%だった場合、100回中 10回は雨が降るので、「10%だから降らない」
とも限らないのです。

このように、統計学の予測は、身近なものでも利用されています。

重回帰分析とは

「重回帰分析」の「回帰分析」とは、
結果を示す数値（目的変数）とその要因となる数値（説明変数）の関係を調べる手法です。

キーワード

目的変数・・・説明変数によって起こる結果。
説明変数・・・目的変数の要因となるもの。

説明変数が複数の場合は、「重回帰分析」といい、1つの場合は、「単回帰分析」という手法になります。

目的変数は結果のことなので理解できますが、
説明変数に関しては、このキーワード説明のみでは分かりにくいですね・・・

例えば、
アイス屋さんの売上予想をしたい場合、
まずどんな要因が売上を左右しているのか？という点を考えます。

商品の種類・価格だけでなく、
「人通りの少ない場所に店があることにより客の入りが悪い」という立地的な問題や、
「冬は季節外れなので客があまり来ない」などの気温も、売上に関係がありそうですよね。

この販売量・種類・立地・気温が説明変数（要因）にあたるのです。

重回帰分析では、これらの要因と結果との関係性が分かれば、
起こりうる先の結果を予測することができるのです。

では、これらを踏まえたうえで、実際に重回帰分析をやってみましょう。

重回帰分析の手順

今回は、県内のラーメン店の売上予想をすると仮定しましょう。

まず初めに、影響を及ぼしそうな要因を考えます。

下記の点ぐらいでしょうか。

・最寄駅からの徒歩時間
・座席数
・期間限定商品の有無
・ライバル店との距離
・都市の人口
・道の通行量

ではここから、説明変数を絞っていきます。

なぜ絞る必要があるのでしょうか？

説明変数が多いと・・・

　・その分データが必要になる
　・わかりにくい

という点があるためです。

先ほど挙げた説明変数をすべて使用することになったら、
それらすべてのデータを集めなくていけません。

また、実際に集めて分析したとして、
複数の説明変数が結果に影響していたら、
「売上を伸ばすには、人が多いところ且つ最寄り駅から近いところに移転して、店も大きくして客がたくさん入れるようにしましょう、またライバル店が多いところも避け、期間限定品も考案して・・・」
ということになり結局なにが重要なのかが分かりにくいので、絞って簡潔にした方が良いですよね。

ということで、説明変数は以下になります。