回帰分析の具体例と方法【統計学】

NO IMAGE

みなさん、こんにちは。

今回は回帰分析の具体例と使用方法について学んでいきたいと思います。

回帰分析の種類と意義

回帰分析とは、

データ間の因果関係が「存在するのか」、「存在するならどの程度か」、「どの程度の完全な関係か」を調べるための分析方法

です。また、回帰分析は単回帰分析と重回帰分析に分けられます。単回帰分析は因果関係の原因が一つだと思われるとき、重回帰分析は因果関係の原因が複数あると思われるときにそれぞれ使われます。今回は、回帰分析とはこのようなものだということを理解してもらうために、単回帰分析の説明をしていきます。

回帰分析で重要なこと

回帰分析において、注意するべき点は、たくさんあります。例えば、「要因をいくつ設定するか」とか「要因間において相関が存在しないか」とかです。これらはまた重回帰分析において説明します。どれも回帰分析を妥当なものにするために重要なことですが、最も重要な点は「論理的に無理のない因果関係を仮定する」ということです。回帰分析は非常に便利なツールですが、しょせんはただのツールです。そのデータ間に因果関係があるのかどうかは調べることができても、どんな因果関係がありうるのかを想定するのは我々人間です。また、例えばどこかのデブが「私が太っているのは安倍政権が悪いせいだ!!!」なんて主張したとします。そして取得したデータがたまたまうまい具合に因果関係を出してしまうデータだった場合、「そこに因果関係が存在する」と結論を出してしまいかねません。しかしながらデブなことと安倍政権の政策とはあまり関係がなさそうですよね。そういったことを防ぐためにも、実験者が論理的な因果関係を仮定することが初めに必要になります。これこそが回帰分析において最も重要なこと

単回帰分析の具体例

単回帰分析が使われる時というのは、意味通り、「そのデータを動かす要因が1つだけ」だと想像されるときです。具体例を見ることで、回帰分析がどのようなものなのか、どんな手順で行う事ができるのかを見ていきましょう。

回帰分析の手順

①調べたい現象の原因が「何か」、「いくつか」を決定します。

②原因として定めたものを数量化してデータを取得、または生成します。

③手に入れたデータを統計ソフトに入力し、回帰分析を行います。

④分析の結果から「因果関係が存在したか」、「どの程度の強さの因果関係があるか」、「どの程度その因果関係モデルが信頼できるか」を判定します。

といった感じです。この手順で行っていくので、早速具体例を見ていきましょう。

例えば、ファイナンスの分野ではCAPMなどがその最たる例でしょう。

具体例① CAPM

CAPMの説明に関しては、心理学部のための経済用語を参照してみてください。ここでももう一度説明しますが、その企業のリスクプレミアムの決定要因は市場のリスクプレミアムであるという理論です。$$r_p=その企業の期待リターン,r_m=市場の期待リターン,r_f=リスクフリーレート$$ $$r_p-r_f=(r_m-r_f)β$$となります。これが単回帰分析と何の関係があるのかというと、単回帰分析によって、このβの部分を求めるのです。抽象的な話をすると、単回帰分析は$$y=ax+b$$という線形の式の傾きaを求めるための分析方法なのです。しつこいかもしれませんが、もっと身近な例で具体化してみましょう。このCAPMを検証するためにはとてつもない量のサンプル数が必要になるので、別の記事にて改めて紹介します。

具体例② 体重の増加量

例えば体重の増加量なども単回帰分析で捉えられる事の一つではないでしょうか。普通何をしたら体重は増加するでしょうか?

 

そう、食べたら体重が増えるんですよね。

そのため体重の増加量と食事量との間には因果関係が存在すると仮定できます。この仮説を検証するために回帰分析を行ってみましょう。

サンプルとして以下のデータを提示します。

体重(前月比) 摂取カロリー前月差(月) 日数
1 0.4 1550 31
2 0.5 4480 28
3 -0.2 -2480 31
4 1.2 6000 30
5 -0.6 -620 31
6 1 1500 30
7 0.4 3720 31
8 -0.3 155 31
9 0.1 480 30
10 1.9 7781 31
11 0.5 3000 30
12 0.3 3224 31

さて、このデータセットから回帰分析を行っていきましょう。回帰分析において指定すべきなのはy=ax+b(aは傾き、bは切片)という線形の式において、xとyの部分です。すなわち、xは独立変数、yは従属変数というわけです。この独立変数と従属変数が今回はそれぞれ摂取カロリー前月差、体重(前月比)なわけです。実際にデータを分析することでイメージを深めていきましょう。

回帰分析
データ分析→回帰分析→y範囲に体重、x範囲に摂取カロリー前月差を入力。

キャプションにも書いている通り従属変数である変数yが今回は体重であり、独立変数である変数xが今回は摂取カロリー前月差です。

つまりこれを式で表すと、$$y(体重)=a×x(摂取カロリー前月差)+b$$となるわけです。ちなみにこれはExcelによる分析ですが、サンプル数が13個までしか選べないという制約があるので、RやSPSSを使用して回帰分析を行うことが普通です。あと、「有意水準」の95%というのは、95%の確率で傾き(今回はa)が0でないことを検定しろ、という指示を表します。これにはt検定が使用されています。t検定とは

ちなみにこのt検定によって、0と有意な差が傾きaになかった場合、このモデルは従属変数を説明するためには有効なモデルではないことが分かりますそのためこのt検定は必ずしてください。

さて、注意点も述べたところで結果を見てみましょうか。

 

回帰分析結果
回帰分析の結果

まず見るべき点は

 

①線形式の当てはまりの良さを表す「R^2(決定係数)」

決定係数とは、統計ソフトが作成した回帰式がどの程度実際のデータとのずれがないかを調べることができます。この決定係数は$$R^2=SD^2$$で表すことができます。(SDは相関係数)。そのため$$0≦R^2≦1$$の値をとり、1に近づくほど、モデルの当てはまり度が高いと判断します。

②線形式の傾き(どれだけ独立変数が従属変数に影響を与えるか)を表す、「係数」

真ん中のあたりにある、切片とか摂取カロリー前月差とか書いてる部分を見てください。重要なのは、摂取カロリー前月差の係数です。これが今回は0.000203となっています。これはつまり、「摂取カロリー前月差が1kcal変化するごとに、0.000203kg体重が変化するぞ~」という意味です。

③傾きがゼロでないことを確認するためのt値、もしくはP値

②で見た部分のtの部分を見てください。t値の絶対値が下限95%および、上限95%に対して大きければ②において算出された線形式の傾きはゼロではないことが示されたということです。なお、下限95%と上限95%に対してこの絶対値が大きければ10%の確率でしか傾きがゼロになることがないぞ、という意味です。つまりt検定の記事でもお話したように、有意差が10%であるといえます。これを5%水準で有意であると判断したければ、下限97.5%、上限97.5%に対してt値が大きければ差が存在するといえるでしょう。

また、P値に関してはもっと単純な見方ができます。最初に設定した優位水準が今回5%でした。P値はこの5%、つまり0.05を下回った場合に有意水準5%で有意な差があったといえます。やはりこのP値を見ることがおすすめですね。

 

です。下のほうに残差出力の項目がありますが、残差はこの回帰式にどの程度ノイズ(モデルと無関係な邪魔な値)が存在するかを調べるためのものです。この残差については詳しくほかの記事で書いていきます。

回帰分析のまとめ

今回は、単回帰分析について学習していきました。まとめとして回帰分析のエッセンスを以下に書きます。

この記事のポイント!
  • 回帰分析はデータ間の因果関係を調べる検定
  • 回帰分析において必要なことは妥当な因果関係を持つモデルを仮定すること
  • 回帰分析後に見るべき数値は、t値、回帰式の係数、決定係数

今回は原因を一つしか仮定しない回帰分析でしたが、次回は複数仮定する重回帰分析に関する記事を書いていきます。

それでは