分散分析と多重比較 js-STAR編

NO IMAGE

さてさて、今回は分散分析という統計手法を紹介します。分散分析というくらいですから、分散を使って何等かの分析をしてくれるものなんでしょう。ということでさっそく見ていきましょう。 

分散分析とは何を分析するものなのか

分散分析なんてよく分からない名前をしていますが、やっていることは「3つ以上のグループ間に統計的に有意な差が存在するか否か」を判断しているというだけなのです。例えばこんな例を考えてみましょう 

 

あるところにそれはもうよく食べるぽっちゃり三人兄弟がおったそうな。 

三人とも食事中はご機嫌なのですが、食事が終わるといつも同じことでケンカをするのです。 

 

ぽちゃまろ「しっかしお前らってほんっとにデブだよなw太郎(ふとろう)なんか朝、昼前、昼、おやつ、晩御飯で一日5食だしww」 

太郎(ふとろう)「うるさいぞ!ぽちゃまろお兄さんだってダイエット中とかいっておやつにハヤシライス食ってるじゃないか!」 

ぽちゃまろ「ブヒヒwばかか、お前は。野菜を食べてると、いくら食べても太らないんだよ!」 

お肉ボーイ「フッ、愚かな。カロリーとってたらおんなじだということが分からないのか?くそデブ野郎。」 

ぽちゃまろ「てめえふっざけんな!兄貴に向かってなんだその態度は。水分補給に練乳飲んでるやつにそんなこと言われたくねえんだよ!」 

お肉ボーイくくく、、、これはカロリーハーフの練乳なのさ。すなわちヘルシー!!君は字も読めないのかい? 

 

ケンカが絶えない三兄弟ですが、この不毛な議論に決着をつけるにはやはり統計の力を借りて、だれがカロリーを一番摂取しているのか決着をつけるしかありません!!(強引)ここで、三人のここ一か月の摂取カロリーを一日ごとに記録したデータを見てみましょう。

三人の摂取カロリーだ

三人の摂取カロリーだ

なるほど、見た感じ、ぽちゃ麿が一番大きい摂取カロリーのようですが、ほかの二人もそうそうたる食べっぷりです。いわば五十歩百歩って感じですね。こんな時、まずは「差が存在するのかどうか」という存在問題は非常に大事なところではないでしょうか。差がないのに検定なんてする必要がありませんからね(笑)そこで分散分析は各データ間において差があるのかどうかを調べます。  

分散分析のやり方

js-STARという統計のサイトを使用します。http://www.kisnet.or.jp/nappa/software/star/ 

Excelでもできないことはないのですが、少々分かりにくいです。さらに、できることが限られているので、このサイトを使いましょう。もっと言えば、このサイト、すごく使いやすいです。かなりいろいろな統計処理を手早く出来ますので、使わない手はないでしょう! 

手順① 被験者間計画か被験者内計画かを判断する。

被験者間計画であるか被験者内計画であるかという判断は統計において非常に大事になってきます。被験者間計画とは、要因事に別の被験者を割り当てた計画のことです。そして、被験者内計画とは、一つの要因に対して、同じ被験者のデータを用いて比較する計画です。ここで、要因についての少し説明します。

統計の検定において、要因とは、僕たちが調べたい差のことです。例えば、今回ならば「三人の摂取カロリーの差」でしたよね。つまり今回は一要因であるということです。そしてこの要因において三人の被験者のデータを採ったので被験者間計画であるといえます。そう、つまりこの計画は一要因被験者間計画であります。

では、以下のデータは何要因の何計画でしょうか。

Q.筋トレをかなりしている人と筋トレをそこそこしている人と筋トレを全くしていない人の間には体温の違いはあるのか。また男女間での違いはあるのか。A大学で実験参加者男女それぞれ30名ずつ(その中で筋トレをかなりしている人は男女ともに10名ずつ、筋トレをそこそこしている人も男女ともに10名ずつだった)を募ってデータを採った。

A. 「二要因被験者間計画:筋トレをしてるかしていないかの差と男女の差」を調べたいので二要因です。また実験参加者は二つの要因において複数いるので、被験者間計画であると考えられます。

Q. あるアニオタの友達がひんぬー好きを謳っていたとします。しかし、それを疑ったあなたは「本当はお胸の大きいお方がお好きなんでしょう?無理をなさるのはよくないでござるよ。」と言ってしまい、それにむきになった相手とケンカになってしまいました。そこで決着をつけるためにあなたは、そのアニオタにモデルを見せて、お胸のささやかなお方をチラ見した回数とお胸の大きいお方をチラ見した回数、そして男性をチラ見した回数を記録しました。さらに、アニメキャラと現実キャラで趣向が異なる可能性もあるため、アニメキャラのモデルの場合も記録しました。

A. 「二要因被験者内計画:この場合、被験者はそのアニオタ一人のみなので、要因事の人数もやはり一人であり被験者内計画といえるでしょう。そして、お胸のサイズとアニメキャラか現実の人物かの二つの要因の差を見たいので二要因計画であるともいえるでしょう。」

手順② 何要因何計画かが分かればその名前の分析のページへジャンプする。

js star As計画
js star As計画

上の画像ようなページへ飛びましょう。そして、このように要因と水準を決めます。要因名は任意の名前、水準数は三つのデータの塊を調べるわけですから、3水準。そして参加者数なんて書いてますけど、これはデータ数でオッケーです。

手順③ データを代入する。

ここで空白内に数値をいちいち入れてもよいのですが、それは面倒くさいので、データをコピーアンドペーストしましょう。コピペするときは

js star代入場所
js star 代入場所

この細長い長方形の部分をクリックして、そこにペーストします。ペーストした後は閉じてくださいね。

!注意 代入の読み込まれ方向は「左から右へ」ですよ

代入読み込まれ方
代入読み込まれ方

上に示したようにデータが読み込まれますので、データはそのような順序に直してから代入しましょう。

多重比較を知る

また、計算ボタンを押す前に、Holm法とかBonferroni法とか書いてるところを見ましょう。これらは「分散分析で差がみられた場合にどの水準感に差が出たのかを特定する計算をしてくれる方法」です。多重比較なんて名前がついてます。これらの詳しい説明は避けますが、そうですね、認識しておくことがあるとしたら、ボンフェローニ法は有意差の判定がすっごく厳しい方法、ホルム法はボンフェローニ法よりも緩い方法、LSD法はかなり緩い方法(差が出てないのに差が出てると表示される可能性が高い)、HSD法は緩くはないけど、水準感のデータ数が同じじゃないと使えない方法といった感じですね。これらの方法の目指すところは「いかに正確に(誤差なく)差の検定をするか」という問題にあります。分散分析というのは、t検定を何回もやっているようなものでありまして、例えば、5%水準の有意差が出ていた場合、何回もt検定をやるうちにその5%分の誤差が蓄積していくわけですよ。それを考えて、有意差の判定を厳しくしたりするのです。

手順④ 計算ボタンをポチっと押す。

ポチツ それだけ。と言いたいところですが、計算結果を見てみないと有意差の判断ができませんね。とりあえず計算結果を見てみましょう。

分散分析と多重比較の結果
分散分析と多重比較の結果

英語で書かれてますが、大事なところはいたってわかりやすいので問題ないでしょう。すなわちお花(アスタリスク)二つが並んでるところが有意差を表しており、p<.01ということなので、1%水準の有意差が三つのデータ間のどこかにありましたということがAnalysis of Variance (分散分析)のところで分かります。そして、Multiple Comparisons by HSD とかby Bonferroniとかがつまりは多重比較ですよね。A1とかA2とかは単純に水準1、水準2という意味です。つまり今回はA1はぽちゃまろの摂取カロリー、A2は太郎の摂取カロリー、A3はお肉ボーイの摂取カロリーを意味します。なんと今回は幸いなことにHSD法でもBonferroni法でも同じように差がでていますねぇ。すなわち、ぽちゃまろの摂取カロリーは太郎よりも多く、太郎とお肉ボーイは同程度にカロリーを摂取しているということですね。もちろんぽちゃまろの摂取カロリーはお肉ボーイよりも高いということもわかりますね。

分散分析で差がなかった場合

まあ、特に見出しをつけるほどのことでもないのですが、分散分析を行った後に有意差がどのデータ間にも見られなかった場合、つまり今回の例で「ぽちゃまろと太郎間」、「ぽちゃまろとお肉ボーイ間」、「太郎とお肉ボーイ間」のすべてでn.s表示だった場合には三人の摂取カロリーに統計的に有意な差が無かったとして、このケンカも決着がつくことでしょう…! とにかく差が無ければ、「統計的に有意な差はみられなかった」と記述、その後の考察をすることで完了でしょう。 

 

 

【まとめ】

こんな感じで分散分析の説明は終わりです!分散分析をするための知識はだいたいここに詰め込んだので、ぜひ参考にしてください。

ちなみに、統計結果が分かったらその次は考察をするのが研究の定石です。例えば、今回のぽっちゃり三兄弟のぽちゃまろ兄さんはおやつにハヤシライスを食べていたことが原因であろう。また弟二人の摂取カロリー量に差が無かった原因としては… といった風に記述していきます。しっかりと「差が出た理由、差が出なかった理由」の両方についての考察を加えましょう。

以上、分散分析の説明を終わります。