統計のための数学の基礎。数式の表現
- 2017.09.02
- 統計学
加重平均
加重平均とは、観測値になんらか重みづけをして合計したものです。例:{8,4,8,1,1}という5つの観測値があるとして、この加重平均値を求めてみましょう。
8が出る確率…2/5
4が出る確率…1/5
1が出る確率…2/5
加重平均値をμ(ミュー)とすると、
μ=8*(2/5)+4*(1/5)+2*(2/5)=4.8
加重という言葉が「重み付けする」という意味ですから、確率で重みづけしているんだなと思ってもらえればOKです。
ちなみに普通の平均値(算術平均値)の場合、
(8+4+8+1+1)/5=4.4
といったようになるのは誰でもわかるところだと思います。
そうですね、加重平均値は観測値ごとの貢献度を反映させたい時によく使います。貢献度が重みなんです。だから確率でなくても、配分比率などでも加重平均値は表せます。以下はその例です。
・投資銘柄ごとの配分比率でそれぞれの収益率を加重平均する。
・税金の納入額の比率で選挙権を加重平均する。(例えばの話ですよ?)
配分比率、確率や税金の納入度などの貢献度になりそうなものならばなんでも重みづけの材料になるわけですよ。
期待値
さて、ここで期待値とは各観測値の確率で重み付けをした加重平均値です。つまり実は先ほど加重平均値として求めたμこそが期待値です。加重平均値の確率版といったところですね。
正規分布
語るに語りつくせぬ確率分布の一つです。よく使う要素のみを抜き出します。
・$$確率=\frac{1}{\sqrt{2\pi\sigma}}(\frac{-(x-\mu)}{2\sigma^2})$$
・平均値が中心となって左右対称に裾が広がっていく。
・-σ<=x<=σ の範囲に約68%の確率で観測値が現れる。
・-2σ<=x<=2σ の範囲に約95%の確率で観測値が現れる。
・テストの点数や体力測定の結果などは正規分布におおよそ従うが、ほかの自然現象などで正規分布に従うのはそこまで多くない。
正規分布とはこのような図で表される、確率の分布です。偏差値とかも思い出してくれればわかりやすいですが、平均値に多くの人が集まり、かなり高い水準か低い水準になると人数が減ってくるといった風な分布になっているのが分かると思います。そうですね、こう言われれば、そのような自然現象や社会現象は多いように思えるかもしれませんが、実際は正規分布のようなきれいな形に当てはまることはかなり少ないようです。例えば、平均値に多くの人が集まりすぎたり(尖度が大きい)またもう少し平均値より離れたところに人が集まってゆがんだ形になったり(歪度が大きい)します。そんな問題に対してより良い対処をしてくれるのがジョンソンSU分布というものですが、今回の範囲を大きくそれるのでここでは触れません。
相関係数
相関係数はある集団ともう一つの集団の「一方が上がればもう一方が上がる傾向がある」や「一方が上がればもう一方は下がる傾向がある」といった関係を表す数値です。そしてその数値で表されるものが相関関係ですが、必ずしも因果関係を示さないというのがみそですね。例えば
アイスクリームの消費量がこの数十年の間に増加しているが、地球の温度もそれに伴って上昇する傾向がある。つまりアイスクリームこそ地球温暖化の原因なのだ!
といった議論ですね。直感的におかしいな、というのはわかると思います。単純にアイスクリームの消費量は生活水準の向上や生産性の向上、さらには人口の増大による増えており、一方地球温暖化はもっと別の化石燃料の燃焼による温室効果などの原因があります。このように相関関係はただの「傾向」を示すのみなので因果関係を保証するものではありません。しかし、因果関係があるならば相関関係は程度の大小はあれど存在するものです。つまり因果関係があることは相関関係があることの十分条件であるが、必要条件ではないということですよ。
相関係数の式:
$$相関係数=\frac{共分散}{標準偏差x*標準偏差y}$$
ちなみにスマートに文字式で表すと、
$$\rho=\frac{Cov(x,y)}{\sigma_x*\sigma_y}$$
という風になります。相関係数がρ、共分散はCov(x,y)のように表されます。ちなみにCovはCovarianceの略ですね。また、ここで
ρ>0⇒正の相関関係がある。(どちらか一方が上がればもう一方も上がる傾向がある。)
ρ<0⇒負の相関関係がある。(どちらか一方が下がればもう一方も下がる傾向がある。)
といった関係を覚えておきましょう。さて、最後に共分散の式の確認をしておきましょう。
$$Cov(x,y)=\frac{\sum_{i=1}^n (x_{i}-\overline{x})(y_{i}-\overline{y})}{n}$$
となります。これに関しては相関係数の算出以外に特に使われることも多くありませんので共分散の意味の説明などはしませんが、式はこんなものだというのは知っておきましょう。
まとめ
・Σは足し算。例えば$$\sum_{i=1}^5 2x_i$$は「2xの式にx=1からx=5までの数字を代入して、足し算をしてください。」という意味
・偏差=観測値-平均値
・$$分散=\frac{(偏差_1+偏差_2+…+偏差_n)^2}{データ数}$$
・$$標準偏差={\sqrt{分散}}$$
・加重平均とは、観測値になんらか重みづけをして合計したもの。
・期待値とは各観測値の加重平均値。
・正規分布の図
・テストの点数や体力測定の結果などは正規分布におおよそ従うが、ほかの自然現象などで正規分布に従うのはそこまで多くない。
・$$相関係数=\frac{共分散}{標準偏差x*標準偏差y}$$
・$$Cov(x,y)=\frac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{n}$$
これで統計に必要最低限の知識はばっちりです。数学というよりもむしろ算数っぽかったと思います。しかもそれぞれの数式に意味があって特に暗記するようなものでもありません。また、最初の方は覚えられないようなものかもしれませんが、まあ数式なんて覚える必要はありません。ただ、相関係数や標準偏差の意味などは逆に覚えなければいけない重要な要素なので頭に入れてください。数式はいわば意味を記号化して覚えやすくするための手助けのようなものでもあります。それらも利用して今回は知識をつけてみてください。なにより数式はExcelで出せますが、意味は自分で分かってた方が作業が速くなりますから!
固定ページ: 1 2