統計のための数学の基礎。数式の表現

NO IMAGE

今回は統計に必要な数学の知識をガシガシとつけていきましょう。数学とはいっても特に難しいものはありませんし、むしろわかりやすいような話なので気楽に聞いてください。
また、目次とまとめのリンクを置いておくので説明を読むのが面倒な時は飛んでもらって構いません。数式のまとめ

Σについて。

あまたの高校生はこのΣに数学に対するトラウマを植え付けられたことでしょう。文字が出てきた瞬間数学は一気に難しく見えるかもしれませんが、そんなことはありません。文字にはそれに対応する意味があります。その意味さえ覚えてしまえば一文字くらいで表せてめっちゃ便利です。まあ、「マジ?」って聞くのを「マ?」って聞いてるみたいなものですよ。僕はそんな聞き方する奴は嫌いですけどね(笑)で、Σの意味は「足し算」です。シグマ内の数式を足し算してくださいねってことです。

例:$$\sum_{i=1}^5 2x_i=2*1+2*2+2*3+2*4+2*5=60$$

まずΣの上についてるちっちゃい5を見てください。これは、x=5まで代入してください。ということです。また、下についてるちっちゃい“i=1”を見てください。これはx=1から代入して計算してください、ということです。これらを踏まえると、$$\sum_{i=1}^5 2x_i$$は2xの式にx=1からx=5までの数字を代入して、足し算をしてください。」という意味なんですね。例の式を見るとそうなっていることが確認できます。自分で数式とか書くときもΣを使えるとめっちゃ便利です。

 

偏差

偏差とは、ある値がどれだけ平均値と離れているのかという差のことで、

偏差=観測値-平均値

の式で表されます。偏差、「偏りを表す差」。なるほど、平均値から離れれば偏った値ということでしょうか。そういえば偏差値というものもありますねえ。ちなみにこの偏差値の式は$$\frac{偏差}{標準偏差}+50$$で表されます。日本ではちょっと式がアレンジされているらしいですけど、まあ自分で偏差値を概算したいのならこれで十分です。この+50を付ける理由は単純ですよ。単に見栄えが良くなるからです(笑)偏差値5よりも偏差値55と書いた方がカッコいい感じがありますもんね。

分散

集めたデータがどれだけバラついているのかを表す指標です。

$$分散=\frac{(偏差_{1}+偏差_{2}+…+偏差_{n})^2}{データ数}$$

の式で表されます。ちなみに$$偏差_{1}$$の1は「一番目の偏差」を表すための1です。さっきのΣの下部にも出現したこの小文字ですが、「○番目の」という意味を表すときに使うものなのです。

観測値とは単純に「集めたデータのうちの数値の一つ」という意味です。たとえば集めたデータが

{2,4,1,3,5}

の五つだったとしたら、$$観測値_{1}$$は2、$$観測値_{2}$$は4といった要領です。それを踏まえて、観測値-平均値、つまり偏差でデータのばらつきを表すというのは妥当であると考えられると思います。なぜなら例えば

{4,2,4,4,3,4,4,5}

というデータの平均値は3.75。

{9,5,1,0,0,8,2,5}

というデータの平均値も同様に3.75ですが、明らかにこちらのデータの方がバラついていますよね?このように、平均値からの各観測値までの絶対値が大きければ、ばらつきも大きくなるのです。そして観測値と平均値の差を平均することで、値をまとめます。「ばらつき」を表すために偏差をデータ数で平均することまではごく自然なことで妥当だと言えるでしょう。しかし、2乗はどうでしょう。なぜ、観測値と平均値の差を2乗する必要があるのでしょうか。これも実際に値を見てみると分かりやすいことです。「平均する」という数学的行為は全てのデータを足してそれをデータ数で割るのです。しかし、「観測値-平均値」という式ならばマイナスの値も出てしまいます。これを全て足し合わせるとどうでしょう。先ほどのこのデータ{9,5,1,0,0,8,2,5}

で見てみましょう。

(9-3.75)+(5-3.75)+(1-3.75)+(0-3.75)+(0-3.75)+(8-3.75)+(2-3.75)+(5-3.75)

=5.25+1.25+(-2.75)+(-3.75)+(-3.75)+4.25+(-1.75)+1.25

=0

ということで0になっちゃうんですよね。嘘だと思ったら適当に自分で作った数字の集合で試してみてください。本当に0になりますよ!笑

何が原因かと言われれば、やっぱこの-の値なわけですよ。つまりこの-を消せばいい!そう思い至った先人たちは2乗することにしたんですね。どんな実数も2乗すれば正の数になりますからね。まあ取ってきたデータに虚数があれば別の話ですけどね。彼女の昨日の体重は12iキログラムだったとかね(笑)

ちなみに分散はよくσ^2で表されます。

 

標準偏差

標準偏差は分散と同様に、データがどれだけバラついているのかを表します。

$$標準偏差={\sqrt{分散}}$$

という式で表されます。なぜルートをつけるのか。その理由は「見栄えが良いし、小さい値の方が扱いやすいから」です。意外と単純な理由が多いでしょ?でも結構そんなもんなんですよ、実生活に応用したりするものは。やはり応用するものは人目にさらされやすいものでもあるので、扱いやすいならより良いし、それが見栄えが良ければ尚良しなんですよ。

ちなみに標準偏差はσで表されます。

ページ: 1 2