教育の理想を求めて
統計の枠組み
確率・統計を難しくしてしまっているのは、出鱈目な教育が横行しているからである。
第一に、統計と確率の働きや目的の違いが不明瞭だという事である。第二に、一般に使われている分布と確率分布の意味の区分が不明瞭だという事である。第三に、正規分布に対する正しい認識をせずに、正規分布を必要以上に重視している事である。
確率・統計の枠組みから組み立てなおす必要がある。
確率・統計は、合目的的な事象である。
確率・統計は、合目的的な事象であるから、目的に応じた枠組みが必要となる。
確率・統計の目的は、意思決定のための裏付け、根拠を与える事にある。
将来を予測したり、法則を仮定したり、選別をする際、何らかの裏付けや根拠を示す必要がある。その裏付けや根拠を保証するのが確率や統計の目的である。
確率や統計で重要となるのは、アルゴリズムであり、過程である。
確率や統計を成立させるための前提は、母集団の推定である。つまり、確率や統計の当座の目的は母集団の推定にある。
ただ、母集団の意味が統計と確率では、明確に違う。
統計上の母集団は、何らかの調査や実験に基づく実際的、実体的な集合である。それに対して確率における母集団は仮定に基づいている。
確率は、確率分布を想定することによって成り立っている。逆にいえば、確率分布を想定となければ成り立たないのである。
基本的に、確率の計算ができるのは、規則性、反復性、再現性がある、即ち、規則性があって繰り返して同じ、あるいは類似した事象が起こる、そして、同じ事象を再現できる事が将来起こる可能性を計算することが確率なのである。
これが確率の前提となる。
そして、確率は生起するであろうかとをすべて予測できることが成立条件でもある。
生起する可能性がある事の全ての分布が想定されていなければ、確率は成り立たない事を意味する。そのために、確率分布は想定されるのである。
確率分布はあくまでも想定であるが、確率分布は確率を制約することでもある。
確率や統計の目的は、将来を予測したり、法則を仮定したり、物事を選別したりする事であるが、この目的を実現するためには、いくつかの段階を経なければならない。
まず事実を正しく認識し、その背後にある全体を把握して、そこにある法則性や規則性を割り出して予測や選別、即ち、意思決定の根拠とする。これらの段階ごとに必要とされる母集団が変化する。我々は、与えられた情報に基づいて何を明らかにしようとしているのか、分析しようとしているのかによって根拠となる母集団も変えていく必要がある。
統計上の母集団というのは、あくまでも、調査や実験に基づく実体のある集合を指す。つまり、現実である。実際の数字に基づいて対象を分析したり、因果関係を取り扱うのが記述統計である。
統計によって導き出された法則や因果関係を参考にして将来生起する事象を予測するのが確率である。
故に、確率分布で前提となるのが「大数の法則」である。
正規分布というのは、確率分布の基準となる分布である。
日本語で正規分布と訳されている事が誤解の原因にもなっている。正規分布の正規は、英語では、normalとされる。normalという意味には、正規という以外に、標準の、規定の、正常の、常態の、一般並みの、平均の、正常な発達をしている、垂直のという意味がある。
正規分布本来の役割は、確率分布の母集団を推定する為に基準を提供する事にある。
確率分布を想定する際、平均と分散がカギを握る。その平均と分散を基にして分布を想定する際、正規分布を基にすると都合がいいのである。
正規分布は、あくまでも確率分布である。正規分布になる現象というのは一般には稀である。滅多にない。
ところが記述統計でいう分布と確率分布との区分を付けずに、一般の現象に正規分布が多くあるとしている教科書すらある。そして、いきなりサイコロの話になる。これでは、初心者は、記述統計にあける分布と確率分布との区別がつかなくなる。それが確率や統計を一般にわかりにくくしている最大の原因である。
確率・統計で最終的に要求されるのは、分析結果の信憑性を保証する事である。その為に検定が必要となる。
そして、検定で力を発揮するのが正規分布である。検定においてなぜ、正規分布が威力を発揮するのかというと、標準偏差は、正規分布を基にして想定されているからである。つまり、平均と偏差によって想定されているのが正規分布であり、正規分布を基にした方が他の分布を基にした場合より、個々のデータの位置づけや検定をしやすいからである。
しかし、確率分布は、正規分布だけに限られているわけではない。平均を表す確率分布として二項分布やt分布などがある。分散を表す分布としては、F分布がある。サンプリングを表す分布としては、ベルヌーイ分布、ポワソン分布等がある。
正規分布や二項分布は、面によって分布を表している。
記述統計等は、法則や規則、有効性などを解明、あるいは、仮説を立証するといった時間が陰に作用している事象に効果的である。それに対して予測、予実績管理といった時間が陽に作用している事象には、ベイズ統計や時系列分析などが有効となる。
ベイズが事前確率、尤度、事後確率等を重視するのは、ベイズ統計が時間軸を含んでいるからである。
確率は、同じが繰り返される事象や行為を前提として成り立っている。
それが事前や事後という発想につながるのである。
歴史は繰り返すという考え方があれば、歴史的事象も確率の範疇でとらえる事が可能となる。歴史から学べである。
この様に確率分布は、目的に応じて選択されるべきであり、是々非々の問題ではなく、妥当性の問題なのである。
そして、確率分布の基準となる分布が正規分布なのである。故に、正規分布に分布する事象、よくパチンコの山などが引き合いに出されるが実際に現象として現れる事は稀である。一番、一般に用いられるのが成績の順位付け、位置づけである。それがまた、混乱を招いている。子供たちは偏差値によって振り分けられるからである。そのために、妙なところで偏差値が一般化してしまっていて本来の偏差値の意味が正しく伝わっていない傾向がある。それが、統計嫌いや統計に対する偏見を生み出す原因となっているのならば、本末転倒である。
まず確率や統計を使う場合は、目的を明確にすべきである。
また、確率や統計を学習させる際は、身近で切実な問題を取り上げるべきなのである。
成績の偏差値などは、最も、切実な問題であるはずなのに、偏差値だけが独り歩きし、学生の成績の位置づけ、序列付け、進学の際の基礎資料としか使われていないのは残念な事である。
偏差値を用いるのならば、適性や潜在的能力、学習の為の指標といった学生の可能性を引き出すための資料として使われるのならば統計本来の力をより発揮する事が出来るように思う。
記述統計に対する出鱈目な教育は、ベイズ統計に対する正しい認識を妨げてもいる。
ベイズ統計は、従来の統計を否定するものではない。むしろ、相互に補完し、補強するものである。この点を理解しないとベイズ統計の健全な発展も望めない。
ページの著作権は全て制作者の小谷野敬一郎に属しますので、 一切の無断転載を禁じます。
The Copyright of these webpages including all the tables, figures and pictures
belongs the author, Keiichirou Koyano.Don't reproduce any copyright withiout
permission of the author.Thanks.
Copyright(C) 2015.8.29 Keiichirou Koyano