以前から統計には多少興味があり、色々な本をただ読み散らかしてきた中で
「この本はより実際問題に関連したことを書いてそうだな」
と思って手に取った本です。
あと、文庫サイズなので読みやすいと思った
正規分布・べき乗分布・対数正規分布
- 正規分布は釣り鐘型で身長と人数等の分布。加算過程。単純系。
- べき乗分布は左端が高く右端につれて下がる地震の大きさと発生回数の分布。対数正規分布よりもより複雑系?
- 対数正規分布は釣り鐘型と同じようにピークはあるが左裾が短く、右裾が長い分布。世界各国のGDPなどがある。乗算過程。複雑系。
ランキングプロットの場合はまた違う分布(見かけ上)になる。
正規分布について
正規分布の名の由来は、統計の世界でこの分布がもっとも標準的だとみなされているから。
ピークのてっぺんである平均値と、幅(分布のばらつき)を表す標準偏差の二つの量で特徴づけられる。
正規分布は、様々な要因が互いに関係なく積み重なった過程、つまり加算過程によって分布した結果。
酔っ払いがある地点から行き着く先も正規分布になるというのは面白かった(酔歩の問題)。行ったり来たりするからね。現実的には家に帰りついてることが多いけども。
ブラウン運動(微粒子のランダムな運動)はかなり理想的な正規分布になる。
偏差値の正規分布は万能ではなく、各々問題の難易度に差がない場合は良いが、2つの難易度の問題が織り交ざり得点の分布が2山になると正規分布にならない(低難易度の問題しか解けない組と低・高どちらも解ける組)。
正規分布は厳密に管理された条件等が重なることで現れる?
べき乗分布について
べき乗分布では典型的な大きさ(正規分布でいう平均値、ピーク)が見当たらない。これをスケールフリー性という。
また、べき乗的な振る舞いをジップ則という(英単語の出現回数、都市の人口)。
地震が起きるのは必然だが、いつかは偶然。また、地震は複雑系の典型。大小さまざまな岩石、空洞、水脈…などあるから。
数値の差が大きすぎて同一のグラフで表せないときは対数目盛を使うと良い。マグニチュードとその順位(こちらを対数に)をこれで表すとグラフが直線的になる。これをグーテンベルグ・リヒター則と呼ぶ。
対数が片方だけの場合片対数グラフ、両方とも対数の場合両対数グラフとなる。
地震の分布を日本全体で見てみると、濃淡がはっきりしている(=起こる場所と起こらない場所がはっきりしている)。
また、この起こる場所をさらにズームしてみると、ここでも濃淡がはっきりしている。
これを様々に拡大縮小しても同じ濃淡が見え、その濃淡に差はない。これはスケールフリーの性質であり、このようなスケールフリーで入れ子構造的な性質をフラクタルという。アニメでフラクタルってあったよな…?1フラクタル…。
対数正規分布について
複雑系は非線形である。線形とはオーム則のような比例の関係で簡単に表すことができるもの。非線形はそうでないもの?
複雑に絡んでいても、構成メンバーが少数であったり線形性があるのなら単純系となる。メンバーの特性の総和をとっても全体(系)の特性が出てこない場合は非線形性があるという。
創発とは単純なものの重なりでそこから信じられないような働きをするものができること。大変動とはほんの少しの変化で大きな変化が起きること。単純系ではこれらはけっして起こりえない(総和だから?)。
両対数グラフに縦軸に順位、横軸に数値をとったものをランキングプロットまたは累積個数分布という。
データ数に限りがある場合、個数分布(とあるデータの幅の個数をグラフにしたもの。累積個数分布とは違う)よりもランキングプロットが良い。
理由としては、ランキングをプロットするだけなので楽。それと、プロットした点が滑らかになるから。
順位は累積個数そのもの。サイコロ10個一度に投げて、それを平均にしたものを平均値の高いものからならべていく。4.7が1つ、4.4が2つ、4.3が5つ…みたいな。この1,2,5の幅は棒グラフで表す。平均で表しているから同じ値が表れて棒グラフになっているのであり、GDPのように基本的に被りがない場合は点ですべて表すことになる。
そして、このGDPのランキングプロットこそ対数正規分布となる。
複雑系は歴史があり、乗算過程である。結果に関わる過程の確率が乗算されていって複雑系となる。そして、対数をとると乗算の過程は加算の過程となるので、対数をとった時に正規分布が生まれる=対数正規分布となる。つまり、複雑系は対数正規分布が自然である。
対数正規分布では標準偏差が小さいと正規分布に近づき、大きいとべき乗分布に近づく。つまり正規分布とべき乗分布を補完する。
破砕された岩石が対数正規分布を示し河原の石がべき乗分布を示すのは、粉砕された岩石は元は1つの岩石を同じようなやり方で砕いた結果なのに対し、河原の石はもともと様々なサイズの石が流れの中で様々に加工された結果だから。つまり、複雑系が集まってさらに複雑系を形成しているから?
遺伝的な病気を子孫を残す前に死ぬことで消滅させるというのは面白かった。そして、高齢化したことで今までは発病する前に死んでいた様々な病気が問題になるというのも面白い。
この先寿命は延びるが健康寿命はそう延びない。なので、必然的に介護期間が長くなるがこれをどう乗り切るのか。健康寿命延ばしたいなあ…。
2つの対数正規分布を加え合わせたものを二重対数正規分布という。
市町村の人口は、町村は対数正規分布にだいたい従うのに対し、市はべき乗分布に従う。これは、富める者はより富むという法則に関係している?
都道府県などは人口上位の都府県にどんどん人口が流入して分布が2つに分かれるような形になっている。つまり二重対数分布。
個人所得も基本は対数正規分布に従うが、より高所得の部分で外れる。これは富める者はより富むことによるもので、競争による順当な結果ではないので累進課税するべきとの主張。
これは日本の場合、アメリカの場合は更に貧しい側で分布からはずれる部分が出てきており、貧しいものはより貧しくによるものになっている。
また、今後世界においてあまりにも富める者は…貧しき者は…が進みすぎると競争によって経済状況が決まる平等な状態ではなくなってしまう。そのため、TPPなどはちょっと危険。国際的に適度な保護政策、国内的に福祉政策がいるよねという話。
おわりに
かなりとっちらかった内容のまとめになってしまった。
感覚的にだけど正規分布・べき乗分布・対数正規分布の捉え方、活かし方が分かったので良かった。
といってもかなり断片的な知識なので活かすのは中々難しそう…何かでランキングプロットでもつけてみるかな?
とりあえず、「想定される分布に合うような変化を求めていった方が良いんじゃない?」というのは分かった。自然が一番!
数式成分が少なめだったので、そのあたりが苦手な人でもまだ読みやすいかも?
恐らくこの記事では何のこっちゃ分からんので、興味がある方は是非本を読んで下さい!文庫だし!!
コメント