You are on page 1of 16

2/15/2019 統計学⼊⾨−第2章

玄関>雑学の部屋>雑学コーナー> 統計学入門
前口上 目次 第1章 第2章 第3章 第4章 第5章 第6章 第7章 第8章 第9章 第10章

第11章 第12章 第13章 第14章 第15章 第16章 第17章 第18章 第19章 第20章 付録

1 23456

2.2 データの分布と統計手法
(1) 度数分布図と累積度数分布図
データに統計手法を適用する場合、まず初めにデータの分布状態を目で見てから適当な手法を選択します。 そ
の時、データが1項目の時はたいてい 度数分布図(frequency distribution)を描きます。 ただし度数分布図は直観
的にわかりやすいものの、例数が少ないとあまり見栄えのしないものになりがちです。 また度数を数える区間の
幅や区間の数——これを 級間と階級数といいます——によって分布の形が変わってしまうので、データの分布状態を把
握しにくい時があります。

そこでデータを小さい順に累積した累積度数分布図(cumulative frequency distribution)を併用すると便利で


す。 累積度数分布図は単調増加の性質を持つシグモイド曲線(sigmoid curve、S字状曲線)になり、慣れないとな
かなか理解しにくいと思います。 でも例数が少なくても一応の格好がとれ、データを区間に区切る必要がないの
で分布の形が一定になります。 (注1)

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 1/16
2/15/2019 統計学⼊⾨−第2章




数 データ変換が必要か︖

級間 級⼼
図2.2.1 度数分布図-1 図2.2.2 度数分布図-2


異常値か︖

図2.2.3 度数分布図-3

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 2/16
2/15/2019 統計学⼊⾨−第2章


データ変換が必要か︖

度 度
数 数

図2.2.4 累積度数分布図-1 図2.2.5 累積度数分布図-2


異常値か︖


図2.2.6 累積度数分布図-3

データが対応のある2項目の時はそれぞれの項目をX軸とY軸にし、ペアになった個々のデータをプロットした 散
布図(scatter diagram)または散点図と呼ばれる図を描きます。 その際、なるべく基本的な項目つまり原因項目
をX軸にし、その項目によって影響を受けると思われる項目つまり結果項目をY軸にします。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 3/16
2/15/2019 統計学⼊⾨−第2章

y y

データ変換が必要か︖

x x
図2.2.7 散布図(2項⽬の場合)-1 図2.2.8 散布図(2項⽬の場合)-2


異常値か︖

x
図2.2.9 散布図(2項⽬の場合)-3

(2) 位置母数と尺度母数
次にこれらの図を眺めながら、データ内容を把握するのに最適な要約値や代表値を検討します。 母集団の要約
値や代表値を母数といい、平均値のように分布の中心位置を表す母数を位置母数(location parameter)、標準偏差
のように分布のバラツキ具合を表す母数を尺度母数(scale parameter)といいます。

代表的な位置母数には次のようなものがあります。

x 1 +⋯ + x i +⋯ + x n 1 n 1
○(算術)平均値(arithmetic mean): μ ≈ m= = ∑ xi = ∑ x
n n i= 1 n
n
1/n
○幾何平均値(geometric mean): μ *≈ m*= (x 1× ⋯ × x i × ⋯ × x n)1/n= ( ∏ xi )
i= 1

※幾何平均値の対数を取ると、次のようにデータを対数変換した時の算術平均になる。
1
log μ *≈ log m*=
n
∑ log xi
○中央値(中位値、メジアン、median):μ'=med(xi)

※med(xi)は次のような手順で中央値μ'を返す関数

データを小さい順に並べ、r=(n + 1)/2として

データ数nが奇数の時:μ'=xr … 小さい方から(n+1)/2番目のデータの値

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 4/16
2/15/2019 統計学⼊⾨−第2章

x r− 0.5 + x r +0.5
データ数nが偶数の時: μ ' = … 小さい方から(n/2)番目のデータと(n/2+1)番目のデータの
2
平均値 (注2)

○最頻値(モード、mode):最大頻度(度数)をもつデータの値

代表的な尺度母数には次のようなものがあります。
n
1
○分散(variance): σ 2≈ V = ∑
n− 1 i= 1
(x i − m)2

○標準偏差(SD:standard deviation): σ = √σ 2≈ s= √V

○平均偏差(MD:mean deviation): MD = ∑ | d i| = ∑ | x i − m|
n n
○中央絶対偏差(MAD:median absolute deviation):med(|xi - μ'|)

※データが正規分布する時:σ≒1.4826×MAD=MADN (注2)

○範囲(レンジ、range):R=xmax - xmin (xmax:最大値、xmin:最小値)

※データが正規分布する時: σ ≈ R √
n− 0.5 R   
≈ R≈ σ √n
n √n

(3) 箱ヒゲプロット
主要な位置母数と尺度母数をひとつのグラフに描き、しかもデータの分布状態まである程度把握できるようにし
ようという非常に欲張りな図を チューキー(John Wilder Tukey)が考案しています。 それが図2.2.3の右側に描い
た箱ヒゲプロット(box and whisker plot)または箱ヒゲ図と呼ばれるものです。 この図は次のような手順で描き
ます。

1. データの25%タイル点(Q1、第1四分位点)と75%タイル点(Q3、第3四分位点)により、全データの50%が含ま

れる箱を描く。
2. 中央値(Q2、第2四分位点)を横線で描く。

3. 平均値を「*」または「+」で描く。 ただしこれは省略されることが多い。
4. 箱の長さhの1.5倍を箱の上下に取り、それを超えない内側のデータまでヒゲを引く(内堀)。 ただし最小値と

最大値までヒゲを引く方法や、5%タイルと95%タイルまでヒゲを引く方法もある。
5. ヒゲの上下に1.5hの長さを取り、その範囲にあるデータを外れ値として「○」でプロットする(外堀)。 ただ
し最小値と最大値までヒゲを引く方法ではこれは描かない。
6. さらに外堀の外側にあるデータを極外値として「●」または「*」でプロットする。 ただし最小値と最大値

までヒゲを引く方法ではこれは描かない。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 5/16
2/15/2019 統計学⼊⾨−第2章

←外れ値

←内堀
SD
←Q3
平均値→ ←――平均値
h ←中央値
SD
←Q1
←内堀

図2.2.10 箱ヒゲプロット

Q1、Q2、Q3を 四分位点(quartile)またはヒンジ(hinge)といいます。 これらの値はデータを小さい順に累積して


いった時、25%が含まれる値、50%が含まれる値つまり中央値、そして75%が含まれる値になります。 そしてQ1

からQ3までの範囲を ヒンジ散布度またはIQR(interquartile range)といい、これが箱の長さhになります。 図


2.2.10には参考のために中央に個々のデータをプロットし、左側に一般的な平均値±標準偏差のプロットを描いて

います。 これらのプロットと箱ヒゲプロットを比べると、箱ヒゲプロットの特徴がよくわかると思います。 (注

3)

データが正規分布する時、平均値±標準偏差の間に約68%のデータが含まれます。 そして箱ヒゲプロットでは

箱の中に50%のデータが含まれるため、これはほぼ平均値±0.67×標準偏差に相当します。 さらに内堀の間、つ
まり下のヒゲから上のヒゲまでの間には約99%のデータが含まれます。 図2.2.10では平均値±標準偏差の幅と内

堀の幅がほぼ等しくなっています。 しかしこれはデータ数が少ないためであり、データ数が多くなると内堀の幅

がもっと広くなります。 ヒゲの長さを1.5hではなく 1hにすると内堀の間には約96%のデータが含まれ、これはほ


ぼ 平均値±2×標準偏差に相当します。 そのためヒゲの長さを1hにする方法もあります。
分布の特徴を最大値、最小値、中央値(Q2)、Q1、Q3の5つの値で要約することを五数要約といいます。 箱ヒゲプ

ロットは五数要約を具体的にグラフ表示した図であり、うまく利用すれば大変有用です。 しかしデータが多いと

外れ値が増えたり、ヒゲが非常に長くなったりして、あまり実用的ではなくなってしまいます。 そのため箱ヒゲ

プロットはデータが比較的少ない時に用いると効果的です。 また 箱ヒゲプロットは要約値をグラフ表示するのが
主目的ですから、データの分布状態をグラフ表示することが主目的の時は度数分布か累積度数分布を用いる方が
便利です。

(4) 対数正規分布
正規分布では平均値=中央値=最頻値であり、平均±2標準偏差の間に約95%のデータが含まれます。 そこで分布
が近似的に正規分布とみなせる時は、平均値と標準偏差によってデータを要約するのが普通です。 しかし分布が

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 6/16
2/15/2019 統計学⼊⾨−第2章

正規分布と極端に異なっている時は3つの位置母数が一致するとは限らず、要約値としてどれを用いるべきか検討

が必要です。

例えば普通の会社における給与分布は、たいてい図2.2.11のような歪んだ分布をします。 このような分布で

は、一般に3つの位置母数は一致しません。 そして給与がこのような分布をしている時、仮に全社員一律5%の賃
上げをしたとします。 すると実際の賃上げ金額は元の給与が高い社員ほど高くなるので、賃上げ後の給与分布は

歪みがさらに大きくなり図2.2.11の破線のようになります。

その結果、平均給与はある程度上昇したように見えますが、中央値と最頻値はあまり変わらず、 大部分の社員
の給与は平均給与の上昇ほどは上昇してはいないことになります。 そのため大部分の社員が感覚的に感じる上昇
幅と平均値の上昇幅が食い違うことになり、何となく数字に騙されたような割り切れない気持ちを抱くことにな

ります。



最 中 平 給与
頻 央 均
値 値 値
図2.2.11 給与分布

実際には、元の給与が高い社員ほど高い賃上げ率にする 上に厚く下に薄い賃上げをすることが多いでしょう。
そうすると図2.2.11以上に給与格差はひどくなり、大部分の社員の不満感が募るのも当然なわけです。 国民所得

などでも全く同様であり、株価上昇だとか貿易黒字だとかいっても、もともと裕福な極一部の限られた人間だけが
恩恵にあずかり、国民の大多数は相変らずウサギ小屋で毎日の生活とローンの支払いに汲々としているのが現実な

のです。

……どうも、この手の話題になる貧乏人のビガミ根性がモロに出てしまっていけません。 話題を経済学から統

計学に戻しましょう。

図2.2.11の給与分布は、元のデータを対数変換したデータが正規分布をする 対数正規分布(ジブラ分布、
Gibrat's distribution)に近い分布です。 医学や薬学で扱うデータも近似的に対数正規分布をするものがあり、
特に物質の濃度が関係する時は対数正規性が顕著になります。 そのため薬理学などでは薬物の用量データとして
対数変換した対数用量y=log(用量)を用いるのが常識になっています。 その理由は、たいていの薬物は対数用量
と薬理反応が正比例することが多く、その結果としてLD50などの用量データが対数正規性を持つからです。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 7/16
2/15/2019 統計学⼊⾨−第2章

このようなデータは対数変換してから平均値などを計算し、それを要約値として用いるのが理にかなっていま
す。 ちなみに(1)で説明したように、データを対数変換してから平均値を計算し、それを指数変換して元のデータ

と同じ単位に戻した値は幾何平均値と一致します。 (注4)

しかし分布の形が対数正規分布に似ているからといって、 無闇に対数変換してしまうのは問題です。 対数変換


したデータは通常のデータとは意味が異なり、下手をすると科学的な解釈ができなくなってしまうからです。

例えば常用対数で変換したデータが薬剤投与前後で「1」増加したとします。 これは投与前値が1だったものは

投与後は10になり、投与前値が10だったものは投与後は100になるということです。 したがって投与前値1のもの
が9増加して10になることと、投与前値10のものが90増加して100になることが医学的または薬学的に同じ意義を
持たなければ、「対数変換したデータが1増加した」ということをまともに解釈できなくなってしまいます。 そし

てその結果、対数変換したデータの平均値が要約値としての意味を失ってしまいます。 (注6)

(5) 要約値と評価指標
そこでデータを順序尺度的に扱って、平均値の代りに中央値を、標準偏差の代わりに範囲を用いてデータを代表
させることが考えられます。 中央値や範囲は対数変換したデータの平均値や標準偏差ほど理解しにくくはない

上、データがどんな分布をしていても値があまり変化しません。 数学者はデータの分布状態が変わっても値が変

わらない 不変性を重んじるため、このような時は中央値を用いることを推奨します。
科学的に最も意味が
しかし要約値や代表値を決める時の最も重要なポイントは、データの分布状態ではなく、
あるのはどの要約値または代表値かということです。 そして結局のところ、それは科学的な評価指標として最
適なのはどの要約値または代表値かということになります。 (注5)

正常群

軽症群

中症群

重症群

中 平 ⾎圧 中 平 ⾎圧
央 均 央=均
値 値 値 値
図2.2.12 投与前の⾎圧分布 図2.2.13 投与後の⾎圧分布

例えば血圧が正常範囲の正常群と、血圧が少し高めの軽症高血圧群、血圧がもう少し高めの中症高血圧群、血圧

がかなり高めの重症高血圧群があったとします。 高血圧に限らずどんな疾患でも、普通は正常群の人数が圧倒的
に多く、軽症群、中症群、重症群になるにしたがって人数が減ります。 そのため正常群と高血圧群の両方を含ん

だ集団の血圧分布を描くと、図2.2.12のような分布になります。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 8/16
2/15/2019 統計学⼊⾨−第2章

一見すると、この分布は対数正規分布のように見えます。 しかし実は4つの群の血圧分布は近似的に正規分布で

あるにもかかわらず、それらを合わせてしまったために分布の右裾が長くなり、対数正規分布のような形になって
いるのです。 医学分野で扱う対象はこのように大部分の正常群とごく少数の疾患群からなる集団のことが多く、

それが データの分布が対数正規分布に似た形になる原因のひとつであると考えられます。
今、これらの集団に降圧剤を投与したところ、高血圧群だけ血圧が低下して図2.2.13のようになったとします。

この時、投与前後で大部分のデータは変化しないため、平均値は低下するものの中央値は変化しません。 こんな
場合、医学的に血圧は全体として低下したと見るべきなのでしょうか、それとも低下していないと見るべきでしょ

うか? 言葉を変えれば 降圧剤の効果を評価するのに適した評価指標は平均値でしょうか、それとも中央値でし


ょうか?
要約値の不変性を重んじる数学者なら、このような時は、

「分布状態が変化しても値が変わらない中央値の方が数学的に評価指標として適している。 したがって

降圧剤の効果は無かった」
と主張するかもしれません。 しかし科学的な意味を重んじる医学研究者なら、

「投与前後の分布状態の変化を反映する平均値の方が医学的に評価指標として適している。 したがって

降圧剤の効果があった」
と主張するでしょう。

このように平均値と中央値は数学的にも科学的にも意義の異なる指標です。 データが正規分布する時は両者が
一致しますが、正規分布しない時は一致するとは限りません。 そしてデータが正規分布しない時でも、標本平均

は中心極限定理によって近似的に正規分布します。 ところが標本中央値は中心極限定理が成り立たないので、デ

ータが正規分布する時だけ正規分布し、データが正規分布しない時は正規分布しません。 そのため中央値を境界
値として利用する 中央値検定という手法はありますが、中央値そのものを検定したり区間推定したりする手法は
ありません。 (→3.4 2標本の計数値 (1)順序尺度(順序データ) 2)データに対応がない場合)
その上、標本平均は母平均に関する全ての情報を持っている十分統計量(sufficient statistic)ですが、標本中

央値は十分統計量ではありません。 この十分統計量という概念は統計学の基本的な概念であり、要約値を選択す
る時の重要なポイントです。 したがって中央値は情報が少なく、しかもデータが正規分布している時しか正規分

布しないので、実はデータが正規分布しない時の評価指標にはあまり適していないのです。 (注5)
そして平均値と中央値に限らず、評価指標に適した要約値や代表値を決める時に最も重要なのは科学的な判断
であり、データの分布状態に関する数学的な判断は二の次であるべきです。
(注1) 度数分布を描く際の一般的規準が次のように色々と提唱されています。
(1) 級間hと階級数nの規準
シャリエ(Charlier): h≈
SD
3
フィッシャー: h≈
SD
4
http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 9/16
2/15/2019 統計学⼊⾨−第2章

スタージェス(Sturges):データ数Nから次のように求める。
log e (N ) ln (N )    x − x min
n= 1+log 2 (N )= 1+ = 1+ h≈ max
log e (2) ln (2) n

実際の級間は、これらの式によって求められた値に近くて区切りの良い値を選びます。

(2) 注意点
級間hは区切りの良い値にし、特殊な場合以外は等間隔にする。

階級の中央の値を 級心といい、級心が見やすい値になるように階級の上限と下限を決める。
データにたびたび出てくる値は階級の境界値にはせず、級心になるようにする。

階級の上限と次の階級の下限は連続し、境界値はなるべくデータに出てこないような値が望まし

い。

確率変数xの行動を規定する関数を 確率密度関数(pdf:probability density function)または頻度関


数(frequency function)と呼び、f(x)と書きます。 これに対して密度関数を累積(積分)したものを分布
関数(df:distribution function)または累積分布関数(cdf:cumulative distribution function)呼
び、F(x)と書きます。 例えば正規分布の場合は次のようになります。

確率密度関数(pdf):

分布関数(df):

F(x)に例数nを掛けると、データが正規分布する時の理論的累積度数分布になります。 しかしf(x)に
例数nを掛けたものは級間が1σの時の理論的度数分布になり、実際の度数分布と比べるには都合の悪い

時があります。 そこで級間hとF(x)を用いて次のように理論度数を計算し、それによって級間がhの時の
理論的度数分布を描くことができます。

{F (x+ h2 )− F ( x− h2 )}
x+h /2
データの理論度数: f = n ∫ x− h /2 f (x)dx= n
また第1章の検定の手順で説明したように、検定における有意確率p値もF(x)を利用して計算します。

我々には馴染みが薄いのですが、 統計学上はf(x)よりもF(x)の方が重要なのです。 (→1.5 有意性検定


の考え方)

(注2) 変数xの確率密度関数をf(x)、確率分布をF(x)とすると、連続分布における中央値は次のような
式を満足するμ'と定義されています。
μ'
F (μ ' )= ∫ −∞
f ( x ) dx = 0.5

xが正規分布N(μ,σ2)に従う時、nが十分に大きければ中央値は近似的に正規分布N(μ,(πσ2)/(2n))

に従います。 しかしxが正規分布に従わない時やnが十分に大きくない時、中央値は正規分布しません。

また中央絶対偏差MADは次のような値になります。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 10/16
2/15/2019 統計学⼊⾨−第2章

標準正規分布N(0,12)において、下側確率が0.75になる時の 正規偏位(NED:normal deviate)zは


0.67449です。 そこでxが正規分布N(μ,σ2)に従う時、MADを0.67449で割った値は正規偏位z=1の時の偏

差つまり標準偏差に相当します。 これをMADNと書き、標準偏差の不偏推定量として利用されることがあ
ります。

(注3) 四分位点の公式は次のとおりです。
n
{
Q1= xQ 1+ h( − F Q 1)
4
1
f Q1 } … データを1:3に分ける位置の値=25%タイル値

{
n
Q2= xQ 2+ h( − FQ 2)
2
1
f Q2 } … データを1:1に分ける位置の値=50%タイル値=中央値

Q3= xQ 3 + h(
{ 3n
4
− FQ 3 )
1
f Q3} … データを3:1に分ける位置の値=75%タイル値

xQ1、xQ2、xQ3:第1四分位点、第2四分位点、第3四分位点がある階級の下限値

fQ1、fQ2、fQ3:第1四分位点、第2四分位点、第3四分位点がある階級の度数

FQ1、FQ2、FQ3:第1四分位点、第2四分位点、第3四分位点がある階級の累積度数

h:階級の幅  n:標本数

実際のデータは連続分布ではなく離散分布になるため、パーセンタイル値の公式は次のようになりま
す。

xp=xi + (xi+1 - xi)(pn - i)

p:パーセンタイルの値  n:標本数  i=int(pn):切り捨てによる整数化

ところが、この公式で計算した25%タイル値と75%タイル値は四分位点とは異なることがあります。
それはデータが離散分布であり、ちょうどパーセンタイル値と一致する値が存在しないことがあるから

です。 そのため離散分布の時の四分位点は考え方によって色々な計算式があります。 そのうち代表的


な計算式は次のようなものです。

○第1の公式: Qk = x i +( x i+1− x i )
(n−4 1 k+1− i) (Q1:k=1、Q2:k=2、Q3:k=3)

i= i nt (n−4 1 k+1)
○第2の公式: Qk = x i +( x i+1− x i )
(n+14 k− i) (Q1:k=1、Q2:k=2、Q3:k=3)

i= i nt (n+14 k)
○第3の公式:Q1…最小値からQ2までの中央値   Q2…全データの中央値   Q3…Q2

から最大値までの中央値

例えばデータが5個あり、それらがx1=10、x2=11、x3=12、x4=13、x5=14だったとします。 この時のパ

ーセンタイル値と四分位点を上記の公式によって計算すると次のようになります。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 11/16
2/15/2019 統計学⼊⾨−第2章

○パーセンタイル値
i=int(0.25×5)=int(1.25)=1  x0.25=x1 + (x2 - x1)(1.25 - 1)=10 + (11 -

10)×0.25=10.25

i=int(0.5×5)=int(2.5)=2  x0.5=x2 + (x3 - x2)(2.5 - 2)=11 + (12 -

11)×0.5=11.5
i=int(0.75×5)=int(3.75)=3  x0.75=x3 + (x4 - x3)(3.75 - 3)=12 + (13 -

12)×0.75=12.75
○第1の公式

i= i nt (5−4 1 × 1+1)= i nt (2)= 2   Q1=x2 + (x3 - x2)×(2 - 2)=11 + (12 -

11)×0=11

i= i nt (5−4 1 × 2+1)= i n t(3)= 3   Q2=x3 + (x4 - x3)×(3 - 3)=12 + (13 -

12)×0=12

i= i nt(5−4 1 × 3+1)= i n t (4)= 4   Q3=x4 + (x5 - x4)×(4 - 4)=13 + (14 -

13)×0=13
○第2の公式

i= i nt (5+14 × 1)= i nt (1.5)= 1   Q1=x1 + (x2 - x1)×(1.5 - 1)=10 + (11 -

10)×0.5=10.5

i= i nt (5+14 × 2)= i nt (3)= 3   Q2=x3 + (x4 - x3)×(3 - 3)=12 + (13 -

12)×0=12

i= i nt (5+14 × 3)= i nt (4.5)= 4   Q3=x4 + (x5 - x4)×(4.5 - 4)=13 + (14 -

13)×0.5=13.5
○第3の公式:Q1=x2=11   Q2=x3=12  Q3=x4=13

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 12/16
2/15/2019 統計学⼊⾨−第2章
x0 x1 x2 x3 x4 x5 x6

-∞ 10 11 12 13 14 +∞

0% 25% 50% 75% 100% ←パーセンタイル値


10.25 11.5 12.75 14

Q1 Q2 Q3 ←第1・第3の公式
11 12 13

Q1 Q2 Q3 ←第2の公式
10.5 12 13.5
図2.2.14 パーセンタイル値と四分位点の模式図

図2.2.14を見るとそれぞれの値の特徴がわかると思います。 パーセンタイル値は累積度数が0である
点を仮想的にx0=-∞として考え、x0〜x5までの累積度数分布を折れ線で近似して、その近似曲線について

25%タイル、50%タイル、75%タイルを計算した値になります。 そのためそれぞれの値は四分位点とは

一致しません。

第1の公式で計算した四分位点は、x1〜x5の範囲を4分割して四分位点を計算した値になります。 第2の

公式で計算した四分位点はx0=-∞とx6=+∞という値を仮想的に考え、x0〜x6の範囲を4分割して四分位点

を計算した値になります。 第3の公式で計算した四分位点は、まずx1〜x5の中央値を計算してQ2とし、そ

の後でx1〜Q2とQ2〜x5の中央値を計算した値になります。

3つの公式で計算した四分位点は、Q2だけは中央値と一致しますが、それ以外の値は一致するとは限り

ません。 この例では第1の公式と第3の公式で計算した値はたまたま一致していますが、必ず一致すると
は限りません。 個人的には 第1の公式で計算した値が最も妥当だと思います。
(注4) 対数正規分布はデータxを対数変換したy=ln(x)が正規分布するもので、yの平均をμy、分散を
σy2とすると、その確率密度関数f(x)は次のようになります。

確率密度関数: f ( x)=
1
x√2 π σ y 2
exp −
[ {ln( x)− μ y }2
2σ y
2
] (-∞<y=ln(x)<∞、0<x<

∞)

xの平均をμx、中央値をμx'、幾何平均をμx*、分散をσx2、変動係数をCVxとすると、これらのパラ

メターとyのパラメターの間には次のような関係があります。

μ y=
∑ y = ∑ ln( x) = ln {(∏ x)1/n }= ln (μ * )= ln (μ ')
x x
n n

( ) () ()
2 2 2
σy σ μx σ
μ x = exp μ y + = (μ x ' )exp y    = exp y
2 2 μx ' 2

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 13/16
2/15/2019 統計学⼊⾨−第2章

σ
σy2=ln(CVx2 + 1)    CV x = μ x (定義)   
x
σ 2x μ 2x {exp(σ 2y )− 1}
2
CV = 2 =
x 2 = exp(σ 2y )− 1
μx μx

ここでexの級数展開による近似式より、CVx≪1の時は次のように近似できます。

x x2 x3 x
e x = 1+ + + ⋯ → |x|≪1の時 e ≒1+x
1! 2! 3!
CVx2=exp(σy2) - 1≒(1 + σy2) - 1=σy2

∴σy≒CVx

y''=log(x)と常用対数を用いた時は次のようになるので注意が必要です。

y ln (x)
y ' '= =
ln (10) ln(10)
y=ln(10)y''≒2.3026y''   μy=ln(10)μy''≒2.3026μy''

σy2={ln(10)σy''}2   σy=ln(10)σy''≒2.3026σy''

比例尺度のデータは対数正規分布をし、標準偏差が一定
原理的には変動係数が一定のデータすなわち

のデータすなわち間隔尺度のデータは通常の正規分布をします。 (→2.5 標準誤差・標準偏差・変動係


数・偏り、付録1 各種の確率分布)

(注5) 第1章で説明したように、ここでは平均値のように複数のデータを四則演算によって要約した統
計量を要約値と呼び、そのような要約をしない中央値のようにポイント的な統計量を代表値と呼びま

要約値は中心極限定理によって近似的に正規分布するのに対して、代表値は中心極限定理
す。 そして
が成り立たないため正規分布しません。 (→1.3 データの要約方法 (注7))
そのため多くの統計手法は要約値について検定や推定を行い、代表値について検定や推定を行うこと
はほとんどありません。 例えば本文中で説明したように、中央値そのものを検定したり推定したりする

手法はありません。

また 十分統計量の厳密な定義は次のとおりです。 確率変数x1、…、xnの同時確率密度関数をf(x1,
…,xn)とし、母数をθ、統計量をT=T(x1,…,xn)とすると、次のようにf(x1,…,xn)をθおよびTに関係し

た部分と無関係な部分に分解できる時、Tはθの十分統計量になります。

f(x1,…,xn)=g(T(x1,…,xn);θ)h(x1,…,xn)

例えばx1、…、xnが正規分布N(μ,σ2)に従う時、f(x1,…,xn)を次のように分解できます。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 14/16
2/15/2019 統計学⼊⾨−第2章

この式から、xiの合計T=∑xiは母平均μの十分統計量になることがわかります。 したがって 標本平均


mx=T/nも母平均μの十分統計量になります。 また上式の1行目の式はσ2と∑xi2に関係しています。 そ
こでこの式をg(∑xi2;σ2)と考え、h(x1,…,xn)=exp(0)=1とすると、平方合計∑xi2は母分散σ2の十分統

計量になります。 したがって 平方和∑(xi-mx)2と不偏分散∑(xi-mx)2/(n-1)も母分散σ2の十分統計量


になります。

ちなみに、評価指標は分野によって様々なものが用いられます。 例えば陸上や水泳などの競技では、

複数回の試技記録の中の最大値を評価指標にします。 また体操などの採点競技では、5名の審判の採点
のうち最低値と最大値を除外して、残りの3名の採点の平均値を評価指標にすることが多いようです。

そしてマスコミは、ある選手の最高記録または最高順位によってその選手の実力を評価するのが常で
す。 しかし選手の実力の評価指標としては平均値の方が適しているため、マスコミの評価と選手の実力

が食い違うことがよくあります。 またマスコミでは選手の容姿も重要な評価指標になるため、マスコミ
人気と実力が一致しないことが多々あったりします。

(注6) 対数正規分布のような非対称分布はしばしば分散が平均値によって変化する、つまり分散が平均
値の関数になりがちです。 そうすると統計処理をする時に何かと不便です。 そこで分散が平均値と無

関係になるような変数変換が色々と工夫されています。 一般に変数xの分散σ2が平均値μの関数g(μ)

で表される時、次のような関係が成り立ちます。
1
z= ϕ (x)= ∫ dx と置くと σz2≒{φ'(μ)}2g(μ)
√g(x)
この式を利用して、次のような変数変換が工夫されています。

○割合の分布:一定の割合で出現する現象 … フィッシャー(Fisher)の逆正弦変換
r
x= n (0≦x≦1)  r:出現例数  n:全例数
x(1− x)    2 1
σ 2x = g(x)= z= sin− 1 √ x (ラジアン単位)    σ z ≈ 4 n
n
特に二項分布は次のようになる。

σ2x=g(x)=n x(1-x)    z= sin− 1 √ x    σ z ≈


2 1
4
○ポアソン分布

σ2x=g(x)=x    z= √ x または z= √ x+ 0.5    σ z ≈


2 1
4
○相関係数の分布 … フィッシャーのz変換(z-transformation)
2 2
σ 2x = g(x)=
(1− x )
n− 1
   z=
1
( )    σ ≈ n−1 1 ∼ n−1 3
1+ x
2 ln 1− x
2
z

ボックス・コックス(Box-Cox)変換とい
また正のデータを正規分布に近似させるための変数変換として

う変換法があります。 この変換法はベキ数λと平均値μと分散σ2を利用するので、LMS法と呼ばれるこ

ともあります。

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 15/16
2/15/2019 統計学⼊⾨−第2章

※λは最尤法によって求める。 (→10.3 ロジスティック回帰分析の計算方法 (注2))


対数尤度関数:

n n
1 1
μ^ = n ∑ z i   σ^2= n ∑ ( z i− μ^)2 として、次の対数尤度関数を最大化する時のλが
i= 1 i= 1

最尤解
n 1
{ } n
L(λ )= − 2 ln n ∑ (z i − μ^)2 +∑ ln (x λi − 1)= − 2 ln( σ^ 2)+(λ − 1) ∑ ln( x i )

ボックス(George Box、フィッシャーの娘婿)とコックス(David Cox)はどちらもイギリスの統計学者で


あり、彼等の統計学に対する考え方は少し異なっていました。 しかし「ボックスとコックス」は、イギ
リスでは「1つの役割を2人の役者が交代で演じる」という意味の演劇用語だったので、2人はそれにちな

んで一緒に論文を書くことにしました。 その結果、1964年に王立統計学会誌に発表された論文が、この
ボックス・コックス変換に関する論文でした。

何となく理論物理学分野で有名な「アルファ・ベータ・ガンマ理論」のエピソード――ジョージ・ガ
モフが、指導していたラルフ・アルファーの博士学位論文に、シャレのために友人のハンス・ベーテの

名前を強引に加えた――を連想させる、 ダジャレの効いたエピソードです。
最終更新日:2017年10月26日  第1節へ 第3節へ
  webmaster@snap-tck.com  Copyleft (C) 2000-2018 SNAP(Sugimoto Norio Art
Production)

http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html 16/16

You might also like