You are on page 1of 66

統計学A

中村 篤
1

第1回
• オリエンテーション
 統計とは・・・,確率とは・・・,何故学ぶ?
• (生)データから得られる特性値
 平均・分散・標準偏差・・・
• 度数分布・相対度数分布から得る特性値
• 相対度数と確率の関係
• 補足: その他の主な特性値
2

日程
• 4月13,20,27日

• 5月11,18,25日

• 6月1,8,15,22,29日 中間試験実施予定

• 7月6,13,20,27日

• 8月3日(期末試験)

※正確な日程については履修要項を参照のこと
3

教科書・講義資料等
• 教科書
山本 浩 他 著
「シミュレーションによる確率論」,日本評論社
• 講義資料としてPowerPointを使用します
Live Campus経由でpdf版を配布します(次頁)
• 担当教員居室・連絡先
4号館 2F 221号室
atsushi@nsc.nagoya-cu.ac.jp
質問等がある場合は事前にメールを下さい
講義資料は LiveCampus 経由でpdf版
を配布します
• 学務情報システム(LiveCampus)の「授業参考情報」に「共
有ファイル」として置いてありますので,毎回閲覧できる状態
にして授業に臨むこと
 ≪スケジュール画面≫にて,「時間割」ボタンをクリック
 ≪時間割参照画面≫にて、「科目名」リンクから科目情
報(子画面)を開く
 「授業参考情報」ボタンをクリック
 「共有ファイル」でファイル名をクリックしてダウンロード

詳細は LiveCampus のマニュアル参照のこと 4


5

演習・宿題の提出について
• 学籍番号と氏名を記入した答案をスキャン,写真撮影等に
より電子化して,LiveCampus から提出してください
 ≪ホーム画面≫に未提出
課題の一覧が表示される
ので,該当の課題をクリック
すると≪課題・アンケート
提出画面≫が表示される
 ≪課題・アンケート提出画面≫で,ファイルを選択して提
出ボタンをクリック

詳細は LiveCampus のマニュアル参照のこと


6

演習・宿題の提出について
• 以下は提出に当たっての注意事項
 学籍番号,氏名が明記されていない答案は無効とす
ることがあります
 ファイル形式はpdfとしてください
 スマートフォンで撮影した写真をpdf化する方法につい
ては,“iphone pdf化”,“Android pdf化”等で検索する
と情報が得られます
 ファイル名は次頁の指示に従うこと
7

演習・宿題 提出について
• 提出物 ファイル名 ,以下 ようにすること
 演習: StatA[講義回]Ex[学籍番号]-[通し番号].pdf
 宿題: StatA[講義回]Hw[学籍番号]-[通し番号].pdf
例え ,学籍番号が 123456 場合,第2回授業中演習 ,
ひとつ目 ファイル ファイル名
ファイル名の文字は
StatA02Ex123456-01.pdf すべて半角とすること
• 締め切り
 演習: 当日 23:55
!!注意!! 締め切りまでに演習が提出されない場合,そ
日 出席が認められないことがあります
 宿題: 次週火曜日(つぎ 授業日 前々日) 23:55
宿題 提出状況も最終成績に加味されます
8

関数電卓について
• 関数電卓(プログラム電卓は不要)を持ってく
ること(試験でも関数電卓のみ持ち込み可)
– 対数(log)・指数(𝑒 𝑥 )・平方根( )・べき乗(𝑥 𝑦 )・階乗(𝑛!)・
順列( 𝑛𝑃𝑚 )・組合せ( 𝑛𝐶𝑚 )などが計算できるもの
– 生協に置いてもらっている
Canon F-605Gが1,000円位でお勧め
– 試験でも使う(携帯電話,スマートフォンの
電卓アプリケーション使用は不可)

F-605G

※旧モデル(F-502G)でも可
9

統計(statistics)とは

統 べる 多くの物を一つにまとめる(cf. 天下統一)
+

計る ある基準をもとにして物の度合いを調べる
推しはかって見当をつける
集団の個々の構成要素の分布を 調べ
その集団の属性を数量的に把握すること
「デジタル大辞泉」より抜粋
10

統計の重要性は年々高まっている
• 統計の重要性は高まり続けている

データマイニング,機械学習,
自然言語処理,音声認識,ビジ
ネス・インテリジェンス,競合分
析,WEB分析,A/Bテスト,与信
分析,潜在解約顧客推定,・・・
さまざまな分野において,データから計算機の力で
「価値」を引き出し,活用することが求められている
所謂「データ・サイエンス」
11

注目される統計学
• 「統計的な思考というものが,読み書きと同じように
必須の能力となる時代がやって来る」
1903, by Herbert George Wells
(作家・思想家; SFの父) 「タイムマシン」「宇宙戦争」,…

• 「とにかく統計だ」
「これからの10年で最もセクシーな職業は統計家
(statistician)だろう」
2009, by Hal Ronald Varian
(MIT名誉教授,Google社 チーフエコノミスト)
12

記述統計から推計統計へ
• 「統計」の歴史と,ふたつの世代
 記述統計 (~20世紀;現在でも残っている)
(基本的に全数調査によって)収集したデータから平均・
分散などを求めてデータの性質を調べる
 推計統計 (20世紀~)
無作為に部分収集(サンプリング)された
データ(標本)から,確率論に基づいて,
全体(母集団)の性質を推測(予測)する
ひと口のスープから
鍋全体の味を推し計る

この講義の主要な部分は推計統計の基盤である
確率の計算や確率論に関わるものになります
13

近代確率論と推計統計学
• 高校までの確率は,ほぼ古典確率論の範疇
• 近代確率論は古典確率論を包含する形で拡張した
もの
• 本講義では,近代確率論の基本と,その推計統計
への初歩的応用までを扱う

推計統計学

記述統計学 近代確率論 本講義の扱う


範囲
古典確率論
14

確率論を学ぶ意義
• 推計統計における確率の役割は既述の通り
 統計関連ツール(Excel・R・MATLAB・SPSS・・・)を正しく使
うための基礎固め,独自の応用も可能に
 統計を安全に自在に乗りこなすためのライセンス

• 日常生活の中にも様々な確率的要素
 進路選択,ビジネス的意思決定,保険・金融商品,賭け
事,宝くじ,・・・逆に,世の中に「確定的」なことはほとんどない
 古典的な確率論は貴族(退役軍人?)が知人(取り巻
き?)の数学者に賭け事の相談をしたことで発展した
 人間(の脳)は確率を直観的に測る(感じる)ことが苦手?
(様々な誤謬,パラドックス・ジレンマ)
15

確率前夜: 賭け事の相談1
• Pascal,知人の de Mere から相談される(17C中頃)
 2人で3回先勝,賭け金(ℎ)総取りルールでの対戦ゲーム
 第3戦までで,自分の2勝1敗のところで中止になった
 この場合,公平な賭け金の配分とは?
 判定勝ちで自分が総取り?/勝ち数で比例配分?…
• Pascal の回答
 対戦を続けたとしたときに,起き得る状況を考えましょう
 第4戦で,勝 → 3勝で総取り,負 → 2勝2敗の五分で等分
1 1 1 3
 実力互角なら × ℎ + × ℎ = ℎ があなたの取り分です
2 2 2 4

「確率」という概念がなかった時の話
16

確率前夜: 賭け事の相談1
• Pascal は,さらに問題を「一般化」する
 五分の形勢で中止なら,等分でよい(確認)
 2勝0敗のとき? 第3戦で勝なら総取り,負なら前頁と同じ
1 1 3 7
→ 取り分: × ℎ + × ℎ = ℎ …(A)
2 2 4 8
 1勝0敗のとき? 第2戦で勝なら(A),負なら等分
1 7 1 1 11
→ 取り分: × ℎ + × ℎ = ℎ
2 8 2 2 16
 相手と立場を入れ替えても同じなので,これで全パターン網羅

まだ起きていない出来事をもとにして数値を評価・決定する

これは紛れもなく「期待値」の考え方
17

確率前夜: 賭け事 相談2


• 「de Mere 2 つ サイコロ」
 胴元がサイコロ 2 個を回数を宣言して振る で,1 回でも
「2 個とも 6 目(ゾロ目)」になることがあるかないか賭ける
 「ある」に賭けて有利になる ,何回以上振るときか?
※ 「有利」と ,「ある」 可能性≫「ない」 可能性, こと
• de Mere なり 考察(結果的に 誤り)
 サイコロ1個 場合だと,6 目が出る 6回に1回,これ
を4回繰り返せ 可能性4倍(6回に4回=3回に2回)で有利
 サイコロ2個で 6 ゾロ目 36回に1回な で,19 回振れ
,「ある」 可能性が「ない」を上回る
 用心して,24 回以上振るときに「ある」に賭けることにした
→ 大損することに・・・
18

確率前夜: 賭け事の相談2
• 2 つのサイコロ: Pascal と Fermat の往復書簡
 この問題は当時 Pascal にとっても決して簡単ではなく, 同
じ数学者の Fermat と意見交換しながら正解に辿り着いた
(1) 6 が出る可能性ではなく「出ない可能性」に着目すべき
(2) 繰り返しの効果は,倍数ではなく,べき乗数で作用する
 わかりやすくするため,ここから確率を使って書くと…
 サイコロ1個の場合,6が出ない確率 5 6,4回繰り返す
と 5 6 4 ≅ 0.482 < 0.5 → 「出る」有利,でもギリギリ
 サイコロ2個の場合,6のゾロ目が出ない確率 35 36,
24回繰り返すと 35 36 24 ≅ 0.508 ≅ 0.5 → 互角
6のゾロ目がでる確率 2 3 を確保するためには
実は 39 回も振る必要がある
ごびゅう
Gambler‘s Fallacy (ギャンブラーの誤謬)
• 賭け事で負け続けていても(負け続けるほど)「次こそ
勝てるはず」と思い込み,止められない
• 宝くじを毎年買っていると「今年こそ当たるかも」という
気がする
• コイン投げで裏が連続して出続けると「そろそろ表が
出るぞ」という気がする

どれも確率的には「同じ構造の」間違い
ギャンブルや宝くじにおいては,報酬への期待がもたらす「楽観バイアス」の影響が
さらに思考・判断を曇らせる・・・
ごびゅう
Gambler‘s Fallacy (ギャンブラーの誤謬)
• 実際にコインを100万回×10セット投げてみると・・・

…表裏裏裏裏裏裏裏裏裏裏?

10回連続で裏
裏が
10回連続 522 484 492 491 486 461 484 433 494 502
次に
表が出る
257 242 230 250 231 241 256 221 243 253

2424
≅ 0.4999 ≅ は「およそ等しい」
4849 ≓ と同じ
Birthday Paradox
• 50名のクラスで,誕生日が同じ学生のいる確率は?
• うるう年とか,年齢違いとかは取りあえず考えない
• 全ての学生の誕生日が異なる確率:
1 2 3 49
1− 1− 1− ⋯ 1−
365 365 365 365
364 363 362 316 364𝑃49
= ⋯ = ≓ 0.029626
365 365 365 365 36549

• 求める確率:
𝑃 49
1 − 364 49 ≓ 0.970374
365

50名も集まれば,ほぼ必ず同じ誕生日のペアがいる
Birthday Paradox
• 「97%以上??? もっと少ない ず・・・」という錯覚が
あるとすれ ,そ 原因 ?
 「自分と同じ」誕生日 人がいる確率と(無意識に)混同
 365日 中 たった1日に誕生日が一致するということが珍
しそうという感覚(遠く 街で偶然知り合いに出会う感じ?)

 50名 中 ペア 種類数が 50𝐶2 = 1225 と大きいこと


見落とし

• これら 思い込みや錯覚 どうやら生得的なも で


あり,訓練によってしか克服されない
※教科書p.22 例題7に類似の問題
Monty Hall Paradox
• 三つ 扉 うち一つ 「当たり」,中に 豪華賞品
• 回答者 一つ(例え B)を選ぶ
• 司会者(Monty Hall) 正解を知っており,A,C うち
「外れ」 扉(例え C)を開けて見せる
• そこで,回答者に選択変更 チャンスが与えられる
• たして A に変更すべきか,B ままでよいか・・・?

A B C
24

Monty Hall Paradox


• 三つ 扉 うち一つ 「当たり」,中に 豪華賞品
• 回答者 一つ(例え B)を選ぶ
• 司会者(Monty Hall) 正解を知っており,A,C うち
「外れ」 扉(例え C)を開けて見せる
• そこで,回答者に選択変更 チャンスが与えられる
• たして A に変更すべきか,B ままでよいか・・・?

A B C
25

Monty Hall Paradox


• 三つ 扉 うち一つ 「当たり」,中に 豪華賞品
• 回答者 一つ(例え B)を選ぶ
• 司会者(Monty Hall) 正解を知っており,A,C うち
「外れ」 扉(例え C)を開けて見せる
• そこで,回答者に選択変更 チャンスが与えられる
• たして A に変更すべきか,B ままでよいか・・・?

A B C
26

Monty Hall Paradox


• 三つ 扉 うち一つ 「当たり」,中に 豪華賞品
• 回答者 一つ(例え B)を選ぶ
• 司会者(Monty Hall) 正解を知っており,A,C うち
「外れ」 扉(例え C)を開けて見せる
• そこで,回答者に選択変更 チャンスが与えられる
• たして A に変更すべきか,B ままでよいか・・・?
しまった
A 変えておけば… B C
27

Monty Hall Paradox


• 三つ 扉 うち一つ 「当たり」,中に 豪華賞品
• 回答者 一つ(例え B)を選ぶ
• 司会者(Monty Hall) 正解を知っており,A,C うち
「外れ」 扉(例え C)を開けて見せる
• そこで,回答者に選択変更 チャンスが与えられる
• たして A に変更すべきか,B ままでよいか・・・?
あっぶねー
A 変えなくて
よかった
B C
Monty Hall Paradox
• [Marilyn vos Savant (IQ 228 天才) 1990]
“Contestants who switch have a 2/3 chance of winning,
while contestants who stick to their initial choice have
only a 1/3 chance.”=「変えれ 正解 確率が倍になる」

• 批難殺到: 「単に “二者択一” になった だからどちらで


も確率1/2で,変えても変えなくても同じに決まっている」
• 博士号保持者や数学者まで同様 批難に加わるも,
シミュレーション 結果 Savant 言う通りに・・・
• 大数学者 Paul Erdős (*) 等を含む批難者
たちも白旗
(*) 20世紀に最も多く 論文を書いた数学者
Monty Hall Paradox
100
正解回数

90 選択変更しない
80
70 選択変更する
60 ほ

50 2
40 倍
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 実行回数

「変えても変えなくても同じ」であるかのような
「錯誤」は誰にでも起きる
30

統計学Aの目的
• 「近代確率論に基づく確率」に関する基本的な考え
方・知識を得ることで,正しい確率的思考のよりどこ
ろとする
 確率空間,事象,確率の公理的定義・・・
 高校で習った確率の定義の拡張

• 様々な確率の概念,意味を理解し,計算を体験する
 確率モデル,基本確率分布,事象の演算・・・

• 確率に関する,より精緻な知識の下で推計統計の
初歩に取り組む
 統計的推定,統計的検定・・・
31

統計学Aの特徴
• 内容は,ほぼ数学とその応用です
• 高校の数学IIIの内容を含みます(文系コース,商業
科出身の方は,・・・「諦めずに」頑張ってください)
• 理系コース出身の人にとっては高校で既に習った
内容も出てきますが,復習のつもりで…
• 全体として具体例を伴わない抽象的な話が多くなり
ます(大学以上の数学に共通)
• 単位を落とす人は決して多くありませんが,良い成
績をとるためには(それなりに)努力が必要です
32

データの整理(第0章)
• まず,統計の基本中の基本であるデータの整理の
復習から始める
• (生)データから得られる特性値(平均,分散,標準偏
差,共分散,相関係数等)は,データの持つ特徴や
傾向を「要約的」に表している
• 特性値は生データを加工した度数分布からも得るこ
とができる
• 特性値は,記述統計の概念であるが,推計統計にお
いても,データ全体(「母集団」)の一部である「標本」
の特性値(「統計量」という)が,母集団の推測に用い
られ,さらには,確率の数値的意味付けとも深く関係
33

変量とデータ(高校課程 数学Iより)
• 変量:あるひとまとまりの事物の特性(気象状況,人
の身体性,試験の成績,等)を表す量で,観測,測
定によって得る
• (生)データ:変量の個々の値を集めたもの
• 離散変量:飛び飛びの値しかとらない変量
 例: 試験の点数,人口,年間出荷数,さいころの目,・・・

• 連続変量:どこまでも細かい刻み幅での値をとり得
る変量
 例: 気温,湿度,身長,体重,放射線量,・・・
本講義では当面,変量は離散変量であることを前提とする
34

データの特性値
• データから得られる,変量の持つ特徴を表す値(平
均,分散,標準偏差,共分散,相関係数等)
• 変量 𝑥 について,𝑁 個の数値から成る資料(デー
タ)𝑥1 𝑥2 , ⋯ , 𝑥𝑁 が与えられたとき,これをもとに変
量の大まかな「位置」を知りたい
(算術)平均(値)(mean)
𝑁
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 𝑖=1 𝑥𝑖
𝑥= =
𝑁 𝑁
資料の総和を資料の個数で割ったもの
以降,𝑥 は変量 𝑥 について得られたデータの平均を表すこととする
35

Σ について
- シグマ,総和記号,summation -
• 例え ,𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 を
5

𝑎𝑖 ように「コンパクトに記述」するため 記号
𝑖=1 𝑖 を「束縛変数」という (にすぎない)
• 𝑎𝑖 部分がもっと複雑な式になっても基本的に 同じ
5
• 𝑖=1 𝑎𝑖 , 𝑖=1,5 𝑎𝑖 , ⋯ 色々な書き方があるが全く
同じ意味
• いちいち展開形( 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 )に戻さ
ずに記述し,そ まま計算することに慣れよう
36

Σ について
- シグマ,総和記号,summation -
5
• 𝑖=1 𝑎𝑖 = 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5
5
• 𝑖=1 𝑘𝑎𝑖 = 𝑘𝑎1 + 𝑘𝑎2 + 𝑘𝑎3 + 𝑘𝑎4 + 𝑘𝑎5
5
= 𝑘 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 = 𝑘 𝑖=1 𝑎𝑖
5 𝑘 は束縛変数 𝑖 に関係ない
• 𝑖=1 𝑖 = 1 + 2 + 3 + 4 + 5 → Σの外に出してよい
5
• 𝑖=1 1 = 1 + 1 + 1 + 1 + 1 = 5
𝑁
• 𝑖=1 1 = 1 + 1 + ⋯ + 1 = 𝑁
𝑁
𝑁 𝑁 𝑁
• 𝑖=1 𝑘 = 𝑖=1 𝑘 ∙ 1 = 𝑘 𝑖=1 1 = 𝑘𝑁 𝑘 ⋅ 1 は 𝑘 × 1 と同じ
𝑁 𝑁 𝑁
• (𝑎
𝑖=1 𝑖 +𝑏 𝑖 ) = 𝑎
𝑖=1 𝑖 + 𝑖=1 𝑏𝑖
37

Σ について
- シグマ,総和記号,summation -
• 集合による加算項(和をとる対象の式)の指定

𝑎|𝑎∈𝐴 𝑎 または 𝑎∈𝐴 𝑎 ・・・集合 𝐴 の元の総和

𝑎|𝑎∈𝐴,𝑎>1 𝑎 ・・・ 集合 𝐴 の元のうちで,1より大きい


ものの総和
「左辺を右辺と定義する」
• 無限個の加算項 という意味
∞ 𝑛

𝑎1 + 𝑎2 + 𝑎3 + ⋯ = 𝑎𝑘 ≜ lim 𝑎𝑘
𝑛→∞
𝑘=1 𝑘=1
・・・無限級数の和
値(極限値)を持つか否かは数列 𝑎𝑛 による
38

データの特性値
平均の計算例)
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙𝟓 𝒙𝟔 𝒙𝟕 𝒙𝟖 𝒙𝟗
50 48 45 52 50 55 51 49 50
50 + 48 + 45 + 52 + 50 + 55 + 51 + 49 + 50 450
𝑥= = = 50
9 9
60
50
40 平均は50
30 → データの「中心」が
20 50付近に位置している

10
0
x1 x2 x3 x4 x5 x6 x7 x8 x9
39

データ 特性値
同じ平均をもつ二つ データ 例)
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙𝟓 𝒙𝟔 𝒙𝟕 𝒙𝟖 𝒙𝟗 𝒙𝟏𝟎
50 48 45 52 50 55 51 49 50 ?

𝒚𝟏 𝒚𝟐 𝒚𝟑 𝒚𝟒 𝒚𝟓 𝒚𝟔 𝒚𝟕 𝒚𝟖 𝒚𝟗 𝒚𝟏𝟎
数値 存在する 50 20 10 45 70 85 40 75 55 ?
範囲
90 𝑦10 = 60 散ら り
80 範囲内だが𝑥10 = 60
70
異常
60
50
40
30
20 どちら データも
10 平均 50
0
x1, y1 x2, y2 x3, y3 x4, y4 x5, y5 x6, y6 x7, y7 x8, y8 x9, y9 (x10, y10)
40

データの特性値
・ 変量𝑥について,𝑁個の数値から成る資料(データ)
𝑥1 𝑥2 , ⋯ , 𝑥𝑁 が与えられたとき,変量の「散らばり具
合」を知りたい
分散(variance)
𝑥 − 𝑥 2 + 𝑥 − 𝑥 2 + ⋯+ 𝑥 − 𝑥 2
1 2 𝑁
𝑠𝑥2 =
𝑁
𝑁 2
𝑖=1 𝑥𝑖 − 𝑥
=
𝑁
各数値と平均との差の自乗( 𝑥𝑖 − 𝑥 2 )をとり
その総和を資料の個数(𝑁)で割ったもの
※自乗をとることで差の正負(±)を気にしなくてよくなる
41

データの特性値
分散の計算例)
𝑖 1 2 3 4 5 6 7 8 9
𝑥𝑖 50 48 45 52 50 55 51 49 50
𝑥𝑖 − 𝑥 0 -2 -5 2 0 5 1 -1 0
0 + 4 + 25 + 4 + 0 + 25 + 1 + 1 + 0 60
𝑠𝑥 2 = = = 6.66 ⋯ ≅ 6.7
9 9
𝑖 1 2 3 4 5 6 7 8 9

𝑦𝑖 50 20 10 45 70 85 40 75 55 ら

𝑦𝑖 − 𝑦 0 -30 -40 -5 20 35 -10 25 5 り


2
0 + 900 + 1600 + 25 + 400 + 1225 + 100 + 625 + 25 に
𝑠𝑦 = 大
4900 9 き

= = 554.44 ⋯ ≅ 544.4 差
9
42

データ 特性値
分散(再掲): 2 𝑁
𝑥𝑖 − 𝑥 𝑖=1
𝑠𝑥2 =
𝑁
自乗を取ることで差 正負(±)を気にしなくてよくなる
しかし・・・
散ら り具合 数値指標として 直感性に欠ける
90
80
70 見た目 散ら り具合:
60 最大で±35~40程度
50
40 分散:
30
𝑠𝑦 2 ≅ 544.4
20
10
→ 数値として見た目と
0 乖離している
y1 y2 y3 y4 y5 y6 y7 y8 y9 ∵自乗をとったから
43

データ 特性値
・ 変量 「散ら り具合」を,もっと直感に合う数値で
表したい
標準偏差(standard deviation)
𝑁 𝑥𝑖 −𝑥 2
𝑠𝑥 = 𝑖=1
・・・分散 平方根
𝑁

60 4900
𝑠𝑥 = ≅ 2.58, 𝑠𝑦 = ≅ 23.3
9 9
𝑥 散ら り 概 ±5程度 𝑦 散ら り 概 最大で±35~40
散ら り 数値指標として直感的に理解しやすい
44

データの特性値
・ データ中の個々の数値がそのデータ全体の数値の
範囲の中でどのくらいの位置にあるか知りたい
偏差値(データの散らばりを考慮した各データ値の平均からのズレの程度)
𝑥𝑖 − 𝑥 𝑥𝑖 : 各データの値
𝑇𝑖 = 10 × + 50 𝑥: 𝑥の算術平均
𝑠𝑥 𝑠𝑥 : 𝑥の標準偏差

偏差値50のデータ値 ・・・平均値に等しい値
偏差値60 (40) 〃 ・・・平均値より𝑠𝑥 高い(低い)値
偏差値70 (30) 〃 ・・・平均値から2𝑠𝑥 高い(低い)値

偏差値±10𝑛 + 50 〃 ・・・平均値から𝑛𝑠𝑥 高い(低い)値
ただし,偏差値はデータ中の個々の数値に対応する値であり代表値ではない
45

データ 特性値
・ 標準偏差が小さけれ (大きけれ ),同じ数値に
対する偏差値 相対的に高く(低く)なる
・ しかし,実際に多く 数値が存在する偏差値 範
囲 似通ったも になる(下 例だと30~70前後)
※もちろんこれが当て まらないケースもある 𝑥𝑖 偏差値 𝑦𝑖 偏差値
スケール スケール
90 200
80
65
150 60
70
60 100 55
50 50 50
40 45
0
30
-50 40
20
-100 35
10
0 30
x1 y1 x2 y2 x3 y3 x4 y4 x5 y5 x6 y6 x7 y7 x8 y8 x9 y9
46

分散計算の別法
分散 𝑁
𝑖=1 𝑥𝑖
2
𝑁
𝑠𝑥2 = − 𝑥2 cf. 𝑠2 = 𝑖=1 𝑥𝑖 −𝑥 2
𝑁 𝑁
本当に一致するか確かめてみる・・・
𝑁 2
𝑖=1 𝑥𝑖 − 𝑥
𝑠2 =
𝑁
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑥𝑖 2 − 2𝑥𝑖 𝑥 + 𝑥 2 𝑖=1 𝑥𝑖
2
𝑖=1 2𝑥𝑖 𝑥 𝑖=1 𝑥
2
= = − +
𝑁 𝑁 𝑁 𝑁
𝑁 2 𝑁 𝑁
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 𝑥2 𝑖=1 1 一致することが
= − 2𝑥 +
𝑁 𝑁 𝑁 わかる
𝑁 2 𝑁 2
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖
= − 2𝑥 2 + 𝑥 2 = − 𝑥2
𝑁 𝑁
47

代表値と散布度
• 特性値 分類として,「代表値」と「散布度」がある
 代表値 データ全体 中心的傾向を表す
 散布度 データ 散ら り具合を表す
• 平均 代表値 一種,分散や標準偏差 散布度
一種
• 平均以外 代表値として
 中央値(メディアン),最頻値(モード)
分散,標準偏差以外 散布度として
 範囲,四分位偏差,平均偏差,歪度,尖度
等がある(本資料末尾に補足あり)
48

問題1
10名の学生(A~J)が受けた試験の得点は表のとおりであった

学生 A B C D E F G H I J
身長 98 74 80 78 82 81 85 77 79 70

1. 得点の平均と標準偏差を求めよ

2. この集団において,学生A,学生B,それぞれの得点の偏差
値を求めよ
49

度数分布とヒストグラム
𝑖 1 2 3 4 5 6 7 8 9 10

𝑥𝑖 5 4 4 5 6 7 5 6 3 5
y𝑖 6 4 4 6 8 10 6 8 2 6

• 変量の数値を同じ値(*)ごとに整理しなおして各々の
個数(度数,頻度)で表現する → 見やすい (*)離散変量の
場合
𝒙 𝒚
最小値
3 2 𝒌 𝒖𝒌 𝒗𝒌

ー 4 4 1 2 2
タ 3 2
4 4 2階 3 3
を 4 4

5 6 3級 4 𝑥 4 𝑦
5 6
順 5 6 4番号
5の 5の
6 8 階 階
に 5 6 5 6級 6級
並 7 10
べ 5 6 6 7値 7値
る 6 同じデータ値は 8 7 8 8
6 まとめる 8 8 9 9
7 10 最大値 9 10 10
50

度数分布とヒストグラム
𝑖 1 2 3 4 5 6 7 8 9 10

𝑥𝑖 5 4 4 5 6 7 5 6 3 5
y𝑖 6 4 4 6 8 10 6 8 2 6

・ 変量の数値を同じ値(*)ごとに整理しなおして各々の
個数(度数,頻度)で表現する → 見やすい (*)離散変量の
場合
4
𝑥についての

𝒌 𝒖𝒌 , 𝒗𝒌 𝒇𝒌 𝒈𝒌
3
度数

1 2 0 1 2
𝑓𝑘

2階 3階 1 0 1
3級 4級 2 2 0 𝑢𝑘
4番号
5値 4 0
4
𝑦についての

5 6 2 4
6 7 1 0 3
度数
𝑔𝑘

2
7 8 0 2
1
8 9 0 0 𝑣𝑘
0
9 10 0 1
1 2 3 4 5 6 7 8 9 10
度数分布(表) ヒストグラム(度数分布図)
51

度数分布からの特性値
平均 𝑀
𝑁 𝑀 𝑁= 𝑓𝑘
𝑖=1 𝑥𝑖 𝑘=1 𝑓𝑘 𝑢𝑘
𝑥= = 𝑘=1
𝑁 𝑁
𝑘: 階級番号 𝑢𝑘 : 階級値
分散
𝑁 2 𝑀 2
𝑖=1 𝑥𝑖 − 𝑥 𝑘=1 𝑓𝑘 𝑢𝑘 − 𝑥
𝑠2 = =
𝑁 𝑁

平均,分散は度数分布から直接計算することができる
52

分散計算の別法 -度数分布バージョン-
𝑀 𝑀
2
分散 𝑓𝑘 𝑢𝑘 cf. 𝑠2
𝑓𝑘 𝑢𝑘 − 𝑥 2

𝑠2 = − 𝑥2 =
𝑁
𝑁 𝑘=1
𝑘=1
これも一致するか確かめてみる・・・
𝑀 𝑀
𝑓𝑘 𝑢𝑘 − 𝑥 2 𝑓𝑘 𝑢𝑘 2 − 2𝑢𝑘 𝑥 + 𝑥 2
2
𝑠 = =
𝑁 𝑁
𝑘=1 𝑘=1
𝑀 𝑀 𝑀
𝑓𝑘 𝑢𝑘 2 𝑓𝑘 ∙ 2𝑢𝑘 𝑥 𝑓𝑘 𝑥 2
= − +
𝑁 𝑁 𝑁
𝑘=1 𝑘=1 𝑘=1
𝑀 𝑀 𝑀 𝑀
𝑓𝑘 𝑢𝑘 2 𝑓𝑘 𝑢𝑘 𝑓𝑘 𝑓𝑘 𝑢𝑘 2
= − 2𝑥 + 𝑥2 = − 2𝑥 2 + 𝑥 2
𝑁 𝑁 𝑁 𝑁
𝑘=1 𝑘=1 𝑘=1 𝑘=1
𝑀
一致することが 𝑓𝑘 𝑢𝑘 2
= − 𝑥2
わかる 𝑁
𝑘=1
53

度数分布からの代表値計算例
3×1+4×2+5×4+6×2+7×1
𝒌 𝒖𝒌 , 𝒗𝒌 𝒇𝒌 𝒈𝒌
𝑥=
1 2 0 1 1+2+4+2+1
2 3 1 0 50
3 4 2 2 = =5
4 5 4 0 10
5 6 2 4
6 7 1 0 𝑠𝑥2 =
7 8 0 2 32 × 1 + 42 × 2 + 52 × 4 + 62 × 2 + 72 × 1
8 9 0 0 − 52
1+2+4+2+1
9 10 0 1
262
階級番号 階級値 変量𝑥の 変量𝑦の = − 25 = 1.2
度数 度数 10
2 × 1 + 4 × 2 + 6 × 4 + 8 × 2 + 10 × 1 60
𝑦= = =6
1+2+4+2+1 10
2 2 2 2
2 × 1 + 4 × 2 + 6 × 4 + 8 × 2 + 10 × 1
2
408
𝑠𝑦2 = −6
2
= − 36 = 4.8
1+2+4+2+1 10
54

問題2 (宿題)
2個のさいころを15回投げたところ,出た目は表のようになった
このとき
1. 各回に出た目の和の度数分布を表にし,おおまかなヒスト
グラムを描け
2. 上記の和の平均値と標準偏差を度数分布から計算せよ

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
サイコロ1 3 3 3 3 1 2 5 2 4 1 3 1 2 4 4
サイコロ2 1 5 2 5 6 3 1 4 5 2 5 5 3 3 3
55

相対度数分布からの特性値
𝝋𝒌
𝒌 𝒖𝒌 𝒇𝒌
 相対度数 = 𝒇𝒌 𝑵
1 2 0 0
𝑀
𝜑𝑘 = 𝑓𝑘 𝑁 = 𝑓𝑘 𝑚=1 𝑓𝑚 2 3 1 0.1
3 4 2 0.2
 平均 4 5 4 0.4
𝑀
𝑥= 𝑘=1 𝜑𝑘 𝑢𝑘 5 6 2 0.2
6 7 1 0.1
 分散 7 8 0 0
𝑀 8 9 0 0
𝑠𝑥2 = 𝑘=1 𝜑𝑘 𝑢𝑘 − 𝑥 2
9 10 0 0

𝑀
相対度数
= 2 𝑥2
𝑘=1 𝜑𝑘 𝑢𝑘 − (0~1の値を取り,足すと1)
56

相対度数分布からの代表値
𝑀 𝑀 𝑀
𝑘=1 𝑓𝑘 𝑢𝑘
𝑥= = 𝑓𝑘 𝑁 𝑢𝑘 = 𝜑𝑘 𝑢𝑘
𝑁 𝑘=1 𝑘=1
𝑀 2 𝑀
𝑘=1 𝑓𝑘 𝑢𝑘 − 𝑥
𝑠𝑥2 = = 𝑓𝑘 𝑁 𝑢𝑘 − 𝑥 2
𝑁 𝑘=1
𝑀
= 𝜑𝑘 𝑢𝑘 − 𝑥 2
𝑘=1
𝑀 𝑓𝑘 𝑢𝑘 2 𝑀
𝑠𝑥2 = − 𝑥2 = 𝑓𝑘 𝑁 𝑢𝑘 2 − 𝑥 2
𝑘=1 𝑁 𝑘=1
𝑀
= 𝜑𝑘 𝑢𝑘 2 − 𝑥 2 …「分散計算の別法」に相当
𝑘=1
57

相対度数と確率
• 相対度数と確率(の値)は「見た目」の性質が似ている
 0~1 までの値しかとらない これら「確率の定義」については
以降,より厳密に扱っていく
 すべて足し合わせると 1 になる
→ ただ似ているだけ?
• 「ランダムな」変量として,サイコロを何回も投げたと
きの出目の数値(1,2,3,4,5,6)を考える
 各目の出やすさは均等(確率1 6ずつ)とする
 観測される相対度数と,各出目の確率(1 6
= 1.666 ⋯)にはどういう関係があるか?
58

相対度数と確率
• とりあえず6回投げてみると…

2が出なかった 6が2回出た
● ●

確率が均等 ×
→ 度数が常に均等
59

相対度数と確率
• 回数を増やしていくと…

1.666 ⋯

回数を増やすと,サイコロの出目の相対度数は
均等の値(= 1.666 ⋯ =各出目の確率)に接近
60

相対度数と確率

ランダムな変量の各値の相対度数は,無限個の資料
(データ)においてその値の(理論的)出現確率に一致
61

補足: その他の主な代表値
• 中央値(メディアン; median)※「メジアン」?
変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 の各数値を昇順に並べ直し
たものを 𝑥 ′1 , 𝑥 ′ 2 , ⋯ , 𝑥 ′ 𝑁 としたとき,丁度中央に位置する
数値を「中央値」という
𝑥 ′ (𝑁+1) 2 , 𝑁が奇数
𝑥 = 𝑥 ′𝑁 2 + 𝑥 ′𝑁 2+1
, 𝑁が偶数
2

𝑁が奇数のとき 𝑁が偶数のとき
𝑥 ′1 , ⋯ , 𝑥 ′ 5 , ⋯ , 𝑥 ′ 9 𝑥 ′1 , ⋯ , 𝑥 ′ 4 , 𝑥 ′ 5 , ⋯ , 𝑥 ′ 8

中央に位置する唯一の数値が定まる 中央は二数値の間→算術平均をとる
62

補足: そ 他 主な代表値
• 最頻値(モード; mode) ※「流行値」とも(cf. 「こ 春 モード …」)

度数分布において最大 度数を与える階級値を「最頻
値」という
𝑥 = argmax 𝑓𝑘 = argmax 𝜑𝑘 こ 式 憶えなくて
𝑢𝑘 |𝑘=1,⋯,𝑀 𝑢𝑘 |𝑘=1,⋯,𝑀 よいです
4
3 変量𝑥 最頻値𝑥 6
𝑥について
度数

2
𝑓𝑘

1 変量y 最頻値𝑦 4
0 𝑢𝑘
4 最頻値 「外れ値」に強い
3
𝑦について

但し,探さなけれ ならない
度数
𝑔𝑘

2
1 一意に定まらないことがある
0 𝑣𝑘
1 2 3 4 5 6 7 8 9 10
63

補足: その他の主な代表値
• (算術)平均,メディアン,モードは,どれもデータの分
布の「中心」を表わす特性値(=代表値)である
• データ分布が対称の場合,中央値は平均値に等しい
• データに外れ値が加わっている場合,平均は三つ
の指標の中で最も強い影響を受ける
• 多峰型の分布においては,最頻値が一意に求まら
ないことがある(前頁)
• 最頻値の概念は「名義変量」(数値
以外の変量)に対しても適用できる
(e.g., 最も人気のあるのは猫)
64

補足: その他の主な散布度
• 範囲(range)
 変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 の各数値を昇順に並べ直し
たものを 𝑥 ′1 , 𝑥 ′ 2 , ⋯ , 𝑥 ′ 𝑁 としたとき,最大値 𝑥 ′ 𝑁 と最小値
𝑥 ′1 の差を「範囲」という
し ぶん い

• 四分位偏差(quartile deviation)
𝑄𝐷 = 𝑄3 − 𝑄1 2
 ただし,𝑄𝑛 (𝑛 = 1,2,3) は「第 𝑛 四分位数」で
𝑁 が奇数のとき
𝑄1 : 𝑥 ′1 , ⋯ , 𝑥 ′ (𝑁+1) 2−1 の中央値,𝑄3 : 𝑥 ′ (𝑁+1) ′
2+1 , ⋯ , 𝑥 𝑁 の中央値
𝑁 が偶数のとき
𝑄1 : 𝑥 ′1 , ⋯ , 𝑥 ′ 𝑁 2 の中央値,𝑄3 : 𝑥 ′ 𝑁 ′
2+1 , ⋯ , 𝑥 𝑁 の中央値
※ 𝑄2 は全体の中央値に等しい
65

補足: その他の主な散布度
• 平均(絶対)偏差(mean deviation)
𝑁
𝑖=1 𝑥𝑖 −𝑥
𝑀𝐷 =
𝑁
 変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 と平均 𝑥 との差の絶対値
𝑥𝑖 − 𝑥 (絶対偏差)の平均

• 𝑝 乗平均偏差(𝑝th-power mean deviation)


1
𝑁 𝑝 𝑝
𝑖=1 𝑥𝑖 −𝑥
𝑀𝐷𝑝 =
𝑁
 平均偏差,標準偏差の一般化
 𝑝 = 1 のとき平均偏差,𝑝 = 2 のとき標準偏差

You might also like