"統計学A 第１回"を開く

統計学Ａ
中村篤
1
第１回
• オリエンテーション
 統計とは・・・，確率とは・・・，何故学ぶ？
• （生）データから得られる特性値
 平均・分散・標準偏差・・・
• 度数分布・相対度数分布から得る特性値
• 相対度数と確率の関係
• 補足: その他の主な特性値
2
日程
• ４月１３，２０，２７日
• ５月１１，１８，２５日
• ６月１，８，１５，２２，２９日中間試験実施予定
• ７月６，１３，２０，２７日
• ８月３日（期末試験）
※正確な日程については履修要項を参照のこと
3
教科書・講義資料等
• 教科書
山本浩他著
「シミュレーションによる確率論」，日本評論社
• 講義資料としてPowerPointを使用します
Live Campus経由でpdf版を配布します(次頁)
• 担当教員居室・連絡先
４号館２Ｆ２２１号室
atsushi@nsc.nagoya-cu.ac.jp
質問等がある場合は事前にメールを下さい
講義資料は LiveCampus 経由でpdf版
を配布します
• 学務情報システム（LiveCampus）の「授業参考情報」に「共
有ファイル」として置いてありますので，毎回閲覧できる状態
にして授業に臨むこと
 ≪スケジュール画面≫にて，「時間割」ボタンをクリック
 ≪時間割参照画面≫にて、「科目名」リンクから科目情
報（子画面）を開く
 「授業参考情報」ボタンをクリック
 「共有ファイル」でファイル名をクリックしてダウンロード
詳細は LiveCampus のマニュアル参照のこと 4

5
演習・宿題の提出について
• 学籍番号と氏名を記入した答案をスキャン，写真撮影等に
より電子化して，LiveCampus から提出してください
 ≪ホーム画面≫に未提出
課題の一覧が表示される
ので，該当の課題をクリック
すると≪課題・アンケート
提出画面≫が表示される
 ≪課題・アンケート提出画面≫で，ファイルを選択して提
出ボタンをクリック
詳細は LiveCampus のマニュアル参照のこと

6
演習・宿題の提出について
• 以下は提出に当たっての注意事項
 学籍番号，氏名が明記されていない答案は無効とす
ることがあります
 ファイル形式はpdfとしてください
 スマートフォンで撮影した写真をpdf化する方法につい
ては，“iphone pdf化”，“Android pdf化”等で検索する
と情報が得られます
 ファイル名は次頁の指示に従うこと
7
演習・宿題提出について
• 提出物ファイル名，以下ようにすること
 演習: StatA[講義回]Ex[学籍番号]-[通し番号].pdf
 宿題: StatA[講義回]Hw[学籍番号]-[通し番号].pdf
例え，学籍番号が 123456 場合，第2回授業中演習，
ひとつ目ファイルファイル名
ファイル名の文字は
StatA02Ex123456-01.pdf すべて半角とすること
• 締め切り
 演習: 当日 23:55
!!注意!! 締め切りまでに演習が提出されない場合，そ
日出席が認められないことがあります
 宿題: 次週火曜日（つぎ授業日前々日） 23:55
宿題提出状況も最終成績に加味されます
8
関数電卓について
• 関数電卓（プログラム電卓は不要）を持ってく
ること（試験でも関数電卓のみ持ち込み可）
– 対数(log)・指数(𝑒 𝑥 )・平方根( )・べき乗(𝑥 𝑦 )・階乗(𝑛!)・
順列( 𝑛𝑃𝑚 )・組合せ( 𝑛𝐶𝑚 )などが計算できるもの
– 生協に置いてもらっている
Canon F-605Gが1,000円位でお勧め
– 試験でも使う（携帯電話，スマートフォンの
電卓アプリケーション使用は不可）
F-605G
※旧モデル(F-502G)でも可
9
統計（statistics）とは
す
統べる多くの物を一つにまとめる（cf. 天下統一）
+
計るある基準をもとにして物の度合いを調べる
推しはかって見当をつける
集団の個々の構成要素の分布を調べ
その集団の属性を数量的に把握すること
「デジタル大辞泉」より抜粋
10
統計の重要性は年々高まっている
• 統計の重要性は高まり続けている
データマイニング，機械学習，
自然言語処理，音声認識，ビジ
ネス・インテリジェンス，競合分
析，WEB分析，A/Bテスト，与信
分析，潜在解約顧客推定，・・・
さまざまな分野において，データから計算機の力で
「価値」を引き出し，活用することが求められている
所謂「データ・サイエンス」
11
注目される統計学
• 「統計的な思考というものが，読み書きと同じように
必須の能力となる時代がやって来る」
1903, by Herbert George Wells
(作家・思想家; SFの父) 「タイムマシン」「宇宙戦争」，…
• 「とにかく統計だ」
「これからの１０年で最もセクシーな職業は統計家
(statistician)だろう」
2009, by Hal Ronald Varian
(MIT名誉教授，Google社チーフエコノミスト)
12
記述統計から推計統計へ
• 「統計」の歴史と，ふたつの世代
 記述統計 (～20世紀；現在でも残っている)
（基本的に全数調査によって）収集したデータから平均・
分散などを求めてデータの性質を調べる
 推計統計 (20世紀～)
無作為に部分収集（サンプリング）された
データ（標本）から，確率論に基づいて，
全体（母集団）の性質を推測（予測）する
ひと口のスープから
鍋全体の味を推し計る
この講義の主要な部分は推計統計の基盤である
確率の計算や確率論に関わるものになります
13
近代確率論と推計統計学
• 高校までの確率は，ほぼ古典確率論の範疇
• 近代確率論は古典確率論を包含する形で拡張した
もの
• 本講義では，近代確率論の基本と，その推計統計
への初歩的応用までを扱う
推計統計学
記述統計学近代確率論本講義の扱う

範囲
古典確率論
14
確率論を学ぶ意義
• 推計統計における確率の役割は既述の通り
 統計関連ツール(Excel・R・MATLAB・SPSS・・・)を正しく使
うための基礎固め，独自の応用も可能に
 統計を安全に自在に乗りこなすためのライセンス
• 日常生活の中にも様々な確率的要素
 進路選択，ビジネス的意思決定，保険・金融商品，賭け
事，宝くじ，・・・逆に，世の中に「確定的」なことはほとんどない
 古典的な確率論は貴族(退役軍人？)が知人（取り巻
き？）の数学者に賭け事の相談をしたことで発展した
 人間（の脳）は確率を直観的に測る（感じる）ことが苦手？
（様々な誤謬，パラドックス・ジレンマ）
15
確率前夜: 賭け事の相談1
• Pascal，知人の de Mere から相談される(17C中頃)
 2人で3回先勝，賭け金(ℎ)総取りルールでの対戦ゲーム
 第3戦までで，自分の2勝1敗のところで中止になった
 この場合，公平な賭け金の配分とは？
 判定勝ちで自分が総取り？／勝ち数で比例配分？…
• Pascal の回答
 対戦を続けたとしたときに，起き得る状況を考えましょう
 第4戦で，勝 → 3勝で総取り，負 → 2勝2敗の五分で等分
1 1 1 3
 実力互角なら × ℎ + × ℎ = ℎ があなたの取り分です
2 2 2 4
「確率」という概念がなかった時の話
16
• Pascal は，さらに問題を「一般化」する
 五分の形勢で中止なら，等分でよい(確認)
 2勝0敗のとき？第3戦で勝なら総取り，負なら前頁と同じ
1 1 3 7
→ 取り分: × ℎ + × ℎ = ℎ …(A)
2 2 4 8
 1勝0敗のとき？第2戦で勝なら(A)，負なら等分
1 7 1 1 11
→ 取り分: × ℎ + × ℎ = ℎ
2 8 2 2 16
 相手と立場を入れ替えても同じなので，これで全パターン網羅
まだ起きていない出来事をもとにして数値を評価・決定する
⇩
これは紛れもなく「期待値」の考え方
17
確率前夜: 賭け事相談2

• 「de Mere 2 つサイコロ」
 胴元がサイコロ 2 個を回数を宣言して振るで，1 回でも
「2 個とも 6 目(ゾロ目)」になることがあるかないか賭ける
 「ある」に賭けて有利になる，何回以上振るときか？
※ 「有利」と，「ある」可能性≫「ない」可能性，こと
• de Mere なり考察(結果的に誤り)
 サイコロ1個場合だと，6 目が出る 6回に1回，これ
を4回繰り返せ可能性4倍(6回に4回＝3回に2回)で有利
 サイコロ2個で 6 ゾロ目 36回に1回なで，19 回振れ
，「ある」可能性が「ない」を上回る
 用心して，24 回以上振るときに「ある」に賭けることにした
→ 大損することに・・・
18
• 2 つのサイコロ: Pascal と Fermat の往復書簡
 この問題は当時 Pascal にとっても決して簡単ではなく，同
じ数学者の Fermat と意見交換しながら正解に辿り着いた
(1) 6 が出る可能性ではなく「出ない可能性」に着目すべき
(2) 繰り返しの効果は，倍数ではなく，べき乗数で作用する
 わかりやすくするため，ここから確率を使って書くと…
 サイコロ1個の場合，6が出ない確率 5 6，4回繰り返す
と 5 6 4 ≅ 0.482 < 0.5 → 「出る」有利，でもギリギリ
 サイコロ2個の場合，6のゾロ目が出ない確率 35 36，
24回繰り返すと 35 36 24 ≅ 0.508 ≅ 0.5 → 互角
6のゾロ目がでる確率 2 3 を確保するためには
実は 39 回も振る必要がある
ごびゅう
Gambler‘s Fallacy (ギャンブラーの誤謬)
• 賭け事で負け続けていても（負け続けるほど）「次こそ
勝てるはず」と思い込み，止められない
• 宝くじを毎年買っていると「今年こそ当たるかも」という
気がする
• コイン投げで裏が連続して出続けると「そろそろ表が
出るぞ」という気がする
どれも確率的には「同じ構造の」間違い
ギャンブルや宝くじにおいては，報酬への期待がもたらす「楽観バイアス」の影響が
さらに思考・判断を曇らせる・・・
ごびゅう
Gambler‘s Fallacy (ギャンブラーの誤謬)
• 実際にコインを100万回×10セット投げてみると・・・
…表裏裏裏裏裏裏裏裏裏裏？
10回連続で裏
裏が
10回連続 522 484 492 491 486 461 484 433 494 502
次に
表が出る
257 242 230 250 231 241 256 221 243 253
2424
≅ 0.4999 ≅ は「およそ等しい」
4849 ≓ と同じ
Birthday Paradox
• 50名のクラスで，誕生日が同じ学生のいる確率は？
• うるう年とか，年齢違いとかは取りあえず考えない
• 全ての学生の誕生日が異なる確率：
1 2 3 49
1− 1− 1− ⋯ 1−
365 365 365 365
364 363 362 316 364𝑃49
= ⋯ = ≓ 0.029626
365 365 365 365 36549
• 求める確率：
𝑃 49
1 − 364 49 ≓ 0.970374
365
50名も集まれば，ほぼ必ず同じ誕生日のペアがいる
Birthday Paradox
• 「97%以上？？？もっと少ないず・・・」という錯覚が
あるとすれ，そ原因？
 「自分と同じ」誕生日人がいる確率と(無意識に)混同
 365日中たった1日に誕生日が一致するということが珍
しそうという感覚（遠く街で偶然知り合いに出会う感じ？）
 50名中ペア種類数が 50𝐶2 = 1225 と大きいこと

見落とし
• これら思い込みや錯覚どうやら生得的なもで

あり，訓練によってしか克服されない
※教科書p.22 例題7に類似の問題
Monty Hall Paradox
• 三つ扉うち一つ「当たり」，中に豪華賞品
• 回答者一つ（例え B）を選ぶ
• 司会者(Monty Hall) 正解を知っており，A，C うち
「外れ」扉(例え C)を開けて見せる
• そこで，回答者に選択変更チャンスが与えられる
• たして A に変更すべきか，B ままでよいか・・・？
A B C
24
Monty Hall Paradox

A B C
25
Monty Hall Paradox

A B C
26
Monty Hall Paradox

しまった
A 変えておけば… B C
27
Monty Hall Paradox

あっぶねー
A 変えなくて
よかった
B C
Monty Hall Paradox
• [Marilyn vos Savant (IQ 228 天才) 1990]
“Contestants who switch have a 2/3 chance of winning,
while contestants who stick to their initial choice have
only a 1/3 chance.”＝「変えれ正解確率が倍になる」
• 批難殺到: 「単に “二者択一” になっただからどちらで

も確率1/2で，変えても変えなくても同じに決まっている」
• 博士号保持者や数学者まで同様批難に加わるも，
シミュレーション結果 Savant 言う通りに・・・
• 大数学者 Paul Erdős (*) 等を含む批難者
たちも白旗
(*) 20世紀に最も多く論文を書いた数学者
Monty Hall Paradox
100
正解回数
90 選択変更しない
80
70 選択変更する
60 ほ
ぼ
50 2
40 倍
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 実行回数
「変えても変えなくても同じ」であるかのような
「錯誤」は誰にでも起きる
30
統計学Ａの目的
• 「近代確率論に基づく確率」に関する基本的な考え
方・知識を得ることで，正しい確率的思考のよりどこ
ろとする
 確率空間，事象，確率の公理的定義・・・
 高校で習った確率の定義の拡張
• 様々な確率の概念，意味を理解し，計算を体験する
 確率モデル，基本確率分布，事象の演算・・・
• 確率に関する，より精緻な知識の下で推計統計の
初歩に取り組む
 統計的推定，統計的検定・・・
31
統計学Ａの特徴
• 内容は，ほぼ数学とその応用です
• 高校の数学IIIの内容を含みます（文系コース，商業
科出身の方は，・・・「諦めずに」頑張ってください）
• 理系コース出身の人にとっては高校で既に習った
内容も出てきますが，復習のつもりで…
• 全体として具体例を伴わない抽象的な話が多くなり
ます（大学以上の数学に共通）
• 単位を落とす人は決して多くありませんが，良い成
績をとるためには(それなりに)努力が必要です
32
データの整理（第０章）
• まず，統計の基本中の基本であるデータの整理の
復習から始める
• (生)データから得られる特性値（平均，分散，標準偏
差，共分散，相関係数等）は，データの持つ特徴や
傾向を「要約的」に表している
• 特性値は生データを加工した度数分布からも得るこ
とができる
• 特性値は，記述統計の概念であるが，推計統計にお
いても，データ全体(「母集団」)の一部である「標本」
の特性値(「統計量」という)が，母集団の推測に用い
られ，さらには，確率の数値的意味付けとも深く関係
33
変量とデータ（高校課程数学Iより）
• 変量：あるひとまとまりの事物の特性（気象状況，人
の身体性，試験の成績，等）を表す量で，観測，測
定によって得る
• (生)データ：変量の個々の値を集めたもの
• 離散変量：飛び飛びの値しかとらない変量
 例：試験の点数，人口，年間出荷数，さいころの目，・・・
• 連続変量：どこまでも細かい刻み幅での値をとり得
る変量
 例：気温，湿度，身長，体重，放射線量，・・・
本講義では当面，変量は離散変量であることを前提とする
34
データの特性値
• データから得られる，変量の持つ特徴を表す値（平
均，分散，標準偏差，共分散，相関係数等）
• 変量 𝑥 について，𝑁 個の数値から成る資料（デー
タ）𝑥1 𝑥2 , ⋯ , 𝑥𝑁 が与えられたとき，これをもとに変
量の大まかな「位置」を知りたい
（算術）平均（値）（mean）
𝑁
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 𝑖=1 𝑥𝑖
𝑥= =
𝑁 𝑁
資料の総和を資料の個数で割ったもの
以降，𝑥 は変量 𝑥 について得られたデータの平均を表すこととする
35
Σ について
- シグマ，総和記号，summation -
• 例え，𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 を
5
𝑎𝑖 ように「コンパクトに記述」するため記号
𝑖=1 𝑖 を「束縛変数」という（にすぎない）
• 𝑎𝑖 部分がもっと複雑な式になっても基本的に同じ
5
• 𝑖=1 𝑎𝑖 , 𝑖=1,5 𝑎𝑖 , ⋯ 色々な書き方があるが全く
同じ意味
• いちいち展開形（ 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 ）に戻さ
ずに記述し，そまま計算することに慣れよう
36
Σ について
5
• 𝑖=1 𝑎𝑖 = 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5
5
• 𝑖=1 𝑘𝑎𝑖 = 𝑘𝑎1 + 𝑘𝑎2 + 𝑘𝑎3 + 𝑘𝑎4 + 𝑘𝑎5
5
= 𝑘 𝑎1 + 𝑎2 + 𝑎3 + 𝑎4 + 𝑎5 = 𝑘 𝑖=1 𝑎𝑖
5 𝑘 は束縛変数 𝑖 に関係ない
• 𝑖=1 𝑖 = 1 + 2 + 3 + 4 + 5 → Σの外に出してよい
5
• 𝑖=1 1 = 1 + 1 + 1 + 1 + 1 = 5
𝑁
• 𝑖=1 1 = 1 + 1 + ⋯ + 1 = 𝑁
𝑁
𝑁 𝑁 𝑁
• 𝑖=1 𝑘 = 𝑖=1 𝑘 ∙ 1 = 𝑘 𝑖=1 1 = 𝑘𝑁 𝑘 ⋅ 1 は 𝑘 × 1 と同じ
𝑁 𝑁 𝑁
• (𝑎
𝑖=1 𝑖 +𝑏 𝑖 ) = 𝑎
𝑖=1 𝑖 + 𝑖=1 𝑏𝑖
37
Σ について
• 集合による加算項(和をとる対象の式)の指定
𝑎|𝑎∈𝐴 𝑎 または 𝑎∈𝐴 𝑎 ・・・集合 𝐴 の元の総和
𝑎|𝑎∈𝐴,𝑎>1 𝑎 ・・・集合 𝐴 の元のうちで，1より大きい

ものの総和
「左辺を右辺と定義する」
• 無限個の加算項という意味
∞ 𝑛
↓
𝑎1 + 𝑎2 + 𝑎3 + ⋯ = 𝑎𝑘 ≜ lim 𝑎𝑘
𝑛→∞
𝑘=1 𝑘=1
・・・無限級数の和
値(極限値)を持つか否かは数列 𝑎𝑛 による
38
平均の計算例）
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙𝟓 𝒙𝟔 𝒙𝟕 𝒙𝟖 𝒙𝟗
50 48 45 52 50 55 51 49 50
50 + 48 + 45 + 52 + 50 + 55 + 51 + 49 + 50 450
𝑥= = = 50
9 9
60
50
40 平均は50
30 → データの「中心」が
20 50付近に位置している
10
0
x1 x2 x3 x4 x5 x6 x7 x8 x9
39
データ特性値
同じ平均をもつ二つデータ例）
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙𝟓 𝒙𝟔 𝒙𝟕 𝒙𝟖 𝒙𝟗 𝒙𝟏𝟎
50 48 45 52 50 55 51 49 50 ?
𝒚𝟏 𝒚𝟐 𝒚𝟑 𝒚𝟒 𝒚𝟓 𝒚𝟔 𝒚𝟕 𝒚𝟖 𝒚𝟗 𝒚𝟏𝟎
数値存在する 50 20 10 45 70 85 40 75 55 ?
範囲
90 𝑦10 = 60 散らり
80 範囲内だが𝑥10 = 60
70
異常
60
50
40
30
20 どちらデータも
10 平均 50
0
x1, y1 x2, y2 x3, y3 x4, y4 x5, y5 x6, y6 x7, y7 x8, y8 x9, y9 (x10, y10)
40
・変量𝑥について，𝑁個の数値から成る資料（データ）
𝑥1 𝑥2 , ⋯ , 𝑥𝑁 が与えられたとき，変量の「散らばり具
合」を知りたい
分散（variance）
𝑥 − 𝑥 2 + 𝑥 − 𝑥 2 + ⋯+ 𝑥 − 𝑥 2
1 2 𝑁
𝑠𝑥2 =
𝑁
𝑁 2
𝑖=1 𝑥𝑖 − 𝑥
=
𝑁
各数値と平均との差の自乗（ 𝑥𝑖 − 𝑥 2 ）をとり
その総和を資料の個数（𝑁）で割ったもの
※自乗をとることで差の正負（±）を気にしなくてよくなる
41
分散の計算例）
𝑖 1 2 3 4 5 6 7 8 9
𝑥𝑖 50 48 45 52 50 55 51 49 50
𝑥𝑖 − 𝑥 0 -2 -5 2 0 5 1 -1 0
0 + 4 + 25 + 4 + 0 + 25 + 1 + 1 + 0 60
𝑠𝑥 2 = = = 6.66 ⋯ ≅ 6.7
9 9
𝑖 1 2 3 4 5 6 7 8 9
散
𝑦𝑖 50 20 10 45 70 85 40 75 55 ら
ば
𝑦𝑖 − 𝑦 0 -30 -40 -5 20 35 -10 25 5 り
具
合
2
0 + 900 + 1600 + 25 + 400 + 1225 + 100 + 625 + 25 に
𝑠𝑦 = 大
4900 9 き
な
= = 554.44 ⋯ ≅ 544.4 差
9
42
データ特性値
分散（再掲）： 2 𝑁
𝑥𝑖 − 𝑥 𝑖=1
𝑠𝑥2 =
𝑁
自乗を取ることで差正負（±）を気にしなくてよくなる
しかし・・・
散らり具合数値指標として直感性に欠ける
90
80
70 見た目散らり具合：
60 最大で±35~40程度
50
40 分散：
30
𝑠𝑦 2 ≅ 544.4
20
10
→ 数値として見た目と
0 乖離している
y1 y2 y3 y4 y5 y6 y7 y8 y9 ∵自乗をとったから
43
データ特性値
・変量「散らり具合」を，もっと直感に合う数値で
表したい
標準偏差（standard deviation）
𝑁 𝑥𝑖 −𝑥 2
𝑠𝑥 = 𝑖=1
・・・分散平方根
𝑁
60 4900
𝑠𝑥 = ≅ 2.58, 𝑠𝑦 = ≅ 23.3
9 9
𝑥 散らり概 ±5程度 𝑦 散らり概最大で±35~40
散らり数値指標として直感的に理解しやすい
44
・データ中の個々の数値がそのデータ全体の数値の
範囲の中でどのくらいの位置にあるか知りたい
偏差値（データの散らばりを考慮した各データ値の平均からのズレの程度）
𝑥𝑖 − 𝑥 𝑥𝑖 : 各データの値
𝑇𝑖 = 10 × + 50 𝑥: 𝑥の算術平均
𝑠𝑥 𝑠𝑥 : 𝑥の標準偏差
偏差値50のデータ値・・・平均値に等しい値
偏差値60 (40) 〃・・・平均値より𝑠𝑥 高い（低い）値
偏差値70 (30) 〃・・・平均値から2𝑠𝑥 高い（低い）値
⋮
偏差値±10𝑛 + 50 〃・・・平均値から𝑛𝑠𝑥 高い（低い）値
ただし，偏差値はデータ中の個々の数値に対応する値であり代表値ではない
45
データ特性値
・標準偏差が小さけれ（大きけれ），同じ数値に
対する偏差値相対的に高く（低く）なる
・しかし，実際に多く数値が存在する偏差値範
囲似通ったもになる（下例だと30～70前後）
※もちろんこれが当てまらないケースもある 𝑥𝑖 偏差値 𝑦𝑖 偏差値
スケールスケール
90 200
80
65
150 60
70
60 100 55
50 50 50
40 45
0
30
-50 40
20
-100 35
10
0 30
x1 y1 x2 y2 x3 y3 x4 y4 x5 y5 x6 y6 x7 y7 x8 y8 x9 y9
46
分散計算の別法
分散 𝑁
𝑖=1 𝑥𝑖
2
𝑁
𝑠𝑥2 = − 𝑥2 cf. 𝑠2 = 𝑖=1 𝑥𝑖 −𝑥 2
𝑁 𝑁
本当に一致するか確かめてみる・・・
𝑁 2
𝑖=1 𝑥𝑖 − 𝑥
𝑠2 =
𝑁
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑥𝑖 2 − 2𝑥𝑖 𝑥 + 𝑥 2 𝑖=1 𝑥𝑖
2
𝑖=1 2𝑥𝑖 𝑥 𝑖=1 𝑥
2
= = − +
𝑁 𝑁 𝑁 𝑁
𝑁 2 𝑁 𝑁
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 𝑥2 𝑖=1 1 一致することが
= − 2𝑥 +
𝑁 𝑁 𝑁 わかる
𝑁 2 𝑁 2
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖
= − 2𝑥 2 + 𝑥 2 = − 𝑥2
𝑁 𝑁
47
代表値と散布度
• 特性値分類として，「代表値」と「散布度」がある
 代表値データ全体中心的傾向を表す
 散布度データ散らり具合を表す
• 平均代表値一種，分散や標準偏差散布度
一種
• 平均以外代表値として
 中央値(メディアン)，最頻値(モード)
分散，標準偏差以外散布度として
 範囲，四分位偏差，平均偏差，歪度，尖度
等がある(本資料末尾に補足あり)
48
問題１
10名の学生(A～J)が受けた試験の得点は表のとおりであった
学生 A B C D E F G H I J
身長 98 74 80 78 82 81 85 77 79 70
1. 得点の平均と標準偏差を求めよ
2. この集団において，学生A，学生B，それぞれの得点の偏差
値を求めよ
49
度数分布とヒストグラム
𝑖 1 2 3 4 5 6 7 8 9 10
𝑥𝑖 5 4 4 5 6 7 5 6 3 5
y𝑖 6 4 4 6 8 10 6 8 2 6
• 変量の数値を同じ値(*)ごとに整理しなおして各々の
個数（度数，頻度）で表現する → 見やすい (*)離散変量の
場合
𝒙 𝒚
最小値
3 2 𝒌 𝒖𝒌 𝒗𝒌
デ
ー 4 4 1 2 2
タ 3 2
4 4 2階 3 3
を 4 4
昇
5 6 3級 4 𝑥 4 𝑦
5 6
順 5 6 4番号
5の 5の
6 8 階階
に 5 6 5 6級 6級
並 7 10
べ 5 6 6 7値 7値
る 6 同じデータ値は 8 7 8 8
6 まとめる 8 8 9 9
7 10 最大値 9 10 10
50
度数分布とヒストグラム
𝑖 1 2 3 4 5 6 7 8 9 10
𝑥𝑖 5 4 4 5 6 7 5 6 3 5
y𝑖 6 4 4 6 8 10 6 8 2 6
・変量の数値を同じ値(*)ごとに整理しなおして各々の
個数（度数，頻度）で表現する → 見やすい (*)離散変量の
場合
4
𝑥についての
𝒌 𝒖𝒌 , 𝒗𝒌 𝒇𝒌 𝒈𝒌
3
度数
1 2 0 1 2
𝑓𝑘
2階 3階 1 0 1
3級 4級 2 2 0 𝑢𝑘
4番号
5値 4 0
4
𝑦についての
5 6 2 4
6 7 1 0 3
度数
𝑔𝑘
2
7 8 0 2
1
8 9 0 0 𝑣𝑘
0
9 10 0 1
1 2 3 4 5 6 7 8 9 10
度数分布（表）ヒストグラム（度数分布図）
51
度数分布からの特性値
平均 𝑀
𝑁 𝑀 𝑁= 𝑓𝑘
𝑖=1 𝑥𝑖 𝑘=1 𝑓𝑘 𝑢𝑘
𝑥= = 𝑘=1
𝑁 𝑁
𝑘: 階級番号 𝑢𝑘 : 階級値
分散
𝑁 2 𝑀 2
𝑖=1 𝑥𝑖 − 𝑥 𝑘=1 𝑓𝑘 𝑢𝑘 − 𝑥
𝑠2 = =
𝑁 𝑁
平均，分散は度数分布から直接計算することができる
52
分散計算の別法 -度数分布バージョン-
𝑀 𝑀
2
分散 𝑓𝑘 𝑢𝑘 cf. 𝑠2
𝑓𝑘 𝑢𝑘 − 𝑥 2
𝑠2 = − 𝑥2 =
𝑁
𝑁 𝑘=1
𝑘=1
これも一致するか確かめてみる・・・
𝑀 𝑀
𝑓𝑘 𝑢𝑘 − 𝑥 2 𝑓𝑘 𝑢𝑘 2 − 2𝑢𝑘 𝑥 + 𝑥 2
2
𝑠 = =
𝑁 𝑁
𝑘=1 𝑘=1
𝑀 𝑀 𝑀
𝑓𝑘 𝑢𝑘 2 𝑓𝑘 ∙ 2𝑢𝑘 𝑥 𝑓𝑘 𝑥 2
= − +
𝑁 𝑁 𝑁
𝑘=1 𝑘=1 𝑘=1
𝑀 𝑀 𝑀 𝑀
𝑓𝑘 𝑢𝑘 2 𝑓𝑘 𝑢𝑘 𝑓𝑘 𝑓𝑘 𝑢𝑘 2
= − 2𝑥 + 𝑥2 = − 2𝑥 2 + 𝑥 2
𝑁 𝑁 𝑁 𝑁
𝑘=1 𝑘=1 𝑘=1 𝑘=1
𝑀
一致することが 𝑓𝑘 𝑢𝑘 2
= − 𝑥2
わかる 𝑁
𝑘=1
53
度数分布からの代表値計算例
3×1+4×2+5×4+6×2+7×1
𝒌 𝒖𝒌 , 𝒗𝒌 𝒇𝒌 𝒈𝒌
𝑥=
1 2 0 1 1+2+4+2+1
2 3 1 0 50
3 4 2 2 = =5
4 5 4 0 10
5 6 2 4
6 7 1 0 𝑠𝑥2 =
7 8 0 2 32 × 1 + 42 × 2 + 52 × 4 + 62 × 2 + 72 × 1
8 9 0 0 − 52
1+2+4+2+1
9 10 0 1
262
階級番号階級値変量𝑥の変量𝑦の = − 25 = 1.2
度数度数 10
2 × 1 + 4 × 2 + 6 × 4 + 8 × 2 + 10 × 1 60
𝑦= = =6
1+2+4+2+1 10
2 2 2 2
2 × 1 + 4 × 2 + 6 × 4 + 8 × 2 + 10 × 1
2
408
𝑠𝑦2 = −6
2
= − 36 = 4.8
1+2+4+2+1 10
54
問題２（宿題）
2個のさいころを15回投げたところ，出た目は表のようになった
このとき
1. 各回に出た目の和の度数分布を表にし，おおまかなヒスト
グラムを描け
2. 上記の和の平均値と標準偏差を度数分布から計算せよ
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
サイコロ1 3 3 3 3 1 2 5 2 4 1 3 1 2 4 4
サイコロ2 1 5 2 5 6 3 1 4 5 2 5 5 3 3 3
55
相対度数分布からの特性値
𝝋𝒌
𝒌 𝒖𝒌 𝒇𝒌
 相対度数 = 𝒇𝒌 𝑵
1 2 0 0
𝑀
𝜑𝑘 = 𝑓𝑘 𝑁 = 𝑓𝑘 𝑚=1 𝑓𝑚 2 3 1 0.1
3 4 2 0.2
 平均 4 5 4 0.4
𝑀
𝑥= 𝑘=1 𝜑𝑘 𝑢𝑘 5 6 2 0.2
6 7 1 0.1
 分散 7 8 0 0
𝑀 8 9 0 0
𝑠𝑥2 = 𝑘=1 𝜑𝑘 𝑢𝑘 − 𝑥 2
9 10 0 0
𝑀
相対度数
= 2 𝑥2
𝑘=1 𝜑𝑘 𝑢𝑘 − （0～1の値を取り，足すと１）
56
相対度数分布からの代表値
𝑀 𝑀 𝑀
𝑘=1 𝑓𝑘 𝑢𝑘
𝑥= = 𝑓𝑘 𝑁 𝑢𝑘 = 𝜑𝑘 𝑢𝑘
𝑁 𝑘=1 𝑘=1
𝑀 2 𝑀
𝑘=1 𝑓𝑘 𝑢𝑘 − 𝑥
𝑠𝑥2 = = 𝑓𝑘 𝑁 𝑢𝑘 − 𝑥 2
𝑁 𝑘=1
𝑀
= 𝜑𝑘 𝑢𝑘 − 𝑥 2
𝑘=1
𝑀 𝑓𝑘 𝑢𝑘 2 𝑀
𝑠𝑥2 = − 𝑥2 = 𝑓𝑘 𝑁 𝑢𝑘 2 − 𝑥 2
𝑘=1 𝑁 𝑘=1
𝑀
= 𝜑𝑘 𝑢𝑘 2 − 𝑥 2 …「分散計算の別法」に相当
𝑘=1
57
相対度数と確率
• 相対度数と確率(の値)は「見た目」の性質が似ている
 0~1 までの値しかとらないこれら「確率の定義」については
以降，より厳密に扱っていく
 すべて足し合わせると 1 になる
→ ただ似ているだけ？
• 「ランダムな」変量として，サイコロを何回も投げたと
きの出目の数値（1,2,3,4,5,6）を考える
 各目の出やすさは均等（確率1 6ずつ）とする
 観測される相対度数と，各出目の確率(1 6
= 1.666 ⋯)にはどういう関係があるか？
58
• とりあえず6回投げてみると…
2が出なかった 6が2回出た
● ●
確率が均等 ×
→ 度数が常に均等
59
• 回数を増やしていくと…
1.666 ⋯
回数を増やすと，サイコロの出目の相対度数は
均等の値(= 1.666 ⋯ =各出目の確率)に接近
60
ランダムな変量の各値の相対度数は，無限個の資料
（データ）においてその値の(理論的)出現確率に一致
61
補足: その他の主な代表値
• 中央値（メディアン; median）※「メジアン」?
変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 の各数値を昇順に並べ直し
たものを 𝑥 ′1 , 𝑥 ′ 2 , ⋯ , 𝑥 ′ 𝑁 としたとき，丁度中央に位置する
数値を「中央値」という
𝑥 ′ (𝑁+1) 2 , 𝑁が奇数
𝑥 = 𝑥 ′𝑁 2 + 𝑥 ′𝑁 2+1
, 𝑁が偶数
2
𝑁が奇数のとき 𝑁が偶数のとき
𝑥 ′1 , ⋯ , 𝑥 ′ 5 , ⋯ , 𝑥 ′ 9 𝑥 ′1 , ⋯ , 𝑥 ′ 4 , 𝑥 ′ 5 , ⋯ , 𝑥 ′ 8
中央に位置する唯一の数値が定まる中央は二数値の間→算術平均をとる
62
補足: そ他主な代表値
• 最頻値（モード; mode） ※「流行値」とも（cf. 「こ春モード …」）
度数分布において最大度数を与える階級値を「最頻
値」という
𝑥 = argmax 𝑓𝑘 = argmax 𝜑𝑘 こ式憶えなくて
𝑢𝑘 |𝑘=1,⋯,𝑀 𝑢𝑘 |𝑘=1,⋯,𝑀 よいです
4
3 変量𝑥 最頻値𝑥 6
𝑥について
度数
2
𝑓𝑘
1 変量y 最頻値𝑦 4
0 𝑢𝑘
4 最頻値「外れ値」に強い
3
𝑦について
但し，探さなけれならない
度数
𝑔𝑘
2
1 一意に定まらないことがある
0 𝑣𝑘
1 2 3 4 5 6 7 8 9 10
63
補足: その他の主な代表値
• （算術）平均，メディアン，モードは，どれもデータの分
布の「中心」を表わす特性値(＝代表値)である
• データ分布が対称の場合，中央値は平均値に等しい
• データに外れ値が加わっている場合，平均は三つ
の指標の中で最も強い影響を受ける
• 多峰型の分布においては，最頻値が一意に求まら
ないことがある（前頁）
• 最頻値の概念は「名義変量」（数値
以外の変量）に対しても適用できる
（e.g., 最も人気のあるのは猫）
64
補足: その他の主な散布度
• 範囲（range）
 変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 の各数値を昇順に並べ直し
たものを 𝑥 ′1 , 𝑥 ′ 2 , ⋯ , 𝑥 ′ 𝑁 としたとき，最大値 𝑥 ′ 𝑁 と最小値
𝑥 ′1 の差を「範囲」という
しぶんい
• 四分位偏差（quartile deviation）
𝑄𝐷 = 𝑄3 − 𝑄1 2
 ただし，𝑄𝑛 (𝑛 = 1,2,3) は「第 𝑛 四分位数」で
𝑁 が奇数のとき
𝑄1 : 𝑥 ′1 , ⋯ , 𝑥 ′ (𝑁+1) 2−1 の中央値，𝑄3 : 𝑥 ′ (𝑁+1) ′
2+1 , ⋯ , 𝑥 𝑁 の中央値
𝑁 が偶数のとき
𝑄1 : 𝑥 ′1 , ⋯ , 𝑥 ′ 𝑁 2 の中央値，𝑄3 : 𝑥 ′ 𝑁 ′
2+1 , ⋯ , 𝑥 𝑁 の中央値
※ 𝑄2 は全体の中央値に等しい
65
補足: その他の主な散布度
• 平均(絶対)偏差（mean deviation）
𝑁
𝑖=1 𝑥𝑖 −𝑥
𝑀𝐷 =
𝑁
 変量 𝑥 のデータ 𝑥1 𝑥2 , ⋯ , 𝑥𝑁 と平均 𝑥 との差の絶対値
𝑥𝑖 − 𝑥 (絶対偏差)の平均
• 𝑝 乗平均偏差（𝑝th-power mean deviation）

1
𝑁 𝑝 𝑝
𝑖=1 𝑥𝑖 −𝑥
𝑀𝐷𝑝 =
𝑁
 平均偏差，標準偏差の一般化
 𝑝 = 1 のとき平均偏差，𝑝 = 2 のとき標準偏差

"統計学A 第１回"を開く

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

"統計学A 第１回"を開く

Uploaded by

Copyright:

Available Formats

統計学Ａ

詳細は LiveCampus のマニュアル参照のこと 4

詳細は LiveCampus のマニュアル参照のこと

記述統計学近代確率論本講義の扱う

確率前夜: 賭け事相談2

 50名中ペア種類数が 50𝐶2 = 1225 と大きいこと

• これら思い込みや錯覚どうやら生得的なもで

Monty Hall Paradox

Monty Hall Paradox

Monty Hall Paradox

Monty Hall Paradox

• 批難殺到: 「単に “二者択一” になっただからどちらで

𝑎|𝑎∈𝐴 𝑎 または 𝑎∈𝐴 𝑎 ・・・集合 𝐴 の元の総和

𝑎|𝑎∈𝐴,𝑎>1 𝑎 ・・・集合 𝐴 の元のうちで，1より大きい

• 𝑝 乗平均偏差（𝑝th-power mean deviation）

You might also like

"統計学A 第１回"を開く

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

"統計学A 第１回"を開く

Uploaded by

Copyright:

Available Formats

統計学Ａ

詳細は LiveCampus のマニュアル参照のこと 4

詳細は LiveCampus のマニュアル参照のこと

記述統計学 近代確率論 本講義の扱う

確率前夜: 賭け事 相談2

 50名 中 ペア 種類数が 50𝐶2 = 1225 と大きいこと

• これら 思い込みや錯覚 どうやら生得的なも で

Monty Hall Paradox

Monty Hall Paradox

Monty Hall Paradox

Monty Hall Paradox

• 批難殺到: 「単に “二者択一” になった だからどちらで

𝑎|𝑎∈𝐴 𝑎 または 𝑎∈𝐴 𝑎 ・・・集合 𝐴 の元の総和

𝑎|𝑎∈𝐴,𝑎>1 𝑎 ・・・ 集合 𝐴 の元のうちで，1より大きい

• 𝑝 乗平均偏差（𝑝th-power mean deviation）

You might also like

記述統計学近代確率論本講義の扱う

確率前夜: 賭け事相談2

 50名中ペア種類数が 50𝐶2 = 1225 と大きいこと

• これら思い込みや錯覚どうやら生得的なもで

• 批難殺到: 「単に “二者択一” になっただからどちらで

𝑎|𝑎∈𝐴,𝑎>1 𝑎 ・・・集合 𝐴 の元のうちで，1より大きい