Professional Documents
Culture Documents
Më ®Çu
Trong c¸c gi¸o tr×nh to¸n, vËt lý ë nhµ trêng phæ th«ng ngêi ta thêng chØ xÐt
bµi to¸n trong ®ã kÕt qu¶ phÐp to¸n ®îc x¸c ®Þnh mét c¸ch duy nhÊt. Ch¼ng h¹n, nÕu
ta th¶ mét hßn ®¸ th× nã sÏ r¬i víi mét gia tèc kh«ng ®æi. VÞ trÝ cu¶ hßn ®¸ ë mäi thêi
®iÓm ®Òu cã thÓ tÝnh ®îc. Tuy nhiªn cßn cã nhiÒu bµi to¸n mµ kÕt qu¶ c¸c kÕt qu¶
thùc hiÖn trong chóng kh«ng ®îc x¸c ®Þnh mét c¸ch duy nhÊt, nhng l¹i cã ý nghÜa
lín lao vÒ mÆt khoa häc còng nh viÖc ¸p dông trong kü thuËt, Kinh tÕ, Y häc,…
Ch¼ng h¹n, nÕu ta gieo ®ång tiÒn th× kh«ng thÓ nãi tríc r»ng khi ®ång tiÒn r¬i xuèng
mÆt ®Êt, mÆt sÊp hay mÆt ng÷a cña ®ång tiÒn sÏ lªn trªn, ë ®©y kÕt qu¶ cña phÐp thö
thùc hiÖn kh«ng ®îc x¸c ®Þnh mét c¸ch duy nhÊt. H×nh nh trong c¸c bµi to¸n nh
vËy ta kh«ng nªn nãi tríc mét ®iÒu g× x¸c ®Þnh, tuy nhiªn ngay víi thùc tiÔn cña
nh÷ng trß ch¬i th«ng thêng còng chøng tá mét ®iÒu ngîc l¹i lµ, víi mét sè kh¸ lín
lÇn gieo ®ång tiÒn th× ta thÊy gÇn mét n÷a sè lÇn r¬i mÆt sÊp vµ mét n÷a sè lÇn r¬i mÆt
ng÷a, ®©y lµ mét quy luËt x¸c ®Þnh. Trong lý thuyÕt x¸c suÊt ngêi ta nghiªn cøu c¸c
quy luËt d¹ng ®ã. ChÝnh viÖc thiÕt lËp c¸c bµi to¸n còng ®îc thay ®æi c¨n b¶n. Chóng
ta quan t©m kh«ng ph¶i lµ kÕt qu¶ cña mét phÐp thö x¸c ®Þnh mµ lµ c¸i nhËn ®îc sau
nhiÒu lÇn lÆp l¹i phÐp thö ®ã. Nãi mét c¸ch kh¸c, trong lý thuyÕt x¸c suÊt ta nghiªn
cøu tÝnh quy luËt cña c¸c biÕn cè ngÉu nhiªn hµng lo¹t.
Lý thuyÕt x¸c suÊt xuÊt hiÖn vµ ph¸t triÓn trong qu¸ tr×nh gi¶i quyÕt mét lo¹t c¸c
bµi to¸n riªng lÎ mang tÝnh trß ch¬i vµ øng dông. C¸c kiÕn thøc ®Çu tiªn chóng ta biÕt
®îc cã quan hÖ víi viÖc gi¶i c¸c bµi to¸n vÒ trß ch¬i xuÊt hiÖn tõ thÕ kû XVI – XVII
(D. Cardano, Huyghens, B. Pascal, P. Ferma,…). Sau ®ã c¸c bµi to¸n øng dông b¾t ®Çu
xuÊt hiÖn vµ ph¸t triÓn (®¸ng kÓ ®Çu tiªn lµ c¸c bµi to¸n vÒ ®Ò phßng tai n¹n vµ thiªn
tai). DÇn dÇn ®îc t¸ch ra mét lÜnh vùc c¸c bµi to¸n víi h×nh th¸i riªng biÖt còng nh
ph¬ng ph¸p gi¶i chóng, h×nh thµnh c¸c ®Þnh nghÜa ®Çu tiªn vµ c¸c ®Þnh lý. §Þnh lý
®Çu tiªn thiÕt lËp mèi quan hÖ gi÷a lý thuyÕt vµ thùc hµnh vµ lµ phÇn ®Çu nhãm c¸c
®Þnh lý cã tªn “c¸c §Þnh lý giíi h¹n” cña lý thuyÕt x¸c suÊt do Bernoulli (1654 - 1705)
chøng minh cuèi thÕ kû 17. Sau ®ã sù ph¸t triÓn cña lý thuyÕt x¸c suÊt ®îc tiÕp tôc
trong c¸c c«ng tr×nh cña A. Moivre (1667 - 1754), P. Laplace (1749 - 1827), K. Gauss
(1777 - 1855), Poisson (1781 - 1840), vµ ®Æc biÖt trong c¸c c«ng tr×nh cña nhµ to¸n häc
Nga P.L. Chebshev (1821 - 1894), vµ c¸c häc trß cña «ng ta A.A. Markov (1856 –
1922), A. M. Liapunov (1857 - 1918). Trong thÕ kû XX sù ph¸t triÓn lín nhÊt cña lý
thuyÕt x¸c suÊt vµ viÖc tr×nh bµy nã mét c¸ch hoµn thiÖn nh mét khoa häc to¸n häc ®·
®îc giíi thiªu trong c¸c c«ng tr×nh cña c¸c nhµ to¸n häc X« viÕt.
H¬n 300 n¨m ph¸t triÓn, ®Õn nay néi dung vµ ph¬ng ph¸p cña x¸c suÊt thèng kª
rÊt phong phó, ®îc ¸p dông réng r¶i trong nhiÒu lÜnh vùc. V× vËy, viÖc häc tËp, nghiªn
cøu m«n x¸c suÊt thèng kª ®· trë thµnh nhu cÇu kh«ng thÓ thiÕu ®èi víi sinh viªn cña
nhiÒu ngµnh cña c¸c trêng §¹i häc còng nh cña c¸c c¸n bé nghiªn cøu cña hÇu hÕt
c¸c ngµnh khoa häc kû thuËt.
§Ó n©ng cao chÊt lîng ®µo t¹o, ®¸p øng víi nhu cÇu cña sù ph¸t triÓn x· héi vµ
t¹o ®iÒu kiÖn thuËn lîi cho sinh viªn häc tËp nghiªn cøu m«n häc nµy, chóng t«i biªn
so¹n cuèn s¸ch X¸c suÊt & thèng kª. Qua cuèn s¸ch nhá nµy, chóng t«i mong muèn
vµ hy väng c¸c b¹n sinh viªn sÏ ®¹t kÕt qu¶ cao trong häc tËp còng nh ¸p dông ®îc
c¸c ph¬ng ph¸p cña x¸c suÊt thèng kª trong c«ng viÖc cña m×nh sau nµy.
§èi víi c¸c b¸c sü, c¸c dîc sü, c¸c nhµ nhµ kinh tÕ, c¸c nhµ doanh nghiÖp vµ c¸c
chuyªn gia nghiÖp vô qu¶n lý, biÕt thu thËp, xö lý c¸c th«ng tin nghÒ nghiÖp lµ yªu cÇu
1
X¸c suÊt & Thèng kª Y häc
kh«ng thÓ thiÕu ®îc. To¸n häc nãi chung, lý thuyÕt x¸c suÊt thèng kª nãi riªng, lµ
c«ng cô nghiªn cøu rÊt h÷u hiÖu. §èi víi sinh viªn c¸c ngµnh Y khoa, sinh häc, kinh
tÕ, kû thô©t, môc ®Ých cuèi cïng cña häc to¸n lµ sö dông ®îc c«ng cô nµy trong c«ng
viÖc cña m×nh. Do ®ã cuèn s¸ch ®îc viÕt theo quan ®iÓm thùc hµnh, chó träng viÖc
vËn dông c¸c ph¬ng ph¸p cña x¸c suÊt thèng kª trong thùc tÕ mµ kh«ng ®i s©u vµo
viÖc chøng minh c¬ së lý thuyÕt to¸n häc mét c¸ch chÆt chÏ.
Víi tinh thÇn øng dông, tèc ®é, dÔ hiÓu vµ dÔ ¸p dông vµo thùc tiÔn, cuèn s¸ch chia
lµm hai phÇn: phÇn 1 “ S¬ lîc vÒ lý thuyÕt x¸c suÊt” chØ tr×nh bµy trong hai ch¬ng.
Ch¬ng 1. c¸c kh¸I niÖm c¬ b¶n vÒ x¸c suÊt
Ch¬ng 2. Lîng ngÉu nhiªn hµm ph©n phèi
Cuèi mçi ch¬ng chóng t«i còng ®a ra mét sè bµi tËp nh»m cho sinh viªn vËn
dông lý thuyÕt ®· häc mét c¸ch thµnh th¹o, vµ thÊy ®îc phÇn nµo øng dông cô thÓ cña
nã vµo thùc tiÔn.
PhÇn 2 “Thèng kª to¸n häc” tr×nh bµy trong 4 ch¬ng
Ch¬ng3. mÉu vµ c¸ch biÓu diÔn mÉu
Ch¬ng 4. Lý thuyÕt íc lîng
Ch¬ng 5. kiÓm ®Þnh gi¶ thuyÕt thèng kª
Ch¬ng 6. T¬ng quan vµ håi qui
§Æc biÖt cuèi ch¬ng 1 phÇn 2 vµ cuèi s¸ch chóng t«i híng dÉn c¸ch sö dông
m¸y tÝnh bá tói Casio fx 500MS trong viÖc tÝnh to¸n mét vµi tham sè trong x¸c suÊt
thèng kª phôc vô cho viÖc thi cö vµ nghiªn cøu sau nµy khi cha cã ®ñ ®iÒu kiÖn.
V× kh¶ n¨ng cã h¹n, nªn cuèn s¸ch khã tr¸nh khái nh÷ng sai sãt, mong c¸c b¹n ®äc
vµ ®ång nghiÖp ®ãng gãp ®Ó chóng t«i hoµn thiÖn h¬n n÷a.
T¸c gi¶
2
X¸c suÊt & Thèng kª Y häc
Lý thuyÕt x¸c suÊt lµ mét bé m«n To¸n häc nghiªn cøu nh÷ng quy luËt ngÉu
nhiªn vµ nh÷ng hiÖn tîng sè lín. Nã x¸c lËp nh÷ng quy luËt tÊt nhiªn Èn dÊu sau
nh÷ng hiÖn tîng mang tÝnh ngÉu nhiªn. Khi nghiªn cøu mét sè lín hiÖn tîng t¬ng
tù, viÖc n¾m b¾t nh÷ng quy luËt nµy sÏ cho phÐp dù b¸o c¸c hiÖn tîng ngÉu nhiªn ®ã
sÏ xÈy ra nh thÕ nµo. C¸c ph¬ng ph¸p cña lý thuyÕt x¸c suÊt ®îc øng dông réng r¶i
trong viÖc gi¶i quyÕt nh÷ng bµi to¸n thuéc c¸c lÜnh vùc kh¸c nhau cña khoa häc Tù
nhiªn Kinh tÕ vµ X· héi.
3
X¸c suÊt & Thèng kª Y häc
Ngêi ta ®Þnh nghÜa quan hÖ gi÷a c¸c sù kiÖn vµ c¸c phÐp to¸n trªn chóng còng
gièng nh c¸c phÐp to¸n trªn tËp hîp, v× vËy mµ sö dông c¸c phÐp to¸n nh trong lý
thuyÕt tËp hîp.
1.2.1. Sù kiÖn kÐo theo
Sù kiÖn A gäi lµ kÐo theo sù kiÖn B nÕu A xÈy ra th× B còng xÈy ra. KÝ hiÖu lµ
A B.
1.2.2. Sù kiÖn t¬ng ®¬ng
Hai sù kiÖn A vµ B gäi lµ t¬ng ®¬ng khi vµ chØ khi A B vµ B A.
1.2.3. Tæng c¸c sù kiÖn
Sù kiÖn C ®îc gäi lµ tæng c¸c sù kiÖn A vµ B, ký hiÖu A+B = C, hoÆc A B = C
khi vµ chØ khi C xÈy ra th× Ýt nhÊt 1 trong 2 sù kiÖn A hoÆc B xÈy ra.
A B
AB B
A
n
Tæng qu¸t. TÝch cña n sù kiÖn A1 , A2 ,..., An lµ sù kiÖn kÝ hiÖu A
i 1
i tho¶ m·n:
n
A
i 1
i xÈy ra tÊt c¶ Ai ®Òu xÈy ra ( i 1;2;...; n ).
1.2.5. HiÖu cña hai sù kiÖn
Sù kiÖn E ®îc gäi lµ hiÖu cña hai sù kiÖn A vµ B, kÝ hiÖu E = A\ B nÕu E xÈy
ra khi A xÈy ra mµ B kh«ng xÈy ra.
A B
4
X¸c suÊt & Thèng kª Y häc
i) Hai sù kiÖn A vµ B ®îc gäi lµ xung kh¾c, nÕu A xuÊt hiÖn th× B kh«ng xuÊt
hiÖn vµ ngîc l¹i. NÕu A, B lµ hai sù kiÖn xung kh¾c, ta kÝ hiÖu A B V .
A B V
ii) Hai sù kiÖn A vµ B gäi lµ ®èi lËp nÕu , khi ®ã sù kiÖn ®èi lËp cña A
A B
ký hiÖu lµ A .
iii) HÖ n sù kiÖn A1 , A2 ,..., An gäi lµ hÖ sù kiÖn ®Çy ®ñ nÕu:
Ai A j V , i j
n
A
i 1
VÝ dô 1. PhÐp thö (G) gieo mét con xóc x¾c, gäi ei ( i = 1, 2, ..., 6) lµ sù kiÖn chØ xuÊt
hiÖn mÆt i chÊm lªn trªn sau khi gieo. A lµ sù kiÖn chØ mÆt cã sè chÊm ch½n lªn trªn,
B lµ sù kiÖn chØ mÆt cã sè chÊm lµ béi cña 3 lªn trªn, th×:
= {e1, e2, ..., e6} vµ e6 = A B ; A = e2 e4 e6 .
VÝ dô 2. Hai x¹ thñ cïng b¾n mçi ngêi b¾n mét viªn vµo bia. Gäi Ai := “ Ngêi thø i
b¾n tróng bia” (i=1 ,2). H·y viÕt c¸c biÕ cè sau qua A1 , A2 .
a. ChØ cã x¹i thñ thø nhÊt b¾n tróng bia: A1 A2 .
b. Cã ®óng mét x¹ thñ b¾n tróng bia: A1 A2 È A1A2 .
c. Cã Ýt nhÊt mét x¹ thñ b¾n tróng bia: A1 È A2 .
d. C¶ hai x¹ thñ ®Òu b¾n tróng bia: A1A2 .
e. Kh«ng cã x¹ thñ nµo b¾n tróng bia: A1 È A2 .
f. Cã kh«ng qu¸ mét x¹ thñ ¾n tróng bia: A1A2 .
g. ChØ ra mét vµi nhãm biÕn cè ®Çy ®ñ: { A1 , A1 } hoÆc { A2 , A2 } hoÆc
{ A1A2 , A1 A2 , A1A2 , A1 A2 }.
Chóng ta thÊy r»ng, khi cã phÐp thö ngÉu nhiªn (G) ®îc thùc hiÖn th× c¸c biÕn
cè ngÉu nhiªn A, B, C, … liªn kÕt víi (G) cã thÓ xÈy ra hoÆc kh«ng xÈy ra. Do ®ã vÊn
®Ò ®Æt ra lµ: Lµm sao ®o ®îc møc ®é xÈy ra cña mét biÕn cè ngÉu nhiªn nµo ®ã ? §Ó
gi¶i quyÕt vÊn ®Ò nµy ngêi ta t×m c¸ch g¸n cho mçi biÕn cè A liªn kÕt víi (G) mét sè
ký hiÖu P(A) tháa m·n 3 tÝnh chÊt sau:
1. P (W) = 1; P (Æ) = 0.
2. P (A ) Î éê0, 1ùú.
ë û
3. NÕu A, B lµ hai biÕn cè xung kh¾c th× P (A È B ) = P (A ) + P (B ).
Th× sè P(A) ®ã gäi lµ x¸c suÊt cña biÕn cè A. Ba tÝnh chÊt trªn gäi lµ ba tÝnh chÊt cña
x¸c suÊt.
5
X¸c suÊt & Thèng kª Y häc
VËy x¸c suÊt cña mét biÕn cè lµ mét sè thùc thuéc ®o¹n [0, 1], chØ møc ®é xÈy ra
kh¸ch quan cña biÕn cè (sù kiÖn) ®ã khi phÐp thö ®îc tiÕn hµnh. §Ó ®¹t ®îc môc
®Ých ®ã chóng ta ®a ra ®Þnh nghÜa x¸c suÊt trong mét sè trêng hîp hay gÆp sau ®©y
2.1. §Þnh nghÜa cæ ®iÓn cña x¸c suÊt
XÐt phÐp thö (G) cã sè kÕt qu¶ cã thÓ xÈy ra lµ n vµ c¸c kÕt qu¶ lµ ®ång kh¶
n¨ng, trong n kÕt qu¶ ®ã cã m kÕt qu¶ thuËn lîi cho sù kiÖn A xÈy ra th× x¸c xuÊt cña
m
sù kiÖn A lµ sè thùc kÝ hiÖu P A vµ ®Þnh nghÜa lµ P A .
n
VÝ dô 3. Gieo mét con xóc x¾c (PhÐp thö (G)) th× ={e1, e2, ..., e6} do con xóc x¾c
c©n ®èi vµ ®ång chÊt nªn c¸c kÕt qu¶ ei (i =1,2,3,4,5,6) ®ång kh¶ n¨ng xÈy ra nªn sè
kh¶ n¨ng cña (G) lµ n = 6.
Gäi A lµ biÕn cè chØ xuÊt hiÖn mÆt cã chÊm lµ béi cña 3 th× sè kh¶ n¨ng thuËn lîi
cho A xÈy ra lµ 2, v× nÕu mÆt 3 chÊm xuÊt hiÖn hoÆc mÆt 6 chÊm xuÊt hiÖn th× A xuÊt
hiÖn vËy m = 2. Theo ®Þnh nghÜa cæ ®iÓn cña x¸c suÊt th× x¸c suÊt cña biÕn cè A lµ:
m 2 1
P A
n 6 3
VÝ dô 4. Mét thïng kÝn trong ®ã cã 3 bi tr¾ng vµ 4 bi ®en, c¸c bi lµm ®ång chÊt, cïng
®é lín ®é nh½n (gäi lµ ®ång kh¶ n¨ng). LÊy ngÉu nhiªn 3 bi cïng mét lóc. T×m x¸c
suÊt ®Ó lÊy ®îc 2 bi ®en vµ 1 bi tr¾ng.
PhÐp thö (G) lµ lÊy ngÉu nhiªn mét lóc 3 bi, do c¸c bi ®ång kh¶ n¨ng ®îc lÊy
7! 7.6.5.4!
nªn sè c¸ch lÊy lµ C73 35
3! 7 3 ! 3!4!
Sè ®ång kh¶ n¨ng lµ n = 35.
Gäi A lµ biÕn cè lÊy ®îc 2 bi ®en vµ mét bi tr¾ng, nªn sè c¸ch lÊy bi ®en lµ
C4 , sè c¸ch lÊy bi tr¾ng lµ C31 . Theo luËt tÝch, sè c¸ch lÊy cïng mét lóc 3 bi ®îc hai bi
2
®en vµ 1 bi tr¾ng lµ: C42 C31 = 6 3 = 18 sè kh¶ n¨ng thuËn lîi cho A lµ m = 18.
18
VËy theo ®Þnh nghÜa cæ ®iÓn cña x¸c suÊt ta cã: P A .
35
2.2. §Þnh nghÜa x¸c suÊt theo quan ®iÓm thèng kª
XÐt mét phÐp thö (G) liªn kÕt víi sù kiÖn A , lÆp l¹i phÐp thö (G) n lÇn ®éc lËp,
Chóng ta thÊy cã k lÇn xuÊt hiÖn sù kiÖn A . Khi ®ã tØ sè ®îc gäi lµ tÇn suÊt xuÊt hiÖn
sù kiÖn A trong n lÇn lÆp l¹i phÐp thö (G). Chóng ta nhËn thÊy r»ng tÇn suÊt f n A cã
c¸c tÝnh chÊt sau:
1) f n 1, f n V 0
2) 0 f n A 1
3) A, B xung kh¾c th× f n A B f n A f n B
(Tù kiÓm tra t¹i sao ?)
Vµ f n A thay ®æi nÕu n thay ®æi hoÆc thùc hiÖn phÐp thö trong n lÇn kh¸c. Tuy
nhiªn b»ng thùc nghiÖm ngêi ta chøng minh ®îc r»ng víi n kh¸ lín th× f n A æn
®Þnh quanh mét gi¸ trÞ p nµo ®ã, gi¸ trÞ p ®ã theo quan ®iÓm thèng kª gäi lµ x¸c suÊt
cña sù kiÖn A .
6
X¸c suÊt & Thèng kª Y häc
§Þnh nghÜa. X¸c suÊt cña sù kiÖn A lµ trÞ sè æn ®Þnh cña tÇn suÊt f n A khi sè lîng
phÐp thö t¨ng lªn v« h¹n.
Ch¼ng h¹n hai nhµ thèng kª Buffon vµ Pearson ®· thÝ nghiÖm gieo ®ång tiÒn
nhiÒu lÇn, kÕt qu¶ ë b¶ng sau:
Ngêi gieo Sè lÇn gieo Sè lÇn sÊp TÇn xuÊt
Buffon 4040 2048 0,5080
Pearson 12000 6019 0,5016
Pearson 24000 12012 0,5005
Qua kÕt qu¶ trªn cho chóng ta thÊy tÇn suÊt xuÊt hiÖn mÆt sÊp (S) æn ®Þnh xung
quanh gi¸ trÞ p = 0,5 khi sè lîng phÐp thö n t¨ng lªn, nªn ta nãi r»ng x¸c suÊt xuÊt
hiÖn mÆt sÊp khi gieo ®ång tiÒn lµ P(S) = 0,5.
2.3. §Þnh nghÜa x¸c suÊt theo quan ®iÓm h×nh häc
XÐt phÐp thö (G) lÊy ngÉu nhiªn mét ®iÓm trªn ®o¹n [0, 1], th× kh«ng gian c¸c
sù kiÖn s¬ cÊp cña phÐp thö ë ®©y lµ v« h¹n kÕt qu¶ kh«ng ®Õm ®îc. Trong trêng
hîp nµy ta kh«ng thÓ x©y dùng x¸c suÊt cña sù kiÖn A trªn c¬ së x¸c suÊt cña c¸c sù
kiÖn s¬ cÊp Pi (v× c¸c ®iÓm trªn ®o¹n th¼ng coi nh ®ång kh¶ n¨ng vµ c¸c pi = 0).
Nhng ta thÊy r»ng nÕu sù kiÖn A lµ mét ®o¹n th¼ng nµo ®ã n»m trong ®o¹n [0,
1] th× A cµng lín x¸c suÊt ®Ó mét ®iÓm r¬i vµo trong A cµng lín, v× thÕ ta xem x¸c suÊt
§é dµi §äan A
cña mét ®iÓm r¬i vµo miÒn A lµ P A .
§é dµi §äan 0,1
DÔ thÊy r»ng P(A) cã c¸c tÝnh chÊt cña x¸c suÊt. Më réng kÕt qu¶ trªn cho trêng hîp
mét ®iÓm r¬i vµo miÒn ph¼ng hay khèi kh«ng gian ta cã ®Þnh nghÜa nh sau:
§Þnh nghÜa x¸c suÊt theo quan ®iÓm h×nh häc
Gi¶ sö lµ tËp hîp c¸c ®iÓm nµo ®ã (®o¹n th¼ng, miÒn ph¼ng, m¶nh mÆt cong hay
khèi kh«ng gian), vµ A lµ tËp con cña , khi ®ã x¸c suÊt ®Ó mét ®iÓm r¬i vµo miÒn A
§é §o cña A
lµ: P A , ®é ®o ë ®©y lµ ®é dµi, diÖn tÝch hay thÓ tÝch…
§é §o cña
VÝ dô 5. Hai ngêi hÑn gÆp nhau t¹i mét ®Þa ®iÓm ®· ®Þnh trong kho¶ng thêi gian tõ
19 ®Õn 20 giê. Hai ngêi ®Õn chæ hÑn ®éc lËp nhau vµ quy íc r»ng khi ®Õn chæ hÑn sÏ
®îi nhau 10 phót, nÕu ngêi kia kh«ng ®Õn th× sÏ bá ®i. TÝnh x¸c suÊt ®Ó hä gÆp nhau.
Gi¶i Ta biÓu diÔn thêi ®iÓm ®Õn chæ hÑn cña ngêi thø nhÊt lµ mét ®iÓm trªn trôc
hoµnh, ngêi thø hai trªn trôc tung. Nh vËy thêi ®iÓm ®Õn cña c¶ hai ngêi ®îc biÓu
diÔn b»ng mét ®iÓm cã täa ®é lµ cÆp (x,y) n»m trong h×nh vu«ng 0 x 60; 0 y 60 ,
®¬n vÞ tÝnh lµ phót.
§Ó hai ngêi ngêi gÆp nhau c¸c thêi ®iÓm ®Õn x vµ y cña mçi ngêi ph¶i tháa m·n
bÊt ®¼ng thøc x y 10 , Hay x 10 y x 10 .
C¸c ®iÓm tháa m·n bÊt ®¼ng thøc trªn ®îc biÓu diÔn bëi c¸c ®iÓm n»m gi÷a hai ®êng
th¼ng y=x-10 vµ y=x+10 (H×nh vÏ). VËy theo ®Þnh nghÜa x¸c suÊt H×nh häc ta cã
§é §o cña A 60 60 50 50 11
P A =
§é §o cña 60 60 36
7
X¸c suÊt & Thèng kª Y häc
60
y=x+10
10
10 60
2.4. S¬ lîc mét sè kh¸i niÖm cña gi¶i tÝch kÕt hîp
2.4.1. ChØnh hîp
Cho mét tËp hîp X cã n phÇn tö kh¸c nhau. Mét c¸ch chän ra k phÇn tö kh¸c
nhau cã thø tù tõ n phÇn tö cña tËp hîp X gäi lµ mét chØnh hîp chËp k cña n phÇn tö
( k n ). Sè chØnh hîp chËp k cña n phÇn tö kÝ hiÖu vµ tÝnh theo c«ng thøc:
Ank n n 1 n 2 ... n k 1
VÝ dô 6. Cho X={1,2,3,4,5} gåm 5 ch÷ sè 1; 2; 3; 4; 5. Hái cã thÓ t¹o nªn bao nhiªu
sè gåm 3 ch÷ sè ®«i mét kh¸c nhau tõ n¨m ch÷ sè trªn.
Mét sè nh ®Ò ra lµ mét bé cã thø tù gåm 3 ch÷ sè ®«i mét kh¸c nhau lÊy tõ 5
ch÷ sè ®· cho. Do ®ã sè sè cã thÓ t¹o thµnh lµ: A53 5 4 3 60 sè
2.4.2. Ho¸n vÞ
Mét ho¸n vÞ cña n phÇn tö cña tËp hîp X gåm n phÇn tö kh¸c nhau lµ mét
chØnh hîp chËp n cña n . KÝ hiÖu sè ho¸n vÞ cña n phÇn tö lµ: Pn Ann n !
2.4.3. Tæ hîp
Mét tæ hîp chËp k cña n phÇn tö cña tËp hîp X gåm n phÇn tö kh¸c nhau lµ
mét c¸ch chän ra k phÇn tö kh¸c nhau cña X kh«ng ph©n biÖt thø tù.
Sè tæ hîp chËp k cña n phÇn tö kÝ hiÖu vµ tÝnh theo c«ng thøc sau:
k Ank n!
C
n
k ! k ! n k !
Ngêi ta chøng minh ®îc r»ng: Cnk11 Cnk1 Cnk
Qui íc Cn0 1 ta cã c«ng thøc khai triÓn nhÞ thøc nh sau:
8
X¸c suÊt & Thèng kª Y häc
n
n
a b Cnk a n k b k
k 0
VÝ dô 7. Mét nhãm häc viªn cã 5 ngêi, trong ®ã cã 3 nam vµ 2 n÷. Muèn chän 3 häc
viªn ®i lao ®éng trong ®ã cã 2 nam vµ 1 n÷. Hái cã bao nhiªu c¸ch chän.
Sè c¸ch chän 2 nam trong 3 nam lµ: C32 3
Sè c¸ch chän 1 n÷ trong 2 n÷ lµ: C21 2
Sè c¸ch chän 3 ngêi cã 2 nam vµ 1 n÷ lµ: C32 C21 6
2.4.4. LuËt tÝch
Gi¶ sö ®Ó thùc hiÖn viÖc A ta ph¶i thùc hiÖn liªn tiÕp k bíc:
Bíc thø 1: cã m1 c¸ch thùc hiÖn.
Bíc thø 2: cã m2 c¸ch thùc hiÖn.
......................................................
Bíc thø k: cã mk c¸ch thùc hiÖn.
Khi ®ã sè c¸ch thùc hiÖn viÖc A lµ m = m1 m2 ... mk ..
B PPAB
P A
B
9
X¸c suÊt & Thèng kª Y häc
Gäi A lµ biÕn cè lÊy ngÉu nhiªn mét s¶n phÈm th× ®îc s¶n phÈm lo¹i I, B lµ
biÕn cè chØ lÊy ngÉu nhiªn mét s¶n phÈm th× ®îc s¶n phÈm ®óng qui c¸ch, th× ta cã
P( B) 96% .
CÇn tÝnh P AB P B P A B 0,96 0, 70 0, 672
3.2.3. Sù ®éc lËp c¸c biÕn cè
NÕu viÖc xÈy ra hay kh«ng xÈy ra cña biÕn cè B kh«ng ¶nh hëng g× ®Õn viÖc
xÈy ra biÕn cè A , lÏ dÜ nhiªn A, B lµ 2 biÕn cè ®éc lËp vµ ta viÕt:
B p A B p A
p A
C«ng thøc (1) gäi lµ c«ng thøc x¸c suÊt toµn phÇn.
B©y giê nÕu phÐp thö ®· thùc hiÖn, biÕt sù kiÖn B ®· xÈy ra, t×m x¸c suÊt xuÊt
hiÖn sù kiÖn Ai ,( i 1, 2,..., n ), tøc lµ cÇn t×m c¸c x¸c suÊt P Ai B , ( i 1, 2,..., n ) ?
Theo §Þnh lý nh©n x¸c suÊt th×:
10
X¸c suÊt & Thèng kª Y häc
P Ai .P B
A A
P Ai B P Ai .P B P B .P i P i Ai
Ai B B P B
P Ai .P B
A
P i B Ai
n 2 i=1,2,...,n
P Ai .P B
i 1 Ai
(2) gäi lµ c«ng thøc B©yet.
ý nghÜa cña c«ng thøc (2) lµ: Sau khi thÝ nghiÖm biÕt sù kiÖn B ®· xÈy ra, ta
tÝnh x¸c xuÊt P Ai B lµ x¸c suÊt B xÈy ra do yÕu tè Ai t¸c ®éng lµ bao nhiªu? V× thÕ
Ai
P gäi lµ x¸c suÊt hËu nghiÖm ®Ó ph©n biÖt víi c¸c x¸c suÊt tiÒn nghiÖm P A .
i
B
VÝ dô 9. Mét tr¹m cÊp cøu báng cã 80% bÖnh nh©n báng do nãng vµ 20% bÖnh nh©n
báng do ho¸ chÊt. Lo¹i báng do nãng cã 30% bÞ biÕn chøng, lo¹i báng do ho¸ chÊt cã
50% bÞ biÕn chøng.
a) T×m x¸c suÊt ®Ó khi më tËp hå s¬ ra lÊy ngÉu nhiªn 1 bÖnh ¸n th× gÆp bÖnh
¸n cña bÖnh nh©n bÞ biÕn chøng?
b) T×m x¸c suÊt ®Ó khi më tËp hå s¬ ra lÊy ngÉu nhiªn 1 bÖnh ¸n th× gÆp bÖnh
¸n cña bÖnh nh©n bÞ biÕn chøng do nãng g©y ra ?
Gäi A1 lµ sù kiÖn lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n cña bÖnh nh©n bÞ
báng do nãng. A2 lµ biÕn cè lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n cña bÖnh
nh©n bÞ báng do ho¸ chÊt, B lµ biÕn cè lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n
cña bÖnh nh©n bÞ biÕn chøng. Khi ®ã { A1 , A2 } lËp thµnh hÖ sù kiÖn ®Çy ®ñ vµ
B BA1 BA2 .
80 30 20 50
a) P B P A1 P B A P A2 P B A 0,34
1 2 100 100 100 100
b) Theo c«ng thøc (2) cÇn tÝnh:
80 30
P A1 .P B
A1 A1 100 100
P B 0, 706 .
P B 34
100
3.4. D·y phÐp thö ®éc lËp, c«ng thøc Bernoulli
XÐt mét phÐp thö (G), A lµ mét biÕn cè liªn kÕt víi (G) P A p vµ
P A 1 p q , mét phÐp thö nh vËy ®îc gäi lµ phÐp thö Bernoulli.
LÆp l¹i (G) n lÇn ®éc lËp. T×m x¸c suÊt biÕn cè B chØ sù kiÖn A xuÊt hiÖn ®óng
k (k = 0,1,2,…n) lÇn, kÝ hiÖu x¸c suÊt nµy lµ Pn k . LÆp l¹i (G) n lÇn nh trªn gäi lµ
thùc hiÖn d·y phÐp thö ®éc lËp Bernoulli.
Gäi B lµ biÕn cè trong n lÇn lÆp l¹i (G), sù kiÖn A xuÊt hiÖn k lÇn. Ta thÊy
r»ng B cã nhiÒu c¸ch thùc hiÖn:
11
X¸c suÊt & Thèng kª Y häc
Ch¼ng h¹n: B 14
A42
. A...44A
3{AA... A AAA {
AA... A {
AA... A ...
k n k k 1 nk 2
Mçi biÕn cè trong tæng øng víi mét c¸ch chän k ch÷ sè A trong n ch÷ A, A nªn sè
sè h¹ng cña tæng lµ Cnk , v× thÕ cã Cnk c¸ch thùc hiÖn B mµ mçi c¸ch cã
P 14
A.42
A...44A314
AA
42...44A3 p k q nk .
k n k
Pk n P B Cnk p k q n k . (3)
C«ng thøc (3) gäi lµ c«ng thøc Bernoulli thø nhÊt.
§Ó tÝnh x¸c suÊt trong n phÐp thö Bernoulli ®éc lËp, biÕn cè A xuÊt hiÖn tõ k1
®Õn k2 lÇn ( 0 k1 k 2 n ) ta dïng §Þnh lý céng x¸c suÊt, vµ ký hiÖu x¸c suÊt nµy lµ
Pn k1 , k2 , ta cã c«ng thøc:
k2 k2
Pn k1 , k2 Pn k Cnk p k q n k (4)
k k1 k k1
sè p k cña khai triÓn nhÞ thøc trªn, v× vËy c«ng thøc (3) cßn ®îc gäi lµ c«ng thøc x¸c
xuÊt nhÞ thøc.
3.5. Sè cã kh¶ n¨ng nhÊt
NÕu trong d·y phÐp thö ®éc lËp Bernoulli tån t¹i sè k0 sao cho
Pn k0 Pn k , k 1, 2,..., n , th× sè k0 ®ã ®îc gäi lµ sè cã kh¶ n¨ng nhÊt cña phÐp thö.
§Ó t×m sè k0 ta tÝnh: n 1 p .
NÕu n 1 p N th× cã 2 gi¸ trÞ k0 lµ k0 = n 1 p vµ k0 = n 1 p -1.
NÕu n 1 p N th× k0 lµ sè nguyªn lín nhÊt kh«ng vît qu¸ n 1 p .
VÝ dô 10. Khi l¹i chuét tr¾ng vµ chuét x¸m ë dßng thuÇn th× F1 mäi con chuét ®Òu
x¸m
(x¸m lµ tÝnh tréi) ë thÕ hÖ F2 cã 3 4 sè chuét x¸m vµ 1 4 lµ tr¾ng. Gi¶ sö F2 cho ta ®îc
5 con chuét. TÝnh x¸c suÊt sao cho:
a) Cã 3 con x¸m vµ hai con tr¾ng.
b) Cã Ýt nhÊt mét con tr¾ng.
3 1
Gäi A lµ biÕn cè xuÊt hiÖn mét con chuét ë F2 lµ x¸m P A , P A ta
4 4
cÇn tÝnh c¸c x¸c suÊt sau:
3 2
3 3 1 135
a) P5 3 C
5 0, 264
4 4 512
243
b) 1 p5 0 1 0, 763
1024
12
X¸c suÊt & Thèng kª Y häc
Bệnh B
B B
Xét nghiệm T a b a+b
T T c d c+d
a+c b+d
a d
Độ nhạy: P T B ; Độ chuyên: P T B
ac bd
b c
dương giả: P T B ; âm giả: P T B
bd ac
Nhận xét: Độ nhạy và độ chuyên của xét nghiệm không phụ thuộc vào tỷ lệ bệnh đang
lưu hành.
13
X¸c suÊt & Thèng kª Y häc
P T B
+ LR càng lớn hơn 1 thì xét nghiệm càng nhạy.
1 P T B
1 P T B
+ LR càng bé hơn 1 thì xét nghiệm càng chuyên. Đây là hai thông số
1 P T B
14
X¸c suÊt & Thèng kª Y häc
15
X¸c suÊt & Thèng kª Y häc
TÝnh x¸c suÊt ®Ó trong hai bi lÊy ra ®îc ë bíc 1 cã ®óng mét bi tr¾ng, biÕt
r»ng bi lÊy ra ®îc ë bíc 2 lµ bi tr¾ng.
11. Cho n c¸i hép, mçi hép chøa m bi tr¾ng vµ k bi ®á. LÊy hó häa 1 bi tõ hép 1
bá vµo hép 2 sau dã lÊy hó häa 1 bi tõ hép 2 bá vµo hép 3, cø tiÕp tôc lÊy hó häa 1 bi
tõ hép 3 bá vµo hép 4, …..T×m x¸c suÊt ®Ó viªn bi cuèi cïng lÊy ra tõ hép n lµ tr¾ng.
12. Mét häc sinh viÕt xong n bøc th råi bá vµo n b× th, d¸n l¹i vµ trªn mçi b×
th ghi mét ®Þa chØ kh¸c nhau cÇn göi, råi göi ®i. T×m x¸c suÊt sao cho cã Ýt nhÊt mét
l¸ th ®Õn ®óng ®Þa chØ. Gäi x¸c suÊt ®ã lµ Pn . T×m lim Pn .
n® ¥
13. Gieo hó häa mét ®iÓm lªn mét ®o¹n th¼ng cã ®é dµi 30cm. T×m x¸c suÊt ®Ó
®iÓm ®ã r¬i vµo mét ®o¹n con cã ®é dµi 10 cm hoµn toµn n»m trong ®o¹n ®· cho.
14. Cho ®o¹n th¼ng víi ®é dµi a. Chän ngÉu nhiªn trªn ®o¹n nµy hai ®iÓm, khi
®ã ta cã ®o¹n th¼ng ®îc chia lµm ba ®o¹n nhá. T×m x¸c suÊt ®Ó ba ®o¹n thu ®îc lËp
thµnh c¸c c¹nh cña mét tam gi¸c.
15. Cho h×nh vu«ng víi c¸c ®Ønh A(0;0), B(0; 1), C(1; 0), D(1; 1). Gieo ngÉu
nhiªn mét ®iÓm M(X, Y) trong h×nh vu«ng ®ã.
a. Chøng minh r»ng: P {X < x , Y < y }= P {X < x }P {Y < y }= xy .
b. T×m P {X - Y < z } víi 1 £ z £ 1.
c. T×m P {X Y < z } víi 1 £ z £ 1.
d. T×m P {max (X ,Y ) < z } víi 1 £ z £ 1.
16. Trong c¬ quan nä cã 3 chiÕc « t«. Kh¶ n¨ng cã sù cè cña mçi « t« t¬ng øng
lµ 0,15; 0,20 vµ 0,10.
a. T×m x¸c suÊt c¶ ba « t« cïng bÞ háng.
b. T×m x¸c suÊt cã Ýt nhÊt mét c¸i ho¹t ®éng ®îc.
c. T×m kh¶ n¨ng c¶ ba « t« cïng ho¹t ®éng ®îc.
d. T×m kh¶ n¨ng cã kh«ng qu¸ 2 « t« bÞ háng.
17. Mét ngêi cã ba chæ a thÝch nh nhau ®Ó c©u c¸. X¸c suÊt c©u ®îc c¸ ë
nh÷ng chæ ®ã t¬ng øng lµ 0,6; 0,7 vµ 0,8. BiÕt r»ng ë mçi mét chæ ngêi ®ã ®· th¶
c©u ba lÇn vµ chØ c©u ®îc mét con c¸. T×m x¸c suÊt ®Ó c¸ c©u ®îc ë chæ thø nhÊt.
18. TÝn hiÖu th«ng tin ®îc ph¸t ba lÇn víi x¸c suÊt thu ®îc mçi lÇn lµ 0,4.
a. T×m x¸c suÊt ®Ó nguån thu nhËn ®îc th«ng tin ®ã.
b. NÕu muèn x¸c suÊt thu ®îc th«ng tin lªn 0,9 th× ph¶i ph¸t bao nhiªu lÇn.
16
X¸c suÊt & Thèng kª Y häc
VÝ dô 3. X lµ biÕn ngÉu nhiªn chØ sè chÊm cña c¸c mÆt trªn con xóc x¾c, khi gieo 1
con xóc x¾c th× d·y ph©n phèi cña X lµ:
X 1 2 3 4 5 6
P 1 1 1 1 1 1
6 6 6 6 6 6
17
X¸c suÊt & Thèng kª Y häc
Th×: F x P ( X x) P X xi
xi x
VÝ dô 4. LËp hµm ph©n phèi cña biÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt:
X -1 1 2 3
p 0,1 0,3 0,4 0,2
Cô thÓ: x 1 th× F x P ( X x) 0
NÕu 1 x 1 th× F x P ( X x ) P ( X 1) 0,1 . T¬ng tù
1 x 2 th× F x 0,1 0,3 0, 4 .
2 x 3 th× F x 0,1 0, 3 0, 4 0,8 ; x 3 th× F x 1 .
0, NÕu x 1
0,1 NÕu 1 x 1
VËy ta cã F x 0, 4 NÕu 1 x 2
0,8 NÕu 2 x 3
1 NÕu x 3
Nªn ®å thÞ cña F x : F x
0,8
0,4
0,1
X
-1 0 1 2 3
§å thÞ F x cã d¹ng h×nh bËc thang.
C¸c tÝnh chÊt cña hµm ph©n phèi F x
i) 0 F x 1, x
18
X¸c suÊt & Thèng kª Y häc
ii) P X F F
iii) F F , tøc lµ hµm ph©n phèi kh«ng gi¶m.
iv) F Lim F x 0, F Lim F x 1 .
x x
Chøng minh. C¸c tÝnh chÊt i), iv) suy trùc tiÕp tõ ®Þnh nghÜa. Chóng ta chøng minh
c¸c tÝnh chÊt ii), iii).
Gäi A lµ biÕn cè chØ { X }, B lµ biÕn cè chØ { X }, C lµ biÕn cè chØ
{ X } C A B vµ AB , ¸p dông c«ng thøc céng x¸c suÊt cã:
P C P A P B .
F F P X P X F F ii).
Tõ F F P X , F F v× P X 0
iii).
Tõ tÝnh chÊt iii) NÕu F x liªn tôc th×:
Lim P X P X Lim F F 0
ý nghÜa TÝnh chÊt iv) nãi lªn diÖn tÝch cña h×nh ph¼ng giíi h¹n bëi trôc Ox vµ ®êng
cong hµm mËt ®é: y f x b»ng 1. TÝnh chÊt ii) nãi lªn x¸c suÊt P X lµ diÖn
tÝch h×nh thang cong giíi h¹n bëi c¸c ®êng th¼ng: x , x trôc Ox vµ ®êng
cong hµm mËt ®é y f x .
Chó ý. Mét hµm y f x tho¶ m·n 4 tÝnh chÊt trªn lµ hµm mËt ®é cña mét biÕn ngÉu
nhiªn X nµo ®ã.
19
X¸c suÊt & Thèng kª Y häc
NÕu X lµ biÕn ngÉu nhiªn liªn tôc cã hµm mËt ®é f x th× kú väng cña X lµ:
M X xf x dx
VÝ dô 5. Cho X lµ biÕn ngÉu nhiªn cã d·y ph©n phèi x¸c suÊt lµ:
X 1 2 3 4
P 0,2 0,5 0,2 0,1
Th× M X 1 0, 2 2 0, 5 3 0, 2 4 0,1 2 .
VÝ dô 6. X lµ biÕn ngÉu nhiªn ph©n phèi ®Òu trªn a, b th× hµm mËt ®é cña X lµ:
1
khi x a, b
f x b a
0 khi x a, b
b
x ab
M X xf x dx b a dx
a
2
ý nghÜa. Sè kú väng lµ sè trung b×nh theo x¸c suÊt cña biÕn ngÉu nhiªn. NÕu xem
X 1 , X 2 ,..., X n lµ hÖ chÊt ®iÓm t¹i ®ã cã ®Æt c¸c khèi lîng p1 , p2 ,..., pn th× kú väng chÝnh
lµ träng t©m cña hÖ chÊt ®iÓm.
2.1.2. TÝnh chÊt
M C C ( C lµ biÕn ngÉu nhiªn h»ng sè )
M CX CM X ( C lµ h»ng sè)
M X Y M X M Y ( X , Y lµ hai biÕn ngÉu nhiªn)
X , Y lµ hai biÕn ngÉu nhiªn ®éc lËp nÕu luËt ph©n phèi cña X kh«ng phô thuéc
vµo luËt ph©n phèi cña Y vµ ngîc l¹i th× M X .Y M X .M Y
2.2. Mèt vµ trung vÞ
2.2.1. Mèt cña biÕn ngÉu nhiªn ký hiÖu Mod(X) lµ trÞ sè nhËn ®îc cña biÕn ngÉu
nhiªn cã x¸c suÊt cùc ®¹i (®èi víi biÕn ngÉu nhiªn rêi r¹c) hay trÞ sè cã mËt ®é x¸c
xuÊt cùc ®¹i (®èi víi biÕn ngÉu nhiªn liªn tôc).
2.2.2. Trung vÞ (median) cña biÕn ngÉu nhiªn X lµ sè ký hiÖu M e sao cho:
P X Me P X Me
20
X¸c suÊt & Thèng kª Y häc
NÕu X lµ biÕn ngÉu nhiªn liªn tôc cã hµm mËt ®é f x th× ta ®Þnh nghÜa
2
D X x M X f x dx
VÝ dô 7. TÝnh kú väng vµ ph¬ng sai cña biÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi
x¸c suÊt:
X 1 3 5
p 0,6 0,3 0,1
Gi¶i Theo ®Þnh nghÜa ta cã:
M X xi pi 1 0, 6 3 0,3 5 0,1 2
i
n
2 2 2 2
D X xi M X pi 1 2 .0, 6 3 2 .0, 3 5 2 .0,1 1,8
i 1
21
X¸c suÊt & Thèng kª Y häc
1
D X 1 D X 2 ... D X n 2 th× biÕn ngÉu nhiªn X X 1 X 2 ... X n
n
2
cã ph¬ng sai: D X n
.
ý nghÜa cña hÖ qu¶ 2) §Ó ®o 1 ®¹i lîng vËt lý, ngêi ta ®o nhiÒu lÇn ®éc lËp råi lÊy
gi¸ trÞ trung b×nh céng cña c¸c lÇn ®o lµm gi¸ trÞ cÇn ®o cña ®¹i lîng ®ã th× sai sè sÏ
bÐ h¬n ®o 1 lÇn.
§3 Mét sè ph©n phèi x¸c suÊt thêng gÆp trong thèng kª
3.1. Ph©n phèi nhÞ thøc
BiÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt d¹ng:
X 0 1 ......... k .......... n
n 1 n 1 k k n k
P( X k ) q Cn . p.q ......... Cn . p .q .......... pn
Trong ®ã p P A víi A lµ sù kiÖn cña phÐp thö (G) p kh«ng ®æi trong mçi
lÇn thùc hiÖn (G); q =1- p .
D·y phÐp thö Bernoulli thêng gÆp nhiÒu trong thùc tÕ. Gäi X lµ biÕn ngÉu
nhiªn chØ sè lÇn biÕn cè A xÈy ra trong n lÇn thùc hiÖn d·y phÐp thö Bernoulli, th× X cã
ph©n phèi nhÞ thøc víi hai tham sè n vµ p = P(A). Ngêi ta ký hiÖu biÕn ngÉu nhiªn X
cã ph©n phèi nhÞ thøc víi hai tham sè n, p lµ X B (n , p ). DÔ dµng chøng minh ®îc
r»ng nÕu X B (n , p ), th× M X np, D X npq .
3.2. Ph©n phèi Poisson
BiÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt d¹ng sau víi > 0 :
X 0 1 ......... k ..........
1 k
PX k
e e ......... e ..........
1! k!
®îc gäi lµ biÕn ngÉu nhiªn cã ph©n phèi Poisson víi tham sè . Ký hiÖu biÕn ngÉu
nhiªn X cã ph©n phèi Poisson víi tham sè lµ X P . Ngêi ®Çu tiªn m« t¶ ph©n
phèi nµy lµ Simeon Denis Poisson vµo n¨m 1837. Ph©n phèi nµy cã nhiÒu øng dông ®èi
víi c¸c qu¸ tr×nh cã liªn quan ®Õn sè quan s¸t ®èi víi mét ®¬n vÞ thêi gian hoÆc kh«ng
gian. Ch¼ng h¹n sè cuéc ®iÖn tho¹i nhËn ®îc ë mét tr¹m ®iÖn tho¹i trong mét phót, sè
kh¸ch hµng ®Õn mét nhµ b¨ng ®èi víi mçi chu kú 30 phót, sè m¸y háng trong mét
ngµy,…Nãi chung lµ dßng vµo cña mét hÖ phôc vô (qu¸n bia, hiÖu c¾t tãc, hiÖu ch÷a
xe,….) lµ c¸c biÕn ngÉu nhiªn tu©n theo luËt Poisson. NÕu X P th× E(X) = D(X)= .
3.3. Ph©n phèi chuÈn
3.3.1. §Þnh nghÜa. BiÕn ngÉu nhiªn liªn tôc X cã hµm mËt ®é ph©n phèi d¹ng:
x 2
1 2
f x e 2 (1)
2
Trong ®ã , lµ c¸c h»ng sè, 0 gäi lµ c¸c tham sè cña ph©n phèi. Th× X
®îc gäi lµ biÕn ngÉu nhiªn tu©n theo quy luËt ph©n phèi chuÈn víi hai tham sè , 2 .
KÝ hiÖu X N , 2 . §å thÞ hµm mËt ®é f x cña biÕn ngÉu nhiªn X cã luËt ph©n
22
X¸c suÊt & Thèng kª Y häc
phèi N( , 2 ) cã d¹ng h×nh chu«ng óp xuèng, ®¹t cùc ®¹i t¹i X . Hai ®iÓm uèn cã
hoµnh ®é X . NÕu thay ®æi ®êng cong dÞch theo trôc Ox , nÕu t¨ng
®êng cong dÑt xuèng, nÕu gi¶m ®êng cong nhän lªn. NÕu = 0, =1 th× ph©n
phèi N(0,1) gäi lµ ph©n phèi chuÈn chÝnh quy.
f x
1
2
1
2 e
0
f(x) 12
32 22 12 22
32
Phân phối chuẩn có số trung bình
giống nhau nhưng phương sai khác
nhau
x
f(x
) Phân phối chuẩn có phương sai
giống nhau nhưng số trung bình ?
au
x
1 < 2 < 3
23
X¸c suÊt & Thèng kª Y häc
x
Tõ (1) NÕu X cã ph©n phèi N( , 2 ) th× 99,73% X nhËn gi¸ trÞ trong kho¶ng tõ
3 , 3 gäi lµ c«ng thøc 3 . T¬ng tù tõ (2) 95% X nhËn gi¸ trÞ trong
kho¶ng 2 , 2 gäi lµ c«ng thøc 2 . T¬ng tù (3) lµ c«ng thøc .
VÝ dô. Khi ®o lùc chÞu nÐn cña mét lo¹i xµ ®îc s¶n xuÊt ra, ngêi ta thÊy lùc
chÞu nÐn b×nh qu©n lµ 320 kg, sai sè qu©n ph¬ng lµ 5 kg. Hái muèn ®¶m b¶o an toµn
th× t¶i träng ®Æt lªn nã bao nhiªu? BiÕt r»ng lùc chÞu nÐn cña xµ tu©n theo luËt chuÈn.
Theo bµi ra gäi X lµ biÕn ngÉu nhiªn chØ lùc chÞu nÐn cña xµ th× X cã ph©n phèi
N(320,5), suy ra = 320, =5 vËy theo c«ng thøc 3 p X 3 0,9973
p 305 X 335 0, 9973 . VËy muèn an toµn ph¶i ®Æt t¶i träng lªn nã 305 kg.
24
X¸c suÊt & Thèng kª Y häc
3.3.2. ChuÈn hãa biÕn ngÉu nhiªn. Nếu biến ngẫu nhiên X N ( , 2 ), thì biến ngẫu
X
nhiên Z sẽ có số trung bình là 0 và phương sai là 1. Z được gọi là biến ngẫu
nhiên được chuẩn hóa
x
-3 -2 - + +2 +3
z
VÝ dô. -3 -2 -1 0 1 2 3
Cho Z N (0,1). Tìm xác suất để giá trị của Z
a. Nhỏ hơn –1,25
b. Nằm trong khoảng (-0,5;0,75) f(z)
c. Lớn hơn 1
F(-1,25)
Gi¶i.
-1,25 0 1,25 z
a. Tìm P(Z -1,25) = P(Z 1,25) = F(-1,25)
FZ(-1,25) = 1 - F(1,25)
= 1 - 0,8944
= 0,1056
b.Tìm xác suất để giá trị của Z nằm trong
f(z)
khoảng (-0,5;0,75)
Tìm P(-0,5 Z 0,75) = F(0,5) + F(0,75)-1
= 0,6915 + 0,7734-1
= 0,4649
-0,5 0 0,75 z
c.Tìm xác suất để giá trị của Z 1 f(z)
Tìm P(Z 1) = 1 – F(1)
= 1 – 0,8413
= 0,1587
25
X¸c suÊt & Thèng kª Y häc
k
nhiªn 2 X i 2 cã ph©n phèi 2 víi bËc tù do k ; hµm mËt ®é cña biÕn ngÉu nhiªn
i 1
2
1 x k
2 2 1
k
k
e 2
, khi 2 >0
2 lµ: K 2 2 2
2
0 khi 2 <0
Ta sö dông kÝ hiÖu 2 ( k ) ®Ó chØ lîng ngÉu nhiªn cã ph©n phèi 2 cã bËc tù do k .
a 1 x
Trong ®ã: a x e dx , a 1
0
§å thÞ K 2
cã d¹ng:
K 2
1,6
k=1
0,8
k=2
k=3
0,4
k=6 2
0 1 2 3 4 5
K(x2)
2
2
26
X¸c suÊt & Thèng kª Y häc
Trong thùc tÕ khi k >30 viÖc tÝnh to¸n 2 víi bËc tù do k ®îc thay thÕ cho biÕn ngÉu nhiªn
2 2 .
3.5. Ph©n phèi Student (T)
Cho 2 biÕn ngÉu nhiªn ®éc lËp X , Y . Trong ®ã biÕn ngÉu nhiªn X cã ph©n phèi
N(0,1), Y cã ph©n phèi 2 ( k ) th× biÕn ngÉu nhiªn:
X
T cã ph©n phèi Student víi bËc tù do k . Hµm mËt ®é cña biÕn ngÉu nhiªn T lµ:
Y
k
k 1 k 1
t 2 2
2
S t 1
k 2
k
2
a 1 x
Trong ®ã a x e dx , a 1 , gäi lµ hµm Gama.
0
S t lµ hµm ch½n theo t nªn ph©n phèi T lµ ph©n phèi ®èi xøng. Ph©n phèi T phô thuéc vµo
bËc tù do k , mçi k cho ta mét ®êng cong S t kh¸c nhau. H×nh vÏ:
C¸c ®Æc trng:
M T 0 khi k >1
z, t
0
k
D T khi k >2. NÕu k 1 kh«ng cã M(T). NÕu k 2 kh«ng cã D(T). Trong thùc hµnh
k 2
t k
2
27
X¸c suÊt & Thèng kª Y häc
α/2 α/2
-tα/2(k) 0 tα/2(k) t
= 0,05; 0,01; …thêng lµ cho tríc. X¸c suÊt nµy lµ phÇn diÖn tÝch kh«ng t« ë h×nh vÏ trªn.
Sè t k ®ã t×m ®îc tõ b¶ng gi¸ trÞ t k , (dßng k cét ). Cã khi yªu cÇu t×m ngîc l¹i.
2 2
2
VÝ dô. T×m x¸c suÊt t¬ng øng khi biÕt t 5 =2,015 hai phÝa.
5% 5%
-2,015 0 2,015
2,015
p 2, 015 T 2, 015 2 S t dt 1 . Tra b¶ng gi¸ trÞ T ( 2 ), sè 2,015 n»m ë dßng 5
k
0
cét 0,05, nªn suy ra = 0, 05 Þ = 0,1 nªn ta cã p 2, 015 T 2, 015 0,90 .
2
Cã khi cÇn t×m p T t k , sè t k nµy còng tra ë b¶ng gi¸ trÞ Tk( )
2
(dßng k cét )..
Chó ý. NÕu k >30 ph©n phèi T xÊp xØ ph©n phối N(0,1).
x
§Þnh lý. NÕu X cã ph©n phèi N , 2 th× T n cã ph©n phèi T bËc tù do
s
n - 1, ( n lµ cì mÉu).
3.6. Ph©n phèi Fis¬ (F)
NÕu cã hai biÕn ngÉu nhiªn ®éc lËp X 1 , X 2 mµ ph©n phèi 2 víi bËc tù do k1 , k2 th×
k X
biÕn ngÉu nhiªn F 2 1 cã ph©n phèi Fis¬ víi k1 , k2 bËc tù do.
k1 X 2
Hµm mËt ®é cã d¹ng:
k1
k k k 2
1 2 1 k1 2 k k
1 2
2 k2 k 2
t t 2 1 1 t
k k k2
1 2
2 2
Víi t 0 th× ®å thÞ t cã d¹ng:
28
X¸c suÊt & Thèng kª Y häc
t
k1 8
C¸c ®Æc trng: 0,7
k k2 0
M F 2 , k2 2 0,5
k2 2
k1 8
2k 2 2 k1 k 2 2
DF 2
, k2 4 k2 2
k1 k2 2 k2 4 t
NÕu k2 2 kh«ng cã M F 0 0,5
NÕu k 2 kh«ng cã D F
Trong thùc hµnh cÇn t×m sè F ®Ó p F F f df cho tríc. Sè F nh vËy tra
F
t
F víi bËc tù do n1 1 , n2 1 .
1 n1 2 1 n2 2
Trong ®ã s 12
n1 1 i 1
xi x
; s 2
2
n2 1 i 1
yi y .
§Þnh lý nµy ta c«ng nhËn ®Ó sö dông v× lý do s ph¹m mµ kh«ng tr×nh bµy chøng minh.
29
X¸c suÊt & Thèng kª Y häc
2
1 2x
Trong ®ã x e lµ hµm Gauss. Gi¸ trÞ cña hµm nµy ®· lËp b¶ng s½n.
2
ý nghÜa cña ®Þnh lý nµy lµ ë chæ: Khi sè phÐp thö n kh¸ lín chóng ta cã thÓ thay c«ng
thøc Bernoulli b»ng c«ng thøc gÇn ®óng sau ®©y
1 k np
Pn k Cnk pk qn k .
npq npq
VÝ dô 9. X¸c suÊt ®Ó m«t c©y chÕt khi trång lµ p = 0,2. TÝnh x¸c suÊt khi trång 400
c©y cã ®óng 80 c©y chÕt.
Ta ph¶i tÝnh P400 80 ? NÕu dïng c«ng thøc Bernoulli th× ph¶i tÝnh
80 80 320
P400 80 C400 0, 2 0,8
rÊt phøc t¹p. ë ®©y n=400 kh¸ lín nªn chóng ta sö dông
c«ng thøc giíi h¹n trªn ta cã:
80 80 320 1 80 400.0, 2 1
P400 80 C400 0, 2 0,8 0
400 0, 2 0,8 400 0, 2 0,8 8
Tra b¶ng ta cã 0 0, 3989 P400 80 0, 0498 .
4.2. §Þnh lý giíi h¹n tÝch ph©n
NÕu trong mçi phÐp thö ®éc lËp, sù kiÖn A xuÊt hiÖn víi x¸c suÊt p vµ kh«ng xuÊt
hiÖn víi x¸c suÊt q = 1-p, th× khi sè phÐp thö n t¨ng lªn v« h¹n ta cã :
k np k1 np
lim Pn k1 , k2 2 0 ,
n
npq npq
x t 2
1
Trong ®ã x e 2
dt lµ hµm Laplat. GÝa trÞ cña hµm sè nµy ®· ®îc lËp b¶ng
2
s½n ë cuèi s¸ch x¸c suÊt & th«ng kª. VËy ý nghÜa cña ®Þnh lý nµy lµ ë chæ, khi tÝnh x¸c
suÊt b»ng c«ng thøc thø hai Bernoulli mµ n kh¸ lín rÊt phøc t¹p. v× thÕ ta cã thÓ tÝnh
gÇn ®óng b»ng c«ng thøc sau:
k np k1 np
Pn k1 , k2 2
npq npq
VÝ dô 10. X¸c suÊt ®Ó m«t c©y chÕt khi trång lµ p = 0,2. TÝnh x¸c suÊt khi trång 400
c©y cã tõ 70 ®Õn 100 c©y chÕt.
Ta cã x¸c suÊt cÇn tÝnh theo c«ng thøc Bernolli lµ
100 100
k k 400 k
P400 70,100 P400 k C 0, 2 0,8
400
k 70 k 70
Nãi chung phøc t¹p. ¸p dông c«ng thøc giíi h¹n trªn ta cã
100
k k 100 400 0, 2
400 k 70 400 0, 2
P400 70,100 C 0, 2 0,8
400
k 70 400 0, 2 0,8 400 0, 2 0,8
2, 5 1, 25 2,5 1 1, 25
Tra b¶ng cã 2, 5 0, 9938; 1, 25 0,8944 . ThÕ vµo cã kÕt qu¶
P400 70,100 0,8882 .
30
X¸c suÊt & Thèng kª Y häc
31
X¸c suÊt & Thèng kª Y häc
+ §¹i lîng ngÉu nhiªn nhiÒu chiÒu gäi lµ rêi r¹c nÕu c¸c gi¸ trÞ nhËn ®îc cña nã lµ
h÷u h¹n hoÆc v« h¹n ®Õm ®îc.
+ C¸c ®¹i lîng ngÉu nhiªn nhiÒu chiÒu ®îc gäi lµ liªn tôc nÕu c¸c thµnh phÇn cña nã
lµ c¸c ®¹i lîng ngÉu nhiªn liªn tôc.
5.2. Quy luËt ph©n phèi x¸c suÊt cña ®¹i lîng ngÉu nhiªn 2 chiÒu
§èi víi c¸c ®¹i lîng ngÉu nhiªn 2 chiÒu ngêi ta còng dïng b¶ng ph©n phèi x¸c
suÊt, hµm ph©n phèi x¸c suÊt hµm mËt ®é x¸c su©t ®Ó thiÕt lËp quy luËt ph©n phèi cña
chóng.
5.2.1. B¶ng ph©n phèi x¸c suÊt cña ®¹i lîng ngÉu nhiªn 2 chiÒu (X,Y) rêi r¹c cã d¹ng:
Y y1 y2 … yj … ym
X
x1 P x1 , y1 P x1 , y2 … P x1 , y j … P x1 , ym
x2 P x2 , y1 P x2 , y2 … P x2 , y j … P x2 , ym
. . . . .
. . . … . … .
. . . . .
xi P xi , y1 P xi , y2 … P xi , y j … P xi , ym
. . . . .
. . . … . … .
. . . . .
xn P xn , y1 P xn , y2 … P xn , y j … P xn , ym
Trong ®ã xi i 1, 2,..., n lµ c¸c gi¸ trÞ cã thÓ cã cña X; y j j 1, 2,..., m lµ c¸c gi¸ trÞ
cã thÓ cã cña Y; P xi , y j lµ x¸c suÊt ®Ó ®¹i lîng ngÉu nhiªn 2 chiÒu (X, Y) nhËn
n m
gi¸ trÞ xi , y j , vµ ta cã P x , y 1 .
i j
i 1 j 1
BiÕt ®îc quy luËt ph©n phèi x¸c suÈt cña ®¹i lîng ngÉu nhiªn 2 chiÒu, bao giê còng
t×m ®îc b¶ng ph©n phèi x¸c suÊt cña mçi biÕn thµnh phÇn.
5.2.2. Hµm ph©n phèi x¸c suÊt cña ®¹i lîng ngÉu nhiªn 2 chiÒu (X, Y) ký hiÖu lµ
F x, y ®îc x¸c ®Þnh nh sau. F x, y P X x, Y y .
5.2.3. Hµm mËt ®é x¸c suÊt cña ®¹i lîng ngÉu nhiªn 2 chiÒu liªn tôc (X,Y) cã hµm
2 F x, y
ph©n phèi x¸c suÊt F x, y lµ f x, y .
xy
VÒ mÆt h×nh häc, ®å thÞ hµm mËt ®é f x, y cã thÓ xem nh mét mÆt cong ®îc gäi
lµ mÆt ph©n phèi x¸c suÊt.
32
X¸c suÊt & Thèng kª Y häc
5.3. §Æc trng cña ®¹i lîng ngÉu nhiªn nhiÒu chiÒu
5.3.1. Kú väng, covarian, ma trËn moment
Cho ®¹i lîng ngÉu nhiªn n chiÒu X = (X 1, X 2, ..., X n ). Kú väng cña ®¹i lîng
ngÉu nhiªn X lµ E (X ) = (E (X 1 ), E (X 2 ),..., E (X n )).
Covarian cña cÆp ®¹i lîng ngÉu nhiªn (X i , X j ) lµ
Cov (X i , X j ) = E {(X i
- EX i )(X j - EX j ) }
§Ó ®¬n gi¶n ta ký hiÖu Cov (X i , X j ) = ij . Suy ra ij = ji , ii = DX i .
Ma trËn moment cña ®¹i lîng ngÉu nhiªn n chiÒu X = (X 1, X 2, ..., X n ) ký hiÖu vµ
tÝnh b»ng c«ng thøc:
æ ö
çç 11 12 ... 1n ÷÷
çç ÷
÷
ç ... 2n ÷
L = (ij ) = çç 21 22 ÷
÷
n´ n ÷
çç ... ... ... ... ÷
çç ÷
÷
çè n 1 n 2 ... nn ø÷
÷
Ta nhËn thÊy r»ng ma trËn moment L lµ ma trËn ®èi xøng, h¬n n÷a ma trËn moment
L x¸c ®Þnh kh«ng ©m hoÆc c¸c ®Þnh thøc con chÝnh kh«ng ©m vµ det (L ) ³ 0.
5.3.2. HÖ sè t¬ng quan
§Ó thuËn lîi cho ngêi ®äc tríc hÕt ta xÐt trêng hîp 2-chiÒu X = (X 1, X 2 ). HÖ sè
t¬ng quan gi÷a hai biÕn ngÉu nhiªn X 1 vµ X 2 ®îc ®Þnh nghÜa nh sau:
=
E {(X 1
- EX 1 )(X 2 - EX 2 ) }= 12
=
12
.
DX 1 ´ DX 2 11 . 22 1 2
Trong trêng hîp hai chiÒu ma trËn moment L cã d¹ng
æ ö æ 2
1 2 ö÷
çç 11 12 ÷ ÷ çç 1 ÷
L= ç ÷ = ç ÷.
çè21 22 ø÷
÷ çèç 1 2 22 ø÷ ÷
33
X¸c suÊt & Thèng kª Y häc
34
X¸c suÊt & Thèng kª Y häc
bao nhiªu em cao tõ 140cm ®Õn 150cm lµ cã kh¶ n¨ng cao nhÊt. ChØ ra c¸c kh¶ n¨ng
cao nhÊt ®ã.
5. BiÕn ngÉu nhiªn X nhËn gi¸ trÞ tËp trung trong ; víi hµm mËt ®é cã
2 2
d¹ng f(x)= a.cosx.
a. X¸c ®Þnh h»ng sè a?
b. ViÕt biÓu thøc hµm ph©n phèi cña X
c. T×m P 0 X ?
4
d. NÕu quan s¸t X 10 lÇn th× cã bao nhiªu lÇn X nhËn gi¸ trÞ trong 0; lµ cã kh¶
4
n¨ng nhÊt. TÝnh x¸c suÊt ®ã?
6. Trong mét c¸i b¸t cã ®Ó 5 h¹t ®Ëu trong ®ã cã 2 h¹t ®á. LÊy ngÉu nhiªn ra 2
h¹t. Gäi X lµ sè h¹t ®Ëu ®á ®îc lÊy ra.
a. LËp b¶ng ph©n phèi cña X.
b. ViÕt biÓu thøc hµm ph©n phèi cña X
c. TÝnh M(X); D(X); P 0 X 2
7. C¸c lîng ngÉu nhiªn X, Y ®éc lËp vµ cã ph©n phèi chuÈn víi M(X) = 2,
D(X) = 4, M(Y) = -3, D(Y) = 9. H·y viÕt hµm mËt ®é ph©n phèi cña biÕn ngÉu
nhiªn X+Y.
8. Mét hép cã 1 bi tr¾ng vµ 4 bi ®á. Rót hó ho¹ 2 bi tõ hép ®ã ra vµ bá vµo
mét hép kh¸c cã s¼n 4 bi tr¾ng. X¸o ®Òu råi lÊy ra ba bi bá vµo hép ®Çu. Gäi X, Y lµ
hai biÕn ngÉu nhiªn chØ sè bi tr¾ng trong hép ®Çu vµ hép 2 khi chuyÓn xong bi.
a. LËp d·y ph©n phèi x¸c suÊt cña X vµ Y.
b. T×m mèi quan hÖ gi÷a X vµ Y.
9. Cho biÕn ngÉu nhiªn X cã d·y ph©n phèi x¸c suÊt lµ
X -1 0 3 0 -1 -1 3
P 0,2 a 0,14 0,1 0,23 0,08 0,21
a. H·y t×m gi¸ trÞ cña a ? Vµ viÕt l¹i luËt ph©n phèi sao cho dßng thø nhÊt tÊt c¶
c¸c sè liÖu ®Òu kh¸c nhau.
b. T×m hµm ph©n phèi F(x) cña X vµ vÏ ®å thÞ cña hµm ph©n phèi.
c. ViÕt c¸c sù kiÖn 5 X 1, X 0 qua tæng c¸c sù kiÖn X = 0, X = 3, X = -1
10. Cho hµm f x a.e x , a lµ h»ng sè.
a. X¸c ®Þnh h»ng sè a ®Ó f x lµ hµm mËt ®é cña mét biÕn ngÉu nhiªn X nµo ®ã.
b. T×m hµm ph©n phèi F(x) cña X.
c. T×m hµm ph©n phèi vµ hµm mËt ®é cña biÕn ngÉu nhiªn Y= X2.
11. Cho hai biÕn ngÉu nhiªn X, Y ®éc lËp. Gi¶ sö X N (2; 0, 09) vµ Y cã
1
ph©n phèi mò víi tham sè =
5
ìï e - x , x ³ 0,
(Tøc lµ hµm mËt ®é cña Y lµ f (x ) = ïí ) , T×m:
ïï 0, x < 0.
î
35
X¸c suÊt & Thèng kª Y häc
a. E(-3X+2Y-5).
b. D(-3X+2Y-5).
c. E(2X2-3Y2 + 2XY -3Y +2X -3).
12. Gieo con xóc x¾c c©n ®èi vµ ®ång chÊt 12000 lÇn. T×m x¸c suÊt ®Ó cho sè
lÇn xuÊt hiÖn mÆt lôc ë phÝa trªn con xóc x¾c gåm gi÷a 1900 vµ 2150.
13. Mét ngêi nu«i thá xuÊt chuång 10 con ®em b¸n, trong ®ã cã 6 thá c¸i vµ
4 thá ®ùc. Mét nhµ hµng muèn mua 4 con. Ngêi mua ®· b¾t ngÉu nhiªn ra 4 con
(b¾t cïng lóc). Gäi X lµ sè thá ®ùc trong 4 con b¾t ra.
a. LËp b¶ng ph©n phèi x¸c suÊt cña X.
b. T×m mod(X), EX, DX, P(1<X<=3,2).
c. ViÕt biÓu thøc hµm ph©n phèi cña X.
14. Mét c«ng ty taxi cã 10 chiÕc xe taxi. BiÕt r»ng yªu cÇu thuª xe trong mét
giê lµ biÕn ngÉu nhiªn X tu©n theo luËt ph©n phèi Poisson víi = 5 ,
(cho biÕt e-5=0,00674). Gäi Y lµ sè xe ®îc thuª trong mét giê.
a. LËp b¶ng ph©n phèi x¸c suÊt cña Y.
b. T×m mod(X), Mod(Y), EY, DY.
c. T×m kh¶ n¨ng c«ng ty kh«ng ®¸p øng nhu cÇu cña kh¸ch.
d. Muèn gi¶m kh¶ n¨ng kh«ng ®¸p øng yªu cÇu cña kh¸ch xuèng díi 1% th×
cÇn bæ sung thªm mÊy xe n÷a.
36
X¸c suÊt & Thèng kª Y häc
Thèng kª to¸n häc lµ bé m«n To¸n häc nghiªn cøu quy luËt cña c¸c hiÖn tîng
ngÉu nhiªn cã tÝnh sè lín trªn c¬ së thu thËp vµ xö lý c¸c sè liÖu thèng kª, c¸c kÕt qu¶
quan s¸t. Néi dung chñ yÕu cña thèng kª To¸n häc lµ x©y dùng c¸c ph¬ng ph¸p thu
thËp vµ xö lý c¸c sè liÖu thèng kª nh»m rót ra c¸c kÕt luËn khoa häc vµ thùc tiÔn.
C¸c ph¬ng ph¸p thèng kª To¸n häc lµ c«ng cô gi¶i quyÕt nhiÒu vÊn ®Ò khoa häc
vµ thc tiÔn nảy sinh trong c¸c lÜnh vùc kh¸c nhau cña Tù nhiên vµ Kinh tÕ - X· héi.
Nội dung phần này trình bày tất cả các kiến thức chủ yếu về thống kê toán học áp
dụng vào Y-Sinh học, đó là: Lý thuyết mẫu, Lý thuyết ước lượng, kiểm định giả thuyết
thống kê, phân tích phương sai và lý thuyết tương quan và hồi quy. Ngoài ra trong
phần này chúng tôi cũng trình bày thêm công cụ so sánh mức độ liên quan của hai đại
lượng định tính và hướng dẫn việc ứng dụng tin học vào thực hành. Trong phần thực
hành, chủ yếu giáo viên hướng dẫn sinh viên biết giải bài toán và biết sử dụng phần
mềm R hoặc các phầm mềm tương đương khác vào trong tính toán thực hành, giúp
sinh viên biết cách nghiên cứu khoa học sau này. Tuy nhiên là một học phần nằm
trong chương trình đào tạo, nên học xong sinh viên cũng phải thi hết học phần. Để
thuận lợi cho sinh viên thi hết học phần, chúng tôi cũng hướng dẫn thêm cách sử dụng
máy tính điện tử cầm tay trong tính toán thực hành.
37
X¸c suÊt & Thèng kª Y häc
thu thập số liệu là quan sát (observation) là ghi lại có kiểm soát các sự kiện hoặc các
hành vi ứng xử của con người, hoặc các dấu hiệu cần nghiên cứu nào đó trên khách thể
nghiên cứu. Còn việc chọn mẫu là làm thế nào chọn được khách quan các khách thể
nghiên cứu đó để thu thập các số liệu trên khách thể đó, mà cuối cùng các số liệu (mẫu
thực nghiệm) thu thập được đại diện cho dân số mà chúng ta đang tìm cách nghiên cứu
các thông tin trên nó. Vì vậy:
+ Để các kết quả nghiên cứu trên mẫu suy ra được đúng đắn cho toàn bộ dân số,
thì yêu cầu mẫu thu được phải bảo đảm tính đại diện cao và chất lượng tốt.
+ Để nâng cao tính đại diện cho mẫu, thì mẫu phải đảm bảo tính ngẫu nhiên
(khách quan).
+ Để đảm bảo chất lượng mẫu tốt thì chúng ta phải tuân thủ:
i) Các dụng cụ đo lường phải chính xác, tốt, và hiện đại.
ii) Tôn trọng các nguyên tắc chuyên môn như: Động tác, thời gian, liều
dùng, địa điểm, hoàn cảnh, thời tiết, chuẩn bị đối tượng chu đáo.
iii) Quy định thống nhất cách ghi đơn vị cho một số liệu.
Ví dụ 1. Đo vòng ngực, vòng đầu, chiều cao phải ghi từ 0,5 cm. Cân nặng phải ghi từ
100 gam. Nhiệt độ phải ghi từ 0,10 C vv…
Do những yêu cầu trên nên người ta thường dùng 4 cách chọn mẫu chủ yếu
sau đây.
1.2.1. Chọn mẫu ngẫu nhiên
Có hai phương pháp chọn mẫu ngẫu nhiên đó là phương pháp “rút thăm” hoặc
phương pháp chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên của KAĐƯ RỐP.
- Phương pháp rút thăm có nội dung là: Giả sử cần chọn một mẫu cỡ n. Kí hiệu
các giá trị nhận được của mẫu là (x1, x2, ...,xn) từ một dân số S nào đó. Ta đánh số các
đối tượng của dân số S theo thứ tự. Sau đó làm các thăm mang số như đã đánh số các
đối tượng của tập dân số S, bỏ các thăm vào một hộp. Xóc đều thăm rồi rút ngẫu nhiên
các thăm từ hộp ra, được thăm số nào thì chọn đối tượng mang số đó của dân số S ra
nghiên cứu. Rút khi nào đủ n đối tượng thì dừng. Như vậy ta sẽ gặp hai loại mẫu đó là
mẫu có lặp và mẫu không lặp. Nếu rút 1 thăm sau đó trả thăm vào hộp ban đầu, xáo
đều rồi rút thăm tiếp theo, làm như vậy ta được mẫu có lặp. Nếu rút xong thăm nào ta
loại thăm đó ra khỏi hộp thăm thì được mẫu không lặp. Tuy nhiên khi dân số S có số
đối tượng rất lớn thì tính chất của mẫu có lặp và không lặp không khác nhau.
- Phương pháp chọn mẫu theo bảng số ngẫu nhiên của KA-ĐƯ- RỐP: Bảng số
ngẫu nhiên KA-ĐƯ- RỐP là một bảng số gồm nhiều trang, mỗi trang có 10 cột, mỗi
cột 25 số ngẫu nhiên. Như vậy mỗi trang có 250 số ngẫu nhiên. Mỗi số ngẫu nhiên
trong bảng là một số có 4 chữ số.
Cách chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên: Đánh số các đối tưọng cần
nghiên cứu của toàn bộ dân số S. Sau đó chọn một trang ngẫu nhiên của bảng số ngẫu
nhiên. Chọn ngẫu nhiên một dòng hay một cột của bảng, rồi qui ước thống nhất cách
đọc theo cột hoặc hàng, từ trên xuống hay từ trái sang phải... Đọc được số nào thì chọn
đối tượng mang số đó ra nghiên cứu. Muốn mẫu không lặp thì gặp số trùng với số đã
đọc ta bỏ qua.
38
X¸c suÊt & Thèng kª Y häc
39
X¸c suÊt & Thèng kª Y häc
rất nhiều mẫu thực nghiệm cùng cỡ n , nhưng chỉ chọn được một mẫu ngẫu nhiên kích
thước n .
§2 CÁC PHƯƠNG PHÁP BIỂU DIỄN MẪU THỰC NGHIỆM.
2.1. Phương pháp biểu diễn đại số mẫu thực nghiệm
Ở đây chúng tôi trình bày các phương pháp biểu diễn mẫu thực nghiệm của các
biến ngẫu nhiên đặc trưng cho dấu hiệu nghiên cứu đã định lượng hóa, vì thế mà mỗi
mẫu thực nghiệm trình bày dướ đây là một bộ số liệu. Vì mẫu có thể có mẫu nhị giá,
mẫu định tính, v.v…Các loại mẫu đó có cách biểu diễn khác sẽ được trình bày tiếp
trong các mục sau.
Giả sử có mẫu thực nghiệm cỡ n lấy từ các giá trị của biến ngẫu nhiên X nào đó
là một tập gồm n giá trị (x 1, x 2, ..., x n ) (*)
2.1.1. Biểu diễn mẫu theo chuỗi biến thiên
Nếu ta sắp xếp các giá trị x i (i = 1, 2,..., n ) của mẫu (*) thành dạng
(xˆ 1, xˆ 2, ..., xˆ n )sao cho xˆ i £ xˆ i + 1, " i = 1, 2, ..., n - 1 , khi đó cách biểu diễn mẫu
(*) thành dạng (xˆ 1, xˆ 2, ..., xˆ n ) (1) gọi là cách biểu diễn mẫu thành chuỗi biến thiên.
2.1.2. Biểu diễn mẫu theo bảng tần số không chia lớp
Nếu trong mẫu (*) có k giá trị khác nhau, cụ thể giả sử rằng:
Có n 1 lần x 1 có mặt trong mẫu,
n 2 lần x 2 có mặt trong mẫu,
. . . . . . . . .,
k
n k lần x k có mặt trong mẫu. Với å n i = n . Khi đó mẫu (*) được biểu
i= 1
Được gọi là biểu diễn mẫu bằng bảng phân phối tần số không chia lớp.
2.1.3. Biểu diễn mẫu theo bảng tần số chia lớp
Nếu mẫu thực nghiệm (*)được lấy từ biến ngẫu nhiên liên tục X và cở mẫu n
khá lớn thì việc biểu diễn mẫu theo một trong hai cách trên tỏ ra không thuận lợi.
Chính vì thế mà người ta chia khoảng biến thiên các giá trị của mẫu thành k đoạn bằng
nhau bởi các điểm chia a0 < a1 < a2 <…< ak đảm bảo điều kiện là các giá trị của mẫu
x i Î éêa 0 , ak ùú, i = 1, 2, ..., n . Giả sử có n 1 giá trị x i trong mẫu rơi vào khoảng éêëa 0 , a1 ),
ë û
n 2 giá trị x i trong mẫu rơi vào khoảng éêëa1, a 2 ) ,
. . . . . . . . . . . . . . . ,
n k giá trị x i trong mẫu rơi vào khoảng éa , a ).
êë k - 1 k
40
X¸c suÊt & Thèng kª Y häc
Thì khi đó mẫu thực nghiệm (*)được cho bằng bảng sau
Lớp éêëai - 1 - ai ) éa - a )
êë 0 1
éa - a )
êë 1 2
……… éa - a )
êë k - 1 k
………
(3)
Tần số n i n1 n2 nk
k
Trong đó å ()
n i = n . Cách biểu diễn như dạng 3 gọi là cách biểu diễn mẫu bằng
i= 1
là tần suất giá trị X = x i trong mẫu. Khi đó mẫu (*) được biểu điễn:
2.2.1. Đa giác tần suất mẫu
Nếu trên mặt phẳng toạ độ Đề các vuông góc Oxy ta vẽ đường gấp khúc nối các
điểm M i = (x i , i ) i = 1, 2,..., k , thì ta được đa giác tần suất mẫu.
Hình ảnh đa giác tần suất mẫu cho ta hình ảnh đồ thị hàm mật độ của biến X
cần nghiên cứu.
2.2.2. Tổ chức đồ tần suất
Khi dung lượng mẫu x1 , x2 , ..., xn lớn thì lập bảng phân phối thực nghiệm như
trên không phù hợp, lúc này ta dùng tổ chức đồ tần suất.
- Chia mẫu thành k tổ, khoảng cách giữa các tổ là h (đều nhau).
- Quy định thống nhất các mút của tổ thuộc tổ nào?
- Gọi wi ni n ( ni là các số x j của mẫu thuộc nhóm thứ i) thì tổ chức đồ tần
suất mẫu là các hình bậc thang lập lên bởi các hình chữ nhật có đáy bằng khoảng chia
h , chiều cao bằng wi / h .
Ví dụ 3. Trong một cuộc điều tra Glucôza máu của 100 đối tượng có số liệu
70 79 80 83 85 85 85 85 86 86 86 87 87 88 89 90
91 91 92 92 93 93 93 93 94 94 94 94 94 94 95 95
96 96 96 96 96 97 97 97 97 97 98 98 98 98 98 98
100 100 101 101 101 101 101 101 102 102 102 102 103 103
104 104 104 104 105 106 106 106 106 106 106 106 106 106
106 107 107 107 107 108 110 111 111 111 111 111 112 112
112 115 116 116 116 116 119 121 121 126.
Ta chia 13 tổ ( k =13, h =5) và qui định nút phải thuộc khoảng, ta có bảng:
41
X¸c suÊt & Thèng kª Y häc
TT Khoảng xi ni wi wi / h
1 (65-70] 67,5 1 0,01 0,002
2 (70-75] 72,5 0 0,00 0,000
3 (75-80] 77,5 2 0,02 0,004
4 (80-85] 82,5 5 0,05 0,010
5 (85-90] 87,5 8 0,08 0,016
6 (90-95] 92,5 16 0,16 0,032
7 (95-100] 97,5 18 0,18 0,036
8 (100-105] 102,5 17 0,17 0,034
9 (105-110] 107,5 16 0,16 0,032
10 (110-115] 112,5 9 0,09 0,018
11 (115-120] 117,5 5 0,05 0,010
12 (120-125] 122,5 2 0,02 0,004
13 (125-130] 127,5 1 0,01 0,002
Tổ chức đồ tần suất của mẫu trên là hình vẽ dưới đây.
w/h
0,036
0,034
0,032
0,018
0,016
0,010
0,004
0,002
Tổ chức đồ suất mẫu là hình ảnh thực nghiệm của đồ thị hàm mật độ phân phối
của biến X . Qua tổ chức đồ đã vẽ của mẫu trên, cho ta thấy biến ngẫu nhiên đặc
trưng Glucôza máu tuân theo luật phân phối chuẩn.
2.3. Hàm phân phối thực nghiệm Giả sử có mẫu (x 1, x 2, ..., x n ) cỡ n . Ta
sắp xếp mẫu thành chuỗi biến thiên tăng dần. Gọi n x là số các giá trị x i của mẫu mà
42
X¸c suÊt & Thèng kª Y häc
nx
x i < x , đặt Fn (x ) = , thì hàm Fn (x ) gọi là hàm phân phối thực nghiệm mẫu kích
n
thước n .
§ 3 THỐNG KÊ MÔ TẢ-ĐO ĐỘ TẬP TRUNG VÀ PHÂN TÁN CỦA BỘ SỐ
LIỆU- TRÌNH BÀY BẢNG SỐ LIỆU
Bài này trình bày các khái niệm, ý nghĩa và cách tính các thống kê mô tả để đo
độ tập trung, độ phân tán của dấu hiệu nghiên cứu đặc trưng cho một dân số cụ thể;
trình bày cách tính các thống kê trong R, bằng máy tính điện tử cầm tay Casio Fx 570
MS và cách biểu diễn mẫu bằng bảng biểu, bằng biểu đồ.
3.1. Các thông số đo độ tập trung mẫu
3.1.1. Trung bình mẫu x và cách tính
3.1.1.1. Định nghĩa
Cho mẫu thực nghiệm cỡ n : x1 , x2 , ..., xn . Trung bình mẫu x là đại lượng
thống kê xác định bằng công thức:
1 n x x ... xn
x
n i 1
xi 1 2
n
Nếu mẫu cho ở dạng bảng phân phối tần số không chia lớp như sau;
xi x1 x2 ..................................... xk
ni n1 n2 ..................................... nk
n
với n
i 1
i n , thì
1 k n x n x ... nk xn
x
n i 1
ni xi 1 1 2 2
n
k
n
hay x wi xi , trong đó: wi i
i 1 n
3.1.1.2. Cách tính
+ Tính trực tiếp từ định nghĩa khi cỡ mẫu nhỏ.
Ví dụ. Tính x của 17 trường hợp Glucôza huyết tính bằng Cg/l huyết tương cho bởi
mẫu thu được sau:
xi 75 80 85 90 95 100 105 110 120
ni 1 1 2 1 3 5 2 1 1
1 9 1
Có x ni xi 75 80 2 85 ... 120 96,5 Cg / l
17 i 1 17
+ Tính bằng máy tính
Câu lệnh trong R để tính số trung bình x của mẫu trên:
> x<-c(75,80,85,85,90,95,95,95,100,100,100,100,100,105,105,110,120)
> mean(x)
[1] 96.47059
43
X¸c suÊt & Thèng kª Y häc
Chú ý. Trung bình mẫu x có ý nghĩa như giá trị trung bình của dãy số liệu, nó là xấp
xỉ kỳ vọng lý thuyết chưa biết. Ngày nay tính x cũng có sẵn trong phần mềm máy tính
như SPSS; Exell,..
3.1.2. Trung vị (median)
3.1.2.1. Định nghĩa
Trung vị mẫu là giá trị kí hiệu Me nằm ở giữa chia dãy số liệu thành 2 phần,
một nửa dãy số liệu nhỏ hơn trung vị và một nửa dãy số liệu lớn hơn trung vị. Trung vị
là một tham số ít được sử dụng nhưng nhiều khi rất cần thiết, khi dãy số liệu có những
giá trị chênh lệch lớn hoặc khi đầu dãy và cuối dãy để mở.
Công thức tính: Nếu có mẫu cỡ n sau khi xếp thành chuỗi biến thiên
x1 , x2 ,..., xn .
xm xm 1
+ Nếu n 2m (là số chẵn) thì trung vị M e
2
+ Nếu n 2m +1 (là số lẻ) thì trung vị M e xm1
Ví dụ. Tính trung vị của mẫu cho bởi ví dụ 4
Câu lệnh trong R là:
> x<-c(75,80,85,85,90,95,95,95,100,100,100,100,100,105,105,110,120)
> mean(x)
[1] 96.47059
> median(x)
[1] 100
3.1.2.2. Ví dụ. Theo dõi nhịp tim của 15 người sau khi luyện tập một bài thể dục đòi
hỏi nhiều sức lực, ta có số liệu:
Nhịp tim 80 84 86 88 90 92 94 96 98 100 105 110 120 >125
Số người 1 1 1 1 1 1 1 1 1 1 1 1 1 2
Nếu tính x sẽ không tính được vì hai số liệu cuối bảng không cụ thể. Trường hợp này
nên xác định trung vị
Có M e x8 = 96 tương ứng với nhịp tim là 96.
Nếu tính trong R các số liệu lớn hơn 125 là 2 ta cho là 2 số liệu bằng 125 ta có câu
lệnh và tính được như sau:
> y<-c(80,84,86,88,90,92,94,96,98,100,105,110,120,125,125)
> median(y)
[1] 96
Kết quả này cũng phù hợp với kết quả trên, nhưng số trung bình của nó thì khác
> y<-c(80,84,86,88,90,92,94,96,98,100,105,110,120,125,125)
> median(y)
[1] 96
> mean(y)
[1] 99.53333
3.1.3. Mốt (mode)
3.1.3.1. Định nghĩa
Mốt (hay yếu vị) của mẫu là giá trị của mẫu có tần số lớn nhất, ký hiệu M0.
44
X¸c suÊt & Thèng kª Y häc
3.1.3.2. Ví dụ. Điều tra Glucôza máu trên 144 người có số liệu:
Tính theo mg% 85 90 95 100 105 110 115
Số người 10 18 29 35 30 17 5
Chúng ta nhận thấy có 35 người có Glucôza máu 100 mg% lớn hơn các nhóm người
có Glucoza khác 100 mg%, nên mốt mẫu là: M0 = 100.
3.1.4. Trung bình nhân (multiplication mean)
3.1.4.1. Định nghĩa
Trong Y-Sinh học, số trung bình nhân ít được sử dụng. Trong những nghiên
cứu về vi sinh học, dược lý học... đôi khi dùng trung bình nhân để biểu diễn quá trình
sinh trưởng hoặc giảm yếu của vi khuẩn dưới ảnh hưởng của thuốc hoặc yếu tố vật lý
hoá học nào khác. Công thức tính số trung bình nhân của dãy số liệu x1 , x2 ,..., xn là:
xnhanˆ n x1 x2 ...xn
3.1.4.2. Ví dụ. Mẫu về huyết áp tâm thu của 5 đối tượng là (120,125,130,135,150).
Trung bình nhân của mẫu huyết áp tâm thu của 5 đối tượng trên:
xnhanˆ n x1 x2 ...xn = 5 120 ´ 125 ´ 130 ´ 135 ´ 150 = 131,6109208
Chú ý. Trung bình nhân của hai đại lượng không bằng nhau luôn luôn nhỏ hơn trung
bình cộng của nó.
3.2. Các thông số đo độ phân tán mẫu
3.2.1. Phương sai mẫu và cách tính
3.2.1.1. Định nghĩa
Phương sai của dãy số liệu x1 , x2 ,..., xn là gía trị trung bình của bình phương
độ lệch giữa các biến so với giá trị trung bình của nó. Ký hiệu phương sai mẫu và cách
tính như sau:
2
1 k 1 n 2 2
2
Var(x) = S
n 1 i 1
xi x ni
n i 1
xi n x , n lớn.
2
Phương sai mẫu S dùng để đo mức độ phân tán giữa các giá trị của các số
liệu so với trung bình mẫu của chúng khá tốt. Tuy nhiên nó không cùng đơn vị đo với
2
các biến của mẫu nên người ta dùng biến số độ lệch chuẩn mẫu sd(x)= s S để
đặc trưng cho mức độ phân tán các số liệu của mẫu thực nghiệm đã cho.
2
3.2.1.2. Các phương pháp tính phương sai mẫu S
+ Tính trực tiếp từ công thức định nghĩa.
+ Tính bằng máy tính cầm tay Casio fx - 570MS, máy vi tính với phần mềm
SPSS hoặc tính bằng R rất thuận lợi.
Ví dụ. Tính trung bình mẫu và phương sai mẫu, độ lệch chuẩn mẫu cho bằng số liệu
trong Ví dụ mục 18.1.3.1 bằng R với câu lệnh như sau:
> x<-c(120,125,130,135, 150)
> var(x)
[1] 132,5
> mean(x)
[1] 132
Tính bằng máy tính cầm tay Casio fx - 570MS
45
X¸c suÊt & Thèng kª Y häc
Ngày nay sinh viên sử dụng các công cụ tính toán hiện đại phổ biến để tính toán
các đặc trưng mẫu được thuận lợi và nhanh chóng trong khi đi thi, đó là dùng máy
tính bỏ túi: Casio fx - 500A; Casio fx - 500MS; Casio fx - 570MS… Ở đây chúng
tôi chỉ giới thiệu sơ lược cách sử dụng máy tính bỏ túi Casio fx - 570MS để tính
toán. Tại sao chỉ giới thiệu loại máy này, đó là do loại máy này mới có thể mang vào
phòng thi sử dụng khi làm bài thi; mặt khác loại máy này đã được làm quen ở THPT.
Vào chương trình thống kê một biến SD
Ấn
MODE MODE 1
Nhập dữ liệu theo cú pháp sau:
Nếu có số liệu 25 xuất hiện 7 lần thì ta ấn 25 SHIFT ; 7 7 DT
Ví dụ. Tính phương sai mẫu và trung bình mẫu cho trong Ví dụ mục 18.1.3.1
MODE MODE 1 để vào chương trình
Nhập dữ liệu: 120 SHIFT ; 1 DT
125 SHIFT ; 1 DT
130 SHIFT ; 1 DT
135 SHIFT ; 1 DT
150 SHIFT ; 1 DT
Đọc kết quả SHI FT S.Var 1 cho ta x = 132
SHI FT S.Var 3 cho ta sd(x) =12,51086443, ấn tiếp x 2 = cho ta
var(x) = 132,5
3.2.2. Dao độ mẫu và cách tính
3.2.2.1. Định nghĩa
Cho mẫu thực nghiệm (x 1, x 2, x 3, ..., x n ) lấy từ các giá trị của biến ngẫu nhiên X
nào đó. Dao độ mẫu là số ký hiệu D được xác định như sau: D= x m ax - x min . Trong đó
x m ax = m ax (x 1, x 2, x 3, ..., x n ); x min = min (x 1, x 2, x 3, ..., x n ).
Ý nghĩa của số dao độ mẫu D là chỉ sự phân tán của dãy số liệu (mẫu thực
nghiệm). Nếu dao độ D càng lớn thì mức độ dao động của dãy số liệu càng nhiều.
Cách tính dao độ mẫu D theo R như sau
3.2.2.2. Ví dụ. Mẫu về huyết áp tâm thu (mg) của 7 đối tượng là
(120,125,130,135,140,145,150)
Câu lệnh dùng tính giá trị nhỏ nhất, lớn nhất: min, max và D trong R
> t<-c(120,125,130,135,140,145,150)
> min(t)
[1] 120
> max(t)
[1] 150
> 150-120
46
X¸c suÊt & Thèng kª Y häc
[1] 30.
Ta có D = 30
3.2.3. Khoảng tứ vị phân
3.2.3.1. Định nghĩa
Cho mẫu thực nghiệm (x 1, x 2, x 3, ..., x n ) lấy từ các giá trị của biến ngẫu nhiên X
nào đó. Nếu chúng ta chia mẫu thành 2 lớp, một lớp các x i ³ Me gọi là lớp trên và
một lớp gồm các x i £ Me gọi là lớp dưới. Khi đó khoảng tứ vị phân là khoảng cách
của trung vị lớp dưới và trung vị lớp trên.
3.2.3.2. Ví dụ. Tính khoảng tứ vị phân của mẫu cho trong Ví dụ 3.2.2.2.
Câu lệnh dùng để tính giá trị tứ vị phân mẫu trong R
> t<-c(120,125,130,135,140,145,150)
> summary(t)
Min. 1st Qu. Median Mean 3rd Qu. Max.
120.0 127.5 135.0 135.0 142.5 150.0
Tức là Q1 = 127,5 là trung vị lớp dưới, Q2=142,5 là trung vị lớp trên, nên khoảng tứ vị
phân là (127,5 - 142,5); Me = 135.
3.3. Trình bày mẫu thực nghiệm mẫu (bộ số liệu) bằng bảng biểu và biểu đồ
3.3.1. Trình bày mẫu thực nghiệm bằng bảng biểu
Bước đầu tiên của nghiên cứu khoa học là thu thập số liệu (chọn mẫu thực
nghiệm). Nhưng lấy mẫu thực nghiệm về trình bày như thế nào cho khoa học, dễ tính
toán, dễ truy xuất. Ở (phần chọn mẫu) chúng ta đã giới thiệu 3 cách trình bày mẫu
thực nghiệm (bộ số liệu) đã định lượng hóa. Tuy nhiên phương pháp trình bày mẫu và
các đặc trưng của quần thể còn có thể theo biểu đồ hoặc bảng biểu tùy thuộc vào loại
mẫu nghiên cứu. Chẳng hạn để điều tra mẫu định tính thì việc trình bày mẫu phải theo
bảng biểu:
Ví dụ 1. Một nhóm sinh viên nghiên cứu mối liên quan giữa số lượng tiểu cầu và mức
độ sốt xuất huyết, qua theo dõi tình hình 8 bệnh nhân sốt xuất huyết số liệu thu được
như sau:
Sè thø tù bÖnh nh©n Sè lîng tiÓu cÇu Giga/l Møc ®é sèt xuÊt huyÕt
1 100 Võa
2 60 nÆng
3 120 nhÑ
4 150 nhÑ
5 100 Võa
6 80 nÆng
7 90 nÆng
8 120 Võa
Cách trình bày số liệu kiểu như trên gọi là trình bày số liệu bằng bảng biểu.
Ví dụ 2. Nghiên cứu hiệu quả hai lo¹i thuèc A, B dïng ®iÒu trÞ ung th, ®îc ®em thö
nghiÖm trªn 2 nhãm ngêi cã cïng tÝnh tr¹ng ban ®Çu. KÕt qu¶ ghi l¹i ®îc:
47
X¸c suÊt & Thèng kª Y häc
KÕt qu¶
Khái bÖnh Kh«ng Tæng
Lo¹i thuèc khái bÖnh
Thuèc A 12 6 18
Thuèc B 15 3 18
Tæng 27 9 36
Cách trình bày số liệu (mẫu) như trên gọi là trình bày số liệu bằng bảng biểu. Hãy tìm
thêm những ví dụ khác?
3.3.2. Trình bày mẫu thực nghiệm bằng biểu đồ.
Thực ra biểu đồ và đồ thị của mẫu (hay của bộ số liệu) là cách mô tả hình học
một số tính chất của biến nghiên cứu hoặc các tính chất thống kê mô tả của quần thể
chứa cá thể có đối tượng mà ta đang nghiên cứu. Phần này đã được giới thiệu trong bài
8 chọn mẫu, đó là biểu diễn hình học mẫu. Biểu diễn hình học mẫu có đa giác tần suất
mẫu (polyline), tổ chức đồ tần suất (histogram), biểu đồ hình hộp (boxplot) dùng để
mô tả phân bố của biến đang nghiên cứu. Biểu đồ hình bánh (pie chart) dùng để mô tả
tỷ lệ của các số liệu của mẫu. Biểu đồ hình bánh là một vòng tròn được chia ra làm
nhiều cung tương ứng với các giá trị của mẫu. Độ lớn của cung tỉ lệ với tần suất của
giá trị của mẫu.
Ví dụ. Điều tra phương pháp đỡ đẻ của 600 trẻ trong một bệnh viện ta có mẫu thực
nghiệm cho như sau:
Phương pháp sinh số trẻ em sinh phần trăm
Sinh thường 478 79,7 %
Sinh forcep 65 10,8 %
Sinh mổ 57 9,5%
Tổng 600 100,0%
Câu lệnh để vẽ biểu đồ hình bánh của mẫu trên trong R là
> Sinh<-c(57,65,478)
> pie(Sinh,c("Sinh mo","SinhForcep","Sinh thuong"),clockwise=T)
Biểu đồ hình bánh của mẫu trên là:
48
X¸c suÊt & Thèng kª Y häc
49
X¸c suÊt & Thèng kª Y häc
Giả sử biến ngẫu nhiên X nào đó mà hàm phân phối mật độ của nó phụ thuộc
vào k tham số chưa biết 1 , 2 ,..., k (đọc là: tê ta 1, tê ta 2, …, tê ta k). Tức là hàm mật
độ phân phối của nó có dạng: f x,1 , 2 ,..., k .
Chẳng hạn: Nếu X là biến ngẫu nhiên có phân phối chuẩn thì hàm mật độ phân
x 2 2
1 212
phối của X là: f x, 1 , 2 e ...
1 2
Trong phần này ta giới hạn chỉ xét những biến ngẫu nhiên X mà hàm mật độ
phân phối của nó chỉ phụ thuộc vào 1 tham số chưa biết. Tức là hàm mật độ của nó
có dạng f x f x, trong đó dạng f x, đã biết, nhưng tham số chưa biết.
Vấn đề đặt ra là làm thế nào tính gần đúng giá trị của thông qua mẫu thực nghiệm
thu được từ biến ngẫu nhiên X là ( x1 , x2 ,..., xn ). Việc làm nhưng như thế gọi là ước
lượng tham số . Để giải quyết vấn đề này người ta dùng 2 cách sau:
Cách 1: Dựa vào mẫu ngẫu nhiên thu được kích thước n ( X 1 , X 2 ,..., X n ) từ biến ngẫu
nhiên X , ta lập một hàm kí hiệu ˆ X 1 , X 2 ,..., X n , trị số ˆ phụ thuộc vào các giá trị
( x1 , x2 ,..., xn ) của mẫu thực nghiệm tương ứng và khi đó giá trị ˆ x1 , x2 ,..., xn thay cho
chưa biết. Vì thế mà ˆ X 1 , X 2 ,..., X n gọi là hàm mẫu (vì giá trị của nó tuỳ thuộc
vào mẫu thực nghiệm lấy được).
Cách 2: Người ta tìm cách chỉ ra 1 khoảng ˆ1 X 1 , X 2 ,..., X n ,ˆ2 X1 , X 2 ,..., X n sao
cho xác suất: P ˆ1 X 1 ,..., X n ˆ2 X 1 ,..., X n (*), là một trị số cho trước,
thường là: = 0,95; = 0,99... và gọi là độ tin cậy của ước lượng, khoảng
ˆ1 x1 ,..., xn ,ˆ2 x1 ,..., xn được gọi là khoảng tin cậy của tham số với độ tin cậy .
Giả sử chúng ta có mẫu thực nghiệm cở n: ( x1 , x2 ,..., xn ) được lấy từ các giá trị
của biến ngẫu nhiên X nào đó có hàm mật độ f x f x, trong đó dạng f x,
đã biết, nhưng chưa biết. Căn cứ vào mẫu thu được, lập một đại lượng
ˆ X 1 , X 2 ,..., X n thay thế cho , như vậy thì ˆ X 1 , X 2 ,..., X n phải chọn sao cho sát với
nhất theo nghĩa: Không chệch, hội tụ, (vững) và có phương sai bé nhất. Để hiểu
điều đó ta xét các định nghĩa sau:
1.2.1. Định nghĩa ước lượng không chệch
50
X¸c suÊt & Thèng kª Y häc
Hàm ˆ X 1 , X 2 ,..., X n lựa chọn ước lượng thay cho được gọi là không chệch
nếu:
M ˆ X 1 , X 2 ,..., X n (1) ;
Kỳ vọng của biến ngẫu nhiên ˆ X 1 , X 2 ,..., X n được tính theo phân phối của
( X 1 , X 2 ,..., X n ). Nếu xem ˆ X 1 , X 2 ,..., X n - là sai số ước lượng, thì ước lượng thỏa
mãn (1) là ước lượng không có sai lầm hệ thống.
1
Ví dụ. ˆ X 1 , X 2 ,..., X n X X 1 X 2 ... X n lấy từ biến ngẫu nhiên X có phân
n
phối chuẩn N , là một ước lượng không chệch của thật vậy:
2
1 n 1 n n
M X M Xi M (Xi )
n i 1 n i 1 n
n .
Định lý Nếu ˆ X 1 , X 2 ,..., X n là một ước lượng không chệch của và thoả mãn:
a.
n
Lim M ˆ X 1 , X 2 ,..., X n 0
51
X¸c suÊt & Thèng kª Y häc
Ví dụ. Cho X là một biến ngẫu nhiên có phân phối N , 2 , xét xem X có phải là
một ước lượng hiệu quả của hay không biết rằng:
ln f x, x
.
2
Áp dụng bất đẳng thức thông tin để giải quyết vấn đề này:
2 2
ln f x, X n 2 n
M nM 2 4 M X 2
2 2
Mặt khác D X
n
tức là D X
n
Theo bất đẳng thức thông tin X có phương sai bé nhất. Từ cơ sở lý thuyết
trên, người ta chứng minh được hàm ước lượng của một số tham số như sau:
Tham số cần Các tính chất của
ước lượng
Hàm ước lượng M ˆ D ˆ ˆ X 1 , X 2 ,..., X n
1 n 2 Không lệch, vững
M X X Xi
n i 1 n và hiệu quả
m p 1 p Không lệch, vững
Xác suất p Tần suất p
n n và hiệu quả
1 n 3 2
Phương sai 2 1 n 2 4
n n 1
2
s Xi X
n 1 i 1
2
4
Không lệch, vững
4 X X
Mô men 1 n 3
trung tâm
Xi X
n i 1
3
cấp 3: m3
Mô men 1 n 4
trung tâm
Xi X
n i 1
4
cấp 3: m4
m3 3
Độ lệch A
s3 3
m4 4
Góc dư E 3 3
s4 4
1.2.4. Các phương pháp cấu tạo hàm ước lượng điểm
+ Phương pháp mô men
Phương pháp này là phương pháp đơn giản được dùng từ trước đến nay. Nếu
một phân phối nào đó phụ thuộc vào r tham số, thì người ta có thể biểu diễn r mô men
đầu tiên của phân phối theo r tham số ấy. Nội dung của phương pháp mô men là ở chỗ:
Thay các mô men lý thuyết bằng các mô men thực nghiệm tương ứng và từ quan hệ đó
xác định giá trị các tham số cần ước lượng.
+ Phương pháp hợp lý cực đại
52
X¸c suÊt & Thèng kª Y häc
Phương pháp này do Fisher đề ra, là một trong những phương pháp ước lượng
quan trọng hay dùng nhất.
Giả sử biến ngẫu nhiên X, có hàm mật độ phân phối f x, trong đó dạng f đã
biết, nhưng chưa biết, để ước lượng người ta lấy mẫu thực nghiệm ( x1 , x2 ,..., xn ) từ
X và lập hàm:
L f x1 , f x2 , ... f xn , (1)
L gọi là hàm hợp lý mẫu, nó phụ thuộc vào xi và . Nếu xem xi là các hằng số
thì L là một biến số, biến là .
Tìm ˆ x1 , x2 ,..., xn sao cho L ˆ x1 , x2 ,..., xn L (3)
L ˆ ln L ˆ L ln L
Nếu điều kiện có đạo hàm thoả mãn thì tại ˆ x1 , x2 ,..., xn ta có:
dL
0 (4) Phương trình (4) là phương trình hợp lý cực đại, mọi nghiệm
d
của nó đều là ước lượng hợp lý cực đại của .
Vídụ. Biến ngẫu nhiên X có phân phối N , 2 Hàm mật độ
x 2
1
2 2
f x e
2
Giả sử tham số chưa biết cần ước lượng . Lập hàm hợp lí:
n
1 2
2 i
1 x
L e 2 i1 L
2
n
1 1
xi
2
n
L ln e 2 2 i 1
n ln 1 1 2 x
i
2
2 2 2 i 1
dL 1 n 2
2 xi 0
d i 1
1 n
Giải phương trình này được một ước lượng hợp lý cực đại của là: x xi
n i 1
d dL n
ta thấy 0, n nên tại x, L đạt cực đại. Mở rộng, nếu là một
d d 2
đại lượng ngẫu nhiên nhiều chiều, chẳng hạn 1 , 2 cũng tương tự ta có phương
trình hợp lý cực đại là:
dL
0, (i = 1,2)
d
Nghiệm của phương trình là ˆ ˆ1 ,ˆ2 cũng là một ước lượng hợp lý cực đại của .
53
X¸c suÊt & Thèng kª Y häc
x
p u n u p x u x u 1
2 2 2 n 2 n
trong đó u là số tra bảng phân phối chuẩn sao cho u 1 . Vậy trong trường
2 2 2
hợp này tham số có khoảng tin cậy với độ tin cậy là: x u ; x u
2 n 2 n
u được gọi là độ chính xác của ước lượng, phản ánh mức độ sai lệch của
n 2
trung bình mẫu so với trung bình tổng thể, với xác suất .
Trong thực tế thường : = 0,95 thì u = 1,96
2
54
X¸c suÊt & Thèng kª Y häc
Từ đây suy ra cần xác định dung lượng mẫu n để khoảng chứa kỳ vọng có độ dài
không vượt quá 2 với mức tin cậy đã biết:
u 2 2
u n 2 2
n 2
2
1 n
2
+ Nếu không biết phương sai 2 thì ta ước lượng 2 s xi x .
n 1 i 1
x
Khi đó thống kê n có phân phối T với bậc tự do ( n -1), do đó với độ tin cậy
cho trước, chúng ta có thể tìm được số t n 1 từ bảng phân phối với bậc tự do n -1;
2
s s
1 để: p x t n 1 x t n 1 khoảng tin cậy
2 n 2 n
của với độ tin cậy là
s s
x t n 1 x t n 1 (2)
2 n 2 n
trong đó t n 1 là số tra từ bảng phân phối T (Student) bậc tự do n -1; với 1
2
tương tự để độ dài khoảng ước lượng không vượt quá 2 thì dung lượng mẫu:
2
2
t n 1 s
n 2 2
Ví dụ. Qua mẫu điều tra urê máu của 10 đối tượng có mẫu: ( 24, 40, 30, 19, 48, 32,
35, 21, 18, 40). Hãy ước lượng và tìm khoảng tin cậy của trung bình urê máu của tổng
thể với độ tin cậy 95%.
24 40 ... 40
Từ mẫu tính được: x 30, 7
10
2 2 2
s 2
24 30, 7 40 30, 7 ... 40 30, 7
103,3
9
Với giả thiết urê máu có phân phối chuẩn, thì theo công thức cấu tạo khoảng ước
lượng (2) ta có: Tra bảng T, độ tự do 9, =0,95 có t0,025 9 2, 26 .
khoảng tin cậy của số trung bình là:
103,3 103,3
30, 7 2, 26 ;30, 7 2, 26
10 10
Hay: (23,4; 38) Cg/l.
55
X¸c suÊt & Thèng kª Y häc
Để đảm bảo độ dài khoảng ước lượng <5 Cg/l dung lượng mẫu tối thiểu là:
2
n
2, 26 103, 3
21,1 . Vậy phải điều tra tối thiểu 22 người.
25
Tính bằng R như sau:
> edit
function (name, ...)
UseMethod("edit")
<environment: namespace:utils>
> x<-c(24,40,30,19,48,32,35,21,18,40)
> mean(x)
[1] 30.7
> sd(x)
[1] 10.16585
> 30.7-1.96*10.1658/3
[1] 24.05834
> 30.7+1.96*10.1658/3
[1] 37.34166
Suy ra khoảng tin cậy 95% cần tìm là [24,05834; 37,34166]
Nhận xét: Máy tính độ chính xác tốt hơn ta tính bằng thủ công.
2.2.2. Phương pháp ước lượng dựa vào phân phối tiệm cận
Phương pháp này ta không dựa vào hàm phân phối của X vì rằng ta chưa biết
được. Do vậy số lượng mẫu n phải lớn. Thông thường n 30 thì x có phân phối tiệm
2
cận N , nên ta sử dụng công thức ước lượng đã biết ở trên.
n
2.2.2.1. Ước lượng và khoảng tin cậy của tỉ lệ p (hay xác xuất p ) khi cỡ mẫu lớn và
p hoặc q 1 p không quá bé
Ví dụ. Khám n = 100 người trong 1 nhà máy thấy có 40 người mắc bệnh A. Hãy ước
lượng và tìm khoảng tin cậy của tỉ lệ mắc bệnh A trong nhà máy.
40
Ký hiệu pm 0, 4 là tần suất số người mắc bệnh A trong mẫu, p là tỉ lệ
100
bệnh A, p chưa biết cần ước lượng p. Ta biết rằng pm là một ước lượng điểm của p,
nhờ quy luật phân phối chuẩn ta có: Khoảng tin cậy của tỉ lệ bệnh A với độ tin cậy
là:
pq pq
pm u ; pm u
2
n 2
n
pq pq
Tức là: u p pm u thay n =100; pm =40% vào giải bất phương trình
2 n 2 n
56
X¸c suÊt & Thèng kª Y häc
0,3 p 0,5 (vì = 0,95 thì u = 1,96 2). Số u là số tra bảng chuẩn. Tóm
2 2
lại: Nếu pm là tần suất quan sát được trên mẫu có cỡ n ( n 30) thì tỉ lệ hay xác suất
p chưa biết của tổng thể (khi p không quá bé hoặc không quá lớn) sẽ nằm trong
pm 1 pm pm 1 pm
khoảng tin cậy pm 1,96 ; pm 1,96 với độ tin cậy 95%.
n n
Tương tự để độ dài khoảng ước lượng p không vượt quá 2 thì dung lượng mẫu:
u2
n 2
4 2
pm 1 pm
Thường dùng công thức gần đúng là pm 2
n
pm 1 pm
p sẽ nằm trong khoảng pm 2,58 với độ tin cậy 0.99. Nói cách
n
pm 1 pm
khác với mức ý nghĩa thì khoảng tin cậy của p là pm ; là độ lệch
n
thu gọn với mức ý nghĩa là . (Bảng độ lệch thu gọn sách ứng dụng thống kê trong
Y- Sinh học - Lê Khánh Trai; Hoàng Hữu Như , xem [2]).
Chú ý. Điều kiện áp dụng công thức tốt khi n pm 10; áp dụng được npm 5.
2.2.2.2. Ước lượng khoảng tin cậy của tỉ lệ (hay xác suất) p khi n lớn, p hay q khá
bé.
Ví dụ. Khám 20000 người thấy 23 người bị hủi. Tìm khoảng tin cậy của tỷ lệ bệnh
hủi.
Gọi p là tỷ lệ của tổng thể, p chưa biết, cần ước lượng p thông qua tần suất
23
mẫu pm 0, 00115 . Tra bảng 6 khoảng tin cậy 95% của tỷ lệ bé mẫu lớn; bảng
20000
này cho ta 2 giá trị np1 và np2 (dòng 20, cột 3) x = 23. np1 = 14,6; np2 =34,5
14, 6 34, 5
p1 0, 000073; p2 0, 000172 . Vậy tỷ lệ bệnh hủi trong tổng thể
20000 20000
được ước lượng là p = 0,115% và có khoảng tin cậy là: (0,073%; 0,172%) với mức ý
nghĩa =5%.
2.2.2.3. Ước lượng khoảng tin cậy của tỷ lệ (hay xác suất) p khi có mẫu n bé,
p không quá bé và q không quá lớn:
Ví dụ. Điều trị 9 người bệnh bằng 1 thuốc A thấy có 4 người khỏi bệnh. Tìm khoảng
tin cậy của tỷ lệ khỏi bệnh khi dùng thuốc A.
4
Cần ước lượng tỷ lệ khỏi bệnh bằng p bằng tần suất pm 44, 4% . Tra bảng
9
x
(khoảng tin cậy của tỷ lệ pm của mẫu bé). Có hàng n = 9, cột x = 4 có 2 số 13,7 và
n
57
X¸c suÊt & Thèng kª Y häc
8,8. Vậy với độ tin cậy 95% thì khoảng tin cậy của tỉ lệ khỏi bệnh khi điều trị bằng
thuốc A là: [13,7; 78,8]. Hoặc bảng VIIIA xem [5].
1. Phát ra 350 phiếu thăm dò về một chính sách nông nghiệp, ta thu được 250
phiếu ủng hộ việc áp dụng chính sách đó.
a) Tìm khoảng tin cậy 95% cho tỷ lệ phần trăm ủng hộ chính sách trên.
b) Với độ tin cậy 95%, cần phát ra tối thiểu bao nhiêu phiếu thăm dò để ước
lượng của tỷ lệ phần trăm ủng hộ chính sách không lệch quá 5% so với thực tế?
2. Xét một quy trình đóng gói một loại sản phẩm. Khi quy trình hoạt động tốt, thì
các gói sản phẩm có trọng lượng trung bình là 20 gam. Một mẫu ngẫu nhiên gồm 30
gói sản phẩm được chọn ra cho các trọng lượng như sau:
TL(gam) 19,8 19,9 20 20,1 20,2 20,3 20,4
Số gói 3 6 8 6 4 2 1
Giả sử trọng lượng các gói sản phẩm tuân theo luật phân phối chuẩn.
a) Hãy tìm kỳ vọng mẫu và phương sai mẫu, từ đó tìm khoảng tinh cậy 95%
cho kỳ vọng trọng lượng các gói sản phẩm.
b) Tìm khoảng tin cậy 95% cho phương sai trọng lượng các gói sản phẩm.
3. Một loại bệnh có tỉ lệ tử vong là10%. Muốn chứng tỏ loại thuốc có hiệu nghiệm
(Nghĩa là hạ thấp tỉ lệ tử vong) với độ tin cậy g = 95% thì phải thử ít nhất mấy
trường hợp.
4. Quan sát 200 lọ thuốc trong một lô hàng rất nhiều, ta thấy có 17 lọ không đạt tiêu
chuẩn. Hảy ước lượng tỉ lệ loại thuốc không đạt tiêu chuẩn với độ tin cậy = 0,95.
5. Đo Cholesterolmie (đơn vị đo Mg %) của một nhóm người ghi được số liệu:
Chol 150 -160 160 -170 170 -180 180 - 190 190-200 200-210
Số người 3 9 11 3 2 1
2
a. Tìm X , S * .
b. Ước lượng trung bình Cholesterolmie trong dân số với độ tin cậy = 0,95.
6. Một loài thuốc mới đem thử điều trị cho 50 người bị bệnh B kết quả 40 người khỏi
bệnh.
a. Hảy ước lượng tỷ lệ khỏi bệnh p nếu dùng thuốc trên với độ tin cậy cậy
g = 0, 95 .
b. Nếu muốn sai số không vượt quá 0,02 với độ tin cậy g = 0, 95 thì phải quan sát
mấy trường hợp.
7. Thống kê tuổi thọ trung bình của 256 bóng đèn một nhà máy sản xuất, ta thu được
bảng số liệu sau đây.
Khỏang 1100 1200 - 1300 1400 1500 1600 - 1700 - 1800 1900
[ai-1, ai) -1200 1300 -1400 -1500 -1600 1700 1800 -1900 -2000
Tầ số ni 14 16 20 36 48 42 32 26 22
58
X¸c suÊt & Thèng kª Y häc
59
X¸c suÊt & Thèng kª Y häc
Việc kiểm định giả thuyết H0 thường là việc đi tìm miền bác bỏ của nó. Miền
bác bỏ của giả thuyết H0 thường được kí hiệu là W. Một phương pháp kiểm định giả
thuyết H0 là một cách chỉ ra miền bác bỏ W của H0. Vì vậy một phương pháp kiểm
định được gọi là một quy tắc kiểm định W.
1.2.2. Các loại sai lầm
Chúng ta biết rằng: Mẫu chưa phải là hình ảnh chính xác của tổng thể, các phần
tử của mẫu còn phụ thuộc vào việc chọn ngẫu nhiên các đối tượng của tổng thể, vì vậy
mỗi mẫu còn có những sai số ngẫu nhiên. Khi đưa mỗi mẫu vào kiểm định giả thuyết
H0. Chúng ta có thể mắc các loại sai lầm sau đây.
+ Sai lầm loại I: Tức là H0 đúng nhưng bác bỏ nó.
+ Sai lầm loại II: Tức là H0 sai nhưng ta vẫn chấp nhận nó.
Cả 2 loại sai lầm này đều có tác hại như nhau. Trong thực tế muốn giảm sai lầm
loại này thì sai lầm loại kia lại tăng lên. Chính vì thế mà trong thực hành người ta
thường cho trước sai lầm loại I bằng ( thường là 0,05; 0,01;... ) gọi là mức ý nghĩa
của qui tắc và tìm qui tắc kiểm định W sao cho sai lầm loại II càng bé càng tốt.
Vậy để phát biểu bài toán kiểm định giả thuyết người ta phải đưa ra giả thuyết
H0, đối thuyết H1 (có tài liệu dùng đối thuyết K) và mức ý nghĩa , sau đó dựa vào qui
luật phân phối xác suất để tìm miền bác bỏ W , cuối cùng dựa vào nguyên lý xác suất
nhỏ để kết luận suy diễn cho toàn dân số.
2
Tìm U hoặc U từ hệ thức U 1 ; U 1
2 2 2
So sánh U với U hoặc U .
2
60
X¸c suÊt & Thèng kª Y häc
x 0
W x1 , x2 ,..., xn :
n U
2
Miền bác bỏ H0: 0 / H1: 0 là:
x 0
W x1 , x2 ,..., xn : n U
Miền bác bỏ H0: 0 / H1: 0 là:
x 0
W x1 , x2 ,..., xn : n U
2.1.2. Nếu 2 chưa biết (test T)
Giả thiết X N , 2 các bước tiến hành như sau:
2
* Xuất phát từ mẫu x1 , x2 ,..., xn tính x ; S * .
x 0
t n 1
S
* Với đã cho, tra bảng phân phối Student (bảng T) bậc tự do ( n -1) để tìm
t n 1 hoặc t n 1 từ hệ thức
2
p Tn 1 t n 1 1
2 2
p Tn 1 t n 1 1
So sánh t với t n 1 hoặc t n 1
2
61
X¸c suÊt & Thèng kª Y häc
U 1,96 U 1, 67 U 1, 96 nên chấp nhận H0. Tức là quan sát phù hợp với giá
2 2
2.2. Kiểm định giả thuyết về xác suất (Kiểm định tỉ lệ)
2.2.1. So sánh tỷ lệ quan sát với 1 tỷ lệ có trước (Test Z)
Giả sử có 1 đám đông, A là một dấu hiệu cần nghiên cứu P A p ; quan sát
n lần thấy biến cố A xẩy ra m lần, khi đó ta cần kiểm định giả thuyết: H0: p p0 .
Với một trong các đối thuyết H1: p p0 ; p p0 ; p p0 , mức ý nghĩa cho trước. Ta
m
- p0
tính lượng thống kê : Z = n n
p0 (1 - p 0 )
Khi đó miền tiêu chuẩn, (miền bác bỏ H0) tương ứng với các đối thuyết trên là:
ìï ü
ï
p = p0 / p ¹ p0 : W = í Z ³ U ïý
ï
ïï ï
2 ïþ
î
p = p0 / p ¹ p 0 : W = {Z ³ U }
p = p0 / p ¹ p 0 : W = {Z £ - U }
Ví dụ 3. Một loại thuốc chữa bệnh trong quá trình thử nghiệm người ta khẳng định tỷ
lệ người khỏi bệnh khi dùng thuốc đó là 80%. Đưa thuốc đó ra sử dụng ở một bệnh
viện theo dõi trong 150 người dùng thuốc có 110 người khỏi. Vậy với =0,05 có thể
coi rằng tỷ lệ khỏi bệnh là 80% được không?
Ta kiểm định tỉ lệ khỏi bệnh khi dùng thuốc A do đặt giả thuyết:
H0: p 0,80
H1: p 0,80; 0, 05
62
X¸c suÊt & Thèng kª Y häc
m 110
0,80 0,80
Tính Z= n 150 150 12, 25 2,14;U 0,05 1, 96
0,8 0, 2 0, 4 2
2,14 1,96 , vậy bác bỏ H0: p 0,80 chấp nhận H1: p 0,80 với 0, 05 .
Nếu kiểm định giả thuyết H0: p 0,80 ; H1: p 0,80; 0, 05 , có: U(0,05)=1,65
2,14 1, 65 nên không chấp nhận H0: p 0,80 nhưng chấp nhận H1 p 0,80 .
Ví dụ 4. Một đám đông (dãy số) có dấu hiệu A với tỷ lệ 20% đã biết qua nhiều lần
quan sát, lấy từ tổng thể (dãy số) đó ra 50 đối tượng và tác động vào một yếu tố nghiên
cứu B, sau đó kiểm tra thấy thấy có 20 đối tượng có dấu hiệu A. Hỏi yếu tố nghiên cứu
B có là tăng tỉ lệ dấu hiệu A của tổng thể lên không? Kết luận với = 0,05.
Đặt giả thuyết:
H0: p 0, 20
H1 : p 0, 20; 0, 05
Ở đây n 50; p0 20% 0, 02; m 20
m 20
0, 20 0, 20
Tính n 150 50 7, 07 3,535; U 0,05 1, 65
0, 2 0,8 0, 4
3,535 1, 65 nên bác bỏ H0: p 0, 20 , chấp nhận H1: p 0, 20 . Tức là yếu tố
B đã làm tăng tỉ lệ dấu hiệu A có ý nghĩa.
2.2.2. So sánh 2 tỷ lệ (Test Z)
Giả sử có hai mẫu ngẫu nhiên:
1 co xa c suaˆ t p1
X , X ,..., X trong đó:
1 2 n1 Xi
co xa c suaˆ t q1 1 p1
0
n1
m1 X i chính là số lần xảy ra biến cố A với p1 P A
i 1
1 co xa c suaˆ t p2
và Y1 , Y2 ,..., Yn 2
trong đó: Y 0
i
co xa c suaˆ t q 2 1 p2
n2
m2 Y j chính là số lần xảy ra biến cố A với p2 P A
j 1
Bài toán đặt ra là: Kiểm định giả thuyết: H0: p1 p2 , với một trong các đối thuyết H1
sau: p1 p2 hoặc p1 p2 hoặc p1 p2 .
Vì E X i p1 , E Y j p2 , D X i p1 1 p1 , D Y p2 1 p2 cho nên so
sánh hai xác suất p1, p2 chính là so sánh 2 giá trị trung bình E X i , E Y j với phương
sai chưa biết.
Nếu giả thuyết H0 đúng: p1 p2 thì D X i D Y j và kí hiệu chung là 2 khi đó
D X D Y 1 1
D X Y n1
n2
2 . Để ước lượng phương sai chung 2 , từ hai
n1 n2
63
X¸c suÊt & Thèng kª Y häc
mẫu đã cho ta gộp lại thành 1 mẫu cỡ n1 n2 từ đó ước lượng cho phương sai
m1 m2 m1 m2
2 = D X D Y là 1
n1 n2 n1 n2
m1 m2 m1 m2 1 1
Do đó D X Y 1
n1 n2 n1 n2 n1 n2
p1 = p2 / p1 > p2 : W = {Z ³ U }
p1 = p2 / p1 < p2 : W = {Z £ - U }
Ví dụ 5. Kiểm tra chất lượng sản phẩm ở 2 lô hàng (rất nhiều) lô I có 18 sản phẩm
hỏng, trên 150 sản phẩm được kiểm tra ngẫu nhiên, trong khi đó ở lô II có 20 sản
phẩm hỏng trên 250 sản phảm được kiểm tra. Hỏi chất lượng sản phẩm ở hai lô có như
nhau không ? Kết luận với = 0,05.
Cần kiểm định: H0: p1 p2
H1: p1 p2 , = 0,05.
p1 ; p2 là tỷ lệ phế phẩm (sản phẩm hỏng) thông qua 2 mẫu:
n1 150; m1 18
n2 250; m2 20
18 20
Tính: U 150 250 1,32; U 1,96
38 38 400 2
1
400 400 150 250
Có U < U Chấp nhận giả thuyết H0. Nghĩa là chất lượng của 2 lô hàng
2
như nhau.
2.3. Kiểm định hai số trung bình của hai dân số
Giả sử ta có 2 biến ngẫu nhiên X và Y với E X 1; D X 12 ;
E Y 2 ; D Y 22 .
64
X¸c suÊt & Thèng kª Y häc
Giả sử X 1 , X 2 ,..., X n
1
và Y , Y ,..., Y là hai mẫu ngẫu nhiên độc lập với nhau
1 2 n1
được rút từ hai biến ngẫu nhiên X , Y tương ứng. Bài toán đặt ra là:
Kiểm định giả thuyết: H0: 1 2 đối với một trong các đối thuyết
H1: 1 2 ; 1 2 ; 1 2 .
2.3.1. Hai dân số có phân phối chuẩn
Giả sử X N 1 , 12 , Y N 2 , 2 2 . Chúng ta lấy mẫu thực nghiệm tương
( )
ứng cở n 1 từ X là x 1, x 2, ..., x n ; lấy mẫu thực nghiệm tương ứng cở n 2 từ Y là
1
(y , y ,..., y ). Khi đó X = x ,
1 2 n2
Y = y ; S X2 = v ar(x ), SY2 = v ar(y )
2.3.1.1. Nếu 12 , 22 đã biết (test Z)
Khi đó ta thực hiện các bước như sau:
X - Y
Xuất phát từ 2 mẫu đã cho tính X , Y và Z =
12 22
+
n1 n2
x t2
1
Với đã cho ta bảng f x e 2
dt tìm U hay U .
2 2
Trong trường hợp này ta phải giả thiết 12 2 2 khi đó ta làm như sau:
- Xuất phát từ hai mẫu đã cho tính X , Y , S X 2 , SY 2
X- Y
- Tính t
n1S X 2 +n2 SY 2 n1 n2
n1 n2 2 n1 n2
Với đã cho tra bảng Student tìm t n1 n2 2 hoặc t n1 n2 2
2
65
X¸c suÊt & Thèng kª Y häc
1 2 / 1 2 : W t t n1 n2 2
1 2 / 1 2 : W t t n1 n2 2
Ví dụ 6. Ở một công ty nào đó có cả công nhân nam và công nhân nữ cùng làm một
công việc như nhau. Người ta nghi ngờ rằng năng suất trung bình/ giờ của nam cao
hơn nữ. Để kiểm tra xem điều nghi ngờ trên có đúng không? Người ta lấy ngẫu nhiên
2 mẫu với n1 n2 =36 và tính được X = 65; Y 58 ( X , Y là năng suất/ giờ của nam
và nữ tuân theo luật chuẩn). Giả sử X , Y có phương sai như nhau và bằng 32
( 12 = 22 =32) với = 0,05, có thể nói rằng sự khác nhau là có ý nghĩa và thực sự
năng suất trung bình của nam cao hơn nữ hay không?
Ở đây 12 , 22 đã biết n1 n2 =36
Ta kiểm định giả thuyết: H0: 1 2
H1: 1 2 , = 0, 05 .
X - Y 65 - 58
Ta có Z = = = 5, 25
12 22 2´
32
+
n1 n2 36
= 0,05 có U =1,65 5,25 > 1,65 H0 bị bác bỏ, tức là điều nghi ngờ
trên là đúng.
Ví dụ 7. Hàm lượng kiềm trong phun trào ở Ebeo và Vecnatski (thuộc Liên xô cũ)
theo 2 mẫu cỡ n1 =34; n2 =50. Qua tính toán ta nhận được X =4,62; Y 5,19
S X 2 2,52, SY 2 2,83 với = 0,05. Hãy kiểm tra giả thiết cho rằng hàm lượng kiềm
trong 2 khối trên là bằng nhau (giả thiết rằng hàm lượng kiềm tuân theo luật chuẩn).
Ta kiểm định giả thuyết: H0: 1 2
H1: 1 2 ; = 0,05.
Phương sai chưa biết. Ta tính:
X- Y 4, 62 5,19
t 1,543
n1S X 2 +n2 SY 2 n1 n2 34 2, 52 50 2,83 34 50
n1 n2 2 n1 n2 34 50 2 34 50
Tra bảng T có t 0,05 82 2 vậy t t 0,05 82 nên chấp nhận H0. Ta chấp
2 2
nhận hàm lượng kiềm trong phun trào của 2 khối là như nhau.
Vấn đề đặt ra là: Nếu trong 2 tổng thể chưa biết luật phân phối thì kiểm định như thế
nào ? Trong trường hợp mẫu lớn thì sao?
2.3.2. Hai dân số có luật phân phối chưa biết
Trường hợp này chúng ta phải thu thập mẫu có số lượng lớn, nếu hai cỡ mẫu
n1 , n2 đều đủ lớn khi đó 12 , 2 2 đã biết thì theo định lý giới hạn trung tâm X , Y có
phân phối giới hạn là chuẩn. Nếu 12 , 22 chưa biết thì thay 12 bởi S12 , 2 2 bởi S 22
chúng ta lại áp dụng như trường hợp phương sai chưa biết.
66
X¸c suÊt & Thèng kª Y häc
Tóm lại: Trong trường hợp n1 , n2 đủ lớn chúng ta giải bài toán so sánh 2 giá trị
trung bình như sau:
- Xuất phát từ mẫu tính X , Y .
ïì ïü
H0 là: 1 = 2 / 1 ¹ 2 : W = ïí Z ³ U ïý
ïï ïï
î 2þ
1 = 2 / 1 > 2 : W = {Z ³ U }
1 = 2 / 1 < 2 : W = {Z £ - U }
Trong thực tế n đủ lớn tức là n 100 .
Ví dụ 8. Để có chính sách hỗ trợ việc chăm sóc nuôi dưỡng trẻ sơ sinh (chẳng hạn
tiêu chuẩn PAM) người ta thống kê trọng lượng trẻ sơ sinh ở một nhà hộ sinh ở thành
phố và ở vùng nông thôn. Gọi X , Y là trọng lượng trẻ sơ sinh ở thành phố và ở nông
thôn tương ứng. Kết quả thông kê bỏ qua phần tính toán nhận được:
150 cháu ở thành phố X =3200 g, S X 2 =40 000
200 cháu ở nông thôn Y =3000 g, SY 2 =90 000
với =0,05 có thể kết luận trọng lượng trung bình của các cháu sơ sinh ở nông thôn
nhẹ hơn ở thành phố không?
Ta kiểm định giả thuyết: H0: E X =E Y
H1: E X E Y =0,05
Thông qua mẫu thu được 12 , 22 chưa biết.
3200 3000
Tính U 7, 45
40000 90000
150 1 200 1
Tra bảng U (0,05)=1,65 có U > U (0,05) Bác bỏ H0: Nghĩa là trọng lượng trẻ sơ
sinh ở thành phố lớn hơn ở nông thôn có ý nghiã.
Trường hợp mẫu nhỏ thì sao? Khi không biết luật phân phối. Trong trường hợp
này ta có thể dùng tiêu chuẩn hạng của Mann-Whitney hoặc dùng tiêu chuẩn 2 (khi
bình phương).
2.4 Kiểm định bằng test 2
67
X¸c suÊt & Thèng kª Y häc
Ở Mục 2.3. ta đã xét bài toán so sánh 2 tỷ lệ trong trường hợp mẫu lớn. Vấn đề
đặt ra là so sánh 2 tỷ lệ mẫu bé, hoặc so sánh 1 lúc lớn hơn 2 tỷ lệ thì sao? Để giải
quyết vấn đề này ta dùng test 2 . Đúng như vậy dùng test 2 còn cho chúng ta so
sánh sự độc lập các yếu tố, sự phù hợp với một quy luật phân phối v.v... Để làm quen
với phương pháp này ta xét các trường hợp sau:
2.4.1. Kiểm định sự phù hợp đối với một phân phối lý thuyết
Giả sử có mẫu ngẫu nhiên (X 1, X 2,..., X n ) lấy từ biến ngẫu nhiên X có hàm phân
phối F (x ) đã biết, bài toán đặt ra là: Biến ngẫu nhiên X có hàm phân phối F (x ) có
đúng ? Nói cách khác số liệu thực nghiệm (x 1, x 2,..., x n ) có phù hợp với giả thiết lý
thuyết X có phân phối F (x ) hay không? Để giải quyết bài toán trên ta tiến hành các
bước sau:
+ Chia khoảng giá trị có thể của biến X thành k khoảng rời nhau S1, S2, …, Sk.
k
+ Đếm mi số các giá trị quan sát rơi vào khoảng Si , å mi = n .
i= 1
2
k (m i
- npi )
+ Tính tổng = å npi
.
i= 1
+ Với đã cho, tra bảng phân phối 2 với bậc tự do k-1, ta tìm được số k2- 1 ( )sao
cho P {k2- 1 ³ k2- 1 ( )}= . Khi đó:
+ Nếu 2 ³ k2- 1 ( ) ta bác bỏ giả thuyết biến ngẫu nhiên X có phân phối F (x ),
+ Nếu 2 < k2- 1 ( ) ta chấp nhận giả thuyết biến ngẫu nhiên X có phân phối F (x ).
Ví dụ 9. Buffon đã tung đồng tiền cân đối, đồng chất 4040 lần thấy có 2048 lần sấp.
Hỏi rằng kết quả thực nghiệm đó có phù hợp với giả thuyết cho rằng xác suất của việc
xuất hiện mặt sấp bằng 0,5 hay không. ( = 0, 05).
Ta có n=4040. k=2, m1=2048, m2=1992, p1=P(S)=0,5; p2=P(N)= 0,5;
2 2 2 2
2
=
(m 1
- np1 )
+
(m 2
- np2 )
=
(2048 - 2020)
+
(1992 - 2020)
= 0, 776 .
np1 np2 2020 2020
Với ( = 0, 05), tra bảng có 12 (0, 05) = 3, 841 . Vậy 2 < k2- 1 ( ) nên ta chấp nhận
phân phối lý thuyết P(S) = 0,5.
2.4.2. Kiểm định tính độc lập giữa các biến ngẫu nhiên
Giả sử ta có mẫu ngẫu nhiên cở n quan sát đồng thời về hai biến ngẫu nhiên X và
Y: (X1, Y1) , (X2, Y2), …, (Xn, Yn).
Giả thuyết H0: X và Y độc lập với nhau,
Đối thuyết H1: X và Y không độc lập, mức .
Ta ghép các giá trị mẫu (X1, …,Xn) thành r khoảng, và ghép các giá trị mẫu (Y1,…,Yn)
thành s khoảng. Khi đó ta nhận được bảng số liệu hai lối vào gồm r´ s Ô chữ nhật con
68
X¸c suÊt & Thèng kª Y häc
. Gọi Ô (i, j) là Ô ở hàng i cột j. Đếm các số quan sát từ mẫu đã cho rơi vào Ô (i, j), ký
hiệu số đó là nij , i=1,2,…,r; j=1,2,…,s. Nói cách khác nij , i=1,2,…,r; j=1,2,…,s. là số
các giá trị mẫu mà có giá trị mẫu theo X rơi vào khoảng thứ i, giá trị mẫu theo Y rơi
vào khoảng thứ j .
s r r s æn ´ n ö÷
ç .j ÷
Ký hiệu n i . = å n ij ; n.j = å n ij ; n = å å n ij ; n ij = Qij ; Cij= çç i . ÷.
j=1 i= 1 i= 1 j = 1
çè n ø÷ ÷
Y 1 2 . . . . j . . . . s å
X
1 n 11 n 12 …………… n 1j . ……….. n 1s n 1.
2 n 21 n 22 …………… n 2j . ……….. n 2s n 2.
.
.
.
i n i1 ni2 …………… n ij æn ´ n ö÷
çç i . .j ÷
n is n i.
çç n ÷ ÷
è ø÷
.
.
.
r nr1 nr2 …………… n rj . ……….. n rs nr.
å n .1 n .2 …………… n .j . ……….. n .s n
æn ´ n ö÷
Đối với mỗi Ô (i, j ) ở bảng trên ta tính tần số lý thuyết ççç i . .j ÷
÷. Để tiện ta đặt các số
çè n ø÷ ÷
2
æ n i . ´ n . j ö÷
çç ÷
n
çç ij - ÷ 2
n ÷ s Q C
r s
è ø÷ r
ij ij
này trong (.) cạnh n ij . Bây giờ tính m2 = å å = .
i= 1 j= 1 n i. ´ n . j i 1 j 1 Cij
n
2
+ Với đã cho, tra bảng phân phối với bậc tự do (r-1)´ (s-1), ta tìm được số
(2r - 1)(s - 1) ( )sao cho P {(2r - 1)(s - 1) ³ (2r - 1)(s - 1) ( )}= .
+ Nếu m 2 ³ (2r - 1)(s - 1) ( ) ta bác bỏ giả thuyết H0,
+ Nếu m 2 < (2r - 1)(s - 1) ( ) ta chấp nhận giả thuyết H0 .
2.4.3. So sánh một lúc nhiều tỉ lệ
Ví dụ 10. Để so sánh 2 phương pháp điều trị A và B người ta áp dụng A cho 100 bệnh
nhân với kết quả 40 người khỏi bệnh, và B cho 300 bệnh nhân với kết quả 100 người
khỏi bệnh. Hỏi với mức ý nghĩa =0,05 phương pháp nào tốt hơn.
Đặt giả thuyết H0: Hiệu lực 2 phương pháp như nhau.
Đối thuyết H1: Hiệu lực 2 phương pháp khác nhau.
69
X¸c suÊt & Thèng kª Y häc
2
2
Tính m j
Q ij Cij
với Qij là số quan sát số ghi trong ô, Cij là số ghi trong
i Cij
ngoặc đơn (.).
2 2 2 2
Tính m 2
40 35
100 105
60 65
1, 46
200 195
35 65 105 195
Tra bảng 2 bậc tự do ( 2-1)´ ( 2-1) =1, = 0,05 có 2 = 3,84. So sánh m 2
với 2 có m 2 < 2 Sự khác biệt không có ý nghĩa. Kết luận: Chấp nhận H0.
Ví dụ 11. Để so sánh 4 phương pháp điều trị A, B, C, D người ta áp dụng A cho 58
bệnh nhân, B cho 225 bệnh nhân, C cho 144 bệnh nhân và D cho 200 bệnh nhân.
Nghĩa là mẫu gồm 627 bệnh nhân. Kết quả cho bởi bảng sau:
Phương pháp A B C D
Kết quả
70
X¸c suÊt & Thèng kª Y häc
P.Phỏp A B C D
K. quả
A B Tổng
Khỏi bệnh a b a +b
Không khỏi c d c+d
Tổng a +c b+d n = a +b+c+d
2
m2 =
(ad - bc ) ´ n
(a + b)(c + d )(a + c )(b + d )
2.5. So sánh hai số trung bình khi có mẫu bắt cặp
Trong một số trường hợp nghiên cứu ta thu được mẫu thực nghiệm là hai dãy số
liệu có từng cặp số liệu tương ứng mà trong thống kê mẫu được thu như vậy gọi là
mẫu bắt cặp. Chẳng hạn trong Y học ta thu được số liệu đo huyết áp của 30 bệnh nhân
trước khi điều trị và sau khi điều trị bằng một loại thuốc nào đó. Như vậy mỗi cặp số
liệu thu được xuất phát từ một bệnh nhân cụ thể. Trong chăn nuôi ta thu được trọng
lượng của 40 con lợn trước và sau một thời gian nuôi 150 ngày bằng một loại thức ăn
nghiên cứu như vậy ta thu được một mẫu bắt cặp có khi gọi là mẫu từng cặp.
Ví dụ 12. Để đánh giá tác dụng của một chế độ ăn bồi dưỡng mà chỉ tiêu quan sát là
số hồng cầu, người ta đếm số hồng cầu của 33 người ở một thời điểm A trước khi bồi
dưỡng và ở một thời điểm B sau khi bồi dưỡng và thu được số liệu như sau:
71
X¸c suÊt & Thèng kª Y häc
xA :105 45 36 47 40 45 35 36 50 50 40 40 30 45 30 45
xB :105 48 40 53 40 46 30 40 60 60 40 40 35 50 40 60
40 50 40 50 40 55 30 40 40 38 35 40 35 38 50 45 30 38
45 50 40 45 35 50 35 45 35 35 40 45 37 35 50 50 33 30
Hỏi có phải do tác dụng của chế độ ăn bồi dưỡng đã đưa đến kết quả số hồng cầu trước
và sau khi bồi dưỡng khác nhau thực sự không ? kết luận với mức ý nghĩa 5%.
Giải: Giả thuyết H 0 là số hồng cầu trước và sau chế độ ăn bồi dưỡng là như nhau
Đối thuyết H 1 là số hồng cầu trước và sau chế độ ăn bồi dưỡng là khác nhau
= 0, 05 .
Ta xét các hiệu x d = x A - x B và tính số trung bình các hiệu
1 33 1 33 1 33 2
xd = å (x
33 1 A
- x B)
= å x = 2, 33;
33 1 d
d = å
32 1
(x d - x d ) = 4, 86
xd 2, 33
Tính lượng thống kê Z = n = 33 = 2, 78.
d 4, 86
Tra bảng hàm Laplat tìm số U = U 0,025 = 1, 96 .
2
So sánh Z với U = U 0,025 = 1, 96 , ta thấy Z > U nên kết luận sự khác nhau có ý
2 2
nghĩa hồng cầu trước và sau khi ăn bồi dưỡng với = 0, 05
Tóm lại: Để so sánh hai số trung bình khi có số liệu từng cặp ta thực hiện như sau:
Bước 1. Đặt giả thuyết H0: Sự khác nhau không có ý nghĩa, đối thuyết H1 khác nhau có
ý nghĩa, mức . Tìm hiệu số từng cặp số liệu x d = x A - x B
Bước 2. Tìm trung bình cộng các hiệu x d và độ lệch chuẩn các hiệu số d
xd
Bước 3. Tính lượng thống kê Z = n , trong đó n là số cặp số liệu
d
Bước 4. Tra bẳng hàm Laplat tìm U rồi so sánh Z với U
2 2
72
X¸c suÊt & Thèng kª Y häc
Khi nghiên cứu k nhóm dân số a1, a 2 ,..., ak ,dựa trên các số trung bình
x 1, x 2 , ..., x k , ta phải trả lời câu hỏi: “Sự khác nhau giữa các số trung bình là do ngẫu
nhiên chọn mẫu hay do tác động của các yếu tố nghiên cứu?” Như khi so sánh hai số
trung bình, ở đây ta cũng đặt giả thuyết H0 là: “Các nhóm a1, a 2 ,..., ak cùng thuộc một
quần thể và sở dĩ các số trung bình khác nhau là do ngẫu nhiên lấy mẫu”. Nếu không
chứng minh được điều đó, ta kết luận: Các số trung bình là khác nhau có ý nghĩa. Việc
làm như thế là kiểm định giả thuyết H0. Để kiểm định giả thuyết H0 đó ta có thể nghĩ
đến việc so sánh từng cặp số trung bình như đã làm trong phần trước. Nhưng có một
phương pháp cho phép ta kiểm định một lúc tính thuần nhất của tất cả các số trung
bình nói chung, nhờ đó ta có thể kết luận chúng thuộc hay không thuộc một quần thể
(một dân số). Phương pháp đó được gọi là phân tích phương sai (analysis of variance)
do nhà thống kê học người Anh R.A.Fisher đề ra và được áp dụng rộng rải trong Sinh
học và Y học để phân tích số liệu thí nghiệm.
Giả sử yếu tố A có k mức a1, a 2 ,..., ak . Kết quả điều tra N số liệu phân bố cho
từng mức như sau
a1 a2 ………………………. ak
x 11 x 21 ………………………… xk1
x 12 x 22 ………………………… xk2
. . ………………………… .
x 1n ………………………… x kn
1 k
x 2n …………………………
2
Cần xét ảnh hưởng của yếu tố nghiên cứu A đến kết quả của từng mức (nhóm) .Ta cần
so sánh các số trung bình x 1, x 2 , ..., x k , xem chúng khác nhau có ý nghĩa hay không.
Tính
n1 n2 nk k k ni
1 1 1 1
x1 =
n1
å x 1j ; x 2 = n å x 2 j ;...., x k = n å x kj ; N = å n i ; x = N å å x ij ;
j= 1 2 j= 1 k j=1 i= 1 i= 1 j= 1
73
X¸c suÊt & Thèng kª Y häc
Tính tổng bình phương độ lệch giữa các cá thể và trung bình mẫu cho toàn thể:
2 2
QT = å å (x ij
- x )=å å x ij2 - N (x ) .
i j i j
Tính tổng bình phương chênh lệch giữa các mức biểu thị sự sai lệch do các cá thể và
các yếu tố A gây ra.
k
2 2
Qf = å n i (x i - x ) = å n i x i2 - N (x ) .
i i=1
2
Qf 2Qr S f2
Tính S =
f
; S = r
;F = 2
k- 1 N- k Sr
2
Tính Qr = QT - Q =
f
å å (x ij
- xi )=å å x ij2 - å n i y i2 . Nếu F lớn nghĩa Là
i j i j i
S f2 Lớn hơn S r2 rất nhiều suy rặ khác biệt giữa các mức của yếu A và không ảnh
hưởng đến kết quả.. Nhưng rất lớn là thế nào ? Có ngưởng không? Câu trả lời là có.
Do F có phân phối Fisher (k-1, N-k) nên tra bảng F tìm được F1- (k - 1, N - k ) nhờ
bảng. So sánh F với số tra bảng có: Nếu F<= F1- (k - 1, N - k ) thì chấp nhận H0.
Trái lại bác bỏ H0.
Ví dụ 13. Người ta so sánh tác dụng tăng cân nặng của 3 chế độ ăn uống I, II, III. Một
mẫu 36 thanh niên thuần nhất về phương diện tuổi, thể lực được chọn thành 3 nhóm,
mỗi nhóm 12 người theo một chế độ. Trong quá trình thí nghiệm 4 thanh niên bị loại
vì không tuân theo cách sinh hoạt đề ra trong kế hoạch. Còn lại 3 nhóm n1=10, n2=10,
n3=12 người . Mỗi người được cân trước và cuối thời gian thí nghiệm. Lượng tăng cân
được tính bằng hectogam (100g) ghi lại trong bảng sau:
Nhóm I Nhóm II
Nhóm II
10 29
21
7 33
24
5 30
31
0 24
23
12 25
27
11 34
25
7 36
33
10 37
29
13 32
29
15 30
31
36
27
Hỏi tác dụng tăng cân của 3 chế độ ăn có khác nhau không với xác suất P<0,01.
74
X¸c suÊt & Thèng kª Y häc
Giải. Đây là bài toán phân tích phương sai một yếu tố, có 3 mức.
Đặt giả thuyết H0 : Tác dụng tăng cân của ba chế độ ăn bồi dưỡng là như nhau.
Đối thuyết H1: Tác dụng tăng cân của ba chế độ ăn bồi dưỡng là khác nhau,
= 0, 01 .
Tính các thống kê sau:
x 1 = 9; x 2 = 31 ; x 3 = 28 ; N = n 1 + n 2 + n 3 = 10 + 10 + 12 = 32
32
å xi
90 + 310 + 336
i= 1
x =
N
=
32
= 23 , å x i = 90; 310; 336 ;
I II III
10 29 21
7 33 24
5 30 31
0 24 23
12 25 27
11 34 25
7 36 33
10 37 29
13 32 29
15 30 31
36
27
n = 10 10 12
xi = 9 31 28
å xi 90 310 336
å x i2 982 9776 9618
75
X¸c suÊt & Thèng kª Y häc
2 2
QT = å å x - Nx = 10566
ij
2 2
Qf = å n x - Nx = 2900
i i
Qr = QT - Q f = 7666
Bảng Anova
2
Qf 2 Qr S f2
Tính S =
f
; S =
r
; F =
k- 1 N- k S r2
Tra bảng phân phối F tìm F1- (k - 1, N - k ). So sánh F với F1- (k - 1, N - k )
76
X¸c suÊt & Thèng kª Y häc
Nếu F< F1- (k - 1, N - k ) thì chấp nhận giả thuyết H0. Trái lại bác bỏ.
Yếu tố B
b1 b2 ….. ….. bk
a1 y 11 y 12 y 1k
Yếu tố A a2 y 21 y 22 y 2k
.
.
ah yh1 yh 2 y hk
Ta muốn xem các yếu tố A và B có ảnh hưởng đến kết quả hay không? ở mức .
Cách thực hiện như sau:
Bước 1. Đặt giả thuyết H0 : Yếu tố A không ảnh hưởng đến kết quả
H1 : Yếu tố B không ảnh hưởng đến kết quả
k
1 1 h
Bước 2. y i = å y ij
k j=1
(i = 1, 2,..., h ); y j = h å y ij (j = 1, 2, ..., k )
i= 1
k k
1
N = h ´ k; y =
N
å å y ij
i= 1 j= 1
2 2
Bước 3.Tính tổng bình phương độ lệch: QT = å å (y ij
- y )=å å y ij2 - N (y )
i j i j
2 2
Tổng bình phương độ lệch do yếu tố A: Q A = k å (y i - y ) = k å y i - N (y )
i i
2 2
Tổng bình phương độ lệch do yếu tố B: Q B = h å (y j - y ) = h å y j2 - N (y )
j j
2
QA 2 QB 2 Qr S A2 S B2
S =
A
; S =
B
; S = R
; FA = ; FB = .
h- 1 k- 1 (k - 1)(h - 1) S R2 S R2
Bước 4. Lập bảng Anova
77
X¸c suÊt & Thèng kª Y häc
Bước 5. Nếu FA £ F1- (h - 1, (h - 1)(k - 1)) thì chấp nhận H .(yếu tố A không ảnh
1
Nếu FB £ F1- (k - 1, (h - 1)(k - 1)) thì chấp nhận H .(yếu tố B không ảnh hưởng
2
Chol 150 -160 160 -170 170 -180 180 - 190 190-200 200-210
Số người 3 9 11 3 2 1
2
a. Tìm X , S * .
b. Có tài liệu cho rằng lượng cholesterolmie trung bình là m0 = 175 mg%. Giá trị
này phù hợp với mẫu quan sát không? Kết luận a = 0, 05 .
2. Có hai loại thuốc A, B dùng điều trị ung thư, được đem thử nghiệm trên 2 nhóm
người có cùng tính trạng ban đầu. Kết quả ghi lại được:
Kết quả
Khỏi bệnh
Không Tổng
Loại thuốc khỏi bệnh
Thuốc A 12 6 18
Thuốc B 15 3 18
Tổng 27 9 36
Hỏi với = 0,05 tác dụng của 2 loại thuốc đó có như nhau không?
3. Cho hai mẫu độc lập từ các phân phối chuẩn có cùng phương sai
Hãy kiểm định giả thiết cho rằng kỳ vọng của hai lượng ngẫu nhiên tương ứng như
nhau với mức ý nghĩa 3% (STB: 2,033). Số tra bảng này tra ở bảng nào và bậc
tự do nếu có là bao nhiêu ?
78
X¸c suÊt & Thèng kª Y häc
4. Điều tra học lực ở 2 trường TH Ngô Quyền và Tô Hiệu năm học 2006-2007 được
kết quả
79
X¸c suÊt & Thèng kª Y häc
tăng trọng (kg/ngày) của một giống lợn. Hai mức đối với vitamin A (0 và 4 mg), và
hai mức đối với vitamin B (0 và 5mg) được sử dụng trong thí nghiệm. Tổng số 20 lợn
được phân thành 4 công thức thí nghiệm một cách ngẫu nhiên. Số liệu thu được khi kết
thúc thí nghiệm như sau:
VitaminA 0 mg 5 mg
VitaminB 0 mg 5 mg 0 mg 5 mg
0,585 0,567 0,473 0,648
0,536 0,545 0,450 0,702
0,458 0,589 0,869 0,900
0,486 0,536 0,473 0,698
0,536 0,549 0,646 0,693
Tổng 2,601 2,786 2,729 3,677
Trung binh 0,520 0,557 0,549 0,735
Hỏi việc bổ sung vitamin A, B theo 4 mức trên có ảnh hưởng đến việc tăng trọng
của lợn hay không ? với mức =0,05.
80
X¸c suÊt & Thèng kª Y häc
81
X¸c suÊt & Thèng kª Y häc
+ Các điểm Mi nằm sát theo một đường cong nào đó (hình 1), điều đó cho
chúng ta nghĩ X, Y có quan hệ hàm số.
+ Các điểm Mi nằm rải rác không theo một qui tắc nào cả (hình 2) lúc này ta
phán đoán rằng X, Y độc lập.
+ Các điểm Mi nằm vào một vòng nhất định, có dạng hình bầu dục (hình 3), lúc
này ta phán đoán rằng X, Y có tương quan tuyến tính với nhau. Nếu trục lớn của hình
bầu dục nghiêng lên thì ta nói X, Y có tương quan thuận, nếu nghiêng xuống thì tương
quan nghịch. Nếu hình bầu dục càng dẹt thì tương quan càng chặt, nếu hình bầu dục là
tròn thì ta có thể nghĩ rằng X, Y độc lập.
Y
Y Y
X H- 2 x X
H-1 H-3
x x y y
i 1
i i
r x , y
n 2
2 n
x x y y
i 1
i
i 1
i
82
X¸c suÊt & Thèng kª Y häc
21 14, 25 18,500
x 3; y 2, 035 r x , y 0,978 . Tra bảng hệ số tương
7 7 28 12, 676
quan r , = 0,01 bậc tự do 7-2 = 5 có r0,01 5 0,8795 r x , y r0,01 5 X , Y
tương quan với nhau ở mức =0,01 do r x , y < 0 nên X , Y tương quan nghịch.
2.2. Tương quan Spearman (tương quan hạng)
Hệ số tương quan mẫu r x , y là một phép kiểm định tốt cho hai biến ngẫu nhiên
định lượng, nhưng không áp dụng được khi trong mẫu có nhiều yếu tố định tính hoặc
bán định lượng. Trường hợp này phải dùng tương quan phi tham số Spearman còn gọi
là tương quan R . Tương quan R có ưu điểm: Dễ sử dụng và ứng dụng được cho cả
trường hợp định lượng, bán định lượng hoặc định tính.
Ví dụ và cách tính.
Cách tính:
- Xếp thứ tự (cao đến thấp hoặc ngược lại) 2 cột Rx , Ry
- Tính chênh lệch d : d Rx Ry
83
X¸c suÊt & Thèng kª Y häc
Số thứ tự bệnh nhân Số lượng tiểu cầu Giga/l Mức độ sốt xuất huyết
1 100 Vừa
2 60 nặng
3 120 nhẹ
4 150 nhẹ
5 100 Vừa
6 80 nặng
7 90 nặng
8 120 Vừa
Hỏi mối tương quan có đủ tin cậy không?
Đặt H0: Không có mối tương quan giữa số lượng tiểu cầu và mức độ sốt xuất
huyết. H1 có mối tương quan nghịch, càng ít tiểu cầu càng xuất huyết nhiều.
Kiểm định thống kê, dùng tương quan R0,05 của Sperman. Lập bảng:
STT Số lượng Mức độ Số hạng Chênh Bình phương
Bệnh Tiểu cầu xuất huyết lệch chênh lệch d 2
nhân G/l (X) (Y) R R d
x y
84
X¸c suÊt & Thèng kª Y häc
Tra bảng tương quan R có R0,05 < R < R0,01 H0 bác bỏ, nên chấp nhận H1.
Kết luận: Có mối tương quan rõ rệt giữa số lượng tiểu cầu và mức độ xuất huyết là
tương quan nghịch.
Nhưng khi cần nghiên cứu mối tương quan của hai biến ngẫu nhiên định tính
mà mẫu thu được thông qua các tỉ số thì hai phương pháp trên tỏ ra không hiệu lực. Để
khắc phục điều này người ta sử dụng RR hoặc OR để nghiên cứu mức độ liên qua của
hai bến ngẫu nhiên định lượng. Đặc biệt là đối với các biến nhị giá.
Khi biến ngẫu nhiên là các biến nhị giá người ta thường sử dụng giá trị tỉ nguy
cơ RR hoặc OR để đo lường mức độ liên hệ. Cách tính RR và OR thông qua mô tả:
Kết quả Mắc bệnh Không mắc bệnh Tổng
Biến số phơi Phơi nhiểm a1 b1 N1
nhiểm Không Phơi nhiểm a0 b0 N0
Tổng a0 a1 b0 b1 N N1 N 0
Tỉ số nguy cơ (RR) là tỉ số của nguy cơ nhóm phơi nhiểm với nguy cơ nhóm
không phơi nhiểm.:
a1
N
RR 1
a0
N0
1 1 1 1
1,96
a1 N1 a0 N0
Khoảng tin cậy 95% của tỉ số nguy cơ là : RR e
(OR) là tỉ số số chênh mắc bệnh của nhóm phơi nhiểm với số chênh mắc bệnh của
nhóm không phơi nhiểm. Trong trường hợp nghiên cứu bệnh chứng, tỉ số chênh là tỉ số
của số chênh phơi nhiểm của nhóm bệnh với số chênh phơi nhiểm của nhóm không
chứng.
a1
b
RR 1
a0
b0
1,96
1 1 1 1
1,96
1 1 1 1
a1 b1 a0 b0 a1 b1 a0 b0
Khoảng tin cậy 95% của tỉ số chênh là : OR e , OR e
Ví dụ. Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm
placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có
80 người bị cúm hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm. Cho biết
khoảng tin cậy 95% của tỉ số nguy cơ.
Giải: Lập bảng số liệu 2 2 ô sau đây
Kết quả Mắc bẹnh cúm Không mắc Tổng
bệnh cúm
Có 20 = a1 220 = b1 240 = N1
Tiêm chủng Placebo 80 = a0 140 = b0 220 = N0
Tổng 100 360 460 = N
85
X¸c suÊt & Thèng kª Y häc
a1 20
N
Tỉ số nguy cơ RR 1 240 0, 229166666 0, 23
a0 80
N 0 220
Khoảng tin cậy 95% của tỉ số nguy cơ là
1,96 1 1 1 1 1 1 1 1
RR : e ; RR e1,96
a1 N1 a0 N 0 a1 N1 a0 N 0
1,96 1 1 1 1 1 1 1 1
0, 23: 2, 7182 ; 0, 23 2, 71821,96
20 240 80 220 20 240 80 220
[ 0,1476192812; 0,3583542717]
Hay [0,15; 0,36]
Tính bằng R
> library(epicalc)
Loading required package: foreign
Loading required package: survival
Loading required package: splines
Loading required package: nnet
> csi(20,220,80,140)
Exposure
Outcome Non-exposed Exposed Total
Negative 140 220 360
Positive 80 20 100
Total 220 240 460
Rne Re Rt
Risk 0.36 0.08 0.22
Estimate Lower95ci Upper95ci
Risk difference (Re - Rne) -0.28 -0.36 -0.2
Risk ratio 0.23 0.15 0.34
Protective efficacy =(Rne-Re)/Rne*100 77.1 65.62 84.61
or percent of risk reduced
Number needed to treat (NNT) 3.57 2.81 4.88
or -1/(risk difference)
3.1. Bài toán dẫn đến khái niệm phương trình hồi quy tuyến tính
Khi nghiên cứu sự tương quan giữa hai đại lượng X, Y thông qua mẫu n cặp:
x1 , y1 ; x2 , y2 ; ...; xn , yn ta vẽ đồ thị phân tán (gọi là đường hồi qui thực nghiệm).
Nếu các điểm Mi của đường hồi qui thực nghiệm nằm sát 1 đường thẳng ∆: y ax b
86
X¸c suÊt & Thèng kª Y häc
nào đó thì ta dự đoán X, Y tương quan tuyến tính với nhau. Việc đi tìm đường thẳng ∆
sao cho tổng bình phương các khoảng cách các điểm Mi đến nó là bé nhất. Đường
thẳng ∆ như vậy gọi là đường thẳng bình phương tối thiểu, hay còn gọi là đường hồi
qui lý thuyết mẫu.
Y
0 X
Ta thành lập công thức tìm phương trình đường thẳng ∆: y ax b từ n cặp số liệu:
x1 , y1 ; x2 , y2 ; ...; xn , yn .
Giả sử X, Y tương quan theo qui luật y f x , như vậy các điểm lý thuyết là
x , f x ; x , f x ; ...; x , f x , giữa các điểm thực nghiệm Mi x , y và các
1 1 2 2 n n i i
điểm lý thuyết x , f x có sự sai lệch. Tìm dạng hàm f để sai lệch nhỏ nhất. Muốn
i i
U U
này đạt cực tiểu tại điểm a, b khi 0
a b
n n n
U
Ta có 2a xi 2 2b xi 2 xi yi
a i 1 i 1 i 1
n n
U
2a xi 2nb 2 yi theo
b i 1 i 1
có hệ phương trình:
87
X¸c suÊt & Thèng kª Y häc
n 2 n n
i
a x b x i xi yi
i 1 i 1 i 1
n n
Giải hệ phương trình này bằng phương pháp
a x nb
i 1 i
i 1
yi
x x y y
i 1
i i
a n
; b y xa
2
x x
i 1
i
n n
xi yi x yi
i 1 i 1
Hoặc: a n n
; b y xa
2
x
i 1
i x xi
i 1
Ví dụ 4. Ở ví dụ liều độc X và thời gian sống Y (Ví dụ 2) có phương trình hồi qui
tuyến tính Y theo X là YX y 0, 66 x 4, 0157 .
a còn được gọi là hệ số hồi qui của Y theo X , sử dụng công thức tính hệ số
tương quan ta có:
y
a r x, y
x
b y ax
Tương tự nếu đường hồi qui của X theo Y là X Y x ay b thì
x
a r x , y y
b x a y
Hai đường hồi qui đều đi qua điểm M x, y
Từ đó a.a r2x , y
3.2. Dư và tỉ lệ phần trăm đúng
+ Dư (Residuals) Giả sử bằng thực nghiệm từ mẫu ta lập được đường hồi quy dự báo
(lý thuyết) của Y theo X là Y X = y = a x + b , thỡ khi đó ta định nghĩa:
Dư = Khoảng cách chiều dọc từ điểm quan sát đến đường hồi qui:
y thực tế - y dự báo (hồi qui)
Tổng dư bình phương (Residual Sum of Squares)
2
RSS n 1 SY 1 r 2x , y
gọi là sai số.
Độ lệch chuẩn của dư (Residual Standard Deviation) có tài liệu gọi là độ sai
chuẩn của ước lượng.
RSS
RSD trong đó Rdf gọi là độ tự do của dư và Rdf n 2
Rdf
88
X¸c suÊt & Thèng kª Y häc
RSS
Vì thế RSD
n2
Ví dụ 5. Nghiên cứu 1 loại thuốc ngủ, kết quả như sau:
Liều thuốc (mg) X Giấc ngủ tạo ra (giờ) Y
5 2
6 2,5
7 2,5
8 3
9 3,5
10 5
Tính được x = 7,5 ; y =3,083
S X* =1,87 ; SY* = 1,06
Đường hồi qui Y theo X: Y = - 0,88 + 0,528X ; r x, y = 0,925
0,811
2
RSS 6 11, 06 1 0,925
2
0,811 RSD
4
0, 45
89
X¸c suÊt & Thèng kª Y häc
Có nghĩa là: Nếu tăng thêm 1 mg thì giấc ngủ kéo dài thêm từ 0,23 đến 0,826 giờ.
+ Khoảng tin cậy của b (true intercept)
2
1 x
Công thức tính: CI b b t n 2 RSD 2
n n 1 S
X
Áp dụng ví dụ trên
2
1 7,5
CI b 0,88 2, 776 0, 45 0,88 0, 23 =-3,18 đến 1,42.
6 5 3, 49
+ Khoảng tin cậy của y
2
CI y ax b t n 2 RSD
1
xx
2
n n 1 S
X
90
X¸c suÊt & Thèng kª Y häc
Lin Log EX P
1 2 3
Pwr ln v Quad
1 2 3
ấn tương ứng ta sẽ vào chức năng muốn chọn. Cụ thể nếu ấn 1 Lin : Tuyến tính
2 Log : Lôgarit; 3 Exp : Mũ; 1 Pwr : Luỹ thừa; 2 ln v : Nghịch đảo;
3 Quad : Bậc hai.
Trước khi tính toán phải ấn Shift CLR 1 Scl để xoá bộ nhớ thống kê.
Nhập dữ liệu theo cú pháp: <dữ liệu x> , <dữ liệu y> DT . Các kết quả nhập xong
gọi như sau. Nếu phương trình hồi qui Y=aX + b thì muốn có a ta ấn:
Shift S.VAR 2
Muốn có b ta ấn: Shift S.VAR 1 . Muốn có hệ số tương quan r ta ấn:
(x ,y )
Shift S.VAR 3 . Muốn có X ấn Shift S.VAR 1 . Muốn có Y ấn
Shift S.VAR 1 .
Chú ý: ấn DT DT nhập số liệu hai lần.
Dùng phím Shift ; để nhập nhiều dữ liệu giống nhau. Ví dụ nhập 20,5 bảy lần ta ấn
20.5 Shift ; 7 DT .
91
X¸c suÊt & Thèng kª Y häc
X
Y 2 6 10 14
1 -6 8 2
6 – 11 1 6 4 4
11 – 16 8 7
16 -21 5 5
a. Giả sử X và Y có tương quan tuyến tính, tính hệ số tương quan r . Tìm
(x ,y )
phhương trình hồi qui của Y theo X
b. Ước lượng trung bình giá trị của Y (với điều kiện X = 10), tìm khoảng tinh
cậy của Y X = 10 với độ tinh cậy 95% (Giả thiết Y là biến ngẫu nhiên tuân theo
theo qui luật phân phối chuẩn).
c. Đại lượng ngẫu nhiên Z được xác định bởi Z = 5X-3. Hãy ước lượng kỳ vọng
và phương sai của Z.
2. X(%), Y(cm) là hai chỉ tiêu của một loại sản phẩm. Điều tra một mẫu ta có kết quả
cho ở bảng sau:
Y
X 80 -84 84 - 88 88 -92 92 - 96
1 8
3 12 9 4 6
5 11 15 10
7 12 7 3
Năm 1989 1990 1991 1992 1993 1994 1995 1996 1997
Dân số 60 62 62 63 65 65 68 71 71
Đặt X = Năm – 1987, Y = dân số -60.
a. Tính hệ số tương quan mẫu r ?
(x ,y )
b. Tìm phương trình hồi quy của Y theo X, Tìm phương sai hồi quy. Biết
X ; N (0,1), P (- 1, 96 £ X £ 1, 96) = 0, 95 .
92
X¸c suÊt & Thèng kª Y häc
4. Một nghiên cứu về sự liên quan giữa hàm lượng Iốt trong nước uống X (đơn vị tính
mg / l ) và tỷ lệ bướu cổY ở một vùng dân cư như sau:
X( mg ) 50 60 70 80 90 100 110 120
Y(%) 10 7 6 4 3 3 2 1
[1]. Lê Văn Tiến, Giáo trình xác suất và thống kê, Nhà xuất bản Giáo dục Hà Nội
1991.
[2]. Lê Khánh Trai, Ứng dụng xác suất thống kê trong Y sinh học, Nhà xuất bản
KHTN 1979.
[3]. Guylefort, Toán học cao cấp tập 4, Nhà xuất bản KHKT Hà Nội 1970.
[4]. Harald Crame, Phương pháp toán học trong thống kê, Nhà xuất bản KHKT Hà
Nội 1970.
[5]. Ngô Như Hoà, Thống kê trong nghiên cứu Y học tập I, II, Nhà xuất bản Y học
1982.
[6]. Đào Hữu Hồ, Xác suất thống kê, Nhà xuất bản ĐHQG Hà Nội 1998.
[7]. Đào Hữu Hồ, Thống kê xã hội học, Nhà xuất bản ĐHQG Hà Nội 1996.
[8]. Nguyễn Xuân Phách, Thống kê Y học, Nhà xuất bản Y học chi nhánh Hồ Chí
Minh 1995.
[9]. Robert G. D. Steel, James H. Torrie, Principles and procedures of statistics, Mc
Graw – Hill Book company, INC. New York Toronto London 1960.
93
X¸c suÊt & Thèng kª Y häc
Môc lôc
Trang
MỞ ĐẦU……………………………………………………………………………………1
PHÇN i. lÝ thuyÕt x¸c suÊt 3
Ch¬ng1: c¸c kh¸I niÖm c¬ bẢN CỦA LÍ THUYẾT x¸c suÊt
§1. PhÐp thö, sù kiÖn, x¸c suÊt cña sù kiÖn ......................................................................... 3
§2. C¸c ®Þnh nghÜa cña x¸c suÊt.......................................................................................... 5
§3. C¸c ®Þnh lý c¬ b¶n cña x¸c suÊt .................................................................................... 9
Bµi tËp ch¬ng 1 .............................................................................................................. 15
Ch¬ng 2: BiÕn ngÉu nhiªn hµm ph©n phèi
§1. BiÕn ngÉu nhiªn.......................................................................................................... 17
§2. C¸c ®Æc trng cña lîng ngÉu nhiªn ........................................................................... 20
§3. Mét sè ph©n phèi x¸c suÊt thêng gÆp trong thèng kª................................................. 22
§4. C¸c ®Þnh lý giíi h¹n ................................................................................................... 29
§5. §¹i lîng ngÉu nhiªn nhiÒu chiÒu .............................................................................. 31
Bµi tËp ch¬ng 2 .............................................................................................................. 34
PHÇN ii. Thèng kª to¸n häc
Ch¬ng 3: mÉu vµ c¸ch biÓu diÔn mÉu
§1. TËp hîp chÝnh (tæng thÓ) vµ mÉu ................................................................................ 37
§2. C¸c ph¬ng ph¸p biÓu diÔn mÉu thùc nghiÖm ............................................................. 40
§3. Thèng kª m« t¶ ®o ®é tËp trung vµ ph©n t¸n cña bé sè liÖu ......................................... 43
Bµi tËp ch¬ng 3 .............................................................................................................. 49
Ch¬ng 4: Lý thuyÕt íc lîng
§1. ¦íc lîng ®iÓm, íc lîng kho¶ng ............................................................................ 50
§2. ¦íc lîng tham sè b»ng kho¶ng tin cËy ..................................................................... 54
Bµi tËp ch¬ng 4 .............................................................................................................. 58
Ch¬ng 5: kiÓm ®Þnh gi¶ thuyÕt thèng kª
§1. C¸c kh¸i niÖm chung .................................................................................................. 59
§2. Mét sè bµi to¸n kiÓm ®Þnh cô thÓ ................................................................................ 60
Bµi tËp ch¬ng 5 .............................................................................................................. 78
Ch¬ng 6: T¬ng quan vµ håi qui
§1. KiÓm ®Þnh mèi liªn quan RR-OR, HÖ sè t¬ng quan, håi quy ®¬n biÕn ...................... 81
§2. HÖ sè t¬ng quan mÉu ................................................................................................ 82
§3. Ph¬ng tr×nh håi qui tuyÕn tÝnh .................................................................................. 86
Bµi tËp ch¬ng 6 .............................................................................................................. 92
Tµi liÖu tham kh¶o ......................................................................................................... 93
Môc lôc ........................................................................................................................... 94
C¸c b¶ng sè .................................................................................................................... 95
94