You are on page 1of 94

X¸c suÊt & Thèng kª Y häc

Më ®Çu
Trong c¸c gi¸o tr×nh to¸n, vËt lý ë nhµ tr­êng phæ th«ng ng­êi ta th­êng chØ xÐt
bµi to¸n trong ®ã kÕt qu¶ phÐp to¸n ®­îc x¸c ®Þnh mét c¸ch duy nhÊt. Ch¼ng h¹n, nÕu
ta th¶ mét hßn ®¸ th× nã sÏ r¬i víi mét gia tèc kh«ng ®æi. VÞ trÝ cu¶ hßn ®¸ ë mäi thêi
®iÓm ®Òu cã thÓ tÝnh ®­îc. Tuy nhiªn cßn cã nhiÒu bµi to¸n mµ kÕt qu¶ c¸c kÕt qu¶
thùc hiÖn trong chóng kh«ng ®­îc x¸c ®Þnh mét c¸ch duy nhÊt, nh­ng l¹i cã ý nghÜa
lín lao vÒ mÆt khoa häc còng nh­ viÖc ¸p dông trong kü thuËt, Kinh tÕ, Y häc,…
Ch¼ng h¹n, nÕu ta gieo ®ång tiÒn th× kh«ng thÓ nãi tr­íc r»ng khi ®ång tiÒn r¬i xuèng
mÆt ®Êt, mÆt sÊp hay mÆt ng÷a cña ®ång tiÒn sÏ lªn trªn, ë ®©y kÕt qu¶ cña phÐp thö
thùc hiÖn kh«ng ®­îc x¸c ®Þnh mét c¸ch duy nhÊt. H×nh nh­ trong c¸c bµi to¸n nh­
vËy ta kh«ng nªn nãi tr­íc mét ®iÒu g× x¸c ®Þnh, tuy nhiªn ngay víi thùc tiÔn cña
nh÷ng trß ch¬i th«ng th­êng còng chøng tá mét ®iÒu ng­îc l¹i lµ, víi mét sè kh¸ lín
lÇn gieo ®ång tiÒn th× ta thÊy gÇn mét n÷a sè lÇn r¬i mÆt sÊp vµ mét n÷a sè lÇn r¬i mÆt
ng÷a, ®©y lµ mét quy luËt x¸c ®Þnh. Trong lý thuyÕt x¸c suÊt ng­êi ta nghiªn cøu c¸c
quy luËt d¹ng ®ã. ChÝnh viÖc thiÕt lËp c¸c bµi to¸n còng ®­îc thay ®æi c¨n b¶n. Chóng
ta quan t©m kh«ng ph¶i lµ kÕt qu¶ cña mét phÐp thö x¸c ®Þnh mµ lµ c¸i nhËn ®­îc sau
nhiÒu lÇn lÆp l¹i phÐp thö ®ã. Nãi mét c¸ch kh¸c, trong lý thuyÕt x¸c suÊt ta nghiªn
cøu tÝnh quy luËt cña c¸c biÕn cè ngÉu nhiªn hµng lo¹t.
Lý thuyÕt x¸c suÊt xuÊt hiÖn vµ ph¸t triÓn trong qu¸ tr×nh gi¶i quyÕt mét lo¹t c¸c
bµi to¸n riªng lÎ mang tÝnh trß ch¬i vµ øng dông. C¸c kiÕn thøc ®Çu tiªn chóng ta biÕt
®­îc cã quan hÖ víi viÖc gi¶i c¸c bµi to¸n vÒ trß ch¬i xuÊt hiÖn tõ thÕ kû XVI – XVII
(D. Cardano, Huyghens, B. Pascal, P. Ferma,…). Sau ®ã c¸c bµi to¸n øng dông b¾t ®Çu
xuÊt hiÖn vµ ph¸t triÓn (®¸ng kÓ ®Çu tiªn lµ c¸c bµi to¸n vÒ ®Ò phßng tai n¹n vµ thiªn
tai). DÇn dÇn ®­îc t¸ch ra mét lÜnh vùc c¸c bµi to¸n víi h×nh th¸i riªng biÖt còng nh­
ph­¬ng ph¸p gi¶i chóng, h×nh thµnh c¸c ®Þnh nghÜa ®Çu tiªn vµ c¸c ®Þnh lý. §Þnh lý
®Çu tiªn thiÕt lËp mèi quan hÖ gi÷a lý thuyÕt vµ thùc hµnh vµ lµ phÇn ®Çu nhãm c¸c
®Þnh lý cã tªn “c¸c §Þnh lý giíi h¹n” cña lý thuyÕt x¸c suÊt do Bernoulli (1654 - 1705)
chøng minh cuèi thÕ kû 17. Sau ®ã sù ph¸t triÓn cña lý thuyÕt x¸c suÊt ®­îc tiÕp tôc
trong c¸c c«ng tr×nh cña A. Moivre (1667 - 1754), P. Laplace (1749 - 1827), K. Gauss
(1777 - 1855), Poisson (1781 - 1840), vµ ®Æc biÖt trong c¸c c«ng tr×nh cña nhµ to¸n häc
Nga P.L. Cheb­shev (1821 - 1894), vµ c¸c häc trß cña «ng ta A.A. Markov (1856 –
1922), A. M. Liapunov (1857 - 1918). Trong thÕ kû XX sù ph¸t triÓn lín nhÊt cña lý
thuyÕt x¸c suÊt vµ viÖc tr×nh bµy nã mét c¸ch hoµn thiÖn nh­ mét khoa häc to¸n häc ®·
®­îc giíi thiªu trong c¸c c«ng tr×nh cña c¸c nhµ to¸n häc X« viÕt.
H¬n 300 n¨m ph¸t triÓn, ®Õn nay néi dung vµ ph­¬ng ph¸p cña x¸c suÊt thèng kª
rÊt phong phó, ®­îc ¸p dông réng r¶i trong nhiÒu lÜnh vùc. V× vËy, viÖc häc tËp, nghiªn
cøu m«n x¸c suÊt thèng kª ®· trë thµnh nhu cÇu kh«ng thÓ thiÕu ®èi víi sinh viªn cña
nhiÒu ngµnh cña c¸c tr­êng §¹i häc còng nh­ cña c¸c c¸n bé nghiªn cøu cña hÇu hÕt
c¸c ngµnh khoa häc kû thuËt.
§Ó n©ng cao chÊt l­îng ®µo t¹o, ®¸p øng víi nhu cÇu cña sù ph¸t triÓn x· héi vµ
t¹o ®iÒu kiÖn thuËn lîi cho sinh viªn häc tËp nghiªn cøu m«n häc nµy, chóng t«i biªn
so¹n cuèn s¸ch X¸c suÊt & thèng kª. Qua cuèn s¸ch nhá nµy, chóng t«i mong muèn
vµ hy väng c¸c b¹n sinh viªn sÏ ®¹t kÕt qu¶ cao trong häc tËp còng nh­ ¸p dông ®­îc
c¸c ph­¬ng ph¸p cña x¸c suÊt thèng kª trong c«ng viÖc cña m×nh sau nµy.
§èi víi c¸c b¸c sü, c¸c d­îc sü, c¸c nhµ nhµ kinh tÕ, c¸c nhµ doanh nghiÖp vµ c¸c
chuyªn gia nghiÖp vô qu¶n lý, biÕt thu thËp, xö lý c¸c th«ng tin nghÒ nghiÖp lµ yªu cÇu

1
X¸c suÊt & Thèng kª Y häc

kh«ng thÓ thiÕu ®­îc. To¸n häc nãi chung, lý thuyÕt x¸c suÊt thèng kª nãi riªng, lµ
c«ng cô nghiªn cøu rÊt h÷u hiÖu. §èi víi sinh viªn c¸c ngµnh Y khoa, sinh häc, kinh
tÕ, kû thô©t, môc ®Ých cuèi cïng cña häc to¸n lµ sö dông ®­îc c«ng cô nµy trong c«ng
viÖc cña m×nh. Do ®ã cuèn s¸ch ®­îc viÕt theo quan ®iÓm thùc hµnh, chó träng viÖc
vËn dông c¸c ph­¬ng ph¸p cña x¸c suÊt thèng kª trong thùc tÕ mµ kh«ng ®i s©u vµo
viÖc chøng minh c¬ së lý thuyÕt to¸n häc mét c¸ch chÆt chÏ.
Víi tinh thÇn øng dông, tèc ®é, dÔ hiÓu vµ dÔ ¸p dông vµo thùc tiÔn, cuèn s¸ch chia
lµm hai phÇn: phÇn 1 “ S¬ l­îc vÒ lý thuyÕt x¸c suÊt” chØ tr×nh bµy trong hai ch­¬ng.
Ch­¬ng 1. c¸c kh¸I niÖm c¬ b¶n vÒ x¸c suÊt
Ch­¬ng 2. L­îng ngÉu nhiªn hµm ph©n phèi
Cuèi mçi ch­¬ng chóng t«i còng ®­a ra mét sè bµi tËp nh»m cho sinh viªn vËn
dông lý thuyÕt ®· häc mét c¸ch thµnh th¹o, vµ thÊy ®­îc phÇn nµo øng dông cô thÓ cña
nã vµo thùc tiÔn.
PhÇn 2 “Thèng kª to¸n häc” tr×nh bµy trong 4 ch­¬ng
Ch­¬ng3. mÉu vµ c¸ch biÓu diÔn mÉu
Ch­¬ng 4. Lý thuyÕt ­íc l­îng
Ch­¬ng 5. kiÓm ®Þnh gi¶ thuyÕt thèng kª
Ch­¬ng 6. T­¬ng quan vµ håi qui
§Æc biÖt cuèi ch­¬ng 1 phÇn 2 vµ cuèi s¸ch chóng t«i h­íng dÉn c¸ch sö dông
m¸y tÝnh bá tói Casio fx 500MS trong viÖc tÝnh to¸n mét vµi tham sè trong x¸c suÊt
thèng kª phôc vô cho viÖc thi cö vµ nghiªn cøu sau nµy khi ch­a cã ®ñ ®iÒu kiÖn.
V× kh¶ n¨ng cã h¹n, nªn cuèn s¸ch khã tr¸nh khái nh÷ng sai sãt, mong c¸c b¹n ®äc
vµ ®ång nghiÖp ®ãng gãp ®Ó chóng t«i hoµn thiÖn h¬n n÷a.

T¸c gi¶

2
X¸c suÊt & Thèng kª Y häc

PhÇn I S¬ l­îc lý thuyÕt x¸c suÊt

Lý thuyÕt x¸c suÊt lµ mét bé m«n To¸n häc nghiªn cøu nh÷ng quy luËt ngÉu
nhiªn vµ nh÷ng hiÖn t­îng sè lín. Nã x¸c lËp nh÷ng quy luËt tÊt nhiªn Èn dÊu sau
nh÷ng hiÖn t­îng mang tÝnh ngÉu nhiªn. Khi nghiªn cøu mét sè lín hiÖn t­îng t­¬ng
tù, viÖc n¾m b¾t nh÷ng quy luËt nµy sÏ cho phÐp dù b¸o c¸c hiÖn t­îng ngÉu nhiªn ®ã
sÏ xÈy ra nh­ thÕ nµo. C¸c ph­¬ng ph¸p cña lý thuyÕt x¸c suÊt ®­îc øng dông réng r¶i
trong viÖc gi¶i quyÕt nh÷ng bµi to¸n thuéc c¸c lÜnh vùc kh¸c nhau cña khoa häc Tù
nhiªn Kinh tÕ vµ X· héi.

Ch­¬ng 1 C¸C KH¸I NIÖM C¥ B¶N CñA lý thuyÕt x¸c suÊt


§1 PhÐp thö - sù kiÖn - x¸c suÊt cña sù kiÖn
1.1. Kh¸i niÖm vÒ phÐp thö, sù kiÖn (biÕn cè) liªn kÕt víi phÐp thö
Khi nghiªn cøu mét hiÖn t­îng nµo ®ã, ng­êi ta cÇn ph¶i chuÈn bÞ mét sè ®iÒu
kiÖn ®Ó tiÕn hµnh thÝ nghiÖm, khi ®ã ta nãi r»ng ng­êi ta ®· chuÈn bÞ mét phÐp thö
ngÉu nhiªn. VËy phÐp thö ngÉu nhiªn lµ sù thùc hiÖn mét lo¹t ®iÒu kiÖn x¸c ®Þnh nµo
®ã víi môc ®Ých x¸c ®Þnh tr­íc, Ng­êi ta th­êng ký hiÖu phÐp thö ngÉu nhiªn lµ phÐp
thö (G). PhÐp thö ngÉu nhiªn (G) cã thÓ lµ mét thÝ nghiÖm lÆp l¹i trong c¸c ®iÒu kiÖn
bªn ngoµi gièng hÖt nhau. Ch¼ng h¹n tung mét ®ång xu r¬i xuèng mÆt bµn (phÐp thö
(G)) quan s¸t xem mÆt sÊp lªn trªn hay mÆt ngöa lªn trªn...
Mét phÐp thö (G) sau khi thùc hiÖn xong nã cã nhiÒu kÕt côc cã thÓ xÈy ra, mçi
kÕt côc ®ã ®­îc gäi lµ mét sù kiÖn s¬ cÊp cña phÐp thö. TËp hîp c¸c sù kiÖn s¬ cÊp cña
phÐp thö (G) gäi lµ kh«ng gian c¸c sù kiÖn s¬ cÊp cña(G), vµ kÝ hiÖu lµ , mçi sù kiÖn
s¬ cÊp cña phÐp thö (G) xem nh­ 1 ®iÓm cña kh«ng gian. Mét tËp hîp con cña  ®­îc
gäi lµ mét sù kiÖn (hay biÕn cè) cña phÐp thö (G). Ta gäi mét sù kiÖn liªn kÕt phÐp thö
(G) lµ mét sù kiÖn cã thÓ x¶y ra hoÆc cã thÓ kh«ng x¶y ra tuú thuéc vµo kÕt qu¶ khi (G)
thùc hiÖn. Sù kiÖn nh­ vËy gäi lµ sù kiÖn ngÉu nhiªn.
Khi phÐp thö (G) thùc hiÖn, mét sù kiÖn nµo ®ã ®­îc gäi lµ xÈy ra khi vµ chØ khi
chØ cÇn Ýt nhÊt mét biÕn cè s¬ cÊp chøa trong sù kiÖn ®ã xÈy ra lµ ®ñ.
VÝ dô. PhÐp thö (G) gieo mét con xóc x¾c xuèng mÆt bµn. Gäi ei lµ kÕt qu¶ chØ mÆt cã
i chÊm lªn trªn (i=1,2,3,4,5,6) th× kh«ng gian c¸c biÕn cè s¬ cÊp cña phÐp thö lµ:
 ={e1, e2, e3, e4, e5, e6}
TËp A = {e3, e6} lµ biÕn cè chØ xuÊt hiÖn mÆt cã chÊm lµ béi cña 3 lªn trªn sau khi gieo
con xóc x¾c. BiÕn cè A ®­îc gäi lµ xÈy ra khi phÐp thö (G) tiÕn hµnh, nÕu (G) thùc
hiÖn mÆt 3 chÊm lªn trªn hay mÆt 6 chÊm lªn trªn. C¸c sù kiÖn cña phÐp thö th«ng
th­êng chia lµm 3 lo¹i chÝnh:
+ Sù kiÖn bÊt kh¶, kÝ hiÖu lµ  hoÆc V lµ sù kiÖn mµ khi phÐp thö thùc hiÖn nhÊt
thiÕt nã kh«ng xÈy ra.
+ Sù kiÖn ch¾c ch¾n, kÝ hiÖu lµ  lµ sù kiÖn mµ khi phÐp thö thùc hiÖn nhÊt thiÕt
nã ph¶i xÈy ra.
+ Sù kiÖn ngÉu nhiªn, kÝ hiÖu b»ng c¸c ch÷ in hoa nh­ A, B... lµ c¸c sù kiÖn mµ
khi phÐp thö thùc hiÖn nã cã thÓ x¶y ra còng cã thÓ kh«ng xÈy ra.
1.2. Quan hÖ, c¸c phÐp to¸n trªn c¸c sù kiÖn

3
X¸c suÊt & Thèng kª Y häc

Ng­êi ta ®Þnh nghÜa quan hÖ gi÷a c¸c sù kiÖn vµ c¸c phÐp to¸n trªn chóng còng
gièng nh­ c¸c phÐp to¸n trªn tËp hîp, v× vËy mµ sö dông c¸c phÐp to¸n nh­ trong lý
thuyÕt tËp hîp.
1.2.1. Sù kiÖn kÐo theo
Sù kiÖn A gäi lµ kÐo theo sù kiÖn B nÕu A xÈy ra th× B còng xÈy ra. KÝ hiÖu lµ
A  B.
1.2.2. Sù kiÖn t­¬ng ®­¬ng
Hai sù kiÖn A vµ B gäi lµ t­¬ng ®­¬ng khi vµ chØ khi A  B vµ B  A.
1.2.3. Tæng c¸c sù kiÖn
Sù kiÖn C ®­îc gäi lµ tæng c¸c sù kiÖn A vµ B, ký hiÖu A+B = C, hoÆc A  B = C
khi vµ chØ khi C xÈy ra th× Ýt nhÊt 1 trong 2 sù kiÖn A hoÆc B xÈy ra.

A B

Tæng qu¸t. Cho n sù kiÖn A1 , A2 ,..., An . Tæng cña n sù kiÖn Ai lµ sù kiÖn C, kÝ


n
hiÖu C = A
i 1
i  C xÈy ra th× Ai xÈy ra ( i  1;2;...; n ).

1.2.4. TÝch c¸c sù kiÖn


TÝch cña hai sù kiÖn A vµ B lµ sù kiÖn kÝ hiÖu lµ AB hoÆc A  B tho¶ m·n: AB xÈy
ra  c¶ A vµ B ®ång thêi xÈy ra.

AB B
A

n
Tæng qu¸t. TÝch cña n sù kiÖn A1 , A2 ,..., An lµ sù kiÖn kÝ hiÖu A
i 1
i tho¶ m·n:
n

A
i 1
i xÈy ra  tÊt c¶ Ai ®Òu xÈy ra ( i  1;2;...; n ).
1.2.5. HiÖu cña hai sù kiÖn
Sù kiÖn E ®­îc gäi lµ hiÖu cña hai sù kiÖn A vµ B, kÝ hiÖu E = A\ B nÕu E xÈy
ra khi A xÈy ra mµ B kh«ng xÈy ra.

A B

1.2.6. Quan hÖ gi÷a c¸c sù kiÖn

4
X¸c suÊt & Thèng kª Y häc

i) Hai sù kiÖn A vµ B ®­îc gäi lµ xung kh¾c, nÕu A xuÊt hiÖn th× B kh«ng xuÊt
hiÖn vµ ng­îc l¹i. NÕu A, B lµ hai sù kiÖn xung kh¾c, ta kÝ hiÖu A  B  V .
A B  V
ii) Hai sù kiÖn A vµ B gäi lµ ®èi lËp nÕu  , khi ®ã sù kiÖn ®èi lËp cña A
A B  
ký hiÖu lµ A .
iii) HÖ n sù kiÖn A1 , A2 ,..., An gäi lµ hÖ sù kiÖn ®Çy ®ñ nÕu:
 Ai  A j  V , i  j
n

 A  
 i 1
VÝ dô 1. PhÐp thö (G) gieo mét con xóc x¾c, gäi ei ( i = 1, 2, ..., 6) lµ sù kiÖn chØ xuÊt
hiÖn mÆt i chÊm lªn trªn sau khi gieo. A lµ sù kiÖn chØ mÆt cã sè chÊm ch½n lªn trªn,
B lµ sù kiÖn chØ mÆt cã sè chÊm lµ béi cña 3 lªn trªn, th×:
 = {e1, e2, ..., e6} vµ e6 = A  B ; A = e2  e4  e6 .
VÝ dô 2. Hai x¹ thñ cïng b¾n mçi ng­êi b¾n mét viªn vµo bia. Gäi Ai := “ Ng­êi thø i
b¾n tróng bia” (i=1 ,2). H·y viÕt c¸c biÕ cè sau qua A1 , A2 .
a. ChØ cã x¹i thñ thø nhÊt b¾n tróng bia: A1 A2 .
b. Cã ®óng mét x¹ thñ b¾n tróng bia: A1 A2 È A1A2 .
c. Cã Ýt nhÊt mét x¹ thñ b¾n tróng bia: A1 È A2 .
d. C¶ hai x¹ thñ ®Òu b¾n tróng bia: A1A2 .
e. Kh«ng cã x¹ thñ nµo b¾n tróng bia: A1 È A2 .
f. Cã kh«ng qu¸ mét x¹ thñ ¾n tróng bia: A1A2 .
g. ChØ ra mét vµi nhãm biÕn cè ®Çy ®ñ: { A1 , A1 } hoÆc { A2 , A2 } hoÆc
{ A1A2 , A1 A2 , A1A2 , A1 A2 }.

§2 C¸c ®Þnh nghÜa cña x¸c suÊt

Chóng ta thÊy r»ng, khi cã phÐp thö ngÉu nhiªn (G) ®­îc thùc hiÖn th× c¸c biÕn
cè ngÉu nhiªn A, B, C, … liªn kÕt víi (G) cã thÓ xÈy ra hoÆc kh«ng xÈy ra. Do ®ã vÊn
®Ò ®Æt ra lµ: Lµm sao ®o ®­îc møc ®é xÈy ra cña mét biÕn cè ngÉu nhiªn nµo ®ã ? §Ó
gi¶i quyÕt vÊn ®Ò nµy ng­êi ta t×m c¸ch g¸n cho mçi biÕn cè A liªn kÕt víi (G) mét sè
ký hiÖu P(A) tháa m·n 3 tÝnh chÊt sau:
1. P (W) = 1; P (Æ) = 0.

2. P (A ) Î éê0, 1ùú.
ë û
3. NÕu A, B lµ hai biÕn cè xung kh¾c th× P (A È B ) = P (A ) + P (B ).
Th× sè P(A) ®ã gäi lµ x¸c suÊt cña biÕn cè A. Ba tÝnh chÊt trªn gäi lµ ba tÝnh chÊt cña
x¸c suÊt.

5
X¸c suÊt & Thèng kª Y häc

VËy x¸c suÊt cña mét biÕn cè lµ mét sè thùc thuéc ®o¹n [0, 1], chØ møc ®é xÈy ra
kh¸ch quan cña biÕn cè (sù kiÖn) ®ã khi phÐp thö ®­îc tiÕn hµnh. §Ó ®¹t ®­îc môc
®Ých ®ã chóng ta ®­a ra ®Þnh nghÜa x¸c suÊt trong mét sè tr­êng hîp hay gÆp sau ®©y
2.1. §Þnh nghÜa cæ ®iÓn cña x¸c suÊt
XÐt phÐp thö (G) cã sè kÕt qu¶ cã thÓ xÈy ra lµ n vµ c¸c kÕt qu¶ lµ ®ång kh¶
n¨ng, trong n kÕt qu¶ ®ã cã m kÕt qu¶ thuËn lîi cho sù kiÖn A xÈy ra th× x¸c xuÊt cña
m
sù kiÖn A lµ sè thùc kÝ hiÖu P  A  vµ ®Þnh nghÜa lµ P  A  .
n
VÝ dô 3. Gieo mét con xóc x¾c (PhÐp thö (G)) th×  ={e1, e2, ..., e6} do con xóc x¾c
c©n ®èi vµ ®ång chÊt nªn c¸c kÕt qu¶ ei (i =1,2,3,4,5,6) ®ång kh¶ n¨ng xÈy ra nªn sè
kh¶ n¨ng cña (G) lµ n = 6.
Gäi A lµ biÕn cè chØ xuÊt hiÖn mÆt cã chÊm lµ béi cña 3 th× sè kh¶ n¨ng thuËn lîi
cho A xÈy ra lµ 2, v× nÕu mÆt 3 chÊm xuÊt hiÖn hoÆc mÆt 6 chÊm xuÊt hiÖn th× A xuÊt
hiÖn vËy m = 2. Theo ®Þnh nghÜa cæ ®iÓn cña x¸c suÊt th× x¸c suÊt cña biÕn cè A lµ:
m 2 1
P  A   
n 6 3
VÝ dô 4. Mét thïng kÝn trong ®ã cã 3 bi tr¾ng vµ 4 bi ®en, c¸c bi lµm ®ång chÊt, cïng
®é lín ®é nh½n (gäi lµ ®ång kh¶ n¨ng). LÊy ngÉu nhiªn 3 bi cïng mét lóc. T×m x¸c
suÊt ®Ó lÊy ®­îc 2 bi ®en vµ 1 bi tr¾ng.
PhÐp thö (G) lµ lÊy ngÉu nhiªn mét lóc 3 bi, do c¸c bi ®ång kh¶ n¨ng ®­îc lÊy
7! 7.6.5.4!
nªn sè c¸ch lÊy lµ C73    35
3! 7  3 ! 3!4!
 Sè ®ång kh¶ n¨ng lµ n = 35.
Gäi A lµ biÕn cè lÊy ®­îc 2 bi ®en vµ mét bi tr¾ng, nªn sè c¸ch lÊy bi ®en lµ
C4 , sè c¸ch lÊy bi tr¾ng lµ C31 . Theo luËt tÝch, sè c¸ch lÊy cïng mét lóc 3 bi ®­îc hai bi
2

®en vµ 1 bi tr¾ng lµ: C42  C31 = 6  3 = 18  sè kh¶ n¨ng thuËn lîi cho A lµ m = 18.
18
VËy theo ®Þnh nghÜa cæ ®iÓn cña x¸c suÊt ta cã: P  A   .
35
2.2. §Þnh nghÜa x¸c suÊt theo quan ®iÓm thèng kª
XÐt mét phÐp thö (G) liªn kÕt víi sù kiÖn A , lÆp l¹i phÐp thö (G) n lÇn ®éc lËp,
Chóng ta thÊy cã k lÇn xuÊt hiÖn sù kiÖn A . Khi ®ã tØ sè ®­îc gäi lµ tÇn suÊt xuÊt hiÖn
sù kiÖn A trong n lÇn lÆp l¹i phÐp thö (G). Chóng ta nhËn thÊy r»ng tÇn suÊt f n  A  cã
c¸c tÝnh chÊt sau:
1) f n     1, f n V   0
2) 0  f n  A   1
3) A, B xung kh¾c th× f n  A  B   f n  A   f n  B 
(Tù kiÓm tra t¹i sao ?)
Vµ f n  A  thay ®æi nÕu n thay ®æi hoÆc thùc hiÖn phÐp thö trong n lÇn kh¸c. Tuy
nhiªn b»ng thùc nghiÖm ng­êi ta chøng minh ®­îc r»ng víi n kh¸ lín th× f n  A  æn
®Þnh quanh mét gi¸ trÞ p nµo ®ã, gi¸ trÞ p ®ã theo quan ®iÓm thèng kª gäi lµ x¸c suÊt
cña sù kiÖn A .

6
X¸c suÊt & Thèng kª Y häc

§Þnh nghÜa. X¸c suÊt cña sù kiÖn A lµ trÞ sè æn ®Þnh cña tÇn suÊt f n  A  khi sè l­îng
phÐp thö t¨ng lªn v« h¹n.
Ch¼ng h¹n hai nhµ thèng kª Buffon vµ Pearson ®· thÝ nghiÖm gieo ®ång tiÒn
nhiÒu lÇn, kÕt qu¶ ë b¶ng sau:
Ng­êi gieo Sè lÇn gieo Sè lÇn sÊp TÇn xuÊt
Buffon 4040 2048 0,5080
Pearson 12000 6019 0,5016
Pearson 24000 12012 0,5005

Qua kÕt qu¶ trªn cho chóng ta thÊy tÇn suÊt xuÊt hiÖn mÆt sÊp (S) æn ®Þnh xung
quanh gi¸ trÞ p = 0,5 khi sè l­îng phÐp thö n t¨ng lªn, nªn ta nãi r»ng x¸c suÊt xuÊt
hiÖn mÆt sÊp khi gieo ®ång tiÒn lµ P(S) = 0,5.
2.3. §Þnh nghÜa x¸c suÊt theo quan ®iÓm h×nh häc
XÐt phÐp thö (G) lÊy ngÉu nhiªn mét ®iÓm trªn ®o¹n [0, 1], th× kh«ng gian c¸c
sù kiÖn s¬ cÊp cña phÐp thö  ë ®©y lµ v« h¹n kÕt qu¶ kh«ng ®Õm ®­îc. Trong tr­êng
hîp nµy ta kh«ng thÓ x©y dùng x¸c suÊt cña sù kiÖn A trªn c¬ së x¸c suÊt cña c¸c sù
kiÖn s¬ cÊp Pi (v× c¸c ®iÓm trªn ®o¹n th¼ng coi nh­ ®ång kh¶ n¨ng vµ c¸c pi = 0).
Nh­ng ta thÊy r»ng nÕu sù kiÖn A lµ mét ®o¹n th¼ng nµo ®ã n»m trong ®o¹n [0,
1] th× A cµng lín x¸c suÊt ®Ó mét ®iÓm r¬i vµo trong A cµng lín, v× thÕ ta xem x¸c suÊt
§é dµi §äan A
cña mét ®iÓm r¬i vµo miÒn A lµ P  A   .
§é dµi §äan  0,1
DÔ thÊy r»ng P(A) cã c¸c tÝnh chÊt cña x¸c suÊt. Më réng kÕt qu¶ trªn cho tr­êng hîp
mét ®iÓm r¬i vµo miÒn ph¼ng hay khèi kh«ng gian ta cã ®Þnh nghÜa nh­ sau:
§Þnh nghÜa x¸c suÊt theo quan ®iÓm h×nh häc
Gi¶ sö  lµ tËp hîp c¸c ®iÓm nµo ®ã (®o¹n th¼ng, miÒn ph¼ng, m¶nh mÆt cong hay
khèi kh«ng gian), vµ A lµ tËp con cña  , khi ®ã x¸c suÊt ®Ó mét ®iÓm r¬i vµo miÒn A
§é §o cña A
lµ: P  A  , ®é ®o ë ®©y lµ ®é dµi, diÖn tÝch hay thÓ tÝch…
§é §o cña 
VÝ dô 5. Hai ng­êi hÑn gÆp nhau t¹i mét ®Þa ®iÓm ®· ®Þnh trong kho¶ng thêi gian tõ
19 ®Õn 20 giê. Hai ng­êi ®Õn chæ hÑn ®éc lËp nhau vµ quy ­íc r»ng khi ®Õn chæ hÑn sÏ
®îi nhau 10 phót, nÕu ng­êi kia kh«ng ®Õn th× sÏ bá ®i. TÝnh x¸c suÊt ®Ó hä gÆp nhau.
Gi¶i Ta biÓu diÔn thêi ®iÓm ®Õn chæ hÑn cña ng­êi thø nhÊt lµ mét ®iÓm trªn trôc
hoµnh, ng­êi thø hai trªn trôc tung. Nh­ vËy thêi ®iÓm ®Õn cña c¶ hai ng­êi ®­îc biÓu
diÔn b»ng mét ®iÓm cã täa ®é lµ cÆp (x,y) n»m trong h×nh vu«ng 0  x  60; 0  y  60 ,
®¬n vÞ tÝnh lµ phót.
§Ó hai ng­êi ng­êi gÆp nhau c¸c thêi ®iÓm ®Õn x vµ y cña mçi ng­êi ph¶i tháa m·n
bÊt ®¼ng thøc x  y  10 , Hay x  10  y  x  10 .
C¸c ®iÓm tháa m·n bÊt ®¼ng thøc trªn ®­îc biÓu diÔn bëi c¸c ®iÓm n»m gi÷a hai ®­êng
th¼ng y=x-10 vµ y=x+10 (H×nh vÏ). VËy theo ®Þnh nghÜa x¸c suÊt H×nh häc ta cã
§é §o cña A 60  60  50  50 11
P  A  = 
§é §o cña  60  60 36

7
X¸c suÊt & Thèng kª Y häc

60

y=x+10

10

10 60

2.4. S¬ l­îc mét sè kh¸i niÖm cña gi¶i tÝch kÕt hîp
2.4.1. ChØnh hîp
Cho mét tËp hîp X cã n phÇn tö kh¸c nhau. Mét c¸ch chän ra k phÇn tö kh¸c
nhau cã thø tù tõ n phÇn tö cña tËp hîp X gäi lµ mét chØnh hîp chËp k cña n phÇn tö
( k  n ). Sè chØnh hîp chËp k cña n phÇn tö kÝ hiÖu vµ tÝnh theo c«ng thøc:
Ank  n  n  1 n  2  ...  n  k  1
VÝ dô 6. Cho X={1,2,3,4,5} gåm 5 ch÷ sè 1; 2; 3; 4; 5. Hái cã thÓ t¹o nªn bao nhiªu
sè gåm 3 ch÷ sè ®«i mét kh¸c nhau tõ n¨m ch÷ sè trªn.
Mét sè nh­ ®Ò ra lµ mét bé cã thø tù gåm 3 ch÷ sè ®«i mét kh¸c nhau lÊy tõ 5
ch÷ sè ®· cho. Do ®ã sè sè cã thÓ t¹o thµnh lµ: A53  5  4  3  60 sè
2.4.2. Ho¸n vÞ
Mét ho¸n vÞ cña n phÇn tö cña tËp hîp X gåm n phÇn tö kh¸c nhau lµ mét
chØnh hîp chËp n cña n . KÝ hiÖu sè ho¸n vÞ cña n phÇn tö lµ: Pn  Ann  n !
2.4.3. Tæ hîp
Mét tæ hîp chËp k cña n phÇn tö cña tËp hîp X gåm n phÇn tö kh¸c nhau lµ
mét c¸ch chän ra k phÇn tö kh¸c nhau cña X kh«ng ph©n biÖt thø tù.
Sè tæ hîp chËp k cña n phÇn tö kÝ hiÖu vµ tÝnh theo c«ng thøc sau:
k Ank n!
C 
n 
k ! k ! n  k !
Ng­êi ta chøng minh ®­îc r»ng: Cnk11  Cnk1  Cnk
Qui ­íc Cn0  1 ta cã c«ng thøc khai triÓn nhÞ thøc nh­ sau:

8
X¸c suÊt & Thèng kª Y häc

n
n
a  b   Cnk a n  k b k
k 0

VÝ dô 7. Mét nhãm häc viªn cã 5 ng­êi, trong ®ã cã 3 nam vµ 2 n÷. Muèn chän 3 häc
viªn ®i lao ®éng trong ®ã cã 2 nam vµ 1 n÷. Hái cã bao nhiªu c¸ch chän.
Sè c¸ch chän 2 nam trong 3 nam lµ: C32  3
Sè c¸ch chän 1 n÷ trong 2 n÷ lµ: C21  2
 Sè c¸ch chän 3 ng­êi cã 2 nam vµ 1 n÷ lµ: C32  C21  6
2.4.4. LuËt tÝch
Gi¶ sö ®Ó thùc hiÖn viÖc A ta ph¶i thùc hiÖn liªn tiÕp k b­íc:
B­íc thø 1: cã m1 c¸ch thùc hiÖn.
B­íc thø 2: cã m2 c¸ch thùc hiÖn.
......................................................
B­íc thø k: cã mk c¸ch thùc hiÖn.
Khi ®ã sè c¸ch thùc hiÖn viÖc A lµ m = m1  m2  ...  mk ..

§3 c¸c ®Þnh lý c¬ b¶n cña x¸c suÊt


3.1. §Þnh lý céng x¸c suÊt

NÕu A, B lµ 2 biÕn cè xung kh¾c th× p  A  B   p  A   p  B  .


NÕu A, B lµ 2 biÕn cè bÊt k× th× p  A  B   p  A   p  B   p  AB 
Tæng qu¸t: Cho n biÕn cè A1 , A2 ,..., An
NÕu n biÕn cè A1 , A2 ,..., An nµy xung kh¾c tõng ®«i th× ta cã:
 n  n
p   Ai    p  Ai 
 i 1  i 1
NÕu n biÕn cè A1 , A2 ,..., An bÊt k× th× ta cã c«ng thøc:
 n  n n 1  n 
P   Ai    P  Ai    P  Ai A j    P  Ai A j Ak   ...   1 P   Ai 
 i 1  i 1 i j i jk  i 1 
Chøng minh c«ng thøc trªn b»ng ph­¬ng ph¸p qui n¹p.
3.2. X¸c suÊt cã ®iÒu kiÖn, ®Þnh lý nh©n x¸c suÊt
3.2.1. §Þnh nghÜa
NÕu B lµ mét biÕn cè cã x¸c suÊt P( B)  0 ) th× x¸c suÊt cã ®iÒu kiÖn cña biÕn
cè A víi ®iÒu kiÖn cña biÕn cè B ®· xÈy ra ®­îc ®Þnh nghÜa lµ:

 B   PPAB
P A
B

3.2.2. §Þnh lý nh©n x¸c suÊt


NÕu P  A  0, P  B   0 víi A, B lµ 2 biÕn cè bÊt k× th×:
 B   P  A   P  B A
P  AB   P  B   P A
VÝ du 8. Trong kho cã 96% s¶n phÈm ®óng qui c¸ch. Trong sè s¶n phÈm ®óng qui
c¸ch cã 70% s¶n phÈm lo¹i I. LÊy ngÉu nhiªn mét s¶n phÈm, tÝnh x¸c suÊt ®Ó lÊy ®­îc
s¶n phÈm lo¹i I.

9
X¸c suÊt & Thèng kª Y häc

Gäi A lµ biÕn cè lÊy ngÉu nhiªn mét s¶n phÈm th× ®­îc s¶n phÈm lo¹i I, B lµ
biÕn cè chØ lÊy ngÉu nhiªn mét s¶n phÈm th× ®­îc s¶n phÈm ®óng qui c¸ch, th× ta cã
P( B)  96% .
 
CÇn tÝnh P  AB   P  B   P A B  0,96  0, 70  0, 672
3.2.3. Sù ®éc lËp c¸c biÕn cè
NÕu viÖc xÈy ra hay kh«ng xÈy ra cña biÕn cè B kh«ng ¶nh h­ëng g× ®Õn viÖc
xÈy ra biÕn cè A , lÏ dÜ nhiªn A, B lµ 2 biÕn cè ®éc lËp vµ ta viÕt:
 B   p  A B   p  A
p A

Tõ ®ã suy ra: A, B lµ hai biÕn cè ®éc lËp  p  AB   p  A   p  B 


NhËn xÐt. NÕu A, B lµ 2 biÕn cè ®éc lËp th× A vµ B ; A vµ B ; A vµ B còng ®éc lËp.
Tæng qu¸t: Cho n biÕn cè A1 , A2 ,..., An gäi lµ ®éc lËp nÕu mçi biÕn cè trong chóng ®éc
lËp víi tÝch mét sè c¸c biÕn cè cßn l¹i. Tõ ®ã tæng qu¸t ®Þnh lý nh©n cho n biÕn cè
 
n
 A 
 ...P  An 
A1 , A2 ,..., An lµ: P   Ai   P  A1  .P  A2  .P  3  n 1 
 A1   A1 A2 
 i 1  



i 1
A 
i 

Chøng minh c«ng thøc nµy b»ng qui n¹p (®éc gi¶ tù chøng minh xem nh­ bµi tËp).
3.3. C«ng thøc x¸c suÊt toµn phÇn, c«ng thøc B©yet
Gi¶ sö A1 , A2 ,..., An lµ mét hÖ sù kiÖn ®Çy ®ñ, B lµ mét sù kiÖn bÊt k× th×:
 n 
B  B    Ai   BA1  BA2  ...  BAn
 i 1 
Do c¸c Ai ,  i  1, 2,...n  xung kh¾c tõng ®«i nªn c¸c BAi còng xung kh¾c tõng
®«i. ¸p dông c«ng thøc céng x¸c suÊt ta cã:
P  B   P  BA1   P  BA2   ...  P  BAn  .
¸p dông c«ng thøc nh©n ta cã:
P  B   P  A1  P  B   P  A2  P  B   ...  P  An  P  B 
 A1   A2   An 
n
hay : P  B    P  Ai  P  B A  (1)
i 1  i

C«ng thøc (1) gäi lµ c«ng thøc x¸c suÊt toµn phÇn.
B©y giê nÕu phÐp thö ®· thùc hiÖn, biÕt sù kiÖn B ®· xÈy ra, t×m x¸c suÊt xuÊt
hiÖn sù kiÖn Ai ,( i  1, 2,..., n ), tøc lµ cÇn t×m c¸c x¸c suÊt P  Ai B  , ( i  1, 2,..., n ) ?
 
Theo §Þnh lý nh©n x¸c suÊt th×:

10
X¸c suÊt & Thèng kª Y häc

P  Ai  .P  B 
A A
P  Ai B   P  Ai  .P  B   P  B  .P  i   P  i    Ai  
 Ai   B  B P  B

P  Ai  .P  B 
A
 P  i B    Ai 
n  2 i=1,2,...,n
 
 P  Ai  .P  B 
i 1  Ai 
(2) gäi lµ c«ng thøc B©yet.
ý nghÜa cña c«ng thøc (2) lµ: Sau khi thÝ nghiÖm biÕt sù kiÖn B ®· xÈy ra, ta
tÝnh x¸c xuÊt P  Ai B  lµ x¸c suÊt B xÈy ra do yÕu tè Ai t¸c ®éng lµ bao nhiªu? V× thÕ
 
Ai
P   gäi lµ x¸c suÊt hËu nghiÖm ®Ó ph©n biÖt víi c¸c x¸c suÊt tiÒn nghiÖm P A .
 i
 B 
VÝ dô 9. Mét tr¹m cÊp cøu báng cã 80% bÖnh nh©n báng do nãng vµ 20% bÖnh nh©n
báng do ho¸ chÊt. Lo¹i báng do nãng cã 30% bÞ biÕn chøng, lo¹i báng do ho¸ chÊt cã
50% bÞ biÕn chøng.
a) T×m x¸c suÊt ®Ó khi më tËp hå s¬ ra lÊy ngÉu nhiªn 1 bÖnh ¸n th× gÆp bÖnh
¸n cña bÖnh nh©n bÞ biÕn chøng?
b) T×m x¸c suÊt ®Ó khi më tËp hå s¬ ra lÊy ngÉu nhiªn 1 bÖnh ¸n th× gÆp bÖnh
¸n cña bÖnh nh©n bÞ biÕn chøng do nãng g©y ra ?
Gäi A1 lµ sù kiÖn lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n cña bÖnh nh©n bÞ
báng do nãng. A2 lµ biÕn cè lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n cña bÖnh
nh©n bÞ báng do ho¸ chÊt, B lµ biÕn cè lÊy ngÉu nhiªn mét bÖnh ¸n th× gÆp bÖnh ¸n
cña bÖnh nh©n bÞ biÕn chøng. Khi ®ã { A1 , A2 } lËp thµnh hÖ sù kiÖn ®Çy ®ñ vµ
B  BA1  BA2 .
80 30 20 50
a) P  B   P  A1  P  B A   P  A2  P  B A       0,34
 1   2  100 100 100 100
b) Theo c«ng thøc (2) cÇn tÝnh:
80 30
P  A1  .P  B 
 A1   A1  100  100
P B     0, 706 .
  P B 34
100
3.4. D·y phÐp thö ®éc lËp, c«ng thøc Bernoulli
XÐt mét phÐp thö (G), A lµ mét biÕn cè liªn kÕt víi (G) P  A   p vµ
 
P A  1  p  q , mét phÐp thö nh­ vËy ®­îc gäi lµ phÐp thö Bernoulli.
LÆp l¹i (G) n lÇn ®éc lËp. T×m x¸c suÊt biÕn cè B chØ sù kiÖn A xuÊt hiÖn ®óng
k (k = 0,1,2,…n) lÇn, kÝ hiÖu x¸c suÊt nµy lµ Pn  k  . LÆp l¹i (G) n lÇn nh­ trªn gäi lµ
thùc hiÖn d·y phÐp thö ®éc lËp Bernoulli.
Gäi B lµ biÕn cè trong n lÇn lÆp l¹i (G), sù kiÖn A xuÊt hiÖn k lÇn. Ta thÊy
r»ng B cã nhiÒu c¸ch thùc hiÖn:

11
X¸c suÊt & Thèng kª Y häc

Ch¼ng h¹n: B  14
A42
. A...44A
3{AA... A  AAA {
AA... A {
AA... A  ...
k n k k 1 nk 2
Mçi biÕn cè trong tæng øng víi mét c¸ch chän k ch÷ sè A trong n ch÷ A, A nªn sè
sè h¹ng cña tæng lµ Cnk , v× thÕ cã Cnk c¸ch thùc hiÖn B mµ mçi c¸ch cã
 
P  14
A.42
A...44A314
AA
42...44A3  p k q nk .
 
 k n k 
 Pk  n   P  B   Cnk p k q n k . (3)
C«ng thøc (3) gäi lµ c«ng thøc Bernoulli thø nhÊt.
§Ó tÝnh x¸c suÊt trong n phÐp thö Bernoulli ®éc lËp, biÕn cè A xuÊt hiÖn tõ k1
®Õn k2 lÇn ( 0  k1  k 2  n ) ta dïng §Þnh lý céng x¸c suÊt, vµ ký hiÖu x¸c suÊt nµy lµ
Pn  k1 , k2  , ta cã c«ng thøc:
k2 k2
Pn  k1 , k2    Pn  k    Cnk p k q n  k (4)
k  k1 k  k1

C«ng thøc (4) gäi lµ c«ng thøc Bernoulli thø 2.


n
n
Chó ý. Do  p  q    Cnk p k q n k (c«ng thøc khai triÓn nhÞ thøc)  Pn  k  chÝnh lµ hÖ
k 0

sè p k cña khai triÓn nhÞ thøc trªn, v× vËy c«ng thøc (3) cßn ®­îc gäi lµ c«ng thøc x¸c
xuÊt nhÞ thøc.
3.5. Sè cã kh¶ n¨ng nhÊt
NÕu trong d·y phÐp thö ®éc lËp Bernoulli tån t¹i sè k0 sao cho
Pn  k0   Pn  k  , k  1, 2,..., n , th× sè k0 ®ã ®­îc gäi lµ sè cã kh¶ n¨ng nhÊt cña phÐp thö.
§Ó t×m sè k0 ta tÝnh:  n  1 p .
NÕu  n  1 p  N th× cã 2 gi¸ trÞ k0 lµ k0 =  n  1 p vµ k0 =  n  1 p -1.
NÕu  n  1 p  N th× k0 lµ sè nguyªn lín nhÊt kh«ng v­ît qu¸  n  1 p .
VÝ dô 10. Khi l¹i chuét tr¾ng vµ chuét x¸m ë dßng thuÇn th× F1 mäi con chuét ®Òu
x¸m
(x¸m lµ tÝnh tréi) ë thÕ hÖ F2 cã 3 4 sè chuét x¸m vµ 1 4 lµ tr¾ng. Gi¶ sö F2 cho ta ®­îc
5 con chuét. TÝnh x¸c suÊt sao cho:
a) Cã 3 con x¸m vµ hai con tr¾ng.
b) Cã Ýt nhÊt mét con tr¾ng.
3 1
Gäi A lµ biÕn cè xuÊt hiÖn mét con chuét ë F2 lµ x¸m  P  A  , P  A  ta
4 4
cÇn tÝnh c¸c x¸c suÊt sau:
3 2
3  3   1  135
a) P5  3  C     
5  0, 264
 4   4  512
243
b) 1  p5  0   1   0, 763
1024

12
X¸c suÊt & Thèng kª Y häc

3.6. Xác suất trong chẩn đoán


Công việc hàng ngày của BS là chẩn đoán. Chẩn đoán tức là xác suất. Ta theo
dõi tiến trình chẩn đoán xem xác suất biểu hiện ở những vị trí nào.
Một người đến khám bệnh vì triệu chứng X, với triệu chứng này BS nghi ngờ và
"đoán" bị bệnh B. Câu hỏi xuất hiện là khả năng bị bệnh B là bao nhiêu ? Khả năng
này gọi là chỉ số nghi ngờ.
Qua phỏng vấn người bệnh hoặc người nhà người bệnh, hoặc làm xét nghiệm
(nói chung làm thủ tục chẩn đoán T), kết quả T có thể là dương tínhT+ hoặc âm tính T-
liên quan đến bệnh B.
Câu hỏi: Khi có kết quả T chỉ số nghi nghờ có thay đổi không? Khi nào thì cho
làm xét nghiệm T ? Liệu kết quả T trả về có đáng tin cậy không? Nội dung phần này
sẽ trả lời những câu hỏi đó.
3.6.1. Độ chính xác của một xét nghiệm
Có hai tham số đánh giá một xét nghiệm đó là độ nhạy ( Sensitivity) và độ
chuyên (Speccificity)
3.6.1.1. Độ nhạy (Sensitivity)là khả năng xét nghiệm T báo dương tính(T+) đối với
người bệnh B, ký hiệu: P T  B   và gọi là dương thật (true positive).
Âm giả là tỷ lệ xét nghiệm T báo âm tính (T-) đối với người bị bệnh B, ký
hiêu: P T  B   . Như vậy ta có P T  B   + P T  B   = 1
3.6.1.2. Độ chuyên (Speccificity) là tỷ lệ xét nghiệm T báo âm tính ( T  ) trên người
không bị bệnh B và ký hiệu: P T  B   , còn gọi là âm thật.
Dương giả là tỷ lệ xét nghiệm T báo dương tính ( T  ) trên người không bị bệnh
B và ký hiệu: P T  B   , tương tự ta có P T  B    P T  B    1 .
3.6.1.3. Xác định độ nhạy và độ chuyên. Chọn hai nhóm: nhóm bị bệnh B ký hiệu
B  , nhóm không bị bệnh B ký hiệu B  . Cả hai nhóm cho làm xét nghiệm T . Tùy
thuộc vào kết quả xét nghiệm T trên hai nhóm mà ta có độ nhạy và độ chuyên của xét
nghiệm T như sau:

Bệnh B

B B
Xét nghiệm T a b a+b
T T c d c+d
a+c b+d

a d
Độ nhạy: P T  B    ; Độ chuyên: P T  B   
ac bd
b c
dương giả: P T  B   ; âm giả: P T  B   
bd ac
Nhận xét: Độ nhạy và độ chuyên của xét nghiệm không phụ thuộc vào tỷ lệ bệnh đang
lưu hành.

13
X¸c suÊt & Thèng kª Y häc

Ví dụ. Có hai xét nghiệm T1 , T2 : T1 có độ nhạy 93% và độ chuyên 95%. T2 dương


giả 7%; âm giả 5%. T1 dùng sàng lọc người có nguy có bị bệnh B , T2 dùng chẩn
đoán bệnh này trên những người mà T1 cho kết quả dương tính.
Một người từ dân số có tỷ lệ bệnh B là 0,001, cho người này làm xét nghiệm T1
kết quả dương tính, cho làm xét nghiệm T2 cũng dương tính. Tính khả năng người này
bị bệnh B.
Giải: Từ gt có: P T1 B   = 0,93; P T1 B   =0,95
P T2 B   = 0,07 ; P T2 B   = 0,05.
P T1   P  B   P T1 B    P  B   P T1 B   =
0,001 × 0,93 + (1-0,001) × (1-0,95)= 0,05088.
P  B   P  T1 B   0, 001 0,93
PB T
1

  = 0,0183.
P T 1

 0, 05088

Cho làm xét nghiệm T2 , kết quả T2 dương tính, vậy ta có


P T2   P  B   P T2 B    P  B   P T2 B   =

0,0183 × (1-0,05) + 0,07 × (1-0,183)= 0,0861.


P  B   P T2 B   1  0, 05   0, 018  0, 2017 .
PB T
2

 
P T 2

 0, 05088

Kết luận người này mắc bệnh B là 20,17%.


3.6.2. Giá trị tiên đoán (predietive value)
+ P T  B   là khả năng bị bệnh B nếu xét nghiệm T dương tính. Ký hiệu PV  .

+ P T  B   là khả năng bị bệnh B nếu xét nghiệm T âm tính. Ký hiệu PV 

P T  B  
+ LR   càng lớn hơn 1 thì xét nghiệm càng nhạy.
1  P T  B  


1  P T  B  
+ LR  càng bé hơn 1 thì xét nghiệm càng chuyên. Đây là hai thông số
1  P T  B  

của một xét nghiệm.


+ Tỷ cơ hội của một biến cố A là số ký hiệu: LR(A) là tỷ số giữa xác suất xẩy ra biến
cố A đối với người bị bệnh B so với xác suất xẩy ra biến cố A đối với người không bị
bệnh B. Do đó khi một bệnh nhân có biến cố A xẩy ra mà tỷ cơ hội LR(A) càng lớn
hơn 1 thì sự nghi ngờ người đó bị bệnh B càng cao.

14
X¸c suÊt & Thèng kª Y häc

Bµi tËp ch­¬ng 1


1. Mét l« hµng cã 100 s¶n phÈm, trong ®ã cã 15 phÕ phÈm. LÊy ngÉu nhiªn ra 20
s¶n phÈm. T×m x¸c suÊt ®Ó cho trong 20 s¶n phÈm lÊy ra cã :
a. 5 phÕ phÈm.
b. BÞ c¶ 15 phÕ phÈm.
c. Cã ®óng 10 chÝnh phÈm.
2. Mét em bÐ cã 8 b×a h×nh vu«ng víi c¸c ch÷ N, N, N, A, A, H, H, O. T×m x¸c
suÊt ®Ó em bÐ trong khi s¾p ngÉu nhiªn theo hµng ngang, em thu ®­îc tõ
NHANHNAO.
3. Mét em bÐ cã mét hép chøa 2 bi tr¾ng vµ 4 bi ®á . Em rót hó ho¹ tõng viªn bi
mét cho ®Õn viªn cuèi cïng. T×m x¸c suÊt ®Ó viªn bi cuèi cïng lµ ®á. NÕu chän ngÉu
nhiªn mét bi, t×m x¸c suÊt nhËn ®­îc bi ®á.
4. Mét ng­êi cã mét hép kÝn, trong ®ã cã chøa 3 viªn bi kh«ng râ mµu s¾c, nh­ng
chóng ®ång kh¶ n¨ng ®­îc chän. Ng­êi ®ã bá thªm vµo hép 1 bi ®á ®ång kh¶ n¨ng
®­îc lÊy víi c¸c bi trong hép. X¸o ®Òu råi lÊy ngÉu nhiªn tõ hép ra mét bi. T×m x¸c
suÊt ®Ó lÊy ®­îc bi ®á.
5. Hai x¹ thñ b¾n vµo mét bia mét c¸ch ®éc lËp nhau, mçi ng­êi b¾n bèn lÇn
mçi lÇn mét ph¸t. X¸c suÊt b¾n tróng ®Ých cña ng­êi thø nhÊt vµ ng­êi thø hai trong
mçi lÇn b¾n lÇn l­ît lµ 0,6 vµ 0,9. Mçi ng­êi sÏ ®­îc coi lµ b¾n ®¹t yªu cÇu nÕu b¾n
tróng tõ ba ph¸t trë lªn.
a) H·y tÝnh x¸c suÊt b¾n ®¹t yªu cÇu cña tõng ng­êi.
b) KÕt qu¶ b¾n kiÓm tra cho biÕt trong hai x¹ thñ trªn chØ cã mét x¹ thñ b¾n
®¹t yªu cÇu. T×m x¸c suÊt ®Ó ng­êi b¾n kh«ng ®¹t yªu cÇu lµ ng­êi thø nhÊt.
6. BiÕt r»ng tû lÖ ng­êi m¾c bÖnh nµo ®ã ë mét ®Þa ph­¬ng nµo ®ã lµ 3%. Ng­êi
ta sö dông mét ph¶n øng mµ nÕu ng­êi bÞ bÖnh th× ph¶n øng lu«n lu«n d­¬ng tÝnh, nÕu
kh«ng bÞ bÖnh th× ph¶n øng d­¬ng tÝnh víi x¸c suÊt 0,20.
a. T×m x¸c suÊt ph¶n øng d­¬ng tÝnh.
b. T×m x¸c suÊt bi bÖnh, kh«ng bÞ bÖnh trong nhãm ng­êi cã ph¶n øng
d­¬ng tÝnh.
c. Qua ph­¬ng ph¸p thö nµy cã thÓ ­íc l­îng tû lÖ m¾c bÖnh lµ bao nhiªu.
7. Mét b¸c sü cã tiÕng vÒ ch÷a mét bÖnh nµo ®ã. X¸c suÊt ch÷a khái bÖnh lµ
0,80. Cã ng­êi nãi r»ng cø 10 ng­êi ®Õn ch÷a th× ch¾c ch¾n cã 8 ng­êi khái. §iÒu
kh¼ng ®Þnh ®ã cã ®óng kh«ng?
T×m x¸c suÊt sao cho b¸c sü ®ã ch÷a 10 ng­êi th× cã 8 ng­êi khái.
8. Trong mét vïng cã tû lÖ n÷ lµ 55%. Trong ®ît dÞch bÖnh, kh¶ n¨ng m¾c bÖnh
cña nam lµ 8%, cña n÷ lµ 3%. Hái tü lÖ m¾c bÖnh chung cña c¶ vïng ?
9. Cã mét bÖnh nh©n mµ b¸c sü chÈn ®o¸n lµ m¾c bÖnh A víi x¸c suÊt 0,5; m¾c
bÖnh B víi x¸c suÊt 0,35 vµ m¾c bÖnh C víi x¸c suÊt lµ 0,15. §Ó cã thªm th«ng tin
chÈn ®o¸n b¸c sü ®· cho xÐt nghiÖm sinh ho¸. Sau 3 lÇn thö thÊy cã 2 lÇn d­¬ng tÝnh.
H·y cho biÕt nªn chÈn ®ãan bÖnh nh©n m¾c bÖnh nµo? BiÕt r»ng kh¶ n¨ng d­¬ng tÝnh
cña mçi lÇn xÐt nghiÖm víi bªnh A, B, C t­¬ng øng lµ 0,1; 0,2; 0,6.
10. Mét b×nh chøa 12 bi, trong ®ã cã 4 bi tr¾ng. Mét b×nh kh¸c chøa 20 bi,
trong ®ã cã 14 bi tr¾ng. Ta lµm thÝ nghiÖm nh­ sau:
B­íc 1: lÊy ngÉu nhiªn tõ mçi b×nh ra mét bi;
B­íc 2: sau ®ã lÊy ngÉu nhiªn mét bi trong hai bi võa lÊy ®­îc.

15
X¸c suÊt & Thèng kª Y häc

TÝnh x¸c suÊt ®Ó trong hai bi lÊy ra ®­îc ë b­íc 1 cã ®óng mét bi tr¾ng, biÕt
r»ng bi lÊy ra ®­îc ë b­íc 2 lµ bi tr¾ng.
11. Cho n c¸i hép, mçi hép chøa m bi tr¾ng vµ k bi ®á. LÊy hó häa 1 bi tõ hép 1
bá vµo hép 2 sau dã lÊy hó häa 1 bi tõ hép 2 bá vµo hép 3, cø tiÕp tôc lÊy hó häa 1 bi
tõ hép 3 bá vµo hép 4, …..T×m x¸c suÊt ®Ó viªn bi cuèi cïng lÊy ra tõ hép n lµ tr¾ng.
12. Mét häc sinh viÕt xong n bøc th­ råi bá vµo n b× th­, d¸n l¹i vµ trªn mçi b×
th­ ghi mét ®Þa chØ kh¸c nhau cÇn göi, råi göi ®i. T×m x¸c suÊt sao cho cã Ýt nhÊt mét
l¸ th­ ®Õn ®óng ®Þa chØ. Gäi x¸c suÊt ®ã lµ Pn . T×m lim Pn .
n® ¥

13. Gieo hó häa mét ®iÓm lªn mét ®o¹n th¼ng cã ®é dµi 30cm. T×m x¸c suÊt ®Ó
®iÓm ®ã r¬i vµo mét ®o¹n con cã ®é dµi 10 cm hoµn toµn n»m trong ®o¹n ®· cho.
14. Cho ®o¹n th¼ng víi ®é dµi a. Chän ngÉu nhiªn trªn ®o¹n nµy hai ®iÓm, khi
®ã ta cã ®o¹n th¼ng ®­îc chia lµm ba ®o¹n nhá. T×m x¸c suÊt ®Ó ba ®o¹n thu ®­îc lËp
thµnh c¸c c¹nh cña mét tam gi¸c.
15. Cho h×nh vu«ng víi c¸c ®Ønh A(0;0), B(0; 1), C(1; 0), D(1; 1). Gieo ngÉu
nhiªn mét ®iÓm M(X, Y) trong h×nh vu«ng ®ã.
a. Chøng minh r»ng: P {X < x , Y < y }= P {X < x }P {Y < y }= xy .
b. T×m P {X - Y < z } víi 1 £ z £ 1.
c. T×m P {X Y < z } víi 1 £ z £ 1.
d. T×m P {max (X ,Y ) < z } víi 1 £ z £ 1.
16. Trong c¬ quan nä cã 3 chiÕc « t«. Kh¶ n¨ng cã sù cè cña mçi « t« t­¬ng øng
lµ 0,15; 0,20 vµ 0,10.
a. T×m x¸c suÊt c¶ ba « t« cïng bÞ háng.
b. T×m x¸c suÊt cã Ýt nhÊt mét c¸i ho¹t ®éng ®­îc.
c. T×m kh¶ n¨ng c¶ ba « t« cïng ho¹t ®éng ®­îc.
d. T×m kh¶ n¨ng cã kh«ng qu¸ 2 « t« bÞ háng.
17. Mét ng­êi cã ba chæ ­a thÝch nh­ nhau ®Ó c©u c¸. X¸c suÊt c©u ®­îc c¸ ë
nh÷ng chæ ®ã t­¬ng øng lµ 0,6; 0,7 vµ 0,8. BiÕt r»ng ë mçi mét chæ ng­êi ®ã ®· th¶
c©u ba lÇn vµ chØ c©u ®­îc mét con c¸. T×m x¸c suÊt ®Ó c¸ c©u ®­îc ë chæ thø nhÊt.
18. TÝn hiÖu th«ng tin ®­îc ph¸t ba lÇn víi x¸c suÊt thu ®­îc mçi lÇn lµ 0,4.
a. T×m x¸c suÊt ®Ó nguån thu nhËn ®­îc th«ng tin ®ã.
b. NÕu muèn x¸c suÊt thu ®­îc th«ng tin lªn 0,9 th× ph¶i ph¸t bao nhiªu lÇn.

16
X¸c suÊt & Thèng kª Y häc

Ch­¬ng2 biÕn ngÉu nhªn vµ hµm ph©n phèi


§1 biÕn ngÉu nhiªn
1.1. Kh¸i niÖm biÕn ngÉu nhiªn
BiÕn ngÉu nhiªn lµ ®¹i l­îng nhËn gi¸ trÞ thùc víi x¸c suÊt x¸c ®Þnh. Ng­êi ta kÝ
hiÖu c¸c biÕn ngÉu nhiªn b»ng c¸c ch÷ in hoa nh­: X, Y, Z hoÆc c¸c ch÷ Hy L¹p nh­:
 , ,... vµ c¸c gi¸ trÞ nhËn ®­îc cña nã b»ng c¸c ch÷ th­êng nh­: x1,x2,...,y1,y2,...
BiÕn ngÉu nhiªn cã hai lo¹i: BiÕn ngÉu nhiªn rêi r¹c vµ BiÕn ngÉu nhiªn liªn tôc.
BiÕn ngÉu nhiªn ®­îc gäi lµ rêi r¹c nÕu c¸c gi¸ trÞ cã thÓ nhËn ®­îc cña nã h÷u
h¹n hoÆc v« h¹n ®Õm ®­îc. BiÕn ngÉu nhiªn liªn tôc lµ c¸c biÕn ngÉu nhiªn mµ c¸c gi¸
trÞ nhËn ®­îc cña chóng lµ v« h¹n kh«ng ®Õm ®­îc, cã thÓ lÊp ®Çy mét kho¶ng (a, b)
cña mét trôc sè thùc.
VÝ dô 1. PhÐp thö (G) b¾n liªn tiÕp 4 ph¸t sóng vµo 1 môc tiªu. Gäi X lµ ®¹i l­îng chØ
sè ph¸t ®¹n tróng môc tiªu th× X lµ biÕn ngÉu nhiªn rêi r¹c, c¸c gi¸ trÞ nhËn ®­îc cña
chóng lµ: 0, 1, 2, 3, 4.
VÝ dô 2. §­êng d©y ®iÖn nèi 2 tæng ®µi A, B c¸ch nhau 50 mÐt bçng nhiªn bÞ ®øt. Gäi
X lµ ®¹i l­îng chØ kho¶ng c¸ch tõ ®iÓm ®øt ®Õn A (®¬n vÞ ®o lµ mÐt), th× X lµ biÕn
ngÉu nhiªn liªn tôc (tÝnh chÝnh x¸c ®Õn 0,001 mÐt).
1.2. D·y ph©n phèi x¸c xuÊt cña biÕn ngÉu nhiªn rêi r¹c
Cho biÕn ngÉu nhiªn rêi r¹c X cã thÓ nhËn n gi¸ trÞ x1 , x2 ,..., xn víi x¸c suÊt
P  X  xi   pi (i  1, 2,.., n) . D·y ph©n phèi x¸c suÊt cña X (hay qui luËt ph©n phèi cña
X ) lµ:
X x1 x2 ............................................. xn
p p1 p2 ............................................. pn
n
Trong ®ã p
i 1
i 1

VÝ dô 3. X lµ biÕn ngÉu nhiªn chØ sè chÊm cña c¸c mÆt trªn con xóc x¾c, khi gieo 1
con xóc x¾c th× d·y ph©n phèi cña X lµ:
X 1 2 3 4 5 6
P 1 1 1 1 1 1
6 6 6 6 6 6

1.3. Hµm ph©n phèi


§Þnh nghÜa. Hµm ph©n phèi cña biÕn ngÉu nhiªn X lµ hµm F  x  ®­îc x¸c ®Þnh theo

c«ng thøc c«ng thøc: F  x   P ( X  x) .


 NÕu X lµ biÕn ngÉu nhiªn rêi r¹c cã d·y ph©n phèi x¸c suÊt:
X x1 x2 ............................................. xn
P p1 p2 ............................................. pn

17
X¸c suÊt & Thèng kª Y häc

Th×: F  x   P ( X  x)   P  X  xi 
xi  x

VÝ dô 4. LËp hµm ph©n phèi cña biÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt:
X -1 1 2 3
p 0,1 0,3 0,4 0,2

Ta cã hµm ph©n phèi cña X lµ:


F  x   P( X  x)   pi
xi  x

Cô thÓ: x  1 th× F  x   P ( X  x)  0
NÕu 1  x  1 th× F  x   P ( X  x )  P ( X  1)  0,1 . T­¬ng tù
1  x  2 th× F  x   0,1  0,3  0, 4 .
2  x  3 th× F  x   0,1  0, 3  0, 4  0,8 ; x  3 th× F  x   1 .
0, NÕu x  1
0,1 NÕu  1  x  1

VËy ta cã F  x   0, 4 NÕu 1  x  2
0,8 NÕu 2  x  3

1 NÕu x  3
Nªn ®å thÞ cña F  x  : F x

0,8

0,4

0,1
X

-1 0 1 2 3
§å thÞ F  x  cã d¹ng h×nh bËc thang.
C¸c tÝnh chÊt cña hµm ph©n phèi F  x 

i) 0  F  x   1, x

18
X¸c suÊt & Thèng kª Y häc

ii) P   X     F     F  
iii)     F    F    , tøc lµ hµm ph©n phèi kh«ng gi¶m.
iv) F     Lim F  x   0, F     Lim F  x   1 .
x  x 

Chøng minh. C¸c tÝnh chÊt i), iv) suy trùc tiÕp tõ ®Þnh nghÜa. Chóng ta chøng minh
c¸c tÝnh chÊt ii), iii).
Gäi A lµ biÕn cè chØ { X   }, B lµ biÕn cè chØ {   X   }, C lµ biÕn cè chØ
{ X   }  C  A  B vµ AB   , ¸p dông c«ng thøc céng x¸c suÊt cã:
P  C   P  A  P  B  .
F     F    P   X     P   X     F     F    ii).
Tõ F     F    P   X    ,       F     F   v× P   X     0
 iii).
Tõ tÝnh chÊt iii)  NÕu F  x  liªn tôc th×:
Lim P   X     P  X     Lim  F     F     0
   

Tøc lµ nÕu F  x  liªn tôc th× P  X     0  .


1.4. Hµm mËt ®é
1.4.1. §Þnh nghÜa. NÕu l­îng ngÉu nhiªn X liªn tôc cã hµm ph©n phèi F  x  liªn tôc
®¹o hµm cña hµm ph©n phèi F  x  lµ F   x   f  x  gäi lµ hµm mËt ®é cña X .
1.4.2. TÝnh chÊt
i) f  x   0 x
x
ii) F  x    f  t dt


iii) P   X      f  x  dx


iv)  f  x  dx  1


ý nghÜa TÝnh chÊt iv) nãi lªn diÖn tÝch cña h×nh ph¼ng giíi h¹n bëi trôc Ox vµ ®­êng
cong hµm mËt ®é: y  f  x  b»ng 1. TÝnh chÊt ii) nãi lªn x¸c suÊt P   X    lµ diÖn
tÝch h×nh thang cong giíi h¹n bëi c¸c ®­êng th¼ng: x   , x   trôc Ox vµ ®­êng
cong hµm mËt ®é y  f  x  .
Chó ý. Mét hµm y  f  x  tho¶ m·n 4 tÝnh chÊt trªn lµ hµm mËt ®é cña mét biÕn ngÉu
nhiªn X nµo ®ã.

19
X¸c suÊt & Thèng kª Y häc

§2 C¸c ®Æc tr­ng cña biÕn ngÉu nhiªn


2.1. Sè kú väng
2.1.1. §Þnh nghÜa
Cho biÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt lµ:
X x1 x2 ............................................. xn
P p1 p2 ............................................. pn
Sè kú väng cña X lµ sè kÝ hiÖu M (X ) hoÆc E (X ) vµ x¸c ®Þnh nh­ sau:
n
M  X   E  X    xi pi
i 1

NÕu X lµ biÕn ngÉu nhiªn liªn tôc cã hµm mËt ®é f  x  th× kú väng cña X lµ:


M X   xf  x  dx


VÝ dô 5. Cho X lµ biÕn ngÉu nhiªn cã d·y ph©n phèi x¸c suÊt lµ:
X 1 2 3 4
P 0,2 0,5 0,2 0,1
Th× M  X   1 0, 2    2  0, 5   3  0, 2    4  0,1  2 .
VÝ dô 6. X lµ biÕn ngÉu nhiªn ph©n phèi ®Òu trªn  a, b  th× hµm mËt ®é cña X lµ:
 1
 khi x   a, b 
f  x  b  a
 0 khi x   a, b 

 b
x ab
 M X   xf  x  dx   b  a dx 
 a
2
ý nghÜa. Sè kú väng lµ sè trung b×nh theo x¸c suÊt cña biÕn ngÉu nhiªn. NÕu xem
X 1 , X 2 ,..., X n lµ hÖ chÊt ®iÓm t¹i ®ã cã ®Æt c¸c khèi l­îng p1 , p2 ,..., pn th× kú väng chÝnh
lµ träng t©m cña hÖ chÊt ®iÓm.
2.1.2. TÝnh chÊt
 M C   C ( C lµ biÕn ngÉu nhiªn h»ng sè )
 M  CX   CM  X  ( C lµ h»ng sè)
 M  X  Y   M  X   M Y  ( X , Y lµ hai biÕn ngÉu nhiªn)
 X , Y lµ hai biÕn ngÉu nhiªn ®éc lËp nÕu luËt ph©n phèi cña X kh«ng phô thuéc
vµo luËt ph©n phèi cña Y vµ ng­îc l¹i th× M  X .Y   M  X  .M Y 
2.2. Mèt vµ trung vÞ
2.2.1. Mèt cña biÕn ngÉu nhiªn ký hiÖu Mod(X) lµ trÞ sè nhËn ®­îc cña biÕn ngÉu
nhiªn cã x¸c suÊt cùc ®¹i (®èi víi biÕn ngÉu nhiªn rêi r¹c) hay trÞ sè cã mËt ®é x¸c
xuÊt cùc ®¹i (®èi víi biÕn ngÉu nhiªn liªn tôc).
2.2.2. Trung vÞ (median) cña biÕn ngÉu nhiªn X lµ sè ký hiÖu M e sao cho:
P  X  Me   P  X  Me 

20
X¸c suÊt & Thèng kª Y häc

2.3. Ph­¬ng sai


2.3.1. §Þnh nghÜa Ph­¬ng sai (hay t¸n sè) cña biÕn ngÉu nhiªn X lµ kú väng cña b×nh
ph­¬ng ®é lÖch. KÝ hiÖu D  X  lµ ph­¬ng sai cña X th×:
2
D  X   M  X  M  X  
§é lín cña ph­¬ng sai ®Æc tr­ng cho møc ®é ph©n t¸n c¸c gi¸ trÞ cña biÕn ngÉu
nhiªn X quanh kú väng M  X  cña nã.
D  X  cµng lín th× møc ®é ph©n t¸n cµng nhiÒu.
Cô thÓ nÕu X rêi r¹c cã d·y ph©n phèi x¸c suÊt:
X x1 x2 ............................................. xn
P p1 p2 ............................................. pn
n
2
th× ta cã: D  X     xi  M  X   pi
i 1

NÕu X lµ biÕn ngÉu nhiªn liªn tôc cã hµm mËt ®é f  x  th× ta ®Þnh nghÜa

2
D X     x  M  X  f  x  dx


VÝ dô 7. TÝnh kú väng vµ ph­¬ng sai cña biÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi
x¸c suÊt:
X 1 3 5
p 0,6 0,3 0,1
Gi¶i Theo ®Þnh nghÜa ta cã:
M  X    xi pi  1 0, 6    3  0,3   5  0,1  2
i
n
2 2 2 2
D  X     xi  M  X   pi  1  2  .0, 6   3  2  .0, 3   5  2  .0,1  1,8
i 1

Do D  X  kh«ng cïng ®¬n vÞ ®o víi X nªn ng­êi ta ®­a ra kh¸i niÖm


  X   DX  gäi lµ ®é lÖch chuÈn cña X (hay ®é lÖch qu©n ph­¬ng cña
X ) ®Ó ®Æc tr­ng cho møc ®é ph©n t¸n cña X quanh kú väng cña chóng.
2.3.2 TÝnh chÊt cña ph­¬ng sai
 D C    C   0 ( C lµ biÕn ngÉu nhiªn h»ng sè )
 D  CX   C 2 D  X  ( C lµ h»ng sè)
 D  X  Y   D  X   D Y  ;   X  Y    2  X    2 Y  ( X , Y ®éc lËp)
HÖ qu¶ 1) NÕu C lµ h»ng sè th× D  C  X   D  X 
2) Ph­¬ng sai cña trung b×nh céng cña n biÕn ngÉu nhiªn ®éc lËp cã
cïng ph©n phèi bÐ h¬n n lÇn ph­¬ng sai cña mçi biÕn thµnh phÇn. Tøc lµ nÕu
X 1 , X 2 ,..., X n lµ n biÕn ngÉu nhiªn ®éc lËp cã:

21
X¸c suÊt & Thèng kª Y häc

1
D  X 1   D  X 2   ...  D  X n    2 th× biÕn ngÉu nhiªn X   X 1  X 2  ...  X n 
n
2
cã ph­¬ng sai: D X    n
.
ý nghÜa cña hÖ qu¶ 2) §Ó ®o 1 ®¹i l­îng vËt lý, ng­êi ta ®o nhiÒu lÇn ®éc lËp råi lÊy
gi¸ trÞ trung b×nh céng cña c¸c lÇn ®o lµm gi¸ trÞ cÇn ®o cña ®¹i l­îng ®ã th× sai sè sÏ
bÐ h¬n ®o 1 lÇn.
§3 Mét sè ph©n phèi x¸c suÊt th­êng gÆp trong thèng kª
3.1. Ph©n phèi nhÞ thøc
BiÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt d¹ng:
X 0 1 ......... k .......... n
n 1 n 1 k k n k
P( X  k ) q Cn . p.q ......... Cn . p .q .......... pn
Trong ®ã p  P  A víi A lµ sù kiÖn cña phÐp thö (G) p kh«ng ®æi trong mçi
lÇn thùc hiÖn (G); q =1- p .
D·y phÐp thö Bernoulli th­êng gÆp nhiÒu trong thùc tÕ. Gäi X lµ biÕn ngÉu
nhiªn chØ sè lÇn biÕn cè A xÈy ra trong n lÇn thùc hiÖn d·y phÐp thö Bernoulli, th× X cã
ph©n phèi nhÞ thøc víi hai tham sè n vµ p = P(A). Ng­êi ta ký hiÖu biÕn ngÉu nhiªn X
cã ph©n phèi nhÞ thøc víi hai tham sè n, p lµ X B (n , p ). DÔ dµng chøng minh ®­îc
r»ng nÕu X B (n , p ), th× M  X   np, D  X   npq .
3.2. Ph©n phèi Poisson
BiÕn ngÉu nhiªn rêi r¹c X cã d·y ph©n phèi x¸c suÊt d¹ng sau víi  > 0 :

X 0 1 ......... k ..........
1 k
PX  k
 
e e ......... e ..........
1! k!
®­îc gäi lµ biÕn ngÉu nhiªn cã ph©n phèi Poisson víi tham sè  . Ký hiÖu biÕn ngÉu
nhiªn X cã ph©n phèi Poisson víi tham sè  lµ X P . Ng­êi ®Çu tiªn m« t¶ ph©n
phèi nµy lµ Simeon Denis Poisson vµo n¨m 1837. Ph©n phèi nµy cã nhiÒu øng dông ®èi
víi c¸c qu¸ tr×nh cã liªn quan ®Õn sè quan s¸t ®èi víi mét ®¬n vÞ thêi gian hoÆc kh«ng
gian. Ch¼ng h¹n sè cuéc ®iÖn tho¹i nhËn ®­îc ë mét tr¹m ®iÖn tho¹i trong mét phót, sè
kh¸ch hµng ®Õn mét nhµ b¨ng ®èi víi mçi chu kú 30 phót, sè m¸y háng trong mét
ngµy,…Nãi chung lµ dßng vµo cña mét hÖ phôc vô (qu¸n bia, hiÖu c¾t tãc, hiÖu ch÷a
xe,….) lµ c¸c biÕn ngÉu nhiªn tu©n theo luËt Poisson. NÕu X P th× E(X) = D(X)=  .
3.3. Ph©n phèi chuÈn
3.3.1. §Þnh nghÜa. BiÕn ngÉu nhiªn liªn tôc X cã hµm mËt ®é ph©n phèi d¹ng:
 x   2
1  2
f  x  e 2 (1)
 2
Trong ®ã  ,  lµ c¸c h»ng sè,   0 gäi lµ c¸c tham sè cña ph©n phèi. Th× X
®­îc gäi lµ biÕn ngÉu nhiªn tu©n theo quy luËt ph©n phèi chuÈn víi hai tham sè  ,  2 .
KÝ hiÖu X N   ,  2  . §å thÞ hµm mËt ®é f  x  cña biÕn ngÉu nhiªn X cã luËt ph©n

22
X¸c suÊt & Thèng kª Y häc

phèi N(  ,  2 ) cã d¹ng h×nh chu«ng óp xuèng, ®¹t cùc ®¹i t¹i X   . Hai ®iÓm uèn cã
hoµnh ®é X     . NÕu  thay ®æi ®­êng cong dÞch theo trôc Ox , nÕu  t¨ng
®­êng cong dÑt xuèng, nÕu  gi¶m ®­êng cong nhän lªn. NÕu  = 0,  =1 th× ph©n
phèi N(0,1) gäi lµ ph©n phèi chuÈn chÝnh quy.

f  x
1
 2

1
 2 e

0     

Ng­êi ta tÝnh ®­îc M  X    , D  X    2 , M0 =  = M e


(TÝnh b»ng tÝch ph©n Euler - Poatson)

f(x) 12

 32   22  12  22
 32
Phân phối chuẩn có số trung bình
giống nhau nhưng phương sai khác
nhau

x

f(x
) Phân phối chuẩn có phương sai
giống nhau nhưng số trung bình ?
au

x
1 < 2 < 3

23
X¸c suÊt & Thèng kª Y häc

Trong thùc hµnh nÕu biÕt X cã ph©n phèi N(  ,  2 ) ta cÇn t×m:


   x   2
1 
2 2
x
p   X      f  x dx  e dx . B»ng c¸ch ®æi biÕn t  th×:
 2 

 
  t2
1       
p   X      f  x dx   2
e dt     ,
 2        

x t2
1
Trong ®ã hµm   x   e 2
dt ®­îc gäi lµ hµm Laplat. Gi¸ trÞ hµm nµy ®­îc lËp
2 
b¶ng gi¸ trÞ gäi lµ b¶ng ph©n phèi chuÈn.
Trong kÜ thuËt nhiÒu lóc cÇn tÝnh x¸c suÊt: p  X    t.  ng­êi ta chøng minh
®­îc x¸c suÊt ®ã tÝnh b»ng c«ng thøc sau:
 t 
p  X    t   2    1
 
NÕu t  3  p    3  X    3   2  3   1 = 0,9973 (1)
NÕu t  2  p    2  X    2   2  2   1 = 0,95 (2)
NÕu t    p      X       2 1  1 = 0,68 (3)
99,72%
f(x 95,44%
)
68,26%

x

Tõ (1)  NÕu X cã ph©n phèi N(  ,  2 ) th× 99,73% X nhËn gi¸ trÞ trong kho¶ng tõ
   3 ,   3  gäi lµ c«ng thøc 3  . T­¬ng tù tõ (2)  95% X nhËn gi¸ trÞ trong
kho¶ng    2 ,   2  gäi lµ c«ng thøc 2  . T­¬ng tù (3) lµ c«ng thøc  .
VÝ dô. Khi ®o lùc chÞu nÐn cña mét lo¹i xµ ®­îc s¶n xuÊt ra, ng­êi ta thÊy lùc
chÞu nÐn b×nh qu©n lµ 320 kg, sai sè qu©n ph­¬ng lµ 5 kg. Hái muèn ®¶m b¶o an toµn
th× t¶i träng ®Æt lªn nã bao nhiªu? BiÕt r»ng lùc chÞu nÐn cña xµ tu©n theo luËt chuÈn.
Theo bµi ra gäi X lµ biÕn ngÉu nhiªn chØ lùc chÞu nÐn cña xµ th× X cã ph©n phèi
N(320,5), suy ra  = 320,  =5 vËy theo c«ng thøc 3   p  X    3   0,9973
 p  305  X  335  0, 9973 . VËy muèn an toµn ph¶i ®Æt t¶i träng lªn nã  305 kg.

24
X¸c suÊt & Thèng kª Y häc

3.3.2. ChuÈn hãa biÕn ngÉu nhiªn. Nếu biến ngẫu nhiên X  N ( , 2 ), thì biến ngẫu
X 
nhiên Z  sẽ có số trung bình là 0 và phương sai là 1. Z được gọi là biến ngẫu

nhiên được chuẩn hóa

x
-3 -2 -  + +2 +3
z
VÝ dô. -3 -2 -1 0 1 2 3
Cho Z  N (0,1). Tìm xác suất để giá trị của Z
a. Nhỏ hơn –1,25
b. Nằm trong khoảng (-0,5;0,75) f(z)
c. Lớn hơn 1
F(-1,25)

Gi¶i.
-1,25 0 1,25 z
a. Tìm P(Z  -1,25) = P(Z  1,25) = F(-1,25)
FZ(-1,25) = 1 - F(1,25)
= 1 - 0,8944
= 0,1056
b.Tìm xác suất để giá trị của Z nằm trong
f(z)
khoảng (-0,5;0,75)
Tìm P(-0,5  Z  0,75) = F(0,5) + F(0,75)-1
= 0,6915 + 0,7734-1
= 0,4649

-0,5 0 0,75 z
c.Tìm xác suất để giá trị của Z  1 f(z)
Tìm P(Z  1) = 1 – F(1)
= 1 – 0,8413
= 0,1587

3.4. Ph©n phèi  2 (khi b×nh ph­¬ng) 0 1 z


NÕu k biÕn ngÉu nhiªn ®éc lËp X 1 , X 2 ,..., X n cã ph©n phèi N(0,1) th× biÕn ngÉu

25
X¸c suÊt & Thèng kª Y häc

k
nhiªn  2   X i 2 cã ph©n phèi  2 víi bËc tù do k ; hµm mËt ®é cña biÕn ngÉu nhiªn
i 1
2
 1 x k
2 2 1
 k
 k
e 2
   , khi  2 >0
 2 lµ: K   2    2 2   
  2
 0 khi  2 <0
Ta sö dông kÝ hiÖu  2 ( k ) ®Ó chØ l­îng ngÉu nhiªn cã ph©n phèi  2 cã bËc tù do k .

a 1  x
Trong ®ã:   a   x e dx , a 1
0

§å thÞ K   2
 cã d¹ng:
K  2 

1,6
k=1

0,8
k=2
k=3
0,4
k=6 2

0 1 2 3 4 5

Ng­êi ta chøng minh ®­îc M   2   k , D   2   2k


Trong thùc hµnh ng­êi ta cÇn tÝnh  2 ®Ó p   2   2    . Víi k kh¸c nhau. X¸c
suÊt nµy lµ phÇn diÖn tÝch g¹ch g¹ch h×nh vÏ.

K(x2)

2
2
 

26
X¸c suÊt & Thèng kª Y häc

Sè  2 nh­ thÕ ®· t×m ®­îc nhê b¶ng  2 n»m ë dßng ®é tù do k , cét  .


Chó ý NÕu cã m biÕn ngÉu nhiªn X 1 , X 2 ,..., X m ®éc lËp mµ mçi biÕn ngÉu nhiªn X i cã ph©n
m
phèi  2  ki  , i  1, 2,..., m th× biÕn ngÉu nhiªn Y   X i cã ph©n phèi  2 víi bËc tù do
i 1
m
k   ki . Khi k   th× biÕn ngÉu nhiªn
i 1
2  2 cã ph©n phèi tiÖm cËn N  
2k  1,1 .

Trong thùc tÕ khi k >30 viÖc tÝnh to¸n  2 víi bËc tù do k ®­îc thay thÕ cho biÕn ngÉu nhiªn
2 2 .
3.5. Ph©n phèi Student (T)
Cho 2 biÕn ngÉu nhiªn ®éc lËp X , Y . Trong ®ã biÕn ngÉu nhiªn X cã ph©n phèi
N(0,1), Y cã ph©n phèi  2 ( k ) th× biÕn ngÉu nhiªn:
X
T cã ph©n phèi Student víi bËc tù do k . Hµm mËt ®é cña biÕn ngÉu nhiªn T lµ:
Y
k
 k 1  k 1
   t 2  2
2 
S t    1  
k  2
k  
 2

a 1  x
Trong ®ã   a   x e dx , a  1 , gäi lµ hµm Gama.
0

S  t  lµ hµm ch½n theo t nªn ph©n phèi T lµ ph©n phèi ®èi xøng. Ph©n phèi T phô thuéc vµo
bËc tù do k , mçi k cho ta mét ®­êng cong S  t  kh¸c nhau. H×nh vÏ:
C¸c ®Æc tr­ng:
M  T   0 khi k >1

Phân phối chuẩn chuẩn hóa


Phân phối t (20 độ tự do)

Phân phối t (10 độ tự do)

z, t
0
k
D T   khi k >2. NÕu k  1 kh«ng cã M(T). NÕu k  2 kh«ng cã D(T). Trong thùc hµnh
k 2
t  k 
  2

ng­êi ta cÇn t×m sè t  k  ®Ó: p  t  k   T  t  k    2  S  t  dt  1   víi


2  2 2  0

27
X¸c suÊt & Thèng kª Y häc

α/2 α/2

-tα/2(k) 0 tα/2(k) t

 = 0,05; 0,01; …th­êng lµ cho tr­íc. X¸c suÊt nµy lµ phÇn diÖn tÝch kh«ng t« ë h×nh vÏ trªn.

Sè t  k  ®ã t×m ®­îc tõ b¶ng gi¸ trÞ t  k  , (dßng k cét ). Cã khi yªu cÇu t×m ng­îc l¹i.
2 2
2
VÝ dô. T×m x¸c suÊt t­¬ng øng khi biÕt t  5  =2,015 hai phÝa.

5% 5%

-2,015 0 2,015
2,015

p  2, 015  T  2, 015  2  S  t  dt  1   . Tra b¶ng gi¸ trÞ T ( 2 ), sè 2,015 n»m ë dßng 5
k
0


cét 0,05, nªn suy ra = 0, 05 Þ  = 0,1 nªn ta cã p  2, 015  T  2, 015   0,90 .
2

Cã khi cÇn t×m p  T  t  k     , sè t  k  nµy còng tra ë b¶ng gi¸ trÞ Tk( )
2
(dßng k cét  )..
Chó ý. NÕu k >30 ph©n phèi T xÊp xØ ph©n phối N(0,1).
x
§Þnh lý. NÕu X cã ph©n phèi N   ,  2  th× T   n cã ph©n phèi T bËc tù do
s
n - 1, ( n lµ cì mÉu).
3.6. Ph©n phèi Fis¬ (F)
NÕu cã hai biÕn ngÉu nhiªn ®éc lËp X 1 , X 2 mµ ph©n phèi  2 víi bËc tù do k1 , k2 th×
k X
biÕn ngÉu nhiªn F  2 1 cã ph©n phèi Fis¬ víi k1 , k2 bËc tù do.
k1 X 2
Hµm mËt ®é cã d¹ng:
k1

 k  k  k  2
  1 2   1  k1 2  k k 
 1 2 
 2   k2   k   2 
 t   t 2 1  1 t 
k  k   k2 
 1  2 
2  2
Víi t  0 th× ®å thÞ   t  cã d¹ng:

28
X¸c suÊt & Thèng kª Y häc

 t 

k1  8
C¸c ®Æc tr­ng: 0,7 
k  k2  0
M F   2 , k2  2 0,5
k2  2
k1  8
2k 2 2  k1  k 2  2  
DF  2
, k2  4  k2  2
k1  k2  2   k2  4  t
NÕu k2  2 kh«ng cã M  F  0 0,5
NÕu k  2 kh«ng cã D  F 

Trong thùc hµnh cÇn t×m sè F ®Ó p  F  F      f df   cho tr­íc. Sè F nh­ vËy tra
F

b¶ng ph©n phèi F .

 t 

§Þnh lý Gi¶ sö cã 2 mÉu  x , x ,..., x 


1 2 n1 lÊy tõ c¸c gi¸ trÞ cña biÕn ngÉu nhiªn X, vµ
s 12
 y , y ,..., y  lÊy tõ c¸c gi¸ trÞ cña biÕn ngÉu nhiªn Y, th× biÕn ngÉu nhiªn
1 2 n2
s2 2
cã ph©n phèi

F víi bËc tù do  n1  1 ,  n2  1 .
1 n1 2 1 n2 2
Trong ®ã s 12  
n1  1 i 1
xi  x 
; s  2
2  

n2  1 i 1
yi  y .  
§Þnh lý nµy ta c«ng nhËn ®Ó sö dông v× lý do s­ ph¹m mµ kh«ng tr×nh bµy chøng minh.

§4 c¸c ®Þnh lý giíi h¹n


Trong phÇn nµy chóng ta xÐt mét sè ®Þnh lý liªn quan tíi giíi h¹n theo x¸c suÊt
cña d·y c¸c biÕn ngÉu nhiªn ®éc lËp.
4.1. §Þnh lý giíi h¹n ®Þa ph­¬ng Moavr¬-Laplat.
NÕu trong mçi phÐp thö ®éc lËp, sù kiÖn A xuÊt hiÖn víi x¸c suÊt p vµ kh«ng xuÊt
hiÖn víi x¸c suÊt q = 1-p, khi sè phÐp thö n t¨ng lªn v« h¹n ta cã :
 1  k  np  
lim  Pn  k      0 .
n 
 npq  npq  

29
X¸c suÊt & Thèng kª Y häc

2
1 2x
Trong ®ã   x   e lµ hµm Gauss. Gi¸ trÞ cña hµm nµy ®· lËp b¶ng s½n.
2
ý nghÜa cña ®Þnh lý nµy lµ ë chæ: Khi sè phÐp thö n kh¸ lín chóng ta cã thÓ thay c«ng
thøc Bernoulli b»ng c«ng thøc gÇn ®óng sau ®©y
1  k  np 
Pn  k   Cnk pk qn  k   .
npq  npq 
VÝ dô 9. X¸c suÊt ®Ó m«t c©y chÕt khi trång lµ p = 0,2. TÝnh x¸c suÊt khi trång 400
c©y cã ®óng 80 c©y chÕt.
Ta ph¶i tÝnh P400 80  ? NÕu dïng c«ng thøc Bernoulli th× ph¶i tÝnh
80 80 320
P400  80   C400  0, 2   0,8 
rÊt phøc t¹p. ë ®©y n=400 kh¸ lín nªn chóng ta sö dông
c«ng thøc giíi h¹n trªn ta cã:
80 80 320 1  80  400.0, 2  1
P400  80   C400  0, 2   0,8        0
400  0, 2  0,8  400  0, 2  0,8  8
Tra b¶ng ta cã   0   0, 3989  P400 80   0, 0498 .
4.2. §Þnh lý giíi h¹n tÝch ph©n
NÕu trong mçi phÐp thö ®éc lËp, sù kiÖn A xuÊt hiÖn víi x¸c suÊt p vµ kh«ng xuÊt
hiÖn víi x¸c suÊt q = 1-p, th× khi sè phÐp thö n t¨ng lªn v« h¹n ta cã :
   k  np   k1  np   
lim  Pn  k1 , k2      2         0 ,
n 
  npq npq
      
x t 2
1
Trong ®ã   x   e 2
dt lµ hµm Laplat. GÝa trÞ cña hµm sè nµy ®· ®­îc lËp b¶ng
2 
s½n ë cuèi s¸ch x¸c suÊt & th«ng kª. VËy ý nghÜa cña ®Þnh lý nµy lµ ë chæ, khi tÝnh x¸c
suÊt b»ng c«ng thøc thø hai Bernoulli mµ n kh¸ lín rÊt phøc t¹p. v× thÕ ta cã thÓ tÝnh
gÇn ®óng b»ng c«ng thøc sau:
 k  np   k1  np 
Pn  k1 , k2     2    
 npq   npq 
VÝ dô 10. X¸c suÊt ®Ó m«t c©y chÕt khi trång lµ p = 0,2. TÝnh x¸c suÊt khi trång 400
c©y cã tõ 70 ®Õn 100 c©y chÕt.
Ta cã x¸c suÊt cÇn tÝnh theo c«ng thøc Bernolli lµ
100 100
k k 400 k
P400  70,100    P400  k    C  0, 2   0,8
400
k  70 k  70

Nãi chung phøc t¹p. ¸p dông c«ng thøc giíi h¹n trªn ta cã
100
k k  100  400  0, 2 
400  k  70  400  0, 2 
P400  70,100    C  0, 2  0,8
400     
k  70  400  0, 2  0,8   400  0, 2  0,8 
   2, 5     1, 25    2,5   1   1, 25  
Tra b¶ng cã   2, 5   0, 9938;  1, 25   0,8944 . ThÕ vµo cã kÕt qu¶
P400  70,100   0,8882 .

30
X¸c suÊt & Thèng kª Y häc

4.3. §Þnh lý giíi h¹n Poat x«ng


NÕu trong mçi phÐp thö ®éc lËp, sù kiÖn A xuÊt hiÖn víi x¸c suÊt p vµ kh«ng
xuÊt hiÖn víi x¸c suÊt q = 1-p, th× khi sè phÐp thö n t¨ng lªn v« h¹n ®ång thêi p dÇn
tíi 0 sao cho np   kh«ng ®æi th× ta cã:
k
   
lim Pn  k   e .   0, k  0,1,... .
n   k! 

ý nghÜa cña ®Þnh lý lµ khi tÝnh x¸c suÊt b»ng c«ng thøc thø hai Bernoulli mµ n kh¸ lín,
p kh¸ bÐ rÊt phøc t¹p, v× thÕ ta cã thÓ tÝnh gÇn ®óng b»ng c«ng thøc
k
Pn  k   e  . ,   np.
k!
VÝ dô 11. Sau khi tiªm phßng, x¸c suÊt m¾c l¹i bÖnh ®ã lµ p = 0,001. T×m x¸c suÊt ®Ó
trong 2000 ng­êi ®­îc tiªm phßng cã 4 ng­êi m¾c l¹i bÖnh ®ã.
Chóng ta h×nh dung phÐp thö (G) lµ quan s¸t mét ng­êi ®· tiªm phßng cã m¾c l¹i
bÖnh ®ã kh«ng? Gäi A lµ biÕn cè ng­êi ®ã m¾c l¹i bÖnh ®ã th× P(A)= 0,001. LÆp l¹i
(G) n = 2000 lÇn, t×m P2000  4  . Do p kh¸ bÐ, n lín nªn ta xÊp xØ theo quy t¾c (®Þnh lý
24
giíi h¹n Poatx«ng) ta cã   np  2, P2000  4   e2  0,1.
4!
4.4. §Þnh lý giíi h¹n trung t©m
Nh­ chóng ta ®· biÕt: Tæng cña n biÕn ngÉu nhiªn ®éc lËp cã cïng ph©n phèi chuÈn
lµ mét biÕn ngÉu nhiªn cã qui luËt chuÈn. Tæng cña n biÕn ngÉu nhiªn ®éc lËp cã cïng
qui luËt nhÞ thøc lµ mét biÕn ngÉu nhiªn cã qui luËt xÊp xØ víi qui luËt chuÈn.
Mét c¸ch tæng qu¸t ta cã ®Þnh lý:
Dï c¸c biÕn ngÉu nhiªn ®éc lËp X 1, X 2 ,..., X n cã ph©n phèi nh­ thÕ nµo ®i n÷a th×
víi mét sè ®iÒu kiÖn kh¸ réng r·i biÕn ngÉu nhiªn tæng Yn  X 1  X 2  ...  X n víi n kh¸
n n
lín sÏ cã ph©n phèi tiÖm cËn chuÈn N   , 2  , víi    M  X i ,  2   D  X i .
i 1 i 1

§5 §¹i l­îng ngÉu nhiªn nhiÒu chiÒu


5.1. Kh¸i niÖm ®¹i l­îng ngÉu nhiªn hai chiÒu
ë phÇn trªn chóng ta ®· xÐt c¸c ®¹i l­îng ngÉu nhiªn mµ c¸c gi¸ trÞ cã thÓ nhËn
®­îc cña nã lµ mét sè. C¸c ®¹i l­îng nh­ thÕ gäi lµ c¸c ®¹i l­îng ngÉu nhiªn mét
chiÒu. Ngoµi nh÷ng ®¹i l­îng ngÉu nhiªn mét chiÒu, trong thùc tÕ ta cßn gÆp nh÷ng
®¹i l­îng ngÉu nhiªn mµ c¸c gi¸ trÞ cã thÓ cã cña nã ®­îc x¸c ®Þnh b»ng 2, 3,…, n sè
thùc. C¸c ®¹i l­îng nµy ®­îc gäi t­¬ng øng lµ c¸c ®¹i l­îng ngÉu nhiªn 2, 3,…, n
chiÒu. Chóng ta ký hiÖu ®¹i l­îng ngÉu nhiªn 2 chiÒu b»ng cÆp (X,Y), trong ®ã X, Y
®­îc gäi lµ c¸c thµnh phÇn cña ®¹i l­îng ngÉu nhiªn hai chiÒu. X, Y ®­îc xÐt mét c¸ch
®ång thêi t¹o nªn hÖ ®¹i l­îng ngÉu nhiªn. T­¬ng tù nh­ thÕ th× mét ®¹i l­îng ngÉu
nhiªn n-chiÒu ®­îc xem nh­ mét hÖ n-®¹i l­îng nhÉu nhiªn mét chiÒu.
VÝ dô 12. Khi nghiªn cøu thÓ lùc ng­êi ta th­êng quan s¸t ®ång thêi c¶ chiÒu cao X
vµ träng l­îng Y, nh­ vËy ta cã ®¹i l­îng ngÉu nhiªn 2 chiÒu (X, Y), nÕu ta quan t©m
c¶ vßng ngùc Z th× ta cã ®¹i l­îng ngÉu nhiªn 3 chiÒu (X,Y,Z). Trong thùc tÕ ng­êi ta
còng chia ®¹i l­îng ngÉu nhiªn nhiÒu chiÒu thµnh 2 lo¹i: rêi r¹c vµ liªn tôc.

31
X¸c suÊt & Thèng kª Y häc

+ §¹i l­îng ngÉu nhiªn nhiÒu chiÒu gäi lµ rêi r¹c nÕu c¸c gi¸ trÞ nhËn ®­îc cña nã lµ
h÷u h¹n hoÆc v« h¹n ®Õm ®­îc.
+ C¸c ®¹i l­îng ngÉu nhiªn nhiÒu chiÒu ®­îc gäi lµ liªn tôc nÕu c¸c thµnh phÇn cña nã
lµ c¸c ®¹i l­îng ngÉu nhiªn liªn tôc.
5.2. Quy luËt ph©n phèi x¸c suÊt cña ®¹i l­îng ngÉu nhiªn 2 chiÒu
§èi víi c¸c ®¹i l­îng ngÉu nhiªn 2 chiÒu ng­êi ta còng dïng b¶ng ph©n phèi x¸c
suÊt, hµm ph©n phèi x¸c suÊt hµm mËt ®é x¸c su©t ®Ó thiÕt lËp quy luËt ph©n phèi cña
chóng.
5.2.1. B¶ng ph©n phèi x¸c suÊt cña ®¹i l­îng ngÉu nhiªn 2 chiÒu (X,Y) rêi r¹c cã d¹ng:

Y y1 y2 … yj … ym
X
x1 P  x1 , y1  P  x1 , y2  … P  x1 , y j  … P  x1 , ym 
x2 P  x2 , y1  P  x2 , y2  … P  x2 , y j  … P  x2 , ym 
. . . . .
. . . … . … .
. . . . .
xi P  xi , y1  P  xi , y2  … P  xi , y j  … P  xi , ym 
. . . . .
. . . … . … .
. . . . .
xn P  xn , y1  P  xn , y2  … P  xn , y j  … P  xn , ym 

Trong ®ã xi  i  1, 2,..., n  lµ c¸c gi¸ trÞ cã thÓ cã cña X; y j  j  1, 2,..., m  lµ c¸c gi¸ trÞ
cã thÓ cã cña Y; P  xi , y j  lµ x¸c suÊt ®Ó ®¹i l­îng ngÉu nhiªn 2 chiÒu (X, Y) nhËn
n m
gi¸ trÞ  xi , y j  , vµ ta cã  P  x , y   1 .
i j
i 1 j 1

BiÕt ®­îc quy luËt ph©n phèi x¸c suÈt cña ®¹i l­îng ngÉu nhiªn 2 chiÒu, bao giê còng
t×m ®­îc b¶ng ph©n phèi x¸c suÊt cña mçi biÕn thµnh phÇn.
5.2.2. Hµm ph©n phèi x¸c suÊt cña ®¹i l­îng ngÉu nhiªn 2 chiÒu (X, Y) ký hiÖu lµ
F  x, y  ®­îc x¸c ®Þnh nh­ sau. F  x, y   P  X  x, Y  y  .
5.2.3. Hµm mËt ®é x¸c suÊt cña ®¹i l­îng ngÉu nhiªn 2 chiÒu liªn tôc (X,Y) cã hµm
 2 F  x, y 
ph©n phèi x¸c suÊt F  x, y  lµ f  x, y   .
xy
VÒ mÆt h×nh häc, ®å thÞ hµm mËt ®é f  x, y  cã thÓ xem nh­ mét mÆt cong ®­îc gäi
lµ mÆt ph©n phèi x¸c suÊt.

32
X¸c suÊt & Thèng kª Y häc

5.3. §Æc tr­ng cña ®¹i l­îng ngÉu nhiªn nhiÒu chiÒu
5.3.1. Kú väng, covarian, ma trËn moment
Cho ®¹i l­îng ngÉu nhiªn n chiÒu X = (X 1, X 2, ..., X n ). Kú väng cña ®¹i l­îng
ngÉu nhiªn X lµ E (X ) = (E (X 1 ), E (X 2 ),..., E (X n )).
Covarian cña cÆp ®¹i l­îng ngÉu nhiªn (X i , X j ) lµ
Cov (X i , X j ) = E {(X i
- EX i )(X j - EX j ) }
§Ó ®¬n gi¶n ta ký hiÖu Cov (X i , X j ) = ij . Suy ra ij = ji , ii = DX i .
Ma trËn moment cña ®¹i l­îng ngÉu nhiªn n chiÒu X = (X 1, X 2, ..., X n ) ký hiÖu vµ
tÝnh b»ng c«ng thøc:
æ ö
çç 11 12 ... 1n ÷÷
çç ÷
÷
ç  ... 2n ÷
L = (ij ) = çç 21 22 ÷
÷
n´ n ÷
çç ... ... ... ... ÷
çç ÷
÷
çè n 1 n 2 ... nn ø÷
÷
Ta nhËn thÊy r»ng ma trËn moment L lµ ma trËn ®èi xøng, h¬n n÷a ma trËn moment
L x¸c ®Þnh kh«ng ©m hoÆc c¸c ®Þnh thøc con chÝnh kh«ng ©m vµ det (L ) ³ 0.
5.3.2. HÖ sè t­¬ng quan
§Ó thuËn lîi cho ng­êi ®äc tr­íc hÕt ta xÐt tr­êng hîp 2-chiÒu X = (X 1, X 2 ). HÖ sè
t­¬ng quan gi÷a hai biÕn ngÉu nhiªn X 1 vµ X 2 ®­îc ®Þnh nghÜa nh­ sau:

=
E {(X 1
- EX 1 )(X 2 - EX 2 ) }= 12
=
12
.
DX 1 ´ DX 2 11 . 22  1 2
Trong tr­êng hîp hai chiÒu ma trËn moment L cã d¹ng
æ ö æ 2
 1 2 ö÷
çç 11 12 ÷ ÷ çç  1 ÷
L= ç ÷ = ç ÷.
çè21 22 ø÷
÷ çèç 1 2  22 ø÷ ÷

V× det (L ) ³ 0 , nªn  12 22 (1 -  2 ) ³ 0 . Tõ ®ã suy ra - 1 £  £ 1. Ta c«ng nhËn kÕt


luËn sau ®©y: HÖ sè t­¬ng quan lµ sè ®o møc ®é phô thuéc tuyÕn tÝnh gi÷a hai biÕn
ngÉu nhiªn. NÕu  cµng gÇn 1 th× møc ®é phô thuéc tuyÕn tÝnh gi÷a chóng cµng chÆt,
khi ®ã nÕu  > 0 th× sù phô thuéc gi÷a hai biÕn lµ thuËn, nÕu tr¸i l¹i lµ nghÞch.
NÕu  = 1 th× x¸c suÊt P {X 1 = aX 2 + b}= 1. Tøc lµ X 1 vµ X 2 lµ t­¬ng quan
tuyÕn tÝnh víi nhau.
NÕu  cµng gÇn 0 th× møc ®é phô thuéc tuyÕn tÝnh gi÷a chóng cµng yÕu.
NÕu  = 0 ta nãi hai biÕn ngÉu nhiªn kh«ng t­¬ng quan tuyÕn tÝnh.
Râ rµng nÕu hai biÕn ngÉu nhiªn ®éc lËp th× chóng kh«ng t­¬ng quan. Nh­ng ®iÒu
ng­îc l¹i th× kh«ng ®óng.

33
X¸c suÊt & Thèng kª Y häc

Ma trËn t­¬ng quan ký hiÖu lµ ij lµ hÖ sè t­¬ng quan gi÷a X i vµ X j , ta cã ma trËn


t­¬ng quan sau
æ1  ... 1n ö÷
çç 12 ÷
çç ÷
÷
ç 1 ...  2n ÷
P = (ij ) = çç 21 ÷
n´ n
çç ... ÷.
÷
... ... ... ÷
÷
÷
çç
çè n 1 n 2 ... 1 ø÷
÷
Trë l¹i tr­êng hîp hai chiÒu
æ1  ö÷
P = ççç ÷
÷.
çè 1 ø÷
÷
Ta rót ra c«ng thøc: L = å P å (*)
æ 0 ö÷
Trong ®ã å = ççç 1 ÷
÷
÷
. C«ng thøc (*) vÉn ®óng cho tr­êng hîp ®¹i l­îng ngÉu nhiªn
çè 0  2 ø÷
n- chiÒu.

Bµi tËp ch­¬ng 2


1. Cho 2 biÕn ngÉu nhiªn X vµ Y ®éc lËp víi c¸c ph©n phèi x¸c suÊt nh­ sau:
X -1 0 1 2 Y -1 0 1
P 0,2 0,3 0,3 0,2 P 0,3 0,4 0,3
2
LËp b¶ng ph©n phèi x¸c suÊt cña X , X+Y, 2Y, X-3Y, vµ XY
2. Gäi X lµ chØ sè ®o ®é th«ng minh IQ (Intelligent Quota) cña sinh viªn. Gi¶
sö X lµ biÕn ngÉu nhiªn cã ph©n phèi N(165;25).
a) Kh¶ n¨ng chän ®­îc mét sinh viªn rÊt th«ng minh (X ³ 170) lµ bao nhiªu?
b) Trong mét líp cã 60 sinh viªn, vÒ trung b×nh cã mÊy sinh viªn rÊt th«ng
minh?
c) T×m x¸c suÊt ®Ó trong mét líp 60 sinh viªn cã 5 sinh viªn rÊt th«ng minh.
3. Träng l­îng X(gam) cña mét lo¹i tr¸i c©y cã ph©n phèi chuÈn
N (m = 500, s 2 = 16) tr¸i c©y thu ho¹ch ®­îc ph©n lo¹i theo träng l­îng: Lo¹i I: Trªn
505 gam. Lo¹i II: tõ 495 gam ®Õn 505 gam. Lo¹i III: D­íi 495 gam. TÝnh tû lÖ mçi
lo¹i?
4. Gäi X vµ Y lµ chiÒu cao cña c¸c em løa tuæi 14 ë thµnh thÞ vµ n«ng th«n
t­¬ng øng (®¬n vÞ ®o lµ cm). Gi¶ sö X cã ph©n phèi N(145; 9) vµ Y cã ph©n phèi
N(145; 25).
a. Tõ c¸c gi¶ thiÕt trªn cho biÕt chiÒu cao trung b×nh ë thµnh thÞ vµ n«ng th«n? Tham
sè thø hai trong mçi ph©n phèi nãi lªn ®iÒu g×?
b. TÝnh P 139  X  151 ; P 139  Y  151 ; P 135  Y  155  ?
c. Tõ kÕt qu¶ cña c©u b, cã nhËn xÐt g× vÒ sù tËp trung (ph©n t¸n) cña X, Y vµ nªu ý
nghÜa thùc tiÔn cña nhËn xÐt ®ã ?
d. Tõ mçi vïng ta chän ra ngÉu nhiªn 100 em. Trong sè chän ra cña mçi vïng cã

34
X¸c suÊt & Thèng kª Y häc

bao nhiªu em cao tõ 140cm ®Õn 150cm lµ cã kh¶ n¨ng cao nhÊt. ChØ ra c¸c kh¶ n¨ng
cao nhÊt ®ã.
  
5. BiÕn ngÉu nhiªn X nhËn gi¸ trÞ tËp trung trong   ;  víi hµm mËt ®é cã
 2 2
d¹ng f(x)= a.cosx.
a. X¸c ®Þnh h»ng sè a?
b. ViÕt biÓu thøc hµm ph©n phèi cña X
 
c. T×m P  0  X   ?
 4
 
d. NÕu quan s¸t X 10 lÇn th× cã bao nhiªu lÇn X nhËn gi¸ trÞ trong  0;  lµ cã kh¶
 4
n¨ng nhÊt. TÝnh x¸c suÊt ®ã?
6. Trong mét c¸i b¸t cã ®Ó 5 h¹t ®Ëu trong ®ã cã 2 h¹t ®á. LÊy ngÉu nhiªn ra 2
h¹t. Gäi X lµ sè h¹t ®Ëu ®á ®­îc lÊy ra.
a. LËp b¶ng ph©n phèi cña X.
b. ViÕt biÓu thøc hµm ph©n phèi cña X
c. TÝnh M(X); D(X); P  0  X  2 
7. C¸c l­îng ngÉu nhiªn X, Y ®éc lËp vµ cã ph©n phèi chuÈn víi M(X) = 2,
D(X) = 4, M(Y) = -3, D(Y) = 9. H·y viÕt hµm mËt ®é ph©n phèi cña biÕn ngÉu
nhiªn X+Y.
8. Mét hép cã 1 bi tr¾ng vµ 4 bi ®á. Rót hó ho¹ 2 bi tõ hép ®ã ra vµ bá vµo
mét hép kh¸c cã s¼n 4 bi tr¾ng. X¸o ®Òu råi lÊy ra ba bi bá vµo hép ®Çu. Gäi X, Y lµ
hai biÕn ngÉu nhiªn chØ sè bi tr¾ng trong hép ®Çu vµ hép 2 khi chuyÓn xong bi.
a. LËp d·y ph©n phèi x¸c suÊt cña X vµ Y.
b. T×m mèi quan hÖ gi÷a X vµ Y.
9. Cho biÕn ngÉu nhiªn X cã d·y ph©n phèi x¸c suÊt lµ
X -1 0 3 0 -1 -1 3
P 0,2 a 0,14 0,1 0,23 0,08 0,21
a. H·y t×m gi¸ trÞ cña a ? Vµ viÕt l¹i luËt ph©n phèi sao cho dßng thø nhÊt tÊt c¶
c¸c sè liÖu ®Òu kh¸c nhau.
b. T×m hµm ph©n phèi F(x) cña X vµ vÏ ®å thÞ cña hµm ph©n phèi.
c. ViÕt c¸c sù kiÖn 5  X  1, X  0 qua tæng c¸c sù kiÖn X = 0, X = 3, X = -1
10. Cho hµm f  x   a.e x , a lµ h»ng sè.
a. X¸c ®Þnh h»ng sè a ®Ó f  x  lµ hµm mËt ®é cña mét biÕn ngÉu nhiªn X nµo ®ã.
b. T×m hµm ph©n phèi F(x) cña X.
c. T×m hµm ph©n phèi vµ hµm mËt ®é cña biÕn ngÉu nhiªn Y= X2.
11. Cho hai biÕn ngÉu nhiªn X, Y ®éc lËp. Gi¶ sö X N (2; 0, 09) vµ Y cã
1
ph©n phèi mò víi tham sè  =
5
ìï e - x , x ³ 0,
(Tøc lµ hµm mËt ®é cña Y lµ f (x ) = ïí ) , T×m:
ïï 0, x < 0.
î

35
X¸c suÊt & Thèng kª Y häc

a. E(-3X+2Y-5).
b. D(-3X+2Y-5).
c. E(2X2-3Y2 + 2XY -3Y +2X -3).
12. Gieo con xóc x¾c c©n ®èi vµ ®ång chÊt 12000 lÇn. T×m x¸c suÊt ®Ó cho sè
lÇn xuÊt hiÖn mÆt lôc ë phÝa trªn con xóc x¾c gåm gi÷a 1900 vµ 2150.
13. Mét ng­êi nu«i thá xuÊt chuång 10 con ®em b¸n, trong ®ã cã 6 thá c¸i vµ
4 thá ®ùc. Mét nhµ hµng muèn mua 4 con. Ng­êi mua ®· b¾t ngÉu nhiªn ra 4 con
(b¾t cïng lóc). Gäi X lµ sè thá ®ùc trong 4 con b¾t ra.
a. LËp b¶ng ph©n phèi x¸c suÊt cña X.
b. T×m mod(X), EX, DX, P(1<X<=3,2).
c. ViÕt biÓu thøc hµm ph©n phèi cña X.
14. Mét c«ng ty taxi cã 10 chiÕc xe taxi. BiÕt r»ng yªu cÇu thuª xe trong mét
giê lµ biÕn ngÉu nhiªn X tu©n theo luËt ph©n phèi Poisson víi  = 5 ,
(cho biÕt e-5=0,00674). Gäi Y lµ sè xe ®­îc thuª trong mét giê.
a. LËp b¶ng ph©n phèi x¸c suÊt cña Y.
b. T×m mod(X), Mod(Y), EY, DY.
c. T×m kh¶ n¨ng c«ng ty kh«ng ®¸p øng nhu cÇu cña kh¸ch.
d. Muèn gi¶m kh¶ n¨ng kh«ng ®¸p øng yªu cÇu cña kh¸ch xuèng d­íi 1% th×
cÇn bæ sung thªm mÊy xe n÷a.

36
X¸c suÊt & Thèng kª Y häc

PhÇn II thèng kª to¸n häc

Thèng kª to¸n häc lµ bé m«n To¸n häc nghiªn cøu quy luËt cña c¸c hiÖn t­îng
ngÉu nhiªn cã tÝnh sè lín trªn c¬ së thu thËp vµ xö lý c¸c sè liÖu thèng kª, c¸c kÕt qu¶
quan s¸t. Néi dung chñ yÕu cña thèng kª To¸n häc lµ x©y dùng c¸c ph­¬ng ph¸p thu
thËp vµ xö lý c¸c sè liÖu thèng kª nh»m rót ra c¸c kÕt luËn khoa häc vµ thùc tiÔn.
C¸c ph­¬ng ph¸p thèng kª To¸n häc lµ c«ng cô gi¶i quyÕt nhiÒu vÊn ®Ò khoa häc
vµ th­c tiÔn nảy sinh trong c¸c lÜnh vùc kh¸c nhau cña Tù nhiên vµ Kinh tÕ - X· héi.
Nội dung phần này trình bày tất cả các kiến thức chủ yếu về thống kê toán học áp
dụng vào Y-Sinh học, đó là: Lý thuyết mẫu, Lý thuyết ước lượng, kiểm định giả thuyết
thống kê, phân tích phương sai và lý thuyết tương quan và hồi quy. Ngoài ra trong
phần này chúng tôi cũng trình bày thêm công cụ so sánh mức độ liên quan của hai đại
lượng định tính và hướng dẫn việc ứng dụng tin học vào thực hành. Trong phần thực
hành, chủ yếu giáo viên hướng dẫn sinh viên biết giải bài toán và biết sử dụng phần
mềm R hoặc các phầm mềm tương đương khác vào trong tính toán thực hành, giúp
sinh viên biết cách nghiên cứu khoa học sau này. Tuy nhiên là một học phần nằm
trong chương trình đào tạo, nên học xong sinh viên cũng phải thi hết học phần. Để
thuận lợi cho sinh viên thi hết học phần, chúng tôi cũng hướng dẫn thêm cách sử dụng
máy tính điện tử cầm tay trong tính toán thực hành.

Ch­¬ng 3 mÉu vµ c¸c c¸ch biÓu diÔn mÉu


Nội dung chương này nhằm trình bày các khái niệm tổng thể (trong Y học còn
được gọi là dân số) và mẫu. Nêu các yêu cầu cơ bản về một mẫu nghiên cứu; mẫu
ngẫu nhiên và mẫu thực nghiệm; phương pháp chọn mẫu. Sau đó trình bày các phương
pháp biểu diễn các mẫu định lượng; ý nghĩa của biểu diễn hình học mẫu; hàm phân
phối thực nghiệm.
§1 TËp hîp chÝnh (tæng thÓ, DÂN SỐ) vµ mÉu
1.1. Tổng thể và mẫu
Để nghiên cứu một hay nhiều tính chất nào đó của một tập hợp nhiều đối tượng,
người ta không thể mang hết tất cả các đối tượng của tập hợp ra để nghiên cứu (vì
rằng: Số lượng các đối tượng của tập hợp quá lớn, hoặc có thể hư hỏng sau khi nghiên
cứu). Vì thế người ta tìm cách lấy ra một số đối tượng của tập hợp để nghiên cứu, rồi
từ đó dùng thống kê toán học để kết luận về các tính chất cần thiết của tất cả các đối
tượng của tập hợp ban đầu.
+ Tập hợp các đối tượng ban đầu gọi là tổng thể (hay dân số). Tập hợp các đối
tượng được lấy ra nghiên cứu gọi là mẫu.
+ Số lượng các đối tượng của mẫu gọi là cỡ mẫu, hay dung lượng mẫu.
+ Bằng một phương pháp có thể lấy ra nhiều mẫu khác nhau cùng cỡ từ một tập
hợp chính. Tập hợp các mẫu cùng cỡ có thể lấy ra được bằng một phương pháp từ một
tập hợp chính, được gọi là không gian mẫu. Mỗi mẫu xem là một điểm của không gian
mẫu.
1.2. Các phương pháp chọn mẫu
Trước hết chúng ta phải lưu ý rằng các phương pháp chọn mẫu khác với các
phương pháp thu thập số liệu (thu thập dữ liệu sơ cấp). Chẳng hạn một phương pháp

37
X¸c suÊt & Thèng kª Y häc

thu thập số liệu là quan sát (observation) là ghi lại có kiểm soát các sự kiện hoặc các
hành vi ứng xử của con người, hoặc các dấu hiệu cần nghiên cứu nào đó trên khách thể
nghiên cứu. Còn việc chọn mẫu là làm thế nào chọn được khách quan các khách thể
nghiên cứu đó để thu thập các số liệu trên khách thể đó, mà cuối cùng các số liệu (mẫu
thực nghiệm) thu thập được đại diện cho dân số mà chúng ta đang tìm cách nghiên cứu
các thông tin trên nó. Vì vậy:
+ Để các kết quả nghiên cứu trên mẫu suy ra được đúng đắn cho toàn bộ dân số,
thì yêu cầu mẫu thu được phải bảo đảm tính đại diện cao và chất lượng tốt.
+ Để nâng cao tính đại diện cho mẫu, thì mẫu phải đảm bảo tính ngẫu nhiên
(khách quan).
+ Để đảm bảo chất lượng mẫu tốt thì chúng ta phải tuân thủ:
i) Các dụng cụ đo lường phải chính xác, tốt, và hiện đại.
ii) Tôn trọng các nguyên tắc chuyên môn như: Động tác, thời gian, liều
dùng, địa điểm, hoàn cảnh, thời tiết, chuẩn bị đối tượng chu đáo.
iii) Quy định thống nhất cách ghi đơn vị cho một số liệu.
Ví dụ 1. Đo vòng ngực, vòng đầu, chiều cao phải ghi từ 0,5 cm. Cân nặng phải ghi từ
100 gam. Nhiệt độ phải ghi từ 0,10 C vv…
Do những yêu cầu trên nên người ta thường dùng 4 cách chọn mẫu chủ yếu
sau đây.
1.2.1. Chọn mẫu ngẫu nhiên
Có hai phương pháp chọn mẫu ngẫu nhiên đó là phương pháp “rút thăm” hoặc
phương pháp chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên của KAĐƯ RỐP.
- Phương pháp rút thăm có nội dung là: Giả sử cần chọn một mẫu cỡ n. Kí hiệu
các giá trị nhận được của mẫu là (x1, x2, ...,xn) từ một dân số S nào đó. Ta đánh số các
đối tượng của dân số S theo thứ tự. Sau đó làm các thăm mang số như đã đánh số các
đối tượng của tập dân số S, bỏ các thăm vào một hộp. Xóc đều thăm rồi rút ngẫu nhiên
các thăm từ hộp ra, được thăm số nào thì chọn đối tượng mang số đó của dân số S ra
nghiên cứu. Rút khi nào đủ n đối tượng thì dừng. Như vậy ta sẽ gặp hai loại mẫu đó là
mẫu có lặp và mẫu không lặp. Nếu rút 1 thăm sau đó trả thăm vào hộp ban đầu, xáo
đều rồi rút thăm tiếp theo, làm như vậy ta được mẫu có lặp. Nếu rút xong thăm nào ta
loại thăm đó ra khỏi hộp thăm thì được mẫu không lặp. Tuy nhiên khi dân số S có số
đối tượng rất lớn thì tính chất của mẫu có lặp và không lặp không khác nhau.
- Phương pháp chọn mẫu theo bảng số ngẫu nhiên của KA-ĐƯ- RỐP: Bảng số
ngẫu nhiên KA-ĐƯ- RỐP là một bảng số gồm nhiều trang, mỗi trang có 10 cột, mỗi
cột 25 số ngẫu nhiên. Như vậy mỗi trang có 250 số ngẫu nhiên. Mỗi số ngẫu nhiên
trong bảng là một số có 4 chữ số.
Cách chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên: Đánh số các đối tưọng cần
nghiên cứu của toàn bộ dân số S. Sau đó chọn một trang ngẫu nhiên của bảng số ngẫu
nhiên. Chọn ngẫu nhiên một dòng hay một cột của bảng, rồi qui ước thống nhất cách
đọc theo cột hoặc hàng, từ trên xuống hay từ trái sang phải... Đọc được số nào thì chọn
đối tượng mang số đó ra nghiên cứu. Muốn mẫu không lặp thì gặp số trùng với số đã
đọc ta bỏ qua.

38
X¸c suÊt & Thèng kª Y häc

1.2.2. Chọn mẫu điển hình


Khi nắm chắc cấu trúc của tổng thể cần nghiên cứu và dấu hiệu cần nghiên cứu
trên dân số đó không đồng đều thì ta áp dụng cách chọn này. Tức là chọn một cái
trong những cái phổ biến. Ví dụ: Để tìm cân nặng trung bình của trẻ em sơ sinh ở một
tỉnh A nào đó, ta có thể chọn 200 cháu sơ sinh ở nông thôn. Hoặc để đánh giá kết quả
điều trị của một bệnh viện trong một năm người ta có thể chọn một khoa nào đó có
nhiều bệnh nhân điều trị, rồi chọn một quý ...
1.2.3. Chọn mẫu phân tầng
Khi dân số có dấu hiệu cần nghiên cứu không đồng đều, để đảm bảo cho mẫu
nghiên cứu đại diện tốt cho dân số, người ta chia dân số ra từng phần nhỏ (từng tầng)
sao cho dấu hiệu cần nghiên cứu của các đối tượng trong mỗi tầng tương đối đồng đều,
sau đó quy định số lượng đối tượng cần chọn vào mẫu trong từng tầng tỉ lệ với số
lượng các đối tượng của tầng và chọn đối tượng trong từng tầng theo một trong hai
phương pháp rút thăm hay sử dụng bảng số ngẫu nhiên Ka-đư-rốp.
1.2.4. Chọn mẫu cơ giới
Là việc chọn các đối tượng nghiên cứu từ dân số theo một số quy ước đặt ra từ
đầu một cách thống nhất. Chẳng hạn để chọn một mẫu cở n = 100 lọ thuốc của một
nhà máy sản xuất, ta đứng ở cuối dây chuyền sản xuất và quy ước cứ 5 phút chọn một
vĩ 10 lọ và cứ chọn khi nào đủ 100 lọ thì dừng.
1.3. Mẫu ngẫu nhiên và mẫu thực nghiệm
Để cho việc xét các định lý toán học sau này được thuận lợi, chúng ta quy ước
các mẫu chọn được là các mẫu chọn theo phương pháp có lặp. Việc chọn mỗi phần tử
từ một dân số xem như thực hiện một phép thử đơn giản mà không gian các sự kiện sơ
cấp của phép thử là các đối tượng của dân số đang nghiên cứu. Ký hiệu X là biến
ngẫu nhiên (biến) liên kết với phép thử (G) đơn giản nào đó, sao cho giá trị của X đặc
trưng được dấu hiệu mà chúng ta cần nghiên cứu của dân số. Khi đó đặc điểm cần
nghiên cứu của dân số cũng được gọi là đặc điểm X .
Giả sử ta cần chọn mẫu có lặp cở n từ các giá trị của biến X nào đó là (phần tử
1, phần tử 2, … , phần tử n ). Đặt X i là biến ngẫu nhiên có cùng phân phối với biến X
chỉ tác động trên đối tượng thứ i trong mẫu trên, với X i (Phần tử thứ i )= X
(i = 1, 2, ..., n ). Khi đó một bộ (X 1, X 2,..., X n ) gồm n biến ngẫu nhiên độc lập có
cùng phân phối với biến ngẫu nhiên X được gọi là một biến ngẫu nhiên cở n mang
đặc điểm X , hay một mẫu ngẫu nhiên kích thước n của biếnX .
Giả sử qua nghiên cứu điều tra được giá trị của của X ứng với phần tử thứ i
trong mẫu là x i , khi đó x i được xem là thông tin về đặc điểm X mà ta tìm kiếm trên
đối tượng thứ i , còn đối tượng thứ i được gọi là vật mang thông tin (i = 1, 2, ..., n ).
Khi đó bộ n số thực (x 1, x 2, ..., x n )được gọi là một mẫu thực nghiệm (hay một số liệu
điều tra) lấy từ các giá trị của biến ngẫu nhiên X .
Chú ý. Mỗi mẫu thực nghiệm là một giá trị nhận được từ mẫu ngẫu nhiên lập
nên từ biến ngẫu nhiên X qua một quá trình điều tra. Một mẫu thực nghiệm cũng
được gọi là một bộ số liệu nghiên cứu. Từ một tổng thể (dân số) ta có thể chọn được

39
X¸c suÊt & Thèng kª Y häc

rất nhiều mẫu thực nghiệm cùng cỡ n , nhưng chỉ chọn được một mẫu ngẫu nhiên kích
thước n .
§2 CÁC PHƯƠNG PHÁP BIỂU DIỄN MẪU THỰC NGHIỆM.
2.1. Phương pháp biểu diễn đại số mẫu thực nghiệm
Ở đây chúng tôi trình bày các phương pháp biểu diễn mẫu thực nghiệm của các
biến ngẫu nhiên đặc trưng cho dấu hiệu nghiên cứu đã định lượng hóa, vì thế mà mỗi
mẫu thực nghiệm trình bày dướ đây là một bộ số liệu. Vì mẫu có thể có mẫu nhị giá,
mẫu định tính, v.v…Các loại mẫu đó có cách biểu diễn khác sẽ được trình bày tiếp
trong các mục sau.
Giả sử có mẫu thực nghiệm cỡ n lấy từ các giá trị của biến ngẫu nhiên X nào đó
là một tập gồm n giá trị (x 1, x 2, ..., x n ) (*)
2.1.1. Biểu diễn mẫu theo chuỗi biến thiên
Nếu ta sắp xếp các giá trị x i (i = 1, 2,..., n ) của mẫu (*) thành dạng
(xˆ 1, xˆ 2, ..., xˆ n )sao cho xˆ i £ xˆ i + 1, " i = 1, 2, ..., n - 1 , khi đó cách biểu diễn mẫu
(*) thành dạng (xˆ 1, xˆ 2, ..., xˆ n ) (1) gọi là cách biểu diễn mẫu thành chuỗi biến thiên.
2.1.2. Biểu diễn mẫu theo bảng tần số không chia lớp
Nếu trong mẫu (*) có k giá trị khác nhau, cụ thể giả sử rằng:
Có n 1 lần x 1 có mặt trong mẫu,
n 2 lần x 2 có mặt trong mẫu,
. . . . . . . . .,
k
n k lần x k có mặt trong mẫu. Với å n i = n . Khi đó mẫu (*) được biểu
i= 1

diễn bởi bảng (2) sau đây:


xi x1 x2 . . . . . xk
ni n1 n2 . . . . . nk

Được gọi là biểu diễn mẫu bằng bảng phân phối tần số không chia lớp.
2.1.3. Biểu diễn mẫu theo bảng tần số chia lớp
Nếu mẫu thực nghiệm (*)được lấy từ biến ngẫu nhiên liên tục X và cở mẫu n
khá lớn thì việc biểu diễn mẫu theo một trong hai cách trên tỏ ra không thuận lợi.
Chính vì thế mà người ta chia khoảng biến thiên các giá trị của mẫu thành k đoạn bằng
nhau bởi các điểm chia a0 < a1 < a2 <…< ak đảm bảo điều kiện là các giá trị của mẫu
x i Î éêa 0 , ak ùú, i = 1, 2, ..., n . Giả sử có n 1 giá trị x i trong mẫu rơi vào khoảng éêëa 0 , a1 ),
ë û
n 2 giá trị x i trong mẫu rơi vào khoảng éêëa1, a 2 ) ,
. . . . . . . . . . . . . . . ,
n k giá trị x i trong mẫu rơi vào khoảng éa , a ).
êë k - 1 k

40
X¸c suÊt & Thèng kª Y häc

Thì khi đó mẫu thực nghiệm (*)được cho bằng bảng sau

Lớp éêëai - 1 - ai ) éa - a )
êë 0 1
éa - a )
êë 1 2
……… éa - a )
êë k - 1 k

………
(3)
Tần số n i n1 n2 nk
k
Trong đó å ()
n i = n . Cách biểu diễn như dạng 3 gọi là cách biểu diễn mẫu bằng
i= 1

bảng phân phối tần số chia lớp.


2.2. Phương pháp biểu diễn hình học của mẫu
Nếu trong mẫu (*) có k giá trị khác nhau, cụ thể giả sử rằng :
Có n 1 lần x 1 có mặt trong mẫu,
n 2 lần x 2 có mặt trong mẫu,
. . . . . . . . .,
k
ni
n k lần x k có mặt trong mẫu. Với å n i = n , ký hiệu i =
n
được gọi
i= 1

là tần suất giá trị X = x i trong mẫu. Khi đó mẫu (*) được biểu điễn:
2.2.1. Đa giác tần suất mẫu
Nếu trên mặt phẳng toạ độ Đề các vuông góc Oxy ta vẽ đường gấp khúc nối các
điểm M i = (x i , i ) i = 1, 2,..., k , thì ta được đa giác tần suất mẫu.
Hình ảnh đa giác tần suất mẫu cho ta hình ảnh đồ thị hàm mật độ của biến X
cần nghiên cứu.
2.2.2. Tổ chức đồ tần suất
Khi dung lượng mẫu  x1 , x2 , ..., xn  lớn thì lập bảng phân phối thực nghiệm như
trên không phù hợp, lúc này ta dùng tổ chức đồ tần suất.
- Chia mẫu thành k tổ, khoảng cách giữa các tổ là h (đều nhau).
- Quy định thống nhất các mút của tổ thuộc tổ nào?
- Gọi wi  ni n ( ni là các số x j của mẫu thuộc nhóm thứ i) thì tổ chức đồ tần
suất mẫu là các hình bậc thang lập lên bởi các hình chữ nhật có đáy bằng khoảng chia
h , chiều cao bằng wi / h .
Ví dụ 3. Trong một cuộc điều tra Glucôza máu của 100 đối tượng có số liệu
70 79 80 83 85 85 85 85 86 86 86 87 87 88 89 90
91 91 92 92 93 93 93 93 94 94 94 94 94 94 95 95
96 96 96 96 96 97 97 97 97 97 98 98 98 98 98 98
100 100 101 101 101 101 101 101 102 102 102 102 103 103
104 104 104 104 105 106 106 106 106 106 106 106 106 106
106 107 107 107 107 108 110 111 111 111 111 111 112 112
112 115 116 116 116 116 119 121 121 126.
Ta chia 13 tổ ( k =13, h =5) và qui định nút phải thuộc khoảng, ta có bảng:

41
X¸c suÊt & Thèng kª Y häc

TT Khoảng xi ni wi wi / h
1 (65-70] 67,5 1 0,01 0,002
2 (70-75] 72,5 0 0,00 0,000
3 (75-80] 77,5 2 0,02 0,004
4 (80-85] 82,5 5 0,05 0,010
5 (85-90] 87,5 8 0,08 0,016
6 (90-95] 92,5 16 0,16 0,032
7 (95-100] 97,5 18 0,18 0,036
8 (100-105] 102,5 17 0,17 0,034
9 (105-110] 107,5 16 0,16 0,032
10 (110-115] 112,5 9 0,09 0,018
11 (115-120] 117,5 5 0,05 0,010
12 (120-125] 122,5 2 0,02 0,004
13 (125-130] 127,5 1 0,01 0,002
Tổ chức đồ tần suất của mẫu trên là hình vẽ dưới đây.

w/h

0,036
0,034
0,032

0,018
0,016

0,010

0,004
0,002

65 70 75 80 85 90 95 100 105 110 115 120 125 130 x

Tổ chức đồ suất mẫu là hình ảnh thực nghiệm của đồ thị hàm mật độ phân phối
của biến X . Qua tổ chức đồ đã vẽ của mẫu trên, cho ta thấy biến ngẫu nhiên đặc
trưng Glucôza máu tuân theo luật phân phối chuẩn.
2.3. Hàm phân phối thực nghiệm Giả sử có mẫu (x 1, x 2, ..., x n ) cỡ n . Ta
sắp xếp mẫu thành chuỗi biến thiên tăng dần. Gọi n x là số các giá trị x i của mẫu mà

42
X¸c suÊt & Thèng kª Y häc

nx
x i < x , đặt Fn (x ) = , thì hàm Fn (x ) gọi là hàm phân phối thực nghiệm mẫu kích
n
thước n .
§ 3 THỐNG KÊ MÔ TẢ-ĐO ĐỘ TẬP TRUNG VÀ PHÂN TÁN CỦA BỘ SỐ
LIỆU- TRÌNH BÀY BẢNG SỐ LIỆU
Bài này trình bày các khái niệm, ý nghĩa và cách tính các thống kê mô tả để đo
độ tập trung, độ phân tán của dấu hiệu nghiên cứu đặc trưng cho một dân số cụ thể;
trình bày cách tính các thống kê trong R, bằng máy tính điện tử cầm tay Casio Fx 570
MS và cách biểu diễn mẫu bằng bảng biểu, bằng biểu đồ.
3.1. Các thông số đo độ tập trung mẫu
3.1.1. Trung bình mẫu x và cách tính
3.1.1.1. Định nghĩa
Cho mẫu thực nghiệm cỡ n :  x1 , x2 , ..., xn  . Trung bình mẫu x là đại lượng
thống kê xác định bằng công thức:
1 n x  x  ...  xn
x 
n i 1
xi  1 2
n
Nếu mẫu cho ở dạng bảng phân phối tần số không chia lớp như sau;
xi x1 x2 ..................................... xk

ni n1 n2 ..................................... nk
n
với n
i 1
i  n , thì

1 k n x  n x  ...  nk xn
x 
n i 1
ni xi  1 1 2 2
n
k
n
hay x   wi xi , trong đó: wi  i
i 1 n
3.1.1.2. Cách tính
+ Tính trực tiếp từ định nghĩa khi cỡ mẫu nhỏ.
Ví dụ. Tính x của 17 trường hợp Glucôza huyết tính bằng Cg/l huyết tương cho bởi
mẫu thu được sau:
xi 75 80 85 90 95 100 105 110 120
ni 1 1 2 1 3 5 2 1 1
1 9 1
Có x   ni xi   75  80  2  85  ...  120   96,5 Cg / l
17 i 1 17
+ Tính bằng máy tính
Câu lệnh trong R để tính số trung bình x của mẫu trên:
> x<-c(75,80,85,85,90,95,95,95,100,100,100,100,100,105,105,110,120)
> mean(x)
[1] 96.47059

43
X¸c suÊt & Thèng kª Y häc

Chú ý. Trung bình mẫu x có ý nghĩa như giá trị trung bình của dãy số liệu, nó là xấp
xỉ kỳ vọng lý thuyết chưa biết. Ngày nay tính x cũng có sẵn trong phần mềm máy tính
như SPSS; Exell,..
3.1.2. Trung vị (median)
3.1.2.1. Định nghĩa
Trung vị mẫu là giá trị kí hiệu Me nằm ở giữa chia dãy số liệu thành 2 phần,
một nửa dãy số liệu nhỏ hơn trung vị và một nửa dãy số liệu lớn hơn trung vị. Trung vị
là một tham số ít được sử dụng nhưng nhiều khi rất cần thiết, khi dãy số liệu có những
giá trị chênh lệch lớn hoặc khi đầu dãy và cuối dãy để mở.
Công thức tính: Nếu có mẫu cỡ n sau khi xếp thành chuỗi biến thiên
 x1 , x2 ,..., xn  .
xm  xm 1
+ Nếu n  2m (là số chẵn) thì trung vị M e 
2
+ Nếu n  2m +1 (là số lẻ) thì trung vị M e  xm1
Ví dụ. Tính trung vị của mẫu cho bởi ví dụ 4
Câu lệnh trong R là:
> x<-c(75,80,85,85,90,95,95,95,100,100,100,100,100,105,105,110,120)
> mean(x)
[1] 96.47059
> median(x)
[1] 100
3.1.2.2. Ví dụ. Theo dõi nhịp tim của 15 người sau khi luyện tập một bài thể dục đòi
hỏi nhiều sức lực, ta có số liệu:
Nhịp tim 80 84 86 88 90 92 94 96 98 100 105 110 120 >125
Số người 1 1 1 1 1 1 1 1 1 1 1 1 1 2

Nếu tính x sẽ không tính được vì hai số liệu cuối bảng không cụ thể. Trường hợp này
nên xác định trung vị
Có M e  x8 = 96 tương ứng với nhịp tim là 96.
Nếu tính trong R các số liệu lớn hơn 125 là 2 ta cho là 2 số liệu bằng 125 ta có câu
lệnh và tính được như sau:
> y<-c(80,84,86,88,90,92,94,96,98,100,105,110,120,125,125)
> median(y)
[1] 96
Kết quả này cũng phù hợp với kết quả trên, nhưng số trung bình của nó thì khác
> y<-c(80,84,86,88,90,92,94,96,98,100,105,110,120,125,125)
> median(y)
[1] 96
> mean(y)
[1] 99.53333
3.1.3. Mốt (mode)
3.1.3.1. Định nghĩa
Mốt (hay yếu vị) của mẫu là giá trị của mẫu có tần số lớn nhất, ký hiệu M0.

44
X¸c suÊt & Thèng kª Y häc

3.1.3.2. Ví dụ. Điều tra Glucôza máu trên 144 người có số liệu:
Tính theo mg% 85 90 95 100 105 110 115
Số người 10 18 29 35 30 17 5
Chúng ta nhận thấy có 35 người có Glucôza máu 100 mg% lớn hơn các nhóm người
có Glucoza khác 100 mg%, nên mốt mẫu là: M0 = 100.
3.1.4. Trung bình nhân (multiplication mean)
3.1.4.1. Định nghĩa
Trong Y-Sinh học, số trung bình nhân ít được sử dụng. Trong những nghiên
cứu về vi sinh học, dược lý học... đôi khi dùng trung bình nhân để biểu diễn quá trình
sinh trưởng hoặc giảm yếu của vi khuẩn dưới ảnh hưởng của thuốc hoặc yếu tố vật lý
hoá học nào khác. Công thức tính số trung bình nhân của dãy số liệu  x1 , x2 ,..., xn  là:
xnhanˆ  n x1 x2 ...xn
3.1.4.2. Ví dụ. Mẫu về huyết áp tâm thu của 5 đối tượng là (120,125,130,135,150).
Trung bình nhân của mẫu huyết áp tâm thu của 5 đối tượng trên:
xnhanˆ  n x1 x2 ...xn = 5 120 ´ 125 ´ 130 ´ 135 ´ 150 = 131,6109208
Chú ý. Trung bình nhân của hai đại lượng không bằng nhau luôn luôn nhỏ hơn trung
bình cộng của nó.
3.2. Các thông số đo độ phân tán mẫu
3.2.1. Phương sai mẫu và cách tính
3.2.1.1. Định nghĩa
Phương sai của dãy số liệu  x1 , x2 ,..., xn  là gía trị trung bình của bình phương
độ lệch giữa các biến so với giá trị trung bình của nó. Ký hiệu phương sai mẫu và cách
tính như sau:
2
1 k 1 n 2 2
2
Var(x) = S  
n  1 i 1
xi x ni   
n  i 1 

xi  n x  , n lớn.
2
Phương sai mẫu S  dùng để đo mức độ phân tán giữa các giá trị của các số
liệu so với trung bình mẫu của chúng khá tốt. Tuy nhiên nó không cùng đơn vị đo với
2
các biến của mẫu nên người ta dùng biến số độ lệch chuẩn mẫu sd(x)= s  S  để
đặc trưng cho mức độ phân tán các số liệu của mẫu thực nghiệm đã cho.
2
3.2.1.2. Các phương pháp tính phương sai mẫu S 
+ Tính trực tiếp từ công thức định nghĩa.
+ Tính bằng máy tính cầm tay Casio fx - 570MS, máy vi tính với phần mềm
SPSS hoặc tính bằng R rất thuận lợi.
Ví dụ. Tính trung bình mẫu và phương sai mẫu, độ lệch chuẩn mẫu cho bằng số liệu
trong Ví dụ mục 18.1.3.1 bằng R với câu lệnh như sau:
> x<-c(120,125,130,135, 150)
> var(x)
[1] 132,5
> mean(x)
[1] 132
Tính bằng máy tính cầm tay Casio fx - 570MS

45
X¸c suÊt & Thèng kª Y häc

Ngày nay sinh viên sử dụng các công cụ tính toán hiện đại phổ biến để tính toán
các đặc trưng mẫu được thuận lợi và nhanh chóng trong khi đi thi, đó là dùng máy
tính bỏ túi: Casio fx - 500A; Casio fx - 500MS; Casio fx - 570MS… Ở đây chúng
tôi chỉ giới thiệu sơ lược cách sử dụng máy tính bỏ túi Casio fx - 570MS để tính
toán. Tại sao chỉ giới thiệu loại máy này, đó là do loại máy này mới có thể mang vào
phòng thi sử dụng khi làm bài thi; mặt khác loại máy này đã được làm quen ở THPT.
Vào chương trình thống kê một biến SD
Ấn
MODE MODE 1
Nhập dữ liệu theo cú pháp sau:
Nếu có số liệu 25 xuất hiện 7 lần thì ta ấn 25 SHIFT ; 7 7 DT
Ví dụ. Tính phương sai mẫu và trung bình mẫu cho trong Ví dụ mục 18.1.3.1
MODE MODE 1 để vào chương trình
Nhập dữ liệu: 120 SHIFT ; 1 DT
125 SHIFT ; 1 DT
130 SHIFT ; 1 DT
135 SHIFT ; 1 DT
150 SHIFT ; 1 DT
Đọc kết quả SHI FT S.Var 1  cho ta x = 132
SHI FT S.Var 3  cho ta sd(x) =12,51086443, ấn tiếp x 2 = cho ta
var(x) = 132,5
3.2.2. Dao độ mẫu và cách tính
3.2.2.1. Định nghĩa
Cho mẫu thực nghiệm (x 1, x 2, x 3, ..., x n ) lấy từ các giá trị của biến ngẫu nhiên X
nào đó. Dao độ mẫu là số ký hiệu D được xác định như sau: D= x m ax - x min . Trong đó
x m ax = m ax (x 1, x 2, x 3, ..., x n ); x min = min (x 1, x 2, x 3, ..., x n ).
Ý nghĩa của số dao độ mẫu D là chỉ sự phân tán của dãy số liệu (mẫu thực
nghiệm). Nếu dao độ D càng lớn thì mức độ dao động của dãy số liệu càng nhiều.
Cách tính dao độ mẫu D theo R như sau
3.2.2.2. Ví dụ. Mẫu về huyết áp tâm thu (mg) của 7 đối tượng là
(120,125,130,135,140,145,150)
Câu lệnh dùng tính giá trị nhỏ nhất, lớn nhất: min, max và D trong R
> t<-c(120,125,130,135,140,145,150)
> min(t)
[1] 120
> max(t)
[1] 150
> 150-120

46
X¸c suÊt & Thèng kª Y häc

[1] 30.
Ta có D = 30
3.2.3. Khoảng tứ vị phân
3.2.3.1. Định nghĩa
Cho mẫu thực nghiệm (x 1, x 2, x 3, ..., x n ) lấy từ các giá trị của biến ngẫu nhiên X
nào đó. Nếu chúng ta chia mẫu thành 2 lớp, một lớp các x i ³ Me gọi là lớp trên và
một lớp gồm các x i £ Me gọi là lớp dưới. Khi đó khoảng tứ vị phân là khoảng cách
của trung vị lớp dưới và trung vị lớp trên.
3.2.3.2. Ví dụ. Tính khoảng tứ vị phân của mẫu cho trong Ví dụ 3.2.2.2.
Câu lệnh dùng để tính giá trị tứ vị phân mẫu trong R
> t<-c(120,125,130,135,140,145,150)
> summary(t)
Min. 1st Qu. Median Mean 3rd Qu. Max.
120.0 127.5 135.0 135.0 142.5 150.0
Tức là Q1 = 127,5 là trung vị lớp dưới, Q2=142,5 là trung vị lớp trên, nên khoảng tứ vị
phân là (127,5 - 142,5); Me = 135.
3.3. Trình bày mẫu thực nghiệm mẫu (bộ số liệu) bằng bảng biểu và biểu đồ
3.3.1. Trình bày mẫu thực nghiệm bằng bảng biểu
Bước đầu tiên của nghiên cứu khoa học là thu thập số liệu (chọn mẫu thực
nghiệm). Nhưng lấy mẫu thực nghiệm về trình bày như thế nào cho khoa học, dễ tính
toán, dễ truy xuất. Ở (phần chọn mẫu) chúng ta đã giới thiệu 3 cách trình bày mẫu
thực nghiệm (bộ số liệu) đã định lượng hóa. Tuy nhiên phương pháp trình bày mẫu và
các đặc trưng của quần thể còn có thể theo biểu đồ hoặc bảng biểu tùy thuộc vào loại
mẫu nghiên cứu. Chẳng hạn để điều tra mẫu định tính thì việc trình bày mẫu phải theo
bảng biểu:
Ví dụ 1. Một nhóm sinh viên nghiên cứu mối liên quan giữa số lượng tiểu cầu và mức
độ sốt xuất huyết, qua theo dõi tình hình 8 bệnh nhân sốt xuất huyết số liệu thu được
như sau:

Sè thø tù bÖnh nh©n Sè l­îng tiÓu cÇu Giga/l Møc ®é sèt xuÊt huyÕt
1 100 Võa
2 60 nÆng
3 120 nhÑ
4 150 nhÑ
5 100 Võa
6 80 nÆng
7 90 nÆng
8 120 Võa

Cách trình bày số liệu kiểu như trên gọi là trình bày số liệu bằng bảng biểu.
Ví dụ 2. Nghiên cứu hiệu quả hai lo¹i thuèc A, B dïng ®iÒu trÞ ung th­, ®­îc ®em thö
nghiÖm trªn 2 nhãm ng­êi cã cïng tÝnh tr¹ng ban ®Çu. KÕt qu¶ ghi l¹i ®­îc:

47
X¸c suÊt & Thèng kª Y häc

KÕt qu¶
Khái bÖnh Kh«ng Tæng
Lo¹i thuèc khái bÖnh
Thuèc A 12 6 18
Thuèc B 15 3 18
Tæng 27 9 36
Cách trình bày số liệu (mẫu) như trên gọi là trình bày số liệu bằng bảng biểu. Hãy tìm
thêm những ví dụ khác?
3.3.2. Trình bày mẫu thực nghiệm bằng biểu đồ.
Thực ra biểu đồ và đồ thị của mẫu (hay của bộ số liệu) là cách mô tả hình học
một số tính chất của biến nghiên cứu hoặc các tính chất thống kê mô tả của quần thể
chứa cá thể có đối tượng mà ta đang nghiên cứu. Phần này đã được giới thiệu trong bài
8 chọn mẫu, đó là biểu diễn hình học mẫu. Biểu diễn hình học mẫu có đa giác tần suất
mẫu (polyline), tổ chức đồ tần suất (histogram), biểu đồ hình hộp (boxplot) dùng để
mô tả phân bố của biến đang nghiên cứu. Biểu đồ hình bánh (pie chart) dùng để mô tả
tỷ lệ của các số liệu của mẫu. Biểu đồ hình bánh là một vòng tròn được chia ra làm
nhiều cung tương ứng với các giá trị của mẫu. Độ lớn của cung tỉ lệ với tần suất của
giá trị của mẫu.
Ví dụ. Điều tra phương pháp đỡ đẻ của 600 trẻ trong một bệnh viện ta có mẫu thực
nghiệm cho như sau:
Phương pháp sinh số trẻ em sinh phần trăm
Sinh thường 478 79,7 %
Sinh forcep 65 10,8 %
Sinh mổ 57 9,5%
Tổng 600 100,0%
Câu lệnh để vẽ biểu đồ hình bánh của mẫu trên trong R là
> Sinh<-c(57,65,478)
> pie(Sinh,c("Sinh mo","SinhForcep","Sinh thuong"),clockwise=T)
Biểu đồ hình bánh của mẫu trên là:

48
X¸c suÊt & Thèng kª Y häc

BÀI TẬP CHƯƠNG 3


1. Mẫu thực nghiệm X được cho bởi bảng sau:
Xi 2 3 4 5 6 7 8
ni 2 5 10 11 6 4 2
a. Vẽ biểu đồ tần số của mẫu thực nghiệm trên.
b. Lập hàm phân phối thực nghiệm Fn  x  của mẫu thực nghiệm trên.
c. Tìm x, s , s2 của mẫu.
2. Mẫu thực nghiệm X cho bởi bảng phân phối tần số chia lớp sau:
 ai 1 , ai  -8, -3 -3, 2 2, 7 7, 12 12, 17
ni 3 8 15 6 2
a. Vẽ tổ chức đồ tần suất mẫu.
b. Lập hàm phân phối thực nghiệm mẫu.
c. Tính x, s , s2 của mẫu.
3. Đo chiều cao của 100 thanh niên Việt Nam tuổi từ 18 đến 22 của tỉnh A
(đơn vị tính cm), kết quả được thống kê ở bảng sau:
Chiều cao xi 154- 158- 162- 166- 170- 174- 178-
158 162 166 170 174 178 182
Số thanh niên ni 10 14 26 28 12 8 2
a. Vẽ biểu đồ tần số của mẫu thực nghiệm trên.
b. Tính chiều cao trung bình (kỳ vọng) và độ lệch tiêu chuẩn của mẫu thực nghiệm
trên.

49
X¸c suÊt & Thèng kª Y häc

Ch­¬ng 4 LÝ THUYẾT ƯỚC LƯỢNG

§ 1 ƯỚC LƯỢNG ĐIỂM-ƯỚC LƯỢNG KHOẢNG


1.1. BÀI TOÁN VỀ LÍ THUYẾT ƯỚC LƯỢNG - KHÁI NIỆM HÀM MẪU

Giả sử biến ngẫu nhiên X nào đó mà hàm phân phối mật độ của nó phụ thuộc
vào k tham số chưa biết 1 , 2 ,..., k (đọc là: tê ta 1, tê ta 2, …, tê ta k). Tức là hàm mật
độ phân phối của nó có dạng: f  x,1 , 2 ,..., k  .
Chẳng hạn: Nếu X là biến ngẫu nhiên có phân phối chuẩn thì hàm mật độ phân
 x 2 2

1 212
phối của X là: f  x, 1 ,  2   e ...
1 2
Trong phần này ta giới hạn chỉ xét những biến ngẫu nhiên X mà hàm mật độ
phân phối của nó chỉ phụ thuộc vào 1 tham số  chưa biết. Tức là hàm mật độ của nó
có dạng f  x   f  x,  trong đó dạng f  x,  đã biết, nhưng tham số  chưa biết.
Vấn đề đặt ra là làm thế nào tính gần đúng giá trị của  thông qua mẫu thực nghiệm
thu được từ biến ngẫu nhiên X là ( x1 , x2 ,..., xn ). Việc làm nhưng như thế gọi là ước
lượng tham số  . Để giải quyết vấn đề này người ta dùng 2 cách sau:
Cách 1: Dựa vào mẫu ngẫu nhiên thu được kích thước n ( X 1 , X 2 ,..., X n ) từ biến ngẫu
nhiên X , ta lập một hàm kí hiệu ˆ  X 1 , X 2 ,..., X n  , trị số ˆ phụ thuộc vào các giá trị
( x1 , x2 ,..., xn ) của mẫu thực nghiệm tương ứng và khi đó giá trị ˆ  x1 , x2 ,..., xn  thay cho
 chưa biết. Vì thế mà ˆ  X 1 , X 2 ,..., X n  gọi là hàm mẫu (vì giá trị của nó tuỳ thuộc
vào mẫu thực nghiệm lấy được).
 
Cách 2: Người ta tìm cách chỉ ra 1 khoảng ˆ1  X 1 , X 2 ,..., X n  ,ˆ2  X1 , X 2 ,..., X n  sao

 
cho xác suất: P ˆ1  X 1 ,..., X n     ˆ2  X 1 ,..., X n    (*),  là một trị số cho trước,
thường là:  = 0,95;  = 0,99... và gọi là độ tin cậy của ước lượng, khoảng
ˆ1  x1 ,..., xn  ,ˆ2  x1 ,..., xn   được gọi là khoảng tin cậy của tham số  với độ tin cậy  .
 

1.2. ƯỚC LƯỢNG ĐIỂM CỦA THAM SỐ θ

Giả sử chúng ta có mẫu thực nghiệm cở n: ( x1 , x2 ,..., xn ) được lấy từ các giá trị
của biến ngẫu nhiên X nào đó có hàm mật độ f  x   f  x,  trong đó dạng f  x, 
đã biết, nhưng  chưa biết. Căn cứ vào mẫu thu được, lập một đại lượng
ˆ  X 1 , X 2 ,..., X n  thay thế cho  , như vậy thì ˆ  X 1 , X 2 ,..., X n  phải chọn sao cho sát với
 nhất theo nghĩa: Không chệch, hội tụ, (vững) và có phương sai bé nhất. Để hiểu
điều đó ta xét các định nghĩa sau:
1.2.1. Định nghĩa ước lượng không chệch

50
X¸c suÊt & Thèng kª Y häc

Hàm ˆ  X 1 , X 2 ,..., X n  lựa chọn ước lượng thay cho  được gọi là không chệch
nếu:  
M ˆ  X 1 , X 2 ,..., X n    (1) ;
Kỳ vọng của biến ngẫu nhiên ˆ  X 1 , X 2 ,..., X n  được tính theo phân phối của
( X 1 , X 2 ,..., X n ). Nếu xem ˆ  X 1 , X 2 ,..., X n  -  là sai số ước lượng, thì ước lượng thỏa
mãn (1) là ước lượng không có sai lầm hệ thống.
1
Ví dụ. ˆ  X 1 , X 2 ,..., X n   X   X 1  X 2  ...  X n  lấy từ biến ngẫu nhiên X có phân
n
phối chuẩn N   ,   là một ước lượng không chệch của  thật vậy:
2

1 n  1 n n
 
M X  M   Xi    M (Xi ) 
 n i 1  n i 1 n


1.2.2. Định nghĩa ước lượng vững


Hàm ước lượng ˆ  X 1 , X 2 ,..., X n  được gọi là ước lượng vững của tham số 
 
nếu: Lim p ˆ      1 , điều này nói lên ˆ  X 1 , X 2 ,..., X n    theo xác suất khi
n 

n .
Định lý Nếu ˆ  X 1 , X 2 ,..., X n  là một ước lượng không chệch của  và thoả mãn:
a.
n 
   
Lim M ˆ  X 1 , X 2 ,..., X n      0

b. Lim D ˆ  X 1 , X 2 ,..., X n    0


n   
thì ˆ là một ước lượng vững của  .
1
Chẳng hạn ta cũng dễ dàng chứng minh được X   X 1  X 2  ...  X n  là một
n
ước lượng vững của kỳ vọng của biến ngẫu nhiên X.
1.2.3. Định nghĩa ước lượng hiệu quả
Nếu ˆ  X 1 , X 2 ,..., X n  là một ước lược không chệch của  và có phương sai
 
D ˆ  X 1 , X 2 ,..., X n  không lớn hơn phương sai của bất kì hàm ước lượng không chệch
khác, thì ˆ  X 1 , X 2 ,..., X n  gọi là ước lượng không chệch có phương sai bé nhất của 
(hay là ước lượng hiệu quả của  ).
Định lý. Nếu mẫu ( X 1 , X 2 ,..., X n ) lấy từ các giá trị của biến ngẫu nhiên X có hàm mật
độ là f  x,  và thoả mãn một số điều kiện nhất định (thường là thoả mãn thực tế) và
ˆ  X 1 , X 2 ,..., X n  là một ước lượng không chệch bất kì của  thì ta có bất đẳng thức:
1
D ˆ  X 1 , X 2 ,..., X n    2
(*)
  ln f  x,  
n.M  
  
Bất đẳng thức (*) gọi là bất đẳng thức thông tin.
Điều đó nói lên không có ước lượng không chệch nào có phương sai bằng 0.

51
X¸c suÊt & Thèng kª Y häc

Ví dụ. Cho X là một biến ngẫu nhiên có phân phối N   ,  2  , xét xem X có phải là
một ước lượng hiệu quả của  hay không biết rằng:
 ln f  x,  x  
 .
 2
Áp dụng bất đẳng thức thông tin để giải quyết vấn đề này:
2 2
  ln f  x,    X   n 2 n
M   nM  2   4 M X    2
       
2 2
Mặt khác D X 
n
tức là D X 
n
 
Theo bất đẳng thức thông tin  X có phương sai bé nhất. Từ cơ sở lý thuyết
trên, người ta chứng minh được hàm ước lượng của một số tham số như sau:
Tham số cần Các tính chất của
ước lượng
Hàm ước lượng M ˆ D ˆ   ˆ  X 1 , X 2 ,..., X n 
1 n 2 Không lệch, vững
M X   X  Xi 
n i 1 n và hiệu quả
m p 1  p  Không lệch, vững
Xác suất p Tần suất p
n n và hiệu quả
1 n 3 2 
Phương sai 2 1 n 2  4   
n n 1 
2
s   Xi  X
n  1 i 1
  2
4
Không lệch, vững

4   X  X 
Mô men 1 n 3
trung tâm 
 Xi  X
n i 1
 3
cấp 3: m3
Mô men 1 n 4
trung tâm 
 Xi  X
n i 1
 4
cấp 3: m4
m3 3
Độ lệch A
s3 3
m4 4
Góc dư E 3 3
s4 4
1.2.4. Các phương pháp cấu tạo hàm ước lượng điểm
+ Phương pháp mô men
Phương pháp này là phương pháp đơn giản được dùng từ trước đến nay. Nếu
một phân phối nào đó phụ thuộc vào r tham số, thì người ta có thể biểu diễn r mô men
đầu tiên của phân phối theo r tham số ấy. Nội dung của phương pháp mô men là ở chỗ:
Thay các mô men lý thuyết bằng các mô men thực nghiệm tương ứng và từ quan hệ đó
xác định giá trị các tham số cần ước lượng.
+ Phương pháp hợp lý cực đại

52
X¸c suÊt & Thèng kª Y häc

Phương pháp này do Fisher đề ra, là một trong những phương pháp ước lượng
quan trọng hay dùng nhất.
Giả sử biến ngẫu nhiên X, có hàm mật độ phân phối f  x,  trong đó dạng f đã
biết, nhưng  chưa biết, để ước lượng  người ta lấy mẫu thực nghiệm ( x1 , x2 ,..., xn ) từ
X và lập hàm:
L    f  x1 ,    f  x2 ,    ...  f  xn ,  (1)
L   gọi là hàm hợp lý mẫu, nó phụ thuộc vào xi và  . Nếu xem xi là các hằng số
thì L   là một biến số, biến là  .

Tìm ˆ  x1 , x2 ,..., xn  sao cho L ˆ  x1 , x2 ,..., xn   L    (3)

 
 L ˆ  ln L ˆ  L    ln L  
Nếu điều kiện có đạo hàm thoả mãn thì tại ˆ  x1 , x2 ,..., xn  ta có:
dL  
0 (4) Phương trình (4) là phương trình hợp lý cực đại, mọi nghiệm
d
của nó đều là ước lượng hợp lý cực đại của  .
Vídụ. Biến ngẫu nhiên X có phân phối N   ,  2   Hàm mật độ
 x   2
1 
2 2
f  x  e
 2
Giả sử tham số  chưa biết cần ước lượng  . Lập hàm hợp lí:
n
1 2
2 i
1  x  
L    e 2 i1  L  
 2
n
 1 1
  xi    
2
n
 L     ln  e 2 2 i 1
  n ln  1   1 2  x   
i
2

  2    2  2 i 1
 
dL    1 n 2
  2   xi     0
d  i 1

1 n
Giải phương trình này được một ước lượng hợp lý cực đại của  là: x   xi
n i 1
d  dL      n
ta thấy    0, n nên tại x, L    đạt cực đại. Mở rộng, nếu  là một
d  d   2
đại lượng ngẫu nhiên nhiều chiều, chẳng hạn   1 , 2  cũng tương tự ta có phương
trình hợp lý cực đại là:
dL  
 0, (i = 1,2)
d
 
Nghiệm của phương trình là ˆ  ˆ1 ,ˆ2 cũng là một ước lượng hợp lý cực đại của  .

53
X¸c suÊt & Thèng kª Y häc

§ 2 ƯỚC LƯỢNG THAM SỐ BẰNG KHOẢNG TIN CẬY

2.1. Một số khái niệm cơ bản


+ Khoảng tin cậy ˆ1 , ˆ2  của tham số  với độ tin cậy  Là một khoảng với hai
đầu mút ˆ1  x1 , x2 ,..., xn   ˆ1 , ˆ2  x1 , x2 ,..., xn   ˆ2 sao cho xác suất
 
P ˆ1    ˆ2   . (1)
 thường là 0,95; 0,99... Bài toán ước lượng khoảng đặt ra như sau: Cho trước
 , hãy xác định ˆ1 ,ˆ2 từ mẫu thu được  x1 , x2 ,..., xn  để (1) thoả mãn.
Một ước lượng khoảng càng tốt nếu độ dài khoảng ˆ1 , ˆ2  càng bé và độ tin
cậy  càng lớn.
+ Trong (1)  gọi là mức tin cậy (độ tin cậy) còn   1   gọi là sai số ước lượng,
L
  gọi là sai số cực hạn của ước lượng, L  ˆ2  ˆ1 gọi là độ dài khoảng ước lượng.
2

Có nhiều lúc ta quan tâm ước lượng phía cụ thể. Nếu P   ˆ2    ˆ1  
2
thì  
 
khoảng ˆ1 , ˆ2  gọi là ước lượng 2 phía. Nếu P   ˆ1   hoặc P   ˆ2   thì gọi 
là ước lượng 1 phía.
2.2. Một số phương pháp cấu tạo khoảng ước lượng của một tham số
2.2.1. Ước lượng số trung bình (hay kỳ vọng) của một tổng thể có phân phối chuẩn
Giả sử có mẫu thực nghiệm cỡ n :  x1 , x2 ,..., xn  lấy từ các giá trị của lượng ngẫu
nhiên X nào đó có phân phối chuẩn N   ,  2 
+ Nếu  đã biết thì :
x
Do lượng thống kê n có phân phối chuẩn N(0;1) nên theo bảng chuẩn (hàm

Laplat) tìm được u >0 để
2

 x     
p  u  n  u   p  x  u    x  u   1
 2  2   2 n 2 n
  
trong đó u là số tra bảng phân phối chuẩn sao cho   u   1  . Vậy trong trường
2  2 2
   
hợp này tham số  có khoảng tin cậy với độ tin cậy  là:  x  u ; x  u 
 2 n 2 n

 u được gọi là độ chính xác của ước lượng, phản ánh mức độ sai lệch của
n 2
trung bình mẫu so với trung bình tổng thể, với xác suất  .
Trong thực tế thường :  = 0,95 thì u = 1,96
2

54
X¸c suÊt & Thèng kª Y häc

 = 0,99 thì u = 2,58


2

 = 0,999 thì u = 3,29


2

Từ đây suy ra cần xác định dung lượng mẫu n để khoảng chứa kỳ vọng  có độ dài
không vượt quá 2 với mức tin cậy đã biết:
u 2 2

    u    n  2 2 
n 2 
2
1 n
 
2
+ Nếu không biết phương sai  2 thì ta ước lượng  2  s   xi  x .
n  1 i 1
x
Khi đó thống kê n có phân phối T với bậc tự do ( n -1), do đó với độ tin cậy 

cho trước, chúng ta có thể tìm được số t  n  1 từ bảng phân phối với bậc tự do n -1;
2

 s s 
1     để: p  x  t  n  1    x  t  n  1    khoảng tin cậy
 2 n 2 n 
của  với độ tin cậy  là
 s s 
 x  t   n  1    x  t   n  1  (2)
 2 n 2 n
trong đó t  n  1 là số tra từ bảng phân phối T (Student) bậc tự do n -1; với   1  
2

tương tự để độ dài khoảng ước lượng  không vượt quá 2 thì dung lượng mẫu:
2
  2
 t  n  1  s
n  2 2



Ví dụ. Qua mẫu điều tra urê máu của 10 đối tượng có mẫu: ( 24, 40, 30, 19, 48, 32,
35, 21, 18, 40). Hãy ước lượng và tìm khoảng tin cậy của trung bình urê máu của tổng
thể với độ tin cậy 95%.
24  40  ...  40
Từ mẫu tính được: x  30, 7
10
2 2 2

s 2

 24  30, 7    40  30, 7   ...   40  30, 7 
 103,3
9
Với giả thiết urê máu có phân phối chuẩn, thì theo công thức cấu tạo khoảng ước
lượng (2) ta có: Tra bảng T, độ tự do 9,  =0,95 có t0,025  9   2, 26 .
 khoảng tin cậy của số trung bình là:
 103,3 103,3 
 30, 7  2, 26 ;30, 7  2, 26 
 10 10 
Hay: (23,4; 38) Cg/l.

55
X¸c suÊt & Thèng kª Y häc

Để đảm bảo độ dài khoảng ước lượng <5 Cg/l  dung lượng mẫu tối thiểu là:
2

n
 2, 26  103, 3
 21,1 . Vậy phải điều tra tối thiểu 22 người.
25
Tính bằng R như sau:
> edit
function (name, ...)
UseMethod("edit")
<environment: namespace:utils>
> x<-c(24,40,30,19,48,32,35,21,18,40)
> mean(x)
[1] 30.7
> sd(x)
[1] 10.16585

> 30.7-1.96*10.1658/3
[1] 24.05834
> 30.7+1.96*10.1658/3
[1] 37.34166
Suy ra khoảng tin cậy 95% cần tìm là [24,05834; 37,34166]
Nhận xét: Máy tính độ chính xác tốt hơn ta tính bằng thủ công.

2.2.2. Phương pháp ước lượng dựa vào phân phối tiệm cận
Phương pháp này ta không dựa vào hàm phân phối của X vì rằng ta chưa biết
được. Do vậy số lượng mẫu n phải lớn. Thông thường n  30 thì x có phân phối tiệm
 2
cận N   ,  nên ta sử dụng công thức ước lượng đã biết ở trên.
 n 
2.2.2.1. Ước lượng và khoảng tin cậy của tỉ lệ p (hay xác xuất p ) khi cỡ mẫu lớn và
p hoặc q  1  p không quá bé
Ví dụ. Khám n = 100 người trong 1 nhà máy thấy có 40 người mắc bệnh A. Hãy ước
lượng và tìm khoảng tin cậy của tỉ lệ mắc bệnh A trong nhà máy.
40
Ký hiệu pm   0, 4 là tần suất số người mắc bệnh A trong mẫu, p là tỉ lệ
100
bệnh A, p chưa biết cần ước lượng p. Ta biết rằng pm là một ước lượng điểm của p,
nhờ quy luật phân phối chuẩn ta có: Khoảng tin cậy của tỉ lệ bệnh A với độ tin cậy 
là:
 pq pq 
 pm  u ; pm  u 
 2
n 2
n 
pq pq
Tức là: u  p  pm  u thay n =100; pm =40% vào giải bất phương trình
2 n 2 n

56
X¸c suÊt & Thèng kª Y häc

 0,3  p  0,5 (vì  = 0,95 thì u = 1,96  2). Số u là số tra bảng chuẩn. Tóm
2 2

lại: Nếu pm là tần suất quan sát được trên mẫu có cỡ n ( n  30) thì tỉ lệ hay xác suất
p chưa biết của tổng thể (khi p không quá bé hoặc không quá lớn) sẽ nằm trong
 pm 1  pm  pm 1  pm  
khoảng tin cậy  pm  1,96 ; pm  1,96  với độ tin cậy 95%.
n n
 
Tương tự để độ dài khoảng ước lượng p không vượt quá 2 thì dung lượng mẫu:
u2
n 2

4 2
pm 1  pm 
Thường dùng công thức gần đúng là pm  2
n
pm 1  pm 
p sẽ nằm trong khoảng pm  2,58 với độ tin cậy 0.99. Nói cách
n
pm 1  pm 
khác với mức ý nghĩa  thì khoảng tin cậy của p là pm   ;  là độ lệch
n
thu gọn với mức ý nghĩa là  . (Bảng độ lệch thu gọn  sách ứng dụng thống kê trong
Y- Sinh học - Lê Khánh Trai; Hoàng Hữu Như , xem [2]).
Chú ý. Điều kiện áp dụng công thức tốt khi n pm  10; áp dụng được npm  5.
2.2.2.2. Ước lượng khoảng tin cậy của tỉ lệ (hay xác suất) p khi n lớn, p hay q khá
bé.
Ví dụ. Khám 20000 người thấy 23 người bị hủi. Tìm khoảng tin cậy của tỷ lệ bệnh
hủi.
Gọi p là tỷ lệ của tổng thể, p chưa biết, cần ước lượng p thông qua tần suất
23
mẫu pm   0, 00115 . Tra bảng 6 khoảng tin cậy 95% của tỷ lệ bé mẫu lớn; bảng
20000
này cho ta 2 giá trị np1 và np2 (dòng 20, cột 3) x = 23. np1 = 14,6; np2 =34,5
14, 6 34, 5
 p1   0, 000073; p2   0, 000172 . Vậy tỷ lệ bệnh hủi trong tổng thể
20000 20000
được ước lượng là p = 0,115% và có khoảng tin cậy là: (0,073%; 0,172%) với mức ý
nghĩa  =5%.
2.2.2.3. Ước lượng khoảng tin cậy của tỷ lệ (hay xác suất) p khi có mẫu n bé,
p không quá bé và q không quá lớn:
Ví dụ. Điều trị 9 người bệnh bằng 1 thuốc A thấy có 4 người khỏi bệnh. Tìm khoảng
tin cậy của tỷ lệ khỏi bệnh khi dùng thuốc A.
4
Cần ước lượng tỷ lệ khỏi bệnh bằng p bằng tần suất pm   44, 4% . Tra bảng
9
x
(khoảng tin cậy của tỷ lệ pm  của mẫu bé). Có hàng n = 9, cột x = 4 có 2 số 13,7 và
n

57
X¸c suÊt & Thèng kª Y häc

8,8. Vậy với độ tin cậy 95% thì khoảng tin cậy của tỉ lệ khỏi bệnh khi điều trị bằng
thuốc A là: [13,7; 78,8]. Hoặc bảng VIIIA xem [5].

BÀI TẬP CHƯƠNG 4

1. Phát ra 350 phiếu thăm dò về một chính sách nông nghiệp, ta thu được 250
phiếu ủng hộ việc áp dụng chính sách đó.
a) Tìm khoảng tin cậy 95% cho tỷ lệ phần trăm ủng hộ chính sách trên.
b) Với độ tin cậy 95%, cần phát ra tối thiểu bao nhiêu phiếu thăm dò để ước
lượng của tỷ lệ phần trăm ủng hộ chính sách không lệch quá 5% so với thực tế?
2. Xét một quy trình đóng gói một loại sản phẩm. Khi quy trình hoạt động tốt, thì
các gói sản phẩm có trọng lượng trung bình là 20 gam. Một mẫu ngẫu nhiên gồm 30
gói sản phẩm được chọn ra cho các trọng lượng như sau:
TL(gam) 19,8 19,9 20 20,1 20,2 20,3 20,4
Số gói 3 6 8 6 4 2 1
Giả sử trọng lượng các gói sản phẩm tuân theo luật phân phối chuẩn.
a) Hãy tìm kỳ vọng mẫu và phương sai mẫu, từ đó tìm khoảng tinh cậy 95%
cho kỳ vọng trọng lượng các gói sản phẩm.
b) Tìm khoảng tin cậy 95% cho phương sai trọng lượng các gói sản phẩm.
3. Một loại bệnh có tỉ lệ tử vong là10%. Muốn chứng tỏ loại thuốc có hiệu nghiệm
(Nghĩa là hạ thấp tỉ lệ tử vong) với độ tin cậy g = 95% thì phải thử ít nhất mấy
trường hợp.
4. Quan sát 200 lọ thuốc trong một lô hàng rất nhiều, ta thấy có 17 lọ không đạt tiêu
chuẩn. Hảy ước lượng tỉ lệ loại thuốc không đạt tiêu chuẩn với độ tin cậy  = 0,95.
5. Đo Cholesterolmie (đơn vị đo Mg %) của một nhóm người ghi được số liệu:

Chol 150 -160 160 -170 170 -180 180 - 190 190-200 200-210
Số người 3 9 11 3 2 1
2
a. Tìm X , S * .
b. Ước lượng trung bình Cholesterolmie trong dân số với độ tin cậy  = 0,95.
6. Một loài thuốc mới đem thử điều trị cho 50 người bị bệnh B kết quả 40 người khỏi
bệnh.
a. Hảy ước lượng tỷ lệ khỏi bệnh p nếu dùng thuốc trên với độ tin cậy cậy
g = 0, 95 .
b. Nếu muốn sai số không vượt quá 0,02 với độ tin cậy g = 0, 95 thì phải quan sát
mấy trường hợp.
7. Thống kê tuổi thọ trung bình của 256 bóng đèn một nhà máy sản xuất, ta thu được
bảng số liệu sau đây.

Khỏang 1100 1200 - 1300 1400 1500 1600 - 1700 - 1800 1900
[ai-1, ai) -1200 1300 -1400 -1500 -1600 1700 1800 -1900 -2000
Tầ số ni 14 16 20 36 48 42 32 26 22

58
X¸c suÊt & Thèng kª Y häc

a. Tính giá trị X , độ lệch tiêu chuẩn điều chỉnh mẫu.


b. Ước lượng tuổi thọ trung bình của loại bóng đèn do nhà máy sản xuất với độ tin
cậy  = 0,95.
c. Người ta qui định bóng đèn có tuổi thọ từ 1600 giờ trở lên là loại I. Hãy ước lượng
tỉ lệ và tuổi thọ trung bình của bóng đèn loại I với độ tinh cậy 99,73%.
8. Điều tra 425 con gia cầm ở khu vực A có 242 con bị cúm chủng H5N1.
a. Tìm khỏang tin cậy 95% cho tỷ lệ gia cầm bị cúm chủng H5N1.
b. Với độ tinh cậy 95%, cần điều tra tối thiểu bao nhiêu số liệu để tỉ lệ cúm gia cầm
của mẫu không lệch quá 2% so với tỉ lệ thực tế ?
9. Điều tra năng suất cà phê ở Đăk Lăk năm 2006 được kết quả

X 4,3 4,4 4,5 4,6 4,8 4,9


m 1 5 10 5 4 2

a. Lập hàm phâm phối thực nghiệm và vẽ đồ thị của nó.


b. Hãy ước lượng khoảng tin cây của năng suất cà phê ở Đăk Lăk năm 2006 với độ
tin cậy   95% .

Chương 5 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

§ 1 CÁC KHÁI NIỆM CHUNG


1.1. Khái niệm về giả thuyết thống kê
Thông thường khi xét một mẫu hay nhiều mẫu được chọn ra từ một tổng thể (dãy
số) nào đó, ta có thể nhận định tạm thời, có tính chất chủ quan về đặc điểm, dấu hiệu
mà ta đang nghiên cứu. Nếu đó là những nhận định về các tham số, về luật phân phối
của một biến ngẫu nhiên X nào đó tác động lên tổng thể, hay những nhận định về sự
khác nhau hay giống nhau của 2 kỳ vọng của 2 biến ngẫu nhiên, thì người ta gọi những
nhận định đó là các giả thuyết thống kê.
Những giả thuyết thống kê đưa dựa trên những thông tin chưa đầy đủ và những
suy đoán chủ quan nên chúng có thể đúng hoặc sai. Do đó chúng ta cần phải kiểm định
giả thuyết đó. Tức là xem giả thuyết đó có chấp nhận được không ? Chấp nhận ở mức
nào?
Các giả thuyết thống kê thường được kí hiệu H0, một mệnh đề trái với giả thuyết
H0 gọi là đối thuyết H1 hoặc đối thuyết K.
1.2. Miền bác bỏ, các sai lầm và mức ý nghĩa của kiểm định giả thuyết
1.2.1. Miền bác bỏ
Giả sử có giả thuyết H0 về dấu hiệu nào đó của tổng thể được tác động bởi biến
ngẫu nhiên X ta lập mẫu ngẫu nhiên cỡ n (X1, X2,... , Xn) nếu qua một giá trị của mẫu
ngẫu nhiên là một mẫu thực nghiệm (x1, x2,..., xn) điều tra được ta bác bỏ không thừa
nhận giả thuyết H0 thì (x1, x2,..., xn) được gọi là điểm bác bỏ của giả thuyết H0. Tập
hợp tất cả các điểm bác bỏ giả thuyết H0 gọi là miền bác bỏ giả thuyết H0. Miền đối
lập với miền bác bỏ giả thuyết H0 gọi là miền chấp nhận (giữ lại) của giả thuyết H0.

59
X¸c suÊt & Thèng kª Y häc

Việc kiểm định giả thuyết H0 thường là việc đi tìm miền bác bỏ của nó. Miền
bác bỏ của giả thuyết H0 thường được kí hiệu là W. Một phương pháp kiểm định giả
thuyết H0 là một cách chỉ ra miền bác bỏ W của H0. Vì vậy một phương pháp kiểm
định được gọi là một quy tắc kiểm định W.
1.2.2. Các loại sai lầm
Chúng ta biết rằng: Mẫu chưa phải là hình ảnh chính xác của tổng thể, các phần
tử của mẫu còn phụ thuộc vào việc chọn ngẫu nhiên các đối tượng của tổng thể, vì vậy
mỗi mẫu còn có những sai số ngẫu nhiên. Khi đưa mỗi mẫu vào kiểm định giả thuyết
H0. Chúng ta có thể mắc các loại sai lầm sau đây.
+ Sai lầm loại I: Tức là H0 đúng nhưng bác bỏ nó.
+ Sai lầm loại II: Tức là H0 sai nhưng ta vẫn chấp nhận nó.
Cả 2 loại sai lầm này đều có tác hại như nhau. Trong thực tế muốn giảm sai lầm
loại này thì sai lầm loại kia lại tăng lên. Chính vì thế mà trong thực hành người ta
thường cho trước sai lầm loại I bằng  (  thường là 0,05; 0,01;... ) gọi là mức ý nghĩa
của qui tắc và tìm qui tắc kiểm định W sao cho sai lầm loại II càng bé càng tốt.
Vậy để phát biểu bài toán kiểm định giả thuyết người ta phải đưa ra giả thuyết
H0, đối thuyết H1 (có tài liệu dùng đối thuyết K) và mức ý nghĩa  , sau đó dựa vào qui
luật phân phối xác suất để tìm miền bác bỏ W , cuối cùng dựa vào nguyên lý xác suất
nhỏ để kết luận suy diễn cho toàn dân số.

§ 2 MỘT SỐ BÀI TOÁN KIỂM ĐỊNH CỤ THỂ


2.1. Kiểm định giả thuyết về số trung bình
Giả sử (X1, X2,... , Xn) là 1 mẫu ngẫu nhiên rút từ biến ngẫu nhiên X, có
E  X    , D  X    2 ; với  cho trước ta kiểm định giả thuyết H0:   0 với một
trong các đối thuyết H1:    0 ,   0 ,    0 .
2.1.1. Nếu  2 đã biết ( test Z) có tài liệu gọi là test U
Giả thiết X N   ,  2  hoặc có mẫu n khá lớn ( n  30 ) khi đó ta thực hiện như
sau:
x  0
* Xuất phát từ mẫu thực nghiệm  x1 , x2 ,..., xn  tính x và U  n.

x u
1  du
* Với  đã cho tra bảng giá trị hàm    e 2

2 
  
Tìm U  hoặc U  từ hệ thức   U    1  ;  U    1  
2  2 2
So sánh U với U  hoặc U  .
2

+ Nếu U  U  bác bỏ H0:   0 , chấp nhận   0


2

+ Nếu U  U  bác bỏ H0:   0 , chấp nhận   0


+ Nếu U  - U  bác bỏ H0:   0 , chấp nhận    0
Nói cách khác miền bác bỏ H0:   0 / H1:   0

60
X¸c suÊt & Thèng kª Y häc

 x  0 
W   x1 , x2 ,..., xn  :
 n  U 
  2
 
Miền bác bỏ H0:   0 / H1:   0 là:
 x  0 
W   x1 , x2 ,..., xn  : n  U 
  
Miền bác bỏ H0:   0 / H1:   0 là:
 x  0 
W   x1 , x2 ,..., xn  : n  U  
  
2.1.2. Nếu  2 chưa biết (test T)
Giả thiết X N   ,  2  các bước tiến hành như sau:
2
* Xuất phát từ mẫu  x1 , x2 ,..., xn  tính x ; S * .
x  0
t n 1
S
* Với  đã cho, tra bảng phân phối Student (bảng T) bậc tự do ( n -1) để tìm
t  n  1 hoặc t  n  1 từ hệ thức
2

  
p Tn 1  t  n  1   1 
 2  2
p Tn 1  t  n  1   1  
So sánh t với t  n  1 hoặc t  n  1
2

+ Nếu t  t  n  1 bác bỏ H0:   0 , chấp nhận   0


2

+ Nếu t  t  n  1 bác bỏ H0:   0 , chấp nhận   0


+ Nếu t  - t  n  1 bác bỏ H0:   0 , chấp nhận    0
Ví dụ 1. Có tài liệu cho biết chiều cao trung bình của người Việt Nam là  0  160 cm.
Từ quan sát ngẫu nhiên chiều cao của n =70 người, tính được chiều cao trung bình là
x = 162 cm. Hỏi kết quả quan sát có phù hợp với giá trị cho biết không? Biết rằng
chiều cao X N   ,  2  với  2 =100. (Kết luận với  =5%).
Ta kiểm định giả thuyết H0:   160
H1:   160 ,  =0,05
x  0 162  160
Từ giả thiết ta tính U  n 70  1, 67
 10
x u2
1  du   
Với  =0,05 tra bảng   e 2
có   U    1   0,975 ; có:
2   2  2

61
X¸c suÊt & Thèng kª Y häc

U   1,96  U  1, 67  U   1, 96 nên chấp nhận H0. Tức là quan sát phù hợp với giá
2 2

trị cho biết.


Ví dụ 2. Tại phòng hộ sinh của 1 quận, đã tiến hành đo chiều cao của 50 trẻ em gái sơ
sinh thu được tính toán được x = 51 cm; s2 = 4. So với số liệu toàn thành phố: Chiều
cao của trẻ em gái sơ sinh là 51,5 cm. Hỏi chiều cao của trẻ em gái sơ sinh của quận
này có nhỏ hơn một cách đáng tin cậy không hay chỉ là hiện tượng ngẫu nhiên. (Kết
luận với  =0,05).
Đây là bài toán kiểm định số trung bình một phía.
Đặt giả thuyết H0:  = 51,5;
đối thuyết H1:  < 51,5;  = 0,05; n = 50; S * = 2.
x  0 51  51, 5
Tính t  
n 1 = 49  1, 75
S 2
p Tn1  t  n  1   1    p T49  t0,05  49    1  0, 05  0, 95 có t0,05  49  =1,68
So sánh t <- t0,05  49   Bác bỏ H0.
Kết luận: Chiều cao của trẻ em gái sơ sinh của quận so với toàn thành phố thấp hơn
trung bình 0,5 cm có giá trị tin cậy về thống kê (p < 0,05).

2.2. Kiểm định giả thuyết về xác suất (Kiểm định tỉ lệ)
2.2.1. So sánh tỷ lệ quan sát với 1 tỷ lệ có trước (Test Z)
Giả sử có 1 đám đông, A là một dấu hiệu cần nghiên cứu  P  A  p  ; quan sát
n lần thấy biến cố A xẩy ra m lần, khi đó ta cần kiểm định giả thuyết: H0: p  p0 .
Với một trong các đối thuyết H1: p  p0 ; p  p0 ; p  p0 , mức ý nghĩa  cho trước. Ta
m
- p0
tính lượng thống kê : Z = n n
p0 (1 - p 0 )
Khi đó miền tiêu chuẩn, (miền bác bỏ H0) tương ứng với các đối thuyết trên là:
ìï ü
ï
p = p0 / p ¹ p0 : W = í Z ³ U  ïý
ï
ïï ï
2 ïþ
î
p = p0 / p ¹ p 0 : W = {Z ³ U  }
p = p0 / p ¹ p 0 : W = {Z £ - U  }
Ví dụ 3. Một loại thuốc chữa bệnh trong quá trình thử nghiệm người ta khẳng định tỷ
lệ người khỏi bệnh khi dùng thuốc đó là 80%. Đưa thuốc đó ra sử dụng ở một bệnh
viện theo dõi trong 150 người dùng thuốc có 110 người khỏi. Vậy với  =0,05 có thể
coi rằng tỷ lệ khỏi bệnh là 80% được không?
Ta kiểm định tỉ lệ khỏi bệnh khi dùng thuốc A do đặt giả thuyết:
H0: p  0,80
H1: p  0,80;   0, 05

62
X¸c suÊt & Thèng kª Y häc

m 110
 0,80  0,80
Tính Z= n 150  150  12, 25  2,14;U 0,05  1, 96
0,8  0, 2 0, 4 2

 2,14  1,96 , vậy bác bỏ H0: p  0,80 chấp nhận H1: p  0,80 với   0, 05 .
Nếu kiểm định giả thuyết H0: p  0,80 ; H1: p  0,80;   0, 05 , có: U(0,05)=1,65
 2,14  1, 65 nên không chấp nhận H0: p  0,80 nhưng chấp nhận H1 p  0,80 .
Ví dụ 4. Một đám đông (dãy số) có dấu hiệu A với tỷ lệ 20% đã biết qua nhiều lần
quan sát, lấy từ tổng thể (dãy số) đó ra 50 đối tượng và tác động vào một yếu tố nghiên
cứu B, sau đó kiểm tra thấy thấy có 20 đối tượng có dấu hiệu A. Hỏi yếu tố nghiên cứu
B có là tăng tỉ lệ dấu hiệu A của tổng thể lên không? Kết luận với  = 0,05.
Đặt giả thuyết:
H0: p  0, 20
H1 : p  0, 20;   0, 05
Ở đây n  50; p0  20%  0, 02; m  20
m 20
 0, 20  0, 20
Tính n 150  50  7, 07  3,535; U 0,05  1, 65
0, 2  0,8 0, 4
 3,535  1, 65 nên bác bỏ H0: p  0, 20 , chấp nhận H1: p  0, 20 . Tức là yếu tố
B đã làm tăng tỉ lệ dấu hiệu A có ý nghĩa.
2.2.2. So sánh 2 tỷ lệ (Test Z)
Giả sử có hai mẫu ngẫu nhiên:
1 co xa c suaˆ t p1
 X , X ,..., X  trong đó:
1 2 n1 Xi  
co xa c suaˆ t q1  1  p1
0
n1
m1   X i chính là số lần xảy ra biến cố A với p1  P  A 
i 1

1 co xa c suaˆ t p2
và Y1 , Y2 ,..., Yn 2
 trong đó: Y  0
i
co xa c suaˆ t q 2  1  p2

n2
m2   Y j chính là số lần xảy ra biến cố A với p2  P  A 
j 1

Bài toán đặt ra là: Kiểm định giả thuyết: H0: p1  p2 , với một trong các đối thuyết H1
sau: p1  p2 hoặc p1  p2 hoặc p1  p2 .
Vì E  X i   p1 , E Y j   p2 , D  X i   p1 1  p1  , D Y   p2 1  p2  cho nên so
sánh hai xác suất p1, p2 chính là so sánh 2 giá trị trung bình E  X i  , E Y j  với phương
sai chưa biết.
Nếu giả thuyết H0 đúng: p1  p2 thì D  X i   D Y j  và kí hiệu chung là  2 khi đó
D  X  D Y  1 1

D X Y   n1

n2
  2    . Để ước lượng phương sai chung  2 , từ hai
 n1 n2 

63
X¸c suÊt & Thèng kª Y häc

mẫu đã cho ta gộp lại thành 1 mẫu cỡ n1  n2 từ đó ước lượng cho phương sai
m1  m2  m1  m2 
 2 = D  X   D Y  là 1  
n1  n2  n1  n2 
m1  m2  m1  m2  1 1 
Do đó D  X  Y   1    
n1  n2  n1  n2  n1 n2 

Với n1 , n2 đủ lớn, xấp xỉ phân phối của


 X Y   0 bởi phân phối chuẩn
D X Y 
m1 m2

X - Y n1 n2
N(0,1). Tính Z = = . Ta nhận được các
D (X - Y ) m1  m2  m1  m2  n1  n2 
1   
n1  n2  n1  n2  n1  n2 
miền bác bỏ tương ứng với các đối thuyết là:
ìï ü
ï
p1 = p2 / p1 ¹ p2 : W = ïí Z ³ U  ïý
ïï ïï
î 2þ

p1 = p2 / p1 > p2 : W = {Z ³ U  }
p1 = p2 / p1 < p2 : W = {Z £ - U  }
Ví dụ 5. Kiểm tra chất lượng sản phẩm ở 2 lô hàng (rất nhiều) lô I có 18 sản phẩm
hỏng, trên 150 sản phẩm được kiểm tra ngẫu nhiên, trong khi đó ở lô II có 20 sản
phẩm hỏng trên 250 sản phảm được kiểm tra. Hỏi chất lượng sản phẩm ở hai lô có như
nhau không ? Kết luận với  = 0,05.
Cần kiểm định: H0: p1  p2
H1: p1  p2 ,  = 0,05.
p1 ; p2 là tỷ lệ phế phẩm (sản phẩm hỏng) thông qua 2 mẫu:
n1  150; m1  18
n2  250; m2  20
18 20

Tính: U  150 250  1,32; U   1,96
38  38  400  2
1   
400  400  150  250 
Có U < U   Chấp nhận giả thuyết H0. Nghĩa là chất lượng của 2 lô hàng
2

như nhau.
2.3. Kiểm định hai số trung bình của hai dân số
Giả sử ta có 2 biến ngẫu nhiên X và Y với E  X   1; D  X    12 ;
E Y    2 ; D Y    22 .

64
X¸c suÊt & Thèng kª Y häc

Giả sử  X 1 , X 2 ,..., X n
1
 và Y , Y ,..., Y  là hai mẫu ngẫu nhiên độc lập với nhau
1 2 n1

được rút từ hai biến ngẫu nhiên X , Y tương ứng. Bài toán đặt ra là:
Kiểm định giả thuyết: H0: 1   2 đối với một trong các đối thuyết
H1: 1   2 ; 1   2 ; 1   2 .
2.3.1. Hai dân số có phân phối chuẩn
Giả sử X N  1 ,  12  , Y N   2 ,  2 2  . Chúng ta lấy mẫu thực nghiệm tương

( )
ứng cở n 1 từ X là x 1, x 2, ..., x n ; lấy mẫu thực nghiệm tương ứng cở n 2 từ Y là
1

(y , y ,..., y ). Khi đó X = x ,
1 2 n2
Y = y ; S X2 = v ar(x ), SY2 = v ar(y )
2.3.1.1. Nếu  12 ,  22 đã biết (test Z)
Khi đó ta thực hiện các bước như sau:
X - Y
Xuất phát từ 2 mẫu đã cho tính X , Y và Z =
 12  22
+
n1 n2
x t2
1 
Với  đã cho ta bảng f  x   e 2
dt tìm U  hay U  .
2  2

 Ta có miền bác bỏ H0:


ìï ü
ï
1 = 2 / 1 ¹ 2 : W = í Z ³ U  ïý
ï
ïï ï
2 ïþ
î
1 = 2 / 1 > 2 : W = {Z ³ U  }
1 = 2 / 1 < 2 : W = {Z £ - U }
Cơ sở của phép kiểm định trên là: Vì X , Y là hai biến ngẫu nhiên có phân phối
  12  2 2 
chuẩn  X - Y N  1   2 ,   nên nếu H0 đúng  1   2
 n1 n2 
2 2
2.3.1.2. Nếu  ,  2 chưa biết (test T)
1

Trong trường hợp này ta phải giả thiết  12   2 2 khi đó ta làm như sau:
- Xuất phát từ hai mẫu đã cho tính X , Y , S X 2 , SY 2
X- Y
- Tính t 
n1S X 2 +n2 SY 2 n1  n2
n1  n2  2 n1  n2
Với  đã cho tra bảng Student tìm t  n1  n2  2  hoặc t  n1  n2  2 
2

Miền bác bỏ H0 tương ứng là:


 
1   2 / 1  2 : W   t  t  n1  n2  2  
 2 

65
X¸c suÊt & Thèng kª Y häc

1   2 / 1  2 : W  t  t  n1  n2  2 
1   2 / 1  2 : W  t  t  n1  n2  2 
Ví dụ 6. Ở một công ty nào đó có cả công nhân nam và công nhân nữ cùng làm một
công việc như nhau. Người ta nghi ngờ rằng năng suất trung bình/ giờ của nam cao
hơn nữ. Để kiểm tra xem điều nghi ngờ trên có đúng không? Người ta lấy ngẫu nhiên
2 mẫu với n1  n2 =36 và tính được X = 65; Y  58 ( X , Y là năng suất/ giờ của nam
và nữ tuân theo luật chuẩn). Giả sử X , Y có phương sai như nhau và bằng 32
(  12 =  22 =32) với  = 0,05, có thể nói rằng sự khác nhau là có ý nghĩa và thực sự
năng suất trung bình của nam cao hơn nữ hay không?
Ở đây  12 ,  22 đã biết n1  n2 =36
Ta kiểm định giả thuyết: H0: 1   2
H1: 1   2 ,  = 0, 05 .
X - Y 65 - 58
Ta có Z = = = 5, 25
 12  22 2´
32
+
n1 n2 36
 = 0,05 có U  =1,65  5,25 > 1,65  H0 bị bác bỏ, tức là điều nghi ngờ
trên là đúng.
Ví dụ 7. Hàm lượng kiềm trong phun trào ở Ebeo và Vecnatski (thuộc Liên xô cũ)
theo 2 mẫu cỡ n1 =34; n2 =50. Qua tính toán ta nhận được X =4,62; Y  5,19
S X 2  2,52, SY 2  2,83 với  = 0,05. Hãy kiểm tra giả thiết cho rằng hàm lượng kiềm
trong 2 khối trên là bằng nhau (giả thiết rằng hàm lượng kiềm tuân theo luật chuẩn).
Ta kiểm định giả thuyết: H0: 1   2
H1: 1  2 ;  = 0,05.
Phương sai chưa biết. Ta tính:
X- Y 4, 62  5,19
t   1,543
n1S X 2 +n2 SY 2 n1  n2 34  2, 52  50  2,83 34  50
n1  n2  2 n1  n2 34  50  2 34  50
Tra bảng T có t 0,05  82   2 vậy t  t 0,05  82  nên chấp nhận H0. Ta chấp
2 2

nhận hàm lượng kiềm trong phun trào của 2 khối là như nhau.
Vấn đề đặt ra là: Nếu trong 2 tổng thể chưa biết luật phân phối thì kiểm định như thế
nào ? Trong trường hợp mẫu lớn thì sao?
2.3.2. Hai dân số có luật phân phối chưa biết
Trường hợp này chúng ta phải thu thập mẫu có số lượng lớn, nếu hai cỡ mẫu
n1 , n2 đều đủ lớn khi đó  12 ,  2 2 đã biết thì theo định lý giới hạn trung tâm X , Y có
phân phối giới hạn là chuẩn. Nếu  12 ,  22 chưa biết thì thay  12 bởi S12 ,  2 2 bởi S 22
chúng ta lại áp dụng như trường hợp phương sai chưa biết.

66
X¸c suÊt & Thèng kª Y häc

Tóm lại: Trong trường hợp n1 , n2 đủ lớn chúng ta giải bài toán so sánh 2 giá trị
trung bình như sau:
- Xuất phát từ mẫu tính X , Y .

- Tình S12 và S 22 (nếu  12 ,  22 chưa biết). Tính S 2 


 n1  1 S12   n2  1 S2 2
n1  n2  2
X - Y
- Tính Z = (Nếu  12 ,  22 đã biết). Nếu  12 ,  22 chưa biết thì
 12  22
+
n1 n2
thay  12   2 2  S 2 để tính Z , cũng có thể thay S12 =  12 , S 22 =  2 2
Với  cho trước tra bảng tìm U  hoặc U   Các miền tiêu chuẩn (miền bác bỏ
2

ïì ïü
H0 là: 1 = 2 / 1 ¹ 2 : W = ïí Z ³ U  ïý
ïï ïï
î 2þ

1 = 2 / 1 > 2 : W = {Z ³ U  }
1 = 2 / 1 < 2 : W = {Z £ - U }
Trong thực tế n đủ lớn tức là n  100 .
Ví dụ 8. Để có chính sách hỗ trợ việc chăm sóc nuôi dưỡng trẻ sơ sinh (chẳng hạn
tiêu chuẩn PAM) người ta thống kê trọng lượng trẻ sơ sinh ở một nhà hộ sinh ở thành
phố và ở vùng nông thôn. Gọi X , Y là trọng lượng trẻ sơ sinh ở thành phố và ở nông
thôn tương ứng. Kết quả thông kê bỏ qua phần tính toán nhận được:
150 cháu ở thành phố X =3200 g, S X 2 =40 000
200 cháu ở nông thôn Y =3000 g, SY 2 =90 000
với  =0,05 có thể kết luận trọng lượng trung bình của các cháu sơ sinh ở nông thôn
nhẹ hơn ở thành phố không?
Ta kiểm định giả thuyết: H0: E  X  =E Y 
H1: E  X   E Y   =0,05
Thông qua mẫu thu được  12 ,  22 chưa biết.
3200  3000
Tính U  7, 45
40000 90000

150  1 200  1
Tra bảng U (0,05)=1,65 có U > U (0,05)  Bác bỏ H0: Nghĩa là trọng lượng trẻ sơ
sinh ở thành phố lớn hơn ở nông thôn có ý nghiã.
Trường hợp mẫu nhỏ thì sao? Khi không biết luật phân phối. Trong trường hợp
này ta có thể dùng tiêu chuẩn hạng của Mann-Whitney hoặc dùng tiêu chuẩn  2 (khi
bình phương).
2.4 Kiểm định bằng test  2

67
X¸c suÊt & Thèng kª Y häc

Ở Mục 2.3. ta đã xét bài toán so sánh 2 tỷ lệ trong trường hợp mẫu lớn. Vấn đề
đặt ra là so sánh 2 tỷ lệ mẫu bé, hoặc so sánh 1 lúc lớn hơn 2 tỷ lệ thì sao? Để giải
quyết vấn đề này ta dùng test  2 . Đúng như vậy dùng test  2 còn cho chúng ta so
sánh sự độc lập các yếu tố, sự phù hợp với một quy luật phân phối v.v... Để làm quen
với phương pháp này ta xét các trường hợp sau:
2.4.1. Kiểm định sự phù hợp đối với một phân phối lý thuyết
Giả sử có mẫu ngẫu nhiên (X 1, X 2,..., X n ) lấy từ biến ngẫu nhiên X có hàm phân
phối F (x ) đã biết, bài toán đặt ra là: Biến ngẫu nhiên X có hàm phân phối F (x ) có
đúng ? Nói cách khác số liệu thực nghiệm (x 1, x 2,..., x n ) có phù hợp với giả thiết lý
thuyết X có phân phối F (x ) hay không? Để giải quyết bài toán trên ta tiến hành các
bước sau:
+ Chia khoảng giá trị có thể của biến X thành k khoảng rời nhau S1, S2, …, Sk.
k
+ Đếm mi số các giá trị quan sát rơi vào khoảng Si , å mi = n .
i= 1

+ Vì F (x ) đã hoàn toàn đã biết nên ta tính được các giá trị pi = P {X Î S i }, i = 1, k .


2

2
k (m i
- npi )
+ Tính tổng  = å npi
.
i= 1

+ Với  đã cho, tra bảng phân phối  2 với bậc tự do k-1, ta tìm được số k2- 1 ( )sao
cho P {k2- 1 ³ k2- 1 ( )}=  . Khi đó:
+ Nếu  2 ³ k2- 1 ( ) ta bác bỏ giả thuyết biến ngẫu nhiên X có phân phối F (x ),
+ Nếu  2 < k2- 1 ( ) ta chấp nhận giả thuyết biến ngẫu nhiên X có phân phối F (x ).
Ví dụ 9. Buffon đã tung đồng tiền cân đối, đồng chất 4040 lần thấy có 2048 lần sấp.
Hỏi rằng kết quả thực nghiệm đó có phù hợp với giả thuyết cho rằng xác suất của việc
xuất hiện mặt sấp bằng 0,5 hay không. ( = 0, 05).
Ta có n=4040. k=2, m1=2048, m2=1992, p1=P(S)=0,5; p2=P(N)= 0,5;
2 2 2 2

2
 =
(m 1
- np1 )
+
(m 2
- np2 )
=
(2048 - 2020)
+
(1992 - 2020)
= 0, 776 .
np1 np2 2020 2020
Với ( = 0, 05), tra bảng có 12 (0, 05) = 3, 841 . Vậy  2 < k2- 1 ( ) nên ta chấp nhận
phân phối lý thuyết P(S) = 0,5.
2.4.2. Kiểm định tính độc lập giữa các biến ngẫu nhiên
Giả sử ta có mẫu ngẫu nhiên cở n quan sát đồng thời về hai biến ngẫu nhiên X và
Y: (X1, Y1) , (X2, Y2), …, (Xn, Yn).
Giả thuyết H0: X và Y độc lập với nhau,
Đối thuyết H1: X và Y không độc lập, mức  .
Ta ghép các giá trị mẫu (X1, …,Xn) thành r khoảng, và ghép các giá trị mẫu (Y1,…,Yn)
thành s khoảng. Khi đó ta nhận được bảng số liệu hai lối vào gồm r´ s Ô chữ nhật con

68
X¸c suÊt & Thèng kª Y häc

. Gọi Ô (i, j) là Ô ở hàng i cột j. Đếm các số quan sát từ mẫu đã cho rơi vào Ô (i, j), ký
hiệu số đó là nij , i=1,2,…,r; j=1,2,…,s. Nói cách khác nij , i=1,2,…,r; j=1,2,…,s. là số
các giá trị mẫu mà có giá trị mẫu theo X rơi vào khoảng thứ i, giá trị mẫu theo Y rơi
vào khoảng thứ j .
s r r s æn ´ n ö÷
ç .j ÷
Ký hiệu n i . = å n ij ; n.j = å n ij ; n = å å n ij ; n ij = Qij ; Cij= çç i . ÷.
j=1 i= 1 i= 1 j = 1
çè n ø÷ ÷

Y 1 2 . . . . j . . . . s å
X
1 n 11 n 12 …………… n 1j . ……….. n 1s n 1.
2 n 21 n 22 …………… n 2j . ……….. n 2s n 2.
.
.
.
i n i1 ni2 …………… n ij æn ´ n ö÷
çç i . .j ÷
n is n i.
çç n ÷ ÷
è ø÷
.
.
.
r nr1 nr2 …………… n rj . ……….. n rs nr.
å n .1 n .2 …………… n .j . ……….. n .s n
æn ´ n ö÷
Đối với mỗi Ô (i, j ) ở bảng trên ta tính tần số lý thuyết ççç i . .j ÷
÷. Để tiện ta đặt các số
çè n ø÷ ÷
2
æ n i . ´ n . j ö÷
çç ÷
n
çç ij - ÷ 2
n ÷ s Q  C 
r s
è ø÷ r
ij ij
này trong (.) cạnh n ij . Bây giờ tính m2 = å å =  .
i= 1 j= 1 n i. ´ n . j i 1 j 1 Cij
n
2
+ Với  đã cho, tra bảng phân phối  với bậc tự do (r-1)´ (s-1), ta tìm được số
(2r - 1)(s - 1) ( )sao cho P {(2r - 1)(s - 1) ³ (2r - 1)(s - 1) ( )}=  .
+ Nếu m 2 ³ (2r - 1)(s - 1) ( ) ta bác bỏ giả thuyết H0,
+ Nếu m 2 < (2r - 1)(s - 1) ( ) ta chấp nhận giả thuyết H0 .
2.4.3. So sánh một lúc nhiều tỉ lệ
Ví dụ 10. Để so sánh 2 phương pháp điều trị A và B người ta áp dụng A cho 100 bệnh
nhân với kết quả 40 người khỏi bệnh, và B cho 300 bệnh nhân với kết quả 100 người
khỏi bệnh. Hỏi với mức ý nghĩa  =0,05 phương pháp nào tốt hơn.
Đặt giả thuyết H0: Hiệu lực 2 phương pháp như nhau.
Đối thuyết H1: Hiệu lực 2 phương pháp khác nhau.

69
X¸c suÊt & Thèng kª Y häc

Chúng ta kiểm định giả thuyết H0 với mức ý nghĩa  = 0,05.


140
Theo giả thuyết H0 thì ta có tỷ lệ khỏi bệnh chung là và tỉ lệ không khỏi
400
60  200
bệnh chung là . Theo tỷ lệ đó (gọi là tỷ lệ lý thuyết pi) ta lập bảng liên tiếp
400
2  2 = 4 ô và tình tần số khỏi bệnh chung là Ci= ni ´ pi (số ghi trong ngoặc).
Kết quả
Khỏi Không khỏi Tổng
Phương pháp
40 60
A 100
(35) (65)
100 200
B 300
(105) (195)

Tổng 140 260 n = 400

2
2
Tính  m   j
Q ij  Cij 
với Qij là số quan sát số ghi trong ô, Cij là số ghi trong
i Cij
ngoặc đơn (.).
2 2 2 2

Tính  m 2 
 40  35  
100  105 
 60  65 
 1, 46 
 200  195 
35 65 105 195
Tra bảng  2 bậc tự do ( 2-1)´ ( 2-1) =1,  = 0,05 có  2 = 3,84. So sánh  m 2
với  2 có  m 2 <  2  Sự khác biệt không có ý nghĩa. Kết luận: Chấp nhận H0.
Ví dụ 11. Để so sánh 4 phương pháp điều trị A, B, C, D người ta áp dụng A cho 58
bệnh nhân, B cho 225 bệnh nhân, C cho 144 bệnh nhân và D cho 200 bệnh nhân.
Nghĩa là mẫu gồm 627 bệnh nhân. Kết quả cho bởi bảng sau:
Phương pháp A B C D 
Kết quả

Khỏi 35 140 72 128 375


Đỡ 17 59 63 61 200
Không khỏi 6 26 9 11 52
 58 225 144 200 627
Hỏi với  = 0,05 hiệu lực các phương pháp có khác nhau không?
Giải. Đặt giả thuyết H0: Hiệu lực các phương pháp chữa bệnh là ngang nhau
Đối thuyết H1 là: Hiệu lực các phương pháp chữa bệnh không ngang nhau
Mức kiểm định  = 0,05.
Giả sử H0 đúng thì 4 phương pháp ta xem như 1 phương pháp, nhờ đó ta tính tần số
khỏi bệnh, bệnh đỡ, không khỏi lý thuyết (số ghi trong ngoặc) ở bảng

70
X¸c suÊt & Thèng kª Y häc

P.Phỏp A B C D 
K. quả

Khỏi 35(34,69) 140(134,57) 72(86,12) 128(119,62) 375


Đỡ 17(18,5) 59(71,78) 63(45,93) 61(63,80) 200
Không khỏi 6(4,81) 26(18,66) 9(11,94) 11(16,59) 52
 58 225 144 200 627
2
2
Tính  m  
Qij  Cij 
=
i j Cij
2 2 2
 35  34, 69  
140  134, 57   ... 
11  16,59 
 17, 5859
34, 69 134, 57 16, 59
Tra bảng có  02,05 ( 6)  12, 5916 . So sánh  m2  17, 5859   02,05  6   12, 5916 nên H0 bác
bỏ. Vậy hiệu lực các phương pháp chữa bệnh trên khác nhau. Kết luận  = 0,05
Lưu ý. 1. Nếu trong các tần số lý thuyết có ít nhất một tần sô nhỏ hơn 5 thì ta tính
2

 m2 bằng công thức hiệu chỉnh  m2  


O ij  Cij  0, 5 
i j Cij
2. Đối với test  2 mà khi chỉ so sánh 2 tỉ lệ , người ta không cần tính các tần
số lý thuyết mà vẫn tính được  m2 nhanh chóng nhờ công thức sau

A B Tổng
Khỏi bệnh a b a +b
Không khỏi c d c+d
Tổng a +c b+d n = a +b+c+d
2

 m2 =
(ad - bc ) ´ n
(a + b)(c + d )(a + c )(b + d )
2.5. So sánh hai số trung bình khi có mẫu bắt cặp
Trong một số trường hợp nghiên cứu ta thu được mẫu thực nghiệm là hai dãy số
liệu có từng cặp số liệu tương ứng mà trong thống kê mẫu được thu như vậy gọi là
mẫu bắt cặp. Chẳng hạn trong Y học ta thu được số liệu đo huyết áp của 30 bệnh nhân
trước khi điều trị và sau khi điều trị bằng một loại thuốc nào đó. Như vậy mỗi cặp số
liệu thu được xuất phát từ một bệnh nhân cụ thể. Trong chăn nuôi ta thu được trọng
lượng của 40 con lợn trước và sau một thời gian nuôi 150 ngày bằng một loại thức ăn
nghiên cứu như vậy ta thu được một mẫu bắt cặp có khi gọi là mẫu từng cặp.
Ví dụ 12. Để đánh giá tác dụng của một chế độ ăn bồi dưỡng mà chỉ tiêu quan sát là
số hồng cầu, người ta đếm số hồng cầu của 33 người ở một thời điểm A trước khi bồi
dưỡng và ở một thời điểm B sau khi bồi dưỡng và thu được số liệu như sau:

71
X¸c suÊt & Thèng kª Y häc

xA :105 45 36 47 40 45 35 36 50 50 40 40 30 45 30 45
xB :105 48 40 53 40 46 30 40 60 60 40 40 35 50 40 60

40 50 40 50 40 55 30 40 40 38 35 40 35 38 50 45 30 38
45 50 40 45 35 50 35 45 35 35 40 45 37 35 50 50 33 30
Hỏi có phải do tác dụng của chế độ ăn bồi dưỡng đã đưa đến kết quả số hồng cầu trước
và sau khi bồi dưỡng khác nhau thực sự không ? kết luận với mức ý nghĩa 5%.
Giải: Giả thuyết H 0 là số hồng cầu trước và sau chế độ ăn bồi dưỡng là như nhau
Đối thuyết H 1 là số hồng cầu trước và sau chế độ ăn bồi dưỡng là khác nhau
 = 0, 05 .
Ta xét các hiệu x d = x A - x B và tính số trung bình các hiệu
1 33 1 33 1 33 2
xd = å (x
33 1 A
- x B)
= å x = 2, 33;
33 1 d
d = å
32 1
(x d - x d ) = 4, 86

xd 2, 33
Tính lượng thống kê Z = n = 33 = 2, 78.
d 4, 86
Tra bảng hàm Laplat tìm số U  = U 0,025 = 1, 96 .
2

So sánh Z với U  = U 0,025 = 1, 96 , ta thấy Z > U  nên kết luận sự khác nhau có ý
2 2
nghĩa hồng cầu trước và sau khi ăn bồi dưỡng với  = 0, 05
Tóm lại: Để so sánh hai số trung bình khi có số liệu từng cặp ta thực hiện như sau:
Bước 1. Đặt giả thuyết H0: Sự khác nhau không có ý nghĩa, đối thuyết H1 khác nhau có
ý nghĩa, mức  . Tìm hiệu số từng cặp số liệu x d = x A - x B
Bước 2. Tìm trung bình cộng các hiệu x d và độ lệch chuẩn các hiệu số  d
xd
Bước 3. Tính lượng thống kê Z = n , trong đó n là số cặp số liệu
d
Bước 4. Tra bẳng hàm Laplat tìm U  rồi so sánh Z với U 
2 2

+ Nếu Z > U  , Bác bỏ H0 tức là kết luận sự khác nhau có ý nghĩa.


2
+ Nếu trái lại thì chấp nhận H0 kết luận là khác nhau không có ý nghĩa.
Ở mục trên chúng ta đã xét bài toán so sánh 2 số trung bình của hai tổng thể,
câu hỏi nảy sinh là có so sánh nhiều số trung bình của nhiều tổng thể hay không ? làm
bằng cách nào? Để trả lời câu hỏi đó ta xét bài toán phân tích phương sai sau đây.

2.6. So sánh một lúc nhiều số trung bình (ANOVA)

72
X¸c suÊt & Thèng kª Y häc

Khi nghiên cứu k nhóm dân số a1, a 2 ,..., ak ,dựa trên các số trung bình
x 1, x 2 , ..., x k , ta phải trả lời câu hỏi: “Sự khác nhau giữa các số trung bình là do ngẫu
nhiên chọn mẫu hay do tác động của các yếu tố nghiên cứu?” Như khi so sánh hai số
trung bình, ở đây ta cũng đặt giả thuyết H0 là: “Các nhóm a1, a 2 ,..., ak cùng thuộc một
quần thể và sở dĩ các số trung bình khác nhau là do ngẫu nhiên lấy mẫu”. Nếu không
chứng minh được điều đó, ta kết luận: Các số trung bình là khác nhau có ý nghĩa. Việc
làm như thế là kiểm định giả thuyết H0. Để kiểm định giả thuyết H0 đó ta có thể nghĩ
đến việc so sánh từng cặp số trung bình như đã làm trong phần trước. Nhưng có một
phương pháp cho phép ta kiểm định một lúc tính thuần nhất của tất cả các số trung
bình nói chung, nhờ đó ta có thể kết luận chúng thuộc hay không thuộc một quần thể
(một dân số). Phương pháp đó được gọi là phân tích phương sai (analysis of variance)
do nhà thống kê học người Anh R.A.Fisher đề ra và được áp dụng rộng rải trong Sinh
học và Y học để phân tích số liệu thí nghiệm.

2.6.1. Bài toán phân tích phương sai một yếu tố

Giả sử yếu tố A có k mức a1, a 2 ,..., ak . Kết quả điều tra N số liệu phân bố cho
từng mức như sau

a1 a2 ………………………. ak

x 11 x 21 ………………………… xk1

x 12 x 22 ………………………… xk2

. . ………………………… .

x 1n ………………………… x kn
1 k

x 2n …………………………
2

Cần xét ảnh hưởng của yếu tố nghiên cứu A đến kết quả của từng mức (nhóm) .Ta cần
so sánh các số trung bình x 1, x 2 , ..., x k , xem chúng khác nhau có ý nghĩa hay không.

Cách làm như sau:

Tính
n1 n2 nk k k ni
1 1 1 1
x1 =
n1
å x 1j ; x 2 = n å x 2 j ;...., x k = n å x kj ; N = å n i ; x = N å å x ij ;
j= 1 2 j= 1 k j=1 i= 1 i= 1 j= 1

73
X¸c suÊt & Thèng kª Y häc

Tính tổng bình phương độ lệch giữa các cá thể và trung bình mẫu cho toàn thể:
2 2
QT = å å (x ij
- x )=å å x ij2 - N (x ) .
i j i j

Tính tổng bình phương chênh lệch giữa các mức biểu thị sự sai lệch do các cá thể và
các yếu tố A gây ra.
k
2 2
Qf = å n i (x i - x ) = å n i x i2 - N (x ) .
i i=1

2
Qf 2Qr S f2
Tính S =
f
; S = r
;F = 2
k- 1 N- k Sr

2
Tính Qr = QT - Q =
f
å å (x ij
- xi )=å å x ij2 - å n i y i2 . Nếu F lớn nghĩa Là
i j i j i

S f2 Lớn hơn S r2 rất nhiều suy rặ khác biệt giữa các mức của yếu A và không ảnh
hưởng đến kết quả.. Nhưng rất lớn là thế nào ? Có ngưởng không? Câu trả lời là có.
Do F có phân phối Fisher (k-1, N-k) nên tra bảng F tìm được F1-  (k - 1, N - k ) nhờ
bảng. So sánh F với số tra bảng có: Nếu F<= F1-  (k - 1, N - k ) thì chấp nhận H0.
Trái lại bác bỏ H0.
Ví dụ 13. Người ta so sánh tác dụng tăng cân nặng của 3 chế độ ăn uống I, II, III. Một
mẫu 36 thanh niên thuần nhất về phương diện tuổi, thể lực được chọn thành 3 nhóm,
mỗi nhóm 12 người theo một chế độ. Trong quá trình thí nghiệm 4 thanh niên bị loại
vì không tuân theo cách sinh hoạt đề ra trong kế hoạch. Còn lại 3 nhóm n1=10, n2=10,
n3=12 người . Mỗi người được cân trước và cuối thời gian thí nghiệm. Lượng tăng cân
được tính bằng hectogam (100g) ghi lại trong bảng sau:

Nhóm I Nhóm II
Nhóm II
10 29
21
7 33
24
5 30
31
0 24
23
12 25
27
11 34
25
7 36
33
10 37
29
13 32
29
15 30
31
36
27
Hỏi tác dụng tăng cân của 3 chế độ ăn có khác nhau không với xác suất P<0,01.

74
X¸c suÊt & Thèng kª Y häc

Giải. Đây là bài toán phân tích phương sai một yếu tố, có 3 mức.
Đặt giả thuyết H0 : Tác dụng tăng cân của ba chế độ ăn bồi dưỡng là như nhau.
Đối thuyết H1: Tác dụng tăng cân của ba chế độ ăn bồi dưỡng là khác nhau,
 = 0, 01 .
Tính các thống kê sau:
x 1 = 9; x 2 = 31 ; x 3 = 28 ; N = n 1 + n 2 + n 3 = 10 + 10 + 12 = 32
32

å xi
90 + 310 + 336
i= 1
x =
N
=
32
= 23 , å x i = 90; 310; 336 ;

å x i2 = 982; 9776; 9618 ;


2 2 2
å å x ij2 = 27494 ; å n i x i2 = 10 ´ (9) + 10 ´ (31) + 12 ´ (28 ) = 19828
q N ´ x 2 = 32 ´ 232 = 16928 .
ìï
ïï å å x ij2 = 27494
ï 2
í å n i x i = 19828
ïï
ïï N ´ x 2 = 16928
î
Bảng phân tích phương sai

I II III
10 29 21
7 33 24
5 30 31
0 24 23
12 25 27
11 34 25
7 36 33
10 37 29
13 32 29
15 30 31
36
27
n = 10 10 12
xi = 9 31 28
å xi 90 310 336
å x i2 982 9776 9618

75
X¸c suÊt & Thèng kª Y häc

2 2
QT = å å x - Nx = 10566
ij
2 2
Qf = å n x - Nx = 2900
i i
Qr = QT - Q f = 7666
Bảng Anova

Nguồn gốc Tổng bình phương Độ tự do k-1 Phương sai F


đô lệch
Giữa các nhóm 2.900 2 1450 5,4853

Trong từng 7.666 29 264,3448


nhóm ngẫu
nhiên
Cộng 10.566 31

Nếu H0 đúng thì F có phân phối Fisher (2; 29). Do đó với  = 0, 01


æ C ö÷
P çççF > ÷ Þ C = 3, 47 Þ F > C bác bỏ H0 , tức là : Tác dụng tăng cân của ba
è H÷ ø
chế độ ăn bồi dưỡng là khác nhau,  = 0, 01 .
Quan ví dụ trên ta rút ra các bước giải một bài toán phân tích phương sai một nhân tố
như sau:
Bước 1. Tính x i i = 1, 2, ..., k (k là số nhóm)
1 2
Bước 2. Tính å å x ij Þ x = å å x ij ; N ´ (x )
i j N i j
k 2 k
Bước 3. å å x ij2 ; Qf = å n i x i2 - N ´ (x ) ; Qr = å å x ij2 - å n i x i2 .
i j i= 1 i j i=1

Sau đó lập bảng Anova

Nguồn Tổng BP Độ lệch Độ tự do Phương sai


Giữa các mức yt A Qf k-1 S 12
…… …..
Trong từng mức Qr N-k S r2

2
Qf 2 Qr S f2
Tính S =
f
; S =
r
; F =
k- 1 N- k S r2
Tra bảng phân phối F tìm F1-  (k - 1, N - k ). So sánh F với F1-  (k - 1, N - k )

76
X¸c suÊt & Thèng kª Y häc

Nếu F< F1-  (k - 1, N - k ) thì chấp nhận giả thuyết H0. Trái lại bác bỏ.

2.6.2. Bài toán phân tích phương sai hai yếu tố

Giả sử yếu tố A có h mức, yếu tố B có k mức, kết quả thí nghiệm

Yếu tố B
b1 b2 ….. ….. bk
a1 y 11 y 12 y 1k
Yếu tố A a2 y 21 y 22 y 2k
.
.
ah yh1 yh 2 y hk
Ta muốn xem các yếu tố A và B có ảnh hưởng đến kết quả hay không? ở mức  .
Cách thực hiện như sau:
Bước 1. Đặt giả thuyết H0 : Yếu tố A không ảnh hưởng đến kết quả
H1 : Yếu tố B không ảnh hưởng đến kết quả
k
1 1 h
Bước 2. y i = å y ij
k j=1
(i = 1, 2,..., h ); y j = h å y ij (j = 1, 2, ..., k )
i= 1
k k
1
N = h ´ k; y =
N
å å y ij
i= 1 j= 1
2 2
Bước 3.Tính tổng bình phương độ lệch: QT = å å (y ij
- y )=å å y ij2 - N (y )
i j i j
2 2
Tổng bình phương độ lệch do yếu tố A: Q A = k å (y i - y ) = k å y i - N (y )
i i
2 2
Tổng bình phương độ lệch do yếu tố B: Q B = h å (y j - y ) = h å y j2 - N (y )
j j

Tổng bình phương độ lệch do yếu tố ngẫu nhiên: Qr = QT - (Q A + Q B )

2
QA 2 QB 2 Qr S A2 S B2
S =
A
; S =
B
; S = R
; FA = ; FB = .
h- 1 k- 1 (k - 1)(h - 1) S R2 S R2
Bước 4. Lập bảng Anova

Nguồn TBPĐL Độ tự do Phương sai F


Yếu tố A QA h- 1 S A2 FA
Yếu tố B QB k- 1 S B2 FB
Ngẫu nhiên Qr (h - 1)(k - 1) S r2

77
X¸c suÊt & Thèng kª Y häc

Bước 5. Nếu FA £ F1-  (h - 1, (h - 1)(k - 1)) thì chấp nhận H .(yếu tố A không ảnh
1

hưởng tới kết quả)


( )
Nếu FA > F1-  h - 1, (h - 1)(k - 1) thì bác bỏ H1.(yếu tố A ảnh hưởng tới kết quả)

Nếu FB £ F1-  (k - 1, (h - 1)(k - 1)) thì chấp nhận H .(yếu tố B không ảnh hưởng
2

tới kết quả)


Nếu FB > F1-  (k - 1, (h - 1)(k - 1)) thì bác bỏ H2.(yếu tố B ảnh hưởng tới kết quả),
ngưỡng sai lầm  .

BÀI TẬP CHƯƠNG 5

1. Đo Cholesterolmie (đơn vị Mg %) của một nhóm người ghi được

Chol 150 -160 160 -170 170 -180 180 - 190 190-200 200-210
Số người 3 9 11 3 2 1
2
a. Tìm X , S * .
b. Có tài liệu cho rằng lượng cholesterolmie trung bình là m0 = 175 mg%. Giá trị
này phù hợp với mẫu quan sát không? Kết luận a = 0, 05 .
2. Có hai loại thuốc A, B dùng điều trị ung thư, được đem thử nghiệm trên 2 nhóm
người có cùng tính trạng ban đầu. Kết quả ghi lại được:

Kết quả
Khỏi bệnh
Không Tổng
Loại thuốc khỏi bệnh
Thuốc A 12 6 18
Thuốc B 15 3 18
Tổng 27 9 36
Hỏi với  = 0,05 tác dụng của 2 loại thuốc đó có như nhau không?
3. Cho hai mẫu độc lập từ các phân phối chuẩn có cùng phương sai

X 3,2 3,3 3,4 3,6 3.7 3,8


m 2 6 10 5 4 2

Y 3,3 3,5 3,6 3,7 3.8 3,9


m 2 6 10 7 4 4

Hãy kiểm định giả thiết cho rằng kỳ vọng của hai lượng ngẫu nhiên tương ứng như
nhau với mức ý nghĩa   3% (STB: 2,033). Số tra bảng này tra ở bảng nào và bậc
tự do nếu có là bao nhiêu ?

78
X¸c suÊt & Thèng kª Y häc

4. Điều tra học lực ở 2 trường TH Ngô Quyền và Tô Hiệu năm học 2006-2007 được
kết quả

Yếu T.bình Khá giỏi


TH Ngô Quyền 12 127 70 40
TH Tô Hiệu 20 192 117 55
Chất lượng ở 2 trường TH nói trên trong năm học 2006-2007 có như nhau không
?   5% (STB: 7,82).
5. Một nhà máy có 4 phân xưởng A, B, C, D.
Phân xưởng A gồm 150 công nhân trong đó có 29 người bị cúm.
Phân xưởng B gồm 170 công nhân trong đó có 39 người bị cúm.
Phân xưởng C gồm 120 công nhân trong đó có 35 người bị cúm.
Phân xưởng D gồm 160 công nhân trong đó có 56 người bị cúm.
Hỏi tỷ lệ mắc bệnh cúm ở các phân xưởng đó có như nhau không? Với mức ý
nghĩa   1% .Kết luận ở trên có thuyết phục không? Vì sao?
(Cho 2  0, 01; 3   11, 34, 2  0, 01; 8   20, 1 ).
6. Điều tra 125 người ở huyện A có 12 người mắc bệnh X. Điều tra 240 người ở huyện
B có 23 người mắc bệnh X. Tỷ lệ người mắc bệnh X ở 2 huyện A, B có như nhau
không? Với mức ý nghĩa   5% . (Cho  (1, 96)  0, 975;  (2, 58)  0, 995 ).
7. Một công ty muốn tìm hiểu về mối liên hệ giữa mức thu nhập của người tiêu
dùng với các kiểu A, B của một loại sản phẩm. Người ta tiến hành điều tra số liệu
bán ra và thu được số liệu xếp theo lớp chéo với mức thu nhập của 140 người tiêu
dùng trong vòng một tháng như sau:
Kiểu sản phẩm Mức thu nhập
Thấp Trung bình Cao
A 24 24 30
B 12 16 34
Với mức ý nghĩa 10%, ta có suy đoán như thế nào về ảnh hưởng của mức thu
nhập tới việc tiêu dùng các kiểu sản phẩm A, B của loại sản phẩm đó.
(Cho biết : c 2 (0,1; 2) = 4, 60517; c 2 (0,1; 5) = 9, 23636 )
8. Xét một quy trình đóng gói một loại sản phẩm. Khi quy trình hoạt động tốt, thì
các gói sản phẩm có trọng lượng trung bình là 20 gam. Một mẫu ngẫu nhiên gồm 30
gói sản phẩm được chọn ra cho các trọng lượng như sau:
Trọng lượng(gam) 19,8 19,9 20 20,1 20,2 20,3
Số gói 4 7 10 4 3 2
Giả sử trọng lượng các gói sản phẩm tuân theo luật phân phối chuẩn.
a) Tìm khoảng tin cậy 95% cho phương sai trọng lượng các gói sản phẩm.
b) Hãy kiểm định ở mức ý nghĩa 5% giả thuyết “ Quy trình đang hoạt động
tốt” (thực hiện kiểm định một phía cũng như hai phía).
(Biết t (0, 5;29) = 2, 045; t (0,1;29) = 1, 699; c 2 (0, 025;29) = 45, 722.c 2 (0, 975;29) = 16, 047
9. Nghiên cứu ảnh hưởng của việc bổ sung hai loại vitamin A và B vào thức ăn đến

79
X¸c suÊt & Thèng kª Y häc

tăng trọng (kg/ngày) của một giống lợn. Hai mức đối với vitamin A (0 và 4 mg), và
hai mức đối với vitamin B (0 và 5mg) được sử dụng trong thí nghiệm. Tổng số 20 lợn
được phân thành 4 công thức thí nghiệm một cách ngẫu nhiên. Số liệu thu được khi kết
thúc thí nghiệm như sau:
VitaminA 0 mg 5 mg
VitaminB 0 mg 5 mg 0 mg 5 mg
0,585 0,567 0,473 0,648
0,536 0,545 0,450 0,702
0,458 0,589 0,869 0,900
0,486 0,536 0,473 0,698
0,536 0,549 0,646 0,693
Tổng 2,601 2,786 2,729 3,677
Trung binh 0,520 0,557 0,549 0,735
Hỏi việc bổ sung vitamin A, B theo 4 mức trên có ảnh hưởng đến việc tăng trọng
của lợn hay không ? với mức  =0,05.

80
X¸c suÊt & Thèng kª Y häc

Chương 6 TƯƠNG QUAN VÀ HỒI QUY

§1 KIỂM ĐỊNH MỐI LIÊN QUAN: RR, OR, HỆ SỐ TƯƠNG QUAN,


HỒI QUI ĐƠN BIẾN

1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN


1.1. 1. Khái niệm tương quan
Khi nghiên cứu hai đặc tính định lượng đại diện bằng 2 biến số X, Y, ta tìm
xem giữa các giá trị hai đặc tính đó có liên quan gì với nhau không? Thường ta thấy
giữa chúng có 3 mối quan hệ sau đây:
a) Hai đặc tính định lượng đó có liên quan chặt chẽ với nhau tức là ứng với
mỗi giá trị của X ta nhận được giá trị duy nhất của Y. Theo mối quan hệ đó ta nói X, Y
có mối quan hệ với nhau bằng hàm tính và ký hiệu là Y = f (X).
Ví dụ 1. Trong quần thể các hình tròn, nếu biết bán kính X thì diện tích Y của nó
được xác định theo biểu thức Y =  X2.
b) Hai đặc tính X, Y không có quan hệ gì với nhau, chẳng hạn X là chiều cho
người lái xe và Y là trọng tải của xe thì X, Y không có mối quan hệ nào, lúc này ta nói
X, Y độc lập.
c) Hai đặc tính định lượng X, Y có liên quan thống kê học, chẳng hạn chiều
cao X của trẻ em và tuổi Y của nó là hai đại lượng liên quan thống kê học với nhau.
Đành rằng khi biết chiều cao X của một em ta không biết được tuổi của em đó một
cách chính xác. Nhưng ta biết: Tuổi càng lớn thì em đó càng cao. Khi đó ta gọi X, Y
có tương quan thống kê, và cụ thể X, Y ở đây là tương quan thuận.
1.2. Trung bình (kỳ vọng) có điều kiện, tương quan hồi qui
Ta xét sự liên quan giữa các đại lượng ngẫu nhiên X và Y. Giả sử với mỗi giá
trị X = x1 , Y nhận các giá trị y1  4, y2  6, y3  8 . Trung bình cộng các giá trị của Y
4 68
khi X = x1 là Y x 
1  6 . Ta gọi Y x1 là trung bình có điều kiện của Y khi X= x1 .
3
Tổng quát ta có: Gọi trung bình cộng các giá trị của Y tương ứng với giá trị X = x là
trung bình (kỳ vọng) có điều kiện của Y khi X = x và kí hiệu Y x .
Nếu với mỗi giá trị x tương ứng một giá trị Y x của trung bình có điều kiện đó
là 1 hàm đối với x , Y x =f( x ). Trong trường hợp đó ta nói Y phụ thuộc tương quan đối
với X.
Phương trình Y x = f( x ) được gọi là phương trình hồi qui của Y đối với X, còn
f( x ) được gọi là hàm hồi qui của Y đối với X. Nếu đường hồi qui là một đường thẳng
ta nói Y có hồi qui tuyến tính đối với X.
1.3. Đồ thị phân tán
Giả sử ta nghiên cứu mức độ tương quan giữa hai lượng ngẫu nhiên X, Y bằng
định lượng hoá bởi mẫu thu được n cặp  xi ; yi  ta biểu diễn các điểm Mi  xi ; yi  lên
mặt phẳng toạ độ Đề các vuông góc Oxy
. Các điểm Mi lập lên một “đám mây” thống kê học gọi là đồ thị phân tán (phân bố),
quan sát đồ thị phân tán ta thấy chúng có các dạng sau:

81
X¸c suÊt & Thèng kª Y häc

+ Các điểm Mi nằm sát theo một đường cong nào đó (hình 1), điều đó cho
chúng ta nghĩ X, Y có quan hệ hàm số.
+ Các điểm Mi nằm rải rác không theo một qui tắc nào cả (hình 2) lúc này ta
phán đoán rằng X, Y độc lập.
+ Các điểm Mi nằm vào một vòng nhất định, có dạng hình bầu dục (hình 3), lúc
này ta phán đoán rằng X, Y có tương quan tuyến tính với nhau. Nếu trục lớn của hình
bầu dục nghiêng lên thì ta nói X, Y có tương quan thuận, nếu nghiêng xuống thì tương
quan nghịch. Nếu hình bầu dục càng dẹt thì tương quan càng chặt, nếu hình bầu dục là
tròn thì ta có thể nghĩ rằng X, Y độc lập.

Y
  Y Y
         
       
             
             
          
      
   

X H- 2 x X
H-1 H-3

§2 HỆ SỐ TƯƠNG QUAN MẪU


Để đo mức độ tương quan tuyến tính của hai biến ngẫu nhiên định lượng X, Y
thông qua mẫu thực nghiệm n cặp số liệu  x1 , y1  ;  x2 , y2  ;...;  xn , yn  , người ta vẽ đồ
thị phân tán, tính hệ số tương quan mẫu r x , y  , kiểm định hệ số tương quan mẫu.
2.1. Công thức tính hệ số tương quan mẫu
Giả sử lấy mẫu từ 2 lượng ngẫu nhiên X, Y gồm n cặp
 x1 , y1  ;  x2 , y2  ;...;  xn , yn  ta có công thức tính hệ số tương quan mẫu là:
n

  x  x  y  y 
i 1
i i
r x , y  
n 2
2 n
  x  x   y  y
i 1
i
i 1
i

Với công thức này dễ tính bằng máy hơn.


Dùng bất đẳng thức Buniakobski chứng minh được r x , y   1
Nếu r x , y  > 0 thì X, Y gọi là tương quan thuận.
Nếu r x , y  < 0 thì X, Y gọi là tương quan nghịch.
Nếu r x , y  = 0 thì X, Y độc lập, hoặc có thể không độc lập.
Khi tính xong r x , y  để kiểm định X, Y có tương quan ở mức  nào đó hay không,
chúng ta thực hiện:

82
X¸c suÊt & Thèng kª Y häc

+ Nếu cỡ mẫu n  100 tra bảng hệ số tương quan r ở mức  bậc tự do n -2


được r . Nếu r x, y  < r thì X, Y không tương quan. Nếu r  x, y  > r thì tương quan.
r x , y 
+ Nếu cỡ mẫu n  100 tính T  n  2 , n là cỡ mẫu.
1  r 2 x , y 
Nếu T  T tra bảng phân phối T mức  bậc tự do n -2 thì X, Y tương quan.
Nếu T  T không tương quan.
Ví dụ 2. Người ta muốn biết có mối liên quan nào giữa liều độc X và thời gian sống
sót Y của chuột lang hay không? Qua thực nghiệm trên 7 con chuột có:
X 0 1 2 3 4 5 6
Y 4,25 3 3 1,75 1,5 0,5 0,25

Hỏi với mức ý nghĩa  =0,01 X, Y có tương quan không?

Lập bảng tính:


2 2
X Y XX Y Y ( X  X )( Y  Y ) X  X  Y  Y 
0 4,25 -3 2,215 -6,645 9 4,960
1 3 -2 0,965 -1,930 4 0,931
2 3 -1 0,965 -0,965 1 0,931
3 1,75 0 0,285 0 0 0,081
4 1,5 1 -0,535 -0,535 1 0,286
5 0,5 2 -1,535 -3,070 4 2,356
6 0,25 3 -1,785 -5,355 9 3,185
 21 14,25 -18,500 12,676

21 14, 25 18,500
x  3; y   2, 035  r x , y    0,978 . Tra bảng hệ số tương
7 7 28 12, 676
quan r ,  = 0,01 bậc tự do 7-2 = 5 có r0,01  5   0,8795  r x , y   r0,01  5   X , Y
tương quan với nhau ở mức  =0,01 do r x , y  < 0 nên X , Y tương quan nghịch.
2.2. Tương quan Spearman (tương quan hạng)
Hệ số tương quan mẫu r x , y  là một phép kiểm định tốt cho hai biến ngẫu nhiên
định lượng, nhưng không áp dụng được khi trong mẫu có nhiều yếu tố định tính hoặc
bán định lượng. Trường hợp này phải dùng tương quan phi tham số Spearman còn gọi
là tương quan R . Tương quan R có ưu điểm: Dễ sử dụng và ứng dụng được cho cả
trường hợp định lượng, bán định lượng hoặc định tính.
Ví dụ và cách tính.
Cách tính:
- Xếp thứ tự (cao đến thấp hoặc ngược lại) 2 cột Rx , Ry
- Tính chênh lệch d : d  Rx  Ry

83
X¸c suÊt & Thèng kª Y häc

- Tính bình phương chênh lệch d : d 2


6 d 2
- Tính R theo công thức: R  1 
n  n 2  1
Chú ý. Những số liệu trùng nhau thì hạng của chúng bằng nhau và bằng trung bình
cộng của các số thứ tự hạng tiếp theo.
- Sau đó tra bảng R trong tương quan Spearman được 2 số R0,05 và R0,01 và n
từ 4  30 .
- Nếu R của ta nằm trong khoảng  R0,05 , R0,01  thì kết luận có mối tương quan
(bảng 12 – trong [8])
Ví dụ 3. Một nhóm sinh viên theo dõi tình hình bệnh nhân sốt xuất huyết, thấy có mối
liên quan giữa số lượng tiểu cầu và mức độ sốt xuất huyết. Số liệu thu được như sau:

Số thứ tự bệnh nhân Số lượng tiểu cầu Giga/l Mức độ sốt xuất huyết
1 100 Vừa
2 60 nặng
3 120 nhẹ
4 150 nhẹ
5 100 Vừa
6 80 nặng
7 90 nặng
8 120 Vừa
Hỏi mối tương quan có đủ tin cậy không?
Đặt H0: Không có mối tương quan giữa số lượng tiểu cầu và mức độ sốt xuất
huyết. H1 có mối tương quan nghịch, càng ít tiểu cầu càng xuất huyết nhiều.
Kiểm định thống kê, dùng tương quan R0,05 của Sperman. Lập bảng:
STT Số lượng Mức độ Số hạng Chênh Bình phương
Bệnh Tiểu cầu xuất huyết lệch chênh lệch d 2
nhân G/l (X) (Y) R R d
x y

1 100 Vừa 4,5 4 0,5 0,25


2 60 nặng 1 7 -6 36
3 120 nhẹ 6,5 1,5 5 25
4 150 nhẹ 8 1,5 6,5 42,25
5 100 Vừa 4,5 4 0,5 0,25
6 80 nặng 2 7 -5 25
7 90 nặng 3 7 -4 16
8 120 Vừa 6,5 4 2,5 6,25
 151
6  151
R  1  0, 79
8  82  1

84
X¸c suÊt & Thèng kª Y häc

Tra bảng tương quan R có R0,05 < R < R0,01  H0 bác bỏ, nên chấp nhận H1.
Kết luận: Có mối tương quan rõ rệt giữa số lượng tiểu cầu và mức độ xuất huyết là
tương quan nghịch.
Nhưng khi cần nghiên cứu mối tương quan của hai biến ngẫu nhiên định tính
mà mẫu thu được thông qua các tỉ số thì hai phương pháp trên tỏ ra không hiệu lực. Để
khắc phục điều này người ta sử dụng RR hoặc OR để nghiên cứu mức độ liên qua của
hai bến ngẫu nhiên định lượng. Đặc biệt là đối với các biến nhị giá.
Khi biến ngẫu nhiên là các biến nhị giá người ta thường sử dụng giá trị tỉ nguy
cơ RR hoặc OR để đo lường mức độ liên hệ. Cách tính RR và OR thông qua mô tả:
Kết quả Mắc bệnh Không mắc bệnh Tổng
Biến số phơi Phơi nhiểm a1 b1 N1
nhiểm Không Phơi nhiểm a0 b0 N0
Tổng a0  a1 b0  b1 N  N1  N 0
Tỉ số nguy cơ (RR) là tỉ số của nguy cơ nhóm phơi nhiểm với nguy cơ nhóm
không phơi nhiểm.:
a1
N
RR  1
a0
N0
1 1 1 1
1,96   
a1 N1 a0 N0
Khoảng tin cậy 95% của tỉ số nguy cơ là : RR   e
(OR) là tỉ số số chênh mắc bệnh của nhóm phơi nhiểm với số chênh mắc bệnh của
nhóm không phơi nhiểm. Trong trường hợp nghiên cứu bệnh chứng, tỉ số chênh là tỉ số
của số chênh phơi nhiểm của nhóm bệnh với số chênh phơi nhiểm của nhóm không
chứng.
a1
b
RR  1
a0
b0
 1,96
1 1 1 1
   1,96
1 1 1 1
   
a1 b1 a0 b0 a1 b1 a0 b0
Khoảng tin cậy 95% của tỉ số chênh là : OR  e , OR  e 
 
Ví dụ. Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm
placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có
80 người bị cúm hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm. Cho biết
khoảng tin cậy 95% của tỉ số nguy cơ.

Giải: Lập bảng số liệu 2 2 ô sau đây
Kết quả Mắc bẹnh cúm Không mắc Tổng
bệnh cúm
Có 20 = a1 220 = b1 240 = N1
Tiêm chủng Placebo 80 = a0 140 = b0 220 = N0
Tổng 100 360 460 = N

85
X¸c suÊt & Thèng kª Y häc

a1 20
N
Tỉ số nguy cơ RR  1  240  0, 229166666  0, 23
a0 80
N 0 220
Khoảng tin cậy 95% của tỉ số nguy cơ là
 1,96 1 1 1 1 1 1 1 1 
 RR : e    ; RR  e1,96    
 a1 N1 a0 N 0 a1 N1 a0 N 0 

 1,96 1 1 1 1 1 1 1 1 
 0, 23: 2, 7182    ; 0, 23  2, 71821,96    
 20 240 80 220 20 240 80 220 
[ 0,1476192812; 0,3583542717]
Hay [0,15; 0,36]
Tính bằng R
> library(epicalc)
Loading required package: foreign
Loading required package: survival
Loading required package: splines
Loading required package: nnet
> csi(20,220,80,140)

Exposure
Outcome Non-exposed Exposed Total
Negative 140 220 360
Positive 80 20 100
Total 220 240 460

Rne Re Rt
Risk 0.36 0.08 0.22
Estimate Lower95ci Upper95ci
Risk difference (Re - Rne) -0.28 -0.36 -0.2
Risk ratio 0.23 0.15 0.34
Protective efficacy =(Rne-Re)/Rne*100 77.1 65.62 84.61
or percent of risk reduced
Number needed to treat (NNT) 3.57 2.81 4.88
or -1/(risk difference)

§3 PHƯƠNG TRÌNH HỒI QUI TUYẾN TÍNH

3.1. Bài toán dẫn đến khái niệm phương trình hồi quy tuyến tính
Khi nghiên cứu sự tương quan giữa hai đại lượng X, Y thông qua mẫu n cặp:
 x1 , y1  ;  x2 , y2  ; ...;  xn , yn  ta vẽ đồ thị phân tán (gọi là đường hồi qui thực nghiệm).
Nếu các điểm Mi của đường hồi qui thực nghiệm nằm sát 1 đường thẳng ∆: y  ax  b

86
X¸c suÊt & Thèng kª Y häc

nào đó thì ta dự đoán X, Y tương quan tuyến tính với nhau. Việc đi tìm đường thẳng ∆
sao cho tổng bình phương các khoảng cách các điểm Mi đến nó là bé nhất. Đường
thẳng ∆ như vậy gọi là đường thẳng bình phương tối thiểu, hay còn gọi là đường hồi
qui lý thuyết mẫu.
Y

 
 

 
 

0 X
Ta thành lập công thức tìm phương trình đường thẳng ∆: y  ax  b từ n cặp số liệu:
 x1 , y1  ;  x2 , y2  ; ...;  xn , yn  .
Giả sử X, Y tương quan theo qui luật y  f  x  , như vậy các điểm lý thuyết là
 x , f  x   ;  x , f  x   ; ...;  x , f  x   , giữa các điểm thực nghiệm Mi  x , y  và các
1 1 2 2 n n i i

điểm lý thuyết  x , f  x   có sự sai lệch. Tìm dạng hàm f để sai lệch nhỏ nhất. Muốn
i i

vậy ta tính các sai lệch:


l1  f  x1   y1
l2  f  x2   y2
........................
ln  f  xn   yn
n
Tìm hàm f sao cho U   li 2 nhỏ nhất. Nếu biết dạng y  ax  b (trong trường
i 1
n
2
hợp hồi qui tuyến tính) thì có U  a, b     axi  b  yi  đây là hàm 2 biến a, b hàm
i 1

U U
này đạt cực tiểu tại điểm  a, b  khi  0  
a b
n n n
U
Ta có  2a xi 2  2b xi  2 xi yi
a i 1 i 1 i 1
n n
U
 2a  xi  2nb  2 yi theo  
b i 1 i 1

có hệ phương trình:

87
X¸c suÊt & Thèng kª Y häc

 n 2 n n

  i
a x  b  x i   xi yi
 i 1 i 1 i 1
 n n
Giải hệ phương trình này bằng phương pháp
a x  nb 

 i 1 i 
i 1
yi

định thức ta thu được:


n

  x  x  y  y 
i 1
i i
a n
; b  y  xa
2
 x  x
i 1
i

n n

 xi yi  x yi
i 1 i 1
Hoặc: a  n n
; b  y  xa
2
x
i 1
i  x  xi
i 1

Ví dụ 4. Ở ví dụ liều độc X và thời gian sống Y (Ví dụ 2) có phương trình hồi qui
tuyến tính Y theo X là YX  y  0, 66 x  4, 0157 .
a còn được gọi là hệ số hồi qui của Y theo X , sử dụng công thức tính hệ số
tương quan ta có:
 y
a  r x, y 
 x
b  y  ax

Tương tự nếu đường hồi qui của X theo Y là X Y  x  ay  b thì
  x
a  r x , y   y

b  x  a y

Hai đường hồi qui đều đi qua điểm M  x, y 
Từ đó  a.a  r2x , y 
3.2. Dư và tỉ lệ phần trăm đúng
+ Dư (Residuals) Giả sử bằng thực nghiệm từ mẫu ta lập được đường hồi quy dự báo
(lý thuyết) của Y theo X là Y X = y = a x + b , thỡ khi đó ta định nghĩa:
Dư = Khoảng cách chiều dọc từ điểm quan sát đến đường hồi qui:
y thực tế - y dự báo (hồi qui)
Tổng dư bình phương (Residual Sum of Squares)
2

RSS   n  1  SY  1  r 2x , y  
gọi là sai số.
Độ lệch chuẩn của dư (Residual Standard Deviation) có tài liệu gọi là độ sai
chuẩn của ước lượng.
RSS
RSD  trong đó Rdf gọi là độ tự do của dư và Rdf  n  2
Rdf

88
X¸c suÊt & Thèng kª Y häc

RSS
Vì thế RSD 
n2
Ví dụ 5. Nghiên cứu 1 loại thuốc ngủ, kết quả như sau:
Liều thuốc (mg) X Giấc ngủ tạo ra (giờ) Y
5 2
6 2,5
7 2,5
8 3
9 3,5
10 5
Tính được x = 7,5 ; y =3,083
S X* =1,87 ; SY* = 1,06
Đường hồi qui Y theo X: Y = - 0,88 + 0,528X ; r x, y  = 0,925
0,811
2

RSS   6  11, 06  1   0,925 
2
  0,811  RSD 
4
 0, 45

+ Tỷ lệ phần trăm đúng (Percentage fit) còn gọi là R 2


R 2 = 100. r 2 x, y 
Ở ví dụ trên ta có R 2 = 100(0,925)2 = 85,56. Có nghĩa là phép tính hồi qui mới tính
được 85,56% trường hợp số liệu phù hợp với tính toán, còn 14,44% chưa đề cập tới.
+ Phương trình hồi qui thực (true regresstion)
Từ mẫu nghiên cứu nhỏ suy ra hồi qui cho cả tập hợp đó có kết quả tin cậy hay không?
Ta tìm test T
Công thức tìm T cho hồi qui:
R 2  n  2 a.S X
T hoặc T  n2
100  R 2 RSD
Áp dụng ví dụ trên có T = 4,8683 hoặc T = 4,8865
Tra bảng T0,05 bậc tự do n  2 = 4 có t0,05  4  = 2,766; t0,01  4  = 4,604
Độ chính xác của dự báo (accuracy predietion)
+ Khoảng tin cậy (Confidence interval) của hệ số hồi quy a của Y theo X là CI  a 
1
được tính theo công thức: CI  a   a  t  n  2  RSD  2
 n  1  S X 
Trong đó t  (n - 2)tra bảng phân phối T bậc tự do n-2.
2
Áp dụng ví dụ trên ta có: a=0,528; RSD=0,045; t  (n - 2)=2,776; (S X* ) = (1,87)2 =
3,49.
1
CI  a   0,528  2, 776  0, 45  0,528  0, 298
5  3, 49
Vậy CI  a  là từ 0,23 đến 0,826

89
X¸c suÊt & Thèng kª Y häc

Có nghĩa là: Nếu tăng thêm 1 mg thì giấc ngủ kéo dài thêm từ 0,23 đến 0,826 giờ.
+ Khoảng tin cậy của b (true intercept)
2
1 x
Công thức tính: CI  b   b  t  n  2  RSD   2
n  n  1  S  
X

Áp dụng ví dụ trên
2
1  7,5 
 CI  b   0,88  2, 776  0, 45   0,88  0, 23 =-3,18 đến 1,42.
6 5  3, 49
+ Khoảng tin cậy của y
2

CI  y   ax  b  t  n  2  RSD 
1


xx 
2
n  n  1  S  
X

Nếu giả thiết x = 8, ta có:


2
1  8  7,5 
 CI  y   0,88  8  0,528  2, 776  0, 45   3, 44  0, 53
6 5  3, 49
Như vậy có nghĩa là: Ở liều dùng 8 mg, theo tính toán sẽ tạo ra giấc ngủ kéo dài trung
bình là 3,34 giờ với giới hạn tin cậy dưới là 3,34 - 0,53 = 2,81 giờ; và giới hạn tin cậy
trên là: 3,34 + 0,53 = 3,87 giờ.
Các dạng hồi qui: Có nhiều dạng như:
- Đơn hồi qui (simple regression)
- Đa hồi qui (multiple regression)
- Hồi qui phi tuyến tính (nonlinear regression)
Trong hồi qui “đơn hồi qui” có phân chia nhiều loại phương trình:
- Hồi qui đường thẳng (linear)
- Hồi qui nhân (multiplication)
- Hồi qui đảo (reciprocal)
- Hồi qui mũ (exponential)
Nếu sử dụng phương trình Statgraphics trong Computer sẽ tính được và vẽ được đồ thị
các loại hồi qui này một cách nhanh chóng. Tuỳ theo vấn đề, người nghiên cứu sẽ
quyết định chọn phương trình hồi qui thích hợp.
3.3. Phương pháp tính hệ số tương quan mẫu và phương trình hồi quy tuyến tính
bằng máy tính bỏ túi Casio fx- 500MS
1. Vào chương trình. RES ấn máy fx-500MS ấn M ODE 3
Máy khác ấn M ODE M ODE 2
Trong mode SD và mode RES phím M  được dùng như phím DT , màn hình hiện

90
X¸c suÊt & Thèng kª Y häc

Lin Log EX P 
1 2 3

  
 Pwr ln v Quad
1 2 3
ấn tương ứng ta sẽ vào chức năng muốn chọn. Cụ thể nếu ấn 1  Lin  : Tuyến tính
2  Log : Lôgarit; 3  Exp  : Mũ;  1  Pwr  : Luỹ thừa;  2  ln v : Nghịch đảo;
 3  Quad : Bậc hai.
Trước khi tính toán phải ấn Shift CLR 1  Scl   để xoá bộ nhớ thống kê.
Nhập dữ liệu theo cú pháp: <dữ liệu x> , <dữ liệu y> DT . Các kết quả nhập xong
gọi như sau. Nếu phương trình hồi qui Y=aX + b thì muốn có a ta ấn:
Shift S.VAR   2
Muốn có b ta ấn: Shift S.VAR   1 . Muốn có hệ số tương quan r ta ấn:
(x ,y )
Shift S.VAR   3 . Muốn có X ấn Shift S.VAR 1 . Muốn có Y ấn
Shift S.VAR  1 .
Chú ý: ấn DT DT nhập số liệu hai lần.
Dùng phím Shift ; để nhập nhiều dữ liệu giống nhau. Ví dụ nhập 20,5 bảy lần ta ấn
20.5 Shift ; 7 DT .

91
X¸c suÊt & Thèng kª Y häc

BÀI TẬP CHƯƠNG 6

1. Quan sát X và Y có bảng tương quan thực nghiệm như sau.

X
Y 2 6 10 14
1 -6 8 2
6 – 11 1 6 4 4
11 – 16 8 7
16 -21 5 5
a. Giả sử X và Y có tương quan tuyến tính, tính hệ số tương quan r . Tìm
(x ,y )
phhương trình hồi qui của Y theo X
b. Ước lượng trung bình giá trị của Y (với điều kiện X = 10), tìm khoảng tinh
cậy của Y X = 10 với độ tinh cậy 95% (Giả thiết Y là biến ngẫu nhiên tuân theo
theo qui luật phân phối chuẩn).
c. Đại lượng ngẫu nhiên Z được xác định bởi Z = 5X-3. Hãy ước lượng kỳ vọng
và phương sai của Z.
2. X(%), Y(cm) là hai chỉ tiêu của một loại sản phẩm. Điều tra một mẫu ta có kết quả
cho ở bảng sau:

Y
X 80 -84 84 - 88 88 -92 92 - 96
1 8
3 12 9 4 6
5 11 15 10
7 12 7 3

a. Tìm hệ số tương quan mẫu r .


(x ,y )
b. Ước lượng hàm hồi quy tuyến tính của Y theo X.
c. Những sản phẩm có chỉ tiêu Y không dưới 92 cm là những sản phẩm loại A.
Hãy ước lượng tỷ lệ sản phẩm loại A với độ tin cậy 99%.
3. Thống kê dân số (đơn vị tính: triệu người) mỗi năm như sau:

Năm 1989 1990 1991 1992 1993 1994 1995 1996 1997
Dân số 60 62 62 63 65 65 68 71 71
Đặt X = Năm – 1987, Y = dân số -60.
a. Tính hệ số tương quan mẫu r ?
(x ,y )
b. Tìm phương trình hồi quy của Y theo X, Tìm phương sai hồi quy. Biết
X ; N (0,1), P (- 1, 96 £ X £ 1, 96) = 0, 95 .

92
X¸c suÊt & Thèng kª Y häc

4. Một nghiên cứu về sự liên quan giữa hàm lượng Iốt trong nước uống X (đơn vị tính
mg / l ) và tỷ lệ bướu cổY ở một vùng dân cư như sau:
X( mg ) 50 60 70 80 90 100 110 120
Y(%) 10 7 6 4 3 3 2 1

a. Tìm hàm hồi quy tuyến tính của Y theo X?


b. Tính hệ số tương quan mẫu r ?
(x ,y )
5. Đánh giá mối tương quan giữa tuổi của người mẹ và lượng sữa vắt ra mỗi lần, số
liệu thu được trên 8 người dưới đây:
Tuổi 21 24 27 30 33 36 39 42
L.sữa(ml) 105 110 105 90 95 90 85 80
a. Tìm hệ số tương quan mẫu r .
(x ,y )
b. Lập phương trình hồi quy giữa lượng sữa Y theo tuổi X.

TÀI LIỆU THAM KHẢO

[1]. Lê Văn Tiến, Giáo trình xác suất và thống kê, Nhà xuất bản Giáo dục Hà Nội
1991.
[2]. Lê Khánh Trai, Ứng dụng xác suất thống kê trong Y sinh học, Nhà xuất bản
KHTN 1979.
[3]. Guylefort, Toán học cao cấp tập 4, Nhà xuất bản KHKT Hà Nội 1970.
[4]. Harald Crame, Phương pháp toán học trong thống kê, Nhà xuất bản KHKT Hà
Nội 1970.
[5]. Ngô Như Hoà, Thống kê trong nghiên cứu Y học tập I, II, Nhà xuất bản Y học
1982.
[6]. Đào Hữu Hồ, Xác suất thống kê, Nhà xuất bản ĐHQG Hà Nội 1998.
[7]. Đào Hữu Hồ, Thống kê xã hội học, Nhà xuất bản ĐHQG Hà Nội 1996.
[8]. Nguyễn Xuân Phách, Thống kê Y học, Nhà xuất bản Y học chi nhánh Hồ Chí
Minh 1995.
[9]. Robert G. D. Steel, James H. Torrie, Principles and procedures of statistics, Mc
Graw – Hill Book company, INC. New York Toronto London 1960.

93
X¸c suÊt & Thèng kª Y häc

Môc lôc
Trang
MỞ ĐẦU……………………………………………………………………………………1
PHÇN i. lÝ thuyÕt x¸c suÊt 3
Ch­¬ng1: c¸c kh¸I niÖm c¬ bẢN CỦA LÍ THUYẾT x¸c suÊt
§1. PhÐp thö, sù kiÖn, x¸c suÊt cña sù kiÖn ......................................................................... 3
§2. C¸c ®Þnh nghÜa cña x¸c suÊt.......................................................................................... 5
§3. C¸c ®Þnh lý c¬ b¶n cña x¸c suÊt .................................................................................... 9
Bµi tËp ch­¬ng 1 .............................................................................................................. 15
Ch­¬ng 2: BiÕn ngÉu nhiªn hµm ph©n phèi
§1. BiÕn ngÉu nhiªn.......................................................................................................... 17
§2. C¸c ®Æc tr­ng cña l­îng ngÉu nhiªn ........................................................................... 20
§3. Mét sè ph©n phèi x¸c suÊt th­êng gÆp trong thèng kª................................................. 22
§4. C¸c ®Þnh lý giíi h¹n ................................................................................................... 29
§5. §¹i l­îng ngÉu nhiªn nhiÒu chiÒu .............................................................................. 31
Bµi tËp ch­¬ng 2 .............................................................................................................. 34
PHÇN ii. Thèng kª to¸n häc
Ch­¬ng 3: mÉu vµ c¸ch biÓu diÔn mÉu
§1. TËp hîp chÝnh (tæng thÓ) vµ mÉu ................................................................................ 37
§2. C¸c ph­¬ng ph¸p biÓu diÔn mÉu thùc nghiÖm ............................................................. 40
§3. Thèng kª m« t¶ ®o ®é tËp trung vµ ph©n t¸n cña bé sè liÖu ......................................... 43
Bµi tËp ch­¬ng 3 .............................................................................................................. 49
Ch­¬ng 4: Lý thuyÕt ­íc l­îng
§1. ¦íc l­îng ®iÓm, ­íc l­îng kho¶ng ............................................................................ 50
§2. ¦íc l­îng tham sè b»ng kho¶ng tin cËy ..................................................................... 54
Bµi tËp ch­¬ng 4 .............................................................................................................. 58
Ch­¬ng 5: kiÓm ®Þnh gi¶ thuyÕt thèng kª
§1. C¸c kh¸i niÖm chung .................................................................................................. 59
§2. Mét sè bµi to¸n kiÓm ®Þnh cô thÓ ................................................................................ 60
Bµi tËp ch­¬ng 5 .............................................................................................................. 78
Ch­¬ng 6: T­¬ng quan vµ håi qui
§1. KiÓm ®Þnh mèi liªn quan RR-OR, HÖ sè t­¬ng quan, håi quy ®¬n biÕn ...................... 81
§2. HÖ sè t­¬ng quan mÉu ................................................................................................ 82
§3. Ph­¬ng tr×nh håi qui tuyÕn tÝnh .................................................................................. 86
Bµi tËp ch­¬ng 6 .............................................................................................................. 92
Tµi liÖu tham kh¶o ......................................................................................................... 93
Môc lôc ........................................................................................................................... 94
C¸c b¶ng sè .................................................................................................................... 95

94

You might also like