You are on page 1of 19

Testarea ipotezelor statistice

 Luni, 20 Martie 2023

1
Concepte (1)
 Ipoteză statistică = ipoteza care se face cu privire la parametrul
unei repartiţii sau la legea de repartiţie pe care o urmează anumite
variabile aleatoare.
 Ipoteză nulă (H0) = ipoteza care se consideră a priori adevărată.
 Ipoteză alternativă (H1) = o ipoteză care contrazice ipoteza
nulă. Ea va fi acceptată doar când există suficiente dovezi în
favoarea acesteia.
 Dacă ipoteza nulă constă în afirmaţia că parametrul θ al unei
distribuţii este egal cu o anumită valoare θ 0:
 ipoteză alternativă simplă: θ = θ 1
 ipoteză alternativă compusă:

  { 1 , 2 ,..., k } 2
Concepte (2)
 Testul statistic este utilizat drept criteriu de acceptare sau de
respingere a ipotezei nule
 Regiunea critică, Rc = valorile numerice ale testului statistic
pentru care ipoteza nulă va fi respinsă.
 este astfel aleasă încât probabilitatea ca ea să conţină testul statistic,
când ipoteza nulă este adevărată să fie α, cu α mic (α=0.01 etc).
 Dacă valoarea calculată a testului statisticic se află în regiunea critică
Rc, ipoteza H0 se respinge
 regiunea critică este delimitată de valoarea critică, C – punctul de
tăietură în stabilirea acesteia.

3
Concepte (3)
 Eroare de genul întâi = eroarea pe care o facem eliminînd o ipoteză nulă,
deşi este adevărată.
 Riscul de genul întâi (α) = probabilitatea comiterii unei erori de genul
întâi; se numeşte nivel sau prag de semnificaţie.
 Nivelul de încredere al unui test statistic este (1-α) iar în expresie
procentuală, (1-α)100 reprezintă probabilitatea ca rezultatele să fie
adevărate.
 Eroare de genul al doilea = eroarea pe cere o facem acceptînd o ipoteză
nulă, deşi este falsă.
 Probabilitatea (riscul) comiterii unei erori de genul al doilea este β.
 Puterea testului statistic este (1-β).
 P-value=cel mai mic nivel de semnificaţie la care poate fi respinsă ipoteza
nulă.

4
Concepte (4)
 Ipoteza alternativă poate avea una din trei forme (pe care le vom exemplifica
pentru testarea egalităţii parametrului „media colectivităţii generale“, μ cu
valoarea μ0)
 test bilateral:
H0: μ = μ 0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0)
 test unilateral dreapta:
H0: μ = μ 0
H1: μ > μ 0
 test unilateral stânga:
H0: μ = μ 0
H1: μ < μ 0 5
Regiunea critică

 z / 2 μ z / 2 μ z  z μ
a) b) c)

Regiunea critică pentru a) test bilateral; b) test unilateral dreapta; c) test unilateral stînga

6
Concepte (5)

 Erorile în testarea ipotezelor statistice


Decizia de Ipoteza adevărată
acceptare H0 H1
H0 Decizie corectă Eroare de tip II
(probabilitate 1-α) (risc β)
H1 Eroare de tip I Decizie corectă
(risc α) (probabilitate 1-β)

 α= P(respingere H0 ‫ ׀‬H0 este adevărată)=P(eroare de tip I)


 β= P(acceptare H0 ‫ ׀‬H0 este falsă)=P(eroare de tip II)

7
Concepte (6)

Legătura dintre probabilităţile α şi β

8
Etapele verificării ipotezelor
statistice

 Identificarea ipotezelor ce trebuie testate


 Identificarea testului statistic
 Specificarea nivelului de semnificaţie
 Stabilirea regulii de decizie
 Culegerea datelor şi realizarea calculelor
 Luarea deciziei statistice
 Aplicarea deciziei statistice în lumea concretă

9
Efectuarea testului statistic
 Condiţia esenţială în verificarea ipotezelor statistice este
că variabila de interes urmează o repartiţie normală:

X N ( , ) 2

 Se extrage un eşantion aleator din respectiva populaţie


normală
x : ( x1 ,..., xn )
 Pe baza eşantionului se calculează valoarea estimatorului
parametrului populaţiei de interes şi apoi valoarea
testului
 Forma generală a testului statistic:
valoarea estimată - valoarea ipotetică
eroarea standard a estimatorului 10
Concepte (7)
 Se fac presupuneri despre populaţia sau populaţiile ce sunt
eşantionate (normalitate etc.).
 Se calculează apoi testul statistic şi se determină valoarea sa
numerică, pe baza datelor din eşantion.
 Se desprind concluziile: ipoteza nulă este fie acceptată, fie
respinsă, astfel:
 dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),
respingem ipoteza nulă şi acceptăm ipoteza alternativă. Această
decizie este incorectă doar în 100 α % din cazuri;
 dacă valoarea numerică a testului nu se află în regiunea critică (Rc), se
acceptă ipoteza nulă H0.

11
Testarea semnificaţiei parametrilor
modelului liniar de regresie (1)
H 0:  i = 0
H1 : i  0.
Dacă notăm  ii  [(X'X)–1ii] termenul (i, i) din matricea (X’X)–1,
atunci dacă sunt satisfăcute ipotezele pe care se fundamentează modelul
regresiei multiple vom avea următoarele două rezultate:
 1 
i  N  i ,    X'X ii  
ˆ 
  
iar
i  ˆi
zi   N (0,1).
   X'X ii 
1
 

Cum în aplicaţiile practice nu cunoaştem  , atunci această statistică


nu poate fi utilizată în inferenţele statistice asupra parametrilor modelului de
12
regresie.
Testarea semnificaţiei parametrilor
modelului liniar de regresie (2)
Pentru definirea unei statistici operabile ţinem seama de faptul că:

   X'X ii  .
 1
ˆ 2 2
ˆi
e 
ˆi   i
ti 
Atunci  X ' X 1  urmează o repartiţie Student cu n-k
e
 ii 

grade de libertate.
Vom formula deci ipotezele:
Ho: ˆi = 0
H1: ˆi ≠0
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0

13
Exemplu (1)
 Se cere să se construiască un model de
regresie care să analizeze modul în
care media de la examenul de
Bacalaureat, media anilor de liceu şi
genul candidatului au influenţat
rezultatele la admiterea ASE 2006.
 În acest scop s-a realizat un eşantion
selectat aleator de 50 de candidaţi
precum şi punctajul maxim realizat de
către aceştia

14
Exemplu (2)
 Modelul de regresie

Punctaj   0  1 * Bac   2 * Lic   3 * Gen  

 Avem n=50 observaţii (cazuri), k=3 variabile


independente (Bac, Liceu şi Gen)

 50 412, 49 427,53 14   2538 


   
412, 49 3433,82 3546, 72 117, 24 21249, 63
X 'X   X 'Y   
 427,53 3546, 72 3688, 43 116,98   22029, 03 
   
 14 117, 24 116,98 14   665 

15
Exemplu (3)
 2, 78 0,16 0,17 0, 05 
 
1  0,16 0, 06 0, 04 0, 02 
(X ' X )   0   51, 64 
 0,17 0, 04 0, 05 0, 02     

 0, 05 0, 02 0, 02 0,11 

ˆ   1   ( X ' X )1 X 'Y 
 6, 78 
2 5,57 
   
 3   4,19 


Punctaj  51, 64  6, 78* Bac  5,57 * Lic  4,19* Gen  
1
 
2

S 2  S2 * diag  X ' X 


1 S 
2

n  k 1
 
y  y  174,42

 2, 78 
 
0, 06 
Punctaj  51, 64  6, 78* Bac  5,57 * Lic  4,19* Gen  
S   174, 42* 
2 
 0, 05 
  (22,02) (3,12) (3,05) (4,34)
 0,11
16
Exemplu (4) – Testarea semnificaţiei
parametrilor de regresie
Calculam valorile testului t
ˆi  0
ticalc 

pe care le comparăm cu valorilte teoretice a repartiţiei Student cu n-k
grade de libertate.
t  ;n  k  t 0.05 ;47  2, 32
2 2

Vom formula deci ipotezele:


Ho: ˆi = 0
ˆ
H1:  i ≠0
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0

17
Exemplu (5) - Testarea semnificaţiei
parametrilor de regresie

În concluzie, cu excepţia parametrului ß3 ( corespunzător variabilei


Gen), toţi ceilalţi parametri de regresie au un prag de semnificaţie
suficient de bun.

Decizie: Analiza va fi refăcută cu eliminarea variabilei


Gen
18
Exemplu (6) - ANOVA

19

You might also like