Variabili categoriche: qualità, proprietà, ecc...

(non sono quantità misurabili) √ Numero ottimale di classi: n

STIMATORI TUALI

PUN-

Frequenza relativa: Numero di volte che • Pop. normale, σ non nota appare un elemento diviso il numero di prove Var. casuale: x−µ totali. S ∼ T (n − 1) (con n > 30 tende alla √ fi r n fi = N Normale) Frequenza assoluta cumulata: Fi = ∑n i fn S I.C.1−α = [x ± t1− α (n − 1) √n ] F Frequenza relativa cumulata: Fir = ∑n i Ni 2 Frequenza assoluta doppia: fi,k = n. di elementi del campione con valore (S j , µk )
r Frequenza relativa doppia: fi,k = i,k n Frequenza cumulativa assoluta doppia: Fj,k = ∑ fri l (con r : Sr S j e l : µl µk ) Frequenza cumulativa relativa doppia: Fj,k = ∑ fri l f

TEST METRICI

PARA-

Caso della media di una distr. Normale
• C. estr. da pop. norm. con var. nota Livello di significatività: x−µ z = √ 0 (µ0 è la media da verificare) σ
n

I.C. per la varianza
• Pop. normale Var. casuale: (n−1)S2 ∼ χ 2 (n − 1) σ2 I.C.1−α =
2 (n−1)S2 , (n−1)S χ 2 α (n−1) χ 2 (n−1) α 1− 2 2

• Metodo dei momenti (momenti empirici contro momenti teorici) • Metodo di massima verosimiglianza

Metodo dei momenti
X ∼ Γ(α, β ) E [x] = αβ Var (x) = αβ 2 (n) Mx = E [xn ] (1) Mx = E [x] E [x2 ] = Var (x) + (E [x])2 = αβ 2 + α 2 β 2 = αβ 2 (1 + α ) ˆ α= ˆ β=
2 ∑n 1 xi i= 2 ∑n 1 xi −(∑n 1 xi )2 i= i= 2 ∑n 1 xi (∑n 1 xi −(∑n 1 xi )2 ) i= i= i= 2 n ∑n 1 xi i=

Principali indici statistici
• Di posizione Moda: valore con frequenza più alta Media: x = Mediana: valore al di sotto del quale cadono la metà dei valori campionari • Di dispersione Range: |ximax − ximin | 1 Scarto medio assoluto: n ∑n=1 |xi − x| i Media dei quadrati degli scarti: n 1 ∑i=1 (xi − x)2 n Varianza campionaria: 1 S2 = n−1 ∑n=1 (xi − x)2 i Media e var. campionarie per dati raggr. in classi: x = ∑k=1 ∞i xi i S2 = 1 ∑n=1 (xi − x)2 fi = 1 ∑n=1 (xi2 fi ) − (x)2 n i n i • Di forma Indice di asimmetria: ∑n=1 i Curtosi: ∑n=1 i
(xi −x)4 nσ 4 (xi −x)3 nσ 2
∑n 1 xi i= n

H0 µ = µ0 µ µ0 µ µ0

H1 µ = µ0 µ > µ0 µ < µ0

Rifiuto H0 se |z| > z1− α 2 z > z1−α z < −z1−α

I.C. per il rapp. tra varianze
Var. casuale:
2 2 S1 /σ1 2 2 S2 /σ2

• C. estr. da pop. norm. con var. non nota Livello di significatività: x−µ t (n) = √ 0 (µ0 è la media da verificare) S
n

∼F
2 S1 2 S2 F α 1− 2 2 S1 2 S2 Fα 2

H0 µ = µ0 µ µ0 µ µ0

H1 µ = µ0 µ > µ0 µ < µ0

Rifiuto H0 se |t| > t1− α (n − 1) 2 t > t1−α (n − 1) t < −t1−α (n − 1)

I.C.1−α =

,

ˆ ˆ (α e β sono detti stimatori)

Per la var. di una pop. normale
(n−1)S2 2 σ0

∼ χ 2 (n − 1) H1 2 σ 2 = σ0 σ > σ2 <
2 2 σ0 2 σ0

Metodo di massima verosimiglianza
X ∼ Esp(λ ) fx (x) = λ e−λ x (con x 0) L(x1 ,...,xn ) (λ ) = ∏n=1 λ e−λ xi i log L(x1 ,...,xn ) (λ ) = n log λ − λ ∑n=1 xi i
δ log L(x ,...,x ) (λ ) n n 1 = λ − ∑n=1 xi = 0 i δλ ˆ λ = ∑n n x = 1 (è l’inverso della media) x i=1 i

I.C. per la diff. tra 2 medie
• Pop. normale, σ1 e σ2 note Var. casuale: x1 −x2 −( µ1 −µ2 ) ∼ N (0, 1)
2 σ2 σ1 2 n1 + n2 S p 2 σ1 n1 2 σ2 n2

H0 2 σ 2 = σ0 σ σ2
2 2 σ0 2 σ0

Rifiuto H0 se 2 χ 2 > χ1− α (n − 1) o
2 2 χ > χ1−α (n − 1) 2 χ 2 < χα ( n − 1 ) 2

χ 2 < χ 2 (n − 1) α

2

Indici di variazione bidimensionale
• Covarianza campionaria Cx,y = 1 ∑n=1 xi yi − xy n i < 0 xi e yi correl. negativ. xi yi −xy = > 0 xi e yi correl. positiv. • Indice di correlazione campionario C (se r = 0, allora x e y non r = √ x,y
S2 ( x ) S2 ( y )

I.C.1−α = x1 − x2 ± z1− α
2

+

Per la dev. standard con camp. normale
S2
σ2 2 (n−1) χ (n − 1)

Intervalli di confidenza (I.C.)
n x 1 ∑ E [ x ] = n [ i=1 i n n (x −x)2 ∑ S2 = i=1 n i

• Pop. normale, σ1 e σ2 non note ma = Var. casuale: x1 −x2 −( µ1 −µ2 ) ∼ T (n1 + n2 − 2)
1 1 n1 + n2 S p

x= (la media campionaria è uno stimatore corretto della media)

∑n 1 xi i= n

Stimatore "pooled": S2 = p
2 2 (n1 −1)S1 +(n2 −1)S2 n1 +n2 −2

Test per proporzioni (pop. binomiali di taglia grande)
x n −P0 P0 (1−P0 ) n

] = 1 nE [xi ] = µ n
(stimatore non corretto della

sono correlate)

∼ N (0, 1) H1 P = P0 P > P0 P < P0 Rifiuto H0 se |z| > z1− α 2 z > z1−α z < zα

varianza)
∑n

i 2 Sc = i=1n−1 (stimatore corretto della varianza) 2 2 E [Sc ] = σ = Var (x)

(x −x)2

Funzione di verosimiglianza
x1 , ..., xn campione casuale di popolazione con densità ϕ (0, θ ) fx1 ,...,xn (x1 , ..., xn , θ ) = ∏n=1 ϕ (xi , θ ) i

• Pop. normale, σ1 e σ2 non note e = Var. casuale: non segue la T di Student
x1 −x2 −( µ1 −µ2 ) 2 2 S1 S2 n1 + n2

Xi ∼ N ( µ, σ 2 )
2

X ∼ N ( µ, σn )
2

2

I.C.1−α = x1 − x2 ± t1− α
2

2 S1 n1

+

2 S2 n2

H0 P = P0 P P0 P P0

Var (x) = nσ2 = σn n Proprietà: Var (ax) = a2Var (x)

t1− α =
2

2 2 S1 S2 n1 t1 + n2 t2 2 2 S1 S2 n1 + n2 2 2

Test per la diff. tra proporzioni
p1 − p2 −( p1 −p2 )0 ˆ ˆ ∼ N (0, 1) ˆ p1 (1− p1 ) p2 (1− p2 ) ˆ ˆ ˆ + n1 n2 Test a 2 code Coda dx Coda sx H0 : p1 − p2 = ( p1 − p2 )0 H0 H0 H1 : p1 − p2 = ( p1 − p2 )0 H1 > H1 < NOTA: Per la R.C. vedi la tabella sopra. La differenza tra le frequenze relative rilevate su due campioni casuali estratti dalle due popolazioni è statisticamente significativa o invece si può ritenere puro effetto del caso?

t1 = t1− α (n1 − 1) t2 = t1− α (n2 − 1)

I.C. per popol. normale con σ 2 non noto
T=
x−µ S √ n

INTERVALLI DI CONFIDENZA (I.C.)
α = fiducia dell’intervallo 1 − α = confidenza

∼ Tn−1
2

I.C. per proporzioni
Var. casuale:
Sn −E ( Sn ) n n n Var ( Sn )

S I.C. = [x ± t1− α (n − 1) √n ]

= Z ∼ N (0, 1)
p(1− p) ˆ ˆ n

Distribuzione T di Student
Z ∼ N (0, 1) X ∼ χ 2 (n) z Tn = √ x (v.a. t a n gradi di libertà)
n n+1 2 Γ ( n+1 ) 2 √1 (1 + xn )− 2 nπ Γ( n ) 2

Intervalli unilaterali
Con il 95% di confidenza, vedo quando µ è superiore (x, ∞) o inferiore (−∞, x)

I.C.1−α = p ± z1− α ˆ
2

n n p = E ( Sn ) Var ( Sn ) = p(1−p) n NOTA: si usa in caso si presentino degli errori. z 1− α EMAX = 2 2 2 z 1− α 2 n 2pe

Test per il confronto tra medie (con var. nota)
x1 −x2 −δ ∼ N (0.1) 2 σ2 σ1 2 n1 + n2 NOTA: se n 30, δ = 30. 2 2 Se σ1 e σ2 non sono note e il campione è di taglia grande, 2 2 vengono stimate tramite S1 e S2 . H0 H1 Rifiuto H0 se µ1 = µ2 + δ µ1 = µ2 + δ |z| > z 1− α 2 µ1 µ2 + δ µ1 > µ2 + δ z > z1−α µ1 µ2 + δ µ1 < µ2 + δ z < zα

fTn (x) =

(densità,

Taglia del campione
n
z σ 1− α 2 I 2 2 I ( 2 = e2 )

(dove pe è la prob. di errore)
2

con −∞ < x < ∞) n E [Tn ] = 0 Var (Tn ) = n−2 (con n > 2) NOTA: al crescere di n, Student si avvicina alla Normale.

n

Errore massimo: I σ √ 2 = z1− α n (questo è un esempio)
2

Sz 1− α 2 pe

(quando S o S2 è data)

I.C. per la media FREQUENZE
Frequenza assoluta: Numero di volte che appare un elemento. Caso continuo: fi = {#x/x ∈ i-esima classe} Caso discreto: fi = {#x/x = xi } • Pop. normale o camp. di t. grande, σ nota Var. casuale: x−µ σ = Z ∼ N (0, 1) √
n σ I.C.1−α = [x ± z1− α √n ] 2 (se il campione è < 30 si usa T di Student)

I.C. per diff. tra prop. con n1 ed n2 grandi
I.C.1−α = p1 − p2 ± z1− α ˆ ˆ
2 p1 (1− p1 ) ˆ ˆ n1

Var. non nota uguale
∼ T ( n1 + n2 − 2 ) 2 SP ( n1 + n1 ) 1 2 H0 H1 Rifiuto H0 se µ1 = µ2 µ1 = µ2 |t| > t ( n + n2 − 2 ) 1− α 1 2 µ1 > µ2 t > t1−α (n1 + n2 − 2) µ1 µ2 µ1 µ2 µ1 < µ2 t < tα (n1 + n2 − 2) 2 2 (n −1)S1 +(n2 −1)S2 S2 = 1 n +n −2 p 1 2 x1 −x2 −( µ1 −µ2 )0

+

p2 (1− p2 ) ˆ ˆ n2

G2ˆ p

ˆ 1 − p2

=

p1 (1− p1 ) ˆ ˆ n1

+

p2 (1− p2 ) ˆ ˆ n2

Test di significatività per la diff. tra medie
Devo verificare l’uguaglianza delle varianze. Non si fa se due campioni sono ti taglia grande, si considerano le varianze note sostituendole alle varianze campionarie. Se i campioni sono di taglia piccola e le varianze sono incognite, si effettua preliminariamente il test sull’uguaglianza tra le varianze. Considero x − y > 0 → considero D = ∑n 1 (xi − yi ) (media i= campionaria delle differenze ) ((xi −yi )−D)2 S2 = ∑n 1 (var. campion. delle diff.) i= n−1 D T = D−0 ∼ T (n − 1) S D √ n H0 H1 Rifiuto H0 se (n − 1) D=0 |T | > t D=0 1− α 2

Test di bontà dell’adattamento ad una distribuzione: test del χ 2 per l’adattamento
Usato per verificare H0 , dato un campione estratto/adattato da/a una specifica distribuzione, che può essere specificata completamente o non specificata completamente (parametri stimati prima dei dati del campione)

E [yi ] = β0 + β1 xi E [εi] = 0 Var (yi ) = σ 2 Var (εi) = σ 2

Curva interpolante con il metodo dei minimi quadrati: caso lineare
Obiettivo: determino b0 e b1 (stime di β0 e β1 ) ottimali affinchè la retta ottenuta costituisca il miglior fit possibile per i dati sperimentali. Regressione lineare: ε ∼ N (0, σ 2 ) ˆ ˆ y = αx + β + ε α = b0 β = b1 y = b0 + b1 x σxy ∑ xi yi −((∑ xi ∑ yi )/n) b1 = 2 = 2 σx ∑ xi −((∑ xi )2 /n) ∑y ∑x b0 = y − b1 x = n i − b1 n i σ 2 −(σ 2 )/σ 2 b y xy x 2 t= 1 t ∼ t (n − 2) σ 2 Se = x n−2 2 Se H0 H1 Rifiuto H0 se b1 b1 = 0 b1 = 0 S σ x > t1− α (n − 2) 2

Distribuzione multinominale
Si usa quando di vogliono confrontare campioni con una probabilità teorica. (x1 , ..., xn ) v. a. multinom. di parametri n, p1 , ..., pk (x −np )2 (per n grande) ε = ∑k=1 i np i i i xi = numero di prove che danno i come risultato (si denota con Oi o Ni ) npi = E [xi ] = Ei = numero atteso di prove che danno i come risultato (Oi −Ei )2 = χ 2 (k − 1) (k è il numero di classi) ∑k=1 Ei i Si vuole eseguire una distr. campionaria F ad una distr. nota F : H0 : F ∼ F H1 : F ∼ F0 2 R.C. : χ 2 > χ1−α (k − 1) La frequenza attesa dev’essere almeno 5, sennò raggruppo le classi.

Test per il rapp. tra varianze
2 S1 2 ∼ F (n − 1, m − 1) (ho due campioni di taglia m ed n) S2 H0 H1 Rifiuto H0 se 2 2 2 2 σ1 = σ2 σ1 = σ2 F > F α (n − 1, m − 1) 1− 2 o F < F α (n − 1, m − 1) 2 2 2 2 2 σ1 σ2 σ1 > σ2 F > F1−α (n − 1, m − 1) 2 2 2 2 σ1 σ2 σ1 < σ2 F < Fα (n − 1, m − 1)

data distribuzione? L’aumento della taglia rende l’intervallo più preciso. Se l’ipotesi nulla è vera, il solo aumento della dimensione campionaria aumenterà la probabilità di rifiutare lipotesi nulla. V In quali test si impiega una regione critica che costituisce una sola coda? Test del chi-quadro e analisi della varianza. Se si aumenta il livello di signicatività (es: da 0.01 a 0.05), l’ampiezza dellintervallo di condenza... a parità di taglia e varianza diminuisce. (y−µ ) ˆ La quantità ha distribuzione t con n − 1 gradi di σ 2 /n libertà. F Il test t può essere applicato senza nessun assunto riguardo alla distribuzione della popolazione. F Il valore z della distribuzione normale standard può essere sempre usato per procedure inferenziali riguardanti proporzioni di popolazioni. F Si può utilizzare la statistica F per vericare l’uguaglianza di più medie solo se le dimensioni campionarie sono identiche. F Le popolazioni devono avere distribuzione nota? Sì, normale. Se una retta di regressione viene calcolata su dati in cui x varia da 0 a 30, si può predire y per x = 32. V Date le 2 variabili statistiche X e Y , con r (X,Y ) molto vicino a +1 o a 1, allora c’è una relazione di causa ed effetto tra X e Y . F Nel caso in cui la popolazione sia normale è preferibile usare il test di adattamento del chi-quadro oppure un test parametrico per verificare che µ = µ0 ? Un test parametrico. Qual’è lo stimatore di massima verosimiglianza del parametro λ di una distribuzione di Poisson? La media campionaria. Qual’è lo stimatore di massima verosimiglianza del parametro θ di una distribuzione uniforme continua nell’intervallo (0, θ )? (0, θ ) = max(X1 , ..., Xn )

ANOVA (ANalysis Of VAriance)
Confronto tra n > 2 medie di popolazioni normali. H0 : µ1 = µ2 = ... = µk H1 : ∃i, j / esiste almeno una coppia con µi = µ j (ai livelli α = 0, 05 o 0, 01 o 0, 1) NOTA: Se si fanno test a coppie, aumentano notevolmente gli errori di 1a specie. La var. aleatoria è una F di Fisher. Nel test ANOVA, ci sono due varianze: una è in funzione dei livelli del fattore, l’altra è interna (generica). Condizioni: Tutte le pop. devono essere normali, e tutte le 2 2 2 varianze delle pop. devono essere uguali (σ1 = σ2 ...σk ) xi j = µ j + ei j (dove xi j sono gli elementi della tabella con i righe/elementi e j colonne/livelli, e ei j indica l’errore) ∑k=1 µ j j (media di tutte le medie) µgrandmean = k τ j = µ j − µgrandmean (τ j ci dà una variabilità sui livelli) xi j = µgrandmean + τ j + ei j Statistica del test: SSA (k−1) V R = SSW ∼ F (k − 1, N − k) (N−k) SST = SSW + SSA MSA = SSA , MSW = SSW (k−1) (N−k) NOTA: il test ANOVA si fa solo a coda destra. C.V. S.d.Q. G.L. M.Q. VR T.C. SSA k−1 MSA VR I.C. SSW N −k MSW . TOT. SST N −1 . .

TEST NON PARAMETRICI
Si usano quando non si hanno informazioni preliminari sul tipo e sulla forma della distribuzione e/o quando non si è certi della normalità della distribuzione.

Distribuzione non multinominale
Ei = npi Usata se i parametri della distribuzione ipotizzata non sono specificati, ma devono essere stimati preliminarmente del campione. n = k − d − 1 (n = gradi di libertà della χ 2 , k = numero di classi, d = numero di parametri stimati)

Domande su Regr. Lineare
Il modello di regressione lineare assume che al variare del valore della variabile esplicativa la varianza dell’errore aumenta. F Con il metodo dei minimi quadrati si ottengono le stime dei coefficienti di regressione. V Il segno di b1 dipende dalla covarianza tra X e Y. V Il coefficiente di determinazione indica la proporzione di variabilità totale dovuta all’errore. V Il valore atteso dello stimatore b1 è pari a β1 . F Se Y è indipendente da X, il coefficiente regressione è sempre positivo. F Un coefficiente di determinazione pari a 0.88 indica un buon adattamento della retta di regressione ai dati campionari. V La funzione di regressione descrive la relazione tra la X e il valore medio di Y. F Nel modello di regressione lineare si assume che le osservazioni della variabile risposta siano dipendenti. F Tra il peso e la statura degli individui di una popolazione esiste una relazione funzionale. F

Test dei segni per la mediana
Si applica ad una popolazione qualunque di taglia n e mediana M0 . Ipotesi di test: H0 : M = M0 H0 : M M0 H0 : M M0 H1 : M = M0 H1 : M > M0 H1 : M < M0 Le differenze xi − M0 hanno probabilità di essere negative (= 1 ⇒ Q+ ), positive (= 1 ⇒ Q− ) o nulle (= 0). 2 2 H0 : Q+ ∼ B(n, 1 ) 2

Test per l’adattamento di una distr. Normale (normal probability plot)
Problema: stabilire se il campione a disposizione è estratto da una popolazione normale senza usare test parametrici o non parametrici.

Domande su ANOVA
Per applicare il test ANOVA è necessario che tutti i campioni relativi ai diversi trattamenti abbiano la stessa varianza. F Le taglie dei campioni relativi ai diversi trattamenti nel test ANOVA devono essere uguali. F Il test ANOVA consente di stabilire quale o quali trattamenti originino delle risposte medie anomale. F La distribuzione delle popolazioni è indifferente per l’uso del test ANOVA. F Il nome del test ANOVA deriva dal fatto che significa "Analysis Of Variance". La tabella ANOVA illustra la decomposizione della varianza totale della variabile risposta Y. V Nella tabella ANOVA il valore di SSW è sempre minore del valore di SSA. F Un valore che si presenta raramente è sempre un dato anomalo. F

Errori nei test
Errore di 1a specie (con probabilità α): si rifiuta H0 quando invece è vera Errore di 2a specie (con probabilità β ): si accetta H0 quando invece è falsa Test di significatività: si calcola il p-value, e con il p-value < 0, 05 si rifiuta H0 .

Test per l’indipendenza dei caratteri qualitativi: test del χ 2 per l’indipendenza
Usato per vedere l’indipendenza di due fattori in una tabella di contingenza con r righe e c colonne. f0 = freq. osservate in una cella della tabella fe = freq. teoriche o attese in una cella della tabella nel caso in cui H0 di indipendenza sia vera H0 : le due var. categoriche sono indipendenti Statistica per il test: ( f − f e )2 χ 2 = ∑tutte le celle 0 f e Attribuita a χ 2 con (r − 1)(c − 1) gradi di libertà 2 > χ2 ( Rc : χ 1−α )

ES. REGRESSIONE LINEARE
Serve per riconoscere l’esistenza di un legame tra due variabili casuali.

Domande generiche
Quando occorre usare la correzione di continuità, e in cosa consiste? Quando si utilizza l’approssimazione normale per variabili casuali discrete. Consiste nell’arrotondare i valori estremi delle classi al mezzo punto superiore. In quali situazioni si effettua uno z-test e in quali un t-test? Dettagliare tutti i casi possibili. z-test: media di v.c. normali con varianza nota; differenza tra medie di v.c. normali con varianze note. t-test: media di v.c. normali con varianza non nota; differenza tra medie di v.c. normali con varianze non note, ma uguali. A parità di livello di condenza, qual’è leffetto della taglia del campione sullintervallo di condenza per un parametro di una

Es. su ANOVA
SST = 162.54282, SSW = 41.35739, SSA = 121.18543 MSW = SSW = 1.5317552, MSA = SSA = 30.296358 (N−k) (k−1) C.V. S.d.Q. G.L. M.Q. VR T.C. 121.18543 4 30.296358 19.78 I.C. 41.35739 27 1.5317552 . TOT. 162.54282 31 . .

Modello lineare
y = µ (x) = β0 + β1 x1 , ..., xn è l’n-pla associata alla n-pla campionaria y1 , ..., yn yi ∼ fyi yi = β0 + β1 x + εi (eq. di regressione semplice)