Fiche sur les tests d’adéquation de lois et d’indépendance

Tran Viet Chi
1 Tests d’adéquation à une loi
Bien sûr, si on se place dans une famille de lois données (par exemple des lois exponentielles
de paramètres λ), le test d’adéquation à la loi exponentielle de paramètre λ
0
revient à un test de
paramètres λ = λ
0
.
1.1 Tests du χ
2
C’est l’un des tests les plus classiques pour tester l’indépendance ou l’adéquation à une loi.
Théorème 1.1. Test du χ
2
pour l’adéquation à une loi P
0
Le test du χ
2
consiste à découper l’espace des observations en k classes, et à comparer les
fréquences empiriques de chaque classe i :
ni
n
, avec la probabilité théorique P
0
donnée par H
0
, p
i
.
La statistique de test est :
ξ
χ
2
n
=
k

j=1
(n
j
−np
j
)
2
np
j
=
k

j=1
n
_
nj
n
−p
j
_
2
p
j
Elle converge en loi vers un χ
2
(k −1) sous H
0
et vers ∞ sous H
a
.
La région de rejet est donc :
W
n
=
_
ξ
χ
2
≥ q
1−α
_
χ
2
(k −1)
_
_
On essaie de choisir les classes de façon à ce que np
j
≥ 5.
Si la loi théorique est donnée, on peut choisir les classes de sorte que la probabilité de chaque
classe soit ≥
5
n
.
Sinon, on se base sur la loi empirique pour diviser l’échantillon...
Théorème 1.2. Test du χ
2
pour l’adéquation à une famille de lois paramétriques (P
θ
)
θ∈Θ
On suppose θ ∈ Θ où Θ est une partie de R
d
.
On remplace les p
j
précédents par p
j
(
´
θ), où
´
θ est l’EMV de θ. Ceci revient à tester l’adéquation
à la loi la plus vraisemblable de la famille :
ξ
χ
2
n
=
k

j=1
_
n
j
−np
j
(
´
θ)
_
2
np
j
(
´
θ)
=
k

j=1
n
_
nj
n
−p
j
(
´
θ)
_
2
p
j
(
´
θ)
Quand cette statistique est trop compliquée, on peut la remplacer par la statistique suivante de
même loi :
ξ
χ
2
n
=
k

j=1
_
n
j
−np
j
(
´
θ)
_
2
n
j
=
k

j=1
n
_
nj
n
−p
j
(
´
θ)
_
2
nj
n
Ces statistiques convergent en loi vers un χ
2
(k − d − 1) sous H
0
et vers ∞ sous H
a
. Il faut
faire attention au fait que le nombre de degré de liberté eset différent du test d’adéquation à une
loi simple.
La région de rejet est donc :
W
n
=
_
ξ
χ
2
≥ q
1−α
_
χ
2
(k −d −1)
_
_
1
1.2 Tests de Kolmogorov-Smirnov
(X
i
) sont des variables iid. La fonction de répartition empirique est :
F
n
(x) =
1
n
n

i=1
1
]−∞,x]
(X
i
)
On note F la fonction de répartition théorique (donnée par H
0
).
Théorème 1.3. Glivenko-Cantelli
Presque sûrement, quand n →∞:
sup
x∈R
|F
n
(x) −F(x)| →0
Théorème 1.4. Kolmogorov-Smirnov
On a la convergence en loi pour les statistiques suivantes :
D
n
=

n sup
x
|F
n
(x) −F(x)| →(loi) D
1
D
+
n
=

n sup
x
(F
n
(x) −F(x)) →(loi) D
2
D

n
=

n sup
x
(F(x) −F
n
(x)) →(loi) D
2
où les lois de D
1
et D
2
ne dépendent pas de F (ces lois sont tabulées) et sont caractérisée par leur
survie :
P (D
1
> λ) = 2


k=1
(−1)
k+1
exp
_
−2k
2
λ
2
_
P (D
2
> λ) = exp
_
−2λ
2
_
Pour tester F = F
0
contre F = F
0
, on prend le test de région de rejet :
W
n
= {D
n
> q
1−α
(D
1
)}
Pour tester F ≤ F
0
contre F > F
0
, on prend le test de région de rejet :
W
n
=
_
D
+
n
> q
1−α
(D
2
)
_
Pour tester F ≥ F
0
contre F < F
0
, on prend le test de région de rejet (attention au signe
et au quantile choisi) :
W
n
=
_
D

n
< q
α
(D
2
)
_
Pour tester l’appartenance de F à un modèle (F
θ
)
θ∈Θ
, on remplace comme précédemment F
donné par H
0
précédente par F(
´
θ), où
´
θ est l’EMV. Il faut alors corriger les statistiques précédentes,
et toujours selon le même principe, les comparer aux quantiles tabulés. Les corrections sont précisées
dans les tabulations (on précise par exemple que la quantité tabulée est D
n
_

n + 0,12 +
0.11

n
_
:
dans ce cas, on calcule cette fonction de D
n
et on la compare à la valeur du tableau).
2 Tests d’indépendance
2.1 Tests du χ
2
Ce test est un test peut se voir (cf poly de P. Doukan ou livre de Monfort) comme un test
d’adéquation à une famille de lois. On dispose des deux façons de tester vues précédemment.
Théorème 2.1. Test du χ
2
pour l’indépendance de X et Y
Le croisement des variables X et Y discrétisées peut s’illustrer par un tableau de contingence,
avec k
x
lignes et k
y
colonnes. On compare les fréquences empiriques de chaque case ij,
nij
n
, aux
produit des probabilités marginales, p
i.
p
.j
qui est la probabilité de la case dans le cas indépendant.
ξ
χ
2
n
=

i,j
_
n
ij

ni.n.j
n
_
2
ni.n.j
n
=

i,j
n
_
nij
n

ni.
n
n.j
n
_
2
ni.
n
n.j
n
2
Une statistique de même loi (sous H
0
) est :
ξ
χ
2
n
=

i,j
_
n
ij

ni.n.j
n
_
2
n
ij
=

i,j
n
_
nij
n

ni.
n
n.j
n
_
2
nij
n
Cette statistique a pour loi asymptotique un χ
2
((k
x
−1)(k
y
−1)) sous H
0
et vers ∞ sous H
a
.
La région de rejet est donc :
W
n
=
_
ξ
χ
2
≥ q
1−α
_
χ
2
((k
x
−1)(k
y
−1))
_
_
3

Kolmogorov-Smirnov On a la convergence en loi pour les statistiques suivantes : √ Dn = √ n supx |Fn (x) − F (x)| → (loi) + Dn = √n supx (Fn (x) − F (x)) → (loi) − Dn = n supx (F (x) − Fn (x)) → (loi) D1 D2 D2 où les lois de D1 et D2 ne dépendent pas de F (ces lois sont tabulées) et sont caractérisée par leur survie : ∞ P (D1 > λ) = 2 k=1 (−1)k+1 exp −2k 2 λ2 P (D2 > λ) = exp −2λ2 Pour tester F = F0 contre F = F0 . Théorème 1. et toujours selon le même principe. Glivenko-Cantelli Presque sûrement.4. on prend le test de région de rejet (attention au signe et au quantile choisi) : − Wn = Dn < qα (D2 ) Pour tester l’appartenance de F à un modèle (Fθ )θ∈Θ . on prend le test de région de rejet : + Wn = Dn > q1−α (D2 ) Pour tester F ≥ F0 contre F < F0 . Il faut alors corriger les statistiques précédentes. où θ est l’EMV. p. 2 2. n. Test du χ2 pour l’indépendance de X et Y Le croisement des variables X et Y discrétisées peut s’illustrer par un tableau de contingence.j n nij n − ni.1.x] (Xi ) i=1 On note F la fonction de répartition théorique (donnée par H0 ). On compare les fréquences empiriques de chaque case ij.11 : dans les tabulations (on précise par exemple que la quantité tabulée est Dn n dans ce cas.j 2 nij − ni.12 + 0.2 Tests de Kolmogorov-Smirnov 1 n n (Xi ) sont des variables iid.j qui est la probabilité de la case dans le cas indépendant. nij avec kx lignes et ky colonnes.3. n. Les corrections sont précisées √ √ n + 0. pi. on calcule cette fonction de Dn et on la compare à la valeur du tableau). quand n → ∞ : sup |Fn (x) − F (x)| → 0 x∈R Théorème 1.j 2 n n ni.1 Tests d’indépendance Tests du χ2 Ce test est un test peut se voir (cf poly de P. Doukan ou livre de Monfort) comme un test d’adéquation à une famille de lois. La fonction de répartition empirique est : Fn (x) = 1]−∞. on prend le test de région de rejet : Wn = {Dn > q1−α (D1 )} Pour tester F ≤ F0 contre F > F0 . n . χ ξn = i. n.j n n 2 . on remplace comme précédemment F donné par H0 précédente par F (θ). les comparer aux quantiles tabulés.1.j 2 n ni. Théorème 2. On dispose des deux façons de tester vues précédemment. n. aux produit des probabilités marginales.j n = i.

n.j 2 n n nij n Cette statistique a pour loi asymptotique un χ2 ((kx − 1)(ky − 1)) sous H0 et vers ∞ sous Ha .j n nij n − ni.j nij n n 2 = i.j 2 nij − i. La région de rejet est donc : Wn = ξ χ ≥ q1−α χ2 ((kx − 1)(ky − 1)) 2 3 .Une statistique de même loi (sous H0 ) est : χ ξn = i.n .