Irène Gannaz

Analyse statistique de sensibilité
20 novembre 2008
Groupe de Travail
Méthodes Numériques pour les Sciences et l’Ingénierie
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
2/43
Objectifs
Supposons que l’on dispose d’un système complexe, qui à partir de
facteurs X ∈ R
p
retourne une sortie Y que l’on supposera
unidimensionnelle. Le problème peut s’écrire sous la forme
Y = f (X),
avec f fonction inconnue. La fonction f modélise le lien entre les
facteurs X et la sortie Y.
On peut par exemple considérer que
• X sont les paramètres d’entrée,
• f est le code numérique (résolvant par exemple une équation
différentielle)
• Y est le résultat retourné par le code
3/43
Objectifs
L’objectif d’une analyse de sensibilité est de quantifier l’impact de
chaque facteur sur la sortie. L’intérêt peut notamment être de :
• hiérarchiser les facteurs : voir lequel est le plus influent sur la
sortie et va nécessiter le plus de précision,
• calibrer les facteurs les moins influents,
• réduire la variabilité de la sortie en fixant le moins de facteurs
possibles,
• cartographier les facteurs : identifier quels facteurs vont induire
que la sortie vérifie une condition donnée. . .
4/43
Quantification de la sensibilité
Introduction des outils
Sources d’incertitude :
• la modélisation implique des simplifications,
• toute mesure expérimentale est entâchée d’erreur.
⇒ On associe aux facteurs une densité de probabilité f
X
qui
modélise les incertitudes sur les facteurs X.
Ceci est très dur à faire, surtout lorsqu’on veut bien prendre en
compte l’existence de corrélations entre les facteurs !
⇒ L’incertitude sur la sortie sera quantifiée par une densité de
probabilité f
Y
.
5/43
Quantification de la sensibilité
Introduction des outils
La densité f
Y
de Y permet de voir comment se répartissent ses
valeurs. En particulier, on sera intéressés par :
• son espérance, µ
Y
= E(Y) qui donne la valeur moyenne de Y,
• sa variance, σ
2
Y
= E(Y −EY)
2
qui mesure sa variabilité.
On peut aussi s’intéresser de manière plus pointue à la loi de Y
pour trouver par exemple un intervalle de confiance ou la
probabilité que Y dépasse un seuil donné.
6/43
Quantification de la sensibilité
Nous allons maintenant présenter des outils d’analyse de sensibilité.
Rappelons que le but est de mesurer dans quelle mesure la variation
d’un facteur de X va avoir un impact sur la sortie Y.
Nous allons présenter plus précisément
• une méthode dite de screening,
• les analyses locales de sensibilité,
• les analyses gobales de sensibilité, qui seront celles sur lesquelles
nous allons nous focaliser ensuite.
7/43
Mesures de sensibilité
Méthode de screening
Méthode OAT : on ne regarde l’influence sur la sortie que d’un
facteur à la fois.
d
i
(x) =
1

(f (x
1
, . . . , x
i −1
, x
i
+ ∆, . . . , x
d
) −f (x
1
, . . . , x
d
)) .
On calcule plusieurs réalisations de d
i
:
• une moyenne élevée signifie un paramètre ayant une forte
influence sur la variabilité de la sortie,
• une variance élevée est due à une influence de type non linéaire
ou à une corrélation avec d’autres facteurs.
⇒ Inconvénient : procédure coûteuse.
8/43
Mesures de sensibilité
Analyse de sensibilité locale
Le but est de rechercher de l’information quant à l’impact de la
modification d’un facteur X
i
à un niveau local, c’est-à-dire dans le
voisinage d’une valeur x
0
donnée des facteurs. Ceci correspond à la
notion de dérivée.
Afin d’obtenir une grandeur objective, on introduit un facteur de
normalisation :
δ
i
(x
0
) =
Var (X
i
)
Var (Y)
∂f
∂X
i

X=x
0
.
⇒ Inconvénient : caractère local de l’étude
9/43
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Méthode de screening
Analyse de sensibilité locale
Indices de sensibilité globale
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
10/43
Mesures de sensibilité
Indices de sensibilité globale
On veut regarder de manière plus globale comment la répartition de
la sortie est modifiée si on fixe une partie des entrées.
Considérons que l’on se fixe un facteur donné X
i
= x
i
.
La répartition de la sortie Y avec ce facteur fixé est caractérisée par
sa loi conditionnelle, de densité f
Y|X
i
=x
i
(.).
La quantité E[Y|X
i
= x
i
] nous donne la valeur moyenne de la sortie
lorsque X
i
est fixe et vaut x
i
.
On obtient alors une fonction E[Y|X
i
] = E[Y|X
i
= .] qui décrit le
comportement de Y lorsqu’on fixe X
i
à différentes valeurs.
11/43
Mesures de sensibilité
Indices de sensibilité globale
On a construit une variable E[Y|X
i
] donnant une information quant
à la valeur de la sortie Y en fonction du paramètre X
i
. On peut
montrer que cette fonction minimise
E(Y −m(X
i
))
2
par rapport à m et que le minimum atteint vaut
Var (Y)

1 −
Var (E[Y|X
i
])
Var (Y)

.
12/43
Mesures de sensibilité
Indices de sensibilité globale
Les indices de sensibilité reposent sur le concept de la variance. On
définit l’indice de sensibilité du 1
er
ordre :
S
i
=
Var (E[Y|X
i
])
Var (Y)
.
Il mesure le rapport des corrélations entre E[Y|X
i
] et Y.
Remarque : Un développement de Taylor d’ordre 1 en x
0
montre
que S
i
≈ δ
2
i
(x
0
) où δ
2
i
(x
0
) est l’indice local en x
0
défini
précédemment.
13/43
Mesures de sensibilité
Indices de sensibilité globale
Comment généraliser ce concept ?
Soit I = {i
1
, . . . , i
k
} ⊂ {1, . . . , p}. Notons X
I
= (X
i
1
, . . . , X
i
k
).
Alors on peut de même définir E[Y|X
I
] et l’indice de sensibilité
d’ordre k associé :
S
I
=
Var (E[Y|X
I
])
Var (Y)

I ⊂I,I =I
S
I
.
La sensibilité totale du système au i
ème
facteur est alors donnée par
ST
i
=

I⊂{1,...,p},i ∈I
S
I
.
14/43
Mesures de sensibilité
Indices de sensibilité globale
Comment interpréter ces grandeurs ?
Pour un indice i donné :
• Si S
i
est grand, alors le i
ème
facteur à lui seul influence fortement
la variabilité de la sortie Y,
• Si ST
i
est petit, alors le i
ème
facteur n’influence que peu la
variabilité de la sortie Y, même en prenant en compte la présence
des autres variables d’entrées.
15/43
Mesures de sensibilité
Indices de sensibilité globale
Comment interpréter ces grandeurs ?
Pour un ensemble d’indices I donné :
• Si

I ⊂I
S
I
est grand, alors les facteurs X
I
influencent beaucoup
la valeur de la sortie Y,
• Si

I ∪I=∅
S
I
est petit, alors les facteurs X
I
influencent peu la
sortie Y, même en présence des autres entrées.
16/43
Mesures de sensibilité
Indices de sensibilité globale
Récapitulons les étapes d’une analyse de sensibilité :
1. Définir le modèle : Y ∈ R, X ∈ R
p
, et les objectifs,
2. Assigner des lois aux facteurs X
i
, si possible en prenant en
compte la dépendance (dur et non traité ici),
3. Réaliser des observations en simulant des entrées pour
différents choix de paramètres,
4. En déduire les indices de sensibilité désirés.
Il reste à voir comment réaliser les étapes 3 et 4 ci-dessus : de
quelles observations a-t’on besoin et comment en déduire les
indices de sensibilité ?
17/43
Estimation des indices de sensibilité
Parmi l’éventail des méthodes possibles, citons :
Mac Kay : estimation par échantillonages conditionnels,
FAST : repose sur une décomposition de Fourier de la surface
de réponse,
Sobol’ : décomposition fonctionnelle de la surface de réponse
de type ANOVA,
Oakley et O’Hagan : modélisation de la surface de réponse par
processus gaussiens (=kriegeage), avec utilisation de
techniques bayésiennes d’estimation, non traité ici. . .
18/43
Estimation des indices de sensibilité
Méthode de Mac Kay
Soient n échantillons X
1j
, . . . , X
pj
Pour tout j = 1 . . . n, (Y
jk
)
k=1...r
r échantillons issus
respectivement des lois de Y|X
i
= x
i ,j
.
Notons
Y
j
=
1
r
r

k=1
Y
j ,k
et
¯
Y =
1
n
n

j =1
Y
j
.
Alors l’indice de sensibilité i est estimé par
ˆ
S
i
=

n
j =1
(Y
j

¯
Y)
2

n
j =1
1
r

r
k=1
(Y
j ,k

¯
¯
Y)
2
.
19/43
Estimation des indices de sensibilité
Méthode de Mac Kay
Intérêt : cette méthode peut être étendue à des variables d’entrées
non indépendantes.
Inconvénient : pas de modélisation de la surface de réponse qui
apporte un plus à l’analyse du système.
20/43
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
21/43
Estimation des indices de sensibilité
Méthode FAST
Le but est de se ramener à des intégrales au plus bi-dimensionnelles.
On effectue une transformation des variables d’entrées :
X
i
= G
i
(sin(w
i
s)).
Alors, si on note A
j
et B
j
les coefficients de Fourier :
A
j
=
1

f (s) cos(js)ds et B
j
=
1

f (s) sin(js)ds,
on a
S
i

M
p=1
A
2
pw
i
+ B
2
pw
i

n
j =1
A
2
j
+ B
2
j
.
22/43
Estimation des indices de sensibilité
Méthode FAST
Avantage : moins coûteux que la méthode de décomposition de
Sobol’ (cf. Saltelli et al (00))
Inconvénient : n’est valable que pour des facteurs indépendants !
23/43
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
24/43
Estimation des indices de sensibilité
Décomposition de Sobol’
Cette méthode revient à faire une analyse fonctionnelle de la
variance (fANOVA).
L’idée est de construire une approximation de la surface de réponse
f la plus générale possible afin d’obtenir les indices de sensibilité.
L’intérêt de cette approche est qu’elle permet de manière plus
générale de modéliser le comportement du systèmre étudié avec
peu d’hypothèses.
25/43
Estimation des indices de sensibilité
Décomposition de Sobol’
Supposons que f ∈ L
2
([0, 1]
p
). Alors, Sobol’ (93) montre qu’il
existe une unique décompoition :
f (x
1
, . . . , x
p
) = f
0
+

i
f
i
(x
i
)+

i <j
f
i ,j
(x
i
, x
j
)+. . .+f
1,2,...,p
(x
1
, x
2
, . . . , x
p
)
avec les fonctions (f
I
)
I⊂{1,...,p}
centrées orthogonales.
Alors on peut montrer que
f
I
(x) = E[Y|X
I
= x
I
] −

I ⊂I,I =I
f
I
(x
I
).
26/43
Estimation des indices de sensibilité
Décomposition de Sobol’
La décomposition fonctionnelle
f (x
1
, . . . , x
p
) = f
0
+

i
f
i
(x
i
)+

i <j
f
i ,j
(x
i
, x
j
)+. . .+f
1,2,...,p
(x
1
, x
2
, . . . , x
p
)
nous donne la décomposition de la variance
σ
2
f
= σ
2
0
+

i
σ
2
i
+

i <j
σ
2
i ,j
+. . . +σ
2
1,2,...,p
,
où σ
2
I
=

f
2
I
.
27/43
Estimation des indices de sensibilité
Décomposition de Sobol’
La variance de Y vaut σ
2
= σ
2
f
−σ
2
0
et les indices de sensibilité
sont donnés par
S
I
=
σ
2
I
σ
2
.
Rappelons que l’influence des facteurs X
I
sur la valeur de la sortie
Y est :
• forte si

I ⊂I
S
I
est grand,
• faible si

I ∪I=∅
S
I
est petit.
28/43
Estimation des indices de sensibilité
Décomposition de Sobol’
Si on a construit la décomposition de Sobol’, il suffit de calculer
numériquement des intégrales multidimensionnelles pour avoir des
estimations des indices de sensibilité.
Ces calculs peuvent être réalisés à l’aide de méthodes stochastiques
(cf. Saltelli, Chan et Scott (2000)) qui permettent de bien balayer
le domaine d’intégration :
• Monte-Carlo,
• Quasi Monte-Carlo : moins coûteux que Monte-Carlo mais pas
d’évaluation de l’erreur commise,
• Quasi Monte-Carlo randomisé : coût intermédiaire entre les 2
précédents et évaluation de l’erreur.
29/43
Estimation des indices de sensibilité
Décomposition de Sobol’
On aimerait estimer les fonctions intervenant dans la décomposition
de Sobol’. . .
f (x
1
, . . . , x
p
) = f
0
+

i
f
i
(x
i
)+

i <j
f
i ,j
(x
i
, x
j
)+. . .+f
1,2,...,p
(x
1
, x
2
, . . . , x
p
)
Cela est surtout difficile si on est en grande dimension, i.e. avec
beaucoup de facteurs d’entrée.
⇒ Développement de méthodes d’estimation non paramétriques
adaptées.
30/43
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
31/43
Estimation de la surface de réponse
Objectif
Le but est d’estimer à partir d’observations la fonction f telle que
Y = f (X).
Nous allons considérer ici des méthodes non paramétriques,
c’est-à-dire faisant peu d’hypothèses quant à la forme de la
fonction f , donnant des conditions uniquement sur sa régularité.
En grande dimension, i.e. si X ∈ R
p
avec p grand, le phénomène
du fléau de la dimension nous dit que la qualité de l’estimation sera
moindre que dans un modèle de type linéaire.
(⇒ développement des modèles semi-paramétriques)
32/43
Estimation de la surface de réponse
Décomposition sur une base
Soit (ϕ
i
)
i ∈N
une b.o.n de L
2
([0, 1]), avec ϕ
0
≡ 11
[0,1]
et (ϕ
j
)
j 1
centrées.
Pour tout I ∈ N
p
, définissons
∀x ∈ [0, 1]
p
, ψ
I
(x) =
p

j =1
ϕ
I
j
(x
j
).
Alors (ψ
I
)
I ∈N
p est une b.o.n. de L
2
([0, 1]
p
). (cf. Stone (94))
33/43
Estimation de la surface de réponse
Décomposition sur une base
On considère que la surface de réponse vérifie
Y
i
= f (X
i
) +ε
i
avec ε
i
termes d’erreur de l’approximation, de variance σ
2
ε
et
f (x) =

I ∈ℑ
β
I
ψ
I
(x).
Alors la variance de Y est donnée par σ
2
=

I ∈ℑ
β
2
I

2
ε
.
L’indice de sensibilité des facteurs (X
I
) vaut
S
I
=

I ∈I
β
2
I
σ
2
.
34/43
Estimation de la surface de réponse
Décomposition sur une base
Intérêts : si on arrive à estimer la fonction en la décomposant dans
une telle base, alors
• on a directement les indices de sensibilité,
• on a une modélisation du comportement de notre système (utile
par exemple si on a un problème d’optimisation).
Inconvénient : le fléau de la dimension. . .
35/43
Plan
Objectifs
Quantification de la sensibilité
Introduction des outils
Mesures de sensibilité
Estimation des indices de sensibilité
Méthode de Mac Kay
Méthode FAST
Décomposition de Sobol’
Estimation de la surface de réponse
Décomposition sur une base
Choix du nombre d’éléments de la base
Estimation des coefficients de la décomposition
36/43
Estimation de la surface de réponse
Choix du nombre d’éléments de la base
On peut contrôler par exemple :
• I
0
: le nombre maximal de facteurs d’entrée qui intéragissent
dans le système.
Si I
0
= 1 on a un modèle dit additif : f (x) =

f
j
(x
j
).
• I

: l’indice maximal des facteurs X
i
ayant une influence sur
la sortie (si I
j
= 0, X
j
n’a pas de conséquence sur la réponse).
Notons d < ∞ le nombre de fonctions ψ
I
utilisées.
37/43
Estimation de la surface de réponse
Estimation des coefficients de la décomposition
On a
∀i = 1 . . . n, Y
i
=

I ∈ℑ
β
I
ψ
I
(X
i
) +ε
i
,
avec ♯ℑ = d. Avec un changement des indices,
∀i = 1 . . . n, Y
i
=
d

j =1
β
j
ψ
j
(X
i
) +ε
i
.
Notons Y = (Y
1
, . . . , Y
n
)
T
∈ R
n
, β = (β
1
, . . . , β
d
)
T
∈ R
d
,
ε = (ε
1
, . . . , ε
d
)
T
∈ R
d
et W∈ R
n×d
de terme général
W
i ,j
= ψ
j
(X
i
). Alors,
Y = Wβ + ε.
38/43
Estimation de la surface de réponse
Estimation des coefficients de la décomposition
Y = Wβ + ε.
On obtient un estimateur de β par moindres carrés :
ˆ
β
MC
= argmin
β
Y −Wβ
2
,
soit,
ˆ
β
MC
= (W
T
W)
−1
W
T
Y.
39/43
Estimation de la surface de réponse
Estimation des coefficients de la décomposition
On peut introduire dans le critère des moindres carrés une pénalité,
afin de régulariser l’estimation :
ˆ
β = argmin
β
Y −Wβ
2
+λPen(β),
avec différentes pénalisations possibles.
But :
• réduire la variance de l’estimation (régularisation ridge),
• privilégier les modèles creux (seuillages des coefficients les plus
faibles).
40/43
Estimation de la surface de réponse
Estimation des coefficients de la décomposition
Exemples :
• Si Pen(β) = β
2
2
, alors
ˆ
β = (W
T
W+λI
d
)
−1
W
T
Y.
• Si Pen(β) = β
1
, on obtient un estimateur de la forme
ˆ
f (x) =
d

j =1
γ
λ
(
ˆ
β
MC
j

j
(x)
où γ est une fonction de de seuillage définie par
γ
λ
(u) = signe(u)(|u| −λ)
+
(seuillage doux).
• Si Pen(β) = β
0
, alors on a de même un seuillage :
γ
λ
(u) = u11
|u|λ
(seuillage dur).
(cf. Antoniadis et Fan (01))
41/43
Bibliographie
Livres de références
Saltelli, A., Chan, K. and Scott, E. M. (2000), Sensitivity Analysis,
Chichester : Wiley Series in Probability and Statistics.
Saltelli, A., Tarantola, S., Campolongo, F. and Ratto, M. (2004),
Sensitivity Analysis in Practice, Chichester : Wiley.
Présentations générales, introduction
Antoniadis, A. (2006), Outils statistiques pour l’analyse de sensibilité :
analyse de la variance et quasi-régression, Toulouse.
Da Veiga, S. (2004), Analyse de sensibilité et d’incertitudes :
application aux modèles de cinétique chimique, Ph.D., IFP-Lyon.
42/43
Bibliographie
Décomposition de Sobol’
Sobol’, I. M. (1993), Sensitivity estimates for nonlinear mathematical
models, MMCE 1, 407-414.
Méthode FAST
Cukier, R. I., Fortuin, C. M., Shuler, K. E., Petschek, A. G. and
Schaibly, J. H. (1973), Study of the sensitivity of coupled reaction
systems to uncertainties in rate coefficients. I Theory, The Journal of
Chemical Physics 59, 3873-3878.
Méthode de Mac Kay
- McKay, M. D. (1995), Evaluating prediction uncertainty, Technical
Report NUREG/CR-6311, U.S. Nuclear Regulatory Commission and
Los Alamos National Laboratory.
- Ratto, M., Tarantola, S. and Saltelli, A. (2001), Estimation of
importance indicators for correlated inputs, in Proceedings of
ESREL2001.
43/43