Modele D Apprentissage

BULLETIN FRANAIS DACTUARIAT, Vol. 11, n22, juillet - dcembre 2011, pp.
49 - 81
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE
APPROCHE PAR MODELE D'APPRENTISSAGE STATISTIQUE
1

Antoine PAGLIA
2

Martial V. PHELIPPE-GUINVARCH
3

Euro-Institut d'Actuariat - Groupama
Abstract:
Non-life actuarial researches mainly focus on improving Generalized Linear
Models. Nevertheless, this type of model sets constraints on the risk structure and on the
interactions between explanatory variables. Then, a bias between the real risk and the
predicted risk by the model is often observed on a part of data. Nonparametric tools such as
machine learning algorithms are more efficient to explain the singularity of the
policyholder.
Among these models, regression trees offer the benefit of both reducing the bias and
improving the readability of the results of the pricing estimation. Our study introduces a
modification of the Classification And Regression Tree (CART) algorithm to take into
account the specificities of insurance data-sets. It compares the results produced by this
algorithm to these obtained using Generalized Linear Models. These two approaches are
then applied to the pricing of a vehicle insurance portfolio.
Rsum :
Les dveloppements rcents en tarification de l'assurance non-vie se concentrent
majoritairement sur la matrise et l'amlioration des Modles Linaires Gnraliss.
Performants, ces modles imposent la fois des contraintes sur la structure du risque
modlis et sur les interactions entre les variables explicatives du risque. Ces restrictions
peuvent conduire dans certaines populations d'assurs une estimation biaise de la prime
d'assurance. De par leur nature non paramtrique, les algorithmes d'apprentissage statistique
s'affranchissent de ces contraintes. Nous cherchons donc dans cet article les dcrire et
les tester.
Mots-cls : tarification, apprentissage statistique, arbres de dcision

1
Cet article est le rsultat du mmoire d'Antoine Paglia pour le titre d'actuaire ralis l'EURIA. Une partie de
l'tude, notamment les dveloppements spcifiques l'algorithme CART-ANV, a fait l'objet d'une communication
(Paglia et al., 2011). Ce travail a t encadr par Martial Phlipp-Guinvarc'h. Il a bnfici du soutien de Philippe
Lenca, (Dpt. Logique des Usages, Sciences Sociales et de l'Information, Telecom Bretagne), de Franck Vermet et
de Pierre Ailliot, (Dpartement de Mathmatiques, Universit de Bretagne Occidentale) que nous tenons
remercier.
2
Actuaire, Euro Institut d'Actuariat, antoine.paglia@gmail.com
3
Actuaire, Docteur, Groupama, martialphelippeguinvarch@sfr.fr
50 A. PAGLIA M. V. PHELIPPE-GUINVARCH

1. INTRODUCTION
Les compagnies d'assurances utilisent quotidiennement des modles statistiques
pour valuer les risques auxquels elles doivent faire face. En particulier, les modles de
rgression permettent de quantifier les relations entre la valeur des contrats des risques
assurs et les variables dcrivant ce risque. Les trente dernires annes ont t marques par
la sophistication des modles de rgression utiliss pour quantifier ces risques. La
rgression linaire simple qui permettait de modliser par une droite les variations d'une
variable cible - le risque tudi -, a t remplace partir des annes 1980 par les Modles
Linaires Gnraliss mccullagh, nots GLM par la suite. Ces modles permettent la fois
de modliser des comportements non linaires et des distributions de rsidus non gaussiens.
Cela est particulirement utile en assurance non-vie o les cots des sinistres, quand ils se
concrtisent, suivent une densit trs asymtrique clairement non gaussienne. Ils ont permis
d'amliorer la qualit des modles de prdiction du risque et sont aujourd'hui largement
utiliss par les compagnies d'assurance.
Paralllement ces dveloppements, des quipes de chercheurs en informatique ont
mis au point un grand nombre d'algorithmes dont l'objectif tait soit li la prdiction de
valeurs soit la classification d'individus. Ces travaux ont donn naissance la thorie de
l'apprentissage statistique - machine learning - dont les modles les plus connus sont les
rseaux de neurones, les arbres de dcision ou encore les support vector machines (pour
approfondir, voir Hastie et al. (2008) ou Mitchell (1997)). Ces mthodes ont t appliques
avec succs dans les domaines de la gntique, de la dtection de maladies rares ou de
l'cologie (Elith et al. (2008)) pour rsoudre des problmes complexes. Nanmoins, leur
utilisation en assurance est cependant moins rpandue et/ou confidentielle, notamment en
assurance de vhicule, notre domaine applicatif. La littrature est ainsi peu abondante. Nous
renvoyons cependant le lecteur intress aux tudes de Apte et al. (1999), Dugas et al.
(2003) et Christmann (2004). Les rsultats obtenus dans ces domaines montrent qu'il est
possible grce ces algorithmes d'extraire des structures de dpendance entre les donnes
qui restaient jusque l non dtectes par les outils de rgression classique. Nous utilisons
volontairement des algorithmes de rfrence dans le cadre de cet article pour faciliter la
lecture de nos rsultats. Pour autant, la littrature sur l'extraction et la gestion des
connaissances propose des dveloppements utiles en assurance non-vie o la probabilit
d'avoir un sinistre est trs faible comparativement la probabilit oppose de ne pas en
avoir. Le lecteur pourra se rfrer par exemple aux algorithmes spcifiques de Lenca et al.
(2010) ou de Washio et al. (2008) .

TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELE
D'APPRENTISSAGE STATISTIQUE
51

L'objectif de cet article est de prsenter les bnfices lis l'application d'un de ces
algorithmes la tarification de produits d'assurance non-vie. Il expose une modification de
l'algorithme CART (Classification And Regression Tree) pour prendre en compte les
spcificits de l'assurance non-vie. La premire partie est consacre l'expos de l'tat de
l'art et des enjeux mathmatiques, conomiques et stratgiques. Les modles d'estimation
de la prime pure qui sont compars dans notre tude, en particulier l'algorithme CART ,
sont ensuite prsents. La troisime partie prsente les lments clefs de la base de donnes.
Enfin, la dernire partie est consacre l'tude des rsultats des modles statistiques.
2. TAT DE L'ART ET ENJEUX
L'objectif de cette section est de montrer les enjeux mathmatiques et conomiques
de la tarification par l'apprentissage machine. La premire sous-section est consacre aux
mthodes actuelles d'estimation de la prime actuarielle. Leurs limites sont ensuite
prsentes. Ces limites conduisent la deuxime sous-section consacre au machine
learning. La troisime sous-section illustre ces techniques en utilisant les donnes sur le bris
de glace. Enfin, nous exposerons les enjeux de la comparaison entre les Modles Linaires
Gnraliss et l'apprentissage machine pour l'assureur.
2.1 Les limites des Modles Linaires Gnraliss
Dans les annes 1960, des actuaires canadiens ont dvelopp une mthode de
tarification connue sous le nom de minimum bias procedures, (Bayley et Simon, 1960). Le
principe de cette mthode consiste dfinir arbitrairement un lien entre les variables
explicatives (multiplicatif, additif), les classes de risques (par exemple les conducteurs de
moins de 20 ans ayant une voiture de puissance comprise entre 70 et 100 chevaux) et une
distance entre les valeurs prdites et les valeurs mesures. Une fois ces trois lments
imposs, un algorithme itratif calcule le coefficient associer chaque classe de risques
en minimisant le critre de distance.
Bien que construits en dehors d'un cadre statistique existant, ces algorithmes se
sont rvls par la suite tre des cas particuliers d'utilisation de Modles Linaires
Gnraliss. Les modles GLM sont des extensions du modle linaire simple et
permettent la fois de modliser des comportements non-linaires (grce aux fonctions de
liens) et des distributions de rsidus non-gaussiens (McCullagh et Nelder (1989)).
Par rapport aux techniques de minimum bias procedures, les modles GLM

bnficient d'un cadre thorique dans lequel il est possible d'effectuer des tests statistiques
pour valuer la qualit du modle produit. Toutefois, ces modles issus de la statistique
paramtrique possdent deux limites qui sont de nature rduire leurs capacits prdictives.
Ces limites concernent la dtection et la modlisation d'interactions entre les variables
quantitatives ou qualitatives et la modlisation de la prime en fonction de variables
quantitatives (l'ge, la puissance).
Dans un modle GLM, les interactions doivent tre spcifies priori par le
statisticien. Si celui-ci dispose de 6 variables explicatives prenant chacune 10 valeurs, il
existe 1 = 10
6
million d'interactions possibles dont il faut tester la significativit. Ceci
montre les limites de la statistique paramtrique dans laquelle les rsultats des modles sont
produits avec une bonne prcision sur la valeur estime et son erreur mais pour des
structures de risques qui ne correspondent pas forcment la ralit des donnes.
2.2 Les apports du machine learning
Contrairement la statistique classique qui ncessite de formuler des hypothses sur
la structure et la distribution des donnes, la thorie de l'apprentissage statistique ne
formule qu'une seule hypothse : les donnes prdire, que nous noterons Y , sont gnres
de faons identiques et indpendantes par un processus P partir du vecteur des variables
explicatives X .
A partir de cette hypothse, le but est de construire un algorithme qui va apprendre
prdire la valeur de Y en fonction des valeurs explicatives X (i.e. ] | [ X Y E ). Le rsultat
de cet apprentissage est une fonction note ) (
X f
w
. Elle fait intervenir les variables X et
un paramtre de complexit w . Ce paramtre dsigne par exemple le nombre de neurones
dans un rseau de neurones ou le nombre de nuds dans un arbre de dcision. Cette
fonction qui devient de plus en plus complexe mesure que l'algorithme apprend permet de
modliser les singularits de la structure des donnes (notamment des interactions ou des
comportements non linaires). Le critre d'arrt de l'algorithme d'apprentissage correspond
l'tape o la complexification du modle ) (
X f
w
conduit diminuer ses performances de
prdiction sur une autre base de donnes. Ce phnomne est appel surapprentissage et son
effet en terme de mesure d'erreur est prsent dans la figure 2.
Les performances d'un modle se mesurent aprs avoir dfini une fonction de risque
)) (
, ( X f Y R
w
. Celle-ci mesure la distance entre Y et son estimation ) (
X f
w
. Des choix
typiques pour la fonction de risque lorsque Y est une variable quantitative sont les
53

suivants:

absolue erreur X f Y
e quadratiqu erreur X f Y
X f Y R
w
w
w
| ) (
|
)) (
(
= )) (
, (
2

L'erreur de gnralisation est l'erreur commise sur une base de donnes
indpendante de la base ayant servie construire ) (
X f
w
. Elle est dfinie comme tant
l'esprance de l'erreur sur une base indpendante note
test
B :
] | )) (
, ( [ =
test w test
B X f Y R E Err
Toutefois, lors de l'apprentissage, l'algorithme ne dispose que des N lignes de la
base de donnes et c'est donc l'erreur empirique sur la base d'apprentissage qui est
mesure :
1

)) (
, (
1
=
,
i w i
age apprentiss
B
i
y
i
x
age apprentiss
x f y R
N
Err

La validation croise permet cependant d'ajuster des modles qui minimisent
test
Err
pour un nombre fini de bases de donnes. Cette mthode consiste, lorsque la base de
donnes est suffisamment volumineuse, la dcouper en trois parties (Cf. figure 1). La
premire base appele base d'apprentissage est utilise pour construire ) (
X f
w
. La seconde,
appele base de validation, permet de dfinir le paramtre w qui minimise l'erreur
] | )) (
, ( [ =
validation w validation
B X f Y R E Err . Enfin, la dernire base, appele base de test,
permet de mesurer l'erreur sur une base qui n'a pas servie paramtrer le modle (
test
Err )
et est utile pour comparer les performances de plusieurs algorithmes d'apprentissage.

Figure 1: 50% de la base servent l'apprentissage, 25% servent trouver le paramtre de
complxit w optimal du modle, les 25% restant permettent de comparer diffrents
modles sur une base qui n'a pas servie paramtrer le modle.

1
La thorie de la Structural Risk Minimization dveloppe par Vapnik (1998) permet de trouver le
paramtre w de ) (
X f
w
qui minimise
test
Err par une quantit qui dpend de l'erreur sur la base d'apprentissage
et d'un paramtre appel Vapnik Dimension (VC) qui dpend du paramtre . w

Figure 2: L'volution de l'erreur en fonction de la complexit du paramtre w .
La figure 2 illustre des comportements typiques rencontrs pour l'volution de
l'erreur en fonction de la complexit du paramtre w . Les courbes en trait fort sont les
valeurs moyennes de plusieurs apprentissages. Celles en trait plein reprsentent l'volution
de l'erreur sur la base d'apprentissage
age apprentiss
Err et celles en trait discontinu
reprsentent l'erreur sur une base de validation
validation
Err . L'erreur sur la base
d'apprentissage diminue au fur et mesure que l'algorithme apprend. L'algorithme
d'apprentissage doit s'arrter lorsque l'erreur augmente sur la base de validation. La
complexit w optimale est celle qui minimise l'erreur sur la base de validation. Dans cet
exemple, prsent dans la figure 2, le w qui minimise l'erreur est 10.
Ainsi, les modles d'apprentissage statistique possdent deux qualits qui sont de
nature amliorer la prdiction de la prime pure d'un contrat d'assurance non-vie. Tout
d'abord, ils sont capables de modliser des structures de dpendances complexes partir
des donnes, alors que ces dpendances doivent tre spcifies par le statisticien, dans le
cas de la tarification par modles GLM . De plus, le modle produit ) (
X f
w
est optimis,
non pas pour donner le meilleur ajustement sur la base de donnes, mais pour rduire
l'erreur de la valeur prdite sur une autre base, ce qui est de nature renforcer la robustesse
des rsultats prdits.
2.3 Illustration
Pour illustrer les deux limites, nous prsentons les rsultats de l'estimation de la
frquence de sinistres de la garantie bris de glace en fonction de l'ge et de la puissance du

vh
eff
est
de
tu
pou
figu
du
F
ca
par
fon
var
mo
TARIFICATION
hicule qui son
fets sur la frq
imation. Le p
la thorie du
ude et nous re
ur une explica
ure 3 et perm
vhicule sur l
Figure 3: L't
apacits des m
rt leur nature
Le secon
nction de vari
riables Age e
odlise par un

N DES RISQUES
D'
nt deux variab
quence de sinis
remier modl
machine learn
envoyons le le
ation de l'algo
mettent de visu
la frquence d
tude de la frq
modles repr
paramtrique
s'ad
nd modle es
iance poisson
et Puissance
ne rponse de
= freq
S EN ASSURAN
APPRENTISSAG
bles quantitati
stres. Nous av
e est un mod
ning. L'explic
ecteur Hasti
orithme. Les v
ualiser la form
des sinistres.
quence prdite
rsenter l'influ
e, les deux mo
dapter aux sin
st un Modle
n et une fonct
du vhicule
type :
(
1 0
exp +
CE NON-VIE, U
GE STATISTIQU
ives et qui pr
vons retenu qu
le GAM. C'e
cation de cet a
ie et al. (2008
valeurs prdit
me de l'influen
e selon deux d
uence jointe d
odles GLM pr
ngularits des
e Linaire G
tion de lien l
ne sont pas d
2
P Age +
UNE APPROCHE
UE
rsentent une
uatre modles
st un modle n
algorithme dp
8) ou Denuit
tes par ce mod
ce jointe de l'
dimensions pe
de deux variab
rsents ici m
donnes.
nralis -not
ogarithmique
discrtises. L
) uissance
E PAR MODELE
interaction da
statistiques p
non paramtri
passe le cadre
et Charpentie
dle sont mon
ge et de la p

ermet de mont
bles quantitati
ontrent leurs
t GLM 1- a
. Dans ce mo
La frquence
E 55
ans leurs
our cette
ique issu
e de cette
er (2005)
ntres en
puissance
trer les
ives. De
limites
avec une
odle les
est donc
56
sol
sol
mo
mo
pou
val
cla
l'al
pr
l'ob
nom
rep

Les figur
lution pour pa
lution la plus
odlisation av
ontrent que po
ur le modle G
leurs limites s
Une solu
asses et leurs
lgorithme des
sentation de
bjet de cet arti
Figu
Les cour
mbre de nive
prsentation pl
A.
res 3&4 montr
allier ce pro
souvent utilis
vec quatre cla
our ce modle
GLM 1 sans d
parant les cla
ution ce prob
limites en fo
arbres de dc
cet algorithm
icle.
ure 4: Courbe
rbes de nivea
eaux entre le
lus fidle du r
PAGLIA M. V
rent que ceci
oblme consis
e en assuran
asses pour la
, la reprsenta
discrtisation.
asses est souv
blme serait d
onction de cri
cision CART
me et son ada
es de niveaux
aux prsentes
s modles G
risque. Ce gra
V. PHELIPPE-GU
n'est pas adap
ste discrtis
nce. Le modle
a puissance et
ation de la str
. Toutefois, le
vent arbitraire
d'avoir un algo
itres statistiq
qui est le qua
aptation des
des graphique
s dans la fig
GLM 2 et CA
aphique montr
UINVARCH
pt la struct
ser les variabl
e appel GLM
t six pour l'
ructure du risq
e choix du nom
et non optima
orithme qui c
ques. C'est pr
atrime modl
s donnes d'as
es prsents e
gure 4 montre
ART , il est
re notamment
ture des donn
les continues.
M 2 correspon
ge. Les figu
que est plus fi
mbre de class
al.
hoisisse le no
cisment ce
le des figures
ssurance non-

en figure 3
ent qu'avec u
possible d'av
que le modl

es. Une
C'est la
nd cette
ures 3&4
idle que
es et des
ombre de
que fait
3&4. La
-vie font
un mme
voir une
le CART
57

sgmente plus les risques dans la zone correspondant aux vhicules intressants l'assureur
(i.e. vhicules rcents et de puissance moyenne) alors que le modle GLM 2 impose une
segmentation uniforme sur le portefeuille.
Ce premier exemple montre que les modles issus de la thorie de l'apprentissage
machine permettent de dtecter et modliser des structures de dpendance entre les
variables explicatives du risque sans devoir les spcifier priori. Le cadre gnral dans
lequel sont construits ces modles non paramtriques est prsent dans la section suivante.
2.4 Enjeux de la comparaison entre Modles Linaires Gnraliss et apprentissage
machine
Le premier enjeu de l'assureur est la bonne mesure du risque. L'article vise donc
premirement comparer la performance globale des GLM par rapport aux diffrents
algorithmes d'apprentissage machine. Dans le cadre de cette comparaison, nous
prsenterons le fonctionnement de trois algorithmes de rfrence et prsenterons les
rsultats obtenus sur notre base de donnes. Nous prsenterons plus en dtail l'algorithme
CART et son adaptation l'assurance non-vie, note CART-ANV.
L'amlioration de la segmentation d'un portefeuille d'assurs constitue un enjeu
conomique et stratgique majeur. En effet, l'assureur cherche dvelopper sa part de
march sur les segments qui conduisent la fois un avantage concurrentiel et un profit.
La qualit d'une segmentation par groupe de risques peut se mesurer selon quatre critres
majeurs que sont l'quit, l'homognit, le caractre ralisable et le caractre incitatif
(Feldblum (2006)). L'absence de biais entre le risque mesur et le risque prdit correspond
au critre d'quit et stipule que les primes payes par le groupe doivent reflter les pertes
occasionnes par ce groupe. Le critre d'homognit exprime le fait que les risques au sein
d'un groupe sont homognes et qu'il n'est pas possible de subdiviser ce groupe en plusieurs
sous groupes ayant des primes significativement diffrentes. Nous comparons donc
galement la performance des deux approches par segment sur les deux principaux critres
d'quit et d'homognit.
Enfin, nous comparons galement les deux approches dans leurs aspects pratiques
i.e. dans la prparation des donnes, la mise en uvre des outils, la fiabilisation des
rsultats et leur lisibilit tant en communication interne qu'externe.

3. MODELISATIONS MATHEMATIQUES
La premire section a montr les limites de la statistique classique pour le problme
de l'estimation de la prime pure, et les avantages qu'il est possible d'obtenir grce
l'utilisation des mthodes d'apprentissage statistique. Cette section a pour objectif de
prsenter les modles mathmatiques utiliss pour la tarification d'un portefeuille
d'assurance non-vie.
3.1 Prambule aux travaux de modlisation
Nous faisons le choix de traiter sparment les valeurs extrmes et donc de
dcomposer notre modlisation selon la formule suivante (Cf. graphique 8) :
] , | [ ] < , | [ = ] | [ S Y X Y E S Y X Y E X Y E +
o Y dsigne la charge de sinistre par police, X les variables explicatives associes
la police et S la valeur du seuil d'crtement pour les sinistres extrmes. Dans la suite, Y
dsignera le sinistre crt.
Lorsqu'un assur souscrit un contrat d'assurance, ce dernier comporte gnralement
plusieurs risques garantis. Par exemple, un contrat d'assurance automobile sera associ
une garantie responsabilit civile et/ou bris de glace et/ou collision Les modles de
tarification en assurance des vhicules se font le plus souvent par la somme de modles par
risque souscrit. Cela se comprend statistiquement par le fait que les distributions et les
variables explicatives sont diffrentes sur chacun de ces risques (Cf. figures 6 et 7). De
plus, dans les systmes informatiques, les primes de chaque risque sont souvent
paramtres indpendamment les unes des autres. Nanmoins, valuer la prime pure au
niveau du vhicule permet d'augmenter la performance du modle global et d'intgrer les
dpendances ventuelles entre les risques souscrits. Par exemple, le comportement des
assurs n'est pas le mme lorsque ceux-ci dcident de s'assurer avec une formule de
garantie maximale ou une formule de garantie minimale. C'est pourquoi, tant d'un point de
vue technique que commercial, nous modlisons le sinistre total du vhicule plutt que de
construire un modle par risque.
3.2 Choix de l'algorithme d'apprentissage
Plusieurs algorithmes d'apprentissage peuvent tre utiliss avec succs pour estimer
la prime pure. Il convient donc de dfinir des critres de slection pour comparer les
performances d'un modle. Parmi les critres qui caractrisent la qualit d'une
59

segmentation, le caractre ralisable et le caractre incitatif correspondent un choix des
variables explicatives insrer dans le modle. Par contre l'quit et l'homognit sont
directement impacts par l'algorithme et peuvent se mesurer de manire mathmatique de la
faon suivante.
L'quit correspond l'absence de biais entre le risque mesur et le risque prdit
dans un groupe de risques. Le biais moyen dans un groupe d'assurs G est not :

i i w
G
i
y
i
x
y x f
G
G b
) (
| |
1
= ) (
,

o | | G dsigne le nombre d'individus dans G .
L'homognit implique qu'aucun groupe d'assurs payant la mme prime ne peut
tre subdivis en deux groupes dont la nouvelle prime serait significativement diffrente.
Ceci revient minimiser la variance intra-groupe pour tous les groupes et donc minimiser
la somme des variances intra-groupe qui est gale l'erreur de gnralisation. Comme
mentionn dans la section sur les apports du machine learning, nous mesurerons cette erreur
sur une base de test
test
B qui n'a pas servie paramtrer l'estimateur de la prime :

2
,
) ) (
(
| |
1
=
i i w
test
B
i
y
i
x
test
test
y x f
B
Err

Cette erreur est souvent appele Mean Square Error (MSE) dans la littrature. Une
tude comparative des performances en terme de minimisation du MSE par divers
algorithmes pour l'estimation de la prime pure est prsente dans Dugas et al. (2003). Ce
papier montre la supriorit des algorithmes de machine learning en matire de rduction
du MSE par rapport aux techniques classiques ( GLM ) mais ne prcise pas le traitement
qui a t effectu sur les donnes (crtement des valeurs extrmes, traitement des variables
quantitatives) ni les paramtres utiliss dans les modles (fonction de variance pour les
modles GLM , nombre de nuds, nombre de rseaux de neurones).
Nous avons donc effectu une tude similaire en appliquant le traitement sur la
base de donnes de la section 4.2.5 rduite la seule garantie bris de glace (dont
l'histogramme de la figure 7 avait montr que cette garantie tait celle qui avait la
distribution de sinistres la plus homogne). Trois algorithmes d'apprentissage statistique
issus des dix principaux algorithmes supports par la communaut scientifique Wu et al.
(2008) ont t paramtrs puis compars aux rsultats produits par les mthodes classiques
GLM.

La mthodologie utilise pour estimer la prime pure a consist utiliser la fois
l'approche directe et la dcomposition cot-frquence. Nous ne prsentons ici que les
rsultats obtenus pour l'valuation du montant moyen (i.e. ] 0, > | [ X Y Y E ) mais les
conclusions sur les modles sont similaires pour les autres quantits. Les modles ont t
ajusts sous le logiciel R.
1

3.2.1 Rgression par arbre de dcision simple (CART)
Un arbre de rgression simple (algorithme CART du package rpart Therneau et al.
(2009)) a t ajust sur la base d'apprentissage. Le choix du critre d'arrt a t fix en
choisissant le nombre de nuds qui minimise l'erreur sur la base de validation (42 nuds
dans cet exemple). Cet algorithme est prsent en dtail dans la section 3.3.
3.2.2 Rgression par arbre de dcision boost
Un arbre de rgression boost (combinaison d'un grand nombre d'arbres de petites
tailles) a t ajust sur la base d'apprentissage en utilisant le package gbr. L'explication de
cet algorithme dpasse le cadre de cette tude. Le lecteur pourra par exemple se rfrer
Elith et al. (2008) et Christmann (2004) pour plus de dtails. Le choix du critre d'arrt a
t fix en choisissant le nombre d'arbres qui minimise l'erreur sur la base de validation. Le
choix du taux d'apprentissage est crucial pour obtenir un modle qui apprend la bonne
vitesse, sans construire trop d'arbres. La combinaison des deux paramtres, learning
rate=0,006 et du nombre de nuds=13 a permis d'obtenir le MSE le plus faible (nombre
d'arbres=900).
3.2.3 Rgression par rseaux de neurones
Un rseau de neurones une couche cache (package nnet) a t ajust sur la base
d'apprentissage. Le lecteur pourra se rfrer Hastie et al. (2008) pour plus de dtails. Le
choix du critre d'arrt a t fix en choisissant le nombre de neurones dans la couche
cache qui minimise l'erreur sur la base de test. L'erreur minimale a t trouve pour un
rseaux dix neurones dans la couche cache.
3.2.4 Rgression par modle linaire gnralis
Un modle linaire gnralis a t ajust sur la base d'apprentissage. La fonction de
variance utilise est la fonction Gamma avec sa fonction de lien canonique (fonction
inverse).

1
www.r-project.org
61

La slection de modle a t effectue selon une stratgie de slection forward. Cette
stratgie consiste partir du modle sans variable explicative puis ajouter la variable qui
rduit le plus l'erreur sur la base de validation. Cette opration est ritre jusqu' ce que
l'ajout de variables augmente l'erreur sur la base de validation. Le modle final est celui
dont le choix des variables explicatives minimise l'erreur sur la base de validation. Cette
stratgie de slection de modle est cohrente avec la stratgie utilise pour paramtrer
l'algorithme CART-ANV et permet de comparer de manire objective les rsultats produits
par l'algorithme CART-ANV et le modle GLM .
Dans cet exemple, la suppression des variables n Utilisatio et vehicule du Genre du
modle a permis de rduire l'erreur sur la base de validation. Il convient de noter que dans
cet exemple, la stratgie forward de slection de modle retenait le mme modle que dans
une stratgie consistant ne retenir que les variables dont les coefficients sont
statistiquement significatifs (au sens de la p-value infrieure 5% sous l'hypothse
0
H que
le coefficient est nul).
3.2.5 Comparaison des rsultats et choix de l'algorithme
La table 1 montre les rsultats en terme de MSE pour les quatre algorithmes dans
l'valuation du montant moyen de la garantie bris de glace. Les rsultats sur cet exemple
montrent que l'arbre de rgression boost est le modle qui donne la meilleure prdiction en
terme de MSE. Toutefois, le prix payer pour obtenir ces performances est d'avoir des
rsultats de type boite noire dans lequel il est difficile d'identifier l'effet d'une variable sur le
rsultat final. Cette remarque est valable pour les rseaux de neurones, mais pas pour les
arbres de rgression simple qui offrent une lecture visuelle du modle.

Algorithme MSEtraining MSEvalidation MSEtest
Rgression GLM (Gamma) 485685 551574 516501
Rseaux de neurones 473112 555147 514836
Arbre de rgression simple 474858 545724 511344
Arbre de rgression boost 459099 536985 503793
Table 1: MSE calcul sur les trois bases
(class du moins bon au meilleur sur la base de test)

Figure 5: Arbre de rgression simple appliqu sur la base de donne
La figure 5 prsente le rsultat graphique produit par l'algorithme. Le graphique
indique que la sinistralit moyenne du portefeuille est de 210,9 et concerne 874 423
individus (valeurs au sommet de l'arbre). Parmi l'ensemble des variables explicatives de
l'assur (l'ge du vhicule, la puissance du vhicule, la formule), la variable qui effectue la
meilleure sparation binaire de la base de donnes est la variable ge. La meilleure
sparation a lieu pour l'ge de 7,25 ans. L'algorithme cre alors deux nuds et cherche
parmi ces deux nuds celui qui ncessite le plus d'tre spar en deux. Pour le nud de
sinistralit 89,89 , la variable qui spare le mieux le risque est la formule tandis que pour
le nud de sinistralit 470,70 , la variable qui spare le mieux le risque est la variable
Puissance . L'algorithme arrte de crer des divisions binaires lorsqu'un critre d'arrt est
rencontr. Cet exemple montre que l'algorithme peut s'arrter diffrents niveaux de
l'arbre.
C'est cette lecture visuelle associe au principe de l'algorithme - qui est de crer des
groupes de risques homognes - et aux bonnes performances en terme de MSE de l'arbre de
rgression qui nous ont invit retenir ce modle pour l'estimation de la prime pure dans la
suite de notre tude.
3.3 Prsentation de la rgression par arbre simple CART
Les mthodes d'arbres de dcision partitionnent l'espace des variables explicatives
en diffrentes classes de risques et assignent ensuite cette classe la valeur moyenne prise
par le montant de sinistre dans la classe. L'algorithme utilis est l'algorithme CART
dvelopp dans Breiman et al. (1984) et Hastie et al. (2008). Il peut tre utilis pour des
63

problmes de classification ou de rgression. Dans le cadre de l'estimation de la prime pure,
le problme est li une rgression sur le montant et la frquence des sinistres.
La section consacre aux apports du machine learning a montr que l'ajustement
d'un algorithme d'apprentissage machine se faisait en deux tapes. La premire tape est
l'ajustement de la fonction ) (
x f
w
sur la base d'apprentissage par minimisation de l'erreur
sur cette base
training
Err et la deuxime tape consiste trouver le paramtre de complexit
w qui minimise l'erreur de gnralisation
test
Err . La fonction
w
f
est de la forme :
} { = ) (
, ,
1 =
w j w j
w
j
w
R x I Y x f

o w dsigne le nombre de nuds terminaux de l'arbre, } {
,w j
R x I est la fonction
indicatrice associe au nud final
w j
R
,
et
w j
Y
,
dsigne la moyenne empirique dans le
groupe j .
Dans le cadre des arbres de dcision, minimiser
training
Err pour la fonction ) (
x f
w

n'est gnralement pas rsolvable informatiquement puisqu'il faudrait tester toutes les
combinaisons de tous les groupes de risque possibles. L'algorithme CART est un
heuristique qui permet de s'approcher de la solution optimale et qui consiste minimiser
training
Err chaque cration d'un nud.
L'heuristique procde ainsi. Dans la premire tape, l'algorithme sub-divise de
manire rcurente la base d'apprentissage en deux. Chaque nud cr vise maximiser la
rduction de dviance . R L'algorithme calcule pour chaque variable et pour chaque
sparation possible la valeur de la dviance du nud parent, fils gauche et fils droit.
Plusieurs fonctions de dviance peuvent tre dfinies. Dans le cas d'une minimisation de
l'erreur quadratique, cette dviance a pour expression :

2
) ( =
i i
Noeud i
y y D

L'algorithme calcule ensuite, pour chacune des sparations possibles, la valeur R de
la rduction de dviance : ) ( =
filsdroit filsgauche parent
D D D R + . Le nud finalement retenu
est la sparation qui maximise la rduction de dviance R . L'algorithme recommence
ensuite la cration d'un nouveau nud jusqu' ce que le critre d'arrt sur le nombre
minimum d'individu dans un nud soit rencontr.
L'arbre produit de nombreux nuds. La deuxime tape, appele lagage, consiste
retirer tous les nuds qui rsultent du surapprentissage en utilisant une deuxime base, la
base de validation. mesure que le nombre de nud augmente, l'erreur sur la base de

validation diminue puis atteind un minimum (Cf. figure 2). L'algorithme arrte d'ajouter des
nuds lorsque ce minimum est atteint.
3.4 Adaptation de l'algorithme pour l'assurance non-vie ( CART-ANV)
Cette sous-section pose le problme li la prise en compte de la priode
d'exposition dans le portefeuille. Si cette priode d'exposition n'est pas prise en compte,
l'arbre identifie les vhicules prsents moins longtemps dans le portefeuille comme tant
moins risqu ce qui conduit une sous-estimation de la prime pour ces groupes de risque.
Dans son papier sur l'application des algorithmes de support vector machine
l'estimation de la prime pure, Christmann (2004) propose de diviser les sinistres dans la
base de donnes par leur priode d'exposition. Or, si un assur prsent 3 mois dans le
portefeuille dclare un sinistre, cette mthode comptabilise 4 sinistres sur l'anne.
Mathmatiquement, l'effet de cette transformation est prsent dans l'inquation suivante :

i
M
i
i
M
i
i
M
i
i
i
M
i
i
M
i
Y Y t soit Y
t
Y
M
t

1 = 1 = 1 = 1 = 1 =
~
)
1
(
o M dsigne le nombre d'individus dans un groupe d'assurs payant la mme prime,
i
Y
dsigne le montant de sinistre et
i
t la priode d'exposition. La dmonstration de cette
inquation se fait par rcurrence. Cette approche conduit une surestimation de la prime
(notamment dans les groupes de risque qui sont structurellement moins d'un an dans le
portefeuille : les premires souscriptions des jeunes conducteurs).
Afin d'obtenir l'galit entre les primes pures actuarielles et la sommes des sinistres
rels tel que :

i
M
i
i
M
i
Y Y t

1 = 1 =
=
~

il vient algbriquement que la quantit Y
~
estime par l'algorithme dans un nud et la
fonction de dviance D
~
deviennent :

2
1 =
1 =
)
~
( =
~
=
~
i i i
Noeud i
i
M
i
i
M
i
t y y D et
t
Y
Y

Nous avons donc intgr cette modification directement dans l'algorithme CART
pour devenir l'algorithme CART-ANV. Cette approche permet de prendre en compte l'effet
de la priode d'exposition sur la sinistralit du portefeuille et est quivalente
65

mathmatiquement l'introduction d'un offset dans les modles GLM qui possdent une
fonction de lien logarithmique. Le package rpart permet de recoder en langage R la fonction
de cration des nuds de l'arbre.
4. TUDE ET PREPARATION DES DONNEES
Nous avons suivi une mthodologie proche de CRISP-DM
1
(Shearer 2000), dont
l'une des tapes les plus importantes consiste prparer les donnes. Face l'importance de
cette tape prliminaire, nous avons dcid d'y consacrer une section. Nous dcrivons ci-
dessous les principaux lments de la base de donnes brute et les transformations opres.
Nous prcisons que nous utilisons une base de donnes relle, brute et volumineuse
d'un assureur. Pour des raisons -videntes- de confidentialit, nous avons dpersonnalis la
base. Par exemple, nous n'avons pas explicit des variables comme l'usage des vhicules
(not usage1, usage2 ) et avons effectu des homothties des variables quantitatives comme
le montant du sinistre.
Par ailleurs, l'assureur est en charge de la mesure de son propre risque et donc de
valider les modles sur sa propre base de donnes correspondant son business. Nous ne
comparons donc les modles que sur une seule base de donnes. Une comparaison sur
d'autres bases ne rpond pas l'objectif que nous poursuivons car leurs caractristiques
seraient diffrentes. Par exemple, elles pourraient tre issues de processus mtier diffrents
ou viseraient une cible diffrente.
La premire section est consacre l'tude descriptive de la base de donnes
regroupant les informations sur les vhicules et les sinistres d'un portefeuille de vhicules.
La prparation des donnes en vue d'tre utilises pour paramtrer des modles statistiques
est ensuite prsente. La troisime section traite de la prsence de sinistres extrmes dans la
base de donnes et la manire dont ces sinistres doivent tre traits. Enfin, la dernire
section prsente les caractristiques de la base de donnes aprs traitement et sur laquelle
sera appliqu l'algorithme.
4.1 Description de la base de donnes
La base de donnes qui sert de support notre tude rassemble plusieurs exercices
pour atteindre un peu plus de trois millions de contrats. Ce fichier contient 45 variables
explicatives (l'ge du vhicule, sa puissance, le montant de la franchise) dont la majorit

1
http://www.crisp-dm.org

sont discrtes et comportent de nombreuses modalits (le code postal, la Catgorie Socio-
Professionnelle - CSP, la marque du vhicule).

Figure 6 : L'histogramme restreint aux sinistres compris entre 0 et 30 000 montre une
distribution trs asymtrique et la prsence d'un pic
Notre base contient environ 150 000 sinistres. Le montant enregistr est le montant
d'indemnisation de l'assureur sur une garantie, ce qui correspond la valeur totale du
sinistre diminue de la franchise. La frquence moyenne des sinistres est de 7,49% pour un
montant moyen de 3 711 , soit une prime pure en ne tenant compte d'aucune variable
explicative de 276 . La table 2 dtaille la rpartition des sinistres. Ainsi, 6,48% des assurs
ont eu un sinistre compris entre 1 et 4 500 . Ces sinistres de faible montant contribuent
39,30% de la charge totale des sinistres. Il est intressant de noter l'importance prise par les
sinistres extrmes : seulement 0,01% des assurs ont eu un sinistre extrme mais la somme
de ces sinistres contribue 19% du montant total des sinistres. Le montant maximum de
sinistre est de 7,8M.

Charge de sinistre % obs. % du montant total Moyenne Mdiane
0 92,51 0 0 0
]0,4 500] 6,48 39,30 1 680 1 266
]4 500,30 000] 0,92 28,00 8 394 6 762
]30 000,150 000] 0,06 13,78 60 705 50 682
[150 000, max] 0,01 19,10 471 627 276 012
Table 2: Rpartition de la charge de sinistre. Elle montre l'importance des valeurs
extrmes.

67

L'cart entre le montant moyen et la mdiane dans une tranche de sinistres montre
que la distribution des sinistres est trs asymtrique. Ceci est confirm par le coefficient
d'asymtrie skewness - qui est de 3,2 et l'histogramme de la distribution des sinistres par
contrats prsent dans la figure 6. La lecture de l'histogramme rvle un pic de sinistralit
correspondant au montant du remboursement dans le cas d'une procdure IDA
(Indemnisation Direct de l'Assur). Pour acclrer le remboursement des assurs, les
assureurs ont mis en place cette procdure qui se traduit statistiquement par une
dformation de la distribution des sinistres avec un pic et trs peu de sinistres autour de ce
pic. La dformation est d'autant plus visible lorsque l'histogramme des sinistres est tudi
garantie par garantie comme le montre la figure 7.
Le premier histogramme de la figure 7 correspond la garantie responsabilit civile
et montre l'importance de la distorsion lie au pic. Les autres histogrammes sont prsents
afin de montrer les diffrences de distributions entre les garanties. La distribution de la
garantie incendie apparat moins rgulire que la distribution de la garantie pour le bris de
glace. Le dernier histogramme est associ la garantie sur la collision et montre aussi un
pic, mais avec une influence moindre sur la distribution que pour la garantie RC.
Ces histogrammes confirment le fait que les distributions entre garanties sont trs
peu homognes. Cependant l'tude de l'histogramme des sinistres par vhicule de la figure
6, montre une distribution des sinistres beaucoup plus rgulire et suggre que les modles
dvelopps sur cette distribution seront moins perturbs par les donnes que les modles
paramtrs sur les distributions des sinistres pris garantie par garantie.

Figure 6: Histogrammes par garanties assures

4.2 Prparation des donnes
Les variables prsentes dans la base de donnes ne peuvent tre utilises par un
modle statistique sans un traitement pralable. En effet, la prsence de valeurs non-
cohrentes, de valeurs manquantes, de variables discrtes avec un trs grand nombre de
modalits ou de valeurs extrmes posent certains problmes. Nous prsentons dans cette
section les traitements les plus importants et leurs consquences ventuelles sur les rsultats
du modle.
4.2.1 Les valeurs non-cohrentes et extrmes pour les variables explicatives
Les valeurs non-cohrentes doivent tre dtectes l'aide d'un expert sur le risque
assur. Dans notre exemple, la connaissance des puissances et des ges des diffrents
vhicules permet d'identifier les valeurs non-cohrentes. Une fois identifies, ces valeurs
peuvent soit tre remplaces par la valeur la plus probable (aprs une rgression sur la
variable remplacer) soit tre dfinies comme valeurs manquantes.
4.2.2 Regroupements
Bien que les regroupements des variables qualitatives ne soient pas ncessaires pour
CART-ANV, ils sont utiles dans le cadre d'une comparaison avec les modles GLM. En
effet, les variables qualitatives sont transformes en variables binaires par la majorit des
algorithmes statistiques (GLM, rseaux de neurones). Ainsi, une variable comme la CSP
qui possde l'origine une centaine de modalits conduit la cration de 100 variables
binaires. Un trop grand nombre de variables en entre des modles pose plusieurs
problmes majeurs : les temps de calculs sont multiplis, les interactions entre variables
sont plus difficiles modliser ou dtecter, les rsultats produits perdent de leur
interprtabilit et de leur significativit statistique. La solution consiste oprer des
regroupements, soit en utilisant des outils de classification statistique soit en utilisant l'avis
d'experts.
Dans notre tude, la variable icule Genreduveh est issue d'un regroupement d'une
cinquantaine de variables en 6 groupes dont les caractristiques sont prsentes dans le
tableau 3.

69

vehicule du Genre %obs. frq. montant charge
charge
150 000
A 97,29 0,075 3636 273 222
B 0,11 0,018 6462 117 117
D 1,60 0,050 4680 237 71
E 0,17 0,176 7140 1260 924
G 0,45 0,102 11985 1121 570
Autres 0,38 0,049 2538 126 126
Table 3: Analyse univarie par rapport la variable genre du vhicule
La variable Usage a galement t cre partir d'un regroupement d'une
cinquantaine de catgories et possde 8 niveaux (Usage1, Usage2).
Les variables quantitatives ( Age et Puissance ) ne ncessitent pas d'tre regroupes
pour tre traites par des algorithmes de machine learning. Ceci est un avantage face aux
modles GLM qui ncessitent souvent de discrtiser les variables continues. En effet, dans
ces modles, nous avons montr que si les variables quantitatives ne sont pas discrtises,
l'effet de celles-ci sur le risque n'est paramtr que par un seul paramtre ce qui est
gnralement insuffisant (Cf. section 2.1 sur les limites des Modles Linaires Gnraliss).
4.2.3 Prise en compte de la priode d'exposition
Suite la sous-section 3.4, nous savons que la dure de prsence du vhicule est
ncessaire pour une juste valuation de l'algorithme CART-ANV. Nous calculons donc la
variable Temps qui indique la dure de prsence du contrat dans le portefeuille. Sa valeur
moyenne est de 0,84 an.
4.2.4 Agrgation au niveau du vhicule
Comme not en prambule de la section modlisation, nous proposons de modliser
le tarif global d'un vhicule plutt que de modliser le risque de chaque garantie souscrite.
Pour cela, nous avons dcid de crer deux nouvelles variables.
La premire est le montant de sinistre annuel pour un vhicule et correspond la
somme des sinistres pour toutes les garanties du vhicule.
La seconde est une variable qui dcrit la formule thorique de garantie utilise par le
vhicule. L'objectif de la cration de cette variable est de passer de l'ajustement d'un modle
par garantie l'ajustement d'un seul modle mais qui prendrait en variable d'entre
l'information sur les garanties souscrites par l'assur. Les modalits de cette variable sont

prsentes dans la table 4. Lorsque la garantie
1
est entre parenthses cela signifie que la
garantie peut tre prsente ou absente de la formule :

Nom de la formule garanties associes % obs. prime pure
formule 1 RC 25 % 45
formule 2 RC+INC+BDG+(VOL) 10 % 51
formule 3 RC+INC+BDG+(VOL)+DOE 6 % 91
formule 4 formule 3+COL+TAC+(PNE) 45 % 321
autres formules 14 % 132
Table 4: Description de la variable formule.
La catgorie autre formule correspond aux vhicules dont les combinaisons de
garanties n'ont pas pu tre incluses dans l'une des quatre formules. Il s'agit le plus souvent
de formules souscrites il y a longtemps, et qui ne figure plus dans la cible commerciale
actuelle. Ces vhicules reprsentent 14 % du portefeuille et les informations sur ces
vhicules ne pourront pas tre utilises pour la modlisation par l'approche vhicule.
4.2.5 Les sinistres extrmes
La table 2 montre l'importance des sinistres extrmes dans le montant final de la
prime puisque ces sinistres qui ne reprsentent que 0,01 % du nombre total d'assurs
contribuent hauteur de 19 % du montant total des sinistres. Toutefois, ces sinistres ne
peuvent pas tre directement modliss dans le calcul de la prime pure pour deux raisons.
La premire est lie aux modles statistiques qui minimisent gnralement une
distance quadratique et ne sont donc pas robustes la prsence de valeurs extrmes. La
figure 8 montre le rsultat de la prdiction (rgression GLM avec fonction de variance
gamma) en laissant les sinistres extrmes dans la base de donnes (courbe en trait plein)
tandis que la courbe en trait discontinu est le rsultat de la prdiction en crtant le sinistre
extrme. Cette dernire reprsente mieux la tendance gnrale de l'influence de la variable
ge.
Les sinistres extrmes sont essentiellement lis la garantie responsabilit civile.
Cela constitue la deuxime raison pour crter les sinistres extrmes. Dans cette garantie, le
montant du sinistre couvre les frais d'un tiers. Son montant ne dpend donc pas des
caractristiques de l'assur ou de son vhicule. En revanche, la frquence de sinistres est
directement lie aux caractristiques de l'assur et pourra tre modlise. Le tableau 5

1
Responsabilit Civile, INCendie, Bris De Glace, VOL du vhicule, DOmmage Electrique, COLlision,
dommage Tous ACcidents, dommage aux PNEumatiques
71

illustre cette caractristique en montrant que la charge finale due aux sinistres extrmes est
davantage influence par une frquence sinistre leve (genre E et G ) que par le montant
de ces sinistres. La mme tude a t mene sur d'autres variables et confirme cette
remarque. Ceci montre l'importance de pouvoir identifier les sinistres extrmes et justifie de
crer un modle de frquence pour ces sinistres.

Genre du vhicule % obs. frq. extrme montant charge 150 000
A 97,29 0,000107 479 511 51
D 1,60 0,000139 156 570 21
E 0,17 0,001279 262 830 336
G 0,45 0,001220 534 474 651
Table 5: Analyse univarie des sinistres extrmes: cette analyse montre l'importance joue
par la frquence par rapport l'influence exerce par le montant moyen
Le choix du seuil partir duquel un sinistre est dclar extrme peut tre calcul
partir de considrations issues de la thorie des valeurs extrmes. Ce seuil peut tre fix
pour l'ensemble du portefeuille ou fix au niveau de chaque classe de risques. Benlagha et
al. (2009) comparent trois mthodes statistiques pour dterminer ce seuil au sein de chaque
classe de risques. Cette approche possde l'avantage de fixer des seuils qui prennent en
compte les caractristiques des classes de risques (le seuil est plus lev dans les classes
risques).

Figure 8 : Graphique montrant la distorsion introduite par la prsence d'un sinistre
extrme.


Dans notre approche, les classes de risques ne sont pas fixes priori ce qui
ncessite de fixer un seuil d'crtement pour l'ensemble du portefeuille. En utilisant la
mthode de la fonction moyenne des excs - mean excess loss - prsente dans Embrechts
et al. (1997), on obtiendrait un seuil d'crtement de 300 000 pour le montant des sinistres
agrgs au niveau du vhicule. Toutefois, il peut tre prfrable de fixer le seuil
d'crtement selon d'autres critres en fonction du modle statistique utilis (en particulier
pour les modles minimisant une distance quadratique). Le seuil S est fix au quantile
99 % de la distribution des montants des sinistres strictement positifs, soit 30 000 (parmi
les 2,2 millions d'observations de la base, 1 600 observations sont suprieures ce seuil).
4.3 Paramtrage de l'algorithme sous R

Figure 9 : volution du MSE sur la base de validation en fonction du pourcentage
d'individus minimum admis dans un nud. Le minimum est ralis dans cet exemple pour
0,5% du nombre d'individus prsents dans la base d'apprentissage.
Plusieurs packages existent sous R pour construire des arbres de dcision avec
l'algorithme CART. Nous avons retenu le package de rfrence rpart de Therneau et al.
(2009) car il nous permet de recoder les modifications apporter sur l'algorithme pour
intgrer le temps d'exposition.
La fonction rpart a 6 paramtres : xval , minbucket , maxcompete , te maxsurroga ,
cp et maxdepth .
Le paramtre xval dsigne le nombre de validations croises effectues par le
73

modle ( 10 = xval par dfaut). Pour un portefeuille d'assurance qui possde une forte
variance dans la variable Y expliquer, la validation croise n'est pas trs adapte moins
d'utiliser un faible nombre de validations croises de faon ce qu' chaque tape la
proportion de la base utilise pour la validation contienne un grand nombre d'observations.
Notre approche prconise donc de ne pas utiliser cette option ( 0 = xval ) et de dcouper
alatoirement, classiquement, la base de donnes en trois parties : 50% de la base servent
l'apprentissage, 25% servent la validation et trouver le paramtre de complexit w
optimal du modle, les 25% restant serviront de base de test permettant de comparer les
diffrents modles. Les modles GLM et CART-ANV seront donc compars
objectivement sur les mmes bases.
Le paramtre minbucket dsigne le nombre minimum d'individus dans un groupe de
risques final. Ce paramtre est un des deux critres d'arrt dans la construction de l'arbre.
Une valeur trop grande ne permet pas de modliser les singularits des donnes. Une valeur
trop petite cre des nuds trop spcifiques qui seront supprims par le second critre
d'arrt. Dans notre cas, il est fix 1000 vhicules. En effet, l'ordre de grandeur de la
frquence de survenance d'un sinistre ( 10% < ) et l'importance de la variance et de
l'asymtrie de , Y font qu'une moyenne sur moins de 1000 vhicules a peu de chance d'tre
significative. Les temps de traitement tant raisonnables, il n'tait pas utile d'optimiser ce
paramtre une valeur suprieure.
maxcompete impacte uniquement l'affichage mais pas les rsultats (il permet
l'affichage des maxcompete meilleurs critres de rduction de dviance R du nud
parent).
te maxsurroga est le paramtre qui permet de dfinir le nombre de variables de
substitution pour les variables prdictives ayant des valeurs manquantes dans la base de
donnes. En effet, d'une part, CART ne supprime pas les observations ayant des valeurs
manquantes et d'autre part, ne remplace pas les valeurs manquantes par des valeurs
estimes. Une fois le nud cr, l'algorithme slectionne parmi les variables de substitution
celles qui reprsentent le mieux le nud cr pour rpartir les observations o la variable
est manquante. Par exemple, si la sparation du nud est cre sur l'ge et que la seconde
variable, qui explique le mieux cette sparation est la puissance, l'algorithme va classer les
observations o l'ge n'est pas renseign dans le nud en fonction de la puissance. Dans
notre cas, deux variables de substitution sont suffisantes.
cp est un critre d'arrt qui utilise le critre de complexit w et qui vise optimiser

les temps de calcul. Nous l'avons fix zro pour ne pas retenir ce critre d'arrt.
maxdepth dsigne la profondeur maximum de l'arbre, fixe 11 dans notre
estimation car l'arbre, une fois lagu, a une longueur maximale de 10 nuds.
5. EVALUATION DES RESULTATS
Dans cette section, nous prsentons les rsultats pour l'valuation de la prime pure.
La premire sous-section prsente les Mean Square Errors et la deuxime l'analyse des
biais. La troisime dcrit les rsultats produits par l'algorithme CART-ANV. Enfin, les
rsultats de l'estimation de la frquence des sinistres extrmes seront prsents.
5.1 Le Mean Square Error
Nous comparons d'abord les modles l'aide du Mean Square Error (MSE), un
critre usuel de performance d'un modle. Nous constatons que, sur la base de test,
l'algorithme CART-ANV sur-performe le modle GLM (Cf. tableau 6).

Modle MSEapprentissage MSEtest
Rgression GLM (poisson) 1148103 1177830
CART-ANV 1144881 1176777
Table 7: MSE calcul sur la base d'apprentissage et sur la base de test
Comme le MSE est intrinsquement trs lev en assurance, mme cette faible
rduction du MSE est utile.
1

Figure 10 : Montrant l'erreur sur la base de validation.

1
Nous ne cherchons pas prouver que l'algorithme CART-ANV sur-performe la GLM de manire
systmatique en assurance non-vie.
75

Le graphique 10 compare les performances de l'algorithme sur la base de test. La
courbe en trait plein montre que plus le nombre de nuds augmente dans l'arbre plus
l'erreur commise par ce modle diminue. A partir d'un certain nombre de nuds, l'erreur
devient infrieure celle du modle GLM .
5.2 Le critre d'quit
Nous cherchons illustrer graphiquement la performance des deux approches en
terme d'quit en projetant les rsultats par segment (i.e. groupe de vhicules homognes).
Cette approche est prsente dans la figure 11. Les valeurs retenues pour la charge de
sinistres et les primes prdites sont celles de la base de test
test
B .
Raliser cette analyse pose le problme du choix de la taille du groupe dans lequel
on mesure le biais. Si le segment est trop grand, les carts tendent s'effacer quelques
soient leurs performances. Si au contraire, on cherche mesurer les carts dans des
segments trop petits, le caractre alatoire de la sinistralit ne permet plus de comparer les
carts produits par les modles.

Figure 11 : graphique montrant les valeurs prdites et les montants de sinistres moyens en
fonction de quatre variables explicatives.
Ainsi que le montre la figure 11, l'algorithme CART-ANV et la GLM montrent des
performances comparables en terme de biais lors d'une projection des rsultats sur une

seule variable explicative (segments-unidimensionnels). En effet, les courbes CART-ANV
et GLM pousent toutes les deux l'histogramme des sinistres.
En revanche, la projection des rsultats sur deux variables explicatives (segments
multi-dimensionnels) tend montrer que l'algorithme CART-ANV est moins biais que la
GLM , tendance qu'il s'agirait de confirmer dans des travaux futurs, comme cela est illustr
dans la figure 12. Elles montrent la projection sur la puissance du vhicule pour diffrentes
tranches d'ge. Dans ces quatre cas, nous observons que la courbe CART-ANV pouse
beaucoup mieux l'histogramme des sinistres. Considrons par exemple les assurs dont
l'ge des vhicules est compris entre 0 et 15 ans (partie en haut droite de la figure 12) et
dont la puissance se situe entre 50 et 75 ch. Nous remarquons un cart significatif de la
GLM qui inciterait ces assurs souscrire au juste prix chez un autre assureur.

Figure 12 : Montant de sinistres en fonction de la puissance du vhicule pour le
portefeuille global puis restreint diffrentes tranches d'ge
Ainsi, l'tude du biais selon deux variables explicatives tend montrer que les
rsultats produits par l'arbre de rgression sont moins biaiss que ceux produits par un
modle de type GLM dont les limites des classes de risques sont fixes priori par le
statisticien.
5.3 Lecture des rsultats produits par l'arbre
L'arbre ajust sur la base d'apprentissage puis lagu sur la base de validation
77

possde un total de 65 nuds finaux. Pour des raisons de confidentialit, seule une partie de
l'arbre est prsente dans la figure 13 (ge 24,5 an).
Le premier constat est la possibilit d'avoir une vision la fois sur le montant des
primes en fonction des variables explicatives et le nombre d'assurs concerns par le
montant de prime modlis. En effet un nud terminal donne la fois le montant de la
prime et le nombre d'assurs concerns. Ceci est comparer avec l'ensemble des autres
modles statistiques qui produisent des rsultats issus de multiplications de plusieurs
coefficients et dont il est impossible d'estimer la fois les effets des variables explicatives
et le nombre d'assurs concerns.
Cette lisibilit de la tarification permet ainsi de runir une mme table techniciens,
responsables marketing et actuaires pour discuter des stratgies tarifaires mettre en place.
Concernant cette stratgie, il peut par exemple tre dcid de supprimer une sparation
finale en deux nuds si celle-ci segmente le risque d'une faon incompatible avec les prix
de march. Le tarif appliquer aux deux nuds fils supprims est alors le tarif du nud
parent. Si ce tarif est appliqu il y a encore quilibre entre primes et sinistres sur l'ensemble
du portefeuille.
La reprsentation graphique de l'arbre permet une lecture plusieurs niveaux. Elle
permet tout d'abord de hirarchiser l'importance des variables expliquant le risque assur.
En effet, plus la variable intervient haut dans l'arbre et plus son effet est discriminant dans
l'explication du risque. Dans notre exemple, l'ge du vhicule est la variable la plus
discriminante puisqu'elle est la premire variable intervenir (sparation 14,5 ans) puis
intervient rgulirement dans la partie haute de l'arbre.
De plus, l'arbre permet de montrer que certains critres de risques sont plus
importants dans certaines sous-populations que d'autres. Ainsi, la seconde variable
d'influence chez les vhicules rcents (l'ge est infrieur 14,5 ans) est la puissance alors
que pour les vhicules anciens, la variable Puissance intervient beaucoup plus bas dans
l'arbre pour discriminer les risques.
Un autre avantage des arbres de rgression tient au fait que l'algorithme cherche
chaque tape crer le nud qui engendre la rduction d'erreur quadratique la plus
importante. Ainsi, CART-ANV produit un arbre dont le nombre de branches n'est pas
uniforme, de 3 7 branches dans notre tude. Par exemple, pour les vhicules d'ge
suprieur 24,5 ans qui reprsentent la moiti du portefeuille, seuls six tarifs sont produits
par l'arbre sur une profondeur de deux ou trois nuds seulement (figure 13). La

segmentation des risques sur cette partie du portefeuille n'ayant pas un grand intrt pour
l'assur (les majorations/minorations de tarif tant faibles), cette proprit de l'algorithme
apparat comme un avantage face aux mthodes statistiques qui segmentent uniformment
le risque sur le portefeuille.
Il convient de signaler que sur les huit variables potentiellement utilisables par
l'algorithme, la variable vehicule du Genre n'apparat jamais tandis que la variable
n Utilisatio n'apparat que deux fois dans l'arbre. Ceci peut tre peru comme un
inconvnient si l'assureur dcide de segmenter selon ces deux critres. Toutefois, ce choix
ne serait pas judicieux puisque l'arbre indique que segmenter selon ces deux critres ne
conduit pas la rduction d'erreur quadratique la plus importante.

Figure 13 : Arbre de rgression pour la branche concernant les vhicules anciens.
5.4 Les sinistres extrmes
La section 3.1 consacr la mthodologie d'valuation de la prime pure a introduit
l'utilit de ne modliser que la frquence de sinistres pour les sinistres extrmes. Un arbre a
donc t ajust pour valuer la quantit ] | [ X S Y Pr avec un seuil S de 30 000
correspondant au quantile 99% de la distribution des sinistres strictement positifs. Le
rsultat graphique de cet arbre est prsent dans la figure 14.
79

Figure 14: L'arbre de prdiction de la frquence des sinistres extrmes (frquence en % ).
Le rsultat produit par l'algorithme est trs intressant pour l'identification des
risques extrmes. En effet, il permet d'identifier les facteurs de risque qui expliquent une
frquence de sinistres extrmes plus leve. Parmi les groupes les plus sinistrs, les
vhicules du genre E et G sont particulirement exposs ainsi que les CSP G et . H Ceci
confirme l'analyse univarie du tableau 5.
Cependant, utiliser cette frquence de sinistres pour calculer le surplus de prime lie
aux sinistres extrmes conduit des montants de prime relativement levs pour certaines
classes de risques. Le montant moyen des sinistres suprieurs 30 000 tant de
123 402 , la surprime lie aux risques extrmes pour les vhicules serait de 714
( 0,5808% 402 123 ). Ce chiffre est comparer aux 102 de surprime si l'ensemble des
risques extrmes est mutualis sur l'ensemble des assurs du portefeuille.
6. CONCLUSION
Cette tude prsente une approche innovante de la tarification des risques
d'assurance non-vie. Alors que les dveloppements rcents en actuariat de l'assurance
dommage se sont focaliss sur la matrise et l'amlioration des Modles Linaires
Gnraliss, nous proposons une version modifie de l'algorithme CART pour la
rgression.
De par leur nature non paramtrique, les algorithmes d'arbre de dcision utiliss
dans cette tude ont permis de faire ressortir des informations nouvelles sur le risque tout
en amliorant les mesures d'erreur entre le risque mesur et le risque modlis. De plus,
contrairement aux Modles Linaires Gnraliss, nous avons vu que l'algorithme de

cration de l'arbre de dcision optimise ses rsultats en utilisant plusieurs bases de donnes.
Cela le rend robuste en laguant les classes de risques dont le nombre de personnes assures
n'est pas assez significatif (phnomne de surapprentissage).
L'assureur trouve galement une relle plus-value dans la segmentation produite par
l'algorithme. Les vhicules anciens, trs nombreux, mais qui ont un risque faible et peu
d'enjeux commerciaux, sont modliss trs simplement sur six classes. Par contre, la
segmentation est beaucoup plus fine pour les vhicules rcents, tout en vitant de
paramtrer le modle sur des classes de risques dont le nombre de personnes assures n'est
pas significatif (vite donc le phnomne de surapprentissage). De plus, les tests raliss
tendent montrer que l'algorithme CART est moins biais que la GLM sur les diffrents
segments de la base.
En outre, nous montrons comment cette approche vhicule, conjugue avec la
lisibilit des arbres de dcision permet de runir une mme table techniciens, responsables
marketing et statisticiens pour discuter des stratgies tarifaires mettre en place.
7. REFERENCES
C. APTE, E. GROSSMAN, E. PEDNAULT, B. ROSEN, F. TIPU et B. WHITE :
Probabilistic estimation based data mining for discovering insurance risks. IEEE Intelligent
Systems, 14:49-58, 1999.
R.A. BAILEY et L.R.J. SIMON : Two studies in automobile insurance
ratemaking. ASTIN Bulletin, 1(4):192-217, 1960.
N. BENLAGHA, M. GRUN-REHOMME et O. VASECHKO : Les sinistres
graves en assurance automobile : Une nouvelle approche par la thorie des valeurs
extrmes. Revue MODULAD, 47:39, 2009.
L. BREIMAN, JH FRIEDMAN, RA OLSHEN et CJ STONE : Classification and
regression trees. Chapman & Hall/CRC, 1984.
A. CHRISTMANN : An approach to model complex high-dimensional insurance
data. Allgemeines Statistisches Archiv, 88(4):375-396, 2004.
M. DENUIT et A. CHARPENTIER : Mathmatiques de l'assurance non-vie.
Economica, 2005.
C. DUGAS, N. CHAPADOS, Y. BENGIO, P. VINCENT, G. DENONCOURT et
C. FOURNIER : Statistical learning algorithms applied to automobile insurance
ratemaking. In Casualty Actuarial Society Forum-Arlington, pages 179-213, 2003.
81

J. ELITH, JR LEATHWICK et T. HASTIE : A working guide to boosted
regression trees. Journal of Animal Ecology, 77(4):802-813, 2008.
P. EMBRECHTS, C. KLUPPELBERG et T. MIKOSCH : Modelling extremal
events. Springer Berlin, 1997.
S. FELDBLUM : Risk Classifications, Pricing Aspects. Encyclopedia of Actuarial
Science. John Wiley and Sons, 2006.
T M. HASTIE, R. TIBSHIRANI et J. FRIEDMAN : The Elements of Statistical
Learning. Springer Series in Statistics, 2008.
P. LENCA, S. LALLICH et B. VAILLANT : Construction of an off-centered
entropy for the supervised learning of imbalanced classes : Some first results.
Communications in Statistics - Theory and Methods, Taylor & Francis, 39(3):493-507,
2010.
P. MCCULLAGH et JA NELDER : Generalized linear models. UK : Chapman
and Hall, 2 dition, 1989.
Tom M. MITCHELL : Machine learning. WCB/McGraw-Hill, 1997.
Antoine PAGLIA, Martial Vincent PHELIPPE-GUINVARC'H et Philippe
LENCA : Adaptation de l'algorithme cart pour la tarification des risques en assurance non-
vie. In 11e Confrence Internationale Francophone sur l'Extraction et la Gestion des
Connaissances, EGC 2011, pages 611-622, Brest, France, janvier 2011. URL
http://www.ensta-bretagne.fr/egc11/index.php/articles-longs/.
Colin SHEARER : The crisp-dm model : The new blueprint for data mining.
Journal of data Warehousing, 5(4):13-22, 2000. URL http://www.crisp-
dm.org/News/86605.pdf.
Terry M THERNEAU, Beth ATKINSON et Brian RIPLEY. : Rpart : Recursive
Partitioning. CRAN, 2009. URL http://CRAN.R-project.org/package=rpart. R package
version 3.1-45.
V. VAPNIK : Statistical learning theory. Wiley, New York, 1998.
T. WASHIO, E. SUZUKI, K. M. TING et A. INOKUCHI, diteurs. A comparison
of different off-centered entropies to deal with class imbalance for decision trees, 5012,
Osaka, Japan, May 2008. Springer.
X. WU, V. KUMAR, J. ROSS QUINLAN, J. GHOSH, Q. YANG, H. MOTODA,
G.J. MCLACHLAN, A. NG, B. LIU, P.S. YU et al. : Top 10 algorithms in data mining.
Knowledge and Information Systems, 14(1):1-37, 2008.

Modele D Apprentissage

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modele D Apprentissage

Uploaded by

Copyright:

Available Formats

BULLETIN FRANAIS DACTUARIAT, Vol. 11, n22, juillet - dcembre 2011, pp.

You might also like