You are on page 1of 129

UNIVERSIT DE LA MDITERRANE FACULT DE MDECINE

COLE DOCTORALE MATHMATIQUES ET INFORMATIQUE E.D. 184


THSE

prsente pour obtenir le grade de


Docteur de l'Universit de la Mditerrane  Aix-Marseille II

Spcialit : Mathmatiques
par
Jean GAUDART

sous la direction du Dr. Herv CHAUDET et du Pr. Jacques DEMONGEOT

Titre :
Analyse spatio-temporelle et modlisation des pidmies : application au paludisme

P. falciparum

soutenue publiquement le 20 novembre 2007

Equipe d'accueil :

Equipe Biomathmatiques et Informatique Mdicale Laboratoire d'Informatique Fondamentale, UMR 6166 CNRS/Aix-Marseille Universit, Facult de Mdecine, 27 Bd J. Moulin, 13005 Marseille, France
JURY Dr. Herv CHAUDET Pr. Jacques DEMONGEOT Pr. Ogobara DOUMBO Pr. Bruno FALISSARD Pr. Marius FIESCHI Pr. Antoine FLAHAULT Univ. de la Mditerrane, Marseille Univ. Joseph Fourier, Grenoble Univ. du Mali, Bamako Univ. Paris-Sud, Paris Univ. de la Mditerrane, Marseille Univ. Pierre et Marie Curie, Paris

Directeur Directeur Examinateur Rapporteur Prsident Rapporteur

Table des matires

Liste des tableaux Table des gures

4 4 3 5 6 6 7 8 10 12 13 15 25 31 36 45 45 45 45 46 50 57 58 58 59 61 61 71 86 86 86 88 91 94 101 105 121

Avant Propos Premire partie : Analyse spatiale et spatio-temporelle


1. Dtection de clusters spatiaux 1.1. Introduction 1.2. Qu'est-ce qu'un cluster spatial ? 1.3. Coecient de Moran 1.4. Statistique de Tango 1.5. Coecient local de Moran (Anselin) 1.6. Statistique de balayage 1.7. Arbres de rgression oblique 1.8. Application 1.9. Discussion 1.10. tude de la puissance de SpODT 2. Dtection de clusters spatio-temporels 2.1. Introduction 2.2. Matriel 2.3. Mthodes 2.4. Rsultats 2.5. Discussion

Deuxime partie : Modlisation dterministe


1. Introduction 1.1. Le cycle du paludisme 1.2. Les modles du paludisme 2. Evolution temporelle du paludisme 2.1. Description de 2 modles classiques 2.2. Modle de Bancoumana et climat 3. Evolution spatio-temporelle du paludisme 3.1. Modles de raction-diusion et paludisme 3.2. Le climat 3.3. Equations de raction-diusion 3.4. Rsultats 4. Discussion Rfrences

Conclusion Gnrale Rsum

Liste des tableaux

1 Statistiques et infrences issues des direntes mthodes d'analyse spatiale. 2 Simulations circulaires. 3 Simulations en bande. 4 Clusters spatio-temporels de parasitmies P. falciparum. 5 Clusters spatio-temporels de gamtocytmies P. falciparum. 6 Clusters spatio-temporels de parasitmies P. malariae. 7 Estimations des paramtres. 8 Estimation des paramtres avec dpendance climatique. 9 Matrice de transition estime. 10 Validation externe : erreurs de prdiction des

32 43 44 50 52 52 70 73 78

direntes modles MMC. 79 11 Modlisation du paludisme : erreurs de prdiction des direntes modles MMC. 79
12 13 14 15 16 Validation externe : erreurs de prdiction. Modlisation du paludisme : erreurs de prdiction. Paramtres utiliss pour les modles de raction-diusion. Rsultats de SpODT appliqu aux simulations Qualit du krigeage, erreurs en validation croise
Table des figures

84 85 92 93 95

Construction de l'angle critique ij de la direction u Transition via une direction critique u, d'un secteur 1 un secteur 2 3 Algorithme SpODT 4 Image satellite du village de Bancoumana GoogleEarth 1 2 5 Image satellite du village de Bancoumana -GoogleEarth 6 Image satellite du village de Bancoumana -SP OT image 10/11/2003 7 Evolution de la distribution de l'ge dans la cohorte

20 21 23 27 27 27 28 30 39 39 40

dynamique au cours du temps. 8 Cartographie du village de Bancoumana et reprsentation des clusters identis. 9 Risque pi en fonction de la distance di . 10 Risque pi en fonction de la distance di .
11 SpODT : simulation circulaire ( = 0, 001 ; p = 0, 8).

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

seule = 0, 004, 2)droite : mesure de prvention associe au traitement = 0, 004 et = 0, 1

Evolution de l'incidence de l'infection par les 3 espces plasmodiales et par les gamtocytes de P. falciparum. Modlisation de l'volution de l'incidence de l'infection P. falciparum. Modlisation de l'volution de l'incidence de la gamtocytmie P. falciparum. Modlisation de l'volution de l'incidence de l'infection P. malariae. Localisations temporelles et spatiales des clusters de cas. Reprsentation simplie du cycle de P. falciparum. Modle de Ross et McDonald. Modle de Dutertre. Modle de Bancoumana. Modle de Bancoumana : rsolution numrique Variations de la trajectoire M i(t) = f(G(t)) en fonction des estimations des paramtres. Modle de Bancoumana : 1)gauche : mesure de prvention

Satscan : simulation circulaire ( = 0, 001 ; p = 0, 8). SpODT : simulation circulaire ( = 0, 005 ; p = 0, 8). Satscan : simulation circulaire ( = 0, 005 ; p = 0, 8). SpODT : simulation en bande ( = 0, 001 ; p = 0, 8). Satscan : simulation en bande ( = 0, 001 ; p = 0, 8). SpODT : simulation circulaire ( = 0, 001 ; p = 0, 5). Satscan : simulation circulaire ( = 0, 001 ; p = 0, 5). SpODT : simulation circulaire ( = 0, 005 ; p = 0, 5). Satscan : simulation circulaire ( = 0, 005 ; p = 0, 5). SpODT : simulation en bande ( = 0, 001 ; p = 0, 5). Satscan : simulation en bande ( = 0, 001 ; p = 0, 5). SpODT : simulation en bande ( = 0, 005 ; p = 0, 5). Satscan : simulation en bande ( = 0, 005 ; p = 0, 5). SpODT : simulation en bande ( = 0, 005 ; p = 0, 8). Satscan : simulation en bande ( = 0, 005 ; p = 0, 8). SpODT : simulation en bande xe (p = 0, 8). Satscan : simulation en bande xe (p = 0, 8). SpODT : simulation en bande xe (p = 0, 5). Rsultats de Satscan pour une simulation en bande xe (p = 0, 5).

40 40 40 40 40 41 41 41 41 41 41 42 42 42 42 42 42 43 43 47 48 48 49 51 59 62 64 66 67 68 69

43 44 45

Modlisation du paludisme : variable climatique exogne modlise par la distribution empirique de la pluviomtrie.

Structure des modles de chane de Markov cache. Modlisation du paludisme : variable climatique exogne modlise par MMC 46 Probabilits d'mission estimes (pluviomtrie en mm). 47 Modlisation du paludisme : variable climatique exogne modlise par un modle non-linaire. 48 Modlisation du paludisme : variable climatique exogne modlise par un modle non-paramtrique.
49 50 51
Validation externe : pluviomtrie dcadaire 1981-1985 et prdictions. Bancoumana : reprages des zones particulires. 1/ large collection du sud-ouest (ht gche) ; 2/ briqueterie sud-ouest et son puit 3/ briqueterie sud, 4/ large zone nord

74 76 77 78 80 83 85 88 91

Structure spatiale du modle utilis (logiciel COMSOL ) 52 Evolution temporelle : Incidences des Sujets susceptibles (S),

infects (I), gamtocytmie (G) et rsistants (R), en saison sche (SS), intermdiaire (SI) ou milieu de saison des pluies (SP), (incidence en abscisse et temps en ordonne). Les traits verticaux reprsentent les instants o les distributions spatiales sont prsentes aux gures 53 et 57

53

Distribution spatiale de l'incidence des individus infects (I) : saison sche (SS) 90j, situation intermdiaire (SI)

93

30j, et milieu de saison des pluies (SP) 70j. Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

54

Distribution spatiale de l'incidence des individus infects (I), t=0 : situation intermdiaire (SI), et milieu de saison
des pluies (SP) . Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

94

55

Distribution spatiale de l'incidence des individus infects (I), t= 6 mois : saison sche (SS) , situation

95

intermdiaire (SI), et milieu de saison des pluies (SP). Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

56

Distribution spatiale observe de l'incidence des individus infects (I) : Juin 2000 (avant la saison des pluies) et

96

57

Distribution spatiale des vecteurs (en pourcentage) :


saison sche (SS) 90j, situation intermdiaire (SI) 30j, et milieu de saison des pluies (SP) 70j.

Octobre 2000 (n de la saison des pluies) . Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune ( gauche).

97 98

Remerciements
Monsieur le Pr Jacques Demongeot,
je vous remercie pour avoir suivi l'ensemble de ce travail, concrtement et rgulirement. Mes sjours Grenoble m'ont permi d'avancer et de me confronter votre rigueur. Ce travail n'aurait pas pu aboutir sans vous. J'ai beaucoup appris lors de ces courtes visites, et je les regretterai. Veuillez trouver ici l'expression de toute ma reconnaissance et de mon profond respect.

Monsieur le Pr Marius Fieschi, depuis mon internat, vous m'avez fait conance.
Votre prsence ici en est une preuve, s'il en fallait encore. Je vous remercie, nouveau, pour votre soutient.

Messieurs les Pr Bruno Falissard et Pr Antoine Flahault, je vous remercie


d'avoir accepter de rapporter sur ce travail, j'en suis trs honor.

Monsieur le Pr Ogobara Doumbo,

ce travail a bncier de vos travaux antrieurs et de votre connaissance de la ralit de terrain, indispensable pour toute analyse ou modlisation. Je vous remercie de votre aide, et de votre prsence aujourd'hui.

Monsieur le Pr Michel Roux, je vous remercie, nouveau, pour votre accueil, Monsieur le Docteur Herv Chaudet,
d'encadrer cette thse.

dans votre laboratoire, et du soutient constant que vous m'avez accord. Veuillez trouver ici le tmoignage de mon profond respect. je vous remercie pour avoir accept

Je remercie tout les membres de l'quipe Biomathmatiques et Informatiques Mdicale du LIF, spcialement Messieurs Bernard Fichet et Bernard Giusiano, pour leurs conseils, leur contribution et leur disponibilit, qui ont permis que ce travail avance, ainsi que Loic Forest du laboratoire de mathmatique (INSA Rouen). Je remercie tout les membres du LERTIM et du SSPIM, spcialement Messieurs Joanny Gouvernet et Roch Giorgi. Je remercie galement les Professeurs Bruno Durand, Paul Sabatier et Etienne Pardoux pour leur patience. A ma famille, qui m'a support, en particulier

Lucile et milie.

Brengre, Marion, Benot,

A la mmoire d'Henri Laurent du LTHE (Grenoble). Ce travail a t, en partie, support par le programme ACCIES-GICC du Ministre de l'Ecologie et du Dveloppement Durable, France. Les donnes cliniques et biologiques ont t obtenues par le Malaria Research and Training Center (DEAP-MRTC), Bamako (Mali), dans le cadre du programme Mali-Tulane TMRC N AI 95-002-P50 du NIH.

Avant Propos
L'tude de la distribution spatio-temporelle du paludisme et de son volution dans le temps et l'espace sont d'une importance releve par l'OMS [186, 187, 188]. En eet, l'laboration de carte de risque, en particulier sur le continent africain, et la mise en place de systmes de surveillance sanitaire (systmes d'information pidmiologique) permettent de guider les programmes de lutte contre cette maladie. Ces actions sont enrichies par la dtection de zones risque, ncessitant une mthodologie statistique et pidmiologique approprie, et par la connaissance des mcanismes de transmission. Suivant les 2 approches de Ronald Ross [165], la premire partie de ce travail propose une approche statistique de la distribution spatiale et temporelle du paludisme. Nous avons prsent des outils statistiques classique de dtection de clusters spatiaux, et dvelopp une approche fonde sur les arbres de rgressions obliques. La recherche de clusters spatio-temporels d'infection palustre a t faite l'chelle d'un village malien. La plupart des rsultats prsents dans cette premire partie ont t publis [87, 88, 96, 97, 98, 99]. Dans la deuxime partie, nous avons propos une modlisation dterministe de la transmission palustre, en tenant galement compte de la pluviomtrie. Enn, l'volution spatio-temporelle du paludisme a t modlise l'aide d'quations de raction-diusion.

Premire partie : Analyse spatiale et spatio-temporelle

Avec ses quatre dromadaires Don Pedro d'Alfaroubeira Courut le monde et l'admira. Il t ce que je voudrais faire Si j'avais quatre dromadaires.
Le Bestiaire : Le dromadaire

Guillaume Appolinaire.

Part.I.

1. Dtection de clusters spatiaux 1. Dtection de clusters spatiaux

1.1. Introduction. La ncessit de systmes d'alertes face aux risques sanitaires, en particulier environnementaux, amenant le dveloppement de systmes d'informations gographiques, a permis de construire des cartes prcises de nombreuses pathologies, et l'analyse des variations spatiales d'indicateurs de sant [198, 112]. L'observation de ces variations spatiales dans le cadre d'tudes cologiques conduit poser plusieurs questions : existe-t-il une structure (pattern) spatiale particulire ? Les cas se trouvent-ils proximit d'autre cas ? Certaines zones gographiques ont-elles un nombre de cas excessif, ou encore existe-t-il un (des)agrgat(s) de cas ? En d'autres termes, il s'agit de dcrire l'htrognit spatiale et de rechercher les mcanismes qui l'ont gnre. Direntes mthodes statistiques ont t dveloppes pour l'identication de patterns spatiaux, en particulier d'agrgats spatiaux de cas (clusters), adaptes aux direntes situations [79, 144, 249]. Les direntes descriptions de l'htrognit spatiale correspondent autant d'hypothses alternatives et des mthodes direntes [120, 3, 247]. Certains auteurs ont class ces mthodes en 3 groupes, en fonction de la question pose [146, 25, 57, 48, 189] : source potentielle [25, 227, 65, 48] ; ii: Les mthodes de dtection globale d'agrgats de cas, sans spcication a priori d'une source potentielle, et dont les statistiques sont fondes, le plus souvent, sur les distances entre les cas [3, 228, 64, 107] ; iii: Les mthodes de dtection locale d'agrgats, sans spcication a priori d'une source. On retrouve dans cette catgorie des approches fondes sur les distances entre les cas [7, 104] et des approches portant sur le regroupement de donnes [144, 3, 97, 230, 240]. Une condition inhrente l'utilisation des mthodes du groupe i est la spcication de la source potentielle, an de tester l'hypothse d'un excs de cas autour d'une source spcique [48]. Cependant une telle source n'est pas toujours unique, ou mme connue. En eet, on peut tre amen rechercher des zones particulirement risque, notamment pour orienter les quipes d'pidmiologistes de terrain. Les mthodes des groupes ii et iii, regroupes sous le terme de mthodes gnrales [249, 48], sont d'un intrt particulier dans ces conditions, puisqu'elles permettent de s'aranchir de la connaissance pralable d'une source spcique et de dtecter des zones risque de localisation quelconque parmi toutes les zones considres. Les mthodes gnrales dites de dtection globale (groupe ii) estiment une statistique sur l'ensemble de

i: Les mthodes de dtection locale d'agrgats de cas autour d'une

Part.I.

1. Dtection de clusters spatiaux

la zone gographique tudie et testent ainsi un pattern spatial global, alors que les mthodes dites de dtection locale estiment une statistique sur chaque unit spatiale (u.s.). L'htrognit spatiale peut tre dcrite par des u.s. particulires haut risque. Ou bien, certaines u.s. peuvent tre regroupes en une zone homogne en terme de risque. Ou encore, la rgion tudie peut tre dcoupe en zones o le risque est homogne. Chacune de ces dnitions du pattern spatial correspond une hypothse alternative dirente, et rpond une hypothse nulle. L'hypothse nulle la plus classiquement retenue est celle du risque constant, reprsente par une distribution de Poisson htrogne en espace. Une telle hypothse nulle modlise l'htrognit spatiale sous l'hypothse d'absence de clusters. La distribution du nombre attendu de cas dans + l'u.s. i (d'eectif ni ) est alors Ei P (i = ni p+ ) avec p+ = O , o O+ n+ et n+ sont, respectivement, le nombre total de cas observs et l'eectif total de la population sur l'ensemble de la zone d'tude. An de comparer, de faon empirique, ces direntes mthodes, dites gnrales, d'analyse de clusters, nous en avons slectionn 5, deux parmi les mthodes du groupe ii et trois parmi celles du groupe iii, et les avons appliques sur des donnes d'incidence de parasitmie Plasmodium falciparum dans un village malien. Les deux mthodes globales tudies sont le test du coecient de corrlation de Moran, classiquement utilis, et le test de Tango, d'application plus rcente. Les trois mthodes de dtection locale tudies sont le coecient local de Moran, introduit par Anselin [7], la mthode de balayage du plan [144] et la mthode des arbres de rgression oblique [97]. Notre objectif est de prsenter les principes de ces cinq mthodes gnrales de dtection de clusters et de comparer leurs rsultats dans le cadre de la dtection de zones risque de paludisme dans un village du Mali. 1.2. Qu'est-ce qu'un cluster spatial ? Tout d'abord, un "pattern " spatial ("canevas", "motif") peut tre dni comme une organisation spatiale de la variable tudie. Elle peut tre lie ou non d'autres variables (facteurs de risque). Un cluster est une organisation spatiale (pattern) particulire, dnie comme un agrgat, une collection, un regroupement de cas proches les uns des autres, la proximit tant dnie au sens d'une distance gographique. En l'absence de cluster, les cas se rpartissent alatoirement sur l'ensemble de la zone gographique tudie, sans organisation particulire. Cette rpartition gographique des cas peut tre uniforme (Complete Spatial Randomness ), mais dpend alors fortement de la distribution spatiale de la population risque et de la distribution spatiale des u.s. tudies. Comme nous l'avons vu prcdemment, l'htrognit spatiale, en absence de cluster, est plus classiquement reprsente par

Part.I.

1. Dtection de clusters spatiaux

une rpartition des cas suivant une loi de Poisson htrogne, i.e. dpendant de la distribution de la population risque (Constant Risk Hypothesis ) : Ei P (i = ni p+ ). La prsence d'un cluster sur une u.s. particulire c, hypothse alternative, peut tre alors reprsente par la distribution des cas suivante : Ec P (c = nc pc ), o pc > p+ reprsente le risque particulier l'u.s. c. 1.3. Coecient de Moran. An de rechercher des patterns spatiaux inhabituels, la plupart des mthodes globales, dont celle issue de l'utilisation du coecient de Moran, reposent sur l'utilisation de distances entre les u.s. tudies pour prendre en compte la proximit dans leur statistique. Plusieurs dnitions de la proximit sont disponibles, pouvant amener des rsultats dirents. La proximit est dnie en fonction de la distance entre les u.s., et les distances peuvent tre euclidiennes ou calcules selon d'autres mtriques appropries. Les mthodes fondes sur des statistiques globales peuvent tre considres comme des tests de tendance l'agrgation (clustering) et ne donnent qu'un seul degr de signication (p-value) testant l'organisation spatiale (pattern) observe sur l'ensemble de la zone d'tude. La premire mthode prsente utilise une statistique d'autocorrlation spatiale classique, le coecient de corrlation de Moran [198, 50, 8, 154], pour tester la distribution spatiale observe. La seconde mthode, la statistique de Tango, est fonde sur une comparaison de distributions. L'autocorrlation spatiale rend compte un niveau global de la tendance des rgions proches se ressembler ou s'opposer. Le coecient de Moran est considr assez unanimement comme un des meilleurs choix parce qu'il prsente de bonnes proprits locales [7, 150]. Le coecient I de Moran peut tre dni comme un coecient de corrlation pondr utilis pour dtecter l'cart la rpartition spatiale alatoire, cet cart dnissant la prsence d'un pattern spatial tel que des clusters (agrgats). Une similarit des valeurs pour des u.s. voisines (autocorrlation spatiale signicative) peut s'observer sur la zone gographique sous forme d'agrgats de valeurs soit plutt faibles, soit plutt fortes. La statistique de Moran recherche les u.s. qui possdent un critre similaire. Ce critre, calcul pour chaque couple d'u.s., peut s'crire : (1.3.1)
I= 1 w+
K i,j

)(Yj Y ) wij (Yi Y


PK
i=1 (Yi Y

)2

avec K le nombre d'u.s. ; les wij sont les lments de la matrice de Oi proximit pour les u.s. i et j ; w+ = K ij wij ; Yi = ni correspond aux

Part.I.

1. Dtection de clusters spatiaux

proportions de cas de chaque u.s. i (Oi est le nombre de cas observs PK = i=1 Yi reprsente la moyenne de l'u.s. i, et ni l'eectif de l'u.s. i) ; Y K des proportions sur l'ensemble des K u.s.. Au numrateur, on trouve un terme de covariance qui est localement calcul entre la rgion i et les rgions voisines, et pondr par la mesure ij [50, 8, 154]. de proximit w w+ La statistique de Moran I est donc une variable alatoire dont la distribution est dtermine par la distribution - et les similitudes spatiales - des Yi . La distribution de I est connue sous l'hypothse nulle, assumant que le nombre de cas est une variable alatoire suivant une distribution normale, identique quelle que soit l'u.s., et, pour chaque u.s., indpendante des units voisines [8] (condition d'identit et d'indpendance de la distribution -i.i.d.-). Sous l'hypothse nulle, l'esprance de I est connue, de mme que sa variance (dpendant de la proximit), et sa distribution est asymptotiquement normale. Les hypothses du test peuvent s'crirent :
H 0 : I = 0, les cas dans chaque u.s. i sont spatialement

dcorrles (indpendantes dans le cas gaussien) ; hypothse du risque constant ; H 1 : I = 0, les cas dans chaque u.s. i ne sont pas spatialement indpendants ; la survenue de cas dans une u.s. i dpend des u.s. voisines et de la distance entre les u.s.. Sous H 0 et si I N (E (I ), V ar(I )), on obtient asymptotiquement en K les estimateurs suivant
E (I ) = V ar(I ) =
1 K 1 1 K2 2

PK

i,j =i (wij +wji )

2 2 K K i=1 (wi+ +w+i ) +3w+ 2 (K 1)(K +1)w+

E (I )2

avec wi+ =

K j =1

wij

et w+j =

K i=1

wij

Alors,
Z=
I E (I ) V ar (I )

N (0, 1)

Cependant, la condition de normalit n'est que rarement respecte, les distributions du nombre de cas sont assymtriques mme pour de grands eectifs [227, 226], et l'hypothse d'indpendance n'est pas raisonnable [198]. Le nombre d'u.s. K est en pratique souvent rduit et les u.s. ont le plus souvent un nombre dirent de personnesannes exposes, ce qui altre galement la distribution du coecient I [52]. L'infrence de Monte-Carlo permet de palier ces problmes en simulant des variables alatoires sous l'hypothse nulle approprie [19]. Des adaptations de la statistique de Moran ont t proposes [8, 236, 130, 183, 248, 251] pour s'adapter dirents contextes.

Part.I.

1. Dtection de clusters spatiaux

On peut remarquer que le coecient de Moran est trs proche du coecient de corrlation de Pearson, mesurant l'association entre K valeurs de la variable alatoire Y . Le I de Moran reprsente une forme spatiale pondre du coecient de Pearson. Mais contrairement ce dernier, le coecient I n'est pas compris entre [1, +1]. Cli et Ord [50] ont dtaill ces bornes [249]. Le coecient de Moran mesure donc la similitude entre les u.s. voisines. Si les u.s. voisines sont similaires (i.e. existence d'un pattern sous forme de clusters d'u.s.), le coecient I sera positif. Si les units voisines sont direntes (i.e. existence d'un pattern rgulier), I sera ngatif. S'il n'y a aucune corrlation entre les units voisines, I sera en moyenne proche de son esprance (proche de zro). Pour l'interprter, on doit garder l'esprit que le coecient de Moran ne permet pas d'identier l'eet spcique exerc par une u.s. particulire, mais mesure globalement l'autocorrlation. 1.4. Statistique de Tango. Au lieu d'utiliser un coecient d'autocorrlation spatiale, certains auteurs ont propos des statistiques d'adquation estimant l'cart entre les valeurs observes et les valeurs thoriques issues d'un modle probabiliste (du plus simple -uniforme- au plus compliqu -processus de Poisson dpendant de covariables) [227, 251, 200]. La statistique d'adquation la plus connue est la statistique du 2 de (Oi Ei )2 , o N est le nombre total de cellules, les Pearson, 2 = N i=1 Ei Oi sont les valeurs observes, les Ei sont les valeurs attendues sous l'hypothse nulle (par exemple distribution Binomiale ou Multinomiale des valeurs de chaque cellule). On peut appliquer le test du 2 aux donnes spatiales en remplaant l'hypothse nulle habituelle par l'hypothse du risque constant fonde sur une distribution de Poisson des valeurs de chaque cellule i, Ei = ni p+ . Sous H 0, cette statistique suit une loi du 2 K 1 degrs de libert (pour K u.s.). Cependant, les tests fonds sur une statistique d'adquation supposent l'indpendance des valeurs, sous l'hypothse nulle mais aussi sous l'hypothse alternative. Cette supposition les distingue des tests fonds sur des indicateurs d'autocorrlation, o l'indpendance des donnes n'est suppose que sous l'hypothse nulle. Bien que l'hypothse nulle du risque constant admette cette supposition, ce n'est pas le cas de l'alternative dnie par le regroupement de cas en clusters. De plus, cette approche ignore l'impact de la localisation des u.s.. On peut considrer que la statistique du 2 fournit un test acceptable de dtection globale de clusters, bien qu'elle ne soit pas capable de reprer le caractre spatial des carts au modle thorique [200]. Par exemple,

10

Part.I.

1. Dtection de clusters spatiaux

si plusieurs u.s. prsentent un cart important au modle thorique, la statistique du 2 reste inchange, que ces u.s. soient contigus (suggrant un cluster) ou non. On peut alors pondrer les carts aux valeurs thoriques de faon prendre en compte la structure spatiale du problme. On voit ici que les statistiques d'adquation et les indicateurs d'autocorrlation quantient la dpendance spatiale de faon dirente. On peut adapter les hypothses, mais les modications de la statistique ne permettent pas de connatre formellement la distribution asymptotique et ncessitent d'utiliser l'infrence de Monte Carlo [249]. Tango [227] a propos une gnralisation spatiale de la statistique du 2 , pondrant l'cart par la proximit des u.s. : (1.4.1)
wik (Oi Ei )(Ok Ek )
Ok O1 ,..., O O+ +

Pour chaque u.s., on observe des proportions locales de cas,


K i=1

Oi reprsente le nombre total d'observations. o O+ = Sous l'hypothse nulle (hypothse du risque constant), l'ensemble des proportions locales d'observation suit une distribution Multinomiale. nk n1 L'ensemble des valeurs attendues sous H0 est donn par n ,..., n + +

avec n+ = (1.4.2)

K i=1

ni . La statistique de Tango est donc dnie par


K

T =
i,j

wij

ni Oi O+ n +

Oj nj O+ n +

Sous H0, la distribution de T est asymptotiquement Normale, mais le nombre d'u.s. est rarement trs lev et la vitesse de convergence est en pratique souvent trop faible. Comme prcdemment, on peut utiliser l'infrence de Monte-Carlo, en simulant, pour chaque u.s., des valeurs attendues sous H 0, conditionnellement au nombre total de cas. Tango a propos une approximation par la loi du 2 de la statistique
T E (T ) Tg =

o T est l'indice de Tango, avec E (T ) et V ar(T ) connus et dpendants de la matrice des poids : E (T ) = O1+ tr (W Vp ) et V ar(T ) = O12 tr (W Vp )2 + o W est la matrice des poids wij , et Vp = diag(p) pp , avec le vecteur
p=
n1 K ,..., n n+ n+

V ar (T )

Sous H0, + Tg 2 2 o le degr de libert dpend de la matrice des poids et des eectifs thoriques :
a

11

Part.I.
=8 2 2
tr[(W Vp )3 ] 2

1. Dtection de clusters spatiaux


(tr[(W Vp )2 ])
1,5

La statistique de Tango peut tre dcompose en 2 parties [200], la premire reprsente l'cart au modle thorique (avec i = j ) et la seconde (i = j ), dite produit crois, reprsente la composante d'autocorrlation spatiale : (1.4.3)
K 2 K

T =
i

wii

ni Oi O+ n +

+
i,j =i

wij

ni Oi O+ n +

Oj nj O+ n +

avec Le choix des poids a un impact important sur la performance de cette statistique : on peut choisir de renforcer l'importance de la composante d'autocorrlation spatiale ou de la faire disparatre (wij = 0, si dij infrieure un seuil). 1.5. Coecient local de Moran (Anselin). Les mthodes de dtection locale de clusters sont utilises pour dtecter si, dans chaque u.s. o se trouve un grand (ou petit) nombre de cas, on observe un nombre similaire de cas dans les units voisines. La premire mthode prsente est l'application locale du coecient de Moran, la seconde balaye le plan avec une fentre variable la recherche de regroupements potentiels, la troisime dcoupe rcursivement le plan en zones de risque homogne. Le coecient local de Moran, introduit par Anselin, appartient la famille des LISA, Local Indicators of Spatial Autocorrelation [7]. Les LISA sont des statistiques qui donnent des indications sur le regroupement spatial de valeurs similaires (ou contraires) dans le voisinage de chaque u.s.. De plus, ils doivent tre (par dnition) proportionnels une statistique globale. Ces indices locaux d'association spatiale permettent de quantier la contribution individuelle de chaque u.s. l'indice global. Le coecient local de Moran estime une mesure locale de similarit entre les valeurs (nombre ou proportion de cas) de chaque u.s. et les valeurs des units voisines. Pour chaque u.s. i, un coecient local d'autocorrlation Ii est estim par : (1.5.1)
K Yi Y 1 j =1 wij Yj Y Ii = PK 2 w+ i=1 (Yi Y ) K Oi ni

wii = 1 i {1, . . . , K }

o les Yi = sont les proportions de cas de chaque u.s. i. Cette statistique est une version locale du coecient I de Moran. Bien que la somme des coecients locaux soit proportionnelle au coecient global ( K i Ii = Iglobal pour la statistique prsente ici), les coecients

12

Part.I.

1. Dtection de clusters spatiaux

locaux peuvent mettre en vidence des situations locales en contradiction avec la valeur de l'indice global. Ces statistiques permettent de tester, pour chaque u.s., le comportement de ses units voisines. Sous H 0 (Ii = 0), et condition que la distribution des cas dans chaque u.s. soit Normale et indpendante des units voisines (i.i.d.), Ii suit une loi normale connue. Mais, comme prcdemment, la condition de normalit est rarement respecte. Les proprits formelles de la distribution des Ii restent alors inconnues en dehors de la distribution gaussienne [236]. Les simulations de Monte-Carlo sont donc souvent utilises pour adapter le test l'hypothse nulle de risque constant. Il faut noter, galement, que les coecients Ii sont corrls. Vouloir les tester conduit donc des comparaisons multiples non indpendantes pour lesquelles il conviendra d'adapter le risque nominal de premire espce en utilisant par exemple la correction de Bonferroni i = n , v nv ou de Sidak i = 1 1 , nv tant le nombre de voisins. Cependant, la multiplicit des tests faits sur de petits chantillons, l'absence de connaissance des proprits analytiques des coecients locaux (en dehors du cas Gaussien), la corrlation des statistiques estimes sur les u.s., rendent les infrences trs instables [236]. Pour permettre une comparaison empirique des u.s. tudies entre elles, les pondrations dij ) sont souvent standardises par le nombre d'u.s. voisines wij = f(n , tel v K que i=1 wij = 1 (standardisation en ligne). Le coecient local de Moran, indicateur d'associations locales, peut tre interprt soit comme indicateur d'un groupe d'u.s. similaires formant un ou plusieurs clusters locaux, soit comme indicateur d'une seule u.s. particulire dans le pattern global ("outlier"). Dans le premier cas, on pourra observer de grandes valeurs de la statistique (Ii 0), indiquant une similitude importante entre l'u.s. tudie et les units voisines, i.e. un mme nombre ou une mme proportion de cas, que ces valeurs soit grandes ou petites. Dans le second cas, on observera des valeurs ngatives du coecient local de Moran (Ii 0), suggrant une u.s. trs dirente de ses voisines. Cependant, l'observation d'u.s. voisines, non indpendantes, ayant des risques similaires entre elles mais, galement, similaires au risque estim sur l'ensemble de la zone d'tude, peut conduire l'estimation d'un coecient local faible et non signicatif, malgr l'absence d'indpendance entre ces units.

1.6. Statistique de balayage. Cette approche cherche regrouper les direntes u.s. voisines en clusters potentiels l'aide d'une fentre se dplaant sur le plan gographique [144, 148]. Propose par Openshaw, l'algorithme "Geographical Analysis Machine " (GAM) a bnci de nombreuses adaptations et extensions. Sur une grille rgulire de points recouvrant la zone d'tude,

13

Part.I.

1. Dtection de clusters spatiaux

l'algorithme GAM gnre des fentres circulaires chevauchantes centres en chaque point de la grille et de rayon constant, dpendant de l'espacement de la grille. La procdure est rpte pour direntes valeurs prdtermines du rayon regroupant les direntes u.s. voisines en clusters, de faon dnir un ensemble de clusters potentiels. Une alternative utilise des fentres circulaires centres sur les u.s. observes [240] et balaye la zone d'tude sur la grille irrgulire ainsi constitue. L'utilisation de fentres rectangulaires a galement t propose [3], pouvant donner des rsultats dirents. Les direntes fentres circulaires ainsi construites (de centre et de rayon variants) dterminent l'ensemble des clusters potentiels. Plusieurs statistiques et tests ont t proposs avec, en particulier, des adaptations face la multiplicit des tests non indpendants. Faisant suite aux travaux d'Openshaw et Turnbull [240, 148], la mthode propose par Kulldor est une des plus utilise [212, 146, 121]. Une statistique Tk , fonde sur le rapport de vraisemblance, a t dnie par Kulldor [144, 148], sans hypothse concernant la forme ou la taille des fentres de balayage. Cependant, l'implmentation demande de dnir au pralable un type de fentrage. L'algorithme Satscan [145] impose un fentrage circulaire balayant la zone gographique tudie l'aide d'une grille rgulire (comme l'algorithme GAM) ou irrgulire (dont les sommets sont dnis par les localisations gographiques). Pour chaque centre ainsi dni, le rayon varie continuement de zro une limite suprieure pr-dtermine, en gnral gale au rayon du disque possdant 50% du nombre d'u.s.. Chaque fentre, dnie par un centre et un rayon, est un candidat possible pour contenir un regroupement de cas, i.e. un cluster potentiel, et l'ensemble des clusters potentiels est ainsi dtermin. La statistique Tk propose par Kulldor [144] est estime pour chaque cluster potentiel par : (1.6.1)
Tk max
nf

Oint Eint

Oint

Oext Eext

Oext

o Oint et Eint reprsentent respectivement les eectifs observs et attendus dans la fentre, Oext et Eext reprsentant respectivement les eectifs observs et attendus l'extrieur de la fentre ; nf est le nombre total de fentres. Les eectifs attendus sont estims selon l'hypothse nulle du risque constant, i.e. correspondent au produit du risque global par l'eectif local Ei = ni p+ . La distribution de la statistique de Kulldor n'tant pas connue, l'infrence de Monte-Carlo permet de tester l'hypothse nulle. Comme prcdemment, il s'agit de simuler, suivant l'hypothse nulle, des cas dans chaque u.s., ce qui permet de construire la distribution empirique de la statistique de Kulldor sous H 0. Le degr de

14

Part.I.

1. Dtection de clusters spatiaux

signication ainsi obtenu correspond la probabilit d'observer une statistique au moins aussi extrme, sur la zone gographique d'tude. Mme si pour chaque simulation les rapports entre observs et attendus ne sont pas indpendants (d'un cluster potentiel l'autre), les statistiques (reprsentant des maxima ) restent indpendantes entre les direntes distributions simules. Cette particularit de l'approche de Kulldor permet d'viter les adaptations de type Bonferroni. Un cluster est identi si un excs de cas est observ dans une fentre donne. i De plus le rapport O peut tre interprt comme un risque relatif ou Ei un rapport d'incidence en fonction du protocole de l'tude. Par contre, son intervalle de conance ne peut tre calcul de faon classique [241], en particulier cause de l'absence de connaissance formelle de la distribution de la statistique et du recouvrement des fentres de balayage. Il faut noter que l'utilisation de direntes formes de fentres ou de direntes grilles peut conduire des rsultats dirents. Gangnon et Clayton ont introduit une approche bayesienne [95], an d'viter de prdterminer la forme et le centre du fentrage, mais cette approche demande la spcication de distributions a priori des formes et des tailles des clusters. De plus, Gangnon et Clayton limitent le nombre de modles considrs pour approcher les distributions a posteriori. Pour ce problme de fentrage pr-dtermin, Patil et Taillie [191] ont propos de constituer les clusters potentiels en regroupant les u.s. ayant une mme incidence de cas et tant connectes gographiquement. Chaque niveau d'incidence dtermine un cluster potentiel. Cependant, ces niveaux d'incidence, pr-dtermins, dpendent des observations et ils doivent de plus tre en nombre limit sous peine d'obtenir un ensemble de clusters potentiels inexploitable. D'autres procdures utilisent des algorithmes stochastiques pour rduire l'ensemble des clusters potentiels [73], mais toutes ces mthodes restent non optimales d'un point de vue classication. 1.7. Arbres de rgression oblique. Cette mthode, issue de la mthode CART (Classication And Regression Tree ) [30, 56], consiste dcouper progressivement le plan, dtermin par les coordonnes gographiques, selon un critre d'homognit. L'algorithme recherche, parmi les variables explicatives (numriques dans le cas qui nous intresse), une variable et une bi-partition de celle-ci (en deux parties connexes) qui maximise la variance interclasses de la variable numrique expliquer. Applique rcursivement, cette procdure conduit un arbre hirarchique binaire, appel arbre de rgression, dont la racine comporte l'ensemble des donnes, et dont les partitions successives forment les nuds descendants. Les nuds terminaux reprsentent la partition de l'espace dni par les variables explicatives, faite par des hyperplans. Appliqus pour la recherche de

15

Part.I.

1. Dtection de clusters spatiaux

patterns spatiaux, les arbres de rgression estiment les lignes de changement d'une fonction constante par partie sur R2 [105], interprtables comme des frontires entre des zones risques dirents. Il faut noter, d'une part, que les modles CART ne fournissent que des patterns rectangulaires. D'autre part, les algorithmes recherchant une partition oblique (conduisant un "arbre de dcision oblique") font appel des procdures stochastiques [33, 38, 175, 119] ou heuristiques [30], qui ne sont ni robustes ni optimales. Cependant, nous avons rcemment montr que l'on peut obtenir une solution optimale dans le plan pour la recherche de patterns spatiaux (algorithme SpODT : Spatial Oblique Decision Tree ) [97, 87]. Dans ce cadre, la variable expliquer peut tre le nombre ou le pourcentage de cas (plus adapt au cas de populations htrognes). Le nombre de partitions obliques possibles est ni, correspondant l'ensemble des perpendiculaires toutes les droites dtermines par les couples de points du plan (u.s.). Des rgles d'arrt de l'algorithme doivent tre prdnies, et nous en avons choisi quatre, parmi les plus classiques, reposant sur : i) l'eectif minimal d'un nud pre en dessous duquel aucune coupure n'est faite, ii) l'eectif minimal d'un nud ls, en dessous duquel la coupure amenant au nud ls est refuse, iii) le pourcentage de variance explique pour une coupure, en dessous duquel la coupure est refuse, car n'amliorant pas assez le modle, et iv) le nombre maximal de niveaux de l'arbre de rgression. Un fois l'arbre et donc la partition du plan obtenus, la principale caractristique de ce modle est le pourcentage de variance explique global, not R2 , dni comme le rapport entre la somme des carrs des carts interclasses (issue du modle) et la somme des carrs des carts totaux. L'infrence de Monte-Carlo, simulant un grand nombre d'arbres sous l'hypothse nulle et conditionnellement aux localisations et aux eectifs locaux, permet d'obtenir la distribution empirique des R2 et ainsi de la tester. Cet arbre de rgression, dni comme une mthode gnrale de dtection de clusters spatiaux, peut tre interprt soit comme une analyse globale, soit comme une analyse locale. En eet, bien que la statistique teste soit globale (seul le pattern global est test), l'arbre de rgression a l'avantage de dtecter des clusters locaux potentiels. 1.7.1. CART et modles ODT. Les modles en arbres comme CART [30] sont des alternatives non linaires et non paramtriques, utilisables pour des problmes de rgression ou de classication (par exemple : rgression linaire, rgression logistique, analyse discriminante, modle de Cox. . . ). Les modlisations CART consistent en des partitions binaires rcursives de l'espace (multidimensionnel) des covariables Xn , dans lequel l'chantillon observ est successivement dcoup en des sous-ensembles de plus en plus homognes, jusqu' ce qu'un critre d'arrt soit satisfait. Pour la premire partition, l'algorithme CART recherche (pour toute

16

Part.I.

1. Dtection de clusters spatiaux

les covariables) la meilleure partition binaire de la covariable (parmi toutes les partitions binaires) et dnit 2 sous-espaces qui maximisent la sparation (i.e. la variance interclasse de la variable expliquer Z ). Chacun des sous-espaces ainsi obtenus sera son tour partitionn de faon indpendante. A chaque tape, la covariable utilise pour la partition est donc slectionne dans l'ensemble des variables explicatives Xn pour obtenir une partition optimale, compte tenu des actions prcdentes. La squence des partitions peut-tre rsume par un arbre binaire. Le nud racine de cet arbre correspond l'espace des observations totales. Les partitions de cet espace sont reprsentes par les descendants du nud racine. Les feuilles de l'arbre, ou nuds terminaux, correspondent aux sous-espaces qui ne peuvent plus tre dcoups. La stabilit du processus peut-tre tudie en utilisant des mthodes classiques de r-chantillonnage. Ordinairement utiliss comme techniques exploratoires, les modles CART sont encore peu utiliss dans un but prdictif. Ces arbres demandent gnralement moins d'hypothses que les mthodes statistiques classiques, et peuvent tre utiliss dans de nombreux cas. De plus, les arbres de rgression sont d'utilisation et d'interprtation simples. CART a t utilis dans des applications mdicales varies [30, 207], comme l'analyse de survie [254, 153, 206], l'analyse de donnes longitudinales, des valuations diagnostiques ou pronostiques ou encore des essais cliniques [256, 56, 94, 164]. Une application particulire concerne le domaine de l'analyse du signal [105], o le problme consiste en la dtection de plusieurs points de changement de la moyenne. La procdure CART est alors utilise pour estimer les points de changement et les moyennes, ajustant une fonction f(t) constante par parties. Notons mi la moyenne pour chaque partie i = 1 . . . K et ti les points de changement. On a alors :
yt = f(t) + t avec f(t) =
K i=1

mi 1[ti ,ti+1 ]

Si nous tendons ce point de vue l'espace des covariables dni par les coordonnes gographiques, CART peut estimer les "lignes de changement" ( la place des points de changement) d'une fonction constante par parties sur R2 . En d'autres termes, les arbres de rgression peuvent dterminer des patterns spatiaux. Une des limitations de CART est que cette procdure ne dtermine que des partitions de l'espace des covariables perpendiculaires aux axes, i.e. que des patterns rectangulaires si nous l'appliquons l'espace gographique. Les arbres de dcisions obliques (ODT : Oblique decision

17

Part.I.

1. Dtection de clusters spatiaux

trees ) ont t tudis pour fournir des partitions obliques (et donc polygonales) de l'espace des covariables. Cependant, les ODT sont peu utiliss, car, d'une part, les partitions sont dicilement interprtables, et d'autre part, ils requirent des algorithmes d'une grande complexit. Trouver le meilleur arbre oblique dans l'espace des covariables a t montr comme NP-dicile [119]. Les algorithmes existant utilisent des procdures dterministes heuristiques ou des algorithmes stochastiques (par exemple le systme OC1 [175]) pour trouver les meilleurs hyperplans partitionnant l'espace des covariables [30, 119, 175, 38]. Des comparaisons des dirents algorithmes ont t tudies par Murthy [175], Cantu-Paz [38] et Brodley [33]. Malgr cette dicult dans RN , nous avons cherch une partition oblique dans le cas particulier de l'espace dni par les coordonnes gographiques, i.e. dans R2 . Les algorithmes stochastiques et heuristiques ne sont pas robustes et peuvent tre aects par des minima locaux [175]. Ainsi, ce ne sont pas des procdures optimales dans R2 . L'algorithme SpODT (Spatial Oblique Decision Tree ) que nous avons dvelopp est une procdure optimale pour obtenir la solution optimale sans utiliser des procdures heuristiques ou stochastiques.
1.7.2. Algorithme SpODT. L'objectif gnral de l'ensemble de la procdure est de trouver plusieurs partitions du plan (espace des covariables dni par les coordonnes gographiques). Nous prsentons la premire tape, qui a pour but de trouver la meilleure partition oblique du plan. Ce sous-chapitre est organis de la faon suivante : i: Premirement, nous introduirons la faon dont le plan est dcoup en 2 partitions adjacentes, en regard de la variance interclasse. ii: Deuximement, nous prsenterons comment est dtermin l'ensemble ni des droites obliques, i.e. l'ensemble des partitions possibles. iii: Troisimement, nous proposerons une optimisation de cette premire tape de l'algorithme. L'ensemble des trois points prsents ici font partie de la premire tape de l'algorithme, aboutissant au premier dcoupage du plan en 2 partitions adjacentes. En poursuivant de faon rcursive cette tape, l'algorithme partitionnera le plan en plusieurs partitions, jusqu' atteindre un critre spcique. Soit, dans l'espace des covariables reprsent par le plan de base orthogonale correspondant aux coordonnes x et y , d'origine xe O, n points M de coordonnes {x, y }. Ces coordonnes peuvent reprsenter

i. Procdure de partition.

18

Part.I.

1. Dtection de clusters spatiaux

les coordonnes gographiques (dtermines par GPS) d'une localisation. A chaque point Mi est associe une variable alatoire continue Zi (appele variable expliquer ou prdite), dont l'observation est note zi . La procdure CART dcoupe le plan selon une droite perpendiculaire l'axe reprsentant la covariable dcoupe, en maximisant la variance interclasse de Zi entre les 2 partitions. Notre procdure dcoupe le plan selon une droite oblique D maximisant de la mme faon la variance interclasse de Zi . Pour trouver cette droite oblique suivant la direction D, nous dnissons la direction perpendiculaire u et l'angle
(Ox, Ou) = [0, [

D'une faon gnrale, pour une direction xe D, la procdure doit :  Projeter les points Mi orthogonalement sur l'axe Ou, dnissant ainsi la coordonne ui ;  Considrer tout les ui comme des seuils potentiels pour le dcoupage du plan dans la direction D perpendiculaire l'axe Ou et passant par ui ;  Trouver le dcoupage optimal en 2 classes adjacentes (parmi l'ensemble des dcoupages possibles), maximisant la variance interclasse de Zi , selon les projections prcdentes.

ii. Ensemble des partitions possibles.


La premire tape comprend la dtermination des direntes directions D de dcoupage possibles, i.e. la spcication des angles qui doivent tre analyss. Une solution globale consisterait en un balayage de toutes les directions obliques D, i.e. de tous les [0, [. De faon heuristique, on pourrait galement discrtiser cet intervalle an d'obtenir un ensemble ni d'angles . Cependant, ces 2 procdures ne sont pas optimales, alors que l'algorithme optimal pour une solution optimale est assez simple, comme nous allons le montrer. En eet, il est clair que 2 points Mi (xi , yi ) et Mj (xj , yj ) possdent les mmes coordonnes en projection sur l'axe Ou si et seulement si Mi Mj est perpendiculaire l'axe Ou [g.1]. Le nombre de directions critiques, dnies par les angles ij , existe donc et est un nombre ni. Pour chaque direction D passant par 2 points Mi et Mj , il existe un angle ij entre la droite Mi Mj et l'axe Ox. Alors : y yi ij = arctan (aij ) ; avec aij = xj 2 2 j xi Comme dni prcdemment, est l'angle entre l'axe Ox et l'axe Ou perpendiculaire la droite Mi Mj . Alors, pour chaque couple (Mi , Mj ), on a ij = ij + 2

19

Part.I.

1. Dtection de clusters spatiaux

 L'espace des covariables est reprsent par le plan avec une base orthogonale correspondant aux coordonnes x et y et une origine xe O ;  u est la direction perpendiculaire la direction de dcoupage D ;  Mi et Mj sont 2 localisations ponctuelles dans le plan, dtermines par leurs coordonnes gographiques. Chaque angle critique ij permet galement de dnir un secteur angulaire l'intrieur duquel l'ordre des coordonnes ui en projection sur l'axe Ou ne dpend pas de cette direction. Pour les points Mi et Mj , la dirence de leurs coordonnes projetes (uj ui ) vrie : (1.7.1)
(uj ui ) cos(ij ) = (xj xi ) sin( ij )

Construction de l'angle critique direction u


Fig. 1.

ij

de la

et (uj ui ) = (yj yi ) sin() Ainsi, (uj ui ) dpend de de faon continue. Le signe de cette diffrence ne peut donc pas changer l'intrieur d'un secteur angulaire, puisque (uj ui ) = 0, si et seulement si = ij . Il s'ensuit qu' l'intrieur d'un secteur angulaire, la variance interclasse (et mme l'ensemble de la procdure) n'est pas modie. Comme consquence directe de l'quation 1.7.1, la transition d'un secteur angulaire au suivant, via un angle critique ij , induit un ordre des coordonnes projetes inchang, l'exception de la permutation de 2 lments adjacents de coordonnes ui et uj [g.2]. Il faut noter que, pour des points aligns Mi , Mj et Mk , l'algorithme doit permuter l'ensemble des lments adjacents (ui , uj , uk ) (uk , uj , ui ). De mme, pour des directions parallles, Mi Mj Mk Ml ,

avec : xj = xi ij = 2

20

Part.I.

1. Dtection de clusters spatiaux

 u est la direction perpendiculaire la direction de dcoupage D ;  Mi et Mj sont 2 localisations ponctuelles dans le plan, dtermines par leurs coordonnes gographiques ;  u et u sont les directions d'angles intermdiaires (non critiques), appartenant respectivement au secteur 1 et 2 ;  ui , uj , ui et uj sont les coordonnes des points Mi et Mj en projection orthogonales sur les directions u et u . On notera que ui > uj et ui < u j ; l'algorithme doit permuter en mme temps les couples d'lments adjacents (ui , uj ) et (uk , ul ) (uj , ui ) et (ul , uk ). On peut remarquer que tous les secteurs angulaires dnissent autant de covariables. On peut alors revenir une procdure CART habituelle. Cependant, le nombre d'angles critiques dirents est donn n1) par N n(2 , et la disponibilit en temps et en espace est souvent insusante pour utiliser CART de cette faon. A titre d'exemple, dans notre application, le nombre de localisations tait de n = 150 et le nombre de secteurs angulaires dirents tait de N = 11170.

Transition via une direction critique u, d'un secteur 1 un secteur 2


Fig. 2.

iii. Optimisation de l'algorithme.


L'algorithme le plus ecace consiste en une analyse pas pas des secteurs angulaires, ordonns selon les ij observs. A chaque tape, l'algorithme utilise les rsultats prcdants. En eet, il sut de calculer une seule variance interclasse, puisque seulement 2 lments ont t permuts, correspondant un seul dcoupage (ou bien un petit nombre de variances interclasses, dans le cas de la permutation d'un groupe d'lments ou de plusieurs couples). La procdure hrite donc du calcul des variances interclasses fait pour le secteur angulaire prcdant,

21

Part.I.

1. Dtection de clusters spatiaux

l'exception de la variance interclasse correspondant la permutation. Ainsi, la complexit de l'algorithme est en O (n2 ln n) en temps et en O(n) en espace pour une seule partition, et en O (n3 ln n) en temps pour l'ensemble de la procdure. Finalement, l'algorithme dcoupe le plan en 2 partitions adjacentes de la faon suivante :  ordonner les xi ;  calculer et ordonner les ij via les aij ;  calculer n i=1 zi ;  pour chaque dcoupage potentiel du premier secteur (correspondant l'axe des x), i.e. pour chaque valeur de xi :  calculer les zi pour chaque classe (de part et d'autre du seuil xi ) et la variance interclasse en utilisant les rsultats prcdants ;  si la variance interclasse est plus grande que la prcdante, conserver les rsultats ;  pour le secteur suivant  permuter les xi , xj correspondants (ou le groupe d'lments) ;  calculer les zi seulement pour les classes gnres par le dcoupage entre xj et xi (ou les quelques dcoupages dans un groupe d'lments permuts) ;  si la variance interclasse ainsi calcule est plus grande que l'optimum prcdant, conserver les rsultats ;  jusqu' ce que tous les secteurs angulaires soient balays. L'algorithme poursuit la partition de faon rcursive jusqu' atteindre un critre d'arrt. L'algorithme complet est prsent dans le gure 3. Dans notre programme, nous avons utilis 4 rgles d'arrt intrinsques classiquement utilises :  le pourcentage de variance explique en dessous duquel le dcoupage du noeud est rejet  l'eectif minimal d'un noeud ls, en dessous duquel le dcoupage du noeud pre correspondant est rejet ;  l'eectif minimal d'un noeud pre, en dessous duquel il n'est pas dcoup ;  le nombre maximal de niveaux. D'autres rgles d'arrt, ainsi que des rgles d'lagage, sont discutes ailleurs dans le cadre de la mthode CART [30, 105].

Remarque 1.

Les arbres de rgression peuvent tre considrs comme des rgressions non-paramtriques [105], dont la forme fonctionnelle peut s'crire :

22

Part.I.

1. Dtection de clusters spatiaux

Fig. 3.

Algorithme SpODT 23

Part.I.

1. Dtection de clusters spatiaux

zi = f(xi ) + i , o (xi ) est le vecteur des coordonnes du point Mi . La fonction f(.) peut tre dnie comme suit :
P

f(xi ) =
j =1

z i 1{Mi (xi )j }

autrement dit, pour chaque point Mi , de coordonnes (xi ), appartenant la classe j, la valeur prdite sera zi = z j , i prs. Le principal problme est de dterminer l'ensemble P des classes j P . Les fonctions sj (xi ) sont des fonctions linaires des xi , (axi + byi + c = 0 dans R2 ), correspondant aux frontires entre les classes. Ces frontires, sj , ou droites de partition, sont dtermines de faon rcursive pour chaque ensemble de points , encore appel noeud, correspondant soit l'ensemble initial des points du plan tudi, soit une classe issue d'un dcoupage prcdant. Cet ensemble est coup (en 2 classes lles) par la droite de partition sj . Si sj (xi ) < 0 alors le point Mi de coordonnes (xi ) appartiendra la classe lle jl , sinon (i.e. sj (xi ) > 0), Mi appartiendra la classe lle jr . Pour l'ensemble de points Mi , on cherche parmi l'essemble S de toutes les fonctions linaires des xi la fonction sj (.) tel que :
SCEinter (sj , ) = max SCEinter (s, )
sS

Comme nous l'avons crit plus haut, l'ensemble S est ni, et le nombre de classes P nales est dtermin par les noeuds terminaux de l'arbre de rgression, en particulier par les rgles d'arrt. Ici, un noeud est dclar terminal si :
2 2 2 tot (1) SCEinter (sj , ) Rc SCE , Rc tant une va, i.e. R2 < Rc n( )1 leur seuil choisie, n( ) est l'eectif du noeud . Autrement dit, la nouvelle partition n'explique pas assez de variance supplmentaire.

(2) n( ) nc1 , o le critre prdtermin nci est l'eectif minimal du noeud en dessous duquel le noeud ne sera pas dcoup. (3) n(jl ) nc2 n(jr ) nc2 , jl et jr tant les 2 classes lles issues de la partition du noeud , et le critre prdtermin nc2 est l'eectif minimal des classes lles en dessous duquel la partition est rejete. (4) Le nombre maximal de niveaux.

24

Part.I.

1. Dtection de clusters spatiaux

Remarque 2. L'algorithme SpODT ne tient pas compte de l'eectif du noeud ls, sauf en terme de rgle d'arrt, ni de la dispersion des units statistiques dans une classe (dispersion dans l'espace des covariables). Dans le cadre d'applications gographiques, cette dispersion spatiale dans une classe donne doit tre prise en compte, pour pondrer le critre de dcoupage utilis. Comme nous l'avons vu, le critre utilis est la variance interclasse de Zi , variable expliquer, selon les classes de Xi (variables explicatives, i.e. coordonnes gographiques). Plus la variabilit spatiale l'intrieure d'une classe (i.e. la dispersion gographique) est grande, moins l'intrt pour une telle classe est grand, d'autant plus que l'eectif est faible. Nous proposons une pondration du critre de la variance interclasse par l'eectif de la classe et la matrice de variance-covariance V des variables explicatives (i.e. coordonnes gographiques). On dnit, pour une partition donne en 2 classes 1 et 2, la somme des carrs des carts inter-classe :
SCEic =

et la somme des carrs des carts pondrs :


SCEic =
2 i=1

2 i=1

i Z )2 ni (Z

i Z )2 i ni (Z

La pondration i doit tenir compte de l'eectif ni de la classe i 1, 2 et de la dispersion gographique note i . i doit tre une fonction continue croissante borne de ni et de i , par exemple une fonction i logistique de n . i Cependant, nous devons traiter le cas o i = 0. En eet, si i = tr(V ) ou i = det(V ), il est possible d'avoir i = 0, en particulier pour ni = 1 ou ni = 2. Nous proposons donc que la pondration soit une fonction de ni , o ni est l'eectif de la classe i et i = det(Vi ), avec Vi la matrice ni +i de variance-covariance pour la classe i des 2 variables explicatives (i.e. les coordonnes gographiques). La pondration peut donc s'crire : (1.7.2)
i =
i } exp { nin + i i 1 + exp { nin } + i

En plus des rgles d'arrt utilises ici, d'autres rgles extrinsques d'arrt peuvent tre envisages. En particulier la raectation de chaque point la classe la plus proche, en terme de distance euclidienne par exemple, permet de vrier si le nombre de raectations est stable et si la classication est en cohrence avec une ralit de terrain. 1.8.

Remarque 3.

Application. 25

Part.I. 1.8.1. Matriel.

1. Dtection de clusters spatiaux

La base de donnes utilise pour cette application est issue d'une investigation du risque palustre dont l'objectif tait d'tudier de nombreux facteurs de risques palustres (environnementaux, immunologiques, gntiques, entomologiques... ).

Lieu d'tude.

Cette tude a eu lieu sur l'ensemble d'un village, Bancoumana, cercle de Kati, 60 km au sud-ouest de Bamako (capitale du Mali) [g.4]. Le village, situ en savanne soudanaise, recouvre une surface d'environ 2,5 km2 , avec une population d'environ 8000 habitants [238]. Les principales activits sont la riziculture et le marachage sur les bords du euve Niger. Bancoumana est en zone d'hyperendmie palustre transmission saisonnire [238, 66]. En saison des pluies, de juin octobre, avec des tempratures comprises entre 25 et 40C, la transmission est trs leve. Cette transmission dcrot ensuite graduellement pour atteindre un minimum au milieu de la saison sche (autour de fvrier). Trois espces plasmodiales sont prsentes : P. falciparum, P. ovale et P. malariae. P. falciparum reprsente environ 95% des parasites prsents (O. Doumbo, communication personnelle).

Une cohorte dynamique a t constitue en juin 1996 et suivie jusqu'en juin 2001. Cette tude comprenait 173 des 340 maisons (concessions) slectionnes selon un chantillonnage alatoire strati sur les 4 quartiers. Dans chaque concession, tous les enfants ges de 0 12 ans ont t suivis, constituant ainsi la cohorte dynamique (avec en moyenne 1356,68 enfants par valuation 95%CI[1298,98-1414,39]), avec 1101 enfants lors de la premire valuation (juin 1996) et 1491 enfants pour la dernire valuation (juin 2001). Il y avait en moyenne 9,12 enfants par concession et par valuation (95% CI [8,01-10,2]). Peu d'enfants ont quitt le village et certains sont ns au cours de l'tude. La distribution de l'ge n'a pas t modie au cours du temps et la cohorte dynamique est reste reprsentative de la population d'enfants du village [g.7]. Les valuations (22) ont t faites au rythme d'environ 1 valuation tout les 2 mois durant la saison des pluies et tous les 3 mois en saison sche. Ce rythme a t dni sur la base d'tudes prcdentes concernant la saison de transmission [238, 66]. Le consentement communautaire a d'abord t obtenu, avant d'obtenir le consentement clair oral des parents ou des responsables des enfants

Population et protocole de l'tude.

26

Part.I.

1. Dtection de clusters spatiaux

Image satellite du village de Bancoumana -GoogleEarth Fig. 4.

Fig. 5. Image satellite du village de Bancoumana -GoogleEarth -

Fig. 6. Image satellite du village de Bancoumana -SP OT image 10/11/2003

inclus, selon la procdure dcrite par O. Doumbo [70]. Trois familles ont refus de participer. L'ensemble de l'tude, nance par le programme Mali-Tulane TMRC N AI 95-002-P50 du NIH, a t approuv par le comit d'thique de la Facult de Mdecine, Odontologie et Pharmacie

27

Part.I.

1. Dtection de clusters spatiaux

Evolution de la distribution de l'ge dans la cohorte dynamique au cours du temps.


Fig. 7.

de Bamako, Universit du Mali.

Variables.

A chaque valuation, un chantillon de sang tait prlev sur chaque enfant. Une quipe de biologistes expriments a tudi la parasitmie P. falciparum, P. malariae, et P. ovale, et la gamtocytmie (P. falciparum ), sur frottis colors au Giemsa. Pour contrler la qualit de la lecture des frottis, chaque valuation 10% d'entre eux (randomiss) taient lus par un biologiste senior. En cas de dsaccord, l'ensemble des prlvements tait nouveau analys. L'infection tait dnie par la prsence de parasites l'tude du frottis (parasitmie positive). L'quipe mdicale recevait alors les enfants infects, et administrait un traitement suivant les recommandations du programme national de lutte contre le paludisme (chloroquine en premire intention, associe une surveillance clinique et biologique). Ainsi, en tenant compte des intervalles entre les valuations, un second frottis sanguin positif lors d'une seconde valuation tait considr comme une nouvelle infection et non comme une persistance de l'infection premire. L'quipe mdicale tait prsente en permanence dans le village. Dans tous les cas, des soins appropris taient donns aux enfants, incluant l'hospitalisation l'hpital national de Bamako, si ncessaire. Tous les enfants ont t gorfrencs selon leur concession, i.e. l'endroit o ils dormaient. Le gorfrencement a t fait l'aide du systme GPS GeoExplorerII associ au systme d'information gographique ArcGIS8.3 (prcision de 1 3m).

28

Part.I.

1. Dtection de clusters spatiaux

tude spatiale.

Pour l'tude purement spatiale qui nous intresse ici, comparant les direntes mthodes dveloppes prcdemment, nous avons tudi la premire valuation du mois d'aot 1999, comprenant 1339 enfants. Parmi eux, 511 enfants avaient un prlvement positif (38,16%,CI95% [35,56-40,76]). 1.8.2. Mthodes. Nous avons utilis le package Dcluster du logiciel gratuit R version 2.2.0 (the R Foundation for Statistical Computing, 2005, http ://CRAN.Rproject.org) pour les mthodes de Moran, Tango et LISA. La mme matrice de proximit, d'lments wij = edij , a t utilise pour ces mthodes, an de pouvoir comparer leurs rsultats. Pour la mthode de balayage de Kulldor, nous avons utilis SaTScanv5.1, tlchargeable gratuitement http ://www.satscan.org [145]. L'analyse purement spatiale a recherch des clusters haut risque ou risque faible, testant l'hypothse de distribution de Poisson du risque. Pour l'arbre de rgression nous avons utilis SpODTv1.2 (tlchargeable gratuitement sur http ://mtcd.timone.univ-mrs.fr/mtcd2006/). Enn, pour l'ensemble des mthodes, l'hypothse nulle utilise tait celle des risques constants, teste l'aide de simulations de MonteCarlo, l'aide de scripts ad hoc (logiciels R et SpODT) ou dj implments (Satscan). Dans le premier cas, les simulations (999) ont t faites l'aide du logiciel Matlab 7.0.1 (The Mathworks Inc. 2004). 1.8.3. Rsultats. Toutes les mthodes utilises ont mis en vidence une htrognit spatiale signicative, rejetant l'hypothse des risques constants. Les mthodes globales (Tango et Moran) ont montr [tab.1] des corrlations spatiales faibles, estimes par des statistiques trs petites, respectivement I = 0, 1 103 (p = 0, 008) et T = 0, 2 106 (p = 0, 004). L'utilisation du coecient local de Moran (Anselin)a mis en vidence 5 clusters signicatifs (aprs ajustement de Bonferroni). Les valeurs ngatives des coecients indiquaient que les valeurs au voisinage des concessions tudies taient direntes. L encore, les coecients taient, en valeur absolue, trs faibles, indiquant une faible corrlation ngative. Certaines de ces concessions avaient un risque plus faible que le voisinage, d'autres avaient un risque plus lev. Nous n'avons pas observ de regroupement de ces concessions sur une partie du village. La mthode de Kulldor a mis en vidence un seul cluster o le nombre de cas observ tait suprieur au nombre de cas attendu sous l'hypothse nulle, i.e. un excs de risque palustre (p = 0, 004). Le risque relatif y tait modr (RR = 1, 279). Il comprenait 50 concessions, soit un rayon de 0,48 km, correspondant 465 enfants. Cette zone, situe l'ouest du village [g.8], correspondait la localisation d'une mare

29

Part.I.

1. Dtection de clusters spatiaux

Cartographie du village de Bancoumana et reprsentation des clusters identis.


Fig. 8.

Chaque point reprsente une concession et l'chelle de couleur reprsente la proportion d'enfants positifs P. falciparum. Les concessions encadres de rouge sont celles dtectes par la mthode LISA. Le cercle reprsente le cluster haut risque dtect par la mthode de balayage et le risque relatif correspondant est indiqu. Les droites reprsentent le dcoupage obtenu par l'arbre de rgression. Les risques relatifs de chaque classe issue de l'arbre de rgression sont indiqus.

temporaire (partie sud-ouest du cluster) et d'une briqueterie (partie nord-ouest) pour laquelle l'excavation de terre tait l'origine de gtes d'anophles (vecteurs du paludisme). Cette particularit a t trouve a posteriori par les pidmiologistes de terrain. Aucun autre cluster n'tait signicatif, qu'il soit risque accru ou risque faible. L'arbre de rgression a dcoup la zone gographique en 6 zones. Cette classication tait signicative (p = 0, 047), bien que le pourcentage de variance explique soit faible (R2 = 0, 299). Les 2 zones les plus l'ouest comprenaient le cluster issu de la mthode de Kulldor. Nous avons observ dans la partie nord-ouest un risque plus lev (63,11%). Une autre zone risque lev (52,38%) a pu tre mise en vidence au

30

Part.I.

1. Dtection de clusters spatiaux

nord-est du village, situe elle aussi proximit d'une mare temporaire. Enn une zone risque faible a t dtecte au nord du village (23,53%). 1.9. Discussion. Les direntes mthodes prsentes ici permettent de dcrire l'htrognit spatiale, soit en analysant globalement les structures spatiales, soit en dtectant localement des zones risques. Nous avons utilis trois approches fondes sur l'autocorrlation, deux globales, une locale, et deux approches portant sur le regroupement de donnes, l'une balayant la zone d'tude et utilisant une fentre rayon variable, l'autre partant de la zone globale et la dcoupant rcursivement. Pour chaque approche, nous avons choisi une mthode, parmi les plus appropries : le coecient d'autocorrlation de Moran qui a des proprits reconnues et la mthode de Tango qui ajoute la notion d'adquation, le coecient local de Moran introduit par Anselin qui a galement des proprits reconnues, la mthode de balayage de Kulldor qui est l'volution de mthodes anciennes, et la mthode d'arbre de rgression oblique, adapte de CART, qui est une approche nouvelle dans le cadre de l'pidmiologie spatiale. Cette analyse de la structure spatiale a pour but d'orienter les pidmiologistes de terrain vers des sources potentielles. Les mthodes prsentes rpondent des dnitions direntes de l'htrognit spatiale, et prsentent toutes des avantages et des inconvnients. Le coecient global de Moran recherche si les u.s. voisines sont, globalement, similaires. Ce coecient d'autocorrlation spatiale est le plus utilis [8]. Il rend compte un niveau global de la tendance des lieux proches se ressembler (autocorrlation positive) ou au contraire s'opposer (autocorrlation ngative). Il est considr comme un des meilleurs choix parce qu'il prsente de bonnes proprits et que le test d'indpendance est plus puissant que d'autres coecients d'autocorrlation [154, 150, 252]. En particulier, le coecient de Moran (et le test associ) est moins aect que les autres par une mauvaise spcication de la matrice de proximit [72]. Cependant, la valeur et l'interprtation de I sont fortement dpendantes de la mesure de la proximit spatiale. De plus, le coecient de Moran ne permet pas d'identier l'eet spcique exerc par une u.s. particulire. La mesure de l'autocorrlation est aecte par le niveau d'agrgation i.e. par l'chelle utilise. Ce problme est connu sous le nom de MAUP (Modiable Areal Unit Problem ) [195]. Le coecient d'autocorrlation est galement sensible la forme, la surface, la distribution et la taille des eectifs des u.s. tudies. Celles-ci sont souvent dnies administrativement, ce qui peut altrer la puissance des tests [250, 244, 149]. Certains auteurs recommandent d'utiliser plusieurs chelles d'agrgation lorsque cela est possible, et plusieurs mthodes. De plus, plusieurs tudes comparatives

31

Part.I.

1. Dtection de clusters spatiaux


Tab. 1. Statistiques et infrences issues des direntes mthodes d'analyse spatiale.

Mthodes globales
Moran Tango
Statistique p 0,008 0,004 RRd (var) Nb Concessions
obs. e att.

Coordonnesa

Mthodes locales
Statistique

I = 0, 1 T = 0, 2 106

103

Coecient local de Moran (Anselin)b Mthode de Kulldor c

x = 8, 26505 y = 12, 20436 x = 8, 26471 y = 12, 20232 x = 8, 26147 y = 12, 20514 x = 8, 26824 y = 12, 20453 x = 8, 26691 y = 12, 20497 x = 8, 27102

I1 = 4, 8 1003 I2 = 1, 26 1001 I3 = 4, 38 1003 I4 = 5, 12 1003 I5 = 7, 64 1004 Tk = 10, 23

0
0 0,76

1 1 1 1 1 50

0,005 0,01 0,025 0,035 0,04 0,004

1, 22 (0, 21)
7 5,72

0
0 0,38

0
0 0,38

1, 75 (1, 53)
2 1,15

1, 28 (0, 007)
227 177,46

Arbre de Rgression Oblique

y = 12, 20237 x = 8, 26787 y = 12, 20267 x = 8, 27038 y = 12, 20489 x = 8, 26409 R2 = 0, 299b y = 12, 20423 x = 8, 26056 y = 12, 20993 x = 8, 26538 y = 12, 20598 x = 8, 26443 y = 12, 20956

rayon=0,48Km 72 11 11 5 23 37 0,047

1, 03 (0, 004)
274 265,61

1, 65 (0, 04)
65 39,31

0, 85 (0, 03)
24 28,24

1, 36 (0, 14)
13 9,54

0, 99 (0, 01)
83 83,96

0, 62 (0, 007)
52 84,34

a. coordonnes gographiques des concessions fournies par GPS b. correction de Bonferroni pour tenir compte de la multiplicit des tests corrls c. dtection d'un seul cluster signicatif d. risque relatif de parasitmie positive P. falciparum (variance). Estim par le rapport obs./att. e. nombre de cas observs rapport au nombre de cas attendus sous l'hypothse nulle f. pourcentage de variance expliqu.

32

Part.I.

1. Dtection de clusters spatiaux

[250, 149, 53] ont permis de montrer que les tests globaux perdent en puissance en prsence d'un cluster unique. Enn, le coecient d'autocorrlation de Moran dpend d'une part de la dnition de la proximit (qui augmente avec la taille de l'u.s. choisie), et, d'autre part, de la similarit entre units voisines (en relation inverse avec la taille de l'u.s. choisie). On peut donc penser que pour notre tude, le coecient I de Moran est faible cause, d'une part, du choix de la matrice de proximit, et, d'autre part, de la faiblesse des distances gographiques. La statistique de Tango tient compte, non seulement de l'autocorrlation, mais permet galement de tester l'adquation. L'avantage de cette mthode sur le coecient de Moran est que la statistique de Tango prend en compte la distribution de la population risque, i.e. l'htrognit de peuplement. Plusieurs tudes de comparaisons sont en faveur du test de Tango dans la dtermination de clusters [120, 227]. Cependant, l'instar du coecient de Moran, la statistique de Tango reste dpendante de la matrice de proximit, de l'chelle spatiale choisie et de la forme des u.s.. Les mthodes locales permettent d'apprhender la structure spatiale de l'htrognit en recherchant une u.s. particulire dirente de ses voisines. L'analyse vise faire ressortir les particularits au niveau local pour mettre en vidence des donnes atypiques. Dans ce sens, les indices locaux sont plus adapts la recherche locale de clusters. Le coecient local de Moran a de meilleures proprits que les autres indicateurs de la famille LISA [154]. Parmi ses inconvnients, on retrouvre le problme du choix de la matrice de proximit, de l'chelle d'analyse et de la forme des u.s.. D'autres problmes sont lis la multiplicit des tests non indpendants faits sur de petits chantillons, l'absence de connaissance des proprits analytiques des coecients LISA (en dehors du cas Gaussien pour le coecient local de Moran), la corrlation des statistiques estimes sur les u.s., rendant les infrences peu puissantes [236, 131]. De plus, l'observation d'u.s. voisines, non indpendantes, ayant des risques similaires entre elles mais aussi similaires au risque estim sur l'ensemble de la zone d'tude peut conduire l'estimation d'un coecient local faible et non signicatif, malgr l'absence d'indpendance entre ces u.s.. Enn, les coecients locaux peuvent mettre en vidence des situations locales en contradiction avec la valeur de l'indice global. Mais bien que les mthodes locales soient plus puissantes pour dtecter des anomalies locales, elles perdent en puissance pour des clusters trs larges. L'approche par balayage recherche un cluster pouvant regrouper plusieurs u.s.. Elle permet de s'aranchir du problme du choix de la matrice de proximit. La taille et la forme des units u.s. ont galement moins d'inuence sur la statistique de Kulldor que sur les statistiques prcdentes, en particulier grce au choix du fentrage et au balayage de

33

Part.I.

1. Dtection de clusters spatiaux

la zone d'tude l'aide d'une fentre de rayon variable. De plus, la statistique de Kulldor, fonde sur le rapport de vraisemblance, permet de s'aranchir du problme de la multiplicit des tests non indpendants ( l'inverse des autres mthodes de balayage). Cependant, le choix du fentrage a priori, pour mettre en oeuvre la procdure, restreint l'hypothse alternative une forme particulire de cluster (classiquement circulaire), et des eets de bords (cluster non circulaire) peuvent diminuer la puissance du test [149, 74]. De plus, l'hypothse alternative spcie qu'il existe un seul cluster sur l'ensemble de la zone d'tude. Ce test aura donc la meilleure puissance possible en prsence d'un cluster rellement unique, et l'existence de plusieurs clusters isols peut entraner une perte de puissance. Enn, la procdure de Kulldor tend dtecter des clusters trop larges (manque de spcicit) par rapport la ralit, en absorbant des u.s. proches mais o le risque n'est pas lev [229]. L'approche par arbre de rgression oblique (ARO) tente de rpondre la question  peut-on dcouper la zone d'tude en classes (sous-zones) de risques dirents, l'intrieur desquelles le risque est homogne ? . Les avantages sont qu'aucune matrice de proximit n'est dnir, la taille et la forme des u.s. ont peu d'inuence, et qu'il n'est pas ncessaire de dnir a priori la forme des classes (sous-zones) recherches (contrairement la statistique de balayage). Le dcoupage rcursif des ARO permet de regrouper certaines u.s. et ainsi reconstruire une structure plus reprsentative des variations du risque. L'inconvnient majeur est le manque de stabilit des ARO, en particulier cause du dcoupage binaire et de la rcursivit. La statistique utilise (R2 ) peut tre remplace par d'autres, notamment la statistique de Kulldor sur les classes dnies par l'ARO. Le choix a priori des critres d'arrt peut galement modier le rsultat et son interprtation. Nous proposons d'utiliser cette mthode dans un but descriptif, pralable une analyse infrentielle. La dnition d' absence de cluster , l'hypothse nulle, doit tre galement dnie avec prcision. En eet, la distribution spatiale uniforme des cas (Complete Spatial Randomness) parfois utilise n'est pas satisfaisante, dpendant de la distribution des populations et de la localisation des u.s.. L'hypothse du risque constant (Constant Risk Hypothesis) est plus adapte la recherche de clusters. Elle correspond des distributions de Poisson conditionnellement aux eectifs et aux localisations des u.s. (encore appeles distributions htrognes de Poisson). Une telle hypothse permet d'viter l'cueil d'une distribution uniforme irraliste, dans le sens o la probabilit d'observer un excs de cas est alors trop importante [198, 249, 17, 246]. De nombreuses statistiques (comme le coecient de Moran, la statistique de Tango, le coecient local de Moran) utilisent une dnition de

34

Part.I.

1. Dtection de clusters spatiaux

la proximit fonde sur les distances entre les u.s.. Il s'agit d'une reprsentation formelle de l'espace sous la forme d'une matrice de proximit construire l'aide des informations lies au phnomne tudi et des observations. Les distances dij sont, gnralement, des distances euclidiennes, ou calcules selon d'autres mtriques appropries, entre les u.s. ou leur centre de gravit. La proximit peut tre dnie par une matrice de contigut, telle qu'elle a t utilise initialement, caractrisant de faon binaire les u.s. frontalires, i.e. wij = 1 si les u.s. i et j ont une frontire commune, 0 sinon. Ce choix suppose que la porte spatiale de la dpendance entre les u.s. est limite aux units connexes. Le choix peut, galement, se porter sur une matrice de proximit dnie comme une fonction de la distance dij entre les u.s.. En particulier, on peut caractriser de faon binaire des u.s. proches, i.e. dont la distance est infrieure un seuil x ,
wij =

crant ainsi des fentres circulaires dont le rayon correspond . L encore, la porte de la dpendance spatiale est limite par le rayon de la fentre de voisinage. On peut tre amen tenir compte des tailles des populations des diffrentes u.s. adjacentes, les u.s. grande population obtenant plus de poids. Les poids deviennent ainsi :
wij =

1 si dij < , 0 sinon

o nj est l'eectif de l'u.s. voisine j = i, j {1 . . . K }. L'utilisation de fonctions continues, en gnral monotones dcroissantes, est classique, en particulier pour les maladies transmissibles, dij avec des formes fonctionnelles du type wij = d1 ou wij = exp{ }. ij Le paramtre d'chelle est choisi en fonction de caractristiques spcies ou empiriques, lies des contraintes caractrisant la vitesse de dcroissance. Par exemple la distance parcourue par une voiture peut tre trs dirente de la distance vol d'oiseau. Plus sera grand, plus le test sera sensible au larges clusters et inversement. La dtermination optimale de la matrice de proximit est un des problmes les plus dbattus [7, 195, 6]. Une mauvaise spcication de cette matrice peut modier les rsultats et l'interprtation des tests statistiques, avec notamment une perte de puissance. Le choix doit tre fond sur des caractristiques spciques ou empiriques associes au phnomne tudi [154]. Un des problmes de la matrice de contigut est l'exclusion des u.s. n'ayant pas d'unit directement voisine (contigu) [26]. L'utilisation de matrice binaire n'est pas considre comme la plus optimale pour reprsenter la relation spatiale [154]. L'utilisation d'une mesure de proximit de forme exponentielle dcroissante est classique pour de nombreux auteurs [229], lorsque les distances sont disponibles,

nj si dij < 0 sinon

35

Part.I.

1. Dtection de clusters spatiaux

et, de plus, cette forme est robuste par rapport au choix du paramtre d'chelle , permettant d'adapter la vitesse de la perte d'inuence d'une u.s. en fonction de la distance. En particulier, une dcroissance rapide de l'inuence d'une u.s. avec la distance est souvent prfre an de donner plus d'importance un eet local qu' un eet distance. Dans l'application prcdante, nous avons choisi une telle pondration ( = 1) pour donner une importance similaire aux deux composantes de la statistique de Tango (partie cart au modle probabiliste et partie autocorrlation). D'autres fonctions (fonctions noyaux, splines, mthodes bayesiennes...) peuvent tre utilises pour les adapter au problme pos et aux donnes prsentes. La recherche de clusters est trs discute, en particulier parce qu'elle prsente souvent des rsultats faux positifs. La suspicion d'un excs de risque dans une zone amne souvent trouver une cause apparente. Or l'valuation statistique a posteriori d'une telle cause est biaise [80]. En particulier, les outils ne sont pas indiqus pour rechercher de nouveaux facteurs de risque, inconnus ou mal connus, d'autant plus que l'association avec la maladie est faible. La slection de la zone d'tude (trop petite ou trop grande), la slection de la fentre temporelle, le faible eectif de la population expose, la raret de la maladie, les hypothses mal dnies (et donc une mthode inapproprie), de nombreux facteurs de risques non matriss, tout ces problmes peuvent biaiser les rsultats statistiques et leur interprtation. Il est donc ncessaire, d'une part, de suivre une mthodologie rigoureuse, et, d'autre part, d'interprter les rsultats en fonction de la mthode choisie [80, 81, 253]. La dtection de clusters peut tre utilise comme tude prliminaire aux tudes pidmiologiques classiques, an de prciser certaines questions, notamment concernant les particularits de la zone d'tude. Les mthodes de dtection de clusters sont aussi trs utiles dans le cadre de la surveillance pidmiologique, o l'volution temporelle est galement tudie. En particulier, l'OMS prconise depuis plusieurs annes [186] des tudes permettant de connatre l'pidmiologie du paludisme l'chelle locale. Dans ce cadre, et pour une maladie frquente dont les facteurs de risque environnementaux sont bien connus, les outils que nous prsentons ici permettent d'aller dans ce sens. 1.10. tude de la puissance de SpODT. L'objectif du travail prsent dans cette section a t de comparer Satscan et SpODT sur leur capacit dtecter des clusters de risque. Satscan a t compar plusieurs autres mthodes [221, 53, 149], mettant en vidence sa grande capacit de dtection. Cependant, la prspcication de son fentrage implique une baisse de cette capacit lorsque le cluster risque n'est pas conforme la fentre utilise. L'intrt de SpODT est justement l'absence de prspcication, qui permet ainsi

36

Part.I.

1. Dtection de clusters spatiaux

de dtecter des clusters de formes inattendues. 1.10.1. Critres de comparaisons. Pour les deux mthodes, nous avons tudi leur puissance l'aide de simulations, pour un risque de premire espce 5% et 10%. Cependant, la prsence d'un test signicatif n'indique pas si la localisation du cluster signicatif est conforme la ralit. Pour cela, nous avons estim la sensibilit (probabilit de dtecter une zone risque, lorsque celle-ci l'est rellement) et la spcicit (probabilit de ne pas dtecter une zone risque, lorsque celle-ci ne l'est rellement pas) de chacune des mthodes, pour chacune des congurations simules. 1.10.2. Simulations. Nous avons simul des hypothses alternatives selon 8 congurations :  la source est circulaire ou en bande  le risque la source est de p = 0, 8 ou p = 0, 5  la vitesse de dcroissance du risque est leve ( = 0, 001) ou faible ( = 0, 005) Les observations, sous chaque hypothse alternative, taient simules de la faon suivante :
Oi P (Ei = ni pwi )

avec ni : eectif xe de la concession i (issue de l'tude pidmiologique), la localisation des concessions tant galement xe ; p = 0, 8 ou p = 0, 5 : le pourcentage de cas x, au point source ; i wi = exp d , la pondration lie la distance la source et la d croissance du risque, o di est la distance entre le point (la concession) i et le point source (dans le cas d'une simulation circulaire), ou entre le point i et la bande source (dans le cas d'une simulation en bande) ; le paramtre permet de simuler une dcroissance du risque rapide ( = 0, 001) ou lente ( = 0, 005) [g. 9, 10]. Pour mettre en vidence des eets de bords, nous avons simul une conguration supplmentaire reprsente par une bande xe (sans dcroissance), de largeur xe, avec, l'intrieur de la bande, p = 0, 8 ou p = 0, 5 et, l'extrieur de la bande, p = 0, 1. Pour chaque conguration, 500 chiers ont t simuls. Concernant l'hypothse nulle, pour chaque conguration, les observations ont t simules sous l'hypothse du risque constant, de la faon suivante :

37

Part.I.
Ci

1. Dtection de clusters spatiaux


P (Ei =
O+ n) n+ i

O O+ = i Oi et n+ = i ni , sur toutes les concessions i. Pour chaque conguration et pour chaque chier de simulations sous H 1, 999 chiers ont t simuls sous H 0.

Les rgles d'arrt utilises pour SpODT :  R2 < 106  eectif d'un noeud pre <5  eectif d'un noeud ls <3  nombre de niveaux <5 1.10.3. Rsultats. Concernant les simulations circulaires [g. 1114], Satscan prsente des puissances trs leves [tab. 2], autour de 98%, quel que soit le pourcentage au point source et la vitesse de dcroissance, mme pour = 1%. Par contre, SpODT ne prsente une bonne puissance que pour un pourcentage au point source lev (p = 80%) quelle que soit la vitesse de dcroissance, pour = 5% (1 = 87% pour = 0, 001, et 1 = 92% pour = 0, 005). La puissance chute rapidement pour les autres congurations. En terme de sensibilit, SpODT (100%) est meilleure que Satscan, bien que celle-ci prsente de trs bonnes sensibilits (> 80%). Cependant, les spcicits de SpODT ne sont pas trs leves pour la plupart des congurations (entre 54 et 65%), sauf pour la conguration p = 0.5, = 0.005, o la spcicit approche les 80%. En revanche, les spcicits de Satscan sont toutes suprieures 87%. Concernant les simulations en bandes dcroissantes [g.15, 16], les puissances de Satscan sont moins leves, mme pour = 5% [tab.3], et ce d'autant moins que le pourcentage la source et la vitesse de dcroissance sont faibles (passant d'environ 70% 60% pour une diminution du pourcentage la source de 80% 50%). Lorsque le risque de 1re espce est = 1%, les puissances sont galement plus faibles que pour SpODT, et semblent plus inuences par la modication de la vitesse de dcroissance (passant de 66% 57% pour un pourcentage la source de 80% et de 63% 46% pour un pourcentage la source de 50%, lorsque passe de 0,001 0,005). SpODT possde de meilleures puissances lorsque le pourcentage la source est lev. Ces puissances restent suprieures celles de Satscan dans les autres congurations (restant autour de 70% pour = 5%), mais sont globalement faibles. En terme de sensibilit, SpODT est suprieure Satscan, reprant, quelle que soit la conguration, 100% des concessions simules comme risque, alors que Satscan n'en repre qu'entre 50% et 70%. Par contre,

38

Part.I.

1. Dtection de clusters spatiaux

Fig. 9.

Risque pi en fonction de la distance di .

Simulation circulaire dcroissance rapide ; p = 0, 8 ; = 0, 001.

Fig. 10.

Risque pi en fonction de la distance di .

Simulation circulaire dcroissance lente ; p = 0, 8 ; = 0, 005.

la spcicit de SpODT varie, allant de 97,2% pour la conguration p = 0, 8; = 0, 001 49,6% pour la conguration p = 0, 5; = 0, 001. La spcicit de Satscan est excellente quelle que soit la conguration, suprieure 95% pour un pourcentage la source de 80% et autour de 80% pour un pourcentage la source de 50%. Concernant les simulations en bandes xes, SpODT possde des valeurs de puissance [tab.3], de sensibilit et de spcicit suprieures 93%. Les puissances de Satscan sont galement excellentes, mais Satscan ne repre pas toutes les concessions simules comme risque (sensibilit autour de 70%), bien que sa spcicit soit bonne (91,2% et 79,5%).

39

Part.I.

1. Dtection de clusters spatiaux

Fig. 11. SpODT : simulation circulaire ( = 0, 001 ; p = 0, 8).

Fig. 12. Satscan : simulation circulaire ( = 0, 001 ; p = 0, 8).

Fig. 13. SpODT : simulation circulaire ( = 0, 005 ; p = 0, 8).

Fig. 14. Satscan : simulation circulaire ( = 0, 005 ; p = 0, 8).

Fig. 15. SpODT : simulation en bande ( = 0, 001 ; p = 0, 8).

Fig. 16. Satscan : simulation en bande ( = 0, 001 ; p = 0, 8).

40

Part.I.

1. Dtection de clusters spatiaux

Fig. 17. SpODT : simulation circulaire ( = 0, 001 ; p = 0, 5).

Fig. 18. Satscan : simulation circulaire ( = 0, 001 ; p = 0, 5).

Fig. 19. SpODT : simulation circulaire ( = 0, 005 ; p = 0, 5).

Fig. 20. Satscan : simulation circulaire ( = 0, 005 ; p = 0, 5).

Fig. 21. SpODT : simulation en bande ( = 0, 001 ; p = 0, 5).

Fig. 22. Satscan : simulation en bande ( = 0, 001 ; p = 0, 5).

41

Part.I.

1. Dtection de clusters spatiaux

Fig. 23. SpODT : simulation en bande ( = 0, 005 ; p = 0, 5).

Fig. 24. Satscan : simulation en bande ( = 0, 005 ; p = 0, 5).

Fig. 25. SpODT : simulation en bande ( = 0, 005 ; p = 0, 8).

Fig. 26. Satscan : simulation en bande ( = 0, 005 ; p = 0, 8).

Fig. 27. SpODT : simulation en bande xe (p = 0, 8).

Fig. 28. Satscan : simulation en bande xe (p = 0, 8).

42

Part.I.

1. Dtection de clusters spatiaux

Fig. 29. SpODT : simulation en bande xe (p = 0, 5).

Fig. 30. Rsultats de Satscan pour une simulation en bande xe (p = 0, 5).

Tab. 2. Simulations circulaires.

puissance 5% 1%
p = 0, 8 = 0, 001 = 0, 005 p = 0, 5

SpODT
Se Sp

puissance 5% 1%

Satscan
Se Sp

87 92

69,2 100 54,4 98,2 98,2 84,9 99,7 75,8 100 60,8 98,6 98,5 95,8 87,4

= 0, 001 64 40,8 100 65,4 97,9 97,9 81,1 92,5 = 0, 005 46,8 43,2 100 78,4 98,2 98,2 93,1 89,9

Les valeurs sont prsentes en pourcentages (500 chantillons simuls par conguration).

1.10.4. Discussion. Comme cela a t dcrit dans la littrature, la puissance de Satscan baisse en prsence d'eets de bords. C'est ce que montrent les simulations en bande. Dans ces congurations, Satscan ne peut pas reprer toutes les zones risque et possde donc des sensibilits faibles. Cependant, Satscan conserve des spcicits leves quelle que soit la conguration. Lorsque les caractristiques sont nettes (risque lev, vitesse de dcroissance rapide), SpODT dtecte correctement l'organisation spatiale et possde de bonnes sensibilits, quelle que soit la conguration. Avant d'utiliser l'une o l'autre mthode, il faut donc avoir une ide de ce que l'on cherche. Satscan est une mthode puissante pour dtecter des clusters, mais peut tre inuence par des eets de bords. SpODT est plus adapt pour la dtection de pattern. D'autres statistiques que

43

Part.I.

1. Dtection de clusters spatiaux


Tab. 3. Simulations en bande.

puissance 5% 1%
p = 0, 8

SpODT
Se Sp

puissance 5% 1%

Satscan
Se Sp

= 0, 001 94,8 94 100 97,2 73,2 65,6 64,9 97,9 = 0, 005 95,4 78,6 100 62,1 71,4 57,4 69,2 97,2

xe
p = 0, 5

100

100 100 98,4 100

100

71

91,2

= 0, 001 76,2 66,8 100 49,6 67,3 63,3 61,3 84,4 = 0, 005 68,5 53,4 100 54,9 59,6 45,9 52,9 79,3

xe

100

100 100 93,6 100

100 68,7 79,5

Les valeurs sont prsentes en pourcentages (500 chantillons simuls par conguration).

ticulier, la statistique de Kulldor peut tre employe sur un ensemble de clusters potentiels dtermin par SpODT. Les statistiques de Tango ou de Moran peuvent galement tre utilises sur un pattern constitu par SpODT, qui devient alors un outil descriptif pralable l'infrence.

R2 mise en uvre ici pourraient tre utilises pour l'infrence. En par-

44

Part.I.

2. Dtection de clusters spatio-temporels 2. Dtection de clusters spatio-temporels

2.1. Introduction. Dans ce chapitre, nous analyserons l'volution spatiale et temporelle du paludisme dans le village de Bancoumana. L'pidmiologie du paludisme est fortement lie au climat. Pour cette raison, la recherche de variations locales doit tre faite en tenant compte de l'volution temporelle de la transmission, qui est, Bancoumana, endmo-pidmique. La recherche de clusters spatio-temporels apporte donc des informations importantes aux pidmiologistes de terrain, an de dterminer des zones et des priodes risque particulier. Malgr une importante littrature tudiant l'volution spatiale et temporelle du risque palustre, peu de travaux analysant ce risque une chelle ne (en dessous du district) ont t publis [1, 28]. Les recherches sur la maladie et son contrle, comme les essais vaccinaux, peuvent bncier d'une analyse pidmiologique ne analysant les patterns en temps et en espace. Ces analyses facilitent l'laboration de protocoles de contrle et la prcision des interventions. Dans cette tude, nous avons valu le risque palustre au niveau des concessions (rsolution de 1 3 m), ainsi que les variations de ce risque dans le temps et l'espace. Cette tude avait pour objectif d'identier des clusters de risque lev dans le temps et l'espace, an d'identier ensuite sur le terrain des facteurs de risque particuliers, de connatre prcisment la population risque, et de prparer des essais vaccinaux. En 2005, de tels essais vaccinaux ont t mis en place dans ce village (collaboration MVDB/NIAID/NIH et MRTC/DEAP/University of Bamako). 2.2. Matriel. Sur la base de la cohorte dynamique dcrite prcdemment, nous avons tudi l'incidence de l'infection palustre, dnie comme la proportion de r-infection (nouveaux frottis sanguins positifs), par concession et par valuation. Lors de la premire valuation en juin 1996, l'quipe mdicale a vri que tous les enfants de la cohorte taient ngatifs (non infects ou traits). Cette premire valuation n'a donc pas t prise en compte dans l'analyse statistique. Certaines concessions possdaient des toits de tle, plus rarement de ciment, et, pour 47%, de chaume. La prsence de vecteurs tant lie la prsence de toit de chaume, l'analyse spatio-temporelle a t ajuste sur cette covariable [238, 237]. 2.3. Mthodes. Premirement, une analyse temporelle globale a t faite l'aide des modles classiques d'analyse de sries temporelles ARIMA [29, 71], aprs transformation logarithmique de l'incidence de l'infection dans chaque concession. Ces modles permettent une description des sries temporelles et leur prdiction l'aide de dcompositions en composantes tendancielle, cyclique, saisonnire et accidentelle. L'analyse a

45

Part.I.

2. Dtection de clusters spatio-temporels

t faite l'aide du logiciel SPSS 11.5 (SPSS Inc., Chicago, IL). Le choix du modle a t fait suivant les critres d'Akaike (AIC) et de Schwarz (BIC). Deuximement, la recherche de clusters spatio-temporels a t faite par la statistique de balayage de Kulldor [144], l'aide du logiciel SatscanT M v5.1, Information Management Services Inc., Silver Spring, Maryland, 2004 (freeware available on http ://www.satscan.org). Largement utilis (voir par exemple [184, 181, 44, 173, 114]), le logiciel SatscanT M de Kulldor a l'avantage de mettre en uvre une statistique simple reprant des cluster spatiaux ou spatio-temporels, base sur les coordonnes gographiques et pouvant tre ajuste sur des covariables. Cette mthode balaye la carte et l'intervalle de temps l'aide d'une fentre cylindrique avec une base gographique circulaire centre sur chaque unit spatiale (u.s.), la hauteur du cylindre correspondant au temps. La fentre balaye ainsi l'espace et le temps, et, pour chaque u.s. et chaque rayon, elle balaye chaque priode de temps, construisant ainsi l'ensemble de clusters potentiels. Comme nous l'avons dcrit prcdemment, la statistique de Kulldor permettant la dtection des clusters haut risque est fonde sur la statistique du rapport de vraisemblance. Pour la prsente analyse spatio-temporelle, nous avons utilis le modle spatio-temporel permutation, ajust sur la tendance temporelle et les variations saisonnires, et qui ne ncessite que la connaissance des cas [147]. Le nombre de cas observs dans un cluster potentiel est compar au nombre de cas attendus si les localisations temporelles et spatiales de tous les cas taient indpendantes les unes des autres. Le risque relatif (RR) a t dni comme le rapport entre le nombre de cas observs et le nombre de cas attendus. Le nombre de cas attendus a t estim suivant l'hypothse du risque constant (distribution de Poisson htrogne). Ainsi, on obtient un cluster dans une zone gographique si, durant une priode dtermine, cette zone gographique une proportion leve de cas excdentaires. Le test d'hypothse tait fond sur le test du rapport de vraisemblance gnralis, utilisant l'infrence de Monte-Carlo. L'hypothse nulle d'absence de cluster (constant risk hypothesis) tait rejete pour un degr de signication p < 0.1. Pour l'infrence de Monte-Carlo, 999 chantillons ont t simuls sous l'hypothse nulle conformment aux recommandations de Kulldor. L'unit d'espace tait donne par les coordonnes gographiques des concessions et l'unit temporelle tait le mois. La taille maximale du cluster spatial tait de 50% de la population risque. La taille maximale de la fentre temporelle tait de 50% de la priode d'tude. Les intervalles de conance 95% des proportions ont t calculs l'aide de la mthode de Wilson [178]. 2.4.

Rsultats.

46

Part.I.

2. Dtection de clusters spatio-temporels

Evolution de l'incidence de l'infection par les 3 espces plasmodiales et par les gamtocytes de P. falciparum.
Fig. 31.

2.4.1. Srie temporelle. Sur les 5 annes de l'tude, 22 enqutes ont permis l'analyse d'un total 31200 frottis sanguins. Pour P. falciparum, nous avons identi un total de 13861 cas d'infection sur l'ensemble de l'tude, 1594 gamtocytmies positives, 612 cas d'infection P. malariae et 185 cas d'infection P. ovale. La Chloroquine est reste ecace contre l'infection P. falciparum durant toute la dure de l'tude. Le taux de bonne rponse clinique du traitement (Good Clinical Therapeutic Responses ) tait de 86,7% en 1996, 88,3% en 1997, 97,2% en 1998, 97.1% en 1999, 94,4% en 2000 et 92,5% en 2001. La modlisation a montr clairement une volution saisonnire de l'incidence de l'infection P. falciparum [g.31]. La dcroissance annuelle constante tait signicative (p=0,01), mais est reste faible (-0,107 aprs transformation logarithmique, cart type SD=0,037) [g.32]. Un modle similaire a t obtenu pour l'incidence de la gamtocytmie P. falciparum, avec une saisonnalit et une dcroissance faible (constante cst.=-0,205, SD=0,096, p=0,05) [g.33]. L'analyse de l'volution de l'incidence de l'infection P. malariae a mis en vidence une composante autorgressive (AR) d'ordre 1 signicative, avec une dcroissance constante (AR1=0,782, SD=0,079, p<0,0001 ; cst.=-4,085, SD=0,272, p<0.0001) [g.34], sans composante saisonnire signicative. Les cas incidents d'infection P. ovale tait trop rares (pourcentage infrieur 2,5%) pour pouvoir en dgager une structure volutive.

47

Part.I.

2. Dtection de clusters spatio-temporels

Modlisation de l'volution de l'incidence de l'infection P. falciparum.


Fig. 32.

Modlisation de l'volution de l'incidence de la gamtocytmie P. falciparum.


Fig. 33.

2.4.2. Analyse spatio-temporelle. La recherche de clusters spatio-temporels d'infection P. falciparum a mis en vidence une htrognit la fois en temps et en espace. En eet, l'analyse a montr la prsence de 6 clusters signicatifs au risque = 10% [tab. 4]. Quatre d'entre eux se situaient autour de l'anne 2000, et deux clusters en 1996. Le cluster 2 dont le risque tait le plus lev, s'tendait de septembre octobre 1996, avec un risque relatif

48

Part.I.

2. Dtection de clusters spatio-temporels

Modlisation de l'volution de l'incidence de l'infection P. malariae.


Fig. 34.

(RR - rapport entre cas observs et cas attendus) lev (RR=14,161). Il tait situ sur une seule concession, au nord du village [g. 35]. Le cluster 4 s'tendait sur une longue priode, d'octobre 1999 fvrier 2001, avec un RR lev (RR=2,92). Il tait, galement, situ sur une seule concession, au nord-est du village. Le cluster 5, le plus large avec un rayon de 0,2 km (11 concessions), tait situ l'ouest du village. S'tendant de septembre 1999 juin 2000, il prsentait un risque relatif modr (RR=1,4). Nous pouvons remarquer que les clusters ont pu tre observs aussi bien en saison sche qu'en saison des pluies, voire cheval sur plusieurs saisons. De plus, les clusters ne se situent pas forcment au moment d'un pic (ou d'un creux) de la srie temporelle. Pour les gamtocytes de P. falciparum [tab. 5], l'analyse met en vidence 2 clusters temporels, avec une situation spatiale proche (centres de gravit 200 mtres environ de distance). Le premier dbute la n du cluster 2 d'infection P. falciparum, i.e. en novembre 1996, environ 300 mtres de distance de ce dernier [g. 35 a) et b)], avec un risque relatif modr (RR=1,65). Le second cluster dbute 1 mois avant le cluster 4 d'infection P. falciparum (septembre 1999), 600 mtres vers l'est de celui-ci, avec un risque relatif lev (RR=3,08). Il se prolonge jusqu'en mai 2005, il est donc contemporain des clusters 1, 4, 5 et 6 d'infection P. falciparum. P. malariae prsente 2 clusters d'infection spatio-temporels signicatifs [tab. 6]. Le premier, avec un risque relatif lev (RR=2,27), se situe au sud-ouest du village, et s'tale d'octobre 1999 juin 2000. Il est donc proche en temps et en espace de la plupart des clusters d'infection

49

Part.I.

2. Dtection de clusters spatio-temporels

Tab. 4. Clusters spatio-temporels de parasitmies P. falciparum.

Cluster
Coordonne esa Rayon (km) x = 8, 26398 0,18 y = 12, 206213 x = 8, 26605 0 y = 12, 211784 x = 8, 2667 0 y = 12, 207973 x = 8, 2621 0,2 y = 12, 211801 x = 8, 27033 0 y = 12, 206117 x = 8, 26797 0,09 y = 12, 199266 Pe riode RRb (Obs./Att.)c Evald Loce pf

1 2 3 4 5 6

2000/04 5,495 2000/05 (26/4,73) 1996/09 14,161 1996/10 (8/0,56) 1996/07 2,298 1996/10 (53/23,99) 1999/10 2,924 2001/02 (30/10,26) 1999/09 1,406 2000/06 (222/158,19) 2000/04 3,891 2000/05 (15/3,85)

1 1 2 5 3 1

15 1 1 1 11 7

0,001 0,001 0,002 0,004 0,007 0,08

a. coordonnes GPS des centres de gravit b. risque relatif de parasitmie positive P. falciparum (variance). Estim par le rapport obs./att. c. nombre de cas observs (obs.) rapport au nombre de cas attendus (att.) sous l'hypothse nulle d. nombre d'valuations pendant la priode e. nombre de concessions f. degr de signication

P. falciparum et de gamtocytes de P. falciparum. Le second cluster d'infection P. malariae a un risque relatif trs lev (RR=8,82). Il est isol dans le temps, s'tendant de septembre 1998 juin 1999. Il se situe l'est du village, dans une zone o se trouvent d'autres clusters un temps dirent (clusters d'infection par les gamtocytes 1 et 2, cluster 1 d'infection P. falciparum ). Enn, l'analyse des taux d'infection P. ovale ne met pas en vidence de clusters spatio-temporels signicatifs (valeurs non prsentes).
2.5. Discussion. En reprant des zones risques de paludisme, cette tude a permis une stratication temporelle et spatiale du risque local comme le recommande l'OMS [186, 31]. Alors que la rgion est classe comme zone haut risque de paludisme (MARA prevalence estimation = 62,27% ; 95%CI[56,37% ; 68,18%]) [158], les habitants savent que ce risque est htrogne dans le village. Le reprage de clusters montre cette variabilit en temps et en espace du risque palustre. L'utilisation d'un SIG permet l'analyse prcise de ces variations l'chelle des concessions

50

Part.I.

2. Dtection de clusters spatio-temporels

(a) octobre 1996, (b) octobre 1997, (c) dcembre 1998, (d) mai 2000. P.f. : cluster de cas de parasitmie P. falciparum, gam : cluster de cas de gamtocytmie P. falciparum, P.m. : cluster de cas de parasitmie P. malariae. Les 4 fentres temporelles ont t choisies de faon ce que tous les clusters soient reprsents.

Localisations temporelles et spatiales des clusters de cas.


Fig. 35.

(rsolution de 1-3m), an de mieux connatre et contrler la maladie. La srie chronologique de l'incidence de l'infection P. falciparum indique une saisonnalit bien connue de l'infection (fortement lie la saison des pluies), avec une rgularit trs marque. En eet, les pics

51

Part.I.

2. Dtection de clusters spatio-temporels


Tab. 5. Clusters spatio-temporels de gamtocytmies P. falciparum.

Cluster
Coordonne esa Rayon (km) 1 x = 8, 26548 0,07 y = 12, 205422 2 x = 8, 2651 0,1 y = 12, 207458 Pe riode RRb Evald Loce c (Obs./Att.) pf

1996/11 1998/08 1999/09 2000/05

1,65 (76/46,05) 3,08 (18/5,84)

0,068 0,095

11

a. coordonnes GPS des centres de gravit b. risque relatif de parasitmie positive P. falciparum (variance). Estim par le rapport obs./att. c. nombre de cas observs (obs.) rapport au nombre de cas attendus (att.) sous l'hypothse nulle d. nombre d'valuations pendant la priode e. nombre de concessions f. degr de signication

Tab. 6. Clusters spatio-temporels de parasitmies P. malariae.

Cluster
Coordonne esa Rayon (km) 1 x = 8, 26947 0,17 y = 12, 203629 2 x = 8, 26205 0,24 y = 12, 207684 Pe riode RRb Evald Loce (Obs./Att.)c pf

1999/10 2000/06 1998/09 1999/06

2,27 (30/13,21) 8,82 (6/0,68)

3 4

24 9

0,066 0,094

a. coordonnes GPS des centres de gravit b. risque relatif de parasitmie positive P. falciparum (variance). Estim par le rapport obs./att. c. nombre de cas observs (obs.) rapport au nombre de cas attendus (att.) sous l'hypothse nulle d. nombre d'valuations pendant la priode e. nombre de concessions f. degr de signication

d'infections se situent en octobre 1996, octobre 1997, octobre 1998, septembre 1999 et octobre 2000. On peut remarquer la persistance d'une incidence leve au dbut de l'anne 2000, en rapport avec des pluies intercurrentes en janvier 2000. Au total, la r-infection par P. falciparum atteind un maximum de 70% (95%CI[68,1% ; 73,3%]) des enfants suivis (Octobre 1996).

52

Part.I.

2. Dtection de clusters spatio-temporels

En ce qui concerne l'incidence du portage de gamtocytes de P. falciparum, l'volution temporelle est beaucoup moins rgulire, avec notamment un pic en fvrier 1998 et un en dcembre 1998. On remarque que le pic d'aot 1999 est trs important et dpasse la borne suprieure de l'intervalle de conance 95%. Cette volution brutale n'a pas d'quivalent dans l'volution de l'incidence de P. falciparum. On peut supposer un lien entre ce pic de gamtocytmies et l'allongement observ de la priode pidmique en 1999. La tendance dcroissante de l'incidence de P. falciparum a dj t observe dans d'autres tudes sur le mme site [238, 66]. Il est peu probable que cette tendance soit due l'volution naturelle de la prsence de P. falciparum dans la rgion (sauf, peut-tre, en cas de changements climatiques). Il n'y a pas eu non plus d'volution du village, en particulier la proportion de maisons toit de chaume est reste constante (autour de 47%). De mme, l'volution de l'eectif de la cohorte dynamique n'est sans doute pas l'origine de cette tendance dcroissante, car, d'une part le nombre d'enfants inclus est dj important initialement et, d'autre part, l'infection est hyper-endmique dans cette rgion. Cette tendance dcroissante de l'incidence de P. falciparum est probablement lie la prsence de l'quipe mdicale dans une population dj sensibilise au problme du paludisme et au traitement des enfants infects. L'usage adquat de la chloroquine comme traitement de premire intention a rduit de faon signicative l'auto-mdication dans le village de Bancoumana. En eet, la proportion d'auto-mdication est passe de 6,5% en 1997 3,8% en 1998, 3,7% en 1999, et enn 0,8% en 2000 [193], ce qui a permi de limiter le dveloppement de la chloroquino-rsistance dans ce village. Par contre, on observe des volutions plus erratiques des incidences de P. malariae et P. ovale, ne prsentant pas d'argument en faveur d'une transmission saisonnire. D'une faon globale, le taux d'infection P. falciparum atteint un maximum de prs de 70% des enfants (octobre 1996). Ce chire, bien que proche d'autres valeurs dans d'autres localisations gographiques [1], ne rend pas compte de la grande htrognit gographique, mme l'chelle ne du village, dont la connaissance est prcieuse pour la mise en place d'un programme de lutte. L'volution temporelle moyenne de l'ensemble du village est en fait plus complexe, si l'on regarde attentivement au niveau local. En eet, la recherche de clusters de cas spatiotemporels met en vidence l'absence d'homognit de l'ensemble du village. Ainsi, on pourra identier des zones risque lev d'infection, malgr la tendance dcroissante globale. De mme, indpendamment de l'volution globale saisonnire de l'infection, on retrouve des clusters de cas en saison sche (avril mai 2000, juin 1996 novembre 1999 fvrier 2001). Ces clusters rendent compte du risque d'infection P. falciparum de faon beaucoup plus prcise. A l'chelle des concessions,

53

Part.I.

2. Dtection de clusters spatio-temporels

on peut donc remettre en cause le prol global saisonnier de la transmission tendance dcroissante, ce prol global tant une moyenne sur l'ensemble du village. La transmission de P. falciparum est lie des facteurs locaux que l'on doit pouvoir reprer et contrler. Par exemple, le cluster 5 de cas d'infection P. falciparum est situ proximit d'un site rcent de fabrication de briques en banco. La terre y est prleve pour fabriquer artisanalement les briques et les excavations rsultantes sont des gtes d'anophles. On peut supposer que l'volution spatio-temporelle des clusters est lie l'volution spatio-temporelle des facteurs locaux, en particulier des marigots temporaires. On peut noter la proximit en temps et en espace des clusters de cas d'infection P. falciparum et de porteurs de gamtocytes : le cluster 3 de cas d'infection P. falciparum se termine n octobre 1996 et le cluster 1 de cas de gamtocytmie dbute dbut novembre 1996, environ 300 mtres de distance. Le cluster 2 de cas de gamtocytmie dbute en septembre 1999, proximit, dans le temps et l'espace, d'autres clusters de cas de P. falciparum. Malgr cette proximit spatio-temporelle, il est dicile d'en dduire une relation causale. Par contre, cette observation doit alerter les pidmiologistes de terrain sur cette zone particulirement risque. De mme, la grande proximit spatiale des 2 clusters de porteurs de gamtocytes de P. falciparum (200 mtres) est un signe d'alerte. En ce qui concerne les 2 clusters de cas de P. malariae, le premier est proche en temps et en espace des clusters de cas de P. falciparum, alertant l encore sur la prsence d'un facteur de risque local commun. Le second, par contre, est loign. La prsence de clusters spatio-temporels de cas de P. malariae est l encore une alerte supplmentaire. La dtection de clusters haut risque, tals sur plusieurs saisons des pluies, suggre que, si un cluster avait t dtect ds son apparition, le risque aurait pu tre contrl par une enqute de terrain la recherche de facteurs de risque, conduisant la mise en place d'actions de contrle cibles sur cette zone gographique. Les relations entre les 3 espces plasmodiales sont complexes [218, 162, 194], d'autant plus que P. falciparum domine largement au Mali. Mais les facteurs de risques environnementaux restent sensiblement les mmes. La cartographie du risque d'infection P. ovale ou P. malariae alerte donc aussi sur le risque d'infection P. falciparum. De mme, l'analyse de la gamtocytmie P. falciparum rend compte de la variation spatio-temporelle de la transmission palustre, permettant d'orienter et de focaliser les actions de prvention [208]. De plus, l'analyse spatio-temporelle conjointe des direntes espces plasmodiales peut nous permettre de mieux approcher leurs relations. Dans la littrature, si certaines publications rapportent une analyse pidmiologique au niveau du district, peu analysent une chelle plus ne [205, 141, 67, 196, 201, 32] et rares sont celles qui utilisent un modle statistique spatial ou spatio-temporel [101, 214, 217, 28].

54

Part.I.

2. Dtection de clusters spatio-temporels

Le modle de permutation de Kulldor utilis possde plusieurs avantages : il permet de n'utiliser que le nombre de cas et leur localisation, sans la ncessit de connatre la totalit de la population risque ; il prend en compte d'ventuelles variables d'ajustement ; il n'y a pas de biais de pr-slection, puisque les clusters sont recherchs sans prsuppositions sur leur localisation, leur taille ou la priode de temps correspondante. La statistique teste prend en compte la rptition des tests et ne donne qu'un seul degr de signication [147]. Le modle de permutation dpend de l'volution de la distribution de la population, lorsque cette volution est htrogne. En eet, si la population crot ou dcrot plus rapidement dans une zone que dans une autre, cela peut introduire un biais dans l'analyse. Au niveau du village de Bancoumana, la population n'a pas augment de faon importante sur l'ensemble du village. De plus, l'chelle du village, nous avons considr que cette augmentation a t homogne. Ainsi, cette croissance de la population ne conduit pas des rsultats biaiss. Cependant, il n'est pas possible d'estimer les intervalles de conance pour les risques relatifs des clusters dtects, cause de la procdure de balayage et de la multiplicit des fentres. Les principaux facteurs de risque palustre dans ce village sont la prsence de toits de chaumes [237], l'ge, l'accs au traitement, la saison des pluies et la prsence d'Anopheles dans des gtes particuliers variant dans le temps, mme pendant une saison. Notre analyse a permis l'ajustement sur la prsence de toits de chaumes. Elle tait limite aux enfants entre 0 et 12 ans. La prsence de l'quipe mdicale en permance sur le terrain a rendu l'accs au traitement identique pour tous les individus. La saisonnalit a t prise en compte par la modlisation, dont l'objectif nal tait de dtecter des zones haut risque dans le temps et l'espace, notamment la recherche de gtes particuliers, sans pr-spcication des localisations. Parmi les actions de lutte contre le paludisme, le contrle de l'environnement prconis par l'OMS [188] permet une lutte cible et slective. En particulier, une gestion spcique d'un environnement favorable la pullulation de vecteurs entrane une rduction importante de la transmission [138]. La priorisation et la spcication des interventions sont lies la comprhension de l'htrognit environnementale [139, 116, 43, 163] une chelle susamment ne. De plus, devant la grande complexit de la transmission et de l'infection palustre, les populations et l'environnement des lieux o sont conduites des tudes d'interventions, doivent tre prcisment connus avant le dmarrage de telles tudes [140]. Le dveloppement des SIG a permis

55

Part.I.

2. Dtection de clusters spatio-temporels

d'amliorer cette connaissance "micro-pidmiologique" [34]. De plus, cette connaissance et cette gestion de l'environnement peuvent tre appliques dans les grandes villes africaines. Les villes sub-sahariennes ont une croissance trs rapide [138, 134, 34, 188, 132]. Associe la pauvret, cette urbanisation entrane une augmentation des cas de paludisme. En eet, ces nouveaux quartiers sont caractriss par l'absence de structure d'hygine urbaine, la pauvret des maisons, une forte promiscuit et l'absence de drainage des eaux de pluies entranant l'mergence de nombreux gtes de vecteurs. Ce terrain est trs favorable une explosion pidmique du paludisme. Il est donc urgent d'en faire une cartographie dtaille an de dtecter les quartiers haut risque pour guider les interventions cibles. Au niveau des villes, l'limination de gtes clefs peut avoir un grand impact sur l'pidmiologie du paludisme urbain [134, 34].

56

Deuxime partie : Modlisation dterministe

Voici que le temps et l'espace crent la distance favorable, le mtre mme et le verset de l'orgue.

Lopold Sdar Senghor.

lgies Majeures

Part.II. 1. Introduction

1. Introduction

1.1. Le cycle du paludisme. Nous dbuterons par un rappel simple de cette maladie bien connue, du cycle et de la transmission de l'agent, indispensable pour la modlisation. Le paludisme est une protozoose due un hmatozoaire du genre plasmodium. Quatre espces de plasmodii sont agents du paludisme humain :  P. falciparum, le plus rpandu dans les rgions tropicales et intertropicales, dont la dure de vie est, en moyenne, infrieure 2 mois (rarement une anne) ; c'est cette espce, la plus dangereuse, que le prsent travail s'adresse ;  P. vivax, touchant des rgions plus tempres, dont la dure de vie peut atteindre 3 ans ;  P. ovale, plus rare, d'une dure de vie moyenne galement de 3 ans ;  P. malariae, localis en foyers, dont la dure de vie peut atteindre plusieurs dizaines d'annes. La transmission du parasite est, dans les conditions naturelles, indirecte. En eet, l'hmatozoaire est transmis, du sujet contagieux au sujet sain, par de nombreux moustiques du genre Anopheles. Une seule piqre d'anophle infectante est susante. Seules les femelles piquent l'homme, le soir ou surtout la nuit, an d'assurer la maturation des oeufs et terminer ainsi leur cycle gonotrophique (la transmission transplacentaire est galement possible). On peut donc dcrire 2 cycles, chez l'homme et chez l'anophle [g.36]. Chez l'homme, le cycle asexu (intrinsque ou schizogonique) comprend 2 tapes. Aprs l'inoculation par piqre, les sporozotes atteignent les cellules hpatiques en moins de 30 minutes, et s'y multiplient (phase exo-rythrocytaire, 1 2 semaines). L'clatement des hpatocytes parasits libre les mrozotes dans la circulation. Au cours de la phase rythrocytaire, les mrozotes atteignent les hmaties o ils se transforment en trophozotes, puis, par multiplication, en schizontes. L'clatement des hmaties libre les schizontes qui vont coloniser d'autres hmaties. Le cycle rythrocytaire dure environ 48h (P. falciparum ). Aprs plusieurs cycles rythrocytaires, des gamtocytes (mles et femelles) apparaissent dans les hmaties. Lors de sa piqre, indispensable pour la maturation de ses oeufs, l'anophle femelle ingre, entre autre, les gamtocytes. Aprs fcondation et maturation, des sporozotes apparaissent et gagnent les glandes salivaires de l'anophle. Ce cycle sexu (extrinsque ou sporogonique) n'a lieu que chez l'anophle. Sa dure est trs dpendante du climat : elle est de 10 30 jours, avec des tempratures minimales de 17C et maximales de 40C et une hydromtrie suprieure 60%. Les variables climatiques agissent sur la production de moustiques, leur survie, leur vitesse de reproduction, et,

58

Part.II.

1. Introduction

Fig. 36.

Reprsentation simplie du cycle de P.

falciparum

galement, sur le cycle parasitaire lui-mme [55, 54, 59, 76, 106, 115, 118, 117, 123, 127, 137, 172, 219, 231, 232]. Cette relation avec des variables climatiques et environnementales explique la rpartition gographique du paludisme P. falciparum. Dans les rgions tropicales et inter-tropicales, la maladie est endmique ou endmo-pidmique (saisonnalit de l'incidence) comme c'est le cas dans le village de Bancoumana. Elle peut tre galement pidmique lorsque les pluies sont plus rares. L'homme ne dispose d'aucune immunit naturelle, mais, soumis des rinfections, dveloppe une immunit dite relative, rversible en l'absence de rinfection, limitant la pathognicit du parasite. Les enfants, qui n'ont pas encore dvelopp cette immunit relative, sont donc particulirement risque. Dans certaines rgions, la transmission intermittente, lie aux facteurs climatiques, ne permet pas l'instauration de cette immunit relative, par manque de rinfection rgulire. 1.2. Les modles du paludisme. La n du 19me sicle a t riche en dcouverte sur le paludisme [12]. En eet, Laveran dcrit en 1880 la prsence de parasites dans les globules rouges humains. En 1894, Manson suggre l'importance de certains moustiques dans la transmission. En 1897 et 1898, Ronald Ross dcrit la prsence de parasites chez le moustique, en particulier la prsence de sporozotes dans les glandes salivaires, et tablit le cycle complet du

59

Part.II.

1. Introduction

parasite chez l'oiseau, la mme anne que Grassi, Bignami et Bastianelli pour l'homme. Ross dbute immdiatement la lutte anti-vectorielle au Sierra-Leone en 1899 (essentiellement larvicide, en attendant la dcouverte du DDT en 1939). Les premiers traitements anti-parasitaires seront dcouverts plus tard (Pamaquine 1924, Mepacrine 1930, Chloroquine 1934). Les premiers parasites chloroquino-rsistants apparaitront vers 1961 en Asie du Sud-Est, puis vers 1978 en Afrique de l'Est. Aidant l'laboration des mesures de contrle, les modles dterministes ont t utiliss trs tt, en particulier par Ronald Ross ds 1909 [4, 12]. Il montre qu'il n'est pas ncessaire d'radiquer compltement le vecteur, mais qu'une rduction de la densit vectorielle sut pour liminer l'infection palustre (thorie du seuil). Les modles de R. Ross utilisent 2 quations direntielles du premier ordre qui interagissent, l'une pour l'infection humaine et l'autre pour les moustiques [eq.2.1.1]. Dans les annes 1950, George McDonald reprend la modlisation de Ross et introduit plusieurs concepts supplmentaires, en particulier la notion de sur-infection, dont la modlisation sera gnralise par Dietz, Molineaux et Thomas dans les annes 1970 [63, 171]. D'autres auteurs ont tudi d'autres facteurs comme l'immunit (Hethcote 1974), en particulier l'immunit relative (Dutertre 1976 [76], et Ngwa [179]), la distribution spatiale de l'hte et du vecteur (Radcli 1976 ), la co-infection P. falciparum et P. vivax [159]. D'autres travaux sur le paludisme ont propos une modlisation stochastique (Bartlett 1964, Griths 1972, Radcli 1973, Bekessy 1976, Singer 1980 [213]). Les premiers modles dterministes ont considr le plasmodium comme un micro-parasite transmission indirecte [4, 12]. L'intrt a, alors, port sur les infections secondaires et non sur le cycle du parasite lui-mme. Ce n'est que plus tard (en particulier avec l'utilisation de modles stochastiques) que les cycles intrinsque et extrinsque du parasite seront tudis, en particulier la dynamique intra-hte du parasite [109, 202], sa diversit gntique [167, 203], la production de gamtocytes [61], la rsistance du parasite [5]. Direntes caractristiques humaines ont, galement, t tudies comme la migration [49] ou la diversit gntique (co-volution Homme-parasite) [86]. Enn, des modles de raction-diusion ont rcemment t tudis, en particulier pour la diusion de la rsistance au traitement [11]. L'objectif de ce travail tait de proposer, partir des modles classiques, un modle plus adapt au terrain de Bancoumana, retant l'volution temporelle du paludisme, en tenant compte de variables climatiques, puis l'volution temporo-spatiale. Dans la section 2, nous avons prsent les 2 modles classiques. Un modle dterministe adapt Bancoumana est propos, ainsi que 4 modlisations de la pluviomtrie. La section 3 prsente la modlisation spatio-temporelle par quation de raction-diusion.

60

Part.II.

2. Evolution temporelle du paludisme 2. Evolution temporelle du paludisme

2.1. Description de 2 modles classiques. Nous avons choisi de prsenter 2 modles classiques, avec des notations identiques : le modle de Ross, repris par McDonald, et le modle de Dutertre que nous avons ensuite modi pour l'adapter notre situation. Notations ( not.2.1) Les variables :  S (t) : taux d'hommes susceptibles ;  I (t) : taux d'hommes infects non contagieux, i.e. avec une parasitmie positive, mais une gamtocytmie ngative ;  G(t) : taux d'hommes infects contagieux, i.e. avec une gamtocytmie positive (indice gamtocytique) ;  R(t) : taux d'hommes rsistants, i.e. suivant le cas, traits et en priode de rsistance la maladie, immuniss, dcds, ou dplacs ;  As (t) : taux d'anophles susceptibles ;  Ag (t) : taux d'anophles contamines, non contagieux ;  Ai (t) : taux d'anophles contagieux, not galement M i(t) ;  N (t) : nombre total d'hommes ;  M (t) : nombre total d'anophles ;  i(t) : force de l'infection chez les hommes, i.e. incidence de la maladie ;  im (t) : force de l'infection chez les anophles, i.e. incidence de la contagiosit des anophles ;  P l(t) : variable exogne, reprsentant le climat. Les paramtres :  : perte de la rsistance chez l'homme, o 1 est la dure moyenne de l'eet de la rsistance (traitement, immunit, dplacement selon le cas) ;  1 : li l'apparition des gamtocytes chez l'homme, o 11 est la dure moyenne entre l'infection et l'apparition des gamtocytes ;  2 : perte des gamtocytes, o 12 est la dure moyenne de la perte de gamtocytes ;  : apparition de la rsistance (traitement, immunit, dplacement selon le cas) ;  : densit anophlienne, i.e. nombre d'anophles par homme ;  : nombre de piqres par anophle et par nuit. = , o est le taux d'anthropophilie, et est la dure du cycle gonotrophique ; est donc l'agressivit ;

61

Part.II.

2. Evolution temporelle du paludisme

Fig. 37.

Modle de Ross et McDonald.

 : coecient de contagiosit des hommes susceptibles par les anophles contagieuses ;  : mortalit quotidienne des anophles ;  : coecient de contagiosit des anophles susceptibles par les hommes contagieux ;  : dure moyenne du cycle extrinsque ;  : taux de gurison sans immunit ;  : taux de mortalit humaine ;  : paramtre retard ;  D : paramtre de diusion (modle de raction-diusion) ;  : paramtre correspondant la production d'anophles susceptibles (modle de raction-diusion). 2.1.1. Les premiers modles : Ross et McDonald. Le premier modle de Ross, repris par McDonald est fond sur un modle 2 dimensions, les hommes contagieux et les vecteurs contagieux [5, 4, 12, 49, 174]. Il s'agit d'un modle de type SIS [g.37], o le passage de susceptible infect (le classique "taux de contact") n'est pas constant, mais dpend des moustiques, i.e. de la densit anophlienne, de l'agressivit et de la capacit contagieuse. Ce modle peut s'crire :
dG(t) = +i(t) (1 G(t)) G(t) dt dAi (t) = im (t) (1 Ai (t)) Ai (t) dt i(t) = Ai (t) im (t) = G(t) est donc l'agressivit, i.e. le nombre de piqres par homme et par

(2.1.1)

nuit (notations cf not.2.1). Il faut noter que, pour les hommes, le taux de gurison est plus grand que leur mortalit, au contraire des vecteurs, qui possdent une mortalit leve et un taux de gurison ngligeable. Le modle ne tient donc pas compte de la mortalit humaine ni de la gurison des moustiques.

62

Part.II.

2. Evolution temporelle du paludisme

Dans ce modle, aucun des paramtres ne dpend de circonstances extrieures. En tenant compte de la dure du cycle extrinsque et de la survie du vecteur, McDonald a modi l'quation :
dS (t) = i(t) S (t) + G(t) dt dG(t) = +i(t) S (t) G(t) dt dAi (t) = im (t) e Ai (t) Ai (t) dt i(t) = Ai (t) im (t) = G(t)

(2.1.2)

La dcroissance de la population de vecteurs suit une exponentielle ngative f(t) = et . Aprs jours, la population de vecteurs aura diminu de e . Si est la dure du cycle extrinsque, il reste donc, aprs une piqre infectante sur l'homme, e des vecteurs initiaux qui peuvent nouveau transmettre la maladie. De cette faon, McDonald prend en compte, sans avoir besoin de l'crire, une catgorie de vecteurs infects non contagieux. A l'quilibre, il vient :
dG dt dAi dt

(2.1.3)

= Ai (1 G) G = 0 = G e Ai Ai = 0 Ai = 0 ou Ai = G = 0 ou G =
Ge G+ 2 e 2 e +

Avec Mc Donald, on en dduit le nombre de reproductions z0 :


si G > 0 alors 2 e > 0

(2.1.4)

z0 =

2 e >1

Ce modle simpli a permis de mieux comprendre les observations de terrain et d'amliorer les actions de lutte contre le paludisme. Cependant, ce modle de base ne distingue ni les direntes catgories d'hommes, ni celles de vecteurs, infects ou non, contagieux ou rsistants. De nombreux auteurs ont retravaill, modi et gnralis ce modle de base. Par exemple, Bailey a ajout une catgorie d'hommes infects non contagieux et une catgorie de vecteurs infects mais non contagieux. Dietz, Molineaux et Thomas [63] ont propos des modications importantes.

63

Part.II.

2. Evolution temporelle du paludisme

Fig. 38.

Modle de Dutertre.

2.1.2. Le modle de Dutertre. Dutertre propose un modle [76] o un Susceptible devient Gamtocytique (i.e. contagieux) aprs une piqre infectante [g.38], puis, peut soit gurir et acqurir une immunit ( ), soit devenir Infect Plasmodique (non contagieux) (2 ). Un Plasmodique peut soit redevenir Gamtocytique (1 ), soit gurir et acqurir une immunit ( ), soit gurir sans immunit et ainsi redevenir susceptible ( ). Enn, un Rsistant (immun) perd son immunit ( ). A chaque tape, Dutertre ajoute la possibilit de mourir au taux , constant quelque soit le compartiment. Enn, Dutertre travaille sur 2 facteurs particuliers : la perte d'immunit d(t) qu'il fait dpendre des infections rptition, et l'incidence i(t)S (t). La dynamique des proportions de chaque compartiment peut s'crire selon le modle suivant (notations cf not.2.1) :
dS (t) = i(t) S (t) + d(t) R(t) dt dG(t) = +i(t) S (t) + 1 I (t) (2 + ) G(t) dt dI (t) = +2 G(t) (1 + + ) I (t) dt dR(t) = + (I (t) + G(t)) d(t) R(t) dt dAi (t) = im (t) e Ai (t) Ai (t) dt i(t) = Ai (t) im (t) = G(t)

(2.1.5)

Dutertre utilise numriquement d(t) = (1 CA (t)) avec CA le risque annuel d'tre infect, et l'quation aux dirences :
1 CA (t + 1) = (1 CA (t))(1 i(t))(12/13)

64

Part.II.

2. Evolution temporelle du paludisme

o permet de prendre en compte la distribution htrogne de la sensibilit face l'infection. Cette dernire version permet de tenir compte des ingalits des susceptibles face la transmission (loi Binomiale ngative).
Ai (t) i(t) peut tre remplac par i1 (t) = 1 1 + (

2.1.3. Le modle de Bancoumana. A la dirence du modle de Dutertre, nous avons souhait respecter l'ordre chronologique d'apparition des gamtocytes. En eet, ceux-ci apparaissent, dans le sang des hommes contamins, aprs l'apparition des formes asexues du parasite. De plus, notre tude s'adresse des enfants, et nous avons donc considr que l'immunit relative n'tait pas encore ecace. Enn, les enfants infects (contagieux ou non) tant traits tous les 2 ou 3 mois, ils deviennent alors rsistants pendant la dure de l'ecacit du traitement, avant de redevenir susceptibles [g.39]. Le modle peut alors s'crire :

(2.1.6)

dS (t) = i(t) S (t) + R(t) dt dI (t) = +i(t) S (t) (1 + ) I (t) + 2 G(t) dt dG(t) = +1 I (t) (2 + ) G(t) dt dR(t) = + (I (t) + G(t)) R(t) dt dAi (t) = im (t) e Ai (t) Ai (t) dt i(t) = Ai (t) im (t) = G(t)

[ a] [b] [c] [d] [e]

Remarque : si on choisit de modliser la densit anophlienne (t) (t) = M , il faut alors crire les 2 premires quations : N (t) et
dS (t) = dt dI (t) dt

i(t) S (t) N + R(t) = +i(t) S (t) N (1 + ) I (t) + 2 G(t)

65

Part.II.

2. Evolution temporelle du paludisme

Fig. 39.

Modle de Bancoumana.

A l'quilibre, il vient : (2.1.7)


R = (I + G) 1 I = ( 2 + ) G

R = Ai (1 G I R)

d apre `s [a],

d apre `s [d],

d apre `s [c],

1 + 2 + 1 2 + 1 + 2 + + si k = 1 + 1 1 alors S = 1 k G R= G R = Ai (1 k G) G Ai =
1 + 2 + 1

(1 k G)
1 + 2 + 1 1 + 2 + 1

or G (e Ai ) Ai = 0 G e G=0 ou e G =0 (1 k G) 1 + 2 + 2 e (1 k G) G 1 (1 k G) 2 e G= k2 e +
1 + 2 + 1 1 + 2 + 1 1 + 2 + 1

d apre `s [e], G =0

G G

(1 k G)

(1 k G)

1 + 2 + 1

1 + 2 + 1

=0

66

Part.II.

2. Evolution temporelle du paludisme

On en dduit le nombre de reproductions z0 :


si G > 0 alors 2 e 1 + 2 + 1 >0

(2.1.8)

z0 =

2 e
1 + 2 + 1

>1

qui est de la mme forme que le nombre de reproductions propos par McDonald [eq.2.1.4]. Ce nombre de reproductions prend en compte les taux de passages entre Infects non contagieux et Gamtocytiques 1 et 2 , le taux de gurison des infects contagieux ou non . La rsolution numrique de l'quation [eq.3.3.1] a t faite l'aide de solveurs classiques (Matlab)[g.40]. Les solveurs ODE45, ODE23 et ODE113 [27, 69, 209, 210] avaient des temps de calcul trop longs (plusieurs jours). Les solveurs ODE15s, ODE23s et ODE23t et ODE23tb ont donn des rsultats quivalents. Les paramtres utiliss sont, gnralement, issues de la littrature [tab.7 et 8], adapts au modle et aux donnes prsentes. Une analyse de sensibilit a t faite partir des estimations de la littrature [g.41]. Les conditions initiales ont t estimes sur la base de l'tude de Bancoumana :  N=2000  S(t=0)=0,425  I(t=0)=0,5  G(t=0)=0,075  R(t=0)=0  Mi(t=0)=0

Rsolution numrique :

Fig. 40.

Modle de Bancoumana : rsolution numrique 67

Part.II.

2. Evolution temporelle du paludisme

Fig. 41.
f(G(t))

mtres. 68

Variations de la trajectoire M i(t) = en fonction des estimations des para-

Part.II.

2. Evolution temporelle du paludisme

Fig. 42. Modle de Bancoumana : 1)gauche : mesure de prvention seule = 0, 004, 2)droite : mesure de prvention associe au traitement = 0, 004 et = 0, 1

On remarque qu'il faut une stabilisation importante [g.41, 42]de la rsistance pour avoir un eet sur la transmission. En eet, en divisant par 10 la perte de rsistance, = 0, 004 ( l'occasion d'une mesure de prvention comme une vaccination par exemple), il persiste environ 30% d'enfants infects [g.42]. Pour tre ecace, il faut associer, cette mesure de prvention, le traitement des enfants infects et contagieux (par exemple = 0, 1). Les autres paramtres n'ont que peu d'inuence. Comme cela a t montr dans d'autres travaux [216], ce rsultat indique l'eet potentialisateur de direntes mthodes de contrles.

69

Part.II.

2. Evolution temporelle du paludisme


Tab. 7. Estimations des paramtres.

Param.*

1 2

Bk** Littrature 2,5 0,45 [76, 224] ; 0,5 [109] ; 0,56 [49] ; et [tab.8] 0,5 0,02 [49] ; 0,08 [76] ; 0,5 [109] 8, 1 103 7, 1 104 [12] 0,06-0,27 [177] chez les enfants 0,013 0,056 0,065 [63, 171] 0.39 (0.26-0.91) [35] 0,01 0,00047 [167] ; 0,00118 [224] ; 0,0023 [76, 224] 0,003704 [49] ; 0,00735 [177] ; 0,9716 [123] 0,0011-0,0085 [213] ; 0,0083-0,0125 [179] 0,038(0,011-0,13) [176] 0,005 ou 0,1 en cas de traitement [220] 0,0015-0,005 [63, 171], chez les enfants 0,0057 [63, 171], apparition des anticorps 0.0049 (0.0005-0.057) [35] 0,04 0,0143 [159] ; 0,0146 [179, 49] 0,001 (0,0067-0,02) [166] 0,0015-0,0323[213] 1, 67105 [166] eet d'un vaccin 0.0043 (0.0034-0.056) [35] 1 0,15 [109] ; 0,5 [123] ; 0,47 [224] ; 0,83 [49] 0,024 0,055 0,018 0,074 [137] 0,38(0,24-0,51) ou 0,47(0,28-0,66) [176] 0,014 0,0417 [179] ; 0,1429 [49] ; 0,1997 [224] ; 0,5 [123] 0,125 0,0694 0,088 0,1 (An. gambiae ) [76] 0,046-0,139 [166] ; 0,139-0,185 [63, 171] 0.94 0.9 0.83 0.86 [137] 12 12 [76] 0,1 256 (en classes 0,1-4 4,1-16 16,1-64 64,1-256)[63, 171] 13 2,4 [179] ; 10 [12, 109] [63, 171] ; et [tab.8] 10,3 11,6 10,7 8,3 9,6 [137] 0,05 0,04 [159] ; 0,0667 [109] ;0,083 [49] 0,25 [76] ; 0,3 [167] ; 0,05-0,1 [166] 0,75 0,5 [167] ; 0,0108 et 0,002 [224] 0,0333 et 0,0465 [76] 0.004-0.009 [177] ; 0,0333-0,1 [166] 0.00099 (0.00068-0.0014) [176] ; 0.12 (0.0055-2) [35] 0,61-0,91 An. gambiae [63, 171] 30 0,569 0,048 An. gambiae [12] ; 0,125 [63, 171] ; et [tab.8]

Estimations

*Paramtres ; **Valeurs utilises pour le modle de Bancoumana mdiane(2,5 percentile - 97,5 percentile), estimation bayesienne de la distribution du paramtre.

70

Part.II. 2.2.

2. Evolution temporelle du paludisme

Modle de Bancoumana et climat.

2.2.1. Variables climatiques. De nombreuses variables climatiques et environnementales jouent un rle dans l'pidmiologie du paludisme [54, 115, 157, 211]. L'inuence de ces variables peut tre sur le vecteur (gtes de production, survie, cycle gonotrophique, gtes de repos, nourriture, dplacement...), sur l'hte (dplacement) ou sur le parasite lui-mme (cycles parasitaires). La temprature au sol est une des variables les mieux connues [231], jouant un rle direct sur le vecteur, aussi bien dans sa forme adulte que dans les stades prcdants. Elle joue galement un rle indirect, en inuenant l'vapo-transpiration, le volume des points d'eau et la vgtation. La pluie est galement une variable indispensable, mais d'tude plus dlicate. Le vecteur pond sur des points d'eau (mares ou aques), et les larves s'y dveloppent. La pluie joue, galement, un rle indirect, inuenant l'humidit relative, la temprature et la vgtation. En dehors de ces 2 principales variables, on retrouve des variables comme l'humidit relative, inuenant directement la survie et le dplacement des vecteurs, le volume des points d'eau et leur dynamique (avec l'inltration, l'vapo-transpiration, la capacit du sol en eau, l'exposition solaire du point d'eau, le courant, la turbidit) agissant directement sur les stades larvaires, la vgtation (indispensable pour le repos et les repas des vecteurs), la vitesse du vent et son orientation, et l'utilisation du terrain (agriculture, barrages, habitations...). Il faut noter que, dans des rgions o alternent une saison sche et une saison humide (et o la temprature est approprie), la transmission du paludisme est saisonnire, soit pidmique, soit endmo-pidmique comme Bancoumana. La pluie et la temprature sont les 2 variables qui ont t les plus tudies comme variables exognes la modlisation. Parmi les paramtres du modle prcdant, l'agressivit est trs lie ces variables (augmentant avec la temprature notamment), soit par l'intermdiaire de la densit anophlienne (), soit par la dure du cycle gonotrophique ( ). La contagiosit des anophles est galement lie aux variables climatiques, de mme que la mortalit anophlienne et la dure du cycle gonotrophique qui diminuent avec la temprature (dans des limites tablies). Les autres paramtres, , , , 1 et 2 , semblent n'tre pas (ou peu) inuencs par les variables climatiques [tab.8].

71

Part.II.

2. Evolution temporelle du paludisme

Pour tenir compte, dans notre modlisation, du climat, nous avons introduit une variable exogne dans notre modle SIS. Pour la rsolution numrique de l'quation [eq.2.2.1], cette variable exogne, note P l(t), a t simule partir de donnes de pluviomtrie de Bancoumana, l'aide de plusieurs techniques. Le modle peut s'crire (notations cf not.2.1) : (2.2.1)
dS (t) = i(t) S (t) + R(t) dt dI (t) = +i(t) S (t) (1 + ) I (t) + 2 G(t) dt dG(t) = +1 I (t) (2 + ) G(t) dt dR(t) = + (I (t) + G(t)) R(t) dt dAi (t) = im (t) e( 1+P l(t) ) Ai (t) Ai (t) dt 1 + P l(t ) i(t) = Ai (t) P l(t ) im (t) = G(t) P l(t ) [ a] [b] [c] [d] [e]

On en dduit le nombre de reproductions zp0 =

2 P l(t)2 e

( 1+P l(t ) )
1 +2 + 1

( 1+P l(t) )

Les quations [eq.2.2.1] rendent compte de l'inuence positive de la variable exogne P l(t) sur l'agressivit, de son l'inuence ngative sur la mortalit vectorielle et sur la dure du cycle gonotrophique. est un paramtre retard reprsentant le dlai entre la variable exogne et les consquences sur la transmission palustre (les premires infections ont lieu quelques semaines aprs les premires pluies).

72

Part.II.

2. Evolution temporelle du paludisme

Tab. 8. Estimation des paramtres avec dpendance climatique.

Param.*
1 2

Estimations Bk** revue de la littrature 2,5 4(17C), 3,2(19C), 2,67(21C), 2,29(23C), 2(25C) [106] 0,5 0,055 saison des pluies, 0,3 saison sche [76] 0,01 indep. 0,04 indep. 1 indep. 0,014 0,93(17C), 0,91(19C), 0,9(21C), 0,88(23C), 0,87(25C) [106] 12 13 13(25C), 11(24C) [76] 111(17C), 37(19C), 22,2(21C), 15,9(23C), 12,3(25C) [106] 0,05 indep. 0,75 indep. 30 de 0,11 3,3 avec un pic 12 [76] 6,1-67,2 en saison des pluies, 0 en saison sches pour An. gambiae [63, 171] 2(17C), 2,45(19C), 2,83(21C), 3,16(23C), 3,46(25C) [106]

indep. : paramtre considr comme indpendant du climat. : dpend du climat par l'intermdiaire du nombre total d'anophles. *Paramtres ; **Valeurs utilises pour le modle de Bancoumana

2.2.2. Simulation de la variable exogne climatique. Parmi les variables climatiques lies au paludisme, seules les observations de la pluviomtrie dcadaire, de 1960 1985, taient notre disposition, ainsi que les cumuls mensuels de 1999 2004 (en mm). A partir de ces observations, nous avons simul la variable exogne, P l(t) dans les quations prcdantes, selon 4 modles. Le premier utilise les distributions empiriques de la pluviomtrie dcadaire. Le deuxime modlise la pluviomtrie l'aide de chanes de Markov caches (MMC). Le troisime, un modle non-linaire, est fond sur des fonctions trigonomtriques. Enn, le quatrime modle est fond sur la prdiction non-paramtrique. Chaque modle a t estim l'aide des observations de la pluviomtrie dcadaire de 1960 1980. Les observations de 1981 1985 ont servi de validation externe, ainsi que les observations mensuelles de 1999 2004. Lors de la validation externe, l'erreur quadratique moyenne (EQM) et l'erreur relative moyenne (ERM) ont t calcules de la faon suivante :
EQM =
h t=1 (Xt

Xt )2

(2.2.2)
ERM =

h
t Xt | h |X t=1 Xt +1

73

Part.II.

2. Evolution temporelle du paludisme

t sa o Xt reprsente l'observation de la pluviomtrie au temps t, X prdiction, et h l'horizon de prdiction. L'ERM a t adapte pour des valeurs observes nulles.

Pluie 1. Distribution empirique de la pluviomtrie.

A partir de la srie dcadaire de la pluviomtrie de 1960 1980, nous avons estim les distributions empiriques dcadaires de la pluviomtrie. Les valeurs prdites ont t tires d'une distribution de Gumble, dont la fonction de probabilit est donne par :
f(x|, ) = 1 exp x exp exp x

Les paramtres, et , ont t estims partir des moyennes et des cart-types des distributions empiriques de la pluviomtrie.

Fig. 43.

Modlisation du paludisme : variable climatique exogne modlise par la distribution empirique de la pluviomtrie.

74

Part.II.

2. Evolution temporelle du paludisme

En utilisant les valeurs de la pluviomtrie ainsi prdites, le modle dterministe prdit une volution endmo-pidmique du paludisme, correspondant l'observation [g.43]. En particulier, les volutions des taux de parasitmies positives et de gamtocytmies positives sont bien restitues, en dehors de la tendance dcroissante, qui n'a pas t modlise. De plus, l'aggressivit simule des anophles correspond ce qui est dcrit dans la littrature.

Pluie 2. Modlisation l'aide de chanes de Markov caches.

Les modles par chanes de Markov cachs (MMC) ont t introduits la n des annes 60 par Baum et Petries [14, 15, 16]. Cette famille de modles stochastiques a t trs dveloppe, tant sur le plan thorique [22, 23, 75, 102, 155, 170, 242] que sur le plan des applications. Ces mthodes font l'hypothse que les donnes observes sont gnres par un mlange ni de distributions sous-jacentes, lui-mme organis en une chane de Markov. Utiliss dans l'analyse de squence, ils permettent de modliser des motifs (ou classes) de squences observes. En eet, la variable cache peut tre interprte comme une classe de la variable observe correspondante. Ces modles ont t utiliss, entre autres, en traitement du signal, notamment ECG [51, 233], EMG ou EEG [42, 182], analyse de squences gnomiques ou protiques [77, 143, 255], analyse de texte, reconnaissance de la parole [197], modlisation de l'ouverture de canaux ioniques [135], reconnaissance de formes, l'analyse de marqueurs de l'infection par VIH [113], l'analyse d'une maladie volutive [2], avec erreurs de classication [129], la surveillance pidmiologique [223], la surveillance cologique [18, 93, 122] etc.. On peut , galement, noter ici une application particulire concernant l'hydraulogie, la climatologie, et, en particulier, l'tude de la pluviomtrie [234, 239, 257]. Direntes monographies prsentent ces modles de faon plus complte [68, 82, 83, 111, 197]. Un modle MMC {(Sk , Ok )} est constitu d'un ensemble ni d'tats Sk , k {1, K } associs une distribution de probabilit [g.44]. Les transitions entre tats sont gouvernes, en temps discret, par des lois (probabilits) de transitions, et la squence (suite) non-observe (St , t > 0) est une chane de Markov homogne, d'ordre 1 : p(St+1 |St , St1 , ..., S1 ) = p(St+1 |St ), t. Pour un tat donn, une observation Oi peut tre gnre (mise), en fonction de la distribution de probabilit associe cet tat (loi ou probabilit d'mission p(Ot = o|St = k )). La squence observe est donc une squence de variables alatoires conditionnellement indpendantes {Ok }, la distribution conditionnelle de la squence d'observations ne dpendant que de la variable cache correspondante : p(Ot |St = k ) = p(Ot |St , . . . , S1 ) . Un tel modle est donc dni par les paramtres suivants :

75

Part.II.

2. Evolution temporelle du paludisme

 p(S1 = k )k{1,...,K } , probabilits initiales,  p(St+1 = j |St = i)(i,j ){1,...,K }2 , lments de la matrice de transition P,  p(Ot = o|St = k )k{1,...,K } , probabilits d'mission.

Structure des modles de chane de Markov cache.


Fig. 44.

Les MMC peuvent tre utilises comme outils de classication, la recherche d'tats cachs, interprts comme des classes de la variable observe. Les variables caches trouvent alors une interprtation concrte : phonme dans la reconnaissance de la parole, zone codante ou non codante dans l'analyse du gnome, signal ou bruit dans le traitement du signal, etc.. Une autre utilisation concerne l'apprentissage. Les tats sont alors spcis, an d'estimer les probabilits de transition et d'mission. Ainsi, le modle peut reconstruire la squence observe. L'estimation des paramtres est fonde sur la vraisemblance et requiert, en gnral, des algorithmes itratifs, par exemple l'algorithme Baum-Welch. Les dirents algorithmes ont t discuts par dirents auteurs (par exemple [68, 75, 170, 242]). Dans cette approche, suivant l'exemple d'autres auteurs [126, 133, 190, 199, 204, 234, 239, 257], nous avons simul la pluviomtrie l'aide d'une chane de Markov cache, o les tats cachs reprsentent les mois. En eet, l'objectif tait d'estimer les probabilits d'mission et de transition, l'aide de la squence d'tats cachs et de la squence observe de la pluviomtrie. Les estimateurs du maximum de vraisemblance des paramtres nous ont ensuite permis de prdire la suite de

76

Part.II.

2. Evolution temporelle du paludisme

la squence de pluie, pour la squence d'tats cachs donne. Cette approche utilise les MMC comme modle de la dynamique climatique.

Modlisation du paludisme : variable climatique exogne modlise par MMC


Fig. 45.

77

Part.II.
Tab. 9.

2. Evolution temporelle du paludisme

Matrice de transition estime.

1 2 3 4 5 6 7 8 9 10 11 12

1 2 3 4 5 6 7 8 9 10 11 12 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0 0 0 0 0 0 0 0 0 0 0 0,667 0,333 0,322 0 0 0 0 0 0 0 0 0 0 0,678

Probabilits d'mission estimes (pluviomtrie en mm).


Fig. 46.

Les probabilits de transition estimes (tab.9) rendent compte du caractre saisonnier du phnomne. Les changements de rgimes pluviomtriques sont ainsi modliss, comme le montrent galement les

78

Part.II.
Tab. 10.

2. Evolution temporelle du paludisme

Validation externe : erreurs de prdiction des direntes modles MMC.


1981-1985 ERM EQM Saisons 1,8151 681,53 2 mois 4,2640 994,08 mois 0,8978 588,81 dcades 0,7552 500,67
Tab. 11.

1999-2004 ERM EQM 0,6312 4827,3 1,5968 5025,2 0,4317 5026,3 0,7327 5287,6

Modlisation du paludisme : erreurs de prdiction des direntes modles MMC.


Parasitmie ERM EQM Saisons 0,0758 0,0282 2 mois 0,0724 0,0273 mois 0,0677 0,0243 dcades 0,0689 0,0267 Gamtocytmie ERM EQM 0,0122 0, 422 103 0,0114 0, 425 103 0,0103 0, 379 103 0,0104 0, 386 103

estimations des probabilits d'mission [g.46]. En eet, la probabilit d'mission de quelques millimtres de pluies en janvier ou fvrier est quasi-nulle. A contrario, la probabilit d'mission de 150 200 millimtres de pluies est plus importante, durant les mois de juillet, aot et septembre. Comme prcdemment, le modle dterministe prdit une volution endmo-pidmique du paludisme [g.45], et les volutions des taux de parasitmies positives et de gamtocytmies positives sont bien restitues. L'aggressivit simule des anophles correspond galement aux valeurs dcrites dans la littrature. Le choix de 12 tats (correspondant aux 12 mois de l'anne) a t fait en comparant les rsultats des direntes erreurs [tab.10 et 11]. L'utilisation des 3 saisons comme tats cachs (de mars mai : saison sche chaude, de juin septembre : saison des pluies, d'octobre fvrier : saison sche froide) permet une bonne prdiction pour les annes 1999 2004, mais pas pour les annes 1981-1985. A l'inverse, l'utilisation des dcades (10 jours) permet une bonne prdiction immdiate, mais pas plus long terme. De plus, le nombre de paramtres estims est important. L'tats cachs reprsentant les mois sont, ici, les plus adapts, en regard des erreurs de prdiction de la pluviomtrie et du paludisme.

Remarque :

79

Part.II.

2. Evolution temporelle du paludisme

Pluie 3. Modle non-linaire.

Nous avons choisi d'associer des fonctions sinus et cosinus, an de modliser le caractre priodique de la pluviomtrie. la fonction retenue pour modliser la pluviomtrie moyenne tait :
f(t) = a0 + a1 cos(b1 t + c1 ) + a2 sin(b2 t + c2 )

Les paramtres a0 , a1 , a2 , b1 , b2 , c1 et c2 ont t estims par l'algorithme de Gauss-Newton. Les valeurs initiales taient approches par transforme de Fourier. La pluviomtrie moyenne, ainsi simule, correspondait l'estimation de la moyenne d'une loi de Poisson. La pluviomtrie dcadaire a t modlise ainsi :
P l(t) P (f (t))

Modlisation du paludisme : variable climatique exogne modlise par un modle nonlinaire.


Fig. 47.

80

Part.II.

2. Evolution temporelle du paludisme

Le caractre saisonnier, endmo-pidmique, du paludisme de Bancoumana a t ainsi modlis [g.47]. Cependant, la pluviomtrie simule est, d'une part, dcale en certains points, et, d'autre part, l'agressivit des anophles est moins importante, par rapport aux modlisations prcdantes.

Pluie 4. Prvisions non-paramtrique.

A cause du manque frquent d'informations sur sa forme fonctionnelle, une mauvaise spcication d'un modle paramtrique est souvent invitable, entrainant un biais plus ou moins important, pouvant altrer la prdiction. L'approche non-paramtrique permet d'viter ce problme en utilisant, la place d'un ensemble restreint de fonctions prtablies, une forme fonctionnelle exible, qui est, pour l'essentiel, dtermine par les observations [161]. Les mthodes non-paramtriques ne ncessitent donc pas de modle, ni un nombre restreint de paramtres [225]. En gnral, elles s'adaptent bien localement aux donnes, sont robustes, et donnent des rsultats assez prcis, sans cumuls d'erreurs ( l'inverse de mthodes plus classiques, SARIMA par exemple). Au lieu de dnir l'estimateur de la fonction de lien l'aide d'une loi conditionnelle thorique, l'estimateur est construit partir de l'chantillon observ, i.e. de l'estimation de la loi conditionnelle. L'estimateur de Nadaraya-Watson que nous prsentons ici, aussi appel estimateur de la mthode du noyau, est un des plus classique [21, 39, 40, 161, 225]. Soit (Xt )tZ stationnaire. A partir des observations X1 ,...XT , il s'agit de prdire la valeur de X l'horizon h, XT +h , avec h N . L'estimateur naturel de XT +h est donn par
E (XT +h |XT , ..., X1 )

Si on suppose, comme cela est classique dans de nombreuse modlisations de sries temporelles, que le processus est k-markovien, alors
E (XT +h |XT , ..., X1 ) = E (XT +h |XT , ..., XT k+1 )

On rgresse alors XT +h sur ce pass proche. La prdiction est considre comme raisonnable, mme si le processus n'est pas markovien. Le coecient k ne doit pas tre trop grand, car, sinon, la vitesse de convergence est plus faible et le nombre d'observations ncessaire l'estimation augmente. La convergence de l'estimateur du prdicteur noyau a t dmontr [161]. L'esprance conditionnelle de XT +h peut tre estime par une moyenne pondre des observations passes, via un estimateur noyau K , application mesurable sur Rk , valeurs relles :
T h

T +h,k = X
t=k

t,T,k Xt+h

81

Part.II.


2. Evolution temporelle du paludisme


K
k X k XT t (T )

 

t,T,k = o

P T h
t=k

k X k Xt T (T )

t,T,k peuvent s'interLes poids alatoires

k prter comme des indices de similarit entre les 2 vecteurs XT et Xtk . Plus les 2 vecteurs sont similaires ( a contrario dissemblables), plus le poids est grand (a contrario proche de zro), le noyau Gaussien K , classiquement utilis, donnant un poids plus important aux valeurs similaires. La prvision l'horizon T + 1 se calcule en faisant les moyennes pondres des Xt+1 , en faisant varier t. De mme, la prvision l'horizon T + 2 se calcule en faisant les moyennes pondres des Xt+2 . La fentre (T ) dtermine le degr de lissage de la prdiction. Une fentre troite reproduit les observations (erreurs faibles), avec une grande variance, alors qu'une large fentre donne des erreurs plus importantes, mais une variance moins grande. Lors de l'implmentation, sous Matlab, nous avons choisi (T ) = 2, et le paramtre k a t estim empiriquement 5.

82

Part.II.

2. Evolution temporelle du paludisme

Modlisation du paludisme : variable climatique exogne modlise par un modle nonparamtrique.


Fig. 48.

Ce dernier modle permet, galement, une bonne modlisation de l'endmo-pidmie palustre et les volutions des taux de parasitmies positives et de gamtocytmies positives sont bien restitues [g.48]. L'aggressivit simule des anophles correspond galement aux volutions dcrites dans la littrature.

Comparaison des rsultats des dirents modles.

Les dirents modles de variables climatiques exognes sont satisfaisantes, aussi bien pour la prdiction de la pluviomtrie [tab.12 et g.49], que pour la modlisation du paludisme [tab.13]. Les rsultats montrent des valeurs leves des EQM, en particulier lors de la confrontation avec les observations de 1999 2004. Ce dernier cas

83

Part.II.

2. Evolution temporelle du paludisme


Tab. 12. Validation externe : erreurs de prdiction.

1981-1985 ERM EQM Distributions empiriques 0,5588 423,32 MMC 0,8978 588,81 Non-linaire 3,4033 693,47 Non-paramtrique 1,7412 207,69

1999-2004 ERM EQM 0,2932 3720,3 0,4317 5026,3 1,4948 4964,6 0,7697 2841,9

peut tre expliqu par l'observation d'un changement de rgime de pluviomtrique autour des annes 2000. Globalement, on peut observer que les prdictions l'aide des distributions empiriques ont des erreurs relatives les plus faibles, en moyenne (ERM). Le modle non-paramtrique prsente les erreurs quadratiques les plus faibles en moyenne. L'intrt de l'utilisation des distributions empiriques et du MMC rside dans la modlisation du phnomne lui-mme. En eet, ces deux approches modlisent, de faon explicative, l'alternance des saisons et son impact sur la pluviomtrie, alors que les modles non-linaire et non-paramtrique traitent le signal sans tenter de modliser le phnomne sous-jacent. Cependant l'utilisation des distributions empiriques ne tient pas compte, de faon explicite, de la dpendance entre 2 dcades. Les changements de rgimes ne sont pas explicitement modlises. Utilisant les distributions dcadaires empiriques, la dpendance est prise en compte par l'intermdiaire de la dpendance entre les distributions empiriques dcadaires. Par contre dans le modle Markovien, cette dpendance est explicitement modlise, puisque les changements de rgimes sont formaliss en une chane de Markov, et, de plus, les rsultats de ce modle sont globalement satisfaisants. Dans le cadre de la modlisation du paludisme, les erreurs de prdictions sont faibles [tab.13], en moyenne, aussi bien pour la prdiction des taux de parasitmies positives que des taux de gamtocytmies positives. L'utilisation d'un MMC pour modliser la variable exogne donne les erreurs les plus faibles, sauf pour les erreurs quadratiques des taux de gamtocytmies, o le meilleur modle (EQM le plus faible) utilise les distributions empiriques. Il faut remarquer que, l'ensemble des rsultats prsents ici ne concerne, pour chaque modlisation, qu'une prdiction. Cependant, les prdictions sont assez stables, notamment pour les modlisations dont les rsultats thoriques sont connues.

84

Part.II.

2. Evolution temporelle du paludisme

Fig. 49.

Validation externe : pluviomtrie dcadaire 1981-1985 et prdictions.

Tab. 13. Modlisation du paludisme : erreurs de prdiction.

Parasitmie ERM EQM Distributions empiriques 0,0742 0,0267 MMC 0,0677 0,0243 Non-linaire 0,0725 0,0279 Non-paramtrique 0,0736 0,0297

Gamtocytmie ERM EQM 0,0104 0, 291 103 0,0103 0, 379 103 0,0104 0, 381 103 0,0110 0, 419 103

85

Part.II.

3. Evolution spatio-temporelle du paludisme 3. Evolution spatio-temporelle du paludisme

3.1. Modles de raction-diusion et paludisme. Les modles dynamiques en temps, utiliss plus haut, font, d'une part, l'hypothse d'une rpartition homogne en espace des vecteurs et des hommes, et, d'autre part, l'hypothse de naissances homognes en espace des vecteurs. Cependant, ces 2 hypothses simplistes ne correspondent pas la ralit de terrain. Les individus ont une distribution non-homogne en espace, interagissent avec l'environnement et avec les autres individus voisins. De plus, l'environnement varie galement dans l'espace. Les mcanismes intervenant dans la diusion et la variabilit spatiale des anophles sont complexes, faisant intervenir de nombreux paramtres, notamment climatiques. Rcemment, de nombreux travaux ont tudi la variation spatiale des anophles [136]. Certains ont mis en vidence un gradient de densit anophlienne [36, 84] ou de cas cliniques [222, 185, 243], partant de gtes potentiels (bords de rivire, marigots...) vers les concessions. D'autres ont mis en vidence la variation spatiale, ou spatio-temporelle, des gtes larvaires ou des sites d'ovipositions, en relation avec la densit larvaire [89], le cycle gonotrophique [110], et, in ne, la transmission [169]. Cependant, peu de travaux ont modlis cette variabilit spatiale. N. Bacar et C. Sokhna [11] ont tudi la propagation de la rsistance aux anti-paludens l'aide d'un systme de raction-diusion. D'autres auteurs ont galement utilis de tels systmes pour d'autres maladies vectorielles [92, 91]. Les premires quations de raction-diusion ont t introduites en science de la vie par R. Fisher, en 1937 [90], propos de l'volution spatiale de gnes, avantageux en terme de survie, dans une population. Plus tard, J. Skellam [215] montrera que l'chelle spatiale et les caractristiques de l'environnement inuencent les interactions entre populations, ainsi que leur survie. En dynamique de population, on peut dcrire 3 phnomnes principaux o les modles de raction-diusion ont t utiliss [37] :  la propagation de front d'onde [90, 62]  la formation de pattern dans un espace homogne,  l'existence de zones de taille minimale, susante pour permettre la survie de populations [215]. 3.2. Le climat. Les variables climatiques inuencent la production des anophles et leur diusion. Les gtes larvaires peuvent beaucoup varier selon l'espce et la zone gographique tudie. On peut considrer qu'au Mali, en particulier Bancoumana, les formes immatures d'An. gambiae s.l. (espce la plus frquente) se dveloppent principalement dans de petites collections d'eau chaude, peu profondes, sans vgtation ni pollution organique. Il faut noter que ce comportement est exible, et

86

Part.II.

3. Evolution spatio-temporelle du paludisme

les oeufs d'An. gambiae peuvent parfois se dvelopper dans un sol humide [124]. Cependant, partir d'une temprature de l'eau de 40C, la mortalit des oeufs dpend du temps. Les oeufs sont dtruits audel de 45C [125]. En ce qui concerne le dveloppement des larves, la temprature optimale de l'eau est d'environ 28C, avec un maximum autour de 40C [125]. De mme, la qualit de l'eau joue un rle dans le dveloppement larvaire [78]. En saison des pluies, ces petites collections d'eau peuvent se trouver n'importe o dans la zone gographique (micro-gtes). Lorsque les mares sont profondes, leur priphrie (environ 1 mtre de largeur) sont des zones privilgies. On y trouve des traces de pas (en particulier d'animaux venant s'abreuver), gtes larvaires classiques. De mme, l'excavation de terre, au niveau des briqueteries, est, classiquement, l'origine de gtes larvaires. Enn, au sud-ouest du village de Bancoumana se trouve une zone de stagnation d'eau, productrice d'anophles sur toute sa surface. Cette zone est assez plane et la roche, peu profonde et aeurant pas endroit, empche l'inltration d'eau et, ainsi, participe la formation de gtes larvaires. Les formes immatures d'An. funestus acceptent des collections d'eau, moins chaude, plus importantes et comportant de la vgtation. Il est classique d'observer cette espce plutt en n de saison des pluies, lorsque les micro-gtes s'asschent, ou lorsque la temprature refroidit. En ce qui concerne notre travail, nous avons localis, sur le terrain, 5 zones particulires [g.50]. Au sud-ouest, outre la zone dcrite plus haut, se trouve une briqueterie. En saison sche, le seul gte connu est un puits situ dans cette dernire. Au sud du village, au-del d'une zone de marachage, se trouve une grande briqueterie, avec 2 puits connus comme gtes en saison sche. Au nord, une large collection d'eau, peu profonde en saison des pluies (pendant laquelle elle sert de briqueterie) et sec en saison sche. Enn, une petite briqueterie est situe la sortie nord-est du village (route de Bamako). Dans cette premire approche de la modlisation spatio-temporelle, nous avons modlis 3 situations (saison sche -SS-, situation intermdiaire -SI-, et milieu de la saison des pluies -SP-) an de prendre en compte, en partie, l'inuence du climat. En plus des 5 zones particulires localises sur le terrain, nous avons, uniquement pour les situations SI et SP, impos des micro-gtes dans le village. La temprature, ainsi que les autres variables climatiques, comme l'humidit relative qui joue un rle essentiel dans la diusion des anophles, ont t considres comme constantes dans l'espace, pour chacune des 3 situations. L'absence d'uniformit de la pluie dans le plan est plus dicile modliser. En eet, en fonction de l'avance de la pluie, mme l'chelle d'un village, le nombre et la localisation des micro-gtes n'est pas uniforme, dpendant, galement, du terrain (surface, type de sol...). Dans cette premire approche, la localisation et le nombre de micro-gtes ont

87

Part.II.

3. Evolution spatio-temporelle du paludisme

Fig. 50.

Bancoumana : reprages des zones particulires. 1/ large collection du sud-ouest (ht gche) ; 2/ briqueterie sud-ouest et son puit 3/ briqueterie sud, 4/ large zone nord

t dtermins de faon empirique. Outre la localisation spatiale, l'volution temporelle des gtes est galement importante. En eet, les marigots permanents ont une surface, un volume et, surtout, un primtre qui uctuent selon le climat et la nature du sol. De mme, les marigots temporaires peuvent persister plus ou moins longtemps en saison sche, en fonction du climat et de l'environnement. A ces uctuations saisonnires s'ajoutent des uctuations interannuelles. Dans le village de Bancoumana, nous avons localis, sur le terrain, les principaux macro-gtes et les principaux gtes permanents. En l'absence de modlisations hydraulogique et mtorologique, notre approche en 3 situations permet d'avoir une ide de l'volution de la transmission palustre. 3.3. Equations de raction-diusion. Sur la base du modle de raction prcdant, nous avons dvelopp la partie diusion, seulement dans les quations concernant les anophles. En eet, nous avons fait l'hypothse de l'absence de mobilit des individus (absence de diusion). Comme dans la premire partie, cela suppose que les individus sont contamins et contaminants chez eux (activit nocturne des anophles et individus dormant toujours dans la

88

Part.II.

3. Evolution spatio-temporelle du paludisme

mme concession). An de mieux modliser l'htrognit spatiale des sites de production d'anophles, nous avons dcompos la population d'anophles en 3 parties : anophles susceptibles As , anophles contamins, pendant la priode d'incubation Ag , et anophles contagieux ou infectants Ai [179]. Les anophles de ces 3 parties n'ont pas toujours des comportements identiques. En particulier, la diusion des anophles susceptibles As est plus importante que les autres. De plus, ils apparaissent au niveau des gtes, alors que les anophles contamins Ag apparaissent uniquement dans les concessions. Les anophles infectants Ai le restent jusqu' la n de leur vie. Comme nous l'avons vu, la production d'anophles susceptibles est fonction de nombreux paramtres : volume du gte, temprature, ensoleillement, vgtation, turbidit, mais aussi densit larvaire. Dans un premier temps, nous avons considr le paramtre des naissances comme, d'une part, fonction de la surface du gte, et, d'autre part, fonction du climat, reprsent par les 3 situations climatiques simules. Cela a permis de simuler une production d'anophles mme en saison sche o les gtes sont parfois mal connus. Il faut noter qu'en saison des pluies, seul le contour des macro-gtes a t considr comme producteur d'anophles susceptibles (en plus des micro-gtes), alors que dans les autres situations, la totalit des surfaces a t considre comme productrice. Soit x le vecteur de coordonnes dans le plan gographique [x1 , x2 ]. Le modle peut s'crire ainsi : (3.3.1)
dS (t) dt dI (t) dt dG(t) dt dR(t) dt As (x, t) t Ag (x, t) t Ai (x, t) t = Ai (t) S (t) + R(t) = + Ai (t) S (t) (1 + ) I (t) + 2 G(t) = +1 I (t) (2 + ) G(t) = + (I (t) + G(t)) R(t) = G(t) As (x, t) As (x, t) + Ds As (x, t)

= + G(t) As (x, t) ( + ) Ag (x, t) + Dg Ag (x, t) = Ag (x, t) Ai (x, t) + Di Ai (x, t)

89

Part.II.

3. Evolution spatio-temporelle du paludisme

avec Dj , j {s, g, i}, le paramtre de diusion. Le laplacien de Aj , j {s, g, i}, par rapport au plan dtermin par 2 2 Aj (x,t) j (x,t) les coordonnes gographiques s'crit Aj (x, t) = A + x . 2 x2 1 2 On peut, galement, faire varier qui est la densit de moustiques (t) par habitant i.e. (t) = M N (t) Dans ce cas l, les 2 premires quations s'crivent :
dS (t) dt dI (t) = dt (t) = M Ai (t) S (t) N (t) + R(t) N (t) (t) +M Ai (t) S (t) N (t) (1 + ) I (t) + 2 G(t) N (t)

Cependant, dans notre approche, nous avons considr constant pour chacune des 3 situations simules. La rsolution numrique a t faite l'aide du logiciel COMSOL Multiphysics 3.2. Les 3 situations simules sont les suivantes :  Saison Sche (SS) : marigots temporaires asschs, mares permanentes au niveau le plus bas, i.e. seuls 2 ou 3 points d'eau persistent (comme dans les briqueteries).  Situation Intermdiaire (SI) : prsence de micro-gtes, marigots permanents un niveau intermdiaire, marigots temporaires de surface restreinte mais produisant sur toute leur surface.  Pleine Saison des Pluies (SP) : marigots temporaires et permanents remplis et prsence de micro-gtes. Seule la priphrie des macrogtes sert de production d'An. gambiae. Pour chaque situation, les simulations taient r-initialises, an que les conditions initiales correspondent aux donnes de terrain. La gure 51 reprsente la structure spatiale du modle utilis. Les habitations (en bleu fonc) sont situes selon leur rfrencement gographique. Le contour du village a t trac de faon ce que les vecteurs ne diusent pas au-del. En saison sche, seuls persistent les 3 micro-gtes (en rouge), dans les zones b) et c), au sud du village. Ds le dbut de la saison des pluies (situation intermdiaire), les briqueteries du sud b) et c) deviennent des gtes plus importants (en vert). Au nord apparat galement un nouveau gte e) (en magenta). Ce dernier gte persistera tout au long de la saison des pluies. Dans les zones a) et d) apparaissent des zones d'humidit persistante, micro-gtes d'An. gambiae. Dans cette situation intermdiaire, seuls quelques micro-gtes (magenta) ont t simuls. Dans le reste du village, quelques micro-gtes ont t simuls (magenta) pour reprsenter l'importance des aques d'eau dans la production d'An. gambiae. Pour la troisime priode, le milieu de la saison des pluies, l'ensemble des micro-gtes ponctuels a t utilis (magenta et bleu clair) pour le village et pour les zones a) et d). La zone e) au nord du village n'a pas t modie. Les zones b) et c), au sud, tant en eau, seul leur contour (en marron) sert de gte

90

Part.II.

3. Evolution spatio-temporelle du paludisme

Structure spatiale du modle utilis (logiciel COMSOL )


Fig. 51.

de production d'An. gambiae. Nous avons galement procd aux simulations en l'absence de microgtes dans le village, le reste de la structure restant identique la structure prcdante pour les zones a), b), c), d) et e). Les paramtres modis (adapts de la littrature) pour les modles de raction-diusion sont donns dans la table 14. 3.4. Rsultats. Les rsultats des simulations montrent une augmentation, dans le temps [Fig.52], des individus infects, augmentation comparable aux modles non spatiaux. Seuls les rsultats du modle de saison sche sont dirents, mais correspondent la ralit de terrain avec une endmie de faible niveau. Trente jours aprs le dbut de la priode intermdiaire, la distribution spatiale correspond aux rsultats attendus [Fig.53, Fig.56, 54, 55]. De mme, 70 jours aprs le dbut de la saison des pluies, les rsultats sont conformes ce qui peut tre observ sur le terrain. L'analyse des 3 priodes l'aide d'arbres de rgression oblique donne des rsultats signicatifs, avec des pourcentages de variance explique suprieurs 80% [Tab.15]. Le dcoupage obtenu correspond ce qui tait attendu lors de la simulation. Les rsultats de l'interpolation

91

Part.II.

3. Evolution spatio-temporelle du paludisme

Tab. 14. Paramtres utiliss pour les modles de raction-diusion.

Param.*

Valeurs Saison Sche Situation In- Saison des Pluies termdiaire 1,5 2,5 2 0,7 0,5 0,05 0,01 0,01 0,01 0,04 0,04 0,04 1 1 1 0,9 0.1 0,014 4 12 30 8 13 14 1 0,05 0,05 0,05 2 0,75 0,75 0,75 Ds 0,5 3 5 Dg 0,25 0,5 0,75 Di 0,25 0,5 0,75 csp** 1,5 1,5 2 1 1 1 S (t = 0) 0,7 0,65 0,59 I (t = 0) 0,28 0,32 0,37 G(t = 0) 0,02 0,03 0,04 R(t = 0) 0 0 0 As (t = 0) 1 1 1 Ag (t = 0) 0 0 0 Ai (t = 0) 0 0 0
indep. : paramtre considr comme indpendant du climat. *Paramtres ; **csp : coecient de surface pour les gtes ponctuels.

par krigeage ordinaire (avec modle gaussien du semi-variogramme) sont donns dans le tableau [Tab.16]. Les rsultats des simulations sans micro-gtes ne sont pas trs dirents. Seule la progression est ralentie par rapport aux simulations avec micro-gtes [Fig.52 et 53]. L'volution spatiale des vecteurs est une bonne reprsentation de notre connaissance de terrain [Fig.57]. Entre les situations avec micro-gtes et sans micro-gtes, la production d'anophles susceptibles est identique, avec une production un peu plus importante dans la premire situation. La diusion de ces anophles est importante, puisqu'ils sont la recherche d'hommes pour leur repas sanguin. On observe particulirement bien la localisation des anophles infects (mais non encore contagieux), localiss au niveau des concessions. La diusion de ces anophles est moins grande, puisqu'il existe une priode de repos aprs

92

Part.II.

3. Evolution spatio-temporelle du paludisme

SS

avec micro-gtes

sans micro-gtes

SI

SP

Evolution temporelle : Incidences des Sujets susceptibles (S), infects (I), gamtocytmie (G) et rsistants (R), en saison sche (SS), intermdiaire (SI) ou milieu de saison des pluies (SP), (incidence en abscisse et temps en ordonne). Les traits verticaux reprsentent les instants o les distributions spatiales sont prsentes aux gures 53 et 57
Fig. 52. Tab. 15. Rsultats de SpODT appliqu aux simulations
R2

SS SI SP

Avec micro-gtes p

87,08% 0,0012 94,17% 0,00104

Sans micro-gtes R2 p 97,79% 0,001 95,09% 0,001 96,67% 0,001

SS : saison sche, SI : situation intermdiaire, SP : milieu de la saison des pluies

le repas sanguin. Enn, la diusion des anophles infectants (contagieux) correspond aux observations de terrain, de trs limite en saison sche, importante en saison des pluies. Dans les simulations sans micro-gtes, l'absence de ces gtes ne fait que ralentir la diusion des anophles infects non-contagieux et des anophles infectants (contagieux).

93

Part.II.

4. Discussion

SS

avec micro-gtes

sans micro-gtes

SI

SP

Distribution spatiale de l'incidence des individus infects (I) : saison sche (SS) 90j, situation
Fig. 53.
intermdiaire (SI) 30j, et milieu de saison des pluies (SP) 70j. Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

4. Discussion Comme nous l'avons vu, notre modlisation simple, l'aide d'un systme d'quations de raction-diusion, a permis de simuler les observations de terrain. Les modles de raction-diusion ont pour avantage de traiter l'espace de faon explicite. Cependant, ces modles

94

Part.II. avec micro-gtes sans micro-gtes

4. Discussion

SI

SP

Distribution spatiale de l'incidence des individus infects (I), t=0 : situation intermdiaire
Fig. 54.

(SI), et milieu de saison des pluies (SP) . Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

Tab. 16. Qualit du krigeage, erreurs en validation croise

SS SI SP

Avec micro-gtes Moyenne Variance

5, 43 104 1, 16 104 9,87 10-7 3, 75 103 2, 71 104 9, 01 104

1, 03 107

Sans micro-gtes Moyenne Variance

2, 58 1012 7, 13 106 1, 11 104

SS : saison sche, SI : situation intermdiaire, SP : milieu de la saison des pluies

prennent mal en compte les phnomnes ncessitant de longues distances (grandes chelles). La modlisation de l'endmo-pidmie de paludisme sur un territoire plus grand ncessiterait d'autres modles, comme, par exemple, les modles "small-world" [41]. De plus, les modles de diusion prdisent qu'une population, initialement concentre en un point, se dveloppera, au cours du temps, selon une distribution

95

Part.II.

4. Discussion

SS

avec micro-gtes

sans micro-gtes

SI

SP

Distribution spatiale de l'incidence des individus infects (I), t= 6 mois : saison sche (SS)
Fig. 55.
, situation intermdiaire (SI), et milieu de saison des pluies (SP). Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune toute les situations ( gauche). Les chelles des isohytes sont particulires chaque situation ( droite).

Normale en espace, ce qui n'est pas forcment le cas sur le terrain, o une distribution de Poisson est souvent plus adapte. Le modle choisi, xant la localisation a priori des micro-gtes, ne tient pas compte de l'hydraulogie de terrain. En eet, une averse est une

96

Part.II.

4. Discussion

saison des pluies) et Octobre 2000 (n de la saison des pluies) . Interpolation par krigeage ordinaire. L'chelle des fonds de cartes est commune ( gauche).

Distribution spatiale observe de l'incidence des individus infects (I) : Juin 2000 (avant la
Fig. 56.

structure spatio-temporelle qui engendre un hytogramme complexe. Aux uctuations pluviomtriques spatiales (distribution spatiale et intensit de l'averse), il faut ajouter les eets du ruissellement, rponse hydraulogique du terrain [85]. Il est clair que la pluviomtrie n'est pas uniforme en temps et en espace (voir par exemple [45]). Certains auteurs ont modlis des champs de pluie l'aide d'un processus de Poisson [142], dpendant de la dure de vie d'un cluster de pluie, de sa vitesse, de l'intensit de pluie, du lieu et date de naissance du cluster. Cependant, il n'est pas certain qu'un processus de Poisson soit applicable une rsolution spatiale ne, et sur une dure de plusieurs jours [47]. D'autres utilisent une loi de Gumble [235]. La dure des vnements et celle de la priode inter-vnements sont galement trs variables dans la rgion sahlienne [58]. La pluviomtrie, caractrise par un gradient nord-sud d'environ 1 mm/km, est variable non seulement d'une saison l'autre, mais aussi d'une anne sur l'autre (pour une prsentation plus complte des vnements pluvieux sahliens voir [13, 103, 128, 151, 152, 160, 235, 245]). Les tats de surface (vgtation, texture du sol, nature du terrain...) sont aussi importants. La texture du sol peut entraner la formation d'une crote de battance, qui, diminuant l'inltration de l'eau, permet la formation de aques ou de ruissellements. L'tat de surface du sol varie trs largement au cours de la saison des pluies [60, 100, 180, 192]. Par exemple, la vgtation ou le pitinement du btail favorisent l'inltration en brisant la crote de battance. La prsence de vgtation ralentit l'asschement. De plus, les caractristiques des sols sont souvent modies par l'homme (agriculture ou habitations) [9, 156]. Gerbaux et al. ont propos un modle

97

Part.II.

4. Discussion

SS

avec micro-gtes

SI

SP

sans micro-gtes

SI

SP

Distribution spatiale des vecteurs (en pourcentage) : saison sche (SS) 90j, situation intermdiaire
Fig. 57.
(SI) 30j, et milieu de saison des pluies (SP) 70j.

98

Part.II.

4. Discussion

du ruissellement en milieu sahlien, dpendant des prcipitations et des paramtres du sol, comme sa permabilit, son humidit, son utilisation [103]. Au cours d'un pisode pluvieux, les variations au sol, notamment du vent, peuvent modier les conditions de vie et de diusion des vecteurs [10]. Les gtes (micro- et macro-gtes) tant ainsi crs, la production d'anophles n'est pas constante. En eet, elle dpend du volume, de la surface, de la distance aux hommes, de la temprature, de la turbidit de l'eau, de leur densit [110]. Les particularits d'Anopheles funestus doivent galement tre modlises. Lorsque l'anophle adulte clo, il va d'abord chercher son repas sanguin. Aprs un temps de repos, il cherchera un site d'oviposition, puis repartira pour un repas sanguin. Ces aller-retours entre sites de piqres et sites de pontes, dpendant de facteurs climatiques (temprature, humidit relative), jouent un rle non ngligeable dans la transmission [169]. Nos rsultats vont dans le sens d'une faible importance des micro-gtes. Ce point est important prciser. En eet, la gestion de l'environnement est un des outils de contrle de la maladie qui a t relativement nglig en Afrique [46, 110]. D'autres paramtres, lis l'homme, doivent tre galement pris en compte pour amliorer la modlisation. Le premier, l'anthropophilie, conditionne la diusion des anophles. En eet, ce comportement inclu non seulement la prfrence trophique pour le repas sanguin mais galement l'endophilie et une prfrence pour l'environnement modi par l'homme [20]. Nos observations tant faites sur des enfants, notre modlisation ne tient pas compte de l'immunit acquise. Cependant, l'immunit joue un rle important dans la transmission, non ngligeable chez les sujets adultes. De plus, l'hypothse d'absence de mobilit des hommes doit galement tre adapte [108, 243], et les variations spatiales et temporelles de la densit humaine [84] jouent galement un rle (pastoralisme). Enn, avec une modlisation plus complte de la transmission palustre, les mesures de contrle pourront tre mieux exprimentes in silico, en particulier l'impact des moustiquaires imprgnes (en tenant compte de la rsistance des anophles), le traitement prophylactique ou curatif (avec la diusion des parasites rsistants), les vaccinations (avec l'volution spatio-temporelle des formes moins sensibles des parasites), ou encore l'asschement des macro-gtes proches des habitations.

99

Conclusion Gnrale

Conclusion gnrale.
La transmission du paludisme a une grande variabilit travers l'Afrique [24, 36], non seulement d'un pays l'autre mais aussi une chelle plus ne, comme nous l'avons montr dans la premire partie. L'environnement et le climat sont les principaux facteurs l'origine de cette grande variabilit. En eet, ces 2 facteurs se situent l'intersection entre le vecteur, le parasite et l'hte. Ils facilitent non seulement la survie et la diusion vectorielles mais aussi humaines. Fonde sur une connaissance de terrain, la recherche de zones particulirement risque permet de mieux cibler les actions de contrle. La modlisation, notamment spatio-temporelle, a un rle jouer pour vrier les hypothses et exprimenter in silico les mesures de contrle [136]. Mme si les modles ne sont qu'une reprsentation plus -ou moins- raliste [216], ils peuvent apporter des arguments supplmentaires en faveur d'une hypothse ou d'une autre : "Models are used to approach questions too complex, inaccessible, numerous, diverse, mutable, unique, dangerous, expensive, big, small, slow or fast to approach by other means " [165]. Ronald Ross (cit entre autre par McKenzie [165]) distingue 2 approches distinctes : l'approche a posteriori et l'approche a priori. L'approche a posteriori est une approche statistique d'observations passes (tude pidmiologique de terrain), dont l'objectif est d'en dduire des facteurs de risque voire des arguments de causalit. L'approche a priori assume l'existence de mcanismes causals, et en dduit, comme consquence logique, les donnes qui auraient d (ou devraient) tre observes. Ces deux approches sont donc complmentaires [168], et doivent tre conduites pour, d'une part, mieux comprendre les mcanismes des pidmies (ou endmo-pidmies), et, d'autre part, pour aider au choix d'une stratgie de contrle. Suivant cette ide, notre travail, aussi bien dans la partie statistique que dans la partie modlisation dterministe, semble indiquer que, bien que participant la distribution spatio-temporelle, les micro-gtes sont moins importants, comparativement aux macro-gtes. Cette piste doit tre approfondi, en particulier en tenant compte de la densit et de la distribution spatiale des micro-gtes, car les implications, en terme de lutte, sont importantes. La connaissance des interactions entre, d'une part, l'environnement et le climat, et, d'autre part, le vecteur, l'hte et le parasite, permet de mieux comprendre les volutions spatio-temporelle des pidmies de paludisme. Dans le contexte du changement climatique, les facis environnementaux vont tre modis. Ainsi, ces connaissances pourront permettre de mieux apprhender l'impact du changement climatique sur la distribution spatio-temporelle du paludisme.

102

Conclusion gnrale.

Ko damin do ga ko laban t.

103

Rfrences
Rfrences
1. M.S. Alilio, A. Kitua, K. Njunwa, M. Medina, A.M. Rnn, J. Mhina, F. Msuya, J. Mahundi, J.M. Depinay, S. Whyte, A. Krasnik, and I.C. Bygbjerg, Mala-

ria control at the district level in africa : the case of the muheza district in northeastern tanzania, Am J Trop Med Hyg 71(suppl 2) (2004), 20513. 2. R.M. Altman and A.J. Petkau, Application of hidden markov models to multiple sclerosis lesion count data, Statist Med 24 (2005), 233544. 3. N.H. Anderson and D.M. Titterington, Some methods for investigating spatial clustering, with epidemiological applications, J R Stat Soc [ser A] 160 (1997),
87105. 4. R.M. Anderson and R.M. May, Infectious control, Oxford Science, Oxford, 1998. 5. S.J. Aneke,

diseases of humans : dynamics and

Mathematical modelling of drug resistant malaria parasites and vector populations, Math Meth Appl Sci 25 (2002), 33546. 6. L. Anselin, Spatial economics : methods and model, Kluwer, Dordrecht, 1988. 7. , Local indicators of spatial association : Lisa, Geogr Anal 27 (1995),
93116. 8. R.M. Assunao and E.A. Reis, A new proposal tion density, Statist Med 18 (1999), 214762.

to adjust moran's i for popula-

9. B. Augeard, C. Kao, J. Ledun, C. Chaumont, and Y. Ndlec,

10. 11. 12. 13.

14.

Le ruissellemment sur sols drains : identication des mcanismes de gnse, Ingnieries 43 (2005), 318. D.E. Aylor and K.M. Ducharme, Wind uctuations near the ground during rain, Agric Forest Meteorol 76 (1995), 5973. N. Bacar and C. Sokhna, A reaction-diusion system modelling the spread of resistance to antimalarial drug, Math Biosci Eng 2 (2005), 22738. N.T.J. Bailey, The biomathematics of malaria, C. Grin, London, 1982. M. Balm, T. Vischel, T. Lebel, C. Peugeot, and S. Galle, Assessing the water balance in the sahel : Impact of small scale rainfall variability on runo. part 1 : Rainfall variability analysis, J Hydrol 331 (2006), 33648. L.E. Baum, An inequality and associated maximization technique in statistical estimation for probabilistic functions of markov processes, Inequalities 3
(1972), 18.

15. L.E. Baum and T. Petrie, Statistical inference for probabilistic nite state markov chains, Ann Math Stat 37 (1966), 155463. 16. L.E. Baum, T. Petrie, G. Soules, and N. Weiss,

functions of

A maximization technique occuring in the statistical analysis of probabilistic functions of markov chains, Ann Math Stat 41 (1970), 16471. 17. S. Bellec, D. Hemon, and J. Clavel, Answering cluster investigation requests : the value of simple simulations and statistical tools, Eu J Epidemiol 20 (2005),
66371. 18. F. Le Ber, M. Benot, C. Schott, J.F. Mari, and C. Mignolet, Studying crop sequences with carrotage, a hmm-based data mining software, Ecol Model 191 (2006), 17085. 19. J. Besag and J. Newell, The detection Soc 154[SerA] (1991), 32733.

of clusters in rare diseases, J R Stat

105

Rfrences
20. N.J. Besansky, C.A. Hill, and C. Costantini, No accounting for taste preference in malaria vectors, Trends Parasitol 20 (2004), 24951.

: host of

21. P.C. Besse, H. Cardot, and D.B. Stephenson, Autoregressive forecasting some functional climatic variations, Scan J Statist 27 (2000), 67387. 22. P.J. Bickel, Y. Ritov, and T. Rydn, 161435. 23. 24.

Asymptotic normality of the maximumlikelihood estimator for general hidden markov models, Ann Stat 26 (1998),

25. 26. 27.

, la vraisemblance des chanes de markov caches se comporte comme celle de variables i.i.d., Ann I H Poincar 6 (2002), 82546. J.D. Bigoga, L. Manga, V.P. Titanji, M. Coetzee, and R.G. Leke, Malaria vectors and transmission dynamics in coastal south-western cameroon, Malar J 6 (2007), 5. J.F. Bithell, The choice of test for detecting raised disease risk near a point source, Statist Med 14 (1995), 230922. R.S. Bivand and A. Gebhardt, Implementing functions for spatial statistical analysis using the r language, J Geogr Syst 2 (2000), 30717. P. Bogacki and L.F. Shampine, A 3(2) pair of runge-kutta formulas, Appl Math Letters 2 (1989), 19.

28. M. Booman, D.N. Durrheim, K. La Grange, C. Martin, A.M. Mabuza, A. Zitha, F.M. Mbokazi, C. Fraser, and B.L. Sharp, Using a geographical information system to plan a malaria control programme in south africa, Bull World Health Organ 78 (2000), 143844. 29. G.E.P. Box and G.M. Jenkins, Time Holden-Day, San Francisco, 1976.

series analysis : forecasting and control,

30. L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone, regression trees, Chapman and Hall, New York, 1993. 31. J.G. Breman, M.S. Alilio, and A. Mills,

Classication and

Conquering the intolerable burden of malaria : what's new, what's needed : a summary, Am J Trop Med Hyg 71(suppl 2) (2004), 115. trees, COINS technical

32. O.J.T. Briet, D.M. Gunawardena, W. Van der Hoek, and F.P. Amerasinghe, Sri lanka malaria maps, Malar J 2 (2003), 22. 33. C.E. Brodley and P.E. Utgo, Multivatiate decision reports 92-82, University of Massachusetts, 1992.

34. M. Caldas-De-Castro, Y. Yamagata, D. Mtasiwa, M. Tanner, J. Utzinger, J. Keiser, and B.H. Singer, Integrated urban malaria control : a case study in dar es salaam, tanzania, Am J Trop Med Hyg 71(suppl 2) (2004), 10317. 35. N. Cancr, A. Tall, C. Rogier, J. Faye, O. Sarr, J.F. Trape, A. Spiegel, and F. Bois, Bayesian analysis of an epidemiologic model of Plasmodium falciparum malaria infection in ndiop, senegal, Am J Epidemiol 152 (2000), 76070. 36. J. Cano, M.A. Descalzo, M. Moreno, Z. Chen, S. Nzambo, L. Bobuakasi, J.N. Buatiche, M. Ondo, F. Micha, and A. Benito, Spatial variability in the density,

distribution and vectorial capacity of anopheline species in a high transmission village (equatorial guinea), Malar J 5 (2006), 21. 37. R.S. Cantrell and C. Cosner, Spatial ecology via reaction-diusion equations,
Wiley, Chichester, UK, 2003. 38. E. Cantu-Paz and C. Kamath, Inducing oblique decision trees nary algorithms, IEEE Trans Evol Comput 7 (2003), 5468.

with evolutio-

106

Rfrences
39. M. Carbon, Prdiction non paramtrique, In : Approche non paramtrique en rgression, Eds : J.J. Droesbeke, G. Saporta, 2006. 40. M. Carbon and M. Delecroix, (1993), 21529.

Non parametric vs parametric forecasting in time series : a computational point of view, Appl Stoch Mod Data Anal 9

A 'small-world-like' model for comparing interventions aimed at preventing and controlling inuenza pandemics, BMC Medicine 4 (2006), 26. 42. M.J. Cassidy and P. Brown, Hidden markov based autoregressive analysis of stationary and non-stationary electrophysiological signals for functional coupling studies, J Neurosci Methods 116 (2002), 3553. 43. D.D. Chadee and U. Kitron, Spatial and temporal patterns of imported malaria cases and local transmission in trinidad, Am J Trop Med Hyg 61 (1999), 513
41. F. Carrat, J. Luong, H. Lao, A.V. Sall, C. Lajaunie, and H. Wackernagel, 7. 44. E.K. Chaput, J.I. Meek, and R. Heimer, Spatial analysis of human granulocytic ehrlichiosis near lyme, connecticut, Emerg Infect Dis 8 (2002), 9438.

45. I. Chaubey, C.T. Haan, S. Grunwald, and J.M. Salisbury, Uncertainty in the model parameters due to spatial variability of rainfall, J. Hydrol 220 (1999), 4861. 46. H. Chen, A.K. Githeko, G. Zhou, J.I. Githure, and G. Yan, New records of Anopheles arabiensis breeding on the mount kenya highlands indicate indigenous malaria transmission, Malar J 5 (2006), 17. 47. P. Chevallier, Simulation de pluie sur deux ORSTOM [ser Hydrol] 19 (1982), 25397.

bassins versants sahliens, Cah

48. E. Chirpaz, M. Colonna, and J.F. Viel, Cluster

49. 50. 51. 52.

53.

analysis in geographical epidemiology : the use of several statistical methods and comparison of their results, Rev Epidemiol Sante Publique 52 (2004), 13949. N. Chitnis, J.M. Cushing, and J.M. Hyman, Bifurcation analysis of a mathematical model for malaria transmission, LAUR-05-5077, 2005. A.D. Cli and J.K. Ord, Spatial autocorrelation, Pion, London, 1973. D.A. Coast, G.G. Cano, and S.A. Briller, Use of hidden markov models foe electrocardiographic signal analysis, J Electrocardiol 23 (1990), 18491. M. Colonna, J. Estve, and F. Mngoz, Dtection de l'autocorrlation spatiale du risque de cancer dans le cas o la densit de population est htrogne, Rev Epidemiol Sante Publique 41 (1993), 23540. M.A. Costa and R.M. Assunao, A fair comparison between the spatial scan and the besag newell disease clustering tests, Environ Ecol Stat 12 (2005),
30119.

Exploring 30 years of malaria case data in kwazulu-natal, south africa : Part i. the impact of climatic factors, Trop Med Int Health 9 (2004), 124757. 55. M.H. Craig, R.W. Snow, and D. LeSueur, A climate-based distribution model of malaria transmission in sub-saharan africa, Parasitol Today 15 (1999),
54. M.H. Craig, I. Kleinschmidt, J.B. Nawn, D. LeSueur, and B.L. Sharp, 10511. 56. N.J. Crichton, J.P. Hinde, and J. Marchini, Models is cart helpful ?, Statist Med 16 (1997), 71727. 57. J. Cuzick and R. Edwards, Spatial clustering J R Stat Soc [Ser B] 52 (1990), 73104.

for diagnosing chest pain :

for inhomogeneous populations,

107

Rfrences
58. N. D'Amato and T. Lebel, (1998), 95574.

On the characteristics of the rainfall events in the sahel with a view to the analysis of climatic variability, Int J Climatol 18

59. J.M.O. Depinay, C.M. Mbogo, G. Killeen, B. Knols, J. Beier, J. Carlson, J. Dusho, P. Billingsley, H. Mwambi, J. Githure, A.M. Toure, and F.E. McKenzie, A simulation model of african Anopheles ecology and population dynamics for the analysis of malaria transmission, Malar J 3 (2004), 29. 60. J.M. d'Herbs and C. Valentin, Land

surface conditions of the niamey region : ecological and hydrological implications, J Hydrol 188 (1997), 1842.

61. H. Diebner, M. Eichner, L. Molineaux, W.E. Collins, G.M. Jeery, and K. Dietz, Modelling the transition of asexual blood stages of Plasmodium falciparum to gametocytes, J Theor Biol 202 (2000), 113127. 62. O. Diekmann and J.A.P. Heesterbeek, Mathematical epidemiology of infectious diseases, Wiley, Chichester, UK, 2000. 63. K. Dietz, L. Molineaux, and A. Thomas, A malaria model tested in the african savannah, Bull World Health Organ 50 (1974), 34757.

64. P.J. Diggle and A.G. Chetwynd, Second-order analysis of spatial clustering for inhomogeneous populations, Biometrics 47 (1991), 115563. 65. P.J. Diggle, S. Morris, P. Elliott, and G. Shaddick, Regression disease risk in relation to point sources, J R Stat Soc [ser A] 491505.

modelling of 160 (1997),

66. A. Dolo, F. Camara, B. Poudiougou, A. Tour, B. Kouriba, M. Bagayoko, D. Sangar, M. Diallo, A. Bosman, D. Modiano, Y.T. Tour, and O. Doumbo,

Epidmiologie du paludisme dans un village de savane soudanienne du mali (bancoumana), Bull Soc Pathol Exot 96 (2003), 30812.

67. O. Domarle, F. Migot-Nabias, H. Pilkington N. Elissa F.S. Toure, J. Mayombo, M. Cot, and P. Deloron, Family analysis of malaria infection in dienga, gabon, Am J Trop Med Hyg 66 (2002), 1249. 68. I.L. Mc Donald and W. Zucchini, Hidden markov and other models for discretevalued time series, Chapman and Hall, London, 1997. 69. J.R. Dormand and P.J. Prince, A family Comp Appl Math 6 (1980), 1926. 70. O.K. Doumbo, It takes 307 (2005), 67981.

of embedded runge-kutta formulae, J

a village : medical research and ethics in mali, Science : thorie et

71. J.J. Droesbeke, B. Fichet, and P. Tassi, Sries chronologiques pratique des modles arima, Economica, Paris, 1989. 72. J.J. Droesbeke, M. Lejeune, and G. Saporta, spatiales, Technip, Paris, 2006. 73. L. Duczmal and R.M. Assunciao, (2004), 26986.

Analyse statistique des donnes

A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters, Comput Statist Data Anal 45 A workow spatial scan statistic, Statist de modles et

74. L. Duczmal and D.L. Buckeridge, Med 25 (2006), 74354.

75. J.B. Durand, Modles structure cache : infrence, slection applications, Ph.D. thesis, Universit Grenoble I, 2003. 76. J. Dutertre, Etude d'un modle pidmiologique Soc Belge Med Trop 56 (1976), 12741. 77. S.R. Eddy,

appliqu au paludisme, Ann

Hidden markov models, Curr Opin Struct Biol 6 (1996), 3615.

108

Rfrences
78. F.E. Edillo, F. Tript, Y.T. Tour, G.C. Lanzaro, G. Dolo, and C.E. Taylor, Water quality and immatures of the m and s forms of Anopheles gambiae s.s. and An. arabiensis in a malian village, Malar J 5 (2006), 35. 79. P. Elliott, M. Martuzzi, and G. Shaddick, Spatial statistical methods in environmental epidemiology : a critique, Stat Methods Med Res 4 (1995), 13759. 80. P. Elliott and J. Wakeeld, Disease clusters : should they be so, when and how ?, J R Stat Soc [Ser A] 164 (2001), 312.

investigated, if

81. P. Elliott and D. Wartenberg, Spatial epidemiology : current approaches future challanges, Environ Health Perspect 112 (2004), 9981006. 82. R.J. Elliott, L. Aggoun, and J.B. Moore, New York, 1997. 83. Y. Ephraim and N. Merhav, Theory 48 (2002), 151869.

and

Hidden markov models, Springer,

Hidden markov processes, IEEE Trans Inform

84. K.C. Ernst, S.O. Adoka, D.O. Kowuor, M.L. Wilson, and C.C. John, 78.

Malaria hotspot areas in a highland kenya site are consistent in epidemic and nonepidemic years and are associated with ecological factors, Malar J 5 (2006),

85. V. Estupina-Borrell, Vers une modlisation hydrologique adapte la prvision oprationnelle des crues clair, Ph.D. thesis, Institut National Polytechnique de Toulouse, 2003. 86. Z. Feng, D.L. Smith, F.E. McKenzie, and S.A. Levin, Coupling ecology and evolution : malaria and the s-gene across time scales, Math Biosci 189 (2004), 119. 87. B. Fichet and J. Gaudart, Extension de cart dans le cas bivari : partition optimale du plan, Proc XIIme congrs de la Socit Francophone de Classication (Montral, Qubec), 2005. 88. B. Fichet, J. Gaudart, and B. Giusiano, Bivariate cart with oblique regression trees, International conference of Data Science and Classication, International Federation of Classication Societies (Ljubljana, Slovenia), Juillet 2006. 89. U. Fillinger, G. Sonye, G.F. Killeen, B.G.J. Knols, and N. Becker, The practical

importance of permanent and semi permanent habitats for controlling aquatic stages of Anopheles gambiae sensu lato mosquitoes : operational observations from a rural town in western kenya, Trop Med Int Health 9 (2004), 127489. 90. R.A. Fisher, The wave of advance of advantageneous genes, Ann Eugen 7 (1937), 35569, disponible sur : http ://digital.library.adelaide.edu.au/coll/special/sher/index.html.

Modeling the circulation of a disease between two host populations on non coincident spatial domains, Biological Invasions 7 (2005), 86375. 92. W.E. Fitzgibbon, M. Langlais, and J.J. Morgan, A mathematical model for indirectly transmitted diseases, Math Biosci 206 (2007), 23348. 93. A. Franke, T. Caelli, G. Kuzyk, and R.J. Hudson, Prediction of wolf ( Canis lupus) kill-sites using hidden markov models, Ecol Model 197 (2006), 23746. 94. C.Y. Fu, Combining loglinear model with classication and regression tree (cart) : an application to birth data, Comput Statist Data Anal 45 (2004),
91. W.E. Fitzgibbon, M. Langlais, F. Marpeaux, and J.J. Morgan, 86574. 95. R.E. Gangnon and M.K. Clayton, Bayesian detection disease clustering, Biometrics 56 (2000), 92235.

and modeling of spatial

109

Rfrences
96. J. Gaudart, R. Giorgi, B. Poudiougou, O. Tour, S. Ranque, O.K. Doumbo, and J. Demongeot, Dtection de clusters spatiaux sans point source prdni : utilisation de cinq mthodes et comparaison de leurs rsultats, Rev Epidemiol Sant Publique sous presse (2007). 97. J. Gaudart, B. Poudiougou, S. Ranque, and O.K. Doumbo, Oblique decision

2006. 100. S.R. Gaze, L.P. Simmonds, J. Brouwer, and J. Bouma, Measurement of surface

trees for spatial pattern detection : optimal algorithm and application to malaria risk, BMC Med Res Methodol 5 (2005), 22. 98. , Oblique decision trees for spatial pattern detection : optimal algorithm and application to malaria risk, BMC Med Res Methodol 5 (2005), 22. 99. J. Gaudart, N.O. Ramatriravo, and B. Giusiano, Evaluation de la puissance des mthodes de balayage et d'arbres de rgression pour la dtection de patterns spatiaux, Congrs d'pidmiologie, ADELF et EPITER (Dijon, France), Aout redistribution of rainfall and modelling its eect on water balance calculations for a millet eld on sandy soil in niger, J Hydrol 188 (1997), 26784.

101. A. Gemperli, P. Vounatsou, I. Kleinschmidt, M. Bagayoko, C. Lengeler, and T. Smith, Spatial patterns of infant mortality in mali : the eect of malaria endemicity, Am J Epidemiol 159 (2004), 6472. 102. V. Genon-Catalot and C. Laredo, Leroux's method for general hidden markov models, Stochastic Process Appl 116 (2006), 22243. 103. M. Gerbaux, N.M.J. Hall, N. Dessay, and I. Zin, The sensitivity of sahelian runo to climate change, Hydrol Sci J sous presse (2007). 104. A. Getis and J.K. Ord, The analysis of spatial association by distance statistics, Geogr Anal 24 (1992), 189207. 105. S. Gey, Bornes de risque, dtection de ruptures boosting : trois thmes statistiques autour de cart en rgression, Ph.D. thesis, University of Paris XI, 2002. 106. A.K. Githeko and W. Ndegwa, Predicting malaria epidemics in the kenyan highlands using climate data : a tool for decision makers, Global Change Human Health 2 (2001), 5463. 107. V. Gomez-Rubio, J. Ferrandiz, and A. Lopez, Detecting clusters of diseases with r, Proc 3rd Int Workshop on Distributed Statistical Computing (Vienna, Austria) (K. Hornik, F. Leisch, and A. Zeileis, eds.), March 2003, Available on : [http ://www.ci.tuwien.ac.at/Conferences/DSC-2003/]. 108. E. GroverKopec, M. Kawano, R.W. Klaver, B. Blumenthal, P. Ceccato, and S.J. Connor, An online operational rainfall-monitoring resource for epidemic malaria early warning systems in africa, Malar J 4 (2005), 6. 109. W. Gu, G.F. Killeen, C.M. Mbogo, J.L. Regens, J.I. Githure, and J.C. Beier, An individual-based model of Plasmodium falciparum malaria transmission on the coast of kenya, Trans R Soc Trop Med Hyg 97 (2003), 4350. 110. W. Gu, J.L. Regens, J.C. Beier, and R.J. Novak, Source reduction of mosquito larval habitats has unexpected consequences on malaria transmission, Proc Natl Acad Sci USA 103 (2006), 175603. 111. Y. Gudon, Exploring the state sequence space for hidden markov and semimarkov chains, Computat Statist Data Analysis 51 (2007), 2379409. 112. C. Guihenneuc-Jouyaux, Modlisation statistique des variations gographiques : enjeu d'importance en pidmiologie et en statistique, Rev Epidemiol Sante Publique 50 (2002), 40912.

110

Rfrences
Modeling markers of disease progression by a hidden markov process : application to characterizing cd4 cell decline, Biometrics 56 (2000), 73341. 114. H. Guis, S. Clerc, B. Hoen, and J.F. Viel, Clusters of autochthonous hepatitis a cases in a low endemicity area, Epidemiol Infect 134 (2006), 498505. 115. H. Guthmann, A. Llanos-Cuentas, A. Palacios, and A.J. Hall, Environmental factors as determinants of malaria risk. a descriptive study on the northern coast of peru, Trop Med Int Health 7 (2002), 51825. 116. K. Hanson, Public and private roles in malaria control : the contributions of economic analysis, Am J Trop Med Hyg 71(suppl 2) (2004), 16873.
113. C. Guihenneuc-Jouyaux, S. Richardson, and I.M. Longini, 117. S.I. Hay, J. Cox, D.J. Rogers, S.E. Randolph, D.I. Stern, G.D. Shanks, M.F. Myers, and R.W. Snow, Climate change and the resurgence of malaria in the east african ighlands, Nature 415 (2002), 9059. 118. S.I. Hay, M.F. Myers, D.S. Burke, D.W. Vaughn, T. Endyi, N. Anandai, G.D. Shanksi, R.W. Snow, and D.J. Rogers, Etiology of interepidemic periods of mosquito-borne disease, Proc Natl Acad Sci USA 97 (2000), 93359. 119. D. Heath, M. Kasif, and S. Salzberg, Induction of oblique decision trees, Proc 13th Int Joint Conf on Articial Intelligence (Chambery, France) (R. Bajcsy, ed.), Morgan Kaufmann, August 1993, pp. 10027.

A comparison of three tests to detect general clustering of a rare disease in santa clara county, california, Statist Med 19 (2000), 136378. 121. U. Hjalmars, M. Kulldor, G. Gustafsson, and N. Nagarwall, Childhood leukemia in sweden : using gis and spatial scan statistic for cluster detection, Statist Med 15 (1996), 70715. 122. H. Holzmann, A. Munk, M. Suster, and W. Zucchini, Hidden markov models for circular and linear-circular time series, Environ Ecol Stat 13 (2006), 325
120. E.G. Hill, L. Ding, and L.A. Waller, 47. 123. M.B. Hoshen and A.P. Morse, sion, Malar J 3 (2004), 32.

A weather-driven model of malaria transmis-

124. J. Huang, E.D. Walker, P.E. Otienoburu, F. Amimo, J. Vulule, and J.R. Miller, Laboratory tests of oviposition by the african malaria mosquito, Anopheles gambiae, on dark soil as inuenced by presence or absence of vegetation, Malar J 5 (2006), 88. 125. J. Huang, E.D. Walker, J. Vulule, and J.R. Miller,

126. 127.

128. 129.

Daily temperature proles in and around western kenyan larval habitats of anopheles gambiae as related to egg mortality, Malar J 5 (2006), 87. J.P. Hughes, P. Guttorp, and S.P. Charles, A non-homogeneous hidden markov model for precipitation occurence, J R Stat Soc [ser C] 48 (1999), 1530. J.N. Ijumba, F.W. Mosha, and S.W. Lindsay, Malaria transmission risk variations derived from dierent agricultural practices in an irrigated area on northern tanzania, Med Vet Entom 16 (2002), 2838. S. Islam, R.L. Bras, and K.A. Emanuel, Predictability of mesoscale rainfall in the tropics, J Appl Meteor 32 (1993), 297310. C.H. Jackson and L.D. Sharples, Hidden markov models for the onset and progression of bronchiolitis obliterans syndrome in lung transplant recipients, Statist Med 21 (2002), 11328.

111

Rfrences
Tests of geographical correlation with adjustment for explanatory variables : an application to dyspnoea in the elderly, Statist Med 16 (1997), 128397. 131. S. Kabos and F. Csillag, The analysis of spatial association on a regular lattice by join-count statistics without the assumption of rst-order homogeneity, Comput Geosci 28 (2002), 90110. 132. W. Kazadi, J.D. Sexton, M. Bigonsa, B. W'Okanga, and M. Way, Malaria in primary school children and infants in kinshasa, democratic republic of the congo : surveys from the 1980s and 2000, Am J Trop Med Hyg 71(suppl 2)
130. H. Jacqmin-Gadda, D. Commenges, C. Nejjari, and J.F. Dartigues, (2004), 97102. 133. A. Kehagias, A

hidden markov model segmentation procedure for hydrological and environmental time series, Stoch Environ Res Risk Ass 18 (2004), 11730.

134. J. Keiser, J. Utzinger, M. Caldas de Castro, T.A. Smith, M. Tanner, and B.H. Singer, Urbanization in sub-saharan africa and implication for malaria control, Am J Trop Med Hyg 71(suppl 2) (2004), 11827. 135. R.N. Khan, B. Martinac, B.W. Madsen, R.K. Milne, G.F. Yeo, and R.O. Edeson, Hidden markov analysis of mechanosensitive ion channel gating, Math Biosci 193 (2005), 13958. 136. G.F. Killeen, B.G.J. Knols, and W. Gu, Taking malaria transmission out of the bottle : implications of mosquito dispersal for vector control interventions, Lancet Inf Dis 3 (2003), 297303. 137. G.F. Killeen, F.E. McKenzie, B.D. Foy, C. Schieelin, P.F. Billingsley, and J.C. beier, A simplied model for predicting malaria entomologic inoculation rates based on entomologic and parasitologic parameters relevant to contol, Am J Trop Med Hyg 62 (2000), 53544. 138. G.F. Killeen, A. Seymoum, and B.G.J. Knols, Rationalizing historical suc-

cesses of malaria control in africa in terms of mosquito resource availabilty management, Am J Trop Med Hyg 71(S2) (2004), 8793. 139. A.E. Kiszewski and A. Teklehaimanot, A review of the clinical and epidemiologic burdens of epidemic malaria, Am J Trop Med Hyg 71(suppl 2) (2004),

12835. 140. A.Y. Kitua, Field trials of malaria vaccines, Indian J Med Res 106 (1997), 95108. 141. I. Kleinschmidt, B. Sharp, I. Mueller, and P. Vounatsou, Rise in malaria inci-

(1997), 148196. , Satscantm v5.1-software for the spatial and space-time scan statistics, Information Management Services Inc., Silver Spring, Maryland, 2004. 146. M. Kulldor, E.J. Feuer, B.A. Miller, and L.S.Freeman, Breast cancer in northeastern united states : a geographical analysis, Am J Epidemiol 146 (1997), 16170. 145.

dence rates in south africa : a small-area spatial analysis of variation in time trends, Am J Epidemiol 155 (2002), 25764. 142. W.F. Krajewski, R. Raghavan, and V. Chandrasekar, Physically based simulation of radar rainfall data using a space-time rainfall model, J Appl Meteor 32 (1993), 26883. 143. A. Krogh, M. Brown, I.S. Mian, K. Sjlander, and D. Haussler, Hidden markov models in computational biology : applications to protein modeling, J Mol Biol 235 (1994), 150131. 144. M. Kulldor, A spatial scan statistic, Commun Stat Theory and Methods 26

112

Rfrences
147. M. Kulldor, R. Heernan, J. Hartman, R. Assunao, and F. Mostashari, A space-time permutation scan statistic for disease outbreak detection, PLoS Med 2 (2005), e59. 148. M. Kulldor and N. Nargawalla, Spatial disease clusters : detection and inference, Statist Med 14 (1995), 799810. 149. M. Kulldor, T. Tango, and P.J. Park, Power comparisons for disease clustering tests, Comput Stat Data Anal 42 (2003), 66584. 150. S. Lallich, F. Muhlenbach, and D.A. Zighed, Test de structure pour la prdiction de variable numrique, Proc IXme congrs de la Socit Francophone de Classication, 2002. 151. T. Lebel and L. Le Barb, Rainfall monitoring during hapex-sahel. 2. point and areal estimation at the event and seasonal scales, J Hydrol 188 (1997), 97122. 152. T. Lebel, J.D. Taupin, and N. D'Amato, Rainfall monitoring during hapexsahel. 1. general rainfall conditions and climatology, J Hydrol 188 (1997), 7496. 153. M. Leblanc and J. Crowley, Relative risk trees for censored survival data, Biometrics 48 (1992), 41125. 154. J. Lee and D.W.S. Wong, Statistical analysis with arcview gis, Wiley, New York, 2001. 155. B. Leroux, Maximum-likelihood estimation for hidden markov models, Stoch Process Applic 40 (1992), 12743. 156. K.Y. Li, M.T. Coe, N. Ramankutty, and R. De Jong, Modeling the hydrological impact of land-use change in west africa, J Hydrol, sous presse. 157. S.W. Lindsay, L. Parson, and C.J. Thomas, Mapping the ranges and relative abundance of the rwo principal african malaria vectors, An. gambiae sensu stricto and An. arabiensis, using climate data, Proc R Soc Lond [ser B] 265 (1998), 84754. 158. MARA/ARMA, version3.0.0 build5, South Africa Medical Research Council, 2002. 159. D.P. Mason and F.E. McKenzie, Blood-stage dynamics and clinical implications of mixed Plasmodium vivax - Plasmodium falciparum infections, Am J Trop Med Hyg 61 (1999), 36774. 160. V. Mathon and H. Laurent, Life cycle of sahelian mesoscale convective cloud systems, Q J R Meteor Soc 127 (2001), 377406. 161. E. Matzner-Lober, A. Gannoun, and J.G. De Gooijer, Nonparametric forecasting : Comparison of three kernel-based methods, Com Statist Theor Methods 27 (1998), 1593617. 162. J. May, F.P. Mockenhaupt, O.G. Ademowo, A.G. Falusi, P.E. Olumese, U. Bienzle, and C.G. Meyer, High rate of mixed and subpatent malarial infections in southwest nigeria, Am J Trop Med Hyg 61 (1999), 33943. 163. C.M. Mbogo, J.M. Mwangangi, J. Nzovu, W. Gu, G. Yan, J.T. Gunter, C. Swalm, J. Keating, J.L. Regens, J.I. Shililu, J.I. Githure, and J.C. Beier, Spatial and temporal heterogeneity of Anopheles mosquitoes and Plasmodium falciparum transmission along the kenyan coast, Am J Trop Med Hyg 68 (2003), 73442. 164. W.J.H. McBride, H. Mullner, R. Muller, J. Labrooy, and I. Wronski, Determi-

nants of dengue 2 infection among residents of charters towers, queensland, australia, Am J Epidemiol 148 (1998), 11116.

113

Rfrences
Why model malaria ?, Parasitol Today 16 (2000), 5116. 166. F.E. McKenzie, J.K. Baird, J.C. Beier, A.A. Lal, and W.H. Bossert, A biologic basis for integrated malaria control, Am J Trop Med Hyg 67 (2002), 5717. 167. F.E. McKenzie and W.H. Bossert, An integrated model of Plasmodium falciparum dynamics, J Theor Biol 232 (2005), 41126. 168. F.E. McKenzie and E.M. Samba, The role pf mathematical modeling in evidence-based malaria control, Am J Trop Med Hyg 71(suppl. 2) (2004),
165. F.E. McKenzie, 946.

The unexpected importance of mosquito oviposition behaviour for malaria : non-productive larval habitats can be sources for malaria transmission, Malar J 4 (2005), 23. 170. L. Mevel, Statistique asymptotique pour les modles de markov cachs, Ph.D.
169. A. Le Menach, F.E. McKenzie, A. Flahault, and D.L. Smith, thesis, Universit Rennes I, 1997. 171. L. Molineaux, K. Dietz, and A. Thomas, Further epidemiological of a malaria model, Bull World Health Organ 56 (1978), 56571.

evaluation

172. A.P. Morse, F.J. Doblas-Reyes, M.B. Hoshen, R. Hagedorn, and T.N. Palmer, A forecast quality assessment of an end-to-end probabilistic multi-model seasonal forecast system using malaria model, Tellus 57A (2005), 46475. 173. F. Mostashari, M. Kulldor, J.J. Hartman, J.R. Miller, and V. Kulasekera, Dead bird clusters as an early warning system for west nile virus activity, Emerg Infect Dis 9 (2003), 6416. 174. J.D. Murray, 175. 176. 177. 178. 179.

Mathematical biology, Springer, Berlin, 1993. S.K. Murthy, M. Kasif, and S. Salzberg, A system for induction of oblique decision trees, J Artif Intell Res 2 (1994), 132. J. Nedelman, Inoculation and recovery rates in the malaria model of dietz, molineaux, and thomas, Math Biosci 69 (1984), 20933. , Introductory review some new thoughts about some old malaria models, Math Biosci 73 (1985), 15982. R.G. Newcombe, Two-sided condence intervals for the single proportion : comparison of seven methods, Statist Med 17 (1998), 85772. G.A. Ngwa and W.S. Shu, A mathematical model for endemic malaria with variable human and mosquito populations, Math Comput Model 32 (2000),
74763.

180. S.E. Nicholson, J.A. Marengo, J. Kim, A.R. Lare, S. Galle, and Y.H. Kerr,

A daily resolution evapoclimatonomy model applied to surface water balance calculations at the hapex-sahel supersites, J Hydrol 188 (1997), 94664. 181. E.T. Nkhoma, C.E. Hsu, V.I. Hunt, and A.M. Harris, Detecting spatiotemporal clusters of accidental poisoning mortality among texas counties, u.s., 19802001, Int J Health Geogr 3 (2004), 25. 182. B. Obermaier, C. Guger, and G. Pfurtscheller, Hidden markov models used for the oine classication of eeg data, Biomed Technik 44 (1999), 15862. 183. N. Oden, Adjusting moran's i for population density, Statist Med 14 (1995),
1726. 184. A. Odoi, S.W. Martin, P. Michel, J. Holt, D. Middleton, and J. Wilson,

Geographical and temporal distribution of human giardiasis in ontario, canada, Int J Health Geogr 2 (2003), 5.

114

Rfrences
185. M.J.A.M. Oesterholt, J.T. Bousema, O.K. Mwerinde, C. Harris, P. Lushino, A. Masokoto, H. Mwerinde, F.W. Mosha, and C.J. Drakeley, Spatial and tem-

poral variation in malaria transmission in a low endemicity area in northern tanzania, Malar J 5 (2006), 98. 186. World Health Organization, Malaria control as part of primary health care,
World Health Organ Tech Rep (1984), 712. 187. 188. , Expert committee Rep (1986), 735. , Expert committee Rep (2000), 735.

on malaria : 18th report, World Health Organ Tech on malaria 20th report, World Health Organ Tech

189. K. Osnes, Iterative 25.

random aggregation of small units using regional measures of spatial autocorrelation for cluster localization, Statist Med 18 (1999), 707

190. J.P. Palutikof, C.M. Goodess, S.J. Watkins, and T. Holt, Generating rainfall and temperatures scenarios at multiple sites :..., J Clim 15 (2002), 352948. 191. G.P. Patil and C. Taillie, Upper level set scan statistic for shaped hotspots, Environ Ecol Stat 11 (2004), 18397.

detecting arbitrarily

192. C. Peugeot, M. Esteves, S. Galle, J.L. Rajot, and J.P. Vandervaere,

Runo generation processes : results and analysis of eld data collected at the east central supersite of the hapex-sahel experiment, J Hydrol 188 (1997), 179202. malaria case management on the anti-malaria drugs resistance in south of mali : Bancoumana, 3rd MIM Pan-African Conference on Malaria (Arusha
Tanzania), November 2002.

193. B. Poudiougo, S. Diawara, M. Diakite, M. Diallo, A. Dicko, I. Sagara, O. Toure, A. Dolo, D. Krogstad, and O. Doumbo O, The impact of community-based

194. D. Prybylski, A. Khaliq, E. Fox, A.R. Sarwari, and T. Strickland, Parasite density and malaria morbidity in the pakistan punjab, Am J Trop Med Hyg 61 (1999), 791801. 195. Y. Qi and J. Wu,

Eects of changing spatial resolution on the results of landscape pattern analysis using spatial autocorrelation indices, Landscape Ecol 11 (1996), 3949.

196. I.A. Quakyi, R.G.F. Leke, R. Bedi-Mengue, M. Tsafack, D. Bomba-Nkolo, L. Manga, V. Tchinda, E. Njeungue, S. Kouontchou, J. Fogako, P. Nyonglema, L. Thuita Harun, R. Djokam, G. Sama, A. Eno, R. Megnekou, S. Metenou, L. Ndoutse, A. Same-Ekobo, G. Alake, J. Meli, J. Ngu, F. Tietche, J. Lohoue, J.L. Mvondo, E. Wansi, R. Leke, A. Folefack, J. Bigoga, C. Bomba-Nkolo, V. Titanji, A. Walker-Abbey, M.A. Hickey, A.H. Johnson, and D.W. Taylor, The epidemiology of plasmodium falciparum malaria in two cameroonian villages : Simbok and etoa, Am J Trop Med Hyg 63 (2000), 22230.

A tutorial on hidden markov models and selected applications in speech recognition, Proc IEEE 77 (1989), 25786. 198. S. Richardson, Modlisation statistique des variations gographiques en pidmiologie, Rev Epidemiol Sante Publique 40 (1992), 3345. 199. A.W. Robertson, S. Kirshner, and P. Smyth, Hidden markov models for modeling daily rainfall ocurrence over brazil, Tech. Report UCI-ICS 03-27, Infor197. L.R. Rabiner, mation and computer science, Univ. of California, Irvine, 2003. 200. P.A. Rogerson,

The detection of clusters using a spatial version of the chisquare goodness of t statistic, Geogr Anal 31 (1999), 13047.

115

Rfrences
201. C. Rogier, A.B. Ly, A. Tall, and B. Cisse J.F. Trape, Plasmodium falciparum

clinical malaria in dielmo, a holoendemic area in senegal : no inuence of acquired immunity on initial symptomatology and severity of malaria attacks, Am J Trop Med Hyg 60 (1999), 41020. 202. I.M. Rouzine and F.E. McKenzie, Link between immune response and parasite synchronization in malaria, Proc Natl Acad Sci USA 100 (2003), 34738. 203. W. Sama, S. Owusu-Agyei, I. Felger, P. Vounatsou, and T. Smith, An immigration-death model to estimate the duration of malaria infection when detectability of the parasite is imperfect, Statist Med 24 (2005), 326988. 204. J. Sansom, A hidden markov model for rainfall using breakpoint data, J Clim 11 (1998), 4253.
205. J.A. Schellenberg, J.N. Newell, R.W. Snow, V. Mungala, K. Marsh, P.G. Smith, and R.J. Hayes, An analysis of geographical distribution of severe malaria in children in kili district, kenya, Int J Epidemiol 27 (1998), 3239.

Comparison of the cox model and the regression tree procedure in analyzing a randomized clinical trial, Statist Med 12 (1993), 235166. 207. M.R. Segal and I.B. Tager, Trees and tracking, Statist Med 12 (1993), 215368.
206. C. Schmoor, K. Ulm, and M. Schumacher, 208. L. Von Seidlein, C. Drakeley, B. Greenwood, G. Walraven, and G. Targett, Risk factors for gametocyte carriage in gambian children, Am J Trop Med Hyg 65 (2001), 5237. 209. L.F. Shampine and M.W. Reichelt, The Scientic Computing 18 (1997), 122.

matlab ode suite, SIAM Journal on index-1 daes in

210. L.F. Shampine, M.W. Reichelt, and J.A. Kierzenka, Solving matlab and simulink, SIAM Review 41 (1999), 53852.

211. G.D. Shanks, S.I. Hay, D.I. Stern, K. Biomndo, and R.W. Snow, Meteorologic inuences on P. falciparum malaria in the highland tea estates of kericho, western kenya, EID 8 (2002), 14048. 212. T.J. Sheehan, L.M. De Chello, M. Kulldor, D.I. Gregorio, S. Gershman, and M. Mroszczyk, The geographic distribution of breast cancer incidence in massachusetts 1988 to 1997, adjusted for covariates, Int J Health Geogr 3 (2004), 17. 213. B. Singer and J.E. Cohen, Estimating malaria incidence from panel survey, Math Biosci 49 (1980), 273305. 214. N.G. Sipe and P. Dale,

and recovery rates

Challenges in using geographic information systems (gis) to understand and control malaria in indonesia, Malar J 2 (2003), 36. 215. J.G. Skellam, Random dispersal in theoretical populations, Biometrika 38
(1951), 196218, disponible sur : Bull Math Biol, 1991 ;53 :135-65. 216. D.L. Smith and F.E. McKenzie, Statics and dynamics anopheles mosquitoes, Malar J 3 (2004), 13.

of malaria infection in

217. T. Smith, J.D. Charlwood, W. Takken, M. Tanner, and D.J. Spiegelhalter, Mapping the densities of malaria vectors within a single village, Acta Tropica 59 (1995), 118. 218. T. Smith, G. Genton, K. Baea, N. Gibson, A. Narara, and M.P. Alpers, 2627.

Prospective risk of morbidity in relation to malaria infection in an area of high endemicity of multiple species of Plasmodium, Am J Trop Med Hyg 64 (2001),

116

Rfrences
219. R.W. Snow, E. Gouws, J. Omumbol, B. Rapuoda, M.H. Craig, F.C. Tamers, D. LeSueur, and J.Ouma, Models to predict the intensity of Plasmodium falciparum transmission : applications to the burden of disease in kenya, Trans R Soc Trop Med Hyg 92 (1998), 6016. 220. C.S. Sokhna, F.B.K. Faye, A. Spiegel, H. Dieng, and J.F. Trap, Rapid reappearance of Plasmodium falciparum after drug treatment among senegalese adults exposed to moderate seasonal transmission, Am J Trop Med Hyg 65 (2001), 16770. 221. C. Song and M. Kulldor, Health Geogr 2 (2003), 9.

Power evaluation of disease clustering tests, Int J

222. S.G. Staedke, E.W. Nottingham, J. Cox, M.R. Kamya, P.J. Rosenthal, and G. Dorsey, Short report : proximity to mosquito breedings sites as a risk factor for clinical malaria episodes in an urban cohort of ugandan children, Am J Trop Med Hyg 69 (2003), 2446. 223. Y. Le Strat and F. Carrat, Monitoring epidemiologic surveillance hidden markov models, Statist Med 18 (1999), 346378. 224. C.J. Struchiner, M.E. Halloran, and A. Spielman, Modeling i : new uses for old ideas, Math Biosci 94 (1989), 87113. 225. K. Takezawa, Introduction Jersey, 2006. 226. T. Tango, Assymptotic trics 46 (1990), 3517. 227. 228. 229. 230.

data using

malaria vaccines

to nonparametric regression, Wiley, Hoboken, New

distribution of an index for disease clustering, Biomeclustering adjusted for multiple testing, Sta-

, Score tests for detecting excess risks around putative sources, Statist 21 (2002), 497514. , Score tests for detecting excess risks around putative sources, Statist Med 21 (2002), 497514. T. Tango and K. Takahashi, A exibly shaped spatial scan statistic for detecting clusters, Int J Health Geogr 4 (2005), 11. Med

, A test for spatial disease tist Med 19 (2000), 191204.

231. H.D. Teklehaimanot, M. Lipsitch, A. Teklehaimanot, and J. Schwartz, Weather-based prediction of Plasmodium falciparum malaria in epidemic-

prone regions of ethiopia i. patterns of lagged weather eects reect biological mechanisms, Malar J 3 (2004), 41.

232. H.D. Teklehaimanot, J. Schwartz, A. Teklehaimanot, and M. Lipsitch, Weather-based prediction of Plasmodium falciparum malaria in epidemic-

prone regions of ethiopia ii. weather-based prediction systems perform comparably to early detection systems in identifying times for interventions, Malar J 3 (2004), 44. 233. L. Thoraval, Analyse statistique de signaux lectrocardiographiques par modles de markov cachs, Ph.D. thesis, Universit Rennes I, 1995. 234. M. Thyer and G. Kuczera, A hidden markov model for modelling long-term persistence in multi-site rainfall time series. 2. real data analysis, J Hydrol 275 (2003), 2748.
235. A.G.B. Tie, B. Konan, Y.T. BROU, S. Issiaka, V. Fadika, and B. Srohourou,

Estimation des pluies exceptionnelles journalires en zone tropicale : cas de la cte d'ivoire par comparaison des lois lognormale et de gumbel, Hydrol Sci J 52 (2007), 4967.

117

Rfrences
236. M. Tiefelsdorf, The saddlepoint approximation of moran's i and local moran's i 's reference distribution and their numerical evaluation, Geogr Anal 34 (2002), 187206. 237. Y. Tour, The Anopheles gambiae genome : potential contribution to malaria vector control, 3rd MIM Pan-African Conference on Malaria (Arusha Tanzania), November 2002. 238. Y.T. Tour, O. Doumbo, A. Toure, M. Bagayoko, M. Diallo, A. Dolo, K.D. Vernick, D.B. Keister, O. Muratova, and D.C. Kaslow, Gametocyte infectivity

by direct mosquito feeds in an area of seasonal malaria transmission : implications for bancoumana, mali, as a transmission-blocking vaccine site, Am J Trop Med Hyg 59 (1998), 4816. 239. B.C. Tucker and M. Anand, On the use of stationary versus hidden markov models to detect simple versus complex ecological dynamics, Ecol Model 185
(2005), 17793. 240. B.W. Turnbull, E.J. Iwano, W.S. Burnett, H.L. Howe, and L.C. Clark,

Monitoring for clusters of disease : application to leukemia incidence in upstate new york, Am J Epidemiol 132 (1990), S13643. 241. K.A. Ulm, A simple method to calculate the condence interval of a standardized mortality ratio, Am J Epidemiol 131 (1990), 3735. 242. P. Vandekerkhove, Identicatuib de l'ordre des processus arma stables. contribution l'tude statistique des chanes de markov caches, Ph.D. thesis, Universit Montpellier II, 1997. 243. W. Vanderhoek, F. Konradsen, P.H. Amerasinghe, D. Perera, M.K. Piyaratne, and F.P. Amerasinghe, Towards a risk map of malaria for sri lanka : the importance of house location relative to vector breeding sites, Int J Epidemiol 32 (2003), 2805. 244. J.F. Viel, N. Floret, and F. Mauny, Spatial and space-time scan statistics to detect low rate clusters of sex ratio, Environ Ecol Stat 12 (2005), 28999. 245. T. Vischel and T. Lebel, Assessing the water balance in the sahel : Impact of 246. 247. 248. 249.

Wiley, Hoboken New Jersey, 2004. 250. L.A. Waller, E.G. Hill, and R.A. Rudd,

small scale rainfall variability on runo. part 2 : Idealized modeling of runo sensitivity, J Hydrol 333 (2007), 34055. J. Wakeeld and P. Elliott, Issues in the statistical analysis of small area health data, Statist Med 18 (1999), 237799. J. Wakeeld, M. Quinn, and G. Rabb, Disease clusters and ecological studies, J R Stat Soc [Ser A] 164 (2001), 12. T. Waldhr, The spatial autocorrelation coecient moran's i under heteroscedasticity, Statist Med 15 (1996), 88792. L.A. Waller and C.A. Gotway, Applied spatial statistics for public health data,

The geography of power : statistical performance of tests of clusters and clustering in heterogeneous populations, Statist Med 25 (2006), 85365. 251. L.A. Waller, D. Smith, J.E. Childs, and L.A. Real, Monte carlo assessments of goodness of t for ecological simulation models, Ecol Modell 164 (2003),
4963. 252. S.D. Walter,

The analysis of regional patterns in health data. ii. the power to detect environmental eects, Am J Epidemiol 136 (1992), 13659. 253. D. Wartenberg, Investigating disease clusters : why, when and how ?, J R Stat Soc [Ser A] 164 (2001), 1322.

118

Rfrences
254. R. Xu and S. Adak, Survival analysis with time-varying regression eects using a tree-based approach, Biometrics 58 (2002), 30515. 255. M.M. Yin and J.T.L. Wang, 63.

Eective hidden markov models for detecting splicing junction sites in dna sequences, Information Sciences 139 (2001), 139 method of analysis for

256. H. Zhang, T. Holford, and M.B. Bracken, A tree-based prospective studies, Statist Med 15 (1996), 3749. 257. W. Zucchini and P. Guttorp, A hidden markov tation, Water Resour Res 27 (1991), 191723.

model for space-time precipi-

119

Rsum Introduction

L'tude de la distribution spatiotemporelle du paludisme permet l'laboration de carte de risque. A l'instar de Ross, nous proposons une approche statistique et une modlisation dterministe. Parmi les mthodes dcrivant l'htrognit spatiale, nous dveloppons une mthode par arbre de rgression oblique (SpODT) dcoupant la rgion en zones de risques dirents. 5 mthodes gnrales de dtection de clusters sont compares et appliques la description du risque Bancoumana, Mali. La recherche de clusters spatiotemporels met en vidence les variations saisonnires et spatiales du risque palustre. Nous proposons un modle adapt Bancoumana tenant compte de la pluviomtrie simule par 4 mthodes (distribution empirique, chane de Markov caches, nonlinaire, nonparamtrique). Un modle de raction-diusion modlise la progression des anophles partir de leurs gtes et l'volution spatiotemporelle du risque.

Analyse spatiale et spatiotemporelle

Modlisation dterministe

121