You are on page 1of 18
Gms io- felihone Sonic B VEEN nate BIOSTATISTIQUES Mosher Comp Qrwenloare BUT DES STATISTIQUES Les statistiques permettent de confirmer ou d'infirmer une ame hypothése avec une marge d'ereur la plus petite possible, et/ou prédire un événement a l'aide d'outils. I t existe deux types de statistiques t——_ [tarpottses — O _ Les statistiques descriptives, permettant de ‘ décrire une série de données Fetenitlonage © Les statistiques inférentilles, consistant en des tests 1 parma Gecontrer cite ure pos a i Sur Torganigramme ci-contre représentant le processus de démarche scientifique, les tests statistiques permettent d'une part linterprétation des résultats, et d'autre par la ‘confirmation ou l'information d'une hypothése STATISTIQUES DESCRIPTIVES IDENTIFICATION DES DONNEES La population cible est la population dintéret. Elle consiste {Swish aie } en ensemble des éléments en principe visés par pmb ete échantilonnage. Quelle est l2 population cible ? II s'agit de la population sur laquelle on aimerait bien que les Conclusions de l'étude portent. Dans le cadre d'études sur "homme par exemple, celle-ci serait Homo sapiens. La population statistique permet de préciser notre échantilonnage : c'est ‘ensemble des éléments etfectivement représentés par celui-ci. Les éléments qui la composent se caractérisent par au moins une caractéristique commune et exclusive qui permet de les distinguer sans ambigiité. Quelle est la population statistique? Il fout ‘mentionner Ia ou les caractéristiques qui permettent de la distinguer de toute autre population statistique, Reprenant notre exemple, nous travaillecons par exemple sur des francais. Uéchantillon (sample) est le fragment d'un ensemble prélevé pour juger de cet ensemble. Ou, dit d'une autre facan, la fraction de la population statistique sur laquelle des mesures sont faites pour connattre les propriétés de cette population, U’échantillon (notre sélection par le hasard ou non de francais) est identifié par son effectif, noté n. Uéchantillonnage peut tre de deux types + Echantillonnage aléatoire simple, au sein duquel on préleve au hasard et de facon indépendante un certain nombre n d’éléments de Ia population statistique 8 N éléments. Chaque élément de la Population doit avoir Ia méme probabilite u'étre sélectionné. Exemple: mesure de la taille des personnes présentes dans 'amphi sur un effectif n=10 personnes. ‘+ Echantillonnage représentatif, refétant fidélement a complexité et la composition de la population. Uéchantillonnage aléatoire ainsi que Iinventaire exhaustif ou recensement sont deux fagons d’obtenir lun échantillon représentatif d'une population. Exemple : en fonction de la connaissance du systéme étusié, on peut échantillonner uniquement les personnes brunes. Uélément corcespond au membre d'une population statistique (spécimen, prélevement d'eau, individu). Quel est félément ? I faut le définir de maniére & pouvoir le reconnaiire sans ambiglit. C'est sur élément que Von effectuera la mesure de variables. En expérimentation, si l'on pose trés clairement les hypothases et que l'on Gefinit exactement les éléments, analyse de données et Vinterprétation de résultats en découlera naturellement. {a variable correspond a ce que 'on mesurera sur notre échantillon: c'est ce qui le décrira, Plus formellerent, lune variable consiste en toute caractéristique mesurable ou observable sur un éiément d’échantillonnage (wariable proare) ou sur son environnement variable associte). Par exemple, un descripteur, caractére, attribut, ubservation, trait, profil (ex géophysiquel, item (dans les questionnaires de psychologie), stimulus (dans une étude du comportement), Il existe différents types de variables, présentées dans le tableau ci- dessous. SS = on OO LSVS~Semestre 5 ~ Biostatistiques -2 Lobjectif de la représentation de données est la transmission d'un message clair au lecteur. Le graphique le plus simple est toujours le plus clair. Prenons exemple de la comparaison entre Ia taille des filles blondes et rousses de notre amphi. La taille est ici tne variable quantitative continue, induisant une série de données que l'on devra représenter. Le choix de le méthode de représentation se fait selon le type de série statistique (simple ou double), et le type de variable (qualitative, quantitative discréte ov continue) Dans le caére de séries statistiques simples, une seule variable est observée sur chaque élément. Les représentations & utliser sont incidemment + Un tableau, pour les distributions de fréquences, + Une figure, différente en fonction du type de variable Qualitative ou diseréte + Diagramme en batons + camembert Quantitative continue + Polygone de fréquences * Histogramme Courbede réquences gy VAR( 4 blew WAR TATE (OU Semi QUANTITAYE fh FAlBiE NOMBRE DE CLIO Chaque catégorie d’observations forme une classe, On dénombre les éléments de chacune d’entre elles, Prenons exemple de tables de distribution de tréquences de populations de sours en fonction de leur | Paste —[ a] || Reser stade de développement, Ces variables sont plus complexes & représenter. Il est nécessaire de regrouper les observations pour établir des classes en fonction de valeurs fixes d'une varlable discréte ou semi quantitative (exemple : Sge=1, 2, 3 ‘ans..J, d'une division imposée par la théorie (exemple : uvéniles, adultes, etc...), ou d'utiliser des régles mathématiques permettant Is production d'un nombre adéquat de classes. Parmi elles, + Ragle de Sturge : nombre de classes + (3,322.1og(n)) 5. ii = 2.5. Dans les deux cas, nous arsondirons le nombre de classes a Yentier le plus proche, le nombre de classes étant un entier + Ragle de Yule : nombre de classes LSVS~ Semestre 5 Blostatistiques - 3 DErINIRL ES BORNES, INTER VAUES ET iWO)CEL DE CLASSE Pour déterminer les intervalles et les bornes de classe + Labore infrieure d'une classe esta plus petite valeur admise dans la classe + La borne supérieure d'une classe est au contre la plus grande valeur admise dans a casse + _Lintevate de classe se elute aprosimativement avec la formule suivante; HCRA=z min + Linaice de classe correspond 8 la valeur centrale dela classe | faut faire en sorte de faire coincider les bores et les indices de classe avec des nombres comportant peu de décimales, et délimiter des classes d’égale étendue ne se chevauchant pas, DewUmBREMENT Enfin, i faut dénombrer les éléments appartenant & chaque classe (fréquence absolue ou effectif de la class) EKENE Peenons i longueur totale du erdne (mim) pour un sous 28 échantilon de 60 sours syivestres adultes (1! et It, 2163 tiré d'un échantilon de 122 souris de Landry (2000) Bae Leffectf de Féchantillon est de 24a 0. : 9 25.00 + Combien de classes? Selon les régles de 2.07 Sturge et Yule, nous devrons done osfinir 7 35.16 2548 classes. aa + Quelle sera I'étendue des classes ? L’stendue de variation de la variable est de 0,Smm. + Bornes, intervalles et ice des classes ? Attention, nous voulons des valeurs simples avec trés peu de décimales ! La valeur minimum des données est de 22,28. Nous avons ? classes de 0,Smm chacune. Une série simple donnerait les indices de classe suivants : 22,5, 23.0, 23,5, 24,0, 24,5, 25,0, 25,5, les bornes inférieure et supérieure de Ia premiére classe sont 22,25 et 22,75, et celles de la demniére classe 25,25 et 25,75. Nos classes incluent donc ensemble des 60 données, ce qui est nécessaire Attention, les classes ne se chevauchent jamais, la borne supérieure est généralement exclue de Fintervalle de classe, Les différentes frequences + Fréquence absolue, notée f + Fréquence relative, notée f + Pourcentage, noté %, 100. epale 3 t/n Feéquence cumulée d'une classe, notée f,yq, correspond au cumul step-by-step des fréquences absolues, la derniére fréquence cumulée étant égale 8 n Fréquence relative cumulée, notée frcomEBale 8 fan/ + Pourcentage cumulé, not6 %p, &gal 8 100.fa/n [SVS ~ Semestre 5 ~ Blastatistiques -4 Il existe plusieurs paramétres permettant de décrire une distribution, avec en premier lieu les paramétres de Position, correspondant aux valeurs centrales autour desquelles se groupent les valeurs observées. PARAMETRES BE PosiTION La moyenne de la distribution théorique des éléments x, aussi appelée moyenne arithmétique, sera notée lorsque Fon considére un échantillon, et yzrlorsque Yon considére une population. On Hobtient par la formule suivante La médiane, notée Me,consiste en la valour de la variable qui se trouve au centre de la série statistique, clessée en ordre croissant, Elle sépare la série en deux groupes d’égale importance. Sil y @ un nombre impair observations, Me est une observation de la série. Sinon, la médiane est située entre les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux valeurs. Le mode, noté Mo, est Vindice de la classe comportant le plus de valeurs. Dans une distribution continue, c'est la «bose» de la distribution. lI peut y avoir plusieurs modes dans une distribution, qui, dans le cas e'une dynamique de population, correspondent 3 plusieurs cohortes (individus nés d'une méme année). Le mode positionn ia distribution. Il est possible d'étre plus précis dans a definition de celui-ci en utilisant le calcul de made corrigé présenté ci-dessous, Mo = Observant la distribution d'un nombre de larves dun insecte lambda en fonction de la largeur de leur capsule céphalique, nous différencions quatre cohartes représentées par des modes multiples. Moke 2 Mote Mowenie Mecha pole ep hiigue LSVS~Semestre § ~ Biostatistiques - 5 Chaque paramatre deposition présente un ou plusieurs intéréts que nous résumerons dans le tableau ci u contre La plupart du temps, nous utilserons io calcul de moyenne. Cependant, valeurs des exceptionnelies _affectent . ci beaucoup ta valeur. ‘ Le definition de position non seulement de repérer une distribution idéale {en des paramétres nous permettra cloche), mais aussi d'identifier les autres types de distribution Les parametres de dispersion renseignent sur Fetalement des valeurs observés, et correspondent donc a la variabilté de la série étudice Uétendue de variation, ov range, est égal 8 la sifférence entre la valeur maximum et minimum de la série La variance permet d'estimer conerétement étendue des valeurs se trouvant autour de la moyenne, donc la variabilité. Cette derniére peut alors étre d'ordre biologique, ou peut étre causée par la mauvaise qualité ou le faible nombre des mesures le variance d'une Population sera notée o¥,, et la variance d'un échantillon &, expérimentales. La variance est calculée par la formule suivante Dix! = Cv" mo Uécart-type, ou standard deviation, noté o, pour une population ets, pour un échantillon, correspond & la racine carrée de Ia variance et est done donné parla formule “Fale Henne Ura Meine Ne) Made Moy) F “Diate a ee—> Difielle ce te on Moston pr» tot ps spl tiene + Phi prise ge Mo + Pour aris ne Shue Me + Mois alletee ge rm iscsi prude + Pout ite eau pour extras ‘hes viens ot + pease gush Le coefficient de variation, noté C.V., CV ou V, permet de comparer la variation de variables exprimées dans des physiques différentes. ll est donné par coriginellement unités & cv.= 100, lorsque les échantillons sont de petite taille (0<20}, on applique la correction suivante care (ueBew LSVS~Semestre $ ~ Biostatistiques - 6 Le coefficient d'asymétrie ou skewness mesure Fasymétrie d'une distribution, c'est-a-dire la facon dont la représentation de la distribution penche dun cété ou de autre. Ce coefficient est noté ay et est égal a =& ‘ou s', est le cube de I'écart-type de la distribution, is = Gaya 2) En fonction de la valeur de as, nous abtenons les eprésentations ci-dessous Le coefficient daplatissement, aussi appelé kurtose ou kurtosis, est note ay. Il est donné par la formule suivante 04 s*,est Is quatriéme puissance de I’écart-type de la distribution, et o& En fonction de la valeur de a, représentations ci-dessous }ous obtenons les LSvS~Semesire 5 ~ Biostatistiques -7 LES TESTS STATISTIQUES EN 9 ETAPES On formule la problématique & aide d'une question simple. On traduit la question biologique en hypotheses statistiques, Pour eel il est nécessaire d‘observer le probleme avec une approche statistique et de décider des paramétres des échantillons & comparer (moyenne, variance...) On définit deux hypotheses 1. Une hypothése nulle HO, qui est toujours une hypothase de non-effet (e il n'y a pas de différence entre...», «i n'y a pas de relation entre... ») 2. Une hypothase alternative 42, établie selon nos connaissances du domaine sous étude. 2 Sion ne connait rien, H1 est bilatérale :« ily a une relation entre...» b. Sion a des connaissances plus détailiées, on peut parfois les utiliser dans le test, Hi devient Unilatérale « ily 9 une relation positive entre...» Le test statistique ne teste que HO: on rejette ou ne rejette pas lhypothése nulle, Prenons I ‘exemple de tests Uunilatéraux et bilatéraux. + Test unilateral © MO Les longueurs moyennes des brochets du lac Raymond et du lac Abitibi ne diferent pas. HaHa © Hi: la longueur moyenne des brochets du lac Raymond est plus petite que celle du lac Abitibi Hacie + Test bilatéral 5 HO la vitesse catalytique moyenne de la fumarase est similaire de celle de Ia triose phosphate isomérase. © Hi: la vitesse catalytique moyenne de Is fumarase est différente de celle de la triose phosphate isomérase. u, Ai; En principe, les hypotheses doivent atre présentées en francais et en langage mathématique, Nous noterons également que lors de la déclaration des hypotheses, nous devons toujours utiliser les notations grecques dans le cadre d'études de populations STRIBUTION DE LA VARIABLE West nécessaire de définir tout ¢'abord te type de variable, discréte ou continue, puis en fonction définir le Rombre d’échantillons, Nous choisissons ensuite un test statistique. Notons que pour traiter un probleme identique, nous pouvons avoir le choix entre différents tests, chacun de ‘entre eux possédant des conditions d application trés strietes, LSS ~Semestre 5 ~ Biostatistiques - 8 Aprés avoir défini un seuil de probabilté pour le test, ‘on procéde au calcul de celui-ci. Ce seuil, nommé a, consiste en la probabilité d'erreur inhérente au test Dans le cadre de notre UE, nous le fixerons & @=0,05, Nous roduisons également la notion d'erreur Bi. Hct vie Hew fue le toet eH OK Precue Ero im Une fois que \'on 2 répondy & 'hypothése HO, on conelut biologiquement, ISVS ~ Semestre § ~ Biostatistiques - 9 LOI NORMALE Une fois nos distributions definies et représentées correctement, nous tenterons de défini si celles-ci sont comparables § des lois de distribution connues. Dans cette optique, nous pratiquerons systématiquement une Comparaison de notre distribution avec une distribution suivant une loi normale. 12 lo\ normale, dont la représentation aborde une courbe_en_cloche, repose sur I ‘estimation de deux paramétres de la population statistique + lamoyenne, notée u dans le cas d'une population et % pour la moyenne d'un échantillon +l écart-type a relatif & la population Sa formule, la « fonction de densité de probabilité », est la suivante la probabilité qu'une variable x prenne une valeur plus petite ou plus grande qu'une valeur x, est égale, respectivement, 3 I'aire de la surface présente sous la courbe avant et aprés la valeur x, Afin de ne pat travailler directement avec et formule brute et ainsi simplifier tes calculs de Probabilités, nous pouvons passer par une « loi normale centiée-rédulte », notée N(0,1), correspondant 8 une Ioi normale pour laquelle toutes les valeurs sont transformées en vue dobtenir une distribution de moyenne nulle et d'écart-type gal 3 1. Le \ranstormation des valeurs x en valeurs centrées-réduites 2, est effectuée via la formule suivante Aen o Une tell distribution posséde une aire totale égate & 1: pour 2 variant de <0 & 0, aire égale 05, La courbe est Parfaitement symétrique (F(2}f(-2)): aie pour 2 allant de -co 8 0 est égale & Vaire pour 2 allant de 0 a 400, La courbe est continue. I! existe différentes astuces de caleuliées aux propriétés des intégrales, {a loi normale est couramment utilsée lorsque nous désirons calculer la probabilité qu'une valeur 2 soit ei inférieure & une limite 2,: cette probabilité correspond 8 7 P(z<2) = Oz) Waide de la surface sous la courbe normale centrée réduite situge a gauche de axe vertical ayent pour abscisse la valeur 2. Notons ici que Ia notation @ est représcntative de Fare La Io} normale centrée-réduite est lide & une table ot sont répertariées les valeurs de probabilité en fonction de la valeur 2, LSVS ~ Semestre 5 ~ Biostatistiques - 10 Le beau frére de Robert a péché un saumon de $38,9mm dans le lac Raymond. En admettant que la longueur es saumons suive une loi normale N(467mm, 47,9mm), quelle est la probabilité que Robert péche un saumon plus long que celui de son beau-frére ? traduction en langage mathématique : P(x>538,9mm)= ? transformons 538,9mm en z = 82407 = 1591 (291,501) ,$01}=1-0,9332: donc P[x2$38,3mm) Pla>t,S01}=1-Pz< 1 2 3 4 0668 La probabilité que Robert péche un saumen plus long que celui de son beau-frére est donc de 6,68%. D’autres exemples de * a calcul peuvent étre consultés dans le diaporama du cours. i sor LOI DE STUDENT OU LO! DET la distribution de le variable t, correspondant au risque d'erreur lors d'un test statistique, est entre autres utilisée pour comparer les moyennes de deux échantilons, tester une corrélation lindaire ou tester la pente une régression, la table de t associde comprend des valeurs de t, notées tiny, positives de par la symétrie par Vaxe des ‘ordonnées de la distribution correspondant & 'ordonnée des points de la courbe. En effet, cette loi de t est représentée par une courbe en cloche similaire & une distribution normale. La distribution découlant de cette loi peut tre modifiée en fonction du degré de liberté v, celui-ci dependant du nombre de mesures effectuées, Ainsi, plus ie egré de liberté est important, plus la caurbe de t convergera vers une courbe normale centrée réduite. Le seull w correspond @ P(t> ty), Cest-adire la probabilité que { égsle ov dépasse une certaine valeur critique, définie en fonction du seuil de probabilité et du nombre de degrés de iberté. Attention ; le seuil peut étre unilatéral ou bilatéral! Si celui-ci est bilatéral, on le notera P(|t|> tiem) Prenons un exemple d'utilisation :cherchans la probabilité P(t,.>2,492), clest-d-dire la probsbilité que la valeur e t pour 24 degrés de liberté soit lus grande que 2,492. Cette probabilté étant unlatérale, nous lirons donc la tablet 3 la ligne 4, remarquons la valeur ty, 962,482, et remontons ala valeur a, égale & 0,01. LOL DU KHI-CARRE La loi du X? est obtenue en faisant ls somme des carrés de plusieurs lois normales pape: ls forme de te courbe de densité change en fonction de du degré de liberté. Un degré de liberté v= induit le tracé d'une courbe exponentielle décroissante ; lorsque v tend vers l'infini la courbe va tendra vers une courbe normale centrée-réduite. LSVS~ Semestre 5 ~ Biostatistiques - 12 La table fournit, pour différents nombres de degrés de liberté la valeur critique 72 correspondant & divers Sculls de probablité. Pour un nombre de degrés de liberté donné, elle satistat "égalité : P(z2 > x24) = @ U2 probablté donnée dans la table est toujours unilatérale 8 droite. Exemple : pour us25 et a=0,05, 42-37.65 LOI DE FISHER-SNEDECOR (F) L2loi de Fest un rapport de deux lois de x? & v, et U2 degrés de liberté divisées par leur nombre respectif de degrés de liberté, xy, bs forme de la courbe de densité de probabilité F change en fonction de v: et un. Cette loi est associée 3 la table F qui fournit pour différents nombres de degrés de liberté la valeur critique F correspondant & divers seuils de signification. La probabilité donnée dans la table est toujours unilatérale & droite. {SVS ~ Semestre S ~ Biostatistiques -12 Ces tests permettent de vérifier si une distribution donnée suit une loi normale. TEST DE KOLMOGOROV-SMIRNOV Le test de Kolmogorov-Smirnay est le test & effectuer systématiquement pour vérifier si la distribution de fréquences ¢'une variable x suit une distribution normale, Condition d’application : la variable x est continue En fonction de la taille des échantillons il existe deux méthodes de ealeul + Petit échantillon (<25), nous travaillons sur les données brutes, * Grand échantillon (>25), nous travaillons sur des données réparties en classes Letest est le suivant 1. Teen ord croisant des données 2. Transformation 2 entrage et réduction des valeurs dex 3. Calcul 8 partir de la table des fréquences relatives théoriques F qu’aurait une variable possédant la imérne moyenne et le méme éert-type, distribute normalement 4. Caleul des requences relatives cumulées observes nou gales 82 5. Recherche de la ditérence maximae D 8 Calcul de, max(lFrei(X) — Freten(% QD) Wai. 9. Pouran0,05, 0 = 8 8 Poure=0.01, Dy = avers = VR—0,01 + 288 7. Test: on ne rejette pas HO wu seuil asi ...30), le test statistique utilisé est un test 2 Student t vest 1. Pour chaque série statistique, on calcule et dresse au sein d'un tableau a. Moyenne b. Variance $2 c Fitectifa 2. fen calcule a Spa = b. 3. Test: on lita valeur f¢,»)dans la table t, et on la compare & la valeur teaic. Les régles de décision sont les suivantes i Rejet de Hast Si HO est veaie, alors la variable auxiliaire f.qie suivra une distribution de Student 3 v degrés de liberté. LSVS~ Semestre 5 ~ Biostatistiques - 14 Afi de vérifier 'homoscédasticité ou l'équivariance ¢une distribution, nous pouvons utiliser le mini test de F. Siles échantillons sont tirés de populations normales, le rapport de leurs variances suivra une distribution de F & vy et vs degrés de liberté. Conditions d’application : normalité des distributions de données des Echantillons. 1. Definition des hypotheses nulle et alternative 3 HO: les variances des deux échantillons sont égales, 5} b. HL sles variances des deux échantillons sont différentes, 5? = S? 2. Caleul a. Feaie = Si/Sf. Attention, il convient de toujours mettre la variance la plus grande au numérateur! bow ema t Ye=ng-1 3 Testsontit dans a table fa valeur Fa. gy ton rejette HO au seul asi Fate 2Peyy yyy Vobjectif de ce test est comme précédemment de tester la différence entre les moyennes de deux échantillons indépendants. La statistique U est basée sur le classement en ordre croissant des éléments des deux Echantillons. Si HO est vraie, les éléments des deux groupes devraient étre uniformément mélangés dans ce lassement. Ce sont donc les rangs des données, et non leurs valeurs précises, qui servent dans ce test En fonction de la taille des échantillons, il existe deux algorithmes de test 1. On pose les hypothéses * Hes rangs des données des deux groupes sont uniformémentdistribués: P(¥jy > 3)3) = 015, Cela signifie que six,; et.xj2 sont des éléments tirés aléatoirement de la premigre Population, il ya une chance sur deux pour que l'un soit plus grand que I + HA, hypothese altern: ‘autre a Biltérale: les rangs des données des deux groupes ne sont pas uniformément distribués. P(x. > x2) # 06. .Unilatérate 1 les rangs des données du premier groupe sont décalés vers les grandes valeurs. (xi.3 > x,2) > 05. les rangs des données du premier groupe sont décalés vers les petites valeurs. P(s,1%}2) < 0.5. 2 2. On dase les éléments des dex échanilns en ore erosant et on leur aslgne un rang, Si deux élément ont méme valeur, on eur signe un ang mean 2. On clele Ret Ry, respctvement Somme des rang des échentilons 1 et2 4. Oneal Uy = mong +E ee Uy = myn + OED Test + Blotéal 2. On lit la valeur Usage = min(Uy, U2) On lit dans la table U la valeur Ua ng LSVS— Semestre 5 ~ Blostatistiques - 15 1 2 © On compare les valeurs Ueue @t Unnne-Si Veute < Vang ON rejette HO. + Unilateral 2.La valeur U.aie est définie par 'un des deux U selon la ragle de choix ci-dessous, He wows fs pooped His mowpe 12 oops? Hy aroupe 1> groupe ? Hy: groupe 1 gronpe 2 Lawler ti o On lt dans a table Ula valeur Vang 6 On compare ies valeurs Ueaie € Usinsaye Si Ueate © Upinynge ON rejette HO, On répate les étapes 1.8 4 du précédent algorithme, Pour de tels effectits, U tend alors vers une lel normale, On calcule done la transformée centrée- réduite ow + ov us a-Formle single: ov = /SieiaaeD Formule corrigée, si plusieurs éléments occupent le méme rang + Bilateral 2. On lit la valeur 2 critique associde au seull a/2 b.Test silzl > Zevicigne aja 07 Fejette HO + Unilatéral a. Onlit la valeur z critique associée au seul « b.Test silzl > Zesique a On rejette HO LSVS~ Semestre 5 ~ Biostatistiques - 16 COMPARAISON DE DEUX ECHANTILLONS APPARIES Le principe de ce test repose sur 'snalyse des différences observées d pour chaque paire d'observations. Lors de la déclaration des hypotheses, nous prendrons soin de préciser que nous observons les différences entre ongueurs moyennes. Nous utilisons la notation 4 car le test est basé sur la moyenne de la population. Conditions d’application : échantillons appariés, différences de longueur suivant une distribution normale. 1, On pose les hypotheses 8. HO:iln'ya pas de différence entre la moyenne de la population 2 et 2; 1 b. Hilly aune différence entre la moyenne de la population 3 et 2; pltu2 2. Oncaleule au sein d'un tableau 3. Les différences entre les mesures appariges d b. Les moyennes des populations 3 et © La différence entre les moyennes des populations appariées oe Oh 4. Lavariance ded: sj = a e. Véeart-type de dsy = 59 2 Oniitlavaleur tw, dans ta tabi T b. On compare les val Let Hal Si lea Ite, i on rejette HO au seul. LE TEST T DE WILCOXON POUR ECHANTILLONS APPARIES Nous pouvons pratiquer ce test basé sur "étude des rangs des mesures si l'on dispose de moins de 60 dentre elles. Conditions d’application : deux échantillons sont appariés, variables semi-quantitatives. 1. On pose les hypotheses 3. HO: les rangs des données des deux groupes sont uniformément distribués, Pts > a2) = 05 b. HI i. Bilatérae: les rangs des données des deux groupes ne sont pas uniformément distribués, P(x. > x2) # 05 il Unilatérales + Lesrangs des données du premier groupe sont décales vers les grandes valeurs, (xi, > xj2) > 0S Les angs des données du premier groupe sont décalés vers les petites valeurs, (xis > a2) < 0S On détermine av sein d'un tableau la valeur des différences entre les échantillons appariés On classe ces differences dans Vordre croissant de leur valeur absolue On caleule fa somme 7" des rangs des valeurs positives ainsi que celle T~ des rangs des valeurs rnégatives, et 'on dint la valeur Tung = min (T*,T-) 5. Onseléve a valeur LSVS~Semestre § ~ Biostatistiquer - 17 8. On cherche a valeur Ty dans a table de T et on la compare avec Toys. SiTeayy Tog, on rejette HO au seuil lorsque l'on étudie plus de deux échantilions (2), nous utilserons le test paramétrique de Bartlett de ‘comparaison de k échantillons indépendants, TEST D’HOMOSCEDASTICITE OE BARTLETT Ce test basé sur I'équivariance entre plusieurs groupes vérifie et valide si les distributions des objets sont normaies. Conditions d’application : normalité des distributions. 1. Déclaration des hypotheses 2. HO : les variances des groupes sont égales, 6;= 03803, b. HL: au moins une variance differe des autres, 0.0, pour au moins un ij 2. Oncaleule les variances $3, de chaque groupe 3. Oncaleule 2 tamens, a Sip Ther D b. B= 2,3026.[log(5$,).B4 (mj — 1) ~ log(S2).Dk y(n, — D} 6 Celt sgay Chas aa 6 e. =1 Ont dans la table du x? le valeur x2. yet on la compare avec la valeur Be. $i Be > zy, on relette alors HO au seuil TRANSFORMATION DES DONNEES Lorsque les données ne sont pas distribuées normalement et que la normalité est requise pour un test donné, deux options s‘offrent a nous : utilisation de tests non paramétriques souvent moins puissants ou de tests par Permutation, au bien la transformation des données afin que celles-ci sulvent une distribution normale. Ces transformations peuvent se faire via + Logarithme In(x) pour des données strictement positives, ou encore In(x +1) si la variable x prend des valeurs positives ou nulles Racine VX pour des données positives fu nulles, ou encore VEFE si x prend tne ou des valeurs négatives Hine nous reste qu’a effectuer 8 nouveau un test de normalité afin de verifier sila transformation est adéquate. {SVS ~-Semestre 5 ~ Biostatistiques - 18

You might also like