You are on page 1of 18
270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE 2. NOTIONS DE STATISTIQUE é 2.1, Le concept de probabilit Le concept de probabilité est au centre des sciences statistiques. En tant que notion subjective, la probabilité est en quelque sorte le degré de croyance en la survenue d'un événement, dans un intervalle de variation continu entre limpossibilité et la certitude. En termes généraux, la valeur p attribuée par une personne a la probabilité P(E) dun événement E représente le prix que cette demiere est préte 2 payer pour gagner une somme d'argent déterminge, si ledit événement se matérialise. Si le prix que la personne est préte & payer est de x unités pour gagner y unités de monnaie, la probabilité assignée est P(E)= x / (x + y). Des mesures plus objectives de la probabilité se fondent sur les issues également vraisemblables et la fréquence relative qui sont décrits plus loin. En théorie statistique, il existe aussi une définition axiomatique rigoureuse de la probabilité, dont il ne sera pas question ici. Définition classique de la probabilité : Supposons qu'un événement E puisse se produire de x fagons différentes, sur un total de n fagons également vraisemblables. Dans ces conditions, la probabilité d'occurrence de l'événement E (ou de son succés) est donnée par erties 2 ” (2.1) La probabilité de non occurrence de 'événement (ou de son échec) est donnée par ~p = 1-PE) 23) On a donc p + q = 1, ou encore P(E) + P(non E) = 1. L'événement " non E " est parfois note & Eor~ E. Par exemple, supposons que la couleur des fleurs d'une espéce végétale particulidre soit gouvernée par la présence d'un géne dominant A dans un seul locus du gene, les combinaisons gamétiques AA et Aa donnant des fleurs rouges et la combinaison aa des fleurs blanches. E est 'événement " obtenir des fleurs rouges " dans la descendance par autofécondation d'un hétérozygote, Aa. Supposons que les quatre combinaisons gamétiques AA, Aa, aA et aa aient toutes les mémes chances d’étre réalisées. Puisque Févénement E peut étre réalisé par trois de ces combinaisons, on a 3 p=P(E)=4 La probabilité d’obtenir des fleurs blanches dans la descendance par autofécondation dun hétérozygote Aa est PE q= 4 Ale Notons que la probabilité d'un événement est un nombre compris entre 0 et 1. Si Tévénement ne peut pas se produire, sa probabilité est égale a 0. S'il doit se produire, Clest-a-dire si son occurrence est cerlaine, sa probabililé est égale a 1. Si p est la probabilité qu'un événement se produise, les chances de réussite sont p:q (lire ‘p contre tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 2rinzreazs 0227 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE q) ; et les chances d'échec sont q'p. Ainsi, dans exemple qui précéde, les chances 31 pigs sal d'obtenir des fleurs rouges sont égales 44 , ou 3 contre 1 Interprétation de la probabilité en termes de fréquence : L'inconvénient de la définition précédente tient au manque de précision de expression ‘également vraisemblable’ Etant donné que ces mots semblent étre synonymes de ‘également probables’, la définition est circulaire, puisque la probabilité est définie a partir d'elle-méme. C'est la raison pour laquelle certains ont préconisé une définition statistique de la probabilit Selon cette définition, la probabilité estimée, ou probabilité empirique, d'un événement est la fréquence relative de [occurrence de lévénement, sur un grand nombre dobservations. La probabilité proprement dite est la limite de cette fréquence relative lorsque le nombre d'observations augmente indéfiniment. La probabilité de I'événement E est exprimée par la formule P(E) = lim fy (E) (2.4) nov oi f, (E) = (nombre de fois ou E s'est produit)/(nombre total d'observations). Par exemple, une enquéte concernant une espace particuliére menacée d'extinction, a donné les suites de nombres de plantes de cette espace, indiquées ci-apré x (nombres de plantes de l'espéce menacée) : 1, 6, 62, 610 1n (nombres de plantes examinées) : 1000, 10000, 100000, 1000000 P (proportion de 'espéce menacée) : 0.001, 0.00060, 0.00062, 0.00061 Lorsque n tend vers I'infini, la fréquence relative semble tendre vers une certaine limite Cette propriété empirique est appelée stabilité de la fréquence relative. Probabilité conditionnelle, événements indépendants et dépendants : Si E, et Ez sont deux événements, la probabilité que Ez survienne, sachant que E; s'est produit, est notée P(Ez/E;) ou P(E2 sachant E;) et est appelée probabilité conditionnelle de Ez sachant que E; s'est produit. Si occurrence ou la non occurrence de E; est sans influence sur la probabilité d'occurrence de Ez, P(Ez/E,) = P(E) et les événements Ey et Ez sont dits indépendants. Dans le cas contraire, les événements sont dits dépendants. Si E,Ep est 'événement " réalisi composé, on a n de Ey et de E2 ", parfois appelé événement P(EE2) = P(E1)P(Ez/E4) (2.5) En particulier , P(E1E2) = P(E,)P(E2) si les événements sont indépendants. (2.6) Considérons par exemple la ségrégation conjointe de deux caractéres, tels que la couleur des fleurs et la forme des graines d'une espace végétal, chacun de ces caractéres étant respectivement gouverné par la présence des génes dominants A et B. Individuellement, les combinaisons AA et Aa donnent des fleurs rouges et la combinaison aa des fleurs blanches, les combinaisons BB et Bb donnent des graines arrondies alors que la combinaison bb produit des graines ridées. Soient E; et Ez les événements ‘obtenir des plantes a fleurs rouge’ et ‘obtenir des plantes & graines arrondies’ dans la descendance respectivement obtenue par autofécondation dun hétérozygote AaBb. Si Ey et Ez sont des événements indépendants, c'est & dire s'il n'y a pas diinteraction entre les deux locus de gane, la probabilité d'obtenir des plantes a fleurs rouges et a graines rondes dans la descendance autofécondée est, tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE (Al) - P(E1E2)=P(E)P(Eg)# 47 M4, 16 En général, si E;, Ep, Es, ..., Ey sont n événements indépendants ayant les probabilités respectives p1, Dz, P3, -.-1 Pp, [a probabilité occurrence de E, et Ez et E3 et... E, est PAP2P3:--Pre 2.2. jistribution de fréquence ‘Vu la grande utiité pratique de linterprétation de la probabilité en termes de fréquence, on établit souvent des distributions de fréquence pour réduire d'importantes masses de données brutes, car cette technique donne des informations sur le mode de réalisation de classes d'événements prédéfinies. Les données brutes sont des mesures d'un attribut quelconque concernant un groupe diindividus, La mesure peut étre faite a échelle nominale, ordinale, proportionnelle ou par intervalle. L’échelle nominale se réfere a une mesure a son niveau le plus faible, lorsqu'un nombre ou d'autres symboles sont utilisés uniquement pour classer un objet, une personne ou une caractéristique, comme par exemple l'état de santé (sain, malade). L'échelle ordinale est celle dan: laquelle, dans un groupe de classes d’équivalence connu, la relation " plus grande que convient pour toutes les paires de classes, de sorte qu'un classement complet par ordre de grandeur est possible (ex : situation économique et sociale). Si une échelle a toutes les caractéristiques d'une échelle ordinale et si l'on connait en outre l'amplitude des distances entre deux nombres quelconques sur I'échelle, on a une échelle par intervalle, comme par exemple les échelles de température centigrade ou Fahrenheit. Une échelle par intervalle ayant un zéro absolu a son origine forme une échelle proportionnelle. Dans une échelle proportionnelle, le rapport de deux points quelconques de I'échelle est indépendant de l'unité de mesure, ex : hauteur des arbres. On peut se référer a Siegel (1956) pour une analyse détaillée des différentes échelles de mesures, de leurs propriétés et des opérations possibles dans chaque échelle, Indépendamment de 'échelle de mesure, la réduction des données peut se faire par la méthode dite des fréquences de classe, qui consiste a répartir les données en classes ou catégories et a déterminer le nombre d'individus appartenant a chacune de ces classes. On appelle distribution de fréquence, ou tableau de fréquences, la mise en tableaux de données ventilées par classes, avec les fréquences de classes correspondantes. Le Tableau 2.1 présente une distribution de fréquence des diametres a hauteur d'homme (dbh) enregistrés au centimetre le plus proche, de 80 Tecks, sur une Parcelle-témoin. La fréquence relative d'une classe, généralement exprimée en pourcentage, est égale a la fréquence de la classe considérée divisée par la fréquence totale de toutes les classes. Ainsi, la fréquence relative de la classe 17-19, dans le Tableau 2.1 est (30/80)100 = 37,4%. La somme de toutes les fréquences relatives de toutes les classes est bien entendu égale a 100%. Tableau 2.1. Fréquence de Tecks, sur une parcelle. ribution des diamétres a hauteur d'homme (dbh) des Classe de dbh Fréquence Fréquence relative (om) (Nombre d'arbres) %) 11-43 1 138 14-16 20 250 17-19 30 374 20-22 15 188 tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 379%2C4%425, 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE 23-25 4 5.0 Total 80 100.0 Le symbole définissant amplitude d'une classe, tel que 11-13 dans le tableau ci-dessus, est appelé intervalle de classe. Les chiffres extrémes 11 et 13 forment les limites de classe ; le plus petit nombre (11) constitue la limite inférieure de classe, et le plus grand la limite supérieure de classe. Les termes de " classe " et" intervalle de classe * sont souvent utilisés indifféremment 'un pour l'autre, a tort, car 'intervalle de classe est en réalité un symbole de la classe. Un intervalle de classe pour lequel 'une des deux limites (supérieure ou inférieure) n'est pas indiquée, au moins en théorie, est dit intervalle de classe ouverte ; l'intervalle de classe " 23 cm et plus " est par exemple un intervalle de classe ouverte. Si les valeurs des doh sont enregistrées au centimetre le plus proche, la classe diintervalle 11-13 comprend théoriquement toutes les mesures allant de 10,5. 13,5 cm. Ces nombres sont les extrémités, ou limites réelles, des classes; le plus petit nombre (10,5) est l'extrémité inférieure de Ja classe et le plus grand (13.5) 'extrémité supérieure de la classe, Dans la pratique, les limites réelles des classes s'obtiennent en ajoutant la limite supérieure d'un intervalle de classe a la limite inférieure de lintervalle de classe suivant plus élevé, et en divisant par deux. Il arrive que les classes soient symbolisées par les extrémités de classe. Par exemple, les symboles des différentes classes de la premiére colonne du Tableau 2.1 pourraient @tre 10,5-13,5 ; 13,5-16,5 ; etc, Pour éviter toute ambiguité lorsque on utilise ces notations, on évitera que les extrémités de classe coincident avec des observations effectives, En effet, a supposer par exemple que 'une des mesures observées soit 13,5, il serait impossible de savoir s'il faut la ranger dans classe d'intervalle 10,5-13,5 ou 13,5- 16,5. L’étendue d'une classe diintervalle, ou amplitude de la classe, est égale a la différence entre les extrémités inférieures et supérieures. La valeur centrale de la classe est le point médian de I'intervalle de classe, qui se caloule en additionnant les limites inférieure et supérieure de la classe et en divisant par deux. Les distributions de fréquence sont souvent représentées graphiquement par un histogramme ou polygone de fréquences. Un histogramme est formé d'une série de rectangles, dont les largeurs, ou bases, sont situées sur un axe horizontal (axe x) les centres se tr ouvant au niveau des valeurs centrales des classes, et les longueurs(ou hauteurs) étant égales aux amplitudes des classes diintervalle et les surfaces proportionnelles aux classes de fréquence. Si tous les intervalles de classes ont la méme amplitude, les hauteurs des rectangles sont proportionnelles aux classes de fréquences, auquel cas on prend habituellement des hauteurs numériquement égales aux classes de fréquences. Si les intervalles de classe n’ont pas la méme amplitude, ces hauteurs doivent étre ajustées. Un polygone de fréquence est un graphique linéaire mettant en corrélation la fréquence de classe et la valeur centrale d'une classe. II s‘obtient en reliant les points médians des sommets des rectangles dans I’histogramme Figure 2.1, Histogramme illustrant la distribution de fréquence des dbh tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE Frequency 35 20 B a 15 10 2 1 18 2 om dob Figure 2.2. Polygone de fréquence illustrant la distribution de fréquence des dbh Frequency 2 15 18 a a4 dbh 2.3. Prop! tés de la distribution de fréquence Une fois la distribution de fréquence établie, on peut en tirer un certain nombre de paramétres qui conduisent & une réduction ultérieure des données. Ces paramétres. sont les mesures de position, de dispersion, d'asymétrie et d'aplatissement, 2.3.1, Mesures de position Une distribution de fréquence peut étre localisée par sa valeur moyenne qui est caractéristique ou représentative de la série de données. Etant donné que ces valeurs caractéristiques tendent & se grouper vers le centre, dans une série de données arrangée en fonction de la grandeur, ces moyennes sont aussi appelées mesures de la tendance centrale, On peut définir plusieurs types de moyennes, les plus communes étant la moyenne arithmétique (ou en abrégé la moyenne), la médiane et le mode. Chacune a des avantages et des inconvénients, qui dépendent du type de données et du but poursuivi, Moyenne arithmétique : La moyenne arithmétique, ou moyenne, d'une série de N nombres x4, X2, X3, .- Xyest notée * (lire x barre’) et définie par apt tay tact ay Moyenne= ¥ (27) tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 270212026 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE BY Sex rc N x x, Le symbole #1 " caractérise la somme de tous les xj de j= 1a N. Par exemple, la moyenne arithmétique des nombres 8, 3, 5, 12, 10 est Q+3+5+12+10 _ 38 5 5 76 Si les nombres x1, Xp, .... Xx apparaissent respectivement fy, fp, ... fk fois (Cest & dire sills apparaissent avec les fréquences respectives fy, fp, .... fx) la moyenne arithmétique est At aX to * Fake At tytn t fe (2.8) xy LP ot V= 2 est ia fréquence totale, c'est a dire le nombre total de cas. La moyenne des données groupées du Tableau 2.1 se calcule comme suit *Etape 1. Trouver les centres , ou points médians, des classes. A cette fin, additionner les limites inférioure et supérieure de la premiere classe et diviser par 2. Procéder de la méme maniére en additionnant Tintervalle de classe, pour chacune des classes suivantes, *Etape 2. Multiplier les points médians des classes par les fréquences correspondantes, et faire la somme des résultats pour obtenir Da Les résultats de ces étapes peuvent étre résumés comme indiqué dans le Tableau 2.2. Tableau 2.2. Calcul de la moyenne a partir des données groupées Classe de | Point r ik diamétre | median (om) x 11-13 12 1 132 14-16 15 20 300 17-19 18 30 540 20-22 24 16 315 23.25 24 4 96 Total Dv=s0 | Da=383 *Etape 3. Remplacer les valeurs dans la formule tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, ens 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE ee a ~S ES = 80 cm Médiane : La médiane d'une série de nombres rangés par ordre de grandeur (c.a.d., dans un ensemble) est la valeur centrale ou la moyenne arithmétique des deux valeurs centrales. Par exemple, la médiane de la série de nombres 3, 4, 4, 5, 6, 8, 8, 8, 10 est 6. Celle de 1 <(9+11) la série de nombres 5, 5, 7, 9, 11, 12, 15, 18 est 2 =1 Dans le cas des données groupées, la médiane, obtenue par interpolation, est donnée par la formule Médiane (2.9) oli Ly = extrémité inférieure de la classe médiane (c'est-a-dire de la classe contenant la médiane) N= nombre d'éléments des données (ou fréquence totale) (ZY) f, I= somme des fréquences de toutes les classes inférieures a la classe médiane = fréquence de la classe médiane c= amplitude de l'intervalle de la classe médiane, Géométriquement, la médiane représente Ia valeur de x (abscisse) correspondant a la ligne verticale qui divise un histogramme en deux parties d'aires égales. Le calcul de la médiane des données groupées du Tableau 2.1. se fait de la fagon suivante: *Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et supérieure de la premiére classe et diviser par 2. Procéder de la méme maniére en additionnant lntervalle de classe, pour chacune des classes suivantes, *Etape 2. Ecrire les fréquences cumulées et présenter les résultats comme le Tableau 2.3, iqué dans Tableau 2.3, Calcul de la médiane des données groupées Classe de | Point | Fréquence | Fréquence dbh(cm) | médian , cumulée 11-13 2 11 1 14-16 15 20 31 17-19 18 30 61 20-22 21 15 76 23-25 28 4 80 [ma Crea | ~*d tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE *Etape 3. Trouver la classe médiane en localisant le (N / 2)-6me terme dans la colonne des fréquences cumulées. Dans cet exemple, N / 2=40. Ce terme rentre dans la classe 17-19, qui est donc la classe médiane. “Etape 4, Utiliser la formule (2.9) pour calculer la médiane. Médiane = =174 Mode : Le mode d'une série de nombres est la valeur qui apparait avec la plus grande fréquence, c'est a dire la valeur la plus commune. Le mode peut ne pas exister, et, méme s'il existe, il peut ne pas étre unique. La série de nombres 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 a pour mode 9. La série 3, 5, 8, 10, 12, 15, 16 n’a pas de mode. La série 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9a deux modes 4 et 7 , on dit qu'elle est bimodale. Une distribution ayant un’ mode unique est appelée unimodale. Dans le cas de données groupées représentées par une courbe des fréquences, le mode sera la valeur (ou les valeurs) de x correspondant au(x) point(s) maximum(s) de la courbe. A partir d'une distribution de fréquence ou d'un histogramme, le mode peut étre obtenu en utilisant la formule suivante Mode= ita} (2.10) oll L, = Extrémité inféricure de la classe modale (c.2.d. de la classe contenant le mode). f, = Fréquence de la classe précédant la classe modale. fy = Fréquence de la classe suivant la classe modele. c= Amplitude de lintervalle de la classe modale. Pour calculer le mode a partir des données groupées du Tableau 2.1., on procéde ‘comme suit: “Etape 1. Trouver la classe modale, La classe modale est la classe pour laquelle la fréquence est maximale. Dans notre exemple, la fréquence maximale est 30, par conséquent la classe modale est 17-19 *Etape 2. Calculer le mode a laide de la formule (2.10.) rese( 2s Mode = 15 +20, = 17.79 Diaprés les directives générales concernant l'utilisation des mesures de position, la moyenne s'utilise essentiellement dans le cas de distributions symétriques (voir Section 2.3.3) puisqu'elle est fortement influencée par la présence de valeurs extrémes dans les données. La médiane posséde lavantage d’étre calculable méme dans le cas di classes ouvertes, et le mode est utile dans le cas de distributions multimodales puisqu apparait comme l'observation la plus fréquente dans une série de données. 2.3.2. Mesures de dispersion tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, ane 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE Le degré auquel des données numériques tendent a s’écarter d'une valeur moyenne est appelé variation ou dispersion des données. Il existe plusieurs mesures de la variation ou de la dispersion des données, comme I'étendue, l'écart moyen ou l'écart semi= interquartile, mais la plus commune est I'écart-type. Ecart-lype: L’écart-type d'une série de N nombres x4, X2, .... Xy est défini par la formule suivante (2.1) ot ¥ désigne la moyenne arithmétique. Lécart-type est donc la racine carrée de la moyenne des carrés des écarts des valeurs individuelles par rapport leur moyenne, ou, comme on l'appelle parfois, 'écart quadratique moyen. L’écart-type se calcule souvent a l'aide de la formule suivante qui est plus simple FF] N ¢ Par exemple, la série de données ci-aprés représente les diamétres a hauteur d’homme (dbh) de 10 Teck prélevés au hasard dans une parcelle : 23.5 ; 11.3, ; 17.5 ; 16.7; 9.6; 10.6 ; 24.5 ; 21.0; 18.1; 20.7, Ecat-type= 2.12) 3266.5 et .* = 173.5, Par conséquent Ecatt -type 3266.5 _ (173.5 10 10 5.062 Si x4, Xp, --. xq ont pour fréquences respectives fy, fo, fc calculé avec la formule ;cart-type peut-étre Ecact-type= Une forme équivalente, souvent utile dans les calouls, de réquation (2.13) est la suivante Ecact-type= ee (2.14) La variance d'une série de données est le carré de I'écarttype. Le rapport de lécart- type a la moyenne, exprimé en pourcentage, est appelé coefficient de variation. Pour illustrer ces notions, reprenons les données du Tableau 2.1 “Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et supérieure de la premiére classe et diviser par 2. Procéder de la méme maniére pour chacune des classes suivantes, en additionnant I'intervalle de classe. hitpslwww fa0,org/3(X6831F7K6831108.himi:~text=La fréquence relative tune, 100 %3D 37%42C8%425, ons 27iva028 0227 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE *Etape 2. Multiplier les centres des classes par les fréquences correspondantes, et sommer tous ces produits pour obtenir A, “Etape 3. Multiplier les carrés des points médians des classes par les fréquences correspondantes, et fare la somme de tous les produits pour obtenir 2s Les résultats de ces calculs peuvent étre résumés comme indiqué dans le Tableau 2.4. Table 2.4, Calcul de l'écart-type a partir des données groupées Classe de Point |Fréquence| fx te diamétre médian ' (cm) x 11-13 12 1 132 1584 14-16 15 20 300 4500 17-19 18 30 540 9720 20-22 24 15 315 6615 23-25 24 4 96 2304 Total 80 1383 24723 *Etape 4, ATaide de la formule (2.14), calculer 'écart-type et en déduire la variance et le coefficient de variation Evatt -type Variance = (Ecart-type )? = (3.19)? = 10.18 Beart -t¥P€ agg) Coefficient de variation = Moyenne 319 (100) 17.29 = 18.45 Léécart-type et la moyenne ont tous deux des unités de mesure, alors que le coefficient de variation n’en a pas. Le coefficient de variation est donc utile pour comparer l'ampleur de la variation de caractéres qui ne s'expriment pas dans les mémes unités de mesures. Cette propriété est utile pour comparer les variations de deux séries de nombres dont les moyennes différent. Supposons, par exemple, que l'on veullle comparer les variations de la hauteur des plantules et de celle d'arbres plus Agés appartenant a une méme espéce, Supposons que les moyennes et les écarts-lypes respectifs soient les suivants Hauteur moyenne des arbres = 50 om, Ecart-type de la hauteur des arbres= 10 cm. Hauteur moyenne des arbres = 500 cm, Ecart-type de la hauteur des arbres= 100 om. La valeur absolue de lécart-type donne penser que la variation est plus grande dans le cas des arbres, mais la variation relative, indiquée par le coefficient de variation (20%) est la méme dans les deux cas. 2.3.3. Mesures d'asymétrie tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, s0n8 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE Ce paramétre mesure le degré d’asymétrie, ou l'écart par rapport a la symétrie, d'une distribution. Si la courbe des fréquences (polygone lisse des fréquences) d'une distribution est plus ‘allongée' vers la droite du maximum central que vers sa gauche, on dit que la distribution est désaxée vers la droife ou encore qu'elle a une asymétrie positive. Dans le cas contraire, on dit qu'elle est désaxée vers la gauche ou qu'elle a une asymétrie négative. Un mesure d'asymétrie importante, exprimé sous une forme adimensionnelle, est donnée par la formule Bre (2.16) Dans le cas de données groupées, ces moments sont donnés par By (2.17) Dans le cas d'une distribution symétrique, 8! = 0. L'asymétrie est positive ou négative selon que *3 est positif ou négattf, Les données du Tableau 2.1 sont utilisées comme exemple pour illustrer les étapes du calcul de la mesure d'asymétrie. *Etape 1. Calculer la moyenne. Sir Moyenne= Df = 17.29 *Etape 2. Calculer fj (xj- %), fj (xj-%)° et leurs sommes récapitulées dans le Tableau 25. Tableau 2.5. Les étapes du calcul du coefficient d'asymétrie a partir de données groupées Classe de | Point t ® | 40-8) | He- 2 | fey) Jdiamatre (cm)| _médian % Ho BY | Hog 2 | hos BY 11-13 2 1 | -529[ _307.83/ -1628.30| 8614.21 14-16 15 202.29 104.88[ 240.18] $50.01 17-49 18 30_|_ 071 15.12 10.74 7.62 20-22 24 16 | 371| 206.46| _765.97/ 2841.76) 23.25 24 4 | 67i[ 180.10] _1208.45| 8108.68 Total 80 | 355[ 814.30) 116.68) 2012228 *Etape 3. Calculer “2 et “3 a l'aide de la formule (2.17). tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 118 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE = 1.46 *Etape 4. Calouler la mesure d'asymétrie a l'aide de la formule (2.15). (1.46)? 5, 5 Coefficient de moment d'asymétrie= " (10.18) = 0.002. Comme *1= 0,002, ia distribution est tres Iégerement désaxée, ou encore rasymétrie est négligeable. L'asymétrie est positive puisque “? est positif. 2.3.4, Kurtose La kurtose est le degré d'aplatissement d'une distribution, généralement considéré par comparaison avec une courbe de distribution normale. Si une courbe est plus pointue que la normale, elle est " leptocurtique ", si elle a un sommet aplati, on parle de courbe " platicurtique ". Une courbe en forme de cloche, ni trop pointue ni trop aplatie est dite " mésocurtique " Une mesure de l'aplatissement, exprimée sous forme adimensionnelle, est donnée par Be 82> Coefficient de moment d'aplatissement #2 (2,18) ou “4et #2 peuvent étre calculés avec la formule (2.16) dans le cas de données non groupées et avec la formule (2.17) dans le cas de données groupées. On dit que la distribution est normale si ®2= 3, Lorsque ®2est supérieur a 3, la distribution est leptocurtique. Si®2 est inférieur & 3, elle est platicurtique. Reprenons, par exemple, les données du Tableau 2.1. pour calculer le coefficient de moment de l'aplatissement, *Etape 1. Calculer la moyenne at Moyenne = DS =17.29 “Etape 2. Calculer f(x) ¥)°, f (x;-% et leur somme, d'aprés les données résumées du Tableau 2.5. *Etape 3. Calculer “2 et “4a l'aide de la formule (2.17). tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, rane 270212028 02:27 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE 20122.28 80 = 251.63, *Etape 4. Calculer la mesure d’aplatissement a l'aide de la formule (2.18) 25153 Toe Coefficient de moment d'aplatissement = 2.43. La valeur de ©2 est 2,38, chiffre inférieur & 3. La distribution est donc platicurtique. 2.4. tributions théoriques discrétes Lorsqu'une variable X peut prendre un ensemble discret de valeurs x1, X2...., Xq avec les probabilités respectives py, p, .., px ol 21*P2*-*Px=1 on dit qu'une distribution discréte de probabilités a été définie pour la variable X. La fonction p (x) qui prend les valeurs py, Pz, -... Pk POUT X = X1, Xp, ..., Xx respectivement, est appelée fonction de probabilité ou fonction de fréquence de X. Comme X peut prendre certaines valeurs avec des probabilités données, on dit souvent que c'est une variable aléatoire discréte Par exemple, supposons que l'on jette deux dés non pipés et que X désigne la somme des points obtenus. La distribution de probabilités sera donnée par le tableau suivant : x |2 |3 la 5 6 7 8 9 ft ja | 42 pix) | 186 | 2136 | 3/36 | ase | sis6 | 636 | 5/36 | 4/36 | 336 | 2136 | 1/36 La probabilité d'obtenir la somme 5 est 4/36 = 1/9 . Cela signifie que si les dés sont jetés 900 fois, on peut s’attendre a ce qu’ils marquent 100 fois la somme 5. Remarquons lanalogie avec la distribution de fréquence relative, les probabilités jouant ici le rdle des fréquences relatives. On peut donc voir les distributions de probabilités comme des formes limites théoriques, ou idéales, des distributions de fréquence, lorsque le nombre dobservations est trés élevé. C’est la raison pour laquelle les distributions de probabilités s'appliquent tres bien aux populations, alors que les distributions de fréquence relative concement des échantillons prélevés dans cette population. Si les valeurs de x peuvent étre rangées dans un ordre, comme dans le cas de nombres réels, on peut définir une fonction de distribution cumulative, F(x}= Srl) 3° pour tout x (2.19) tps: fao.org/31X6831F7K6831f08.himd-~text=La fréquence relative tune, 100 %9D 37942043425, 1318 27iv2028 0227 MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE F(x) est la probabilité que X prenne une valeur inférieure ou égale a x. Nous allons maintenant nous arréter briévement sur deux importantes distributions discrétes, qui reviennent souvent dans les travaux de recherche forestiére, et qui pourront nous étre utiles parla suite. 2.4.1. Distribution binomiale Les distributions binomiales apparaissent dans le cas d'une succession de n expériences, identiques et indépendantes, dont chacune aboutit a un résultat dichotomique, tel que ‘succes’ ou ‘échec’. La loi binomiale s'applique si la probabilité d'obtenir x sucoés a partir de n expériences répétées est donnée par la fonction suivante p p(x) [por x=0,12,.,% * (2.20) oti n est un entier positif et O0. La variable X prend les valeurs de 0 a ¥ Dans les études écologiques, on constate que certains organismes rares sont répartis au hasard dans l'espace. Lorsque c’est le cas, on remarque que les observations sur le nombre d'organismes trouvés dans de petites unités d’échantillonnage suivent une loi de Poisson. Une distribution de Poisson est déterminée par I'unique paramétre | qui est la fois la moyenne et la variance de la distribution, L'écart-type est par conséquent YX. A partir d'échantillons, on peut estimer les valeurs de | par 2 (2.23) oles x; sont les nombres de cas détectés dans unité d’échantillonnage et n est le nombre d'unités d’échantillonnage observées. Prenons l'exemple d'un biologiste qui observe le nombre de sangsues présentes dans 100 échantillons prélevés dans un lac d'eau douce. Si le nombre total de sangsues capturées est de 80, le nombre moyen par échantillon se calcule comme suit, 22 99 —=08 nx 100 Si la variable suit une loi de Poisson, la probabilité de prélever au moins une sangsue dans un nouvel échantillon peut étre calculée par 1 - (0), ce qui donne : (a8ye** 1-2(0) =1-=j— = 0.5507 2.5. Distributions théoriques continues idée de distribution disoréte peut s'étendre au cas d'une variable X pouvant prendre un. ensemble continu de valeurs. Dans le cas théorique, ou limite, dune population, le polygone des fréquences relatives d'un échantillon devient une courbe continue d’équation y = p(x), comme celle de la Figure 2.3 Figure 2.3. Graphique d'une distribution continue Ped a8 ¥ Laire totale comprise entre la courbe et I'axe X est égale a un, et l'aire contenue sous la courbe délimitée par les droites X = a et X = b (zone ombrée sur la figure) représente la probabilité que X soit comprise entre a et b, ce que l'on note par P(a << 95.45% ——___, <9, 75% > Si aire totale comprise entre la courbe et l'axe de la Figure 2.4 est prise comme unité de surface, l'aire sous la courbe délimitée par les droites X = a et X = b, oli axb, représente la probabilité, notée P(a

You might also like