You are on page 1of 111

Licence 1, Tronc Commun, Médécine et Pharmacie

Université Nazi BONI, Bobo-Dioulasso

La biostatistique

Dr Barro Seydou, MPH, PhD


Enseignant-Chercheur
Epidémiologiste,
Spécialiste d’informatique médicale
Expert des systèmes d’information en santé
Seydou_golo@yahoo.fr
OBJECTIFS DU COURS

• ETRE CAPABLE DE
• Définir les principaux concepts utilisés en biostatistique

• Pratiquer les principales techniques de statistique


descriptive

• Mettre en œuvre ces techniques de manière appropriée


dans un contexte donné

2
GENERALITES SUR LA BIOSTATISTIQUE
• La biostatistique consiste à appliquer un traitement
statistique à des données biologiques
• C’est un champ interdisciplinaire qui associe la biologie
(santé), l’informatique et les mathématiques statistiques
• En recherche clinique, la biostatistique comprend les
méthodes statistique, la modélisation statistique, la
compilation et l’analyse des données collectées, ainsi que
l’interprétation des résultats

• BIOSTATISTIQUE = STATISTIQUE appliquée à la


biomédecine et à la santé
3
QU’EST-CE QUE LA STATISTIQUE?
• Etude de la collecte de données, leur analyse, leur
traitement, l’interprétation des résultats et leur
présentation

• Statistique: à la fois science, méthode et ensemble de


techniques

• Permet de décrire les phénomènes étudiés, faire des


prévisions et prendre des décisions

• La statistique cherche à résumer les données de manière


simpliste, pour identifier une loi générale
indépendamment des impressions susciter par les
observations apparentes
4
ORIGINE DE LA STATISTIQUE

• Statistique vient du latin status = « état » et le terme


« statisticum » est apparu à la fin du XVII ° siècle

• A l’origine, née de l’activité de recueil des données


répondant aux besoins des gouvernements des grands
empires désireux de connaître des éléments de leur
puissance : population, potentiel militaire, richesse, . . .

5
DEFINITION DE CONCEPTS
«LA STATISTIQUE » ET «LES STATISTIQUES »
1. la statistique
• La statistique est une science.
• Origine récente et s’est développé parallèlement aux
autres sciences surtout la mathématique.
• Méthode d’observation, de description, d’analyse d’une
ou de plusieurs ensembles définis dans le cadre d’une
situation à l’aide d’un dénombrement partiel ou total de
ces unités constitutives.
• La statistique peut être descriptive ou inferencielle.
• Elle utilise des méthodes d’observation directe ou
indirecte.

6
DEIFNITION DE CONCEPTS
«LA STATISTIQUE » ET «LES STATISTIQUES »?

2. les statistiques
• séries de chiffres, de données numériques, qui sont
le résultat de séries d’observations se rapportant à
l’un ou l’autre phénomène qu’on désire étudier.
• Ces chiffres sont toujours classés dans un tableau,
appelé tableau statistique
• On parle des statistiques démographiques,
sanitaires, sociales, industrielles, commerciales,
etc…

7
LES SOUS DISCIPLINES DE LA STATISTIQUE

Deux sous disciplines (descriptive et inférentielle)


• Statistique descriptive: Branche qui concerne la description
de la population étudiée
• Organiser, analyser et présenter les données de manière
significative à l’aide de tableau, graphique, cartes,…
• Statistique inférentielle: Branche qui vise à étendre (inférer)
les propriétés constatées sur l'échantillon (grâce aux tests
statistique par exemple) à la population toute entière et de
valider ou d'infirmer des hypothèses.

• Pour le présent cours nous nous limiterons à la


statistique descriptive
8
LA STATISTIQUE DESCRIPTIVE

• Décrit les caractéristiques importantes de l'ensemble de


données

• Utilise des mesures de tendance centrale (moyenne,


médiane, mode et les mesures de dispersion (écart type,
variance, etc..)

• Les données sont résumées de manière utile, à l’aide de


graphiques, de tableaux,… afin de représenter les données
de manière précise

9
Les éléments de la Biostatistique:
individu, population, variable
• Observation = mesures effectuées
• Observation est faite sur des éléments appelés
« individus » ou « unités statistiques »

• Ensemble des individus = « population ».


• Il faut savoir que les mots « individus » et « population » ont
un sens plus général que dans le langage courant

• Ainsi, un individu peut être une personne, un être vivant


quelconque

• On pourra donc parler de population d’étudiants, de tables,


de moustiques, etc..

10
Les éléments de la Biostatistique:
individu, population, variable

• Une population peut être trop vaste avec des individus trop
nombreux pour faire entièrement l’objet d’une observation
ou enquête statistique.
• Dans ce cas, on limite l’enquête à un certain nombre
d’individus représentatif, provenant de cette population.
• Ce nombre représentatif = « Echantillon ».
• Lorsque l’enquête porte sur toute la population, on parle
d’enquête « exhaustive » ;
• Lorsqu’elle se limite à un échantillon, on parle d’enquête
« échantillonnale ».

11
Les éléments de la Biostatistique:
individu, population, variable

12
Les éléments de la Biostatistique:
individu, population, variable
Echantillonnage
• Méthodes d’échantillonnage : ensemble des méthodes
permettant de prélever une partie au sein d’une population,
de manière à reproduire un échantillon aussi représentatif
que possible de cette population

• Un bon échantillon doit constituer une image réduite de


l’ensemble de la population (= être représentatif) dont on
veut étudier un caractère bien défini

• Dans le cas contraire, on dit que l’échantillon présente un


biais
13
Les éléments de la biostatistique:
individu, population, variable
VARIABLES
• Les observations statistiques se font toujours sur les unités
statistiques ou individus de la population présentant un
certains nombre de caractères appelés aussi « variable »
• On appelle donc « variable » ou « caractère », la
« propriété » qu’on observe sur chaque unité statistique.
• Définition statistique: paramètre étudié sur un individu
• Exemples :
Dans une population d’étudiants, chaque étudiant constitue une
unité statistique.
• Pour chaque étudiant, on peut observer les « propriétés » ou
« variables » suivants : l’age, le sexe, la taille, le poids, etc….
14
Les éléments de la biostatistique:
individu, population, variable
NATURE DES VARIABLES

Les variables peuvent être de différentes natures selon le


contexte. On parle de :

❖ Variables qualitatives et quantitatives (types de variable)


❖ Variables dépendantes ou indépendantes (étude
épidemiologiques)
❖ Variables contrôlées et non contrôlées (essais randomisés)
❖ …………

Ici on s’intéressera aux types de variables (qualitatives ou


quantitatives)

15
Les éléments de la biostatistique:
individu, population, variable
VALEUR D’UNE VARIABLE
• L’état que peut prendre une variable est appelé,
« valeur » ou « modalité » .
• Manières dont la variable peut se présenter.
• Chaque variable peut donc varier d’une unité
statistique à l’autre.
• On dit qu’elle peut prendre plusieurs valeurs
• Exemples :
– Age : 20 ans, 34 ans,… ;
– Sexe : masculin, féminin
– etc….

16
Les éléments de la biostatistique:
individu, population, variable

TYPES DE VARIABLES

• Les variables se distinguent par le type numérique ou non


de leur valeur.

• Selon le cas, elles sont appelées, « variables


quantitatives » ou « variables qualitatives ».

17
Les éléments de la biostatistique:
individu, population, variable
1. VARIABLES QUANTITATIVES

• Lorsque les valeurs d’une variable sont exprimées par des


chiffres, on dit qu’il s’agit de variables « quantitatives »

• Elles font l’objet d’une observation quantitative

• Exemple :
• La taille des étudiants : 167 cm, 175 cm, 183 cm, etc.
• Le nombre d’étudiant par classe : 50, 100, 150, etc.

• Une variable quantitative peut être « discontinue » ou


« continue »

18
Les éléments de la biostatistique:
individu, population, variable

VARIABLES QUANTITATIVES DISCRETE

• La variable est discontinue ou discrète


quand sa valeur ne peut être exprimée que
par un nombre entier, qui est le résultat d’un
comptage
• Exemple : 40 lits, 5 étudiants, etc..

19
Les éléments de la biostatistique:
individu, population, variable

VARIABLES QUANTITATIVES CONTINUE


• La variable observée est continue lorsque sa
valeur est le résultat d’une mesure et peut
donc être exprimée par un nombre
fractionné.
• Exemple : 34,5 ans ; 167,55 cm ; 75, 342 kg

20
Les éléments de la biostatistique:
individu, population, variable

2. VARIABLES QUALITATIVES
• Lorsque les valeurs d’une variable ne peuvent pas être
exprimées par des chiffres, on dit qu’il s’agit de variables
« qualitatives »
• Elles font l’objet d’observation qualitative
• Les valeur de ces variables sont des qualités réparties en
classe
• Exemples :
• Le sexe des étudiants de l’INSSA : masculin, féminin

• On distingue des variables qualitatives ordinales et des


variables qualitatives nominales

21
Les éléments de la biostatistique:
individu, population, variable
Variables qualitatives ordinales
• Les variables qualitatives ordinales s’expriment en
classe pouvant être ordonnées selon une échelle
de valeurs (d’où le nom de variables ordinales)

• Exemple:
• Niveau d’étude: Primaire, secondaire, supérieur
• Stade d’une maladie (cancer): 1, 2, 3, 4

22
Les éléments de la biostatistique:
individu, population, variable

Variables qualitatives nominales


• Les variables qualitatives nominales sont des
variables dont les classes ne peuvent pas être
hiérarchisées
• Elles sont nommées et non hiérarchisées et l’ordre
de présentation est arbitraire
• Exemples:
• Groupe sanguin: A, B, O, AB
• Couleur d’une robe : bleue, blanche, rose
• Religion: Musulmane, chrétienne, juive, animiste
23
Démarche d’analyse statistique: 3 étapes

1 - la collecte des données

2 - le traitement des données collectées


→ Décrire les données (classer, dépouiller, …)
→ caractériser la relation entre variables

3 - l'interprétation des données


→ Faire parler les données
→ à partir des données obtenus sur l’échantillon, inférer les
caractéristiques de la population d’origine
→ estimer si plusieurs échantillons proviennent ou non d’une
même population
Démarche d’analyse statistique

Techniques de collecte des données

• La statistique est l’étude des caractéristiques d’un


ensemble d'objets (population, composée d'individus)
• Elle se fonde sur deux principales techniques:

1. Recensement

2. Sondage (enquête)

25
Techniques de collecte des données

1. Recensement (ensemble de la population) :


les valeurs des variables sont disponibles sur l'ensemble
de la population

➔ Pas besoin d’inférence statistique

• Problème : coûteux, long, souvent impossible

26
Techniques de collecte des données
2. Sondage/enquetes :
• On n'étudie qu'une partie de la population :
= Un échantillon
• Cette partie doit être représentative de la
population d’où elle a été tirée (échantillon de
bonne qualité)
• On cherche alors à extrapoler à la population
entière les propriétés mises en évidence sur
l'échantillon
= statistique inférentielle
27
TRAITEMENT DES OBSERVATIONS

• Classer les observations est la première étape


pour présenter les données
• Cette opération consiste à organiser par classe et
de façon cohérente la masse des données d’une
variable quantitative ou qualitative

PATHOLOGIES D’UNE UNITE DE SOIN TOTAL


Paludisme 52
Infections respiratoires aigues 38
Hypertension artérielle 4
Parasitoses intestinales 6
TOTAL 100

28
NOTION DE CLASSES

• Pour chaque variable, les observations


renvoyant à une même valeur ou à un
regroupement de valeurs contiguës sont
comptabilisées dans des « classes »
• Une classe est donc un ensemble d’unité
statistique qui, dans un tableau statistique,
pressentent toutes la même valeur du
caractère observé

29
NOTION DE CLASSES

Caractéristiques des classes


• Pour qu’un classement des observations soit
correct, les classes retenues doivent
satisfaire à deux conditions essentielles:
1- L’exclusion mutuelle
2- L’exhaustivité collective

30
NOTION DE CLASSES

• Caractéristiques des classes


Exclusion mutuelle
• Les classes sont mutuellement exclusives lorsque chaque
individu ou chaque observation de la variable ne peut
appartenir qu’à une seule classe
• Exemple :
• Les classes d’age «- 1 an, 1 à 4 ans, 5 à 14 ans, 15 à 24
ans, 25 ans et + » sont mutuellement exclusives
• Par contre, les classes « 1 ans, 1-5 ans, 5-15 ans, 15-25
ans, 25 ans et + » ne sont pas mutuellement exclusives, car
les individus de 1, 5, 15, 25 ans appartiennent à plus d’une
classe.

31
NOTION DE CLASSES

• Caractéristiques des classes


Exhaustivité collective
• Les classes sont collectivement exhaustives lorsque
chacune des variables appartient à une classe.
• C’est dire que toutes les observations sont logées.
• Exemple :
• Les classes « - 1 an, 1 à 4 ans, 5 à 14 ans, 15 à 24 ans, 25
ans et+ » sont collectivement exhaustives.
• Par contre : les classes d’age « 1 à 4 ans, 5 à 14 ans, 15 à
24 ans, 25 ans et plus » ne sont pas collectivement
exhaustives et il faudra leur ajouter la classe d’age « moins
d’un an ».

32
EFFECTIFS ET FREQUENCES

• Lorsque les résultats d’une variable sont


repartis en classes, on obtient après
regroupement et dénombrement un nombre
de sujets dans chaque classe.
• C’est « l’effectif » ou « fréquence » de la
classe.

33
EFFECTIFS ET FREQUENCES

• On peut calculer la valeur relative de l’effectif


d’une classe en faisant le rapport de l’effectif
(n) de la classe sur le total (N) de la série
étudiée.
• C’est la « fréquence relative ».

34
EFFECTIFS ET FREQUENCES

• La fréquence relative (n/N) est exprimée le


plus souvent en pourcentage (%).
• Lorsqu’il s’agit de variables quantitatives ou
ordinales on peut ajouter à l’effectif de
chaque classe le total des effectifs des
classes inférieures.
• On obtient ainsi les « effectifs cumulés ou
fréquences cumulées ».

35
EXEMPLE DE TABLEAU D’EFFECTIF ET DE
FREQUENCE

Tableau: Répartition des malades cancéreux selon le stade

Stade Effectifs ou freq. Fréquences Fréquences


Absolue =n (Nombre de relatives (%) cumulées (%)
malades)
Stade 1 350 70 70
Stade 2 110 22 92
Stade 3 30 6 98
Stade 4 10 2 100
Total (N) 500 100

36
PRESENTATION DES DONNEES

• La distribution d’une série de données


est constituée par l’ensemble des
effectifs repartis entre les classes de la
variable étudiée
• Ce procédé abouti à la constitution de
totaux appelés données statistiques.

37
PRESENTATION DES DONNEES

• Les données statistiques sont


présentées sous forme de:
– Tableau, graphiques ou carte.
• Cela facilite l’analyse et la
communication des résultats à un
auditoire qui n’est pas forcement
professionnel
38
TABLEAU STATISTIQUE

• Un tableau statistique est la présentation


simultanée de deux ou plusieurs séries
statistiques
• Tout tableau de fréquence doit présenter :
– un numéro qui le distingue des autres
– un titre concis et précis
– l’identification des classes et de leurs
fréquences
– la source des données
• Plusieurs types de tableaux statistiques
39
TYPES DE TABLEAUX STATISTIQUES

TABLEAU BRUT DE DONNEES


• Tableau brut = tableau élémentaire de
travail.
• Les individus ou unités statistiques sont en
lignes
• Les variables en colonnes

40
EXEMPLE DE TABLEAU BRUT DE DONNEES
Tableau brut de dix consultants au CSPS le 20/11/2021

N° NOM PRENOM AGE SEXE TAILLE RESIDENCE NIVEAU

(an) (en cm) D’ETUDE

1 OUEDRAOGO Sali 25 F 165 Sect 11 Second


Sect 5 Sup
2 TRAORE Karim 33 M 173
Sect 12 Second
3 SOME Yves 27 M 160
Sect 11 Second
4 OUEDRAOGO Noaga 42 M 157
Sect 11 Second
5 ZANRE Monique 27 F 180
Sect 12 Sup
6 SANOU Souro 33 M 175
Sect 2 Second
7 KABORE Jeanne 31 F 180
Sect 17 Second
8 OUEDRAOGO Aicha 27 F 159
Sect 8 Second
9 TALL Moctar 30 M 152
Sect 12 Sup
10 PARE Annik 34 F 172

41
TYPES DE TABLEAUX STATISTIQUES

Tableau simple ou à 1 entrée


• Dans leur forme simple, il comporte deux
colonnes :
– L’1 comprend les valeurs de la variable
– l’autre comprend les effectifs ou fréquences
absolues
• On peut ajouter selon les cas, une troisième
colonne donnant les fréquences relatives et
une quatrième colonne donnant les
fréquences cumulées.
42
EXEMPLE DE TABLEAU SIMPLE
Repartition des femmes reçues en CPN au 1er trimestre 2020
au CSPS de Hèrèdougou

Ages Nombre Pourcentage Pourc. cumulé

(en années) (fréquence absolue) (fréquence relative) (fréq. Cumulée)

< 20 18

20 – 24 42

25 – 29 56

30 – 34 9

35 et + 15

TOTAL 140

43
TYPES DE TABLEAUX STATISTIQUES

Tableau à double entrée


• Les tableaux à doubles entrées impliquent
l’utilisation d’au moins 2 variables
• Dans leurs formes simples, ils comportent:
– 2 lignes
– 2 colonnes

(à l’exclussions des totaux)

44
TYPES DE TABLEAUX DE DISTRIBUTION

Distribution par âge et par sexe de 100 patients examinés


Groupe d’âge Sexe Total
(années)

Hommes Femmes

0-4 10 9 19

5 – 14 12 13 25

15 – 44 20 20 40

45 et plus 7 9 16

Total 49 51 100

45
LES GRAPHIQUES
• Le graphique construite géométriquement, donne
une image plus ou moins fidèle de l’ensemble des
données consignées dans les tableaux
• Illustrations beaucoup utilisées pour présenter les
données
• Le graphique doit être clair, simple, équilibré et
surtout adapté
• On distingue plusieurs types de graphiques:
– Diagrammes (en barre, en secteur)
– Histogrammes
– Courbes
46
TYPES DE GRAPHIQUES

DIAGRAMMES EN BARRES SIMPLES


• Cette représentation est utilisée lorsque qu’il
s’agit d’informations de nature qualitative ou
discontinue
• Exemple: le sexe, les tranches d’ages

47
EXEMPLE DE DIAGRAMME EN BARRES SIMPLES

Repartition des femmes reçues en CPN selon les tranches d'age

60

50

40

Effectifs 30

20

10

0
< 20 20 – 24 25 – 29 30 – 34 35 et +
Tranche d'age

48
TYPES DE GRAPHIQUES

DIAGRAMMES EN BARRES MULTIPLES

• Sont utilisées lorsqu’on veut comparer


deux distributions ou plus, impliquant
des variables qualitatives ou des
variables discrètes

49
EXEMPLE DE DIAGRAMME EN BARRES MULTIPLES

REPARTITION DES PATHOLOGIE DANS LES DEUX CSPS DU DISTRICT

1200

1000

800
Nombre

CSPS A
600
CSPS B

400

200

0
Diarrhée IRA Paludisme Bilharziose Autres
Pathologies

50
TYPES DE GRAPHIQUES
Diagrammes en secteurs
• Le diagramme en secteur ou camembert est un
diagramme circulaire divisé en plusieurs parties

• Représente la distribution de fréquences de divers


groupes pour une variable descriptive
• Ce diagramme exprime souvent les distributions en
pourcentages

51
EXEMPLE DE DIAGRAMME EN SECTEURS

REPARTITION DES ETUDIANTS DE LICENCE 1 DE L’INSSA SELON SECTION

150
200

Medecine Phcie

52
TYPES DE GRAPHIQUES
• Histogrammes
• Graphique adapté pour représenter la distribution
d’une variable quantitative continue
• Nécessité de transformer la variable en variable
discrète

• L’histogramme est constitué de barres verticales


contiguës.
– Les ordonnées représentent les effectifs de la
distribution
– Les abscisses représentent les classes de la variable

53
EXEMPLE D’HISTOGRAMMES

Distribution du taux d'hémoglobine chez 100 personnes

35

30

25
Nbre de personnes

20

15

10

0
6,0 - 6,9 7,0 - 7,9 8,0 - 8,9 9,0 - 9,9 10 - 10,9 11 - 11,9 12 - 12,9 13 - 13,9
Hb en g/100

54
TYPES DE GRAPHIQUES
Polygone de fréquence ou courbe de
distribution
• Graphique linéaire adapté à la représentation de la
distribution d’une variable quantitative continue

• En ordonnée = effectifs ou fréquences.
• En abscisse = valeurs de la variable quantitative discrétisée

• Chaque point du polygone représente l’effectif ou la


fréquence pour le point central de la classe de la variable

• Le trait reliant deux points suggère les effectifs ou les
fréquences possibles entre deux valeurs centrales

55
EXEMPLE DE POLYGONE DE FREQUENCE

Distribution du taux d'hémoglobine chez 100 personnes

35

30

25
Nbre de personnes

20

15

10

0
6,0 - 6,9 7,0 - 7,9 8,0 - 8,9 9,0 - 9,9 10 - 10,9 11 - 11,9 12 - 12,9 13 - 13,9
Hb en g/100

56
LES MESURES UTILISEES EN STATISTIQUE
SANITAIRE

1 - LES PARAMETRES
• Valeur résumant en quelques nombres l’ensemble
d’une distribution dans le but de:
– Donner un sens à la distribution
– Comparer à d’autres données du même type provenant
d’une série différente.
• On distingue deux types de paramètres :
• Les paramètres de position et les paramètres de
dispersion
57
1.1. PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
PARAMETRES DE POSITION
• Avec des variables comme l’âge, le nombre
d’enfants, l’hémoglobine ou le nombre de
parasites, il est souvent utile de développer une
valeur unique représentative des valeurs
individuelles dans le groupe
• Cette valeur unique indique la position de la
distribution en fonction des modalités de la variable
étudiée
• Permet aussi de faciliter la description d’une
population et permettent de comparer plusieurs
populations.
58
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
PARAMETRES DE POSITION
• Les paramètres ou mesures de la tendance
centrale les plus courantes sont:
– Moyenne,
– Médiane
– Mode.
• Ces mesures peuvent être calculées à partir de
données individuelles si nombre d’items petit.
• Si bcp d’items, mesures calculées à partir de
données groupées
59
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE
• La moyenne arithmétique est la somme de toutes
les valeurs individuelles contenues dans un jeu de
données divisée par le nombre de valeurs
contenues dans ce jeu
• La moyenne est la mesure de tendance centrale la
plus utilisée
• Son inconvénient est qu’elle peut être très
influencée par la présence de quelques valeurs
extrêmes, vers le bas ou vers le haut.
60
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE
• La moyenne d’une variable aléatoire est une
mesure de tendance centrale de cette variable

• C’est l’indicateur le plus communément usité, dans


le sens de moyenne arithmétique

• En statistique, la moyenne est aussi nommée


espérance mathématique

61
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE

Il existe plusieurs types de moyenne qu’il est important


d’appréhender selon les situations rencontrées.
Nous verrons deux type de moyenne

• La moyenne arithmétique
• La moyenne arithmétique pondérée

62
CALCUL DE LA MOYENNE ARITHMÉTIQUE

Pour calculer la moyenne, il faut :


• Additionner toutes les valeurs de la série
• Diviser le résultat par l’effectif total
La formule est la suivante :
• Moyenne = Somme des valeurs / effectif total

Exemple: moyenne des notes de cinq


matières : 12, 15, 7, 13, 8
X= 12+ 15+ 7+ 13+ 8 / 5 = 55 / 5 = 11
CALCUL DE LA MOYENNE PONDEREE

• Pour calculer une moyenne pondérée il faut prendre en


compte le fait que chacune des valeurs a une importance
différente, qui nous est donnée par un coefficient (on parle
du coefficient de pondération).

Pour calculer une moyenne pondérée il faut :


• Faire le produit de chaque valeur par son coefficient
• Faire la somme de ces produits
• Diviser cette somme par la somme des coefficients

La formule est la suivante :


Moyenne pondérée = Somme de ( valeurs x leurs
coefficients ) / somme des coefficients
CALCUL DE LA MOYENNE PONDEREE
Exemple de calcul d’une moyenne pondérée
MATIÈRE NOTE (SUR 20) COEFFICIENT

Biostatistique 11 4

Biochimie 06 3

Anatomie 06 2

Anglais 10 1

Moyenne pondérée = (11 x 4) + (6 x 3) + (6 x 2) + (10 x 1) / (4 + 3 + 2 + 1)


= 84 / 10 = 8,4
CALCUL DE LA MOYENNE SUR DES
DONNEES

• S’il y a beaucoup d’observations dans


le jeu de données

• Ou si les observations ont déjà été


regroupées;

• On peut calculer les paramètres en


utilisant la distribution de fréquence
66
CALCUL DES PARAMETRES DE POSITION
SUR DES DONNEES GROUPEES

La moyenne arithmétique est donc égale à :

X = ∑ Xi.Fi / N = 1675 / 15 = 111,67. 67


PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MEDIANE
• La médiane est la valeur qui divise le jeu de
données classées en 2 groupes de taille égale,
• Le 1er groupe contient les valeurs inférieures à la
médiane
• Le second les valeurs supérieures à la médiane.
• Si la distribution des valeurs est asymétrique, la
médiane est la mesure de choix car elle n’est pas
influencée par les valeurs extrêmes

68
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MEDIANE
• On calcule la médiane comme suit :
- Classer les valeurs par ordre de grandeur
(ascendante ou descendante).
- Identifier le milieu de la séquence de valeurs.
• S’il y a un nombre impair de valeurs, identifier la
valeur du milieu.
• S’il y a un nombre pair de valeurs, identifier le
point central entre les deux valeurs qui se trouvent
au milieu de la séquence.

69
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MEDIANE
• L’équation générale pour identifier la place
de la valeur médiane est :
• Place de la valeur médiane est:
– Nbre total de valeurs + 1 sur 2
• Le chiffre se trouvant à cette place dans le
jeu de données correspond à la médiane .

70
CALCUL DE LA MEDIANE

Exemple 1 : Nombres impairs de données:


12, 15, 7, 11, 8.
– Ranger les valeurs en ordre ascendant :
7, 8, 11, 12, 15
– Déterminer le point central de la série :
(5 valeurs +1)/ 2 = 3.
– La médiane est donc la valeur en 3 ème
position dans la série
– La médiane équivaut donc à 11.
71
CALCUL DE LA MEDIANE

Exemple 2 : Nombres pairs de données:


12, 15, 18, 7, 13, 8
• Ranger les valeurs en ordre ascendant :
7, 8, 12, 13, 15, 18
• Déterminer le point central de la séquence
(6 valeurs+1)/2 = 7/2 = 3,5
• La médiane est la valeur à mi-chemin entre le 3è et
le 4è chiffre
• Le 3è chiffre est 12 et le 4è est 13
La médiane est (12+13)/2 = 12,5
72
CALCUL DE LA MEDIANE
(DONNEES GROUPEES)

La 21è observation
se trouve dans
l’intervalle =
10 – 11,9
73
74
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MODE
• Le mode est la valeur que l’on observe le
plus fréquemment dans un jeu de données
• On l’identifie en comparant la fréquence
d’observation de chacune des valeurs
• Parfois il existe plusieurs modes pour le
même jeu de données
• ➔ Distribution multimodale
75
CALCUL DU MODE

Exemple 1: Observ. à un mode (unimodale)


• Mode des valeurs 12, 15, 18, 7, 12, 8, 3, 19, 2 = 12
• 12 apparaît 2 fois alors que les autres 1seule fois
• Exemple 2 : Observ. plusieurs modes
• La séquence 12, 15, 12, 3, 18, 7, 12, 8, 3, 15, 19,
3, 2 a 2 modes, 3 et 12
• 3 et 12 apparaissent 3 fois alors que les autres,
moins de trois fois

76
CALCUL DU MODE
(DONNEES GROUPEES)

Calcul du mode
• Le mode est la catégorie qui contient le plus
grand nombre d’observations
• Dans l’exemple choisi, le mode est
l’intervalle « 10,0 - 11,9 »
• C’est cet intervalle qui contient le plus grand
nombre d’observations c'est-à-dire « 23 ».

Statistique descriptive, Dr Seydou 77


BARRO
CALCUL DU MODE SUR DES DONNEES
GROUPEES
• Sur des données, le calcul du mode se fait à partir
de la classe où la fréquence est la plus élevée
avec la formule ci-dessous

L = Limite inférieur de la classe identifiée la plus fréquentale, dite modale.


d1 = Différence entre la fréquence de la classe modale et la classe
précédente.
d2 = Différence entre la fréquence de la classe modale et la classe suivante.
l = Longueur de la classe modale.
78
EXERCICES SUR LE CALCUL DES MESURES DE TENDANCE
CENTRALE (données groupées) ET LES MESURES DE DISPERSION

• MOYENNE
• MEDIANE
• MODE

• CŒFFICIENT DE VARIATION

79
1.2. LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION

• Mesures de tendance centrale résument en une


seule valeur la distribution
• Elles ne suffisent pas pourtant à caractériser
complètement une distribution de fréquences
• Car deux distributions peuvent avoir les mêmes
paramètres de position mais différent dans leur
étalement
• C’est pourquoi il est essentiel de définir des
mesures de dispersion qui nous renseignent sur la
variabilité des observations autour de la valeur
centrale
80
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
EXEMPLE
• Voici les tailles, en centimètre, de deux groupes de parents
de l’école de Hèrèsso au Burkina Faso
Groupe A
150, 155, 160, 170, 155, 160, 140, 155, 150, 155, 145, 165
• Moyenne :
• Mode :
• Médiane :
Groupe B
165, 155, 150, 180, 155, 170, 130, 155, 135, 155, 145, 165
• Moyenne :
• Mode :
• Médiane :
81
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
EXEMPLE
• Voici les tailles, en centimètre, de deux groupes de parents
de l’école de Hèrèsso au Burkina Faso
Groupe A
150, 155, 160, 170, 155, 160, 140, 155, 150, 155, 145, 165
• Moyenne : 155 cm
• Mode : 155 cm
• Médiane : 155 cm
Groupe B
165, 155, 150, 180, 155, 170, 130, 155, 135, 155, 145, 165
• Moyenne : 155 cm
• Mode : 155 cm
• Médiane : 155 cm
82
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION

• Pourtant ces deux groupes sont différents


• Ce sont les mesures de dispersion qui
permettront de les distinguer
PRINCIPALES MESURES DE DISPERSION
– Étendue
– Variance
– Ecart-type
– Cœfficient de variation
83
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION

ETENDUE
• L’étendue est l’écart relevé entre la valeur la plus
petite et la valeur la plus grande d’un ensemble
d’observations
• Exemple
• Étendu du groupe A : 170 – 140 = 30 cm
• Étendu du groupe B : 180 – 130 = 50 cm
• Cette mesure néglige une partie de l’information
• Elle ne rend compte que de l’écart des valeurs
extrêmes
84
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• Dans un ensemble, chaque donnée est plus ou moins
proche de la moyenne
• Cette idée d’utiliser la distance des données par rapport à
la moyenne de leur groupe a donné naissance à la
variance
• Reprenons le groupe A :
• 150, 155, 160, 170, 155, 160, 140, 155, 150, 145, 165
• La moyenne est de 155 cm
• La distance entre chaque donnée et la moyenne s’obtient
en soustrayant la moyenne de chaque donnée :
• 150 – 155 = -5 cm
• 155 – 155 = 0 cm
• Etc… 85
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• On aura donc :
• -5, 0, 5, 15, 0, -15, 0, -5, 0, -10, 10, 5
NB: Le signe (+ ou -) indique de quel côté, par rapport à la moyenne,
se situe la valeur observée

• Pour exprimer cette variation par un seul chiffre, on


pourrait faire la moyenne de ces distances
• Mais on a autant de distances positives que de
distances négatives
• On ne peut donc directement calculer cette
moyenne parce que la somme des distances est
toujours égale à 0 86
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION

VARIANCE
• Pour rendre toutes les distances positives, on
calculera le carré des distances
• -5 = 25 cm²
• 0 = 0 cm², etc…
• On trouve donc :
• 25, 0, 25, 225, 0, 25, 225, 0, 25, 0, 100, 100 cm²
• Pour cette série de valeurs, la variance s’obtient de
la façon suivante :
S² = ∑25 +0+25+225+0+25+225+0+25+0+100+100 = 62,5
12 87
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• La formule générale est la suivante :
• S² = ∑ (xi - µ)²
N
• Où
• xi = chacune des observations
• µ = la moyenne
• n = nombre d’observations variant de 1 à n
• La variance est donc la somme des carrés des
écarts de la moyenne divisée par le nombre
d’observations
88
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
ECART-TYPE
• L’écart-type est simplement la racine de la variance :
S= √∑ (xi - µ)²
n
COEFFICIENT DE VARIATION
• Cette mesure permet de comparer deux distributions,
– Soit d’une même variable
– Soit de variables différentes

Le calcul du CV se fait par le rapport de l’écart-type à la moyenne


s
CV = --------
µ
89
LES QUANTILES

• Les quantiles en statistiques sont les valeurs qui divisent


un jeu de données en intervalles contenant le même
nombre de données

• On a un quantile de moins que le nombre de groupes créés


(ex: 3 quartiles)

• Ainsi les quartiles sont les trois quantiles qui divisent un


ensemble de données en quatre groupes de taille égale

90
LES QUANTILES

• Les quantiles en statistiques sont les valeurs qui


divisent un jeu de données en intervalles contenant le
même nombre de données

• On a un quantile de moins que le nombre de groupes


créés (ex: 3 quartiles)

• Ainsi les quartiles sont les trois quantiles qui divisent


un ensemble de données en quatre groupes de taille
égale

91
LES
LESQUANTILES
QUANTILES

Principaux types de quantiles sont utilisés :


• Les centiles qui sont les quantiles des multiples du centième.
Encore appelés percentiles (anglicisme) ils sont beaucoup
utilisés en hydrologie pour traduire l'intensité d'un phénomène
sujet à des évolutions critiques

• Les déciles sont les quantiles des multiples du dixième. Ils


sont d'usage fréquent en géologie minière

• Les quartiles sont les quantiles des multiples du quart. Ils sont
utilisés en statistiques biomédicale et en économie

92
LES QUARTILES

• Les quartiles font partie des mesures de dispersion.


• Dans les statistiques, les quartiles d'une série de données
sont les trois points qui divisent la série en quatre groupes
égaux, chaque groupe comprenant un quart des données.
o le 1er groupe contient 25% des données
o les deux 1er groupes réunis contiennent 50% des
données
o les trois 1er groupes réunis contiennent 75% des
données

93
LES QUARTILES (LES 3 Q)

94
LES QUARTILES

DEFINITION
• Le premier quartile est la plus petite valeur « v » de
la série vérifiant la proposition. 25% des valeurs de
la série sont inferieures ou égales à « v ».

• Le troisième quartile est la plus petite valeur « V »


de la série vérifiant la proposition. 75% des valeurs
de la série sont inférieures ou égales à « V ».

95
LES QUARTILES

Déterminer les quartiles Q1 et Q3 d'une


série de n valeurs ?
• On calcule la quantité ¼ de n: = ¼ × n = n:4
• Deux cas sont possibles: soit le résultat est entier, soit
non
• cas n°1: le résultat est entier (la division tombe juste)
• on vérifie que les valeurs sont rangées par ordre
croissant
• Q1 est la n’ème valeur où n = n:4
• Q3 est la n' ème valeur où l'entier n' = ¾ de n = ¾×N
= 3×n: 4

96
LES QUARTILES

Exemple du cas 1 (résultat = entier)


• Prenons les notes d’une classe d’étudiants
• Les valeurs rangées dans l'ordre croissant
sont les suivantes : 1-3-3-3-5-5-6-7-7-8-8-8-9-9-
10-10-10-10-11-11-12-13-13-13-14-15-16-19
• Il y a n = 28 valeurs. Divisé par 4 = 7 (28:4)
• n=n:4 = 7 donc Q1 = 7ème valeur de la série,
donc valeur 6
• n' = 3n:4 = 21, donc Q3 = la 21ème valeur de
la série = 12
97
LES QUARTILES
Exemple du cas 2 (résultat = non entier)
• Vérifier que les valeurs sont rangées par
ordre croissant
• Arrondir la décimale n:4 à l'entier
supérieur : l'entier n ; Q1 est la n ème
valeur
• Arrondir la décimale ¾ de n = ¾×n =
3n:4 à l'entier supérieur : l'entier n' ; Q3
est la n' ème valeur

98
LES QUARTILES

Exemple
• Prenons les valeurs rangées dans l'ordre croissant :
3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-
15-16-19
• Il y a n = 23 valeurs;
• n:4 = 5,75 donc Q1 est la 6ème valeur de la série:
Q1= 8,
• 3n:4 = 17,25 donc Q3 est la 18 ème valeur de la
série: Q3= 13

99
NOTION D’ECART INTERQUARTILE

100
LES QUARTILES

INTERPRETATION DES RESULTATS

Dans notre exemple on peut donc dire que:


• Au moins un quart des étudiants a une note inférieure ou égale à 8
• Au moins un quart des étudiants a pour note 8 ou moins de 8

• Au moins trois quarts des étudiants a une note inférieure ou égale à 13


• Au moins trois quarts des étudiants a pour note 13 ou moins de 13

• Comme pour les paramètres de position, on peut calculer les


quartiles à partir des données groupées dans un tableau statistique

• VOIR TRAVAUX DIRIGES (TD)

101
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
2 - LES RAPPORTS
• En santé publique on exprime l’importance des
phénomènes de santé par des mesures (paramètres,
indicateurs, ….)
• L’une de ces mesures les plus utilisées est le
« RAPPORT »
• Il permet de comparer l’importance de ces phénomènes de
santé entre eux
• Le rapport est alors défini comme l’expression la plus
générale de la relation entre 2 quantités, qui peuvent avoir
ou non un lien
• Le rapport peut se présenter sous la forme de proportion,
de taux, de ratio, ou d’indice. 102
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE

PROPORTION :
• Une proportion est un rapport dans lequel le
numérateur est inclut dans le dénominateur
• Une proportion est comprise entre 0 et 1
• On peut l’exprimer en pourcentage (%)
• L’équation est (x/y)k,

– x est le nombre d’individus pour une caractéristique,
– y est le nombre total d’individus (population)
– k est une constante (en général 100)
103
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
PROPORTION :
Exemple :
• Sur les 120 cas de paludisme admis à l’hôpital, 80
étaient des enfants
• La proportion d’enfants parmi les malades soufrant
de paludisme dans cet hôpital est:
(80/120) x 100 = 66,7%

104
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
RATIO :
• Un ratio est un rapport où le numérateur et le
dénominateur appartiennent au même ensemble,
mais le numérateur n’est pas inclut dans le
dénominateur
Exemple :
• Dans une classe d’étudiants de 160 étudiants, on
dénombre 92 hommes et 68 femmes
• Le Ratio femme/homme de la classe sera de :
= 68 / 92 = 0,74

105
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
RATIO :
• Si une caractéristique divise une population en
deux groupes, par exemple les malades et les non
malades, le ratio malade/non malade s’appelle une
« cote »
Exemple :
• Si pour une réception de 20 convives, 15 convives
manifestent des gastro-entérites et 5 n’ont aucun
signe,
• Le ratio malade/non malade est = 3,
• La cote de la gastro-entérite dans cette population
de convives est donc de 3/1.
106
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE

INDICE :
• Un indice est un rapport dans lequel le numérateur
n’est pas compris dans le dénominateur et que l’un
et autre référent à deux évènements distincts
• L’indice est utilisé lorsque le dénominateur n’est
pas bien connu
• On utilise donc un dénominateur qui se rapproche
de la réalité pour obtenir une mesure

107
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
INDICE : Exemple
• Par exemple la fréquence relative des décès
maternels devrait comporter au dénominateur le
nombre total de femmes ayant conçu une
grossesse
• Ce nombre est généralement mal connu
• On peut utiliser le nombre de naissances vivantes
qui est généralement disponible
• Indice de mortalité maternelle =
Décès maternels
Nombre de naissances vivantes
108
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
TAUX :
• Le taux est un rapport qui mesure la vitesse de survenue
d’un évènement

• Pour calculer le taux, il faut observer des phénomènes


jusqu’à l’apparition d’un évènement

• Le numérateur d’un taux dénombre les événements qui


sont survenus

• Le dénominateur cumule le temps d’observation de chaque


phénomène observé jusqu'à l’apparition de l’événement ou
jusqu'à la fin de toute la période d’observation
109
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE

TAUX :
• Le résultat du taux est exprimé en unité-
temps (heure, jour, mois, année…)
• En épidémiologie l’incidence est un taux
• Car elle mesure la vitesse de propagation
d’une maladie dans une population.

110
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
TAUX D’INCIDENCE OU DENSITE D’INCIDENCE
Exemple de calcul de taux d’incidence :
• Par exemple je m’intéresse au premier épisode de mal de
tête chez trois personnes, Ouédraogo, Somé et Traoré,
sous un médicament présentant des effets secondaires
pour 12 heures de temps d’observation.
• Ouédraogo commence a avoir mal à la tête 6 h après le
début de l’étude
• Somé a commencé à avoir mal à la 9è h et Traoré n’a pas
eu du tout mal pendant toute la période de l’étude
• Le taux d’incidence du mal de tête dans cette population est
donc de :
2 / (6+9+12) h ou 2 / 27 / h = 0,07 / h = 0,07 épisode /
personne - h. 111

You might also like