Professional Documents
Culture Documents
BioStat INSSA 23 Complet
BioStat INSSA 23 Complet
La biostatistique
• ETRE CAPABLE DE
• Définir les principaux concepts utilisés en biostatistique
2
GENERALITES SUR LA BIOSTATISTIQUE
• La biostatistique consiste à appliquer un traitement
statistique à des données biologiques
• C’est un champ interdisciplinaire qui associe la biologie
(santé), l’informatique et les mathématiques statistiques
• En recherche clinique, la biostatistique comprend les
méthodes statistique, la modélisation statistique, la
compilation et l’analyse des données collectées, ainsi que
l’interprétation des résultats
5
DEFINITION DE CONCEPTS
«LA STATISTIQUE » ET «LES STATISTIQUES »
1. la statistique
• La statistique est une science.
• Origine récente et s’est développé parallèlement aux
autres sciences surtout la mathématique.
• Méthode d’observation, de description, d’analyse d’une
ou de plusieurs ensembles définis dans le cadre d’une
situation à l’aide d’un dénombrement partiel ou total de
ces unités constitutives.
• La statistique peut être descriptive ou inferencielle.
• Elle utilise des méthodes d’observation directe ou
indirecte.
6
DEIFNITION DE CONCEPTS
«LA STATISTIQUE » ET «LES STATISTIQUES »?
2. les statistiques
• séries de chiffres, de données numériques, qui sont
le résultat de séries d’observations se rapportant à
l’un ou l’autre phénomène qu’on désire étudier.
• Ces chiffres sont toujours classés dans un tableau,
appelé tableau statistique
• On parle des statistiques démographiques,
sanitaires, sociales, industrielles, commerciales,
etc…
7
LES SOUS DISCIPLINES DE LA STATISTIQUE
9
Les éléments de la Biostatistique:
individu, population, variable
• Observation = mesures effectuées
• Observation est faite sur des éléments appelés
« individus » ou « unités statistiques »
10
Les éléments de la Biostatistique:
individu, population, variable
• Une population peut être trop vaste avec des individus trop
nombreux pour faire entièrement l’objet d’une observation
ou enquête statistique.
• Dans ce cas, on limite l’enquête à un certain nombre
d’individus représentatif, provenant de cette population.
• Ce nombre représentatif = « Echantillon ».
• Lorsque l’enquête porte sur toute la population, on parle
d’enquête « exhaustive » ;
• Lorsqu’elle se limite à un échantillon, on parle d’enquête
« échantillonnale ».
11
Les éléments de la Biostatistique:
individu, population, variable
12
Les éléments de la Biostatistique:
individu, population, variable
Echantillonnage
• Méthodes d’échantillonnage : ensemble des méthodes
permettant de prélever une partie au sein d’une population,
de manière à reproduire un échantillon aussi représentatif
que possible de cette population
15
Les éléments de la biostatistique:
individu, population, variable
VALEUR D’UNE VARIABLE
• L’état que peut prendre une variable est appelé,
« valeur » ou « modalité » .
• Manières dont la variable peut se présenter.
• Chaque variable peut donc varier d’une unité
statistique à l’autre.
• On dit qu’elle peut prendre plusieurs valeurs
• Exemples :
– Age : 20 ans, 34 ans,… ;
– Sexe : masculin, féminin
– etc….
16
Les éléments de la biostatistique:
individu, population, variable
TYPES DE VARIABLES
17
Les éléments de la biostatistique:
individu, population, variable
1. VARIABLES QUANTITATIVES
• Exemple :
• La taille des étudiants : 167 cm, 175 cm, 183 cm, etc.
• Le nombre d’étudiant par classe : 50, 100, 150, etc.
18
Les éléments de la biostatistique:
individu, population, variable
19
Les éléments de la biostatistique:
individu, population, variable
20
Les éléments de la biostatistique:
individu, population, variable
2. VARIABLES QUALITATIVES
• Lorsque les valeurs d’une variable ne peuvent pas être
exprimées par des chiffres, on dit qu’il s’agit de variables
« qualitatives »
• Elles font l’objet d’observation qualitative
• Les valeur de ces variables sont des qualités réparties en
classe
• Exemples :
• Le sexe des étudiants de l’INSSA : masculin, féminin
21
Les éléments de la biostatistique:
individu, population, variable
Variables qualitatives ordinales
• Les variables qualitatives ordinales s’expriment en
classe pouvant être ordonnées selon une échelle
de valeurs (d’où le nom de variables ordinales)
• Exemple:
• Niveau d’étude: Primaire, secondaire, supérieur
• Stade d’une maladie (cancer): 1, 2, 3, 4
22
Les éléments de la biostatistique:
individu, population, variable
1. Recensement
2. Sondage (enquête)
25
Techniques de collecte des données
26
Techniques de collecte des données
2. Sondage/enquetes :
• On n'étudie qu'une partie de la population :
= Un échantillon
• Cette partie doit être représentative de la
population d’où elle a été tirée (échantillon de
bonne qualité)
• On cherche alors à extrapoler à la population
entière les propriétés mises en évidence sur
l'échantillon
= statistique inférentielle
27
TRAITEMENT DES OBSERVATIONS
28
NOTION DE CLASSES
29
NOTION DE CLASSES
30
NOTION DE CLASSES
31
NOTION DE CLASSES
32
EFFECTIFS ET FREQUENCES
33
EFFECTIFS ET FREQUENCES
34
EFFECTIFS ET FREQUENCES
35
EXEMPLE DE TABLEAU D’EFFECTIF ET DE
FREQUENCE
36
PRESENTATION DES DONNEES
37
PRESENTATION DES DONNEES
40
EXEMPLE DE TABLEAU BRUT DE DONNEES
Tableau brut de dix consultants au CSPS le 20/11/2021
41
TYPES DE TABLEAUX STATISTIQUES
< 20 18
20 – 24 42
25 – 29 56
30 – 34 9
35 et + 15
TOTAL 140
43
TYPES DE TABLEAUX STATISTIQUES
44
TYPES DE TABLEAUX DE DISTRIBUTION
Hommes Femmes
0-4 10 9 19
5 – 14 12 13 25
15 – 44 20 20 40
45 et plus 7 9 16
Total 49 51 100
45
LES GRAPHIQUES
• Le graphique construite géométriquement, donne
une image plus ou moins fidèle de l’ensemble des
données consignées dans les tableaux
• Illustrations beaucoup utilisées pour présenter les
données
• Le graphique doit être clair, simple, équilibré et
surtout adapté
• On distingue plusieurs types de graphiques:
– Diagrammes (en barre, en secteur)
– Histogrammes
– Courbes
46
TYPES DE GRAPHIQUES
47
EXEMPLE DE DIAGRAMME EN BARRES SIMPLES
60
50
40
Effectifs 30
20
10
0
< 20 20 – 24 25 – 29 30 – 34 35 et +
Tranche d'age
48
TYPES DE GRAPHIQUES
49
EXEMPLE DE DIAGRAMME EN BARRES MULTIPLES
1200
1000
800
Nombre
CSPS A
600
CSPS B
400
200
0
Diarrhée IRA Paludisme Bilharziose Autres
Pathologies
50
TYPES DE GRAPHIQUES
Diagrammes en secteurs
• Le diagramme en secteur ou camembert est un
diagramme circulaire divisé en plusieurs parties
51
EXEMPLE DE DIAGRAMME EN SECTEURS
150
200
Medecine Phcie
52
TYPES DE GRAPHIQUES
• Histogrammes
• Graphique adapté pour représenter la distribution
d’une variable quantitative continue
• Nécessité de transformer la variable en variable
discrète
53
EXEMPLE D’HISTOGRAMMES
35
30
25
Nbre de personnes
20
15
10
0
6,0 - 6,9 7,0 - 7,9 8,0 - 8,9 9,0 - 9,9 10 - 10,9 11 - 11,9 12 - 12,9 13 - 13,9
Hb en g/100
54
TYPES DE GRAPHIQUES
Polygone de fréquence ou courbe de
distribution
• Graphique linéaire adapté à la représentation de la
distribution d’une variable quantitative continue
•
• En ordonnée = effectifs ou fréquences.
• En abscisse = valeurs de la variable quantitative discrétisée
55
EXEMPLE DE POLYGONE DE FREQUENCE
35
30
25
Nbre de personnes
20
15
10
0
6,0 - 6,9 7,0 - 7,9 8,0 - 8,9 9,0 - 9,9 10 - 10,9 11 - 11,9 12 - 12,9 13 - 13,9
Hb en g/100
56
LES MESURES UTILISEES EN STATISTIQUE
SANITAIRE
1 - LES PARAMETRES
• Valeur résumant en quelques nombres l’ensemble
d’une distribution dans le but de:
– Donner un sens à la distribution
– Comparer à d’autres données du même type provenant
d’une série différente.
• On distingue deux types de paramètres :
• Les paramètres de position et les paramètres de
dispersion
57
1.1. PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
PARAMETRES DE POSITION
• Avec des variables comme l’âge, le nombre
d’enfants, l’hémoglobine ou le nombre de
parasites, il est souvent utile de développer une
valeur unique représentative des valeurs
individuelles dans le groupe
• Cette valeur unique indique la position de la
distribution en fonction des modalités de la variable
étudiée
• Permet aussi de faciliter la description d’une
population et permettent de comparer plusieurs
populations.
58
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
PARAMETRES DE POSITION
• Les paramètres ou mesures de la tendance
centrale les plus courantes sont:
– Moyenne,
– Médiane
– Mode.
• Ces mesures peuvent être calculées à partir de
données individuelles si nombre d’items petit.
• Si bcp d’items, mesures calculées à partir de
données groupées
59
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE
• La moyenne arithmétique est la somme de toutes
les valeurs individuelles contenues dans un jeu de
données divisée par le nombre de valeurs
contenues dans ce jeu
• La moyenne est la mesure de tendance centrale la
plus utilisée
• Son inconvénient est qu’elle peut être très
influencée par la présence de quelques valeurs
extrêmes, vers le bas ou vers le haut.
60
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE
• La moyenne d’une variable aléatoire est une
mesure de tendance centrale de cette variable
61
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MOYENNE
• La moyenne arithmétique
• La moyenne arithmétique pondérée
62
CALCUL DE LA MOYENNE ARITHMÉTIQUE
Biostatistique 11 4
Biochimie 06 3
Anatomie 06 2
Anglais 10 1
68
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MEDIANE
• On calcule la médiane comme suit :
- Classer les valeurs par ordre de grandeur
(ascendante ou descendante).
- Identifier le milieu de la séquence de valeurs.
• S’il y a un nombre impair de valeurs, identifier la
valeur du milieu.
• S’il y a un nombre pair de valeurs, identifier le
point central entre les deux valeurs qui se trouvent
au milieu de la séquence.
69
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MEDIANE
• L’équation générale pour identifier la place
de la valeur médiane est :
• Place de la valeur médiane est:
– Nbre total de valeurs + 1 sur 2
• Le chiffre se trouvant à cette place dans le
jeu de données correspond à la médiane .
70
CALCUL DE LA MEDIANE
La 21è observation
se trouve dans
l’intervalle =
10 – 11,9
73
74
PARAMETRES DE POSITION OU
MESURES DE TENDANCE CENTRALE
MODE
• Le mode est la valeur que l’on observe le
plus fréquemment dans un jeu de données
• On l’identifie en comparant la fréquence
d’observation de chacune des valeurs
• Parfois il existe plusieurs modes pour le
même jeu de données
• ➔ Distribution multimodale
75
CALCUL DU MODE
76
CALCUL DU MODE
(DONNEES GROUPEES)
Calcul du mode
• Le mode est la catégorie qui contient le plus
grand nombre d’observations
• Dans l’exemple choisi, le mode est
l’intervalle « 10,0 - 11,9 »
• C’est cet intervalle qui contient le plus grand
nombre d’observations c'est-à-dire « 23 ».
• MOYENNE
• MEDIANE
• MODE
• CŒFFICIENT DE VARIATION
79
1.2. LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
ETENDUE
• L’étendue est l’écart relevé entre la valeur la plus
petite et la valeur la plus grande d’un ensemble
d’observations
• Exemple
• Étendu du groupe A : 170 – 140 = 30 cm
• Étendu du groupe B : 180 – 130 = 50 cm
• Cette mesure néglige une partie de l’information
• Elle ne rend compte que de l’écart des valeurs
extrêmes
84
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• Dans un ensemble, chaque donnée est plus ou moins
proche de la moyenne
• Cette idée d’utiliser la distance des données par rapport à
la moyenne de leur groupe a donné naissance à la
variance
• Reprenons le groupe A :
• 150, 155, 160, 170, 155, 160, 140, 155, 150, 145, 165
• La moyenne est de 155 cm
• La distance entre chaque donnée et la moyenne s’obtient
en soustrayant la moyenne de chaque donnée :
• 150 – 155 = -5 cm
• 155 – 155 = 0 cm
• Etc… 85
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• On aura donc :
• -5, 0, 5, 15, 0, -15, 0, -5, 0, -10, 10, 5
NB: Le signe (+ ou -) indique de quel côté, par rapport à la moyenne,
se situe la valeur observée
VARIANCE
• Pour rendre toutes les distances positives, on
calculera le carré des distances
• -5 = 25 cm²
• 0 = 0 cm², etc…
• On trouve donc :
• 25, 0, 25, 225, 0, 25, 225, 0, 25, 0, 100, 100 cm²
• Pour cette série de valeurs, la variance s’obtient de
la façon suivante :
S² = ∑25 +0+25+225+0+25+225+0+25+0+100+100 = 62,5
12 87
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
VARIANCE
• La formule générale est la suivante :
• S² = ∑ (xi - µ)²
N
• Où
• xi = chacune des observations
• µ = la moyenne
• n = nombre d’observations variant de 1 à n
• La variance est donc la somme des carrés des
écarts de la moyenne divisée par le nombre
d’observations
88
LES PARAMETRES DE DISPERSION OU
MESURES DE DISPERSION
ECART-TYPE
• L’écart-type est simplement la racine de la variance :
S= √∑ (xi - µ)²
n
COEFFICIENT DE VARIATION
• Cette mesure permet de comparer deux distributions,
– Soit d’une même variable
– Soit de variables différentes
90
LES QUANTILES
91
LES
LESQUANTILES
QUANTILES
• Les quartiles sont les quantiles des multiples du quart. Ils sont
utilisés en statistiques biomédicale et en économie
92
LES QUARTILES
93
LES QUARTILES (LES 3 Q)
94
LES QUARTILES
DEFINITION
• Le premier quartile est la plus petite valeur « v » de
la série vérifiant la proposition. 25% des valeurs de
la série sont inferieures ou égales à « v ».
95
LES QUARTILES
96
LES QUARTILES
98
LES QUARTILES
Exemple
• Prenons les valeurs rangées dans l'ordre croissant :
3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-
15-16-19
• Il y a n = 23 valeurs;
• n:4 = 5,75 donc Q1 est la 6ème valeur de la série:
Q1= 8,
• 3n:4 = 17,25 donc Q3 est la 18 ème valeur de la
série: Q3= 13
99
NOTION D’ECART INTERQUARTILE
100
LES QUARTILES
101
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
2 - LES RAPPORTS
• En santé publique on exprime l’importance des
phénomènes de santé par des mesures (paramètres,
indicateurs, ….)
• L’une de ces mesures les plus utilisées est le
« RAPPORT »
• Il permet de comparer l’importance de ces phénomènes de
santé entre eux
• Le rapport est alors défini comme l’expression la plus
générale de la relation entre 2 quantités, qui peuvent avoir
ou non un lien
• Le rapport peut se présenter sous la forme de proportion,
de taux, de ratio, ou d’indice. 102
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
PROPORTION :
• Une proportion est un rapport dans lequel le
numérateur est inclut dans le dénominateur
• Une proportion est comprise entre 0 et 1
• On peut l’exprimer en pourcentage (%)
• L’équation est (x/y)k,
où
– x est le nombre d’individus pour une caractéristique,
– y est le nombre total d’individus (population)
– k est une constante (en général 100)
103
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
PROPORTION :
Exemple :
• Sur les 120 cas de paludisme admis à l’hôpital, 80
étaient des enfants
• La proportion d’enfants parmi les malades soufrant
de paludisme dans cet hôpital est:
(80/120) x 100 = 66,7%
104
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
RATIO :
• Un ratio est un rapport où le numérateur et le
dénominateur appartiennent au même ensemble,
mais le numérateur n’est pas inclut dans le
dénominateur
Exemple :
• Dans une classe d’étudiants de 160 étudiants, on
dénombre 92 hommes et 68 femmes
• Le Ratio femme/homme de la classe sera de :
= 68 / 92 = 0,74
105
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
RATIO :
• Si une caractéristique divise une population en
deux groupes, par exemple les malades et les non
malades, le ratio malade/non malade s’appelle une
« cote »
Exemple :
• Si pour une réception de 20 convives, 15 convives
manifestent des gastro-entérites et 5 n’ont aucun
signe,
• Le ratio malade/non malade est = 3,
• La cote de la gastro-entérite dans cette population
de convives est donc de 3/1.
106
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
INDICE :
• Un indice est un rapport dans lequel le numérateur
n’est pas compris dans le dénominateur et que l’un
et autre référent à deux évènements distincts
• L’indice est utilisé lorsque le dénominateur n’est
pas bien connu
• On utilise donc un dénominateur qui se rapproche
de la réalité pour obtenir une mesure
107
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
INDICE : Exemple
• Par exemple la fréquence relative des décès
maternels devrait comporter au dénominateur le
nombre total de femmes ayant conçu une
grossesse
• Ce nombre est généralement mal connu
• On peut utiliser le nombre de naissances vivantes
qui est généralement disponible
• Indice de mortalité maternelle =
Décès maternels
Nombre de naissances vivantes
108
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
TAUX :
• Le taux est un rapport qui mesure la vitesse de survenue
d’un évènement
TAUX :
• Le résultat du taux est exprimé en unité-
temps (heure, jour, mois, année…)
• En épidémiologie l’incidence est un taux
• Car elle mesure la vitesse de propagation
d’une maladie dans une population.
110
MESURES D’EPIDEMIOLOGIE UTILISEES EN
STATISTIQUE SANITAIRE
TAUX D’INCIDENCE OU DENSITE D’INCIDENCE
Exemple de calcul de taux d’incidence :
• Par exemple je m’intéresse au premier épisode de mal de
tête chez trois personnes, Ouédraogo, Somé et Traoré,
sous un médicament présentant des effets secondaires
pour 12 heures de temps d’observation.
• Ouédraogo commence a avoir mal à la tête 6 h après le
début de l’étude
• Somé a commencé à avoir mal à la 9è h et Traoré n’a pas
eu du tout mal pendant toute la période de l’étude
• Le taux d’incidence du mal de tête dans cette population est
donc de :
2 / (6+9+12) h ou 2 / 27 / h = 0,07 / h = 0,07 épisode /
personne - h. 111