logo

 

 


 

Tendance centrale d'une distribution

  • Théorie
  • Exemples
  • Exercices


Les paramètres/statistiques de tendance centrale d'une distribution statistique sont des paramètres/statistiques de position particuliers et importants, c'est pourquoi nous les étudions séparément.

Mode (paramètre/statistique non calculé)

Pour une distribution non groupée ou groupée, le(s) mode(s) ou la(es) classe(s) modale(s) est(sont) la(es) valeur(s) de la variable qui a(ont) la fréquence maximum. C'est(Ce sont) le(s) pic(s) de la distribution.

La distribution est unimodale lorsqu’il y a un seul mode mais elle peut avoir plusieurs modes (2 ou bimodale, 3 ou trimodale). Cette situation se produit lorsqu'on recueille des données de 2 ou 3 groupes distincts (exemple : patients sains et malades)

Le mode a l’avantage d'être simple à déterminer et de ne pas être sensible aux scores observés extrêmes qui sont parfois des valeurs aberrantes.

Plus l'écart entre la fréquence associée au mode et les fréquences associées aux autres valeurs de la variable est grand et plus le mode est représentatif.

Il peut être défini pour tous les types de variables, tant qualitatives que quantitatives.

Médiane (paramètre/statistique non calculé)

La médiane est la valeur de la variable qui partage la distribution en 2 parties de fréquences relatives égales (50% - 50%).

Comme le mode, elle a l’avantage de n’être pas sensible aux scores observés extrêmes. Elle est plus représentative que la moyenne si la série présente des valeurs extrêmes ou si la distribution est asymétrique. Un grand écart entre la médiane et la moyenne indique une possibilité de valeurs extrêmes.

Elle ne peut être définie que pour les variables qualitatives ordinales et quantitatives.

Pour une distribution non groupée (variable discrète)

  • Lorsque le nombre d'observations n est impair, la médiane est l'observation de rang (n+1)/2 :
mediane-n-impair

  • Lorsque le nombre d'observations n est pair, la médiane est la moyenne entre l'observation de rang (n/2) et l'observation de rang (n/2+1) :

mediane-n-pair

Pour une distribution groupée (variable continue)

La classe médiane est celle qui contient la médiane. La médiane peut être calculée même lorsque la distribution groupée a des classes variables ou ouvertes.

La valeur approximative de la médiane peut être obtenue :

  • algébriquement

mediane-distribution-groupee

  • graphiquement : Voir l'exemple

Moyenne (paramètre/statistique calculé)

icone excel

Il existe plusieurs moyennes : moyenne arithmétique, moyenne géométrique, moyenne harmonique et médiale

Nous nous intéresserons à la plus utilisée, la moyenne arithmétique qui est égale à la somme des scores observés de la variable divisée par l’effectif N (population) ou n (échantillon).

  • La moyenne de la population est symbolisée par : mu ou mu x
  • La moyenne de l'échantillon est symbolisée par : x barre

Contrairement au mode et à la médiane, la moyenne tient compte de toutes les données et est, par conséquent, sensible aux scores observés extrêmes. C'est une mesure très populaire.

Comme l'indique le tableau Descriptive univariée et échelles de mesure, la moyenne ne peut être calculer uniquement pour une variable quantitative lorsqu'elle est mesurée au moins sur une échelle d'intervalles.

La moyenne se calcule à partir de :

  • la série statistique :
Pour une population de taille N
moyenne-serie2
Pour un échantillon
de taille n
moyenne-serie
  • la distribution de fréquence absolue :
Pour une population de taille N
moyenne-frequence-absolue2
Pour un échantillon
de taille n
moyenne-frequence-absolue
  • la distribution de fréquence relative :
Pour une population de taille N
moyenne-frequence-relative2
Pour un échantillon
de taille n
moyenne-frequence-relative


Les xi dans les formules sont les scores observés (xi) d'une distribution non groupée ou les points centraux (mi) des classes d'une distribution groupée et les ni ou fi les fréquences correspondantes.

Attention, dans le cas où nous utilisons les points centraux (mi) des classes, nous commettons une certaine approximation dans le calcul de la moyenne. Dans ce cas, il est préférable de la calculer à partir des données brutes si nous en disposons.

Propriétés importantes de la moyenne

  • La somme des scores de déviation Di c-à-d des écarts entre les valeurs observées et la moyenne est nulle :

moyenne-propriete1

Démonstration

Le score de déviation est appelé score centré ou semi-réduit

  • C'est par rapport à la moyenne que la somme des carrés des écarts est la plus petite. Cette propriété sera utilisée en régression linéaire
  • La moyenne est à la fois influencée par un changement d'origine (a) et par un changement d'unité (b) :

moyenne-propriete2

Calcul de la moyenne de variables transformées

X' = aX
μ = μ'/a
μ' = aμ
X' = X/a
μ = aμ'
μ' = μ/a
X' = X + b
μ = μ' - b
μ' = μ + b
X' = X - b
μ = μ' + b
μ' = μ' + b
X' = aX + b
μ = (μ' - b)/a
μ = aμ + b

Moyenne d'une distribution empirique versus une distribution théorique

Formule de la moyenne basée sur les fréquences relatives des distributions empiriques = statistique d'échantillon :

moyenne-frequence-relative

Formule de la moyenne basée sur les fréquences relatives des distributions théoriques ou de probabilité = paramètre de la population :

moyenne-population

Relation entre la moyenne, la médiane et le mode

Lorsqu'une distribution est unimodale et symétrique, nous avons : mode = médiane = moyenne.
Dans le cas où la distribution montre une dissymétrie gauche, nous avons la relation mode < médiane < moyenne et dans le cas d'une dissymétrie droite, mode > médiane > moyenne.

Pourcentage ou moyenne d'une variable qualitative binaire

Une variable qualitative binaire peut être considérée comme une variable dite de bernouilli, prenant la valeur 1 pour une des 2 modalités et 0 pour l'autre. Nous pouvons attribuer la valeur 1 lorsque le caractère étudié est présent et 0 lorsqu'il est absent. Ainsi transformée la variable qualitative biniaire devient une variable quantitative.

La moyenne n'est autre que la proportion des n1 sujets possédant la valeur 1.

Pour une population de taille N
Pourcentage1
Pour un échantillon
de taille n
Pourcentage2


Cette proportion est comprise entre 0 et 1 et s'exprime en général en % en la multipliant par 100.


Mode (tout type de variable)

tableau-frequences-discrete1

Sur base du tableau de fréquences, il est facile de trouver le mode. C'est la modalité de la variable "Age" qui a la fréquence la plus élevée, soit 18 ans.

Médiane (variables ordinale et quantitative)

Calcul sur base de la série statistique classée par ordre croissant

Cas n pair : moyenne entre le rang (n/2) et le rang (n/2 + 1)

calcul-médiane-n-pair

Sur base du tableau de fréquences relatives en %, il est encore facile de la trouver.

calcul-mediane-n-impair

Sur base du tableau de fréquences groupées en classes de salaires horaires croissants, nous allons devoir trouver la médiane par calcul.

exemple-calcul-mediane3a

La médiane est le salaire horaire du 125ème individu puisque n = 250. En regardant dans la colonne fréquence cumulée, nous constatons que ce salaire horaire médian se trouve dans la classe médiane 9,0 à 9,2 car :

    • 100 individus ont un salaire horaire inférieur à 9,0 €
    • 172 individus ont un salaire horaire inférieur à 9,2 €

En supposant que le salaire horaire se répartit uniformément au sein de chaque classe, nous pouvons calculer le salaire médian à l'aide de la formule suivante :

mediane-distribution-groupee

exemple-calcul-mediane3b

Sur base du polygone de fréquences cumulées croissantes des salaires horaires, il est aisé de trouver graphiquement la médiane.

exemple-calcul-mediane3c

Moyenne (variable quantitative)

Nous allons la calculer de 3 manières.

A partir des données brutes ou de la série statistique croissante :

exemple-calcul-moyenne1a

exemple-calcul-moyenne1b

A partir de la distribution de fréquence absolue :

exemple-calcul-moyenne2a exemple-calcul-moyenne2b

A partir de la distribution de fréquence relative :

exemple-calcul-moyenne3a exemple-calcul-moyenne3b


Ex 1 :

 

univariee-parametres-1

  1. Quel est le mode ?
  2. Quelle est la médiane ?
  3. Quelle est la moyenne ?

1) 2 Modes = 41,2 h et 42,0 h

Pour trouver facilement le mode, vous construisez la distribution de fréquences absolues sur base des données brutes, et vous repérez la(es) modalité(s) de la variable qui a(ont) la fréquence la plus élevée. Ici la fréquence la plus élevée est 3; 2 modalités ont cette fréquence 41,2 h et 42,0 h.

univariee-parametres-3

2) Médiane = 41,6 h

Vous classez la série par ordre croissant et vous séparez les données en 2 parties égales (50%-50%) : 16 données inférieures et 16 données supérieures.

Compte tenu qu'il y a un nombre pair de données (n = 32), vous utilisez donc la formule suivante :

mediane-n-pair

Q2 = (x16 + x17)/2 = (41,6 + 41,6)/2 = 41,6 h

univariee-parametres-2

3) Moyenne = 41,8 h

Sur base de la distribution de fréquences absolues ci-dessus et en utilisant la formule suivante :

moyenne-frequence-absolue

moyenne = (1 . 38,9 + 1 . 39,2 + 1 . 39,9 + 1 . 40,0 + 1 . 40,1 + 1 . 40,3 + 2 . 40,9 + 2 . 41,0 + 2 . 41,1 + 3 . 41,2 + 2 . 41,6 + 2 . 41,7 + 3 . 42,0 + 1 . 42,5 + 1 . 42,7 + 1 . 42,8 + 1 . 42,9 + 1 . 43,0 + 1 . 43,8 + 1 . 44,3 + 1 . 45,3 + 1 . 47,1)/32 = 41,8 h


Ex 2 :

Voici les groupes sanguins d'un échantillon de patients :

A+
B+
A-
A+
O-
A+
A+
B+
O+
A+
AB+
A+
O+
A+
B-
O+
A+
O+
O+
A-
O+
O+
O+
O+
B+

 

Présentez les données sous forme de tableau de fréquences relatives en % et calculez les paramètres de tendance centrale pertinents ?

 

univariee-parametres-4

Mode = O+ car fréquence la plus élevée : 36%

Ni médiane, ni moyenne car variable nominale.


Ex 3 :

Une étude environnementale a effectué durant un mois des prélèvements dans un lac de la région Nord en France, voici les concentrations en fer relevées :

univariee-parametres-5a

Calculez toutes les mesures de tendances centrales pertinentes.

Compte tenu que nous avons à faire à une variable continue groupée en classe, il nous faut trouver la classe modale et la classe médiane et ensuite calculer par approximation la médiane et la moyenne.

Pour calculer ces paramètres, le plus simple est de réaliser au préalable un tableau de fréquences :

univariee-parametres-5b

  • Classe modale = [0,6 ; 0,8[ mg/l car fréquence absolue la plus élevée : 125 prélèvements
  • Classe médiane = [0,8 ; 1,0[ mg/l car 50 % des prélèvements ont une valeur inférieure ou supérieure à la médiane contenue dans cette classe
  • Médiane qu'il nous faut calculer à l'aide de la formule suivante :

mediane-distribution-groupee

univariee-parametres-5c

  • Moyenne obtenue en utilisant les points centraux des classes et la formule utilisant par exemple la fréquence relative :

moyenne-frequence-relative

univariee-parametres-5d


Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10