logo

 

 


 

Dispersion d'une distribution

  • Théorie
  • Exemples
  • Exercices


Comme l'indique le tableau Descriptive univariée et échelles de mesure, l'analyse de la dispersion d'une distribution statistique ne peut se faire que si la variable est au moins mesurée sur une échelle d'intervalles. Pour les variables qualitatives (nominale et ordinale) cela n'a pas de sens.

Extrêmes (paramètres/statistiques non calculés)

Ce sont les 2 valeurs minimum (xmin) et maximum (xmax).

Les extrêmes donnent une idée grossière de la dispersion de la distribution de part et d'autre de la médiane.

Etendue (paramètre/statistique non calculé)

L'étendue est la différence entre le score observé maximum (xmax) et le score observé minimum (xmin) de la variable X.

Etendue = xmax - xmin

Dans le cas de distributions groupées sans données brutes accessibles, c'est l'écart entre la borne supérieure de la dernière classe et la borne inférieure de la première classe. L'étendue ne peut pas être calculée en cas de classes ouvertes.

C'est la mesure la plus rudimentaire de la dispersion d'une distribution, elle ne donne aucun renseignement sur la dispersion des valeurs intermédiaires. Elle est peu fiable car elle ne dépend que des 2 valeurs extrêmes qui peuvent être des valeurs aberrantes. L'étendue a la même unité que la variable.

Ecart interquartile (paramètre/statistique non calculé)

L'écart interquartile est égal à la différence entre le 3ème quartile et le 1er quartile.

Ecart interquartile = Q3 - Q1

Il se mesure dans la même unité que la variable et constitue une bonne mesure de la dispersion de la distribution statistique car il contient 50% des données les plus stables. En effet, ce sont les données extrêmes qui varient le plus d'un échantillon à l'autre. Il joue donc un rôle lorsque la médiane est plus représentative que la moyenne. Il peut être utilisé dans le cas de distribution groupée avec classes ouvertes.

Le diagramme en forme de boîte appelé boîte à moustaches ou boxplot en anglais est une bonne manière de représenter de manière visuelle la dispersion des données d'une distribution ainsi que sa symétrie ou asymétrie.

Construction d'une boîte à moustaches

boite-a-moustaches

  • La ligne horizontale avec les scores observés
  • La boîte centrale délimitée par le 1er quartile à gauche et le 3ème quartile à droite contenant 50% des individus. La position de la médiane à l'intérieur de la boîte indique le degré d'asymétrie de la distribution statistique
  • Les frontières se trouvent à 1,5 fois la longeur de la boîte de part et d'autre de celle-ci. En général, celles-ci n'apparaissent pas sur le diagramme
    • La frontière inférieure = Q1 - 1,5 (Q3-Q1)
    • La frontière supérieure = Q3 + 1,5 (Q3-Q1)
  • Ce sont les valeurs adjacentes qui apparaissent, c-à-d les scores réellement observés les plus proches des frontières et à l'intérieur de celles-ci. Les 2 valeurs adjacentes inférieure et supérieure forment les moustaches
  • Les scores observés éloignés se trouvent à plus de 1,5 fois la longueur de la boite de part et d'autre de celle-ci. Ils sont indentifiés par une rond et par le N° identifiant les individus ayant ces scores
  • Les scores observés extrêmes ou atypiques se trouvent à plus de 3 fois la longeur de la boîte de part et d'autre de celle-ci. Ils sont indentifiés par une astérisque et par le N° identifiant les individus ayant ces scores

Ecart moyen absolu (paramètre/statistique calculé)

L'écart moyen absolu est la moyenne des valeurs absolues des scores de déviation Di.

Le score de déviation ou score centré ou score semi-réduit est égal à:

score-deviation

et a comme propriétés :

score-deviation-propriete

et

score-deviation-moyenne

Il est calculé uniquement pour les variables quantitatives à partir de :

  • la série statistique :
Pour une population de taille N
Ecart-moyen-absolu-serie1
Pour un échantillon
de taille n
Ecart-moyen-absolu-serie
  • la distribution de fréquence absolue :
Pour une population de taille N
Ecart-moyen-absolu-absolue1
Pour un échantillon
de taille n
Ecart-moyen-absolu-absolue
  • la distribution de fréquence relative :
Pour une population de taille N
Ecart-moyen-absolu-relative1
Pour un échantillon
de taille n
Ecart-moyen-absolu-relative

C'est une excellente mesure de la dispersion d'une distribution statistique mais peu utilisée car supplantée par l'écart-type qui joue un rôle central en statistique inférentielle.

Variance et écart-type (paramètres/statistiques calculées)

Variance

La variance est la moyenne des carrés des écarts des scores observés par rapport à la moyenne.

La variance de la population est symbolisée par : variance-population ou variance-population 2

La variance de l'échantillon est symbolisée par : variance

La variance est le meilleur indicateur de la dispersion d'une variable autour de sa moyenne. Plus la variance est faible et plus la distribution statistique est reserrée. Plus la variance est élevée et plus elle est étalée.

Comme la moyenne, elle tient compte de toutes les données et est donc fort sensible aux valeurs extrêmes. Elle est très utile pour comparer la dispersion des valeurs d'une même variable pour 2 échantillons différents d'une même population. Prise isolément, la variance est difficile à interpréter.

Il s'agit d'une mesure absolue c-à-d mesurée dans la même unité que la variable mais élevée au carré ce qui n'a pas à proprement parler de signification autre que mathématique. C'est pourquoi nous utilisons sa racine carrée, appelée écart-type.

On peut la calculer uniquement pour les variables quantitatives à partir de :

  • la série statistique :
Pour une population de taille N variance-serie
Pour un échantillon
de taille n
variance-corrigee
  • la distribution de fréquence absolue :
Pour une population de taille N variance-frequence-absolue
Pour un échantillon
de taille n
variance-corrigee1
  • la distribution de fréquence relative :
Pour une population de taille N variance-frequence-relative
Pour un échantillon
de taille n
variance-corrigee2


Les xi sont les scores observés (xi) de la distribution non groupée ou les points centraux (mi) des classes de la distribution groupée et les ni ou fi les fréquences correspondantes. Attention, dans le cas où vous utilisez les points centraux (mi), vous commettez une certaine approximation.

Voici des formules alternatives simplifiées pour le calcul de la variance d'une population, utile lorsqu'il faut la calculer à l'aide d'une machine à calculer :

  Pour une population Pour un échantillon
Série statistique
variance-formule-pratique-serie
variance-formule-pratique-echantillon-serie
Distribution fréquences absolues
variance-formule-pratique-absolue
variance-formule-pratique-echantillon-absolue
Distribution fréquences relatives variance-formule-pratique-relative variance-formule-pratique-echantillon-relative

Démonstration

Ecart-type

L'écart-type est égal à la racine carrée de la variance et, par conséquent a la même unité que la variable.

ecart-type-population pour une population

ecart-type pour un échantillon

Plus l'écart-type est petit et moins grande est la dispersion de la distribution statistique comme le montre la figure suivante :

dispersion-en-fonction-ecart-type

Propriétés importantes de la variance et donc l'écart-type

  • Ils sont nuls si et seulement si tous les scores observés sont égaux entre eux, et donc égaux à la moyenne
  • Contrairement à la moyenne, ils ne sont pas influencés par un changement d'origine (a), ils ne sont influencés que par un changement d'unité (b) et
variance-propriete-2

Calcul de la variance de variables transformées

X' = aX
σ2 = σ'2/a2
σ'2 = a2σ2
X' = X/a
σ2 = a2σ'2
σ'2 = σ2/a2
X' = X + b
σ2 = σ'2
σ'2 = σ2
X' = X - b
σ2 = σ'2
σ'2 = σ2
X' = aX + b
σ2 = σ'2/a2
σ'2 = a2σ2


Lorsqu'une variable X subi une transformation plus complexe, il faut manipuler la variance que sur les données transformées.

Variance corrigée

En inférence statistique, les statistiques calculées sur base de l'échantillon servent à estimer les paramètres de la population dont l'échantillon est issu.

Si la moyenne de l'échantillon est un bon estimateur de la moyenne de la population, la variance corrigée fournit une meilleure estimation de la variance de la population que la variance non corrigée calculée à partir de l'échantillon.

La variance corrigée est obtenue en divisant la somme des carrés des écarts des scores observés de l'échantillon par rapport à sa moyenne par n-1 au lieu de n. Explication du pourquoi ?

variance-corrigee

Lorsque la taille n de l'échantillon est grande, la variance corrigée et la variance non corrigée deviennent semblables.

  • Pour passer de la variance corrigée à la variance non corrigée, il suffit de la multiplier par (n - 1)/n
  • Pour passer de la variance non corrigée à la variance corrigée, il suffit de la multiplier par n/(n - 1).

Variance d'une distribution empirique versus une distribution théorique

Formule de la variance basée sur les fréquences relatives des distributions empiriques = statistique d'échantillon :

variance-corrigee2

Formule de la variance basée sur les fréquences relatives des distributions théoriques ou probabilités = paramètre de la population :

variance-population 3

Coefficient de variation (C.V.)

Le coefficient de variation est une mesure de la dispersion relative. Il n'est calculé que pour les variables mesurées sur une échelle de rapports.

Il sert à qualifier l'homogénéité d'une distribution. Selon le domaine, un C.V. < à x défini un processus homogène.

Il sert aussi à donner la fiabilité d'une moyenne :

    • Si C.V. ≥ 35 % : Trop peu fiable pour publier la moyenne
    • Si 15% < C.V. < 35% : La moyenne est publiée mais en émettant des réserves
    • Si C.V. < 15% : la moyenne est représentative
      - C.V. de 0,00 % à 4,99 % Excellent
      - C.V. de 5,00 % à 9,99 % Très bon
      - C.V. de 10,00 % à 14,99 % Bon

Il permet enfin de comparer la dispersion de 2 distributions de nature différente.

C'est un nombre pur sans unité, exprimé en % en le multipliant par 100.

coefficient de variation

Ecart-type unitaire de la variable standard Z

Lorsqu'une distribution statistique est normale, les scores standards Z ou scores centrés réduits sont obtenus par une transformation linéaire des scores bruts de la variable X comme suit :

score-z

Ceci est intéressant car la distribution des scores Z est une distribution normale standardisée ou centrée réduite, notée N(0,1), ayant toujours comme moyenne 0 et comme écart-type 1.

Les scores Z sont très utilisés en inférence statistique.

Contrairement aux scores bruts xi et aux scores de déviation Di qui s’expriment dans l'unité de la variable X, les scores Z, leur moyenne et leur écart type sont des nombres purs.

Ecart-type d'une variable qualitative binaire

Nous avons vu qu'une variable qualitative binaire peut être considérée comme une variable de bernouilli, prenant les valeurs 0 et 1, analogue à une variable quantitative. Sa moyenne s'exprime par le pourcentage P.

Sa variance : σ2 = P(1 - P)

Son écart-type : ecart-type-variable-binaire

L'écart-type d'une variable binaire est maximal lorsque le pourcentage est de 50%.

Inégalité de Chebyshev (k)

Quelque soit l'allure de la distribution statistique, nous avons l'inégalité suivante :

inegalite-de-chebyshev


Voici le calcul des différentes statistiques de dispersion basé sur les données brutes suivante :

Tableau-donnees-exemple1-taille

Etendue

En classant les données brutes selon une série statistique croissante, il est facile de calculer l'étendue.

serie-statistique-exemple1-taille

Etendue = xmax - xmin = 187 - 155 = 32 cm

Ecart interquartile

Les quartiles Q3 et Q1 ayant été calculé dans l'exemple de la fiche position dans une distribution, il suffit d'en faire une simple soustraction :

Q3 - Q1 = 179,75 - 166,25 = 13,5 cm

Ecart moyen absolu

exemple-calcul-ecart-moyen-absolu

Variance et écart-type

A partir de la série statistique

exemple-calcul-variance1a

A partir de la distribution de fréquences non groupée

exemple-calcul-variance2

 


Ex 1 : Enoncé1
Solution1

Ex 2 : Ennoncé2
Solution2

Ex 3 : Ennoncé3
Solution3

Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10