logo

 

 


 

Tableaux univariés

  • Théorie
  • Exemples
  • Exercices


Série statistique (données non groupées)

Lorsque les données brutes sont peu nombreuses, la forme la plus élémentaire de présenter une variable X consiste à simplement énumérer tous les scores observés de la population ou de l'échantillon sous forme d'une série statistique en les rangeant par ordre croissant.

Toutefois, certains scores pouvant apparaître plusieurs fois, il est intéressant de les présenter autrement.

Distributions de fréquences (données groupées)

Lorque les données brutes sont nombreuses et se répètent, nous pouvons condenser la série statistique en une distribution de fréquences.

Une distribution de fréquences, appelée aussi distribution statistique est un tableau en 2 colonnes qui présentent

dans la 1ère colonne :

    • les modalités ou classes d'une variable quantitative ou ordinale, par ordre croissant et une seule fois
    • les modalités d'une variable nominale, dans un ordre quelconque et une seule fois

et dans la 2ème colonne :

    • la fréquence c-à-d le nombre de fois que cette modalité est observée ou le nombre d'observations qui existe pour cette classe dans la population ou l'échantillon

Nous appellons distribution de fréquences l'ensemble des doublets {(xi ; ni)} avec i ∈ [1;p] et p = nombre de modalités ou classes.

A) Variable discrète

Fréquences absolues (ni)

Distribution de fréquences absolues
Variable X Fréquences absolues (ni)
X1
n1
X2
n2
...
...
Xi
ni
...
...
Xp
np
Total
n ou N


La distribution des fréquences absolues se présente sous forme d'un tableau avec :

  • dans la 1ère colonne : les p modalités de la variable classées par ordre croissant (x1, x2, ..., xi, ..., xp)
  • dans la 2ème colonne : la fréquence absolue c-à-d l'effectif (n1, n2, ..., ni, ..., np) calculé pour chacune des p modalités c'est-à-dire un nombre entier positif d'observations

Remarque : Une modalité non observée de la variable est soit omise, soit reprise. Dans ce dernier cas, la fréquence correspondante est bien sûr nulle.

La somme des fréquences absolues de toutes les modalités doit être égale à l’effectif total (N ou n) :

frequence-absolue

Le symbole Σ (sigma) s’utilise pour désigner de manière générale la somme de plusieurs termes. Ce symbole est accompagné d'un indice i que l'on fait varier de 1 à ici p de façon à englober tous les termes qui doivent être considérés dans la somme.

Fréquences relatives (fi)

Ce sont les rapports entre l’effectif de chaque modalité et l’effectif total. Il s’agit donc, pour chaque modalité, d'un nombre fractionnaire positif pouvant varier entre 0 et 1.
La somme des fréquences relatives de toutes les modalités doit être égale à 1 :

frequence-relative

Distribution de fréquences relatives
Variable X Fréquences absolues (ni)
X1
n1/N ou n1/n
X2
n2/N ou n2/n
...
...
Xi
ni/N ou ni/n
...
...
Xp
np/N ou np/n
Total
1


Fréquences relatives exprimées en pourcent (%)

Ce sont les fréquences relatives multipliées par 100.
La somme des fréquences relatives en % de toutes les modalités doit être égale à 100.

L’information fournie par les fréquences relatives en % est plus parlante que celle fournie par les fréquences absolues puisqu’elles donnent une idée très claire du poids de chacune des modalités de la variable.

Fréquences cumulées

Pour une certaine modalité de la variable, la fréquence cumulée croissante (décroissante) est égale à la somme de la fréquence de cette modalité et de la fréquence des modalités inférieures (supérieures) de la variable.

Distribution de fréquences cumulées
Variable X Fréquences cumulées croissantes Fréquences cumulées croissantes
x1 n1 np+np-1+...+n3+n2+n1=N ou n
x2 n1+n2 np+np-1+...+n3+n2
x3 n1+n2+n3 np+np-1+...+n3
... ... ...
xp-1 n1+n2+n3+...+np-1 np+np-1
xp n1+n2+n3+...+np-1+np = N ou n np


La fréquence cumulée pour la modalité de la variable la plus élevée (xp) si croissant, ou la plus basse (x1) si décroissant, est toujours égale à N ou n dans le cas des fréquences absolues, à 1 dans le cas des fréquences relatives et à 100 dans le cas des fréquences relatives en %.

Comme indiqué dans le tableau descriptive univariée et échelles de mesure, pour une variable nominale, il n’y a aucun sens à cumuler les fréquences puisque les valeurs des étiquettes ne sont pas classées selon un ordre croissant mais de manière arbitraire.

B) Variables continues

Fréquences groupées en classes

Comme indiqué dans le tableau descriptive univariée et échelles de mesure, pour une variable continue (échelle de rapports ou d’intervalles), compte tenu du grand nombre de modalités différentes et de leur fréquence respective petite, ces modalités sont groupées en classes afin d'avoir une distribution statistique plus lisible. Les données à l'intérieur de chaque classe sont supposées différentes et considérées comme réparties uniformément.

Remarque : Malgré l'intérêt de regrouper les données brutes, celles-ci restent utiles pour calculer de manière précise les mesures de tendance et de dispersion de la distribution car lorsque nous utilisons les points centraux des classes, nous en faisons des approximations.

Méthode de construction des classes :

Le nombre de classes (k) dépend de la taille la population (N) ou de l'échantillon (n). Ce nombre est généralement compris entre 5 et 20.

Procédure de calcul selon la règle de Sturges :

regle-de-sturges

Calcul du nombre de classes
Nombre de données classes (N ou n) Nombre souhaité de classes selon Sturges
Moins de 20 Aucun regroupement
20 à 31 5
32 à 63 6
64 à 127 7
128 à 255 8
256 à 511 9
512 à 1023 10
1024 à 2047 11
2048 et plus 12


L’intervalle de classe se mesure dans la même unité que la variable. Il peut être constant ou non, dans ce cas il s'agit d'un intervalle de classe variable ce qui permet de diminuer les écarts de fréquences entre les classes (attention aux ajustements graphiques et aux calculs des statistiques).

Sa largeur (a) dépend de l'étendue des modalités ainsi que du degré de précision désiré.

Procédure de calcul de la largeur pour un intervalle de classe constant : intervalle-de-classe-constant

Chacune des classes peut être caractérisée par son point central ou milieu de classe (mi) situé à mi-chemin entre les bornes de classe correspondantes.

Si a est un nombre entier impair : nous avons des valeurs observées aux points centraux des classes.

Les limites réelles de classe : la borne supérieure réelle d’une classe [bi-1 , bi] est confondue avec la borne inférieure de la classe suivante [bi , bi+1]. Par convention, nous prenons la valeur moyenne entre les limites apparentes comme borne.

Il faut ajuster le nombre de classes (k), la largeur de l'intervalle de classe (a) et les bornes [bi-1 , bi] des classes pour que :

  • la borne inférieure de la première classe permette au score minimal observé d’être inclus
  • la borne supérieure de la dernière classe permette au score maximal observé d’être inclus
  • les bornes soient simples à interpréter


Dans certains cas, la borne inférieure de la première classe ou la borne supérieure de la dernière classe n'est pas définie. Il s'agit d'une classe ouverte, cela présente des inconvénients lors de la représentation graphique ou la réduction de données (attention aux ajustements graphiques et calcul des statistiques).

Les limites apparentes de classe : Ce sont les bornes inférieure et supérieure de classe qui peuvent réellement être observées dans les modalités de la variable.

La fréquence de classe est l'effectif c-à-d le nombre de scores observés qu'elle contient. Les fréquences groupées en classe peuvent être absolues, relatives, relatives en % et cumulées ou non.

La fréquence unitaire ou fréquence par intervalle de classe unitaire est égale à la fréquence relative divisée par l'intervalle de classe correspondant. Elle permet de comparer la fréquence de classe d'une classe à l'autre ou d'une distribution à l'autre quelque soit son intervalle de classe.

Tableau de fréquences groupée en classe
Classes de la variable X

Points centraux (mi)

Fréquence (fi)

[b0 , b1[
m1
f1
[b1 , b2[
m2
f2
...
...
...
[bk-1 , bk[
mk
fk
Total
-
1

Tableau des données brutes de 20 élèves de 1ère année du Collège Z

Tableau-donnees-exemple1

Série statistique

Serie-statistique-age

Voici la série satistique de la variable "Age", ce sont les données brutes de la variable mais classées dans un ordre croissant. Nous pouvons constater qu'il n'y a que 3 scores observés : 17, 18 et 19 mais qu'ils se répètent plusieurs fois. Il est donc intéressant de les présenter autrement.

Tableaux de fréquences absolues, relatives et relatives en %

Variable discrète

Tableau de fréquences absolues, relatives et relatives en % de l'âge de 20 élèves de 1ère année du Collège Z

tableau-frequences-discrete

Variable nominale

Tableau de fréquences absolues, relatives et relatives en % de la couleur de cheveux de 20 élèves de 1ère année du Collège Z

tableau-frequences-nominale

Variable ordinale

Tableau de fréquences absolues, relatives et relatives en % du degré de pratique sportive de 20 élèves de 1ère année du Collège Z

tableau-frequences-ordinale

Variable continue

Tableau de fréquences absolues, relatives et relatives en % de la taille de 20 élèves de 1ère année du Collège Z

tableau-frequences-continue

Tableaux de fréquences cumulées croissantes et décroissantes

Tableau de fréquences relatives en % cumulées croissantes et décroissantes de l'âge de 20 élèves de 1ère année du Collège Z

tableau-frequences-cumulees


Ex 1 :

Considérons la série statistique ordonnée suivante relative aux âges d'un échantillon de membres d’un club sportif :

univariee-tableau-1

  1. Sur quel type d’échelle nous situons-nous dans cet exercice ?
  2. Groupez cette série en classes et construisez le tableau de la distribution observée des fréquences absolues (effectifs) et relatives correspondant. Prenez, pour ce faire, 5 classes de même largeur.

1) Sur une échelle de rapports

2) Nombre de classes à construire : 5 classes de même largeur

Valeur approchée de la largeur des classes = (41 - 17)/5 = 4,8 d'où largeur de classe = 5

Limite inférieure de la première classe = 16,5

Limite supérieure de la dernière classe = 41,5

Nombre d’observations = n = 50

Tableau de distribution des membres d'un club sportif :

univariee-tableau-2


Ex 2 :

La clinique de santé mentale d’une université utilise les lettres suivantes pour coder les principaux problèmes de santé poussant les patients à demander une assistance :

A : Anxiété générale
B : Dépression générale
C : Problèmes liés à la sexualité
D : Problèmes liés à l’alcool et aux stupéfiants
E : Problème de comportement social
F : Problèmes familiaux
G : Autres problèmes

Cinquante-quatre patients se sont rendus à la clinique un jour donné. On a attribué à chacun d’eux une lettre en fonction du problème dont ils souffraient.

univariee-tableau-3

  1. Sur quel type d’échelle nous situons-nous dans cet exercice ?
  2. Construisez le tableau de la distribution des fréquences absolues et relatives associé à ces observations.

1) Sur une échelle qualitative (nominale ou catégorielle)

2)

    • Nombre d'observations ou unités statistiques ou patients : n = 54
    • Nombre de modalités de la variable "Problèmes de santé" : p = 7
  Modalités de la variable "Problèmes de santé" Fréquences absolues (Effectifs) ni Fréquences
relatives fi
1
A
5
5/54 = 0,09
2
B
18
18/54 =0,33
3
C
4
4/54 = 0,07
4
D
5
5/54 = 0,09
5
E
3
3/54 = 0,06
6
F
4
4/54 = 0,07
7
G
15
15/54 = 0,28
   
n = 54
54/54 = 1

Ex 3 :

A partir du tableau de fréquences ci-dessous, représentez sous la forme d’une distribution de fréquence groupée en classes de 3 points la variable "note". Indiquez les centres des classes, les fréquences absolues, relatives, relatives cumulées et relatives cumulées exprimées en %.

univariee-graphique-3

univariee-tableau-4

Il est préférable de se choisir un intervalle de classe impair. Ceci permet aux valeurs centrales des classes d’avoir une valeur observable dans l’échantillon.


Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10