logo

 

 


 

Concepts statistiques de base

  • Théorie
  • Exemples
  • Exercices


Population, échantillon et unités statistiques

La population est l'ensemble sur lequel porte l'étude statistique. C'est l’univers de référence, noté : Ω = {ω1; ω2; ... ; ωN}.

Les individus ou unités statistiques sont les élémePopulation-échantillon-individus-variablesnts qui constituent la population. Ils possèdent tous le caractère étudié, et sont notés ωi avec i variant de 1 à N pour une population de taille N.

Les populations variant d'un petit à un très grand nombre d'individus, voire un nombre infini, il est souvent impossible de collecter le(s) caractère(s) de tous les individus.

Il faut donc prélever dans la population étudiée un échantillon représentatif de taille n c-à-d un sous-ensemble de n individus de la population (n ≤ N). Il est noté s ("sample"). Le prélèvement se fait par un sondage aléatoire au cours duquel chaque individu de la population a eu une chance égale d'être choisi.

Observations, caractères et données brutes

Le statisticien fait ensuite des relevés sur les unités statistiques de l'échantillon pour les caractères étudiés : ce sont les scores observés.

Les caractères sont donc les propriétés étudiées d’une personne, d'un animal, d'un objet ou d'un évènement. Ils sont communs à toutes les unités statistiques de la population de référence. Un caractère est appelé variable statistique, notée X.

Les données brutes sont les scores observés des unités statistiques, soit de toute la population, soit d'une partie de celle-ci (échantillon) pour les différentes variables de l'étude.

2 types de variables

Variables quantitatives

Les variables quantitatives ont des observations numériques, appelées valeurs ou modalités obtenues suite à :

  • un dénombrement (comptage) correspondant à une échelle absolue sans unité. Il s'agit de variables discrètes
  • une mesure basée sur une échelle d'intervalles ou de rapports dont l'unité doit toujours être précisée. Il s'agit de variables continues


Les variables sont discrètes si l’ensemble des scores observés est fini ou dénombrable. Elles prennent des valeurs numériques qui appartiennent en général à l’ensemble des nombres entiers positifs, zéro inclus. Cependant, elles peuvent parfois prendre des valeurs non entières.

Les variables sont continues si l’ensemble des scores observés est infini ou indénombrable. Elles prennent des valeurs numériques qui appartiennent en général à l’ensemble des nombres réels positifs, zéro inclus. Ce sont des grandeurs de mesure, basées sur une échelle d'intervalles ou de rapports, pouvant être théoriquement mesurées avec un degré infini de précision c-à-d de décimales. Mais en réalité, elles sont discontinues car mesurées avec un degré de précision fixé, par exemple au gramme près (3 décimales).

Variables qualitatives

Les variables qualitatives ont des observations non numériques. Ce sont des catégories ou modalités obtenues suite à une classification. Il en existe 2 sortes selon le type d'échelle de mesure :

  • Les variables nominales si les modalités ne sont pas naturellement ordonnées (échelle nominale)
  • Les variables ordinales si l’ensemble des modalités forme une relation d’ordre (échelle ordinale)
    Types de variables selon le processus et l'échelle de mesure
      Variables
    Types de variables Qualitatives Quantitatives
    Discrètes Processus de classification
    Echelle nominale
    Echelle ordinale
    Processus de dénombrement
    Echelle absolue
    Continues   Processus de mesure au sens commun
    Echelle d'intervalle
    Echelle de rapport

Il faut bien garder à l’esprit que, selon l’échelle de mesure utilisée pour mesurer la variable, il existe un type approprié de procédures de statistique descriptive et d’inférence statistique. Par exemple, les caractères qualitatifs peuvent parfois être numériques (exemple : N° de téléphone) mais ils n'ont aucun sens "quantitatif" et par conséquent calculer un numéro de téléphone "moyen" n'a pas de sens.

Modalités et classes

Le choix d'un caractère crée une partition de la population, chaque individu appartient à une et une seule modalité ou classe de la variable. Les modalités ou les classes d'un caractère doivent donc être incompatibles et exhaustives; une unité statistique ne peut appartenir à 2 modalités ou 2 classes et il doit exister une modalité ou une classe pour chaque unité statistique.

Modalités (distributions non groupées)

Dans le cas des variables qualitatives ou quantitatives discrètes, la variable peut prendre différentes catégories ou valeurs, appelées modalités.
S'il existe p modalités, l’ensemble des catégories ou valeurs possibles de la variable X est noté : M = {x1; x2; ... ; xp}.

Classes (distributions groupées)

Dans le cas des variables quantitatives continues, les unités statistiques sont regroupées au sein de classes (5 à 20), c'est-à-dire d'intervalles de valeurs que peut prendre la variable. L'utilisation des classes permet de réduire le nombre très important de valeurs.


Tableau des données brutes de 20 élèves de 1ère année du Collège Z

Tableau-donnees-exemple1

Population, échantillon et unités statistiques

Nous avons ici un échantillon composé de 20 unités statistiques, 20 élèves, tirés de la population "1ère année du Collège Z".

Pour que cet échantillon soit représentatif de la population, la meilleure méthode est le tirage dans une urne : nous inscrivons le nom de tous les élèves de toutes les classes existantes de 1ère année du Collège Z sur un bout de papier que nous déposons dans une urne, nous les mélangeons, nous en tirons 20 au hasard et notons le nom des étudiants sur une liste. Il ne reste plus qu'à collecter les données brutes étudiées sur chacun des 20 élèves choisis.

Bien sûr cet échantillon ne pourra jamais être représentatif de la population "Elèves belges de 1ère année". Pour cela, il aurait fallu tirer au hasard un échantillon d'écoles belges et ensuite pour chaque école de cet échantillon tirer au hasard un échantillon d'élèves de 1ère année. Par conséquent, nous ne pouvons donc rien inférer à partir de l'échantillon actuel sur la population des élèves belges de 1ère année.

Tableau de données brutes

Chaque ligne du tableau représente l’ensemble des données d’une unité statistique c-à-d un des 20 élèves de l'échantillon.

L’étudiant (N° = 4) est de sexe masculin, a 19 ans, mesure 180 cm, a les cheveux blonds et a une pratique de sport intensive

Chaque colonne du tableau représente un caractère ou une variable. Elle est représentée par une lettre majuscule (X) et chaque variable peut prendre différentes modalités ou valeurs représentées par des minuscules (xi ).

A l’intersection d’une ligne et d’une colonne, dans chaque cellule du tableau, on a le score observé xi d’une variable donnée X pour un individu donné N° = i.

Le score observé de la variable X = "Couleur des cheveux" de l’individu N°= 6 est "Blond"

Variables, modalités/valeurs/classes et scores observés

La "couleur des cheveux" est la variable X car il s’agit d'un caractère ou d'une propriété de l’objet "Cheveux". Elle peut prendre différentes valeurs ou modalités M = {x1 = brun; x2 = noir; x3 = blond, x4 = chatain; x5 = roux}.

Le score observé de l’individu N°= 6 pour cette variable X est x3

Types de variables

a) Variable qualitative ou catégorielle :

  • Variable nominale obtenue suite à une classification : la variable "Couleur des cheveux"
  • Variable ordinale obtenue suite à un classement ordonné : la variable "Degré de pratique sportive" avec l'échelle suivante - pas du tout < un peu < beaucoup < intensément -


b) Variable quantitative obtenue suite à :

  • un dénombrement (comptage) : la variable "Fratrie (nombre de frères et soeurs)"
  • une mesure : la variable "Taille (en cm)"

c) Variable discrète : la variable "Fratrie" car elle a un nombre limité et dénombrable de valeurs. Par exemple : ⎨0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10⎬.

d) Variable continue : la variable "Taille" car c'est une grandeur qui peut être théoriquement mesurée avec un degré infini de précision (166,7895325... cm), et donc un nombre illimité de valeurs. En réalité ses valeurs seront "discrètes" car mesurées avec un degré de précision (au cm près par exemple) mais même dans ce cas elles seront trop nombreuses et justifieront d'être regroupées en classes.

Les variables indépendantes et dépendantes

Par exemple : Quelle est la différence dans le degré de pratique sportive des élèves de 1ère année en fonction d'une autre variable ?

  • La variable dépendante est la variable X = "Degré de pratique sportive".
  • Une variable indépendante pourrait être la variable Y = "Sexe" si l'on désire savoir si le degré de pratique sportive diffère entre les filles et les garçons.

 


Ex 1 :

Définissez le type de variable et l'échelle de mesure pour les différents caractères mesurés suivants :

  1. Kilomètres parcourus
  2. Présence en classe
  3. Satisfaction sur une échelle en 5 points
  4. Groupe sanguin
  5. Nombre de postes informatiques
  6. catégories socio-professionnelles
  7. Age des salariés
  8. Heure à laquelle une personne va dormir
  9. Nationalité
  10. Connaissance en informatique évaluée sur une échelle à quatre points
  11. Nombre d'heures de sommeil
  12. Ancienneté

 

  1. quantitative continue - échelle de rapports
  2. qualitative et binaire - échelle nominale
  3. qualitative - échelle ordinale
  4. qualitative - échelle nominale
  5. quantitative discrète - échelle absolue
  6. qualitative - échelle nominale
  7. quantitative continue - échelle de rapports
  8. quantitative continue - échelle d'intervalles
  9. qualitative - échelle nominale
  10. qualitative - échelle ordinale
  11. quantitative continue - échelle de rapports
  12. quantitative continue - échelle de rapports

Ex 2 : Répondez au choix multiple suivant (cliquez ici) :

Un instituteur note l’ordre dans lequel ses élèves terminent leur interrogation. Le premier à finir, le deuxième... Quelle échelle de mesure est utilisée ?


Echelle nominale
Echelle ordinale
Echelle d'intervalles
Echelle de rapport
Echelle absolue


Ex 3 : Des chercheurs s’intéressent à l’obésité chez les jeunes. Donnez deux exemples de variables indépendantes et dépendantes qui pourraient être utilisées dans le cadre de cette étude.

 

  • Variable dépendante : poids en kg avec variable indépendante : milieu socio- économique
  • Variable dépendante : poids en kg avec variable indépendante : culture d’origine
  • Variable dépendante : poids en kg avec variable indépendante : nombre de repas par jour
  • Variable dépendante : nombre de repas par jour avec variable indépendante : structure familiale

 


Ex 4 : Des chercheurs s’intéressent à l’obésité chez les jeunes. Donnez des exemples de variables (et leur codage) quantitatives et qualitatives qui pourraient être utilisées dans le cadre de cette étude.

 

  • Variables quantitatives : nombre de repas pris sur la journée; nombre d’heures passées devant la télévision par semaine; poids; taille; âge; taux de l’hormone x dans le sang; pratique d’un sport par semaine (pas du tout, un peu, beaucoup); ...
  • Variables qualitatives : genre (féminin, masculin); fumeur (oui, non); pratique d’un sport (oui, non); personnalité dépressive (oui, non); ...

 


Ex 5 :

A) Dans quelles conditions l’ensemble des étudiants de l’ULB serait-il considéré comme :

  1. une population ?
  2. un échantillon ?

B) Si l’ensemble des étudiants de l’ULB était considéré comme un échantillon, s’agirait-il d’un échantillon aléatoire ?


A)

  1. Dans tous les cas où on veut étudier uniquement les résultats des étudiants de l’ULB
  2. Dans tous les cas où l’étude porte sur une population plus large qu’uniquement les étudiants de l’ULB

B) Il s’agirait d’un échantillon non aléatoire car l’ensemble des étudiants (par exemple de Belgique) n’a pas une chance égale d’être inclus dans cet échantillon


Ex 6 : Une hypothèse peut être définie comme une prédiction à propos des effets d’une variable (a) ____________________ sur une variable (b) _________________


a) variable indépendante

b) variable dépendante


Ex 7 : Des chercheurs désirent comparer les capacités d’interactions sociales d’un groupe d’enfants de 3 ans qui sont allés à la crèche avec celles d’un groupe d’enfants de 3 ans qui n’y sont pas allés. Quelle est la variable dépendante dans cette étude ? Quelle est la variable indépendante ?


Variable indépendante = fréquentation d’une crèche

Variable dépendante = capacités d’interactions sociales


Ex 8 : Ennoncé8

Solution8


Ex 9 : Ennoncé9

Solution9


Ex 10 : Ennoncé10

Solution10