logo

 

 


 

Sondage

  • Théorie
  • Exemples
  • Exercices


Echantillonnage

Lorsque nous étudions une population, nous faisons un recensement si nous dénombrons l'ensemble des individus afin de recueillir des données statistiques. La collecte des données est exhaustive.

Il est rare de pouvoir recueillir des données sur la population entière, le plus souvent il faut les collecter sur un groupe limité, sélectionné à l'intérieur de la population. Le groupe d'individus qui a été sélectionné s'appelle un échantillon et le processus consistant à le sélectionner s'appelle un échantillonnage.

La méthode utilisée pour échantillonner est le sondage.

L'avantage de l'échantillonnage est de permettre de connaître les paramètres d'une population en étudiant seulement une petite partie de celle-ci, ce qui permet de faire d'économie. Toutefois cela génère bien sûr une certaine imprécision.

L'unique objectif d'un échantillon est d'inférer à partir des statistiques calculées sur des données observées les paramètres de la population. Ces statistiques sont des estimateurs des vraies valeurs inconnues de la population.

Sondage-descriptive-inférence

Biais de sélection

La qualité d'un échantillon doit donc d'être représentatif de la population qu'il est censé décrire. L'échantillon doit être l'image la plus fidèle de celle-ci.

Si celui-ci n'est pas représentatif, il fournira des données et des paramètres biaisés. Le processus de sélection des individus ne peut faire l'objet d'un choix sublectif et doit être complètement indépendant de toutes les caractéristiques des individus. Il ne peut donc en aucun cas influer sur le résultat.

Tirage au sort

La seule méthode pour être certain de ne pas avoir un échantillon biaisé est que le processus de sélection soit entièrement dû au hasard.

En effet si nous admettons que le hasard est la rencontre de 2 évènements complètement indépendants. Le tirage au sort de numéros attribués préalablement à tous les individus d'une population est indépendant des caractéristiques des individus sélectionnés.

Ce tirage aléatoire se fait à l'aide de tables de nombres aléatoires.

Il peut se faire également à l'aide de générateurs de nombres aléatoires.

icone excel

Nous avons 2 sondages :

    1. Les sondages aléatoires où la probabilité de sélection de chaque individu est définie dès la constitution du plan de sondage
    2. Les sondages empiriques où un choix raisonné lors de la sélection est exercé par l'expérimentateur en fonction de règle préétablie

Sondages aléatoires

Ils ne donnent aucune liberté de choix à l'expérimentateur, la sélection de l'échantillon est entièrement due au hazard. Il est le seul retenu dans les démarche scientifique.

Les méthodes probabilistes qui consistent à tirer au sort l’échantillon dans la population à étudier, donnant à chacun des éléments de celle-ci une probabilité connue non nulle, d’être sélectionnée.

Plusieurs méthodes existent en fonction du temps et des moyens financiers disponibles.

Sondage simple

Il nécessite de disposer d'une liste numérotée de tous les N individus de la population étudiée, appelée base de sondage.

Après avoir fixé la taille de l'échantillon n, on tire au sort les numéros des individus qui constitueront l'échantillon. Dans ce cas, chaque individu a une probabilité identique d'être sélectionné égale à n/N. Ce rapport est appelé taux de sondage.

Le tirage dans une urne de n parmi N morceaux de papier identiques sur lesquels ont été indiqués préalablement le numéro de chacun des N individus constituant la population est une manière pragmatique de réaliser un tirage au sort.

Le tirage peut être :

    • avec remise : dans ce cas tous les individus ont la même probabilité d'être sélectionner
    sondage-simple-avec-remise
    • sans remise : c'est ce type qui est le plus souvent réaliser avec un biais puisque la probabilité de sélection n'est plus identique puisque le 1er est choisi parmi N individus, le 2ème parmi N-1, le 3ème parmi N-2, ... Toutefois, en pratique lorsque n est suffisamment petit par rapport à N, nous négligerons ce problème
    sondage-simple-sans-remise

Sondage systématique

Lorsque nous avons une base de sondage de grande taille ordonnée mais non numérotée et pour éviter de devoir numéroter l'ensemble de la population, nous pouvons déterminer un pas de sondage = N/n. Après avoir tirer au sort le premier individu entre 1 et N/n, on sélectionne systématiquement les individus en parcourant la liste à partir de celui-ci de pas en pas.

sondage-systematique

Ce type de sondage est également utilisé lorsque l'échantillon doit être constitué à partir d'une population qui augmente au cours du temps.

Attention afin qu'un sondage systématique ne soit pas biaisé, il faut que l'ordre des individus dans la liste de la population ne corresponde à aucune caractéristique dont la présence aurait exactement la même périodicité que le pas de sondage. Lorsque le pas de sondage n'est pas un entier, cela pose également un problème dans le calcul de la précision des estimateurs.

Sondage à plusieurs degrés

Lorsque la population est de très grande taille, nous pouvons la répartir en groupes ou unités primaires. Cette liste d'unités primaires constitue la première base de sondage sur laquelle nous allons réaliser un 1er sondage simple ou systématique.

Ensuite nous allons faire un 2ème sondage simple ou systématique sur les groupes ou unités primaires tirés. Il s'agit d'un sondage à 2 degrés.

sondage-plusieurs-degres

Nous pouvons aussi réaliser un sondage à 3 degrés. Dans ce cas, il faut répartir chaque unité primaire tirée en sous-groupes ou unités secondaires qui constitue la deuxième base de sondage sur laquelle il faut réaliser un 2ème sondage simple ou systématique et enfin un 3ème sondage sur les sous-groupes tirés.

Cette méthode pose un perte de précision et une complexité dans le calcul des estimateurs. Celle-ci sera différente si l'on sélectionne peu d'unités primaires et beaucoup d'unités statistiques dans chacune d'elles ou à l'inverse beaucoup d'unités primaires et peu d'unités statistiques dans chacune d'elles. En effet, la variance de la variable étudiée n'est nécessairement homogène au sein des groupes ou sous-groupes et nous pourrions avoir une variance intra-groupe faible et une variance inter-groupe élevée. Ce phénomène est appelé l'effet de grappe. Plus il est élevé et plus nous perdons en précision. Pour l'éviter, il faut réaliser le sondage de manière à avoir une variabilité intra-groupe maximale et une variabilité inter-groupe minimale. Cela nécessite de connaître à priori la dispersion de la variable au sein de la population.

Sondage en grappes

Il s'agit d'une variante du sondage à plusieurs degrés lorsque nous ne disposons pas de base de sondage permettant de faire un sondage aléatoire sur le dernier degré; dans ce cas nous faisons un recensement, c-à-d que nous prenons tous les individus du groupe ou sous-groupe tiré d'où le nom de grappe.

Sondage stratifié

Si la variance d'une variable dépend d'un caractère particulier de la population connu. Il peut être intéressant de diviser cette population en strates correspondant aux classes de ce caractère. Ainsi la variance devient homogène au sein de chaque strate, nous pouvons alors réaliser un sondage simple ou systématique à l'intérieur de chaque strate, ce qui augmente la précision.

sondage-stratifie

Le taux de sondage au sein de chaque strate peut être :

    • égal
    • proportionnel à l'écart-type de la strate si connu
    • choisi de manière raisonnée si nous voulons augmenter la précision dans une strate particulière

Le calcul de la précision des estimateurs est plus complexe que pour un sondage simple.

Sondage stratifié à plusieurs degrés

Toutes les combinaisons des différents types de sondage précédents peuvent être effectuées. Dans ce cas, le calcul de la précision des estimateurs peut devenir très compliqué.

Sondages empiriques

Ils sont utilisés lorsque nous disposons pas de base de sondage mais ils sortent du cadre probabiliste et ne permettent pas de calculer la précision des estimateurs.

Ils sont rapides à effectuer et ne coûtent pas cher. Ils sont surtout utilisés dans les sondages d'opinion et les enquêtes de consommation ou de comportement.

L'enquêteur, malgré des contraintes garantissant un choix relativement aléatoire, dispose d'une certaine liberté dans le choix des unités statistiques, ce qui risque d'entraîner des biais.

Méthode des quotas

Lorsque nous connaissons la structure de la population selon certaines variables telles que l'âge, le sexe, la profession, le niveau d'étude, le niveau socio-économique, ... nous définirons l'échantillon avec la même structure.

Nous supposons que les paramètres estimés à partir de l'échantillon de la variable étudiée seront identiques à ceux de la population. Cela suppose que les variables choisies pour structurer la population expliquent bien la variable étudiée. S'il manque dans la structure une caractéristique très liée à la variable étudiée, les résultats seront complètement biaisés.

Méthode des itinéraires

Il s'agit d'une variante de la méthode des quotas qui impose à l'enquêteur des trajets à respecter pour remplir les quotas ce qui réduit son choix.

Méthode des transects

Utilisée en écologie animale, elle consiste à tracer des lignes parallèles dans une surface du terrain étudié et à prélever tous les individus sur une bande étroite de part et d'autre de ces lignes. Connaissant la surface des bandes, nous pouvons extrapoler les résultats observés à l'ensemble de l'aire d'étude.

Méthode des unités-types

Cette méthode définit des individus moyens pour toutes les variables de l'enquête en faisant l'hypothèse que les mesures observées sur ces individus moyens seront elles-mêmes centrée sur la valeur moyenne de la population. Cette méthode est très risquée mais rapide.


Exemples de chaque sondage


Ex 1 : Enoncé1
Solution1

Ex 2 : Ennoncé2
Solution2

Ex 3 : Ennoncé3
Solution3

Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10