logo

 

 


 

Test χ2 de comparaison

  • Théorie
  • Exemples
  • Exercices


χ
2 de conformité ou d'ajustement

Objectif du test

Comparer une distribution de données observée d'une variable d'un échantillon à une distribution connue d'une population de référence ou à une distribution de probabilité théorique : binomiale, Poisson, normale, ... de cette variable.

Type de variable du test

Variable qualitative nominale.

Données du test

oi : effectif observé par classe de la variable dans l'échantillon
N : effectif total de l'échantillon
fi : fréquence de chaque classe de la variable dans la population de référence ou théorique
ei : effectif attendu par classe de la variable dans l'échantillon
r : nombre de lignes (classes)
ddl : degré de liberté

Hypothèses testées

H0 : distribution de l'échantillon = distribution de référence ou théorique
H1 bilatérale : distribution de l'échantillon ≠ distribution de référence ou théorique

Conditions d'application du test

Tous les effectifs attendus ei doivent être supérieurs ou égaux à 5. Dans le cas contraire, il faut regrouper certaines classes de la variable.

Statistique du test

Après avoir calculé les effectifs attendus de chaque classe au moyen de la formule suivante : test-khi2-effectif-attendu

Tableau de contingence

Variable (xi)

Distribution théorique (fi) Echantillon
Effectifs observés (oi) Effectifs attendus (ei)
x1
f1
oi
e1
...
...
...
...
xi
fi
oi
ei
...
...
...
...
xr
fr
or
er
Total
100%
N
N

Il faut calculer la statistique du test :

test-khi2-ajustement

Règles de décision et conclusion du test

H1 bilatérale valeur théorique critique χ2(ddl) α = 5%

    • χ2obs< χ2(ddl) α = 5% : NRH0 d'où nous ne pouvons pas affirmer que la distribution étudiée est différente de la distribution de référence ou théorique
    • χ2obsχ2(ddl) α = 5% : RH0 d'où la distribution étudiée diffère significativement de la distribution de référence ou théorique

χ2 d'homogénéité

Objectif du test

Comparer les distributions de données observées de deux ou plusieurs échantillons d'une variable. lorsque cette variable est binaire, le test revient à comparer plusieurs pourcentages.

Type de variable du test

Variables qualitatives nominales ou binaires.

Données du test

oi : effectif observé par classe de la variable dans l'échantillon
ri : total de chaque ligne
cj : total de chaque colonne
N : effectif total général
eij : effectif attendu par classe de la variable et par échantillon
r : nombre de lignes (classes)
c : nombre de colonnes (echantillons)
ddl : degré de liberté

Hypothèses testées

H0 : distributions ou pourcentages identiques
H1 bilatérale : distributions ou pourcentages différents

Conditions d'application du test

Tous les effectifs attendus eij doivent être supérieurs ou égaux à 5. Dans le cas contraire, il faut regrouper certaines classes de la variable.

Statistique du test

Après avoir calculé les effectifs attendus de chaque classe au moyen de la formule suivante : test-khi2-effectif-attendu2

Tableau de contingence

Variable (xi)

Echantillons (Ej)
E1
...
Ej
...
Ec
Total
x1
o11
e11
...
...
o1j
e1j
...
...
o1c
e1c
r1
...
...
...
...
...
...
...
...
...
...
...
...
xi
oi1
ei1
...
...
oij
eiJ
...
...
oic
eic
ri
...
...
...
...
...
...
...
...
...
...
...
...
xr
or1
er1
...
...
orj
erj
...
...
orc
erc
rr
Total
c1
...
cj
...
cc
N

Il faut calculer la statistique du test :

test-khi2-homogeneite

Règles de décision et conclusion du test

H1 bilatérale valeur théorique critique χ2(ddl) α = 5%

    • χ2obs< χ2(ddl) α = 5% : NRH0 d'où nous ne pouvons pas affirmer que les distributions ou pourcentages sont différents
    • χ2obsχ2(ddl) α = 5% : RH0 d'où les distributions ou pourcentages diffèrent significativement

χ2 à 4 cases

Objectif du test

Comparer 2 pourcentages observés de 2 échantillons.

Type de variable du test

Variables qualitatives binaires.

Données du test

a, b, c, d : effectifs observés (oi) dans chaque case du tableau
eij : effectif attendu pour les 2 modalités de la variable pour chaque échantillon
n1 et n2 : effectif total de chacun des 2 échantillons
p1 et p2 : pourcentages observés des 2 échantillons
p1 et p2 : pourcentages inconnus des 2 populations d'où sont issus les 2 échantillons
r1 et r2 : totaux des effectifs observés pour les 2 modalités de la variable
N : effectif total général
ddl : degré de liberté

Hypothèses testées

H0 : P1 = P2
H1 bilatérale : P1 ≠ P2
H1 unilatérale : P1 > P2 ou P1 < P2

Conditions d'application du test

Tous les effectifs attendus eij doivent être supérieurs ou égaux à 5. Dans le cas contraire, il faut appliquer le test exact de Fisher.

Statistique du test

Tableau de contingence

Modalité de la variable

Echantillons  
E1 E2 Total
Caractère présent
a
b
r1
Caractère absent
c
d
r2
Total effectif
n1
n2
N
Pourcentage
p1=a/n1
p2=b/n2
N


Il faut calculer la statistique du test en utilisant la formule simplifiée :

test-khi2-4cases

Règles de décision et conclusion du test

H1 bilatérale valeur théorique critique χ2(ddl=1) α = 5% = 3,84

    • χ2obs< 3,84 : NRH0 d'où p1 ne diffère pas significativement de p2
    • χ2obs 3,84 : RH0 d'où p1 diffère significativement de p2

H1 unilatérale valeur théorique critique χ2(ddl=1) α = 10% = 3,84

    • χ2obs< 2,71 : NRH0 d'où p1 ne diffère pas significativement de p2
    • χ2obs2,71 : RH0 d'où p1 est significativement supérieur ou inférieur à p2

χ2 de McNemar pour 2 échantillons appariés

Objectif du test

Comparer 2 pourcentages observés de 2 échantillons dont chaque individu de l'un est appariés à un individu de l'autre. On dispose d'un double échantillon composé de paires, celles-ci pouvant être concordantes (les 2 individus ont le caractère ou ne l'ont pas), soit discordante (un individu a le caractère, l'autre ne l'a pas).

Type de variable du test

Variables qualitatives binaires.

Données du test

f et g : nombre de paires discordantes
p1 et p2 : pourcentages observés des 2 échantillons
P1 et P2 : pourcentages inconnus des 2 populations d'où sont issus les 2 échantillons
ddl : degré de liberté

Hypothèses testées

H0 : P1 = P2
H1 bilatérale : P1 ≠ P2
H1 unilatérale : P1 > P2 ou P1 < P2

Conditions d'application du test

Le nombre total de paires discordantes (f+g) doit être supérieur ou égal à 10.

Statistique du test

Nous notons par le signe + la présence du caractère et par le signe - son absence.

Tableaux de contingence

 

Echantillons Nombre de paires
E1 E2 Total
Caractère
+
+
e
-
+
f
+
-
g
-
-
h
ou

Echantillon 2

Echantillon 1
Caractère présent Caractère absent
Caractère présent
e
f
Caractère absent
g
h


Il faut calculer la statistique du test en utilisant la formule simplifiée :

test-khi2-McNemar

Règles de décision et conclusion du test

H1 bilatérale valeur théorique critique χ2(ddl=1) α = 5% = 3,84

    • χ2obs< 3,84 : NRH0 d'où p1 ne diffère pas significativement de p2
    • χ2obs 3,84 : RH0 d'où p1 diffère significativement de p2

H1 unilatérale valeur théorique critique χ2(ddl=1) α = 10% = 3,84

    • χ2obs< 2,71 : NRH0 d'où p1 ne diffère pas significativement de p2
    • χ2obs2,71 : RH0 d'où p1 est significativement supérieur ou inférieur à p2

Test d'adéquation à une loi équirépartie ou uniforme discrète

Dans une population nous prélèvons un échantillon dont les effectifs des différentes modalités sont : n1, n2, …, nk. Pouvons-nous considérer que la distribution statistique observée dans cet échantillon est en adéquation avec une distribution théorique équirépartie ?

En d'autres termes, il s'agit de savoir si les écarts entre la distribution observée sur l'échantillon et une distribution théorique sont imputables aux fluctuations d'échantillonage ou si, ces écarts sont trop importants pour que l'on puisse accepter l'hypothèse: "L'échantillon est tiré d'une population caractérisée par une distribution équirépartie".

Soit n l'effectif total de l'échantillon, dans le cas d'une adéquation à une loi équiprobable la probabilité de chacune des k modalités est : p = 1/k

Les effectifs théoriques associés à chaque modalité sont n/k

Si les valeurs ni des effectifs observés lors de l’expérimentation sont "proches" des valeurs théoriques , il y a de "fortes chances" pour que la réponse au problème posé soit oui.

Comment quantifier cette proximité?

Le test retenu en terminale ES est de comparer l'écart quadratique moyen :

adequation-loi-equiprobable-1
avec un seuil obtenu par simulation d'une série de prélèvements aléatoires d'échantillons de même taille dans une population dont la distribution des différentes modalités est équirépartie.

Or
adequation-loi-equiprobable-2

Avec fi, la fréquence de chacune des différentes modalités.


En prenant la définition classique de la distance entre les fréquences des différentes modalités observées et la probabilité théorique nous avons :

adequation-loi-equiprobable-3

Il s'agit alors de comparer E2 = ndobs2 avec un seuil obtenu par simulation.

Se fixer un seuil à t % c'est prendre le risque de rejeter à tort l'hypothèse d'équiprobabilité dans t % des cas les plus rares.

Procédure du test :

1) n étant l'effectif total, on calcule ndobs2

2) À l'aide de ce fichier Excel (attention n'oubliez pas d'activer les macros), nous réalisons une simulation d'un grand nombre N de séries de n nombres au hasard dans {1, 2, … ,k}. Pour chacune de ces séries, on calcule nd2. On obtient une série de N valeurs de nd2. Cette série de valeurs définit une série statistique appellée "variable de décision".

Le tableur calcule ses quartiles, ses déciles, et peut-être ses centiles. Par exemple : en prenant le risque de rejeter à tort l'hypothèse d'équiprobabilité dans 10% des cas nous conviendrons alors, que :

  • Si ndobs2 ≤ Décile 9, alors les données observées sont compatibles avec le modèle théorique au seuil de risque de 10%.
  • Si ndobs2 > Décile 9, alors on rejette l'hypothèse de la compatibilité des données observées avec un modèle équiréparti au seuil de risque de 10%.

 


Ex 1 : Un joueur se demande si la pièce d'un euro qu'il possède est pipée. Il la lance 1.000 fois de suite et observe les fréquences suivantes : Pile = 0,518 et Face = 0,482. Doit-il garder cette pièce pour leurrer des "pigeons" ?

Il sait que pour un lancer d'une pièce équilibrée, la loi de probabilité est :

 
Pile
Face
Pi
0,5
0,5

Pour mesurer la distance entre la loi équiprobable et la distribution observée, il calcule : dobs2 = (0,518 - 0,5)2 + (0,482 - 0,5)2 = 0,00065

Il simule à l'aide d'un tableur 1.000 lancers d'une pièce équilibrée et note f1 la fréquence d'apparition de "Pile" et f2 la fréquence d'apparition de "Face". Il calcule la distance entre la distribution obtenue et la loi équirépartie : d2 = (f1 - 0,5)2 + (f2 - 0,5)2.

Il effectue 500 expériences et obtient 500 valeurs d2 dont la répartion est donnée par le diagramme suivant sur lequel il lit le décile 9 = 0,00145.

adequation-loi-equiprobable

90 % des valeurs d2 obtenues lors de la simulation de la loi équirépartie sont inférieur au décile 9, si la valeur dobs2 trouvée lors de son test sur la pièce est telle que dobs2 = 0,00065 < décile 9 = 0,00145, alors il peut conclure, avec un risque d'erreur de 10 % que la pièce est équilibrée et ne peut pas lui être utile.


Ex 2 : Ennoncé2
Solution2

Ex 3 : Ennoncé3
Solution3

Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10