logo

 

 


 

Paramètres bivariés

  • Covariance
  • Corrélation
  • Régression
  • Exemples
  • Exercices


Covariance

La covariance est la mesure de la variance combinée de 2 variables quantitatives appariées X et Y, elle est notée cov(x,y) ou cov.

Elle est utilisée dans une étude de corrélation ou de régression.

Calcul de la covariance

  • A partir de la série statistique double

covariance-serie

  • A partir du tableau de fréquences absolues à double entrée

covariance-frequences-absolues

  • A partir du tableau de fréquences relatives à double entrée

covariance-frequences-relatives

Propriétés de la covariance

  • La covariance est positive ou négative selon que la relation entre les 2 séries de scores observés est croissante ou décroissante.

covariance-positive-negative

La covariance est nulle ou presque nulle s'il y a compensation entre les 2 catégories de points c-à-d si la somme des aires positives et négatives des rectangles tracés à partir de chaque point (xi , yj ) jusqu'aux droites représentant les moyennes de X et de Y est proche de 0. Dans ce cas, il n'y a pas de laison entre X et Y.

  • La covariance est toujours, en valeur absolue, inférieure ou égale au produit des écarts types : covariance-propriete1
  • La covariance entre 2 variables brutes est égale à la covariance entre ces 2 variables centrées ou semi-réduites
  • La covariance entre ces 2 variables standards ou centrées réduites est égale au coefficient de corrélation

Calcul de la covariance sur des variables transformées

Comme la variance, la covariance est influencée par un changement d'unité mais pas par un changement d'origine.

X' = aX
Y' = bY

cov = cov'/ab
X' = X/a
Y' = Y/b
cov = ab cov'
X' = X + c
Y' = Y + d
cov = cov'
X' = X - c
Y' = Y - d
cov = cov'
X' = aX + c
Y' = bX + d
cov = cov'/ab


Covariance corrigée

En inférence statistique, les statistiques calculées sur base de l'échantillon servent à estimer les paramètres de la population dont l'échantillon a été prélevé.

La covariance corrigée fournit une meilleure estimation de la covariance dans la population que la covariance non corrigée.

La covariance corrigée est obtenue en divisant par n-1 au lieu de n :

covariance-serie-corrigee


Coefficient de corrélation

Le coefficient de corrélation étudie la liaison entre 2 variables quantitatives appariées X et Y. Il est noté r.

Ces 2 variables jouent un rôle symétrique c-à-d que X et Y sont interchangeables. L'une ne dépend pas de l'autre. L'une ne peut pas être prédite par l'autre.

Le coefficient de corrélation varie de -1 à +1

Le coefficient de corrélation garde la même valeur qu'il soit calculé sur les variables brutes, les variables centrées ou semi-réduites et les variables standards ou centrées réduites.


Régression

La régression étudie la liaison entre 2 variables quantitatives appariées X et Y jouant un rôle asymétrique. Y est la conséquence de X, elles ne sont pas interchangeables. Nous parlons de régression de y en fonction de x, notée y en x ou y.x

regression-courbe-taille-poidsPar exemple : le taille d'un enfant est fonction de son âge mais l'inverse n'est pas vrai.

  • Le poids est la variable expliquée Y et l'âge est la variable explicative X
  • Le poids est la variable dépendante Y et l'âge est la variable indépendante X

Y peut être prédite par X grâce à une courbe de régression.

Par exemple : Courbe taille en fonction de l'âge du carnet de santé d'un enfant

La régression a 3 objectifs :

    1. décrire la façon dont Y est lié à X à l'aide d'une courbe de régression
    2. tester l'existence de la liaison
    3. estimer une valeur de Y pour une valeur de X donnée

Modèle de régression linéaire simple

Le modèle de régression linéaire simple est donc : regression-modele

où β0 et β1 sont des paramètres de la population et ε une variable aléatoire appelée terme d'erreur qui prend en compte la variabilité de y qui n'est pas expliquée par la relation linéaire entre x et y.

Conditions d'application du modèle linéaire

1) Bien que les variables soient corrélées, les observations doivent être indépendantesregression1

 

2) Avant d'estimer la droite de régression, il faut vérifier graphiquement que la liaison entre les variables X et Y est de nature linéaire

 

regression2

 

3) Distribution de Y normale et de variance constante pour chaque valeur de X (pas vérifiable en pratique)

Chaque distribution des valeurs de Y a sa propre moyenne μ1, μ2, μ3, ...

L'équation qui décrit comment l'espérance de y, notée E(y), est liée à x , est appelée équation de régression.

L'équation de régression linéaire simple s'écrit : regression-equation-lineaire-simple

Cette équation est représentée par une droite, appelée droite de régression ayant β0 comme ordonnée à l'origine, β1 comme pente et E(y) étant la moyenne de y pour une valeur donnée de x.

regression3

  • En cas de relation linéaire positive, de plus grandes valeurs de E(y) sont associées à de plus grandes valeurs de x
  • En cas de relation linéaire négative, de plus petites valeurs de E(y) sont associées à de plus grandes valeurs de x
  • S'il n'y pas de relation linéaire, la même valeur de E(y) est associée à à valeurs de x et β1 = 0

Equation estimée de la régression linéaire

Si les paramètres β0 et β1 de la population étaient connus, nous pourrions utiliser l'équation de régression pour calculer E(y) pour une valeur donnée de x.

En pratique la valeurs des paramètres n'est pas connue et doit être estimée en utilisant les données de l'échantillon.

Les statistiques d'échantillon, b0 et b1, vont donc permettre d'obtenir la droite de régression linéaire estimée : regression-equation-lineaire-estimee

y chapeau correspond à l'estimateur ponctuel de E(y) pour un x donné mais aussi à l'estimateur ponctuel de y pour une valeur donnée de x, il est donc appelé valeur estimée de y.

Calcul des statistiques d'échantillon : b0 et b1

Nous avons vu que nous pouvions représenter les observations (x,y) par un graphique en nuage de point mais le problème est de tracer la droite de régression linéaire estimée qui résume au mieux la relation linéaire entre Y et X.

droite-regression2

L'écart entre la valeur observée de la variable dépendante, yi et la valeur estimée de la variable indépendante yi-chapeau est appelé le ième résidu. regression-residusIl s'agit de l'erreur commise εi en utilisant yi-chapeau pour estimer yi.

La meilleure des 3 droites sera celle pour laquelle la somme des distances verticales de chaque point à la droite, c-à-d la somme des résidus ou erreurs de prévision εi , sera la plus faible.

Comme certains résidus sont positifs et d'autres négatifs, il faut calculer la somme des carrés des résidus et chercher les paramètres b0 et b1 de manière à minimiser cette somme.

Cette droite des moindres carrés est la droite de régression estimée.

regression-equation-lineaire-estimee

  • Elle passe par le point correspondant aux 2 moyennes de X et Y
  • Elle a une pente : regression-droite-pente
  • Elle a une ordonnée à l'origine : regression-droite-origine

D'où : regression-droite2

Formule alternative pour calculer b1 à l'aide d'une machine à calculer :

regression-droite-pente-alternative

Variance expliquée de y

regression-residusLa somme des carrés totale SCT

regression-SCT

La somme des carrés des résidus SCres

regression-SCres

La somme des carrés de la régression SCreg

regression-SCreg

Relation entre ces 3 sommes des carrés : SCT = SCreg + SCres

SCreg est considérée comme la partie expliquée de SCT et SCres est comme la partie inexpliquée de SCT.

Le ratio SCreg / SCT, compris entre 0 et 1, est est appelé coefficient de coordination et est noté r2. Il sert à évaluer la qualité de l'ajustement linéaire des données. Un bon ajustement linéaire doit avoir un r2 proche de 1 (attention la réciproque est fausse).

Source de variation
Somme des carrés
Degrés de liberté
Carrés moyens
Expliquée par la régression
SCreg
1
regression-SCreg-2
Résiduelle
SCres
n - 2
regression-SCres-2
Totale
SCT
n - 1
regression-SCT-2


La variance totale de y est donc composée de la variance expliquée par la droite de régression et de la variance résiduelle :

regression-variance-totale

La proportion de la variance de y expliquée par la régression linéaire étant égale au carré du coefficient de corrélation, r2 c-à-d au coefficient de détermination, la variance expliquée de Y vaut :

regression-variance-expliquee

Variance résiduelle de Y ou S2y.x

Les résidus de y par rapport à x sont les écarts entre les points observés et les points correspondants de la droite de régression de y en x : regression-residus

La variance résiduelle de Y (S2y.x) est la variance de ces résidus :

regression-SCres-2

et

regression-variance-residuelle2

Démonstration

Il s'agit de la variance non expliquée par la droite de régression.

L'écart type résiduel est appelée erreur standard de l'estimation ou de la prédiction : regression-ecart-type-residuel

Analyse des résidus

L'analyse des résidus est le principal outil pour valider les conditions d'application du modèle de régression linéaire simple : regression-modele

Les hypothèses sur le terme d'erreur ε étaient :

    1. E(ε)=0
    2. Variance de ε, notée σ2, est la même pour toutes les valeurs de X
    3. Valeurs de ε sont indépendantes
    4. Terme d'erreur ε est distribué normalement

Si ces hypothèses devaient être remises en question, le test de signification de la relation de régression et l'utilisation de la droite de régression estimée peuvent ne pas être correctes.

L'analyse graphique des résidus fournit la meilleure information sur ε.

Graphique des résidus en fonction de la variable indépendante X

En abscisse, nous avons les xi et en ordonnée les résidus regression-residus.

  • Si l'hypothèse selon laquelle la variance de ε est la même pour toutes les exemple-regression15valeurs de X est correcte et si le modèle de régression est une représentation adéquate de la relation entre les variable X et Y, le graphique des résidus doit former une bande de points comme dans le cas A
  • Si la variance de ε n'est pas constante et l'hypothèse violée, le graphique des résidus pourrait ressembler au cas B dans le cas où la variabilité de la droite de régression est plus grande pour les valeurs plus élevée de X
  • Si le graphique des résidus ressemble au cas C, cela signifie que le modèle de régression linéaire n'est pas approprié pour représenter la relation entre les variables. Il faut alors se tourner vers un modèle curviligne ou un modèle de régression multiple

Graphique des résidus en fonction de y chapeau

En abscisse, nous avons les valeurs estimées de la variable dépendante y-chapeau-xi et en ordonnée les résidus regression-residus.

Le graphique des résidus en fonction de y chapeau doit former une bande de points comme dans le cas A du graphique des résidus en fonction de la variable indépendante X.

Ce type de graphique est surtout utiliser pour une régression multiple car il permet de visualiser les résidus en présence de plusieurs variables dépendantes.

Test de signification de la relation de régression

Lorsque nous avons calculé la pente b1 de la droite de régression estimée, nous devons savoir si cette pente est suffisamment différente de zéro pour affirmer qu'il y a une liaison entre les 2 variables X et Y, et ce même si la valeur du coefficient de détermination r2 est élevé. Pour cela nous utilisons le test de régression linéaire simple.

Si H0 : β1 = 0 est rejetée, nous pouvons calculer l'intervalle de confiance de b1 :

regression-droite-pente-intervalle-confiance avec : test-regression-ecart-type-estime-b1

Utilisation de la droite de régression estimée pour estimer et prévoir Y en fonction d'une valeur de X

L'intérêt d'une droite de régression est de pouvoir estimer y connaissant une valeur donnée xk

Données :

xk : une valeur donnée de la variable indépendante X
yk : la valeur de la variable dépendante Y correspondant à la valeur donnée xk
E(yk) : la moyenne ou espérance de la variable dépendante Y correspondant à la valeur donnée xk
regression-estimation-fonction-xk-1 : estimation de E(yk) lorsque x = xk

2 cas de figures :

a) Intervalle de confiance de la valeur moyenne de Y pour xk

regression-estimation-moyenne1

avec : regression-estimation-moyenne2

Comme le montre le graphique ci-dessous, l'écart type estimé le plus faible de y-chapeau-k est obtenu pour regression-estimation-moyenne3 et vaut dans ce cas : regression-estimation-moyenne4 et l'intervalle de confiance est donc le plus petit.

exemple-regression14

b) Intervalle de prévision d'une valeur individuelle de y pour xk

regression-estimation-valeur-y

avec : regression-estimation-valeur-y3

La variance S2ind associée à l'utilisation de y-chapeau-k comme estimateur de la valeur individuelle de y lorsque x = xk est plus grande et donc l'intervalle de prévision est plus large comme le montre le graphique ci-dessus car composée de la somme des 2 éléments suivants :

  • S2x.y : variance des valeurs individuelles de y par rapport à la moyenne E(yk)
  • regression-estimation-valeur-y2 : variance associée à l'utilisation de y-chapeau-k pour estimer E(yk)


Régression linéaire simple

exemple-regression1

Variable Y : concentration en ozone
Variable X : température

Rôle asymétrique : concentration en ozone en fonction de la température

Avant de calculer la droite de régression linéaire simple, il faut vérifier graphiquement qu'il n'existe pas une relation non linéaire entre ces 2 variables

exemple-regression5

Vous calculez à partir des données ci-dessus :

  • Mx = 21,9
  • My = 102,7

ainsi que les 4 colonnes suivantes :

exemple-regression2

Elles vont permettre de rechercher la droite de régression linéaire estimée.

  • Pente de la droite

    regression-droite-pente2

    b1 = 1162,6050 / 441,9 = 2,63

  • Ordonnée à l'origine de la droite

    regression-droite-origine

    b0 = 102,7 - 2,63 * 21,9 = 45,01

Il faut tester s'il tester l'existence d'une relation linéaire entre le variables :

1) Hypothèses du test t de Student :

H0 : β1 = 0 absence de liaison entre X et Y
H1 bilatérale : β1 ≠ 0 liaison entre X et Y

Statistique du test : test-regression

Calculs intermédiaires :

  • Erreur standard d'estimation :

regression-SCres-2

exemple-regression6

  • Ecart type estimé de b1

test-regression-ecart-type-estime-b1

exemple-regression7

d'où : exemple-regression8

tthéor(ddl=8,α = 5%) en bilatéral = 2,306

tobs > tthéor d'où RH0 : β1 ≠ 0 il existe une liaison entre X et Y

Vous calculez ensuite à partir des données les colonnes suivantes :

exemple-regression3

2) Hypothèses du test F :

Anova de la régression linéaire
SC
ddl
CM
Fobs
Niveau de Signification
Régression
3058,80
1
3058,80
exemple-regression10
p =
Résidu
1286,70
8
160,84
-
-
Total
4345,50
9
-
-
-

F(ddl1=1,ddl2=8, α = 5%) théor = 5,32

Fobs> Fthéor d'où RH0 : β1 ≠ 0 il existe une liaison entre X et Y

Avant d'utiliser la droite de régression, il faut encore analyser graphiquement les résidus.

exemple-regression12

 

Le graphique des résidus permet de valider le modèle de régression utiliser et ce malgré l'influence de certains points.

 

 

exemple-regression13

 

Le graphique ci-contre montre la normalité des résidus qui se répartisse plus ou moins selon une droite de Henry

Vous pouvez maintenant utiliser la droite de régression linéaire estimée :

exemple-regression4

et la dessiner

exemple-regression9

Vous mesurez la qualité de l'ajustement linéaire des données r2

regression-coefficient-coordination

exemple-regression11

70% de la variation totale de y est expliquée par la droite de régression estimée et donc il reste 30 % de variation résiduelle.

Vous pouvez utiliser la droite de régression linéaire estimée pour estimer et prévoir Y en fonction d'une valeur de X:

1) Valeur moyenne de y pour x = 20°

A calculer

2) Valeur individuelle de y pour x = 20°

A calculer


Ex 1 : Enoncé1
Solution1

Ex 2 : Ennoncé2
Solution2

Ex 3 : Ennoncé3
Solution3

Ex 4 : Ennoncé4
Solution4

Ex 5 : Ennoncé5
Solution5

Ex 6 : Ennoncé6
Solution6

Ex 7 : Ennoncé7
Solution7

Ex 8 : Ennoncé8
Solution8

Ex 9 : Ennoncé9
Solution9

Ex 10 : Ennoncé10
Solution10