Covariance et corrélation

La covariance est une extension de la notion de variance, au cas de couples de données. C'est la somme des produit des écarts des données à leur moyenne respective $$cov(x,y) = {1\over n} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})$$ Comme il n'y a pas de carré, la covariance peut être positive, négative ou nulle. De plus, on a var(x) = cov(x,x).

Si la covariance de deux variables aléatoires est nulle, elles sont dites non corrélées. Cependant, ceci ne veut pas nécessairement dire qu'il n'y a pas de relation entre les variables.

Corrélation

Si deux v.a. sont corrélées, on mesure l'intensité de celle-ci par la covariance normalisée par le produit des écart-types $$r = {{cov(x,y)}\over{s_x s_y}}$$ On appelle cette valeur le coefficient de corrélation et elle prend ses valeurs dans l'intervalle [-1, 1]. Elle mesure la dépendance linéaire entre les variables. C'est donc façon de déterminer, a priori, si un modèle linéaire est adéquat. On considère que le modèle linéaire décrit bien la relation entre les variables si r≤-0.8 ou r≥0.8. L'image ci-dessous, provenant de la page Wikipedia sur la corrélation, montre la valeur de r pour divers nuages de points.

Si r=0, il n'y a pas de corrélation entre les variables et donc pas de relation linéaire entre les variables. Cependant, le graphe montre clairement que même si r=0, il peut y avoir une relation entre les variables. Par exemple, pour l'avant dernier nuage de points de l'image, (x-a)2+(y-b)2=c2 est sûrement un bon modèle à 3 paramètres: a, b, c.

Exemple

Considérons deux séries temporelles sur la même suite de temps 1, 2, 3, 4, 5:

Bien que les valeurs soient différentes entre les deux séries, elles semblent évoluer de la même façon (voir le graphe (y,x)). Nous allons calculer la corrélation entre les données des séries afin de quantifier cette observation subjective.

On a:

Le coefficient de corrélation de 0.99 permet de confirmer quantitativement que les deux séries sont très fortement corrélées. De plus, un modèle linéaire représente bien cette relation. Cependant, la corrélation n'implique pas la causalité. C'est-à-dire que ça ne veut pas dire que les variations de x et de y ont une cause commune.