Corrélation croisée

Nous avons déjà vu qu'on pouvait mesurer la dépendance linéaire entre deux variables aléatoires statiques via le coefficient de corrélation:

Voici un exemple simple avec 2 v.a. (X,Y) sur une petite population (taille=4):

Il est plus simple de faire les calculs avec un logiciel: Cov(X,Y) et régression linéaire.

Dans le cas de variables aléatoires dynamiques, les valeurs dépendent du temps et nous donnent des séries temporelles: X=X(t), Y=Y(t). La comparaison des séries relève alors du domaine de l'analyse de signal. Dans ce cadre, la mesure la plus souvent utilisée est la corrélation-croisée. Le facteur de décalage dans le temps (τ) est utiliser pour capter un retard dans la réponse d'une des variables.

Résumer la corrélation entre 2 séries temporelles à un nombre est intéressant, mais ce n'est pas toujours la manière la plus explicite de capter une corrélation temporelle. Par exemple, le graphe suivant montre la corrélation entre "valeur de ISM<45" et "récession" de manière visuelle (référence: ISM).

Si on a des couples (X(ti),Y(ti)) pour les mêmes valeur de temps ti et que les données sont fortement corrélées, on peut exprimer directement Y en fonction de X et appliquer une régression. Les diagrammes suivant montrent un exemple liée à la forte corrélation entre le S&P 500 EPS et l'indice du dollar US. Le coefficient de détermination de 0.819 montre que la corrélation est forte. La pente négative nous permet de dire que le EPS total des compagnies du S&P 500 décroit lorsque le dollar US prends de la valeur par rapport aux autres monnaies.

Notons cependant que la corrélation n'implique pas nécessairement de lien de causalité. On ne peut pas s'en servir pour inférer que l'accroissement du dollar cause une baisse du S&P 500 EPS.