Prédire le futur

La prédiction quantitative se fait à partir de modèles permettant d'anticiper le futur à partir des informations sur le passé. C'est une entreprise difficile, mais qui possède une grande valeur potentielle (voir: Analytics available for BI).

Modèle de régression

Nous avons vu que la régression permet de construire un modèle reliant des variables entre elles sous la forme d'une équation. La capacité du modèle de régression à représenter les données est caractérisée par le coefficient de détermination. A priori, rien ne nous empêche d'utiliser le modèle pour des fins d'extrapolation (prédiction). En outre, si une des variables est le temps, il peut servir à prédire les valeurs dans le futur. Cependant, on sort du cadre de construction du modèle et l'erreur potentielle croît exponentiellement.

Exemple: depuis sa mise en opération il y a 5 trimestres (temps 0), la production trimestrielles d'une usine en tonnes est: 10.2 13.5 15.1 16.7 18.9. La droite de régression est 2.06x+8.7, avec un coefficient de détermination de 0.979. Selon ce modèle, on peut prédire que la production au prochain trimestre sera de 2.06*6+8.7 = 21.06 tonnes.

La capacité d'un modèle à prédire le futur est fortement influencée par le caractère déterministe du système à l'étude. En effet, si un système est peu influencé par les effets du hasard, il est possible de construire d'excellents modèles prédictifs. C'est le cas par exemple, de la durée d'un déplacement en voiture entre Chicoutimi et Québec (environ 2 heures).

Plus les effets du hasard dominent sur les aspects déterministes, plus il devient difficile de construire des modèles prédictifs fiables. Prenons comme exemple, le cas extrême du lancé d'un dé à 6 faces que l'on lance une fois à chaque minutes. Après 8 minutes, on a la série: 1 3 6 5 2 6 6 5. La droite de régression est 0.47619x+2.10714, avec un coefficient de détermination de 0.346. Selon ce modèle, on peut prédire que le prochain résultat sera 0.47619*9+2.10714=6.39. Puisque les jets d'un dé sont des événements de pur hasard, ce résultat ne veut rien dire.

La réalité est un mélange d'effets déterministes et probabilistes. Il est souvent difficile de savoir a priori l'importance des aspects probalilistes. De plus, il peuvent varier dans le temps. Par exemple, les risques de faire le trajet entre Chicoutimi et Québec en voiture sont plus élevé en décembre qu'en août. La valeur d'un actif financier, comme des actions cotés à la bourse, est un cas particulièrement intéressant. Lorsqu'on regarde les valeurs sur un graphe, on observe des périodes qui semblent facilement reproductible avec un modèle. Cependant, il n'existe aucun modèle ayant un succès élevé sur une longue période de temps. Les effets du hasard sont trop important et varient beaucoup en fonction du temps.

Moyenne mobile

Dans le cas d'une série temporelle, on peut exploiter le concept de "retour à la moyenne" et utiliser le résultat d'une moyenne mobile comme prédiction à court terme. Il n'y a pas de fondement solide supportant ce concept, mais l'expérience montre que dans certains cas, il permet d'obtenir des prédictions utiles. Notons qu'il existe de multiples variantes de ce concept.

Considérons le cas de l'indice S&P 500 sur 3 mois finissant le 21 mars 2016. Selon la moyenne mobile 13 jours, on peut s'attendre que l'indice décline vers 2023 à court terme. En exploitant une moyenne sur 20 jours, la préduction est plutôt 2007. Or, si on utilise une régression linéaire sur une fenêtre de 20 jours (courbe noir), la pente au dernier jour est de +5. Selon ce résultat de régression, on peut prédire un gain de 5*5 = 25 points, pour atteindre 2060 dans une semaine. Cette dernière prédiction semble en contradiction avec les précédentes. Comme mentionné précédemment, la valeur futur d'un actif financier est peu prédictible, il ne faut donc pas se surprendre d'obtenir des prédictions qui vont dans tous les sens...

Limites et possibilités

Dans le cas de systèmes où les aspects stochastiques dominent, il est illusoire et généralement irresponsable de se fier à un modèle pour prédire le futur. Cependant, les modèles statistiques peuvent quand même être utiles afin de caractériser le champs de possibilités et de mieux comprendre les issues possibles. Voici quelques exemples typiques: lotterie, jeu de casino, valeurs mobilières, etc.

Dans le cas de systèmes où ce sont plutôt les aspects déterministes qui dominent, on peut aspirer à faire des prédictions utiles. La précision des prédictions est en lien direct avec l'impact des effets aléatoires. Exemples: utiliser un modèle pour faire les commandes de produits dans un grand magasin (Canadian Tire, Walmart, etc), gestion des matières premières dans une grande industrie (Aluminerie, Papeterie, etc).

Explorer l'évolution futur d'un système exige généralement plus qu'un simple modèle de régression. Il faut capter l'évolution et l'interaction de plusieurs variables d'état aléatoires dans le temps. Ceci entre dans le domaine de la modélisation et simulation.