Mise en contexte

L'informatique concerne l'acquisition, le transport, le stockage et le traitement automatique des données. C'est dans la partie "traitement" qu'on donne de la valeur ajouté aux données. On y transforme les données en informations, en connaissances et en raisonnements, pour ensuite les exploiter via des programmes.

Exemple en lien avec le code de la route:

Exemple en lien avec le problème de Monty-Hall:

La partie visant à extirper des connaissances à partir des informations exploite des méthodes "analytiques" (analytics en anglais). Il s'agit de méthodes des probabilités et de la statistique. La disponibilité croissante de grandes quantités de données (big data) provoque une convergence entre l'informatique et les statistiques. D'une part, l'informaticien dépends des méthodes analytiques pour traiter les données et d'autre part, le statisticien doit développer les méthodes analytiques adaptées aux grands échantillons.

L'évolution rapide de la technologie nous donne maintenant un accès direct à une quantité phénoménale de données. Dans ce contexte: pourquoi faire un sondage auprès de 1000 de nos 3 millions de clients quand on a déjà l'information pour les 3 millions de clients dans des bases de données? Plusieurs des méthodes de la statistique classique, comme les tests, perdent leur intérêt. Pour répondre à cette nouvelle réalité et aux besoins de l'intelligence d'affaire, il y a actuellement une transition majeure qui s'opère actuellement dans le domaine des statistiques. En effet, l'accès à des données massives ouvre de nouveaux horizon, mais limite l'intérêt des méthodes qui avaient été développées dans le contexte de petits échantillons. C'est le cas, par exemple, des tests d'hypothèses.

Le changement de paradigme vers la découverte de connaissances dans les données massives est révolutionnaire. Le statisticien devient un spécialiste des données et doit exploiter l'informatique pour extirper des connaissances utiles à partir du matériel brut que sont les données. Le cours de probabilité et statistique que j'ai préparé embrasse cette tendance. Il est fortement orienté vers les statégies de recherche de connaissances au sein des données, dans les cas statiques et dynamiques.

C'est non conventionnel d'orienter un cours de base en statistique sur les analytiques... Mais approprié dans le contexte des programmes d'informatique. En outre, il faut beaucoup de temps pour que le système d'éducation s'adapte à un changement de paradigme.

Prise de décision rationnelle

On distingue deux grandes approches à la prise de décision: intuitive et rationnelle. Dans une approche intuitive, on fait un choix en suivant son instinct. Les expériences vécues et les informations acquises récemment ont un poids important. Dans une approche rationnelle, on s'efforce de limiter l'impact de l'instinct et les jugements personnels pour laisser place à un processus logique. On s'appui sur toute les informations disponibles afin de mesurer, via une analyse rigoureuse, l'impact des différents choix.

A priori, il est évident qu'une approche rationnelle est préférable, surtout pour des décisions importantes. C'est d'ailleurs la pratique courante pour le choix d'une résidence, d'une voiture, d'un régime de retraite, etc. Paradoxalement, ce n'est pas toujours l'approche priviliégiée dans le monde des affaires. En effet, suivre un processus rationnel dans ce cadre exige du temps, des ressources, de la rigueur, de la collaboration et de la transparence. De plus, rien ne nous assure que le choix rationnel sera le bon choix.

En pratique, il existe souvent quelqu'un qui a fait un choix intuitif qui s'est avéré gagnant. Par exemple, dans un choix d'investissement sur les marchés financiers. On lui donne alors une aura de devin, alors que généralement c'est le fruit du hasard. Cependant, ceci ébranle la confiance envers une approche rationelle: est-ce que ça vaut la peine?

L'invisible évidence induit une fausse impression: pour un qui à eu "la bonne intuition", combiens étaient dans l'erreur? On n'entends pas parler de ces derniers, ils soignent leur peine...

Une autre raison qui pousse certains décideurs à préférer l'intuition à la rationalité est le pouvoir. Un processus rationnel exige une grande transparence, ce qui les expose à la critique. Sur les informations divulgués, sur la décision prise, en plus des comptes à rendre si la décision s'avère mauvaise.

Références complémentaires: voir les conférences de Daniel Kahneman (prix Nobel) sur Youtube.

Intelligence d'affaire

Bien qu'il n'y ait pas de définition universellement reconnue pour ce vaste domaine, nous allons considérer la suivante:

Intelligence d'affaire
fournir l'information pertinente aux bonnes personnes, dans un format leur permettant de la comprendre facilement

Le processus type pour atteindre ce but peut être résumé en quatre étapes:

  1. collecter les données brutes: généralement dans des BDs ;
  2. filtrer et classer les données: généralement dans un entrepôt formé de BDs ;
  3. traiter les données avec la mathématique et partager: simulation et analyse avec des logiciels comme SAS, R, Python, etc ;
  4. présentation des données et exploitation: à l'aide de graphiques a posteriori ou en temps réel (exemple de tableau de bord).

A priori, une donnée n'est qu'une valeur (généralement numérique). Dans l'esprit de l'intelligence d'affaire on s'efforce de présenter les données avec le maximum de contexte pour qu'elles deviennent de "l'information". C'est l'information qui est réellement utile au décideur, pas la donnée brute. En fait, nous verrons qu'on peut faire mieux: le niveau suivant est de transformer des informations en connaissances. Celles-ci s'expriment sous la forme de modèles, de règles et de relations entre des concepts.

Dans ce cours, nous allons couvrir plusieurs concepts et méthodes apparaissant dans ce processus. Le but étant de mieux comprendre le domaine et de l'exploiter judicieusement. En outre, nous allons discuter du traitement des données à l'aide des mathématiques. Il y a un large éventail de méthodes possible pour transformer les données en information et ensuite en connaissance. Le diagramme suivant montre une classification des types d'information quantitatives et leur intérêt pour l'aide à la décision: Analytics available for BI

Information complémentaires:

  1. What is Business Intelligence (BI)?
  2. Advanced Analytics and Business Intelligence

Le matériel de cours est structuré de manière à mieux comprendre les méthodes quantitatives dans le contexte de l'intelligence d'affaire. L'ordre de présentation est liée à valeur d'affaire et la complexité (voir Analytics available for BI).

Stratégie d'intelligence d'affaire Méthode quantitative
rapports (les faits) statistique descriptive
analyse (le pourquoi) probabilité et statistique
surveillance (le suivit) séries temporelles
prédiction (le futur) régression linéaire
prescription (le contrôle) simulation

Contexte et processus décisionnel

Définitions:

Situation
état, conjoncture d'une entité dans un domaine donné
Évolution
changement dans le temps
Actuelle
au temps présent
Passé / futur
a un temps donné qui est antérieur / postérieur au temps présent
Caractériser
mettre en évidence le ou les traits dominants ou distinctifs d'une chose ou d'une personne

Afin de prendre une décision par rapport à une situation, le décideur désire:

  1. caractériser la situation actuelle
  2. connaître l'évolution passé de la situation
  3. évaluer les chances d'une situation
  4. prédire l'évolution future de la situation
  5. détecter des changements significatifs dans l'évolution de la situation

Nous allons voir comment la statistique, avec l'aide de l'informatique, peut donner de précieux éléments de réponses à ces questions. Typiquement, la statistique descriptive apporte des réponses aux questions 1 et 2, la probabilité et les distributions à la question 3, la régression et la simulation à la question 4, la détection et les tests à la question 5.

Processus rationnel pour la prise de décision

Remarque: ce qui est dans la boîte bleu fait partie du monde réel, le reste est conceptuel.

Étapes du processus:

  1. identification du système: par exemple "S - le centre d'électrolyse RTA Laterrière"
  2. definition de la problématique ou opportunité: par exemple "augmentation d'ampérage sur les cuves"
  3. caractérisation des choix possibles: par exemple "A - cycle 36h" et "B - cycle 24h"
  4. amasser des informations: par exemple "les données d'opération et production 2014"
  5. analyser les information en regard des choix
  6. prendre une décision: par exemple: "B - cycle 24h"
  7. mettre en oeuvre la décision: "faire la transition de S vers S'B"

En pratique, le système réel modifié S'B sera proche, mais différent de l'image conceptuelle SB.

L'observation du système réel ne donne que des informations partielles sur le système. En reprenant l'exemple du centre d'électrolyse, si il opère depuis 10 ans sur 36h et que changer pour un cycle de 24h est long et couteux, il sera difficile de collecter des informations quantitative sur l'option 24h. Dans ce cas, il y a plusieurs possibilités:

Chacune de cas approche a ses forces, ses faiblesses et peut être plus ou moins réalisable. En outre, certains aspects peuvent être difficilement mesurable, laissant une place à l'intuition dans le processus décisionnel. Par exemple, il pourrait être moins risqué et plus rentable de faire une expansion en Europe qu'en Chine, mais le potentiel du marché chinois à long terme pourrait justifier de prendre un risque.