Problème fondamental de la statistique appliquée

Le problème fondamental de la statistique appliquée se présente formellement comme suit: on désire étudier un ou plusieurs caractères (tels les préférences des clients, les intentions de vote, les bénéfices, les ventes, etc) d'une population donnée, mais pour diverses raisons on ne peut considérer tous les individus de cette population. Ainsi, on ne considère qu'une partie de la population (appelée échantillon), pour l'étude du ou des caractères choisis. Une fois l'étude terminée dans l'échantillon, on se propose de généraliser à toute la population les faits ainsi observés dans l'échantillon. Une telle généralisation étant faite en évaluant les chances de se tromper.

En pratique, résoudre un tel problème demande des outils mathématiques et informatiques. Nous allons centrer notre étude sur les outils appropriés à l'intelligence d'affaire dans le contexte contemporain où l'on dispose de grands échantillons (big data).

Exemple

Un industriel désire connaître la proportion d'objets défectueux produits par une machine. Il confie un mandat à cet effet à l'analyste de son entreprise.

Phase 1: Pour des raisons pratiques et économiques l'analyste devra se contenter de n'étudier qu'une partie d'un tel ensemble d'objets produits par cette machine. Son intention étant d'étendre à tous les objets produits par la machine les résultats obtenus à partir de l'examen d'une partie seulement de cet ensemble.

Phase 2: On désire contrôler en continu la qualité des objets issus de la machine afin de détecter rapidement tout problème. Le but étant de limiter les produits non conformes. L'étude sur un échantillon permettera de fixer les balises nécessaires pour détecter tout écart des standards de qualité à respecter.