Statistiques descriptive

Définitions essentielles

Population
l’ensemble de tous les objets* sur lesquels porte une étude statistique
Échantillon
un sous-ensemble de la population
Variable aléatoire
caractère qu'on peut évaluer sur les objets de la population
Dynamique
qui montre une dépendance sur le temps, c'est l'opposé de statique
Fait particulier
fait observé dans un échantillon
Fait général
fait observé dans toute la population

* Afin de simplifier l'écriture, on adopte la convention que le concept d'objet inclut individu.

Exemple: considérons la population de tous les poissons vivants au 10 octobre 2017.

Qu'est-ce que la statistique descriptive

On appelle statistique descriptive tous les problèmes relatifs à la collecte, à la présentation, à l'analyse et à l'interprétation des données de l'échantillon, tant et aussi longtemps qu'on reste au niveau des faits praticuliers.

Notons que le principal objectif de l'inférence statistique sera de généraliser un fait particulier à toute une population pour en faire un fait général.

Le traitement du problème fondamental de la statistique appliquée se fait en trois étapes distinctes:

  1. la collecte d'un échantillon et son étude (relève de la statistique descriptive)
  2. la généralisation à toute la population (relève de l'inférence statistique)
  3. la déduction de nouvelles informations (relève principalement des probabilités)

Historiquement, on avait seulement accès à des échantillons de petite taille. Ceci nécessitait de faire des inférences délicates basées sur des lois de probabilités préconstruites (loi normale, loi de Weibull, etc). On parle alors d'une approche paramétrique, car après avoir choisit la loi il faut en déterminer les paramètres via la statistique descriptive.

Aujourd'hui, il est fréquent d'avoir de très grands échantillons (big data). Dans ce contexte, la statistique descriptive joue un rôle majeur, car on utilise directement la distribution échantillonnale, c'est-à-dire sans utiliser de loi préconstruite. On parle alors d'approche non-paramétrique.

La collecte des données

Avant de présenter et d'exploiter des données, il faut d'abord les acquérir! Ceci peut sembler trivial, mais c'est souvent délicat. En outre, la qualité des résultats est conditionnelle à la qualité des données.

Comme pour toute étude statistique, le point de départ est de caractériser d'une part, la population des objets sur laquelle porte l'étude et d'autre part, les caractères d'intérêts qui vont générer les données.

Par exemple, pour une étude sur la croissance des truites des Monts Valins, la population est l'ensemble des "truites des Monts Valins" et les caractères pourraient être: l'age, la longueur, le poids, la position GPS de la capture, la date. Ce sont ces cinq variables numériques qui serviront à obtenir les données par évaluation sur les objets de l'échantillon.

L'omniprésence des ordinateurs nous pousse à considérer uniquement des variables prenant des numériques. En fait, même si fondamentalement certains caractères ne sont pas numérique, on les encodes sous la forme de nombres ou de tuples de nombres. Voici quelques exemples typiques:

Lorsque la population est bien identifiée, il faut définir une méthodologie pour:

Nous allons passer en revue chacune de ces 3 étapes.

Sélectionner les objets qui formeront l'échantillon

Historiquement, on devait construire un petit échantillon par sondage ou par sélection aléatoire. Typiquement, l'échantillon contenait moins de 1% des objets de la population. Une grande variété de méthodes ont été élaborées afin de maximiser la représentativité de l'échantillon. Nous n'allons pas les étudier car l'approche contemporaine est différente.

Aujourd'hui, on essai plutôt d'employer des moyens électroniques afin de construire un échantillon le plus proche possible de la population. Typiquement, on essai de capter plus de 80% de la population.

Par exemple, une firme spécialisée dans les équipements optiques fabrique des lentilles en verre. En 1990, une lentille sur 1000 était retirée en fin de la ligne de production afin d'en évaluer la qualité via 8 variables obtenues par un laser en 10 position sur le verre (80 valeurs). Aujourd'hui, un équipement a été placé à la fin de la ligne de production pour faire un scan laser continu sur toutes les lentilles produites. On contrôle la qualité via 35 variables sur tous les points du scan (image HD). En résumé, on est passé d'un échantillon qui était un millième de la population, à un échantillon qui est essentiellement toute la population.

Il existe des domaines où les sondages rentent de mise, mais ils sont de plus en plus rare. Le cas des sondages politiques en est un exemple. En ayant remplacé les appels téléphoniques par des moyens électroniques modernes (SMS, courriel, etc), on arrive à atteindre une proportion significative de la population.

Évaluer les caractères pour obtenir les données

Lorsqu'on a construit l'échantillon, ou pendant sa construction, on collecte les valeurs des variables aléatoires qui sont les caractères qu'on va étudier. Ça peut être de collecter les réponses à un sondage d'opinion, mais le plus souvent c'est un équipement électronique qui le fait. Par exemple, dans le cas de la firme d'optique, pour chaque objet de l'échantillon, l'équipement évalue 35*2073600 (nombre de pixels en HD) variables différentes. Les valeurs sont généralement placées dans une base de données afin d'être analysées par un logiciel sur une base régulière et automatisée. L'opérateur peut alors faire un suivit sur un écran (via un tableau de bord) et éventuellement recevoir des alarmes lorsque le logiciel d'analyse détecte des anomalies.

Filtrer les données pour s'assurer qu'elles sont valides

Quelquesoit la façon d'évaluer les variables sur les objets de l'échantillon, il peut se glisser des erreurs. Ça peut être lié à l'erreur humaine, mais aujourd'hui c'est généralement un bogue, une saleté, une variation électrique, etc. Par exemple, un capteur laser pourrait confondre une poussière sur une lentille de verre à une fissure dans le matériau.

La validation et le filtrage des données est une étape délicate, difficile et critique pour avoir des données représentatives. La difficulté vient en bonne partie du volume important de données, ce qui nécessite d'automatiser cette étape avec un logiciel. Comment dire à un ordinateur qu'une données est aberrante? Le caractère critique vient de notre dépendance grandissante sur les analyses statistiques automatisées. Ce n'est pas payant d'arrêter un système de production chaque fois qu'un senseur à confondu un poussière avec une fissure dans le matériau!

L'étude des données

On suppose maintenant qu'on a des données valides obtenues en évaluant une variable numérique sur un échantillon. Les outils de la statistique descriptive vont nous permettre de les analyser et de commencer à les exploiter.

Prendre une grande quantité de données et les mettre sous une forme concise et exploitable est souvent difficile: il y a plusieurs façons de faire qui implique généralement une perte plus ou moins importante d'information. Cependant, ce n'est pas toujours le cas, il arrive qu'on puisse capter toute l'information. Par exemple, considérons l'échantillon des personnes ayant répondues par "oui" ou "non" à une question mise au referendum. A priori, on sait qui a répondu et qui ne l'a pas fait, si on suppose qu'il y avait 187452 répondants, le tableau ci-dessous contient toute l'information concernant la réponse. Bien qu'on écrive "oui" et "non", dans une base de données l'encodage numérique usuel est 1 pour "oui" et 0 pour "non".

Réponse Nombre
oui 107487
non 79965

On appelle ceci un tableau de fréquences et il donne une information complète sur la distribution des valeurs d'un caractère dans l'échantillon. Plutôt que de mettre l'occurrence, il est courant de la diviser par la taille de l'échantillon pour avoir une proportion. Cette dernière est géréralement présentée sous la forme d'un pourcentage afin d'écrire le tableau de fréquences relatives sous la forme ci-dessous.

Réponse Proportion
oui 57.341%
non 42.659%

Ce tableau nous indique que 57.341% des répondant on choisit "oui". Notons qu'il faut connaître la taille de l'échantillon pour remettre les proportions sous la forme d'occurences.

Il n'est pas toujours possible de capter toute l'information de l'échantillon de manière concise. Dans ce cas, la statistique descriptive offre des méthodes pour présenter les données, moyennant une perte d'information. Les plus courantes vont nous donner des tableaux, des graphes et des mesures approximatives.

En outre, si les données prennent un très grands nombre de valeurs distinctes, on choisit souvent de les regrouppés en classes. Par exemple, si on s'intéresse au poids des truites des Mont-Valin en grammes et qu'on a un échantillon de 10569 truites, on pourrait faire un regrouppement en 3 classes et présenter les valeurs dans un tableau de fréquences comme celui ci-dessous.

Poids Nombre
- de 500gr 7811
500gr à 1kg 2299
+ de 1kg 459

Ce tableau de fréquence donne un aperçu de la distribution des valeurs dans l'échantillon, mais il y a une perte d'information liée au regrouppement par classe. À partir de ça, on peut tout de même faire des analyses statistiques, qui seront approximatives. Par exemple, estimer la probalilité qu'une truite des Mont-Valin pèse plus de 1kg: 459/10569 = 4.34%. Puisqu'on conserve généralement toute les données dans une base de données, on peut faire les analyses par ordinateur sur les données brutes, c'est-à-dire sans perte d'information.

Une autre présentation utile du diagramme de fréquences consiste à les cumuler. Dans ce cas, chaque fréquence est la sommes des précédentes, ce qui rend l'ordre de présentation importante.

Poids Nombre Fréquence Fréquence cumulée
- de 500gr 7811 73.9% 73.9%
500gr à 1kg 2299 21.75% 95.65%
+ de 1kg 459 4.35% 100%

Quelques caractéristiques importantes du tableau de fréquences cumulées:

Avant d'étudier les données via des graphes et des mesures, nous allons voir un exemple d'analyse échantillonnale basée sur les tableaux de fréquences. C'est une méthode très utilisée en pratique: l'analyse de Pareto.

Analyse de Pareto

L'analyse de Pareto, aussi connue sous les noms de méthode 80/20 ou encore distribution de Pareto, est basée sur le principe de Pareto. Essentiellement, on construit un diagramme de Pareto qui hiérarchise les causes de problèmes selon leur gravité. On dit que 80% des effets sont causés par 20% des causes, c'est donc sur ces causes majeures qu'il va falloir agir pour améliorer le fonctionnement du système.

L'idée de base vient de l'économiste italien Vilfredo Pareto qui a constaté que la répartition des revenus dans la société se concentrait ainsi: 20% de la population détiennent 80% des revenus. Au niveau de l'entreprise, le principe de Pareto s'applique de la même manière: 20% des clients doivent représenter 80% du chiffre d'affaires. Bien qu'au sein de la population, l'observation ne soit plus valide, elle donne une approche intéressante pour identifier les éléments à cibler pour changer une situation.

Le diagramme comporte deux axes avec les causes en abcisse et les fréquences relatives en ordonnée. On calcule les fréquences relatives en pourcentage afin d'avoir la même échelle et pouvoir comparer avec la barre des 80%. On construit le diagramme en 5 étapes:

  1. collecter les données
  2. calculer les fréquences relatives en pourcentage pour chacune des causes
  3. trier les fréquences relatives en ordre décroissant
  4. calculer les fréquences relatives cumulées pour chacune des causes
  5. faire le graphe: des colonnes pour la fréquence, une courbe pour la fréquence cumulée, en fonction des causes

Exemple: les causes de l’arrêt non-planifié d'un véhicule.