Récolte de données et génération de diagrammes

Récolte de données

La récolte des données est une étape importante dans toute étude statistique. Elle consiste à receuillir les valeurs prise par les v.a. sur l'échantillon.

Il y a plusieurs sources possible pour les données:

Le choix de la source de données dépends intimement du but de l'étude et de ce qui est disponible.

Lorsque la source de données est choisie, il faut extraire les données et les filtrer. L'extraction peut consister à lire des rapports et prélever des informations, mais le plus souvent il faut faire des requêtes dans une BD avec un langage comme SQL. C'est tellement courant que la majorité des logiciels d'analyse statistique, tels SAS et R, offre cette fonctionalité. L'étape de filtrage consiste à s'assurer que les données ne contiennent pas d'erreur. Par exemple, il pourrait manquer des données pour une période où il y eu une panne de courant. Ou dans des rapports financiers, la nature des données pourrait changer suite à une fusion.

Filtrage et visualisation des données

Après avoir recuillie les données on les stock sous un format pratique pour en faire l'analyse. Par exemple, dans un chiffrier, un fichier CSV ou une BD, selon les besoins et la faisabilité. Avant l'analyse statistique, on prends soin de visualiser les données sous plusieurs angle à l'aide de diagramme afin de valider la qualité des informations. Notamment, pour s'assurer que le filtrage a été fait correctement.

Quoi

Vous êtes invité à récolter des données pour une étude des finances d'une entreprise coté sur le TSX via les étapes:

  1. Choisir une compagnie coté sur le TSX. Par exemple, Bombardier, CGI, GoldCorp, Encana, IAMGOLG, Suncor, Cameco, Banque TD, etc, la majorité des compagnies publiques canadienne s'y trouve ;
  2. Repérer les données financière de la compagnie choisie. Tous les rapports financiers des compagnies publiques canadiennes sont sur le site Sedar ;
  3. Choisir au moins 3 indicateurs financiers trimestriels disponible dans les rapports déposés sur Sedar. Ce sont des v.a. dynamiques ;
  4. Extraire et filtrer les données relatives aux 3 v.a. pour au moins 8 trimestres consécutifs ;
  5. Stocker les données sur le cloud dans un fichier "Google sheet". Il est recommandé de mettre les données en colonnes avec un titre pour chaque colonne et que la première représente le trimestre ;
  6. Visualiser et valider la qualité des données via la génération automatique de diagrammes offerte par "Google sheet". Il s'agit de sélectionner les données et choisir "Explorer". Aide: revoir l'exemple tableau "dette G7" ;
  7. Choisir un ou deux diagrammes générés par "Google sheet Explorer" et l'insérer dans le chiffrier, à la suite des données. Exporter le chiffrier en PDF.

Comment

Le travail est à faire seul, mais vous pouvez consulter d'autres personnes du cours ou pas. Ce TP est falcutatif.