Statistique descriptive

Partie 1: exploitation des mesures de tendance dans le cas statique (indépendant du temps)

Considérons l’échantillon suivant d’estimations de la valeur de l’action de Walmart en $US pour la fin 2015. Ces estimations date du 14 octobre 2015.

Faire les étapes:

  1. Entrer les valeurs dans un Google sheet et calculer: médiane, mode, moyenne, étendu, écart-type. Ne pas utiliser les fonctions préconstruites autres que pour la somme, la racine et le tri
  2. Faire le tableau de fréquences, en regroupant en classes si nécessaire. Utiliser un chiffrier pour présenter le tableau de fréquences sous la forme d’un histogramme.
  3. Selon cette distribution, quelle est la chance:
  4. Comparer avec la réalité* et expliquer toute disparité significative. S'il y a une disparité significative:

* On peut trouver les valeurs historiques, pour une période jusqu'à 10 ans, sur le site du NASDAQ. Elles peuvent être récupérée dans un fichier en format CSV pour faciliter l'analyse.

Partie 2: exploitation des mesures de tendance dans le cas dynamique

On s'intéresse à la valeur récente des actions de 3 banques canadiennes: Banque Nationale, Banque Royale et Banque TD. On veut faire une analyse technique de base pour investissement via StockCharts.com. L'analyse consiste à observer l'évolution récente de la valeur des actions (variable aléatoire temporelle), la tendance via des moyennes mobiles (acronyme MA en anglais) avec fenêtres de 50 et 200 jours et le RSI. Cette dernière est une variable aléatoire temporelle qui résume l'activité des investisseurs dans un titre.

Les actions de ces banques sont négociées sur la bourse de Toronto et leur options sur la bourse de Montréal. On peut utiliser le moteur de recherche ou les documents de ces sites afin d'obtenir le symbole représentant les actions. Notons qu'on peut aussi retrouver les symboles via Google. Une fois qu'on a le symbole (un mot clé de une à trois letters), on peut générer le graphe sur StockCharts.com. Il faut prendre soin d'ajouter ".to" au symbole pour faire référence au TSX/TSE. Par exemple: avec les mots clés "symbole action banque nationale toronto", il est facile de trouver via Google que le symbole pour la Banque National est NA. On utilisera donc NA.TO sur StockCharts.com.

Faire les étapes (utiliser StockCharts.com):

  1. Repérage: trouver les symboles des actions 3 banques.
  2. Comparer le changement relatif récent de la valeur des actions des 3 banques en entrant les 3 symboles dans le moteur de recherche séparé par des virgules.
  3. RSI: dans la section "CHARTSCHOOL", lire sur le "Relative Strength Index". Est-ce une v.a.? Faut-il l'évaluer en collectant de nouvelles valeurs sur l'échantillon ou seulement à partir de celles déjà disponible (i.e. la valeur de l'action)?
  4. Pour chacune des 3 banques:
  5. Selon ces données techniques:

Partie 3: Analyse de Pareto

On veut identifier les principales sources de bris de pont roulant afin de cibler les efforts d'entretien. On a répertorié 9 sources de bris, chacune avec un numéro de 1 à 9 selon une légende. On utilisera les données receuillies par l'équipe d'entretien pendant le mois de juin passé pour faire l'analyse.

Faire les étapes:

  1. Valider les données: vérifier qu'il n'y a pas de donnée aberrante. Prendre les décisions qui s'imposent et le mentionner comme hypothèse de l'analyse
  2. Calculer les fréquences relatives en pourcentage pour chacune des causes
  3. Trier les fréquences relatives en ordre décroissant
  4. Calculer les fréquences relatives cumulées pour chacune des causes
  5. Faire le graphe: des colonnes pour la fréquence, une courbe pour la fréquence cumulée, en fonction des causes
  6. Quelles sont les principales causes selon l'analyse de Pareto? Justifier (fournir le diagramme de Pareto)
  7. Refaire une seconde analyse de Pareto, mais en utilisant la somme du temps passé en bris pour chacune des causes, plutôt que l'occurrence. Comme pour les fréquences relatives, il faut diviser le temps total pour chaque cause par le grand total de temps passé en bris, afin d'avoir des valeurs relatives en pourcentage. On peut alors les trier, faire le graphe des valeurs cumulés et caractériser les causes liées à 80% du temps total passé en bris.
  8. Comparer les résultats de cette seconde analyse avec la première. Justifier (fournir le diagramme de Pareto)

Partie 4: Traitement des données et statistique descriptive avec Python

Nous allons calculer quelques statistiques descriptives concernant les tremblements de terre au Canada. Pour ce faire on doit:

  1. Déterminer le but de l'étude: on s'intéresse à la magnitude des tremblements de terre au Canada. On veut connaître le plus puissant, la moyenne, l'écart-type et avoir une idée de la distribution de la magnitude
  2. Trouver une source de données: Earthquakes in Canada, fichier eqarchive-en.csv (version récupérée en septembre 2018)
  3. Exploiter les données:
    1. quelle est la population?
    2. quel est l'ensemble formant l'échantillon?
    3. quelle est la variable aléatoire pour cette étude?
    4. déterminer le maximum, la moyenne et l'écart-type
    5. filtrer les données pour éliminer les AFTERSHOCK, BLAST et autres événements secondaires
    6. quelle est l'occurrence mensuelle des tremblements de terre de magnitude supérieure ou égale à 1.0?
    7. quels sont les 3 événements les plus significatifs et essayer de les retracer dans les médias (google)
    8. faire une distribution de la fréquence relative avec des intervalles de magnitude 1.0
    9. discuter de la généralisation (inférence), des résultats à toute la population

Aide Python:

Comment

Vous êtes invité à faire ce travail seul ou en équipe de deux. Faire votre rapport avec Google document. Remettre en pdf dans la boîte courriel du professeur au plus tard deux semaines après le cours où le TP a été introduit. Prenez soin de bien identifier votre document avec les noms des participants et suivre les règles de remise des travaux.