Test d'égalité de deux proportions

Nous allons considérer le test d'égalité entre deux proportions. Il permet de répondre de façon rationnelle à des questions comme:

Si on note A et B les groupes, a et b la proportion de succès au sein du groupe correspondant, l'hypothèse à tester peut s'écrire:

H0: a = b

Si on accepte l'hypothèse, les proportions de succès seront considérées être les mêmes dans les deux groupes. Si on la rejette, on conclut que les proportions de succès sont différentes.

La réalisation du test consiste à choisir une v.a. adéquate dont on connaît la loi de probabilité, un intervalle de confiance et collecter les données échantillonnales afin de réaliser le test.

Soit n, m la taille de l'échantillon du groupe A, B, les experts ont montrés que sous les conditions:

  1. la taille de chacun des échantillons est plus grande que 30
  2. min( na, mb, n(1-a), m(1-b) ) est plus grand que 5
  3. les échantillons sont indépendants

Alors la distribution de la variable (a-b)/s est proche de N(0,1), où l'écart-type de standardisation s = sqrt( a(1-a)/n + b(1-b)/m ) ).

L'intervalle de confiance est une zone de la loi de probabilité où l'on s'attend de trouver les valeurs de la v.a. Par exemple, avec un intervalle de confiance de 2 écart-type de part et d'autre de la moyenne, la loi normale couvre 95.45% des éventualités. Si la valeur de la v.a. pour le test se trouve en dehors de cet intervalle, on considère que c'est "anormale" et l'hypothèse du test est rejetée. Sinon, on accepte l'hypothèse H0.

Notons qu'avec ce test, il y a des chances d'être dans l'erreur. Si on utilise un intervalle de confiance de 95.45%, il y a 4.55% de chance qu'on rejette H0 alors qu'elle était vrai. On peut diminuer ce genre d'erreur avec un intervalle de confiance plus grand, mais dans ce cas on augmente les risques d'accepter H0, alors qu'elle est fausse. Il faut donc un compromis entre les deux types d'erreur, 95% est le choix le plus fréquent.

Exemple de test de deux proportions

On aimerait appuyer l'assertion suivante par un test statistique: "il y a plus de truites de plus de 500 grammes dans le Parc des Laurentides que dans la Zec des Monts-Valin".

Soit:

On collecte des échantillons dont les observations sont résumées dans le tableau ci-dessous.

  Parc Zec
poids plus de 500gr 15571 11045
taille échantillon 75502 98544

Les proportions échantillonnales sont donc a=(15571/75502)≈21% et b=(11045/98544)≈11%, ce qui respecte les conditions pour faire le test.

L'écart-type de standardisation s = sqrt( a(1-a)/n + b(1-b)/m ) ) = 0.00177763

L'intervalle de confiance de 95.45% selon la loi N(0,1) est [-2,2].

Or, la valeur de la v.a. du test est:

(a-b)/s = ((15571/75502)-(11045/98544))/0.00177763 = 53

Puisque 53 est en dehors de l'intervalle de confiance, on rejette l'hypothèse H0, pour conclure qu'il y a significativement plus de truites de plus de 500 grammes dans le Parc que dans la Zec.

Exercice de test de deux proportions

Faire l'analyse des cas suivant via un test d'égalité de deux proportions et interpréter.

Effet de l'Oméga3 sur les risques de récidive d'un cancer

On aimerait confirmer si un traitement de 1gr par jour d'Oméga3 diminue les risques de récidive d'un cancer. Un groupe Omega de 273 patients a reçu le traitement, alors qu'un groupe de 311 patients a reçu un placebo. 51 patients du groupe Omega ont eu une récidive dans la période d'observation, versus 55 dans l'autre groupe.

Impact d'un ajustement machine sur le taux de produits non corformes

Une machine de production génère actuellement 8 produits non conformes dans un groupe de 100 unités. Suite à un ajustement de la machine, le nombre de produits non conformes a chuté à 4 dans un groupe de 100 unités. Est-ce que l'impact est significatif (justifier)?