Test d'égalité de deux proportions

Il existe une multitude de tests statistiques. Cependant, le test d'égalité entre deux proportions est un des plus utilisée en pratique. La raison est simple, il offre une méthode afin de répondre de façon rationnelle a des questions comme:

Si on note A et B les groupes, a et b la proportion de succès au sein du groupe correspondant, l'hypothèse à tester peut s'écrire:

H0: a = b

Si on accepte l'hypothèse, les proportions de succès sont les mêmes dans les deux groupes, si on la rejete, on conclu que les proportions de succès sont différentes.

La réalisation du test consiste à choisir une v.a. adéquate dont on connaît la loi de probabilité, un intervalle de confiance et collecter les données échantillonnales afin de compléter le test. On note n la taille de l'échantillon du groupe A, m celle du groupe B.

Les experts ont montré que si on a les conditions:

  1. la taille de n et de m est plus grande que 30
  2. min(na,mb,n(1-a),m(1-b)) est plus grand que 5
  3. les échantillons sont indépendants

On définit l'écart-type de standardisation s = sqrt( a(1-a)/n + b(1-b)/m ) ), et alors la distribution de la variable (a-b)/s est proche de N(0,1).

L'intervalle de confiance est une zone de la loi de probabilité où on s'attend de pratiquement toujours trouver les valeurs de la v.a. Par exemple, avec un intervalle de confiance de 2 écart-type de part et d'autre de la moyenne, la loi normale couvre 95.45% des éventualités. Si la valeur de la v.a. pour le test se trouve en dehors de cet intervalle, on considère que c'est "anormale" et l'hypothèse du test est rejetée. Sinon, on accepte l'hypothèse H0.

Notons qu'avec ce test, il y a des chances d'être dans l'erreur. Si on utilise un intervalle de confiance de 95.45%, il y a 4.55% de chance qu'on rejette H0 alors qu'elle était vrai! On peut diminuer ce genre d'erreur avec un intervalle de confiance plus grand, mais dans ce cas on augmente les risques d'accepter H0 alors qu'elle est fausse. Il faut donc un compromis entre les deux types d'erreur, 95% est le choix le plus fréquent.

Exemple de test de deux proportions

On aimerait appuyer l'assertion suivante par un test statistique: "il y a plus de truites de plus de 500 grammes dans le Parc des Laurentides que dans la Zec des Monts-Valin".

Soit:

On collecte des échantillons dont les observations sont résumées dans le tableau ci-dessous.

Poids Parc Zec
plus de 500gr 15571 11045
taille échantillon 75502 98544

Les proportions échantillonnales sont donc a=(15571/75502)≈21% et b=(11045/98544)≈11%, ce qui valide les condition pour faire le test.

L'écart-type de standardisation s = sqrt( a(1-a)/n + b(1-b)/m ) ) = 0.00177763

L'intervalle de confiance de 95.45% selon la loi N(0,1) est [-2,2]. Or, la valeur de la v.a. du test est:

(a-b)/s = ((15571/75502)-(11045/98544))/0.00177763 = 53

Puisque 53 est en dehors de l'intervalle de confiance, on rejette l'hypothèse H0, pour conclure qu'il y a significativement plus de truite de plus de 500 grammes dans le Parc que dans la Zec.

Exercice de test de deux proportions

Faire l'analyse des cas suivant via un test d'égalité de deux proportions et interpréter.

Effet de l'Oméga3 sur les risques de récidive d'un cancer

On aimerait confirmer si un traitement de 1gr par jour d'Oméga3 diminue les risques de récidive d'un cancer. Un groupe Omega de 273 patients a reçu le traitement, alors qu'un groupe de 311 patients a reçu un placebo. 51 patients du groupe Omega ont eu une récidive dans la période d'observation, versus 55 dans l'autre groupe.

Impact d'un ajustement machine sur le taux de produits non corformes

Une machine de production génère actuellement 8 produits non conformes par 100 unités. Suite à un réajustement de la machine, le nombre de produits non conformes a chuté à 4 par 100 unités.