La loi empirique

Cette loi non-paramétrique simple consiste à affecter une probabilité 1/n à chacune des valeurs obtenues sur les éléments d'un échantillon E de taille n. Notons que n n'est pas le nombre de valeurs possibles de la v.a, mais bien la taille de l'échantillon!

Cette loi est extrêmement simple et revient à utiliser la distribution de fréquences cumulées de la v.a. sur l'échatillon E, comme fonction de répartition au sein de la population. Nous verrons que générer des événements pour la simulation est trivial lorsqu'on utilise cette loi.

Une caractéristique importante de cette loi est que seules les valeurs de la v.a. apparaissant via l'échantillon E ont une probabilité non-nulle. Ceci peut-être vue comme une qualité, car seul les événements ayant déjà été observés sont pris en compte. Cependant, le plus souvent c'est un défaut d'affecter une probabilité nulle à un événement potentiel, mais qui n'apparaît pas dans l'échantillon.

Voici un exemple trivial pour mieux comprendre ce défaut. On s'intéresse au jet d'un dé usuel à 6 faces. On veut utiliser une loi empirique basée sur l'échantillon de 10 jets qui nous donne les valeurs:

V = [ 1, 1, 4, 5, 3, 3, 6, 4, 5, 5 ]

Il est clair que cet échantillon est trop petit pour bien approximer la répartition de la v.a. "no de la face". Mais, il y a un problème plus grave: le 2 est absent et aura donc une probabilité de 0.

Rappelons que cette approche n'a d'intérêt que si E est une bonne approximation de la population complète. Or, avec les infrastructures informatiques contemporaines, c'est de plus en plus souvent le cas.

Il est très simple d'utiliser une loi empirique pour simuler des événements. En effet, puisque chacun à la même probabilité 1/n, il suffit de les numéroter de 0 à n-1 et de faire un tirage aléatoire selon une loi uniforme discrète. On peut se convaincre que c'est réaliste avec une simulation Python:


import random
V = [ 1, 1, 4, 5, 3, 3, 6, 4, 5, 5 ]
jets=4
for i in range(jets): # processus
  print(V[random.randint(0,9)])

Une simulation des 4 jets donne:

6
5
3
1

Estimation par noyau

L'estimation par noyau est une stratégie permettant de régulariser la loi empirique. On peut démontrer qu'elle converge vers la loi au sein de la population avec la taille de l'échantillon. Cette loi à l'avantage d'affecter des probabilités non-nulles aux événements, mêmes s'ils n'apparaissent pas explicitement via l'échantillon.