La loi empirique

Cette loi non-paramétrique simple consiste à affecter une probabilité 1/n à chacune des valeurs obtenues sur les éléments d'un échantillon E de taille n. Notons que n n'est pas le nombre de valeurs possibles de la v.a, mais bien la taille de l'échantillon!

Cette loi est extrêmement simple et revient à utiliser la distribution des fréquences cumulées de la v.a. sur l'échantillon E, comme fonction de répartition au sein de la population.

Soit E un échantillon de taille n et x une v.a., la loi empirique de x liée à E est:

Une caractéristique importante de cette loi est que seules les valeurs de la v.a. apparaissant via l'échantillon E, ont une probabilité non-nulle. Ceci peut-être vue comme une qualité, car seuls les événements ayant déjà été observés sont pris en compte. Cependant, le plus souvent c'est un défaut d'affecter une probabilité nulle à un événement potentiel.

Voici un exemple trivial pour mieux comprendre ce défaut. On s'intéresse au jet d'un dé usuel à 6 faces. On veut utiliser une loi empirique basée sur l'échantillon de 10 jets, dont les valeurs observées sont:

V = [ 1, 1, 4, 5, 3, 3, 6, 4, 5, 5 ]

Il est clair que cet échantillon est trop petit pour bien approximer la répartition de la v.a. "no de la face". On remarque qu'il y a un problème majeur: le 2 est absent et aura donc une probabilité de 0! Cette approche n'a d'intérêt que si E est une bonne approximation de la population complète. Or, avec les infrastructures informatiques contemporaines, c'est de plus en plus souvent le cas.

Estimation par noyau

L'estimation par noyau est une stratégie permettant de régulariser la loi empirique. On peut démontrer qu'elle converge vers la loi au sein de la population avec la taille de l'échantillon. Cette loi à l'avantage d'affecter des probabilités non-nulles aux événements, mêmes s'ils n'apparaissent pas explicitement via l'échantillon.