Exemples de régressions

Le principe de base pour ajuster un modèle (i.e. une fonction) sur des données est de minimiser la sommes du carré des erreurs entre les valeurs réelles et celles obtenues par le modèle. Les algorithmes pour ce faire sont bien connus et se trouvent dans tous les logiciels de statistiques (voir Wolfram Alpha). Cependant, dans tous les cas, il faut au moins autant de données que de paramètres dans le modèle. Par exemple, pour un modèle linéaire reliant 2 variables, il y a 2 paramètres: la pente et l'ordonnée à l'origine, il faut donc au moins 2 données. Notons que cette approche est générale et n'est donc pas limité au cas linéaire. De plus, elle peut s'étendre au cas de plusieurs dimensions (exemple: modèle linéaire à deux dimensions (i.e. un plan)).

Notons que même si le comportement d'une fonction est non linéaire, l'utilisation d'un modèle linéaire peut avoir un intérêt si on reste sur une courte échelle. Pour s'en convaincre, il est intéressant de revoir le concept de développement en série de Taylor. Il nous rappelle qu'on peut approximer une fonction différentiable au voisinage d'un point par un développement linéaire. L'erreur est alors proportionnelle à l'écart avec ce point, d'où l'importance de rester sur une courte échelle.

Modèle linéaire avec 2 données

Ça revient à calculer la droite entre les 2 points. Le modèle reproduit exactement les données (coefficient de détermination est 1.0), car on a le même de données que de paramètres: exemple.

Modèle linéaire avec plus de 2 données

Ça revient à calculer la droite de régression linéaire passant entre les données. Le modèle ne reproduit pas exactement les données (coefficient de détermination est <1.0), car on a plus de données que de paramètres, mais c'est le meilleur modèle linéaire au sens de la somme du carré des erreurs: exemple.

Modèle quadratique avec 3 données

Ça revient à calculer le polynôme de degré 2 passant par les 3 points. Le modèle reproduit exactement les données (coefficient de détermination est 1.0), car on a le même de données que de paramètres: exemple.

On observe qu'avec les 3 mêmes données, le modèle quadratique est exact alors que le modèle linéaire est imparfait.

Modèle quadratique avec plus de 3 données

Ça revient à calculer la polynôme de régression de degré 2 passant entre les données. Le modèle ne reproduit pas exactement les données (coefficient de détermination est <1.0), car on a plus de données que de paramètres, mais c'est le meilleur modèle linéaire au sens de la somme du carré des erreurs: exemple.

Exemple de calcul d'une régression linéaire avec seulement 3 points.

Afin de bien comprendre le concept, il est toujours préférable de faire un exemple manuel. Ainsi, reprennons l'exemple "linear fit {{1,2},{5,7},{3,3}}".

Nous avons 3 couples, donc x prends les valeurs 1, 5, 3 et y les valeurs 2, 7, 3.

L'équation de la droite de régression est y=mx+b, avec:

On a:

C'est-à-dire y = 1.25x + 0.25 , ce qui correspond bien au résultat de Wolframalpha.

Le coefficient de corrélation est cor(x,y) = cov(x,y)/(s(x)s(y)) = 3.3333/(sqrt(2.6666)*sqrt(4.6666)) = 0.945. Ce coefficient étant proche de 1, on en déduit que le modèle linéaire est représentatif de la relation entre x et y.