« Tous les modèles son faux, certains sont utiles » George Box
L’apprentissage statistique est l’ensemble de concepts mathématiques permettant d’estimer une fonction $f$ qui modélise la relation entre un jeu de données $X = \{ X_1, X_2, ..., X_p \}$, où $p$ désigne le nombre de prédicteurs, et une variable $Y$ que l’on cherche à prédire et qui est le résultat de la transformation de $X$ par $f$ :
$$ Y = f(X) + \epsilon $$
Où $ϵ$$\epsilon$$E( \epsilon ) = 0$$E(\epsilon) = 0$$X$$\epsilon$$f$ est une fonction de modélisation statistique.
Son estimation à alors une double utilité :
L’inférence
La compréhension de l’association entre $Y$ et $X$ est souvent de grand intérêt. Dans cette situation on cherche à estimer et comprendre $f$ à l’aide d’une fonction $\hat f$ afin de pouvoir répondre aux questions suivantes :
La prédiction
Le concept de prédiction consiste à pouvoir généraliser $\hat f$ à une population afin d’estimer $\hat Y$ pour tout nouveau $X_i$ :
$$ \hat Y = \hat f(X_i) $$
On parle alors de généralisation.
Dans cette situation on considère souvent l’estimateur $\hat f$ comme une boite noire qui permet de conclure sur des prédictions satisfaisantes de $Y$.
Toutefois, la précision de $\hat Y$ comme estimateur de $Y$ dépend de deux quantités qui sont l’erreur réductible et l’erreur irréductible.
En général $\hat f$ n’est pas un estimateur parfait de $f$ et cette imprécision va entraîner une erreur qui cependant est réductible car il est toujours possible d’améliorer la précision de $\hat f$ en utilisant les modèles d’apprentissage statistique les mieux appropriés.
Pour autant, même s’il était possible d’obtenir une estimation parfaite telle que :
$$ \hat Y = f(X_i) $$
Alors la prédiction serait toujours sujette à l’erreur parce que $Y$ est fonction de $ϵ$. Ce terme est nommé l’erreur irréductible car peu importe la précision de $\hat f$ il sera toujours supérieur à 0 et va comporter l’effet de l’infinité de variables qui n’ont pas pu être mesurée mais qui interviennent dans la modélisation de $Y$.
En fonction de l’objectif que porte l’apprentissage statistique, que ce soit l’inférence, la prédiction ou les deux différentes méthodes d’estimation devront être utilisées.
Aussi, puisqu’il s’agit de modèles inférentielles on peut retrouver deux types de fonctions d’apprentissage statistique :
Modèles paramétriques
Les modèles paramétriques supposent que la distribution sous-jacente des données suit une forme spécifique, et que le nombre de paramètres du modèle reste constant, quelle que soit la taille de l'ensemble de données.
Les modèles paramétriques ont souvent besoin de moins de données pour être efficaces, car ils simplifient la représentation de la distribution des données. De plus étant donné qu'ils ont un nombre fixe de paramètres, l'entraînement des modèles paramétriques peut être plus rapide en plus de souvent être plus interprétable.
Toutefois, les modèles paramétriques sont généralement moins flexibles et peuvent avoir du mal à capturer des structures de données complexes. Et bien sûr si l'hypothèse sur la forme de la distribution sous-jacente est incorrecte, le modèle va introduire un biais systématique.
Modèles non paramétriques
Les modèles non paramétriques n'imposent pas d'hypothèses spécifiques sur la distribution sous-jacente des données. Ils peuvent donc être plus flexibles et s'adapter à une plus grande variété de structures de données et sont alors capables de modéliser une grande diversité de distributions sous-jacentes.
En revanche en raison de leur grande flexibilité, les modèles non paramétriques peuvent nécessiter davantage de données pour s'entraîner efficacement et seront généralement moins interprétables.
Ces considérations mènent à un concept fondamental en apprentissage statistique, le compromis entre la précision de la prédiction et l'interprétabilité du modèle.
En général, les modèles plus simples et plus interprétables ont tendance à être moins précis, tandis que les modèles plus complexes et flexibles et donc moins interprétables peuvent atteindre une précision plus élevée.
Ainsi, le choix entre précision et interprétabilité dépend du contexte spécifique de l'application.