« Tous les modèles son faux, certains sont utiles » George Box

L’apprentissage statistique est l’ensemble de concepts mathématiques permettant d’estimer une fonction $f$ qui modélise la relation entre un jeu de données $X = \{ X_1, X_2, ..., X_p \}$, où $p$ désigne le nombre de prédicteurs, et une variable $Y$ que l’on cherche à prédire et qui est le résultat de la transformation de $X$ par $f$ :

$$ Y = f(X) + \epsilon $$

Où $ϵ$$\epsilon$$E( \epsilon ) = 0$$E(\epsilon) = 0$$X$$\epsilon$$f$ est une fonction de modélisation statistique.

Son estimation à alors une double utilité :

Modèles statistiques

En fonction de l’objectif que porte l’apprentissage statistique, que ce soit l’inférence, la prédiction ou les deux différentes méthodes d’estimation devront être utilisées.

Aussi, puisqu’il s’agit de modèles inférentielles on peut retrouver deux types de fonctions d’apprentissage statistique :

Ces considérations mènent à un concept fondamental en apprentissage statistique, le compromis entre la précision de la prédiction et l'interprétabilité du modèle.

En général, les modèles plus simples et plus interprétables ont tendance à être moins précis, tandis que les modèles plus complexes et flexibles et donc moins interprétables peuvent atteindre une précision plus élevée.

Ainsi, le choix entre précision et interprétabilité dépend du contexte spécifique de l'application.