Les statistiques inférentielles se basent sur l’utilisation d’un ensemble d’outils statistiques pour estimer des quantités relatives à des populations, à partir d’observations, dû à la contrainte qu’il est en pratique impossible d’obtenir toute la donnée disponible sur un sujet.
De ce fait, l’apprentissage statistique et le machine learning utilisent des méthodes mathématiques cherchant à interpréter les relations entre des données afin de modéliser leur répartition. On peut regrouper ces méthodes sous l’appellation de méthodes associatives.
Cette reconnaissance d’association entre les variables se basant sur l’analyse de schémas et sur l’étude de corrélations présentes au sein des jeux de données ne permet cependant en aucun cas de conclure sur les relations de causes à effets entre ces dernières.
C’est là le rôle de l’inférence causale que de parvenir à modéliser des architectures de causalité puis d’en tirer des quantités afin de mener à des conclusions puis à des prises de décision.
De ces quantités, il devient possible de créer des modèles causaux qui peuvent être utile pour :
On dénombre alors 3 grandes familles de variables :
Il est reconnu que le meilleur moyen d’étudier une relation de cause à effet est de procéder à des essais contrôlés randomisés notés RCT (Randomised Control Trials). L’affectation aléatoire de chaque sujet à son groupe d’étude offre l’avantage d’équilibrer les variables confondantes agissant différemment sur chaque observation de l’expérience afin d’isoler entres elles les variables de traitement et de résultat et étudier leur évolution spécifique l’une par rapport à l’autre.