Dans un article précédent, nous avons abordé les concepts de corrélation et de causalité. Les deux concepts sont souvent confondus mais il est nécessaire de savoir que corrélation et causalité ne sont pas équivalents.
En science et particulièrement en Statistique la confusion entre les deux concepts est rappelée par le sophisme « Cum hoc sed non propter hoc » qui veut dire « la corrélation n’implique pas la causalité».
Nous illustrons cette assertion à travers quelques exemples :
1- Dans un pays nous observons une forte corrélation positive entre le prix de mangue et le nombre de grossesses. Est-ce parce que la mangue coûte cher que les femmes tombent massivement enceintes ou inversement ? Doit-on déduire un lien de causalité entre les deux phénomènes ? Non.
2- Au Bénin, durant le mois de Juillet, on observe simultanément une augmentation du nombre de moustiques et une augmentation du nombre de personnes présentes à la plage. Ces deux quantités sont positivement corrélées. Doit-on pour autant conclure à l’existence d’un lien de cause à effet ? Ce ne serait pas vraisemblable.
La corrélation et la causalité ne sont pas interchangeables. Notons que si une variable cause une autre, alors les deux variables sont corrélées. A l’inverse deux variables peuvent être corrélées sans qu’il existe pour autant une relation de cause à effet entre elles.
Nous distinguons les situations suivantes :
- L’existence d’une forte corrélation et l’absence de causalité s’interprète en terme d’association c’est-à-dire les grandes valeurs de l’une des variables sont associées à de grandes valeurs de l’autre et réciproquement, si la corrélation est positive. Dans le cas d’une corrélation négative, les grandes valeurs d’une variable sont associées à de faibles valeurs de l’autre et réciproquement.
Auteur : Amiel SOSSA, Data Scientist à LESCAL
Comments