Dans cet exemple, nous avons réalisé une corrélation entre l’espérance de vie des femmes (LIFEEXPF) et le taux de natalité par 1 000 habitants (BIRTHRAT) à partir de la base de données COUNTRY.SAV. Nous désirions savoir s’il existait une relation linéaire significative entre ces deux variables.
Revenons au nuage de points que nous avons vu dans la section sur les analyses descriptives. Nous avions fait un graphique pour voir si les variables d’espérance de vie des femmes et de taux de natalité étaient associées.
Nous avions vu que les points semblaient s’agglomérer autour d’une droite et qu’en ce sens, il s’agissait d’une relation linéaire négative. En effet, plus le nombre de naissances par 1 000 habitants augmente, plus l’espérance de vie des femmes diminue.
Est-ce que cette association est suffisamment forte pour être significative au plan statistique ? C’est ce que nous allons voir par le biais de la corrélation.
Statistiques descriptives
Lorsque nous demandons la moyenne et l’écart-type dans les options offertes pour la corrélation, nous obtenons le tableau suivant :
Nous voyons que pour cet échantillon, il y a 122 valeurs valides pour l’espérance de vie des femmes et 121 pour le taux de natalité. Les femmes vivent en moyenne 66,31 ans et le taux de natalité moyen est de 31,29 enfants par 1 000 habitants.
Nous pourrions utiliser le calcul que nous avons vu dans le rappel théorique pour obtenir le coefficient de corrélation associé à la relation entre ces deux variables, mais il serait très fastidieux de calculer la différence entre chaque valeur de la variable espérance de vie et la moyenne, de faire de même pour la variable taux de natalité et de multiplier le résultat des 122 valeurs de la première variable par les 121 de la deuxième pour ensuite diviser le tout par le produit des deux écart-types multiplié par le nombre d’observations moins 1.
Nous allons donc demander à SPSS de faire le calcul pour nous !
Résultat de la corrélation
Le tableau de corrélation est assez simple à interpréter. Il s’agit d’un tableau croisé entre les variables mises en relation.
Nous pouvons voir dans chaque case présentant le croisement de deux variables la valeur du coefficient accompagné d’astérisques si la corrélation est significative, le degré de signification qui y est associé et le nombre d’observations qui ont été croisées.
Puisque la corrélation est une mesure symétrique, on constate que le coefficient est le même pour l’association entre l’espérance de vie et le taux de natalité et pour l’association entre le taux de natalité et l’espérance de vie.
Nous remarquoins que la corrélation est significative, nous pouvons donc rejeter l’hypothèse nulle d’absence de relation entre le taux de natalité et l’espérance de vie. Ceci signifie que la probabilité d’obtenir un coefficient de cette taille dans une population où ces deux variables ne sont pas reliées est de moins de 5 %. Nous acceptons l’hypothèse alternative: il existe une relation linéaire négative (puisque le coefficient est négatif) entre les deux variables.
Le coefficient de corrélation significatif nous donne deux informations que l’on doit interpréter:
1) le sens de la relation entre les variables : Comme le coefficient est négatif, plus le taux de natalité d’un pays est élevé, plus l’espérance de vie diminue. Nous pouvons également dire que plus l’espérance de vie d’un pays est élevée, plus le taux de natalité diminue.
2) la force de la relation (la taille d’effet) : En examinant la valeur du coefficient (r = – 0,87), nous pouvons dire que l’effet de la relation entre ces deux variables est de grande taille et que l’association est très forte.