Test de Chi-2

RAPPEL THÉORIQUE

Le test de Chi-deux est utilisé pour tester l’hypothèse nulle d’absence de relation entre deux variables catégorielles. On peut également dire que ce test vérifie l’hypothèse d’indépendance de ces variables.

Si deux variables dépendent l’une de l’autre, elles partagent quelque chose, la variation de l’une influence la variation de l’autre…

Comme nous allons travailler avec des variables catégorielles, nous n’allons pas nous servir de la moyenne ou de la variance comme référence. Il ne serait en effet pas pertinent de calculer la moyenne d’une variable catégorielle, puisque les valeurs que nous accordons aux catégories sont aléatoires. De plus, la moyenne obtenue dépendrait du nombre d’observations dans chaque catégorie.

Par conséquent, nous allons plutôt travailler avec les fréquences (ou encore, les occurrences ou les proportions) obtenues dans chaque cellule du tableau croisé.

L’hypothèse nulle

L’hypothèse nulle est la même que dans les tests précédents : l’absence de relation, mais cette fois-ci entre deux variables catégorielles.

Nous pouvons aussi dire que les deux variables sont indépendantes. L’indépendance signifie que la valeur d’une des deux variables ne nous donne aucune information sur la valeur possible de l’autre variable. Lorsqu’il n’existe aucune relation entre deux variables catégorielles (ou continues), on dit que les variables sont indépendantes l’une de l’autre. Il ne faut pas confondre cette expression avec l’appellation « variable indépendante ».

L’hypothèse alternative est donc qu’il existe une relation entre les variables ou que les deux variables sont dépendantes.

Prémisses du test du Chi-deux

Les observations doivent être indépendantes, ce qui signifie que les sujets apparaissent une fois dans le tableau et que les catégories des variables sont mutuellement exclusives. 

La plupart des occurrences attendues (fréquences théoriques) d’un tableau croisé doivent être supérieures ou égales à 5 et aucune occurrence attendue ne doit être inférieure à 1 (au moins 75 % des cellules).

La statistique du Chi-deux

Lorsque l’on a voulu tester l’hypothèse nulle de l’égalité des moyennes de deux échantillons (dépendants ou indépendants), nous avons calculé la statistique t.  Puis, à l’aide de la distribution t, nous avons déterminé dans quelle mesure la valeur t obtenue était « inhabituelle » si l’hypothèse nulle était vraie.

Dans le cas de tableau croisé où l’on travaille avec des occurrences, nous allons calculer la statistique Chi-deux et comparer sa valeur à l’aide de la distribution Chi-deux dans le but de déterminer dans quelle mesure cette valeur est « inhabituelle » si l’hypothèse nulle est vraie. 

Mentionnons qu’au contraire des autres techniques présentées dans les modules précédents, le Chi-deux est une analyse dite non-paramétrique, car elle n’est pas basée sur les prémisses des paramètres de la distribution de la variable dans la population (moyenne, écart-type et normalité). Il existe d’autres tests non-paramétriques, mais nous ne les verrons pas.

Calcul du Chi-deux

L’élément fondamental du tableau croisé est le nombre d’occurrences dans chaque cellule du tableau.  La procédure statistique que nous allons employer pour tester l’hypothèse nulle compare les occurrences observées (celles déjà dans le tableau) avec les occurrences attendues.L’occurrence attendue est simplement la fréquence que l’on devrait trouver dans une cellule si l’hypothèse nulle était vraie.

Faites ces opérations pour chaque cellule du tableau croisé :

1. Trouvez l’occurrence attendue :

Si l’hypothèse nulle est vraie, on s’attend à ce que les pourcentages du tableau soient les mêmes pour les hommes et les femmes, donc qu’ils répondent pareillement à la question. On parle du pourcentage parce que les hommes et les femmes ne sont pas nécessairement en nombre égaux dans l’échantillon. Dans le tableau croisé ci-dessous, nous remarquons que 53,5 % de tous les répondants croient que la liberté d’expression est plus importante et que 46,5 % croient l’inverse. Si l’hypothèse nulle est vraie, ces pourcentages sont les meilleurs estimés des pourcentages que l’on devrait trouver pour les hommes et les femmes. Pour convertir ces pourcentages en occurrences (fréquence), il faut multiplier l’estimé par le nombre d’hommes et de femmes.

La façon la plus simple de calculer les occurrences attendues est de prendre l’occurrence observée d’une cellule, de multiplier le total de rangée de cette cellule par le total de colonne de cette même cellule et de diviser par le nombre total d’occurrences observées du tableau (grand total). Par exemple, pour les femmes, l’occurrence attentude pour la liberté d’expression est : 53,5 % x 472 = 252,5.

2. Trouvez la différence entre l’occurrence observée et attendue

On peut demander, sous le bouton Cellules, le calcul des occurrences attendues et du résiduel. Le résiduel est simplement la différence entre l’occurrence observée et attendue. Un résiduel positif indique qu’il y a plus d’occurrences comparativement à ce qu’on s’attendrait à observer si l’hypothèse nulle était vraie. Ceci est aussi vrai à l’inverse pour les résiduels négatifs.

3. Élevez le résultat de cette différence au carré

4. Divisez cette différence au carré par l’occurrence attendue

5. Additionnez ce résultat à celui des autres cellules

Plus l’occurrence observée est près de l’occurrence attendue, plus la fraction calculée pour chaque cellule est petite et moins l’écart avec H0 est grand. Même si l’hypothèse nulle est vraie, il est possible que ces deux valeurs d’occurrences ne soient pas exactement les mêmes en raison de la variabilité échantillonnale. Nous avons donc à déterminer la probabilité d’observer une valeur de Chi-deux égale ou plus grande lorsque l’hypothèse nulle est vraie.

La distribution Chi-deux demande (tout comme l’analyse de variance) le calcul du degré de liberté, car cette distribution varie de forme en fonction du degré de liberté du tableau croisé. Cependant, le calcul du degré de liberté ne dépend pas du nombre de sujets, mais plutôt du nombre de rangées (Ligne) et de colonnes (Colonne) dans votre tableau croisé.

Degré de liberté = (nombre de rangées – 1) X (nombre de colonnes – 1)

Dans ce cas-ci, le degré de liberté de la distribution Chi-deux est de 1. Il suffit maintenant d’aller comparer cette statistique Chi-deux à la table de distribution Chi-deux paramétrée par le degré de liberté en fonction du niveau de signification choisi (généralement p < 0,05). Il sera alors possible ou non de rejeter l’hypothèse nulle d’absence de relation.

La taille d’effet : la force de l’association

Il est possible d’apprécier la force de l’association entre les variables catégorielles à partir des tests complémentaires sur les mesures symétriques qui sont accessibles sous le bouton « Statistiques » de la boîte de dialogue du Tableau croisé.

Ces mesures sont basées sur la statistique Chi-deux qui a été modifiée pour tenir compte de la taille de l’échantillon et des degrés de liberté. Le résultat de ces tests se situe entre 0 et 1.

Les plus fréquemment utilisés sont le Phi et le V de Cramér.

Coefficient Phi : cette mesure d’association est pertinente pour les tableaux 2×2 seulement. La valeur s’interprète directement selon les balises de taille d’effet de la corrélation de Pearson (voir tableau ci-dessous).

V de Cramér : cette mesure d’association est valable pour tous les tableaux plus grands que 2×2. Cependant, pour l’interpréter simplement, il faut transformer le coefficient pour tenir compte de l’inflation de la valeur de Khi-2 en fonction de la taille du tableau. Pour ce faire, Cohen (1988) propose de calculer la valeur omega (w) où k représente le plus petit nombre de catégories du croisement.

La valeur omega résultante s’interprète ensuite selon les balises de Cohen (1988) pour la corrélation de Pearson