Analyse en composantes principales

RAPPEL THÉORIQUE

L’analyse en composantes principales (ACP) est une technique multivariée dite d’interdépendance, car il n’y a pas de variable dépendante ou indépendante d’identifiée au préalable. Une autre caractéristique importante de l’ACP est qu’il n’y a pas d’hypothèse nulle à tester ou à vérifier. 

Les techniques d’analyse factorielle, telles que l’ACP, visent trois objectifs principaux:

1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables sont associées)

2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques et les questionnaires basés sur des échelles de type Likert permettant de mesurer des construits latents (qu’il est impossible de mesurer directement comme le degré de stress ou de bonheur d’une personne). 

3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un questionnaire ou d’un test, par exemple) en un ensemble restreint de nouvelles dimensions composites tout en assurant une perte minimale d’informations (Hair et al., 1998). On cherche donc à faire émerger les construits ou les dimensions sous-jacentes à un ensemble de variables. 

Pour illustrer la démarche d’analyse de l’ACP, nous allons nous baser sur la procédure par étapes de Hair et al. (1998).  Voyons les étapes à franchir pour réaliser cette analyse.

Étape 1: Déterminer l’approche selon le type de problème

Approche exploratoireLe chercheur n’a pas d’a priori théorique sur la structure sous-jacente des données et veut en explorer la structure. À ce titre, on peut utiliser l’ACP pour deux motifs principaux:
·       Identifier la structure sous-jacente des données
·       Réduire le nombre de variables en quelques facteurs.
Approche confirmatoireLe chercheur a certains a priori théoriques et désire confirmer une structure factorielle documentée. Il cherche donc ici à confirmer la présence de facteurs déjà connus et décrits dans la littérature ou par d’autres analyses.

Étape 2: Préparation de l’analyse

Nombre de variablesNormalement, on effectue une ACP sur un ensemble de variables substantiel.  Extraire 8 facteurs à partir de 12 variables ne permet pas vraiment de réduire de façon intéressante le nombre de variables originales. Il faut donc avoir un minimum de variables.
Type de variablesDe plus, il est recommandé d’avoir des variables continues, malgré que quelques variables de l’ensemble peuvent être dichotomiques (0-1). La technique fonctionne également avec des variables ordinales.
Taille de l’échantillonIl est recommandé d’avoir un échantillon relativement grand pour assurer une puissance statistique minimale. On suggère 100 sujets et plus, mais Hair et al. (1998) donnent comme règle générale d’avoir un ratio de 10 sujets par variable insérée dans l’analyse.

Étape 3: Respect des postulats

Corrélations inter-itemsOn doit s’assurer qu’il existe des corrélations minimales entre les items ou les variables qui feront l’objet de l’analyse. Dans le cas où les corrélations sont très faibles ou inexistantes, il sera très difficile de faire émerger un ou des facteurs et l’ACP n’est probablement pas l’analyse à conseiller.  À cet égard, on peut créer une matrice de corrélation avec toutes les variables de l’analyse et examiner la magnitude des coefficients. Cette matrice est une option disponible dans le menu SPSS de l’analyse factorielle.
Mesure de l’adéquation de l’échantillonnage (KMO)Cette mesure donne un aperçu global de la qualité des corrélations inter-items.  L’indice KMO  varie entre 0 et 1 et donne une information complémentaire à l’examen de la matrice de corrélation. Son interprétation va comme suit:
0,80 et plus       Excellent
0,70 et plus       Bien
0,60 et plus       Médiocre
0,50 et plus       Misérable
Moins de 0,50   Inacceptable
Cet indice augmente 1) plus la taille de l’échantillon est grande, 2) plus les corrélations inter-items sont élevées, 3) plus le nombre de variables est grand et 4) plus le nombre de facteurs décroît.
Test de sphéricité de BartlettCette mesure indique si la matrice de corrélation est une matrice identité à l’intérieur de laquelle toutes les corrélations sont égales à zéro. Nous espérons que le test soit significatif (p < 0,05) pour que nous puissions rejeter l’hypothèse nulle voulant qu’il s’agisse d’une matrice identité qui signifie que toutes les variables sont parfaitement indépendantes les unes des autres.

Étape 4: Choix de la méthode d’extraction

Il existe deux méthodes d’extraction des facteurs qui reposent sur des considérations théoriques spécifiques reliées aux composantes de la variance totale de l’ensemble de variables de l’analyse: l’analyse des facteurs communs (analyse factorielle) et l’analyse en composantes principales

L’analyse des facteurs communs (Principal axis factoring) est basée sur la variance commune partagée par les variables analysées et est appropriée lorsque le chercheur est intéressé à découvrir la structure latente ou les construits sous-jacents aux variables. Cependant, de nombreuses limites rendent cette méthode difficile à appliquer dans bien des cas.

L’analyse en composantes principales (Principal component) est basée sur la variance spécifique des variables et permet d’extraire un minimum de facteurs qui expliquent la plus grande partie possible de la variance spécifique. C’est habituellement la méthode privilégiée.

Une fois la méthode choisie, il est possible de spécifier le nombre de facteurs que l’on désire extraire des données. On comprendra que cette décision est pertinente dans une perspective confirmatoire et non dans une perspective exploratoire.

Deux critères reviennent fréquemment pour déterminer le nombre de facteurs à extraire:

1.   La valeur dite de « eigen » (eigenvalue), traduite en français par « Valeur propre initiale », est le critère le plus largement utilisé. Plus la valeur propre initiale est élevée, plus le facteur explique une portion significative de la variance totale. Par convention, tout facteur avec une valeur propre initiale supérieure à 1 est considéré comme facteur significatif. La sortie de résultats SPSS affiche le pourcentage de variance expliquée uniquement pour les facteurs ayant une valeur propre initiale supérieure ou égale à 1.

2.    Le coude de Cattell constitue un critère plus sévère pour déterminer le nombre de facteurs. Il est possible de demander dans les options associées à l’ACP de réaliser un graphique à partir des valeurs propres. Tous les points représentent les valeurs propres des composantes. Ils sont reliés par une ligne. On ne retient que les facteurs qui se situent avant le changement abrupt de la pente. Les points qui suivent ce changement, appelé rupture du coude, semblent former une ligne droite horizontale. L’information ajoutée par les facteurs représentés par ces points est peu pertinente.   

Étape 5: Interprétation des facteurs

L’interprétation des facteurs ou des composantes consiste à déterminer la combinaison de variables qui est la plus associée à chacun des facteurs significatifs.  Pour ce faire, on suggère trois étapes.

1) Examen de la matrice des composantes (sans rotation)

Cette matrice contient les poids des variables sur chaque facteur. Ces poids sont en fait la corrélation entre la variable et le facteur. Ils servent à interpréter le rôle de chaque variable dans la définition de chaque facteur. Ils indiquent donc le degré de correspondance entre la variable et le facteur. Plus le poids est élevé, plus la variable est représentative du facteur.

De manière générale, le premier facteur extrait est celui qui explique le plus de variance et est donc la meilleure combinaison possible de variables. Les autres facteurs ont  moins de variance résiduelle à expliquer. Par conséquent, Ils représentent des combinaisons de moins en moins optimales, jusqu’à extinction de la variance à expliquer.

Bien qu’intéressante, cette matrice n’est pas la plus parlante en termes d’interprétation.  Dans presque tous les cas, il est nécessaire d’effectuer une rotation des facteurs pour simplifier la matrice corrélationnelle entre les facteurs et les variables.

2) Examen de la matrice des composantes après rotation

La rotation des facteurs consiste à faire pivoter virtuellement les axes des facteurs autour du point d’origine dans le but de redistribuer plus équitablement la variance à expliquer. La solution factorielle alors obtenue est plus simple a interpréter et est théoriquement plus pertinente que la solution sans rotation. La rotation peut être orthogonale lorsque les facteurs sont pressentis comme étant des dimensions indépendantes les unes des autres ou encore oblique lorsque les facteurs peuvent être corrélés entre eux.

La figure suivante, inspirée de Hair et al. (1998), permet de mieux comprendre la procédure de rotation orthogonale à partir d’une solution hypothétique à deux facteurs.

Le but ultime de la rotation est toujours de simplifier la lecture des poids des variables sur les facteurs.  Dans la matrice de poids, ceci signifie que dans chaque rangée, on trouve un maximum de poids près de 0 et un minimum de poids très élevés (idéalement un seul).

Dans la pratique, on utilise très régulièrement la méthode de rotation orthogonale VARIMAX. Cette méthode est privilégiée, entre autres, lorsque l’on désire réduire le nombre de variables d’une matrice de données en un plus petit nombre de facteurs non corrélés entre eux et utilisés, par exemple, dans le cadre d’une régression multiple. 

Par ailleurs, si le but est d’obtenir des facteurs représentant un construit théoriquement sensé, la rotation oblique est suggérée, car il est difficile de postuler l’orthogonalité (corrélation = 0) entre des facteurs d’un même construit.

Ultimement, on suggère de procéder à plusieurs types de rotation pour une même factorisation et de sélectionner celle qui semble la plus intéressante à interpréter et la plus robuste au plan conceptuel.

3) Identification du poids le plus élevé pour chaque variable

La prochaine étape est de prendre chaque variable (ou item) en commençant par la première et d’identifier sur la ligne le poids le plus élevé (en valeur absolue). Pour des échantillons de moins de 100 individus, on estime que la valeur absolue de 0,30 est le poids minimum qu’une variable peut avoir pour être considérée significative.

Cependant, il arrive fréquemment que d’autres poids sont significatifs (plus de 0,30) sur une même ligne. Ceci complexifie le travail du chercheur qui doit considérer ces poids dans son interprétation. L’idéal est toujours de minimiser le nombre de poids significatifs par variable. Une variable qui a des poids significatifs sur plusieurs facteurs mérite probablement d’être exclue de la matrice. Ceci implique que l’analyse en composantes principales devra être exécutée de nouveau sans ces variables.

4) Étiqueter les facteurs

Une fois que les poids ont été bien identifiés dans la matrice, la structure des facteurs est établie à partir des variables qui ont un poids significatif à l’intérieur de la colonne de chacun de ceux-ci.  À l’aide du questionnaire et du libellé exact des items, on doit regarder les variables associées et tenter de nommer le construit latent mesuré par le facteur.

Le but ultime de l’ACP est de construire des échelles qui permettront de mesurer des construits latents. Ces échelles sont obtenues en additionnant les résultats des participants à toutes les variables qui constituent chaque facteur. Une échelle doit être comprendre au minimum trois variables.