RAPPEL THÉORIQUE
Cette section prend la base MARATHON.SAV comme source de données dans les illustrations des techniques d’analyses. Cette base contient les temps des 28 674 participants et participantes du marathon de Chicago couru en 2001.
La commande Explorer donne accès à des statistiques descriptives additionnelles ainsi qu’à des graphiques qui aident à mieux comprendre les données.
Que doit-on examiner dans une distribution ?
1. Les valeurs extrêmes à gauche ou à droite de la courbe de distribution : elles peuvent être des erreurs de cotation ou d’entrée de données qu’il faut corriger ou exclure de l’analyse.
2. La symétrie de la distribution : on dispose des indices d’asymétrie (skewness) et d’aplatissement (kurtosis) fournies par le tableau Explorer. Nous verrons ces paramètres dans quelques lignes.
3. Les pics du graphique : la présence de deux pics (deux bosses) suggère l’influence d’une autre variable, comme le sexe (un pic pour les femmes et un autre pour les hommes). Si c’est le cas, on devrait procéder à la sortie de statistiques descriptives séparées selon le sexe.
Moyenne tronquée 5 % : Moyenne calculée en enlevant 5 % de chaque côté de la
distribution, c’est-à-dire que la moyenne est calculée sur la base des valeurs comprises entre les 5 % plus basses et les 5 % plus élevées. Ceci permet d’enlever les valeurs extrêmes du calcul de la moyenne, ce qui la rend plus précise, car moins exposée aux erreurs. C’est l’alternative à la médiane s’il y a beaucoup de valeurs extrêmes.
Médiane : Valeur milieu de la distribution. Le problème avec la médiane, c’est qu’elle ignore beaucoup d’informations. Par exemple, dans cette série de cinq chiffres : 28, 29, 30, 31 et 32, 30 est la valeur médiane. Pour ces cinq autres chiffres: 28, 29, 30, 90 et 125, 30 est également la valeur médiane. Donc, la médiane ignore tout des écarts entre les valeurs d’une distribution. Pour cette raison, la moyenne lui est souvent préférée.
Plage interquartile : Distance entre le 25e et le 75e percentile. C’est donc l’intervalle dans lequel on trouve 50 % des sujets de la distribution (25 % au-dessus de la médiane et 25 % sous la médiane). Cette statistique est donc moins affectée par les valeurs extrêmes. L’étendue (la plage) est toujours affectée par les valeurs extrêmes.
Asymétrie : Indice de symétrie (position du pic de distribution) variant au-dessus et au-dessous de zéro. Plus la valeur positive de l’indice est élevée, plus le pic est déplacé vers les valeurs basses (symétrie positive, voir Section B dans la figure suivante). Plus la valeur négative de l’indice est élevée, plus le pic est déplacé vers les valeurs élevées (symétrie négative, voir Section A). Une symétrie parfaite équivaut à un indice de 0.
Aplatissement (kurtosis) : Indice d’aplatissement de la distribution. Comparativement à la distribution normale (Section C), un indice positif élevé indique que la distribution est en pic prononcé (Section E) tandis qu’un indice négatif indique un aplatissement prononcé (Section D). Plus la valeur tend vers 0, plus la distribution tend vers la normalité.
Les valeurs extrêmes : La présence de valeurs extrêmes doit interpeller le chercheur. En effet, nous avons vu que ces valeurs peuvent être des erreurs de mesure ou bien des erreurs de saisie de données. Peu importe, il est essentiel d’examiner la nature des valeurs extrêmes pour détecter les erreurs systématiques de mesure ou d’entrée des données.