Procédure SPSS

1.      Pour réaliser une régression, choisissez Analyse, puis Régression et Linéaire.

2.    En cliquant sur la flèche vous pouvez insérer la variable dépendante dans la boite Dépendant et la ou les variables indépendantes dans leur boite. Puisque vous réalisez une régression simple, vous n’en placez qu’une.

3.     Vous laissez également la méthode d’analyse par défaut, c’est-à-dire le modèle Entrée qui utilise toutes les variables choisies pour prédire la variable dépendante. Vous verrez les autres modèles plus en détails si vous suivez un cours de statistiques avancées.

4.    Vous pouvez choisir une variable de filtrage pour limiter l’analyse à un sous-échantillon formé par les participants ayant obtenu une ou des valeur(s) particulière(s) à cette même variable.

5.     Vous pouvez aussi spécifier une variable qui permettra d’identifier les points sur le graphique (Étiquettes d’observation).

6.     Enfin, vous pouvez choisir une variable numérique pondérée (Poids WLS) pour effectuer l’analyse des moindres carrés. Par cette analyse, les valeurs sont pondérées en fonction de leurs variances réciproques, ce qui implique que les observations avec de larges variances ont un impact moins important sur l’analyse que les observations associées à de petites variances.

7.      Pour procéder à l’analyse, cliquez sur OK.

Le bouton STATISTIQUES

Dans la régression linéaire simple, vous pouvez conserver les statistiques par défaut fournies par SPSS.

D’abord, vous obtiendrez les estimations des coefficients de régression qui permettent de reconstituer l’équation de la droite de régression.

Vous obtiendrez également un tableau basé sur la distribution F vous informant de la qualité  de l’ajustement du modèle.

Les autres options fournies par le bouton STATISTIQUES sont les suivantes :

  • Intervalles de confiance : cette option indique les intervalles de confiance pour les coefficients de régression.
  • Matrice de covariance : cette option affiche une matrice de covariance, les coefficients de corrélation et les variances entre les coefficients de régression et les variables du modèle.
  • Variation de R-deux : cette option indique les changements du R2 lorsque l’on ajoute un (ou un ensemble de) prédicteurs. Cette mesure est très utile dans la régression multiple pour voir la contribution des nouveaux prédicteurs à la variance expliquée.
  • Caractéristiques : cette option affiche non seulement un tableau qui inclut le nombre d’observations, la moyenne et l’écart-type de chaque variable, mais aussi une matrice de corrélation entre les variables inclues dans le modèle.
  • Mesure et corrélations partielles : cette mesure effectue une corrélation de Pearson entre la variable dépendante et la variable indépendante. Elle effectue une deuxième corrélation en contrôlant l’effet des autres variables indépendantes (dans la régression multiple). Finalement, toujours pour la régression multiple, elle réalise une corrélation partielle entre la variable indépendante et la variable dépendante. Cette corrélation est basée sur la variance qui n’est pas expliquée par les autres variables indépendantes. 
  • Tests de colinéarité : la régression multiple est basée sur la prémisse d’absence de multicolinéarité entre les variables indépendantes (ces variables ne doivent pas être fortement corrélées entre elles). Cette mesure vérifie donc cette prémisse.
  • Durbin-Watson : la régression multiple exige aussi l’indépendance des résiduels. Cette option permet de vérifier cette prémisse. Toutefois, SPSS ne fournit pas le degré de signification du test. Le chercheur doit donc décider si le résultat est suffisamment différent de deux pour dire qu’il ne respecte pas la prémisse.
  • Diagnostic des observations : cette option liste les valeurs observées de la variable dépendante, les valeurs prédites, la différence et la différence standardisée entre ces deux valeurs (les résiduels). Les valeurs peuvent être présentées pour toutes les observations ou pour les points atypiques (par défaut, les observations qui se situent à plus de trois écart-types standardisés de la moyenne. On recommande de baisser ce seuil à deux, puisque généralement, les valeurs extrêmes se situent à deux écart-types et plus). Finalement, un tableau synthèse indique les valeurs minimales, maximales, la moyenne et l’écart-type des valeurs observées et des résiduels.

Cliquez sur POURSUIBRE pour revenir à la boite de dialogue principale.

Le bouton TRACÉS

Ce bouton vous permet de réaliser plusieurs graphiques qui peuvent vous aider à vérifier certaines prémisses de la régression.

Les variables dans la boite de gauche se définissent comme suit :

  • DEPENDNT : variable dépendante
  • *ZPRED : valeur prédite standardisée de la variable dépendante basée sur le modèle.
  • *ZRESID : résiduel standardisé (différence standardisée entre les valeurs observées et les valeurs prédites par le modèle).
  • *DRESID : résiduels supprimés (différence entre la valeur prédite ajustée et la valeur observée).
  • *ADJPRED : valeurs prédites ajustées (valeur prédite pour un cas lorsque ce cas est retiré du modèle).
  • *SRESID : résiduel studentisé (résiduel non standardisé divisé par un estimé de son écart-type qui varie point par point).
  • *SDRESID : résiduel supprimé studentisé (résiduel supprimé divisé par son erreur standard).

Vous insérez donc les variables pour lesquelles vous voulez produire un graphique dans les boites X et Y. Vous pouvez réaliser plus d’un graphique en appuyant sur le bouton SUIVANT. Vous devez à ce moment introduire une variable dans les boites X et Y.

Si vous cochez l’option Générer tous les graphiques partiels, vous obtiendrez les graphiques pour les résiduels ou les observations de la variable dépendante en fonction de chaque variable indépendante (bien entendu, cette option est plus pertinente pour la régression multiple).

Vous pouvez également obtenir l’Histogramme des résiduels standardisés et le Diagramme de répartition gaussien. Ces deux graphiques sont très utiles pour vérifier la prémisse de distribution normale des résiduels de la régression multiple.

Cliquez sur POURSUIVRE pour revenir à la boite de dialogue principale.

Le bouton ENREGISTRER

Il est possible de sauvegarder les valeurs calculées par le modèle de régression et d’en faire de nouvelles variables dans la base de données. Les options concernant les valeurs prédites et les résiduels ont été définis dans la section précédente.

L’encadré des distances offre trois tests qui permettent d’identifier les observations qui influencent fortement le modèle :

  • Distance de Mahalanobis : mesure la distance entre une observation et la moyenne des valeurs prédites. Le point de coupure indiquant une distance problématique dépend du nombre de prédicteurs et de la taille de l’échantillon. Il faut donc se référer à la table de Barnett et Lewis (1978).
  • Distance de Cook : statistique qui considère l’effet d’un cas sur l’ensemble du modèle. Les valeurs plus élevées que 1 doivent retenir l’attention du chercheur.
  • Valeurs influentes : mesure de l’influence de la valeur observée de la variable dépendante sur les valeurs prédites. Cette valeur se calcule par le nombre de prédicteurs (k) + 1 divisé par le nombre de d’observations (N) et se situe entre 0 (aucune influence de l’observation sur la valeur prédite) et 1 (influence complète de l’observation sur la valeur prédite).

L’encadré des Intervalles de la prédiction permet de sauvegarder les valeurs minimales et maximales prédites pour l’ensemble du modèle (Moyenne) et ces mêmes valeurs pour chaque observation (Individuelle). L’intervalle de confiance est fixé à 95 %.

L’encadré des Statistiques d’influence permet d’obtenir :

  • DfBeta(s) : variation de la variable beta du coefficient de régression qui résulte de l’exclusion d’une observation. Une valeur est calculée pour chaque terme du modèle, incluant la constante.
  • DfBeta(s) standardisés : variation de la variable beta standardisée.
  • Différence de prévision : différence du degré d’ajustement du modèle qui représente le changement de la valeur prédite qui résulte du retrait d’une observation particulière.
  • Dfprévision standardisée  : différence du degré d’ajustement du modèle standardisée.
  • Rapport de covariance : rapport entre le déterminant de la matrice de covariance lorsqu’une observation est exclue du calcul du coefficient de régression et  le déterminant de la matrice de covariance lorsque toutes les observations sont inclues. Si le ratio est près de 1, l’observation n’influence pas significativement la matrice de covariance.

L’encadré Satistiques à coefficients : vous pouvez Créer des statistiques à coefficient  et les enregistrer comme un nouvel ensemble de données. Cet ensemble sera disponible pour une utilisation ultérieure durant la même session, mais pas pour la session suivante à moins que vous ne les sauvegardiez par vous-mêmes. Vous pouvez également écrire un nouveau fichier de données.

L’encadré Exporter les informations du modèle dans un fichier XML : vous pouvez exporter les paramètres estimés du modèle et leur matrice de covariance dans un fichier spécifique. Vous pourrez utiliser les informations associées à ce modèle pour une autre base de données à partir des logiciels SmartScore et SPSS Server

Cliquez sur POURSUIVRE pour revenir à la boite de dialogue principale.

Le bouton OPTIONS

La dernière boite de dialogue vous offre quelques autres options.

Le premier encadré concerne la régression multiple pas à pas (Paramètres des méthodes progressives). Vous pouvez Choisir la probabilité de F pour l’Entrée des variables dans le modèle. Idéalement, vous conserver le choix par défaut (seuil de 0,05), mais vous pouvez également rendre votre modèle plus sévère et fixer ce seuil à 0,01. Vous pouvez aussi modifier la valeur de Suppression, comme vous pouvez Choisir la valeur de F pour l’Entrée et la Suppression. Dans ce cas, il vous faudrait la modifier en fonction du nombre de variables introduites dans le modèle à partir d’une distribution F. C’est donc plus simple de se baser sur la probabilité de F qui demeure la même peu importe le nombre de variables.

Vous pouvez Inclure le terme constant dans l’équation (ordonnée à l’origine) ou non. Le retrait de la constante n’est pas vraiment conseillé.

Enfin, vous choisissez ce que vous désirez faire avec les valeurs manquantes. Vous pouvez conserver l’option par défaut et Exclure toute observation incomplète de la régression ou Exclure seulement les composantes non valides. Dans ce cas, vous feriez l’analyse pour les observations qui ont des données complètes pour les paires de variables corrélées (une variable indépendante et une variable dépendante)Puisque seulement deux variables sont mises en relation dans la régression simple, ça ne fait aucune différence. Enfin, vous pouvez également Remplacer par la moyenne les valeurs manquantes. Ce n’est pas nécessairement le meilleur choix, puisque rien ne prouve que les valeurs manquantes se situeraient en réalité près de la moyenne. Idéalement, vous conservez l’option par défaut.

Cliquez sur POURSUIVRE pour revenir à la boite de dialogue principale.