Pour certaines analyses, il peut être nécessaire de filtrer une partie des observations (cas) pour obtenir des résultats auprès d’un sous-groupe spécifique d’observations.
En choisissant l’option « Sélectionner des observations » dans le menu DONNÉES, il est possible de sélectionner des observations à l’aide de différents critères, soit par la boite de dialogue. La sélection d’observations peut aussi se faire à partir d’une commande SYNTAXE. À noter que les cas sélectionnés peuvent être filtrés (temporairement) ou supprimés (de manière permanente) du fichier de données actif.
Les conditions de sélection peuvent être uniques ou multiples. Dans le cas d’une seule condition, on inscrit la variable de sélection avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=, >=, <>).
Toutes les conditions multiples doivent utiliser les opérateurs logiques (AND et OR) pour séparer les conditions.
1. Pour faire une sélection de cas de manière interactive, allez dans le menu Données, puis cliquez sur Sélectionnez des observations.
2. Dans la première boite de dialogue, vous devez déterminer la stratégie de sélection que vous allez utiliser. Vous avez plusieurs choix, mais le plus populaire est sans contredit Selon une condition logique. Dans ce cas, la sélection se fait à partir de la condition que vous énoncez. Nous allons donc voir cette stratégie en premier et préciser les autres par la suite.
3. Vous cliquez donc sur le bouton SI… . Une nouvelle boite de dialogue apparaît. Vous devez préciser les conditions de sélection dans la boite supérieure droite. Vous transférez le nom des variables à l’aide de la flèche après les avoir mises en surbrillance dans la boite de gauche.
Vous pouvez taper les conditions arithmétiques et les nombres à partir du clavier ou en cliquant sur les boutons appropriés à l’aide de la souris. Vous aurez compris que les opérateurs logiques doivent être entrés manuellement.
Exemple : pour choisir les hommes de plus de 30 ans, on entrerait dans la boite
- Sexe = 1 AND age > 30
- L’opérateur AND implique que les conditions unies par cet opérateur doivent toutes être remplies pour que l’expression globale soit « vraie » et que le sujet soit choisi.
- L’opérateur OR indique qu’au moins une des conditions unies par cet opérateur doit être remplie pour que l’expression globale soit « vraie » et que le sujet soit choisi.
Si vous préférez taper la commande manuellement, vous devriez créer la syntaxe suivante :
4. Quand votre condition est entrée, cliquez sur OK pour revenir à la première boite de dialogue. Vous pourrez alors remarquer que la condition que vous venez d’énoncer est indiquée à côté du bouton SI… .
5. Dans le deuxième encadré (Résultats), vous choisissez ce qui se passera avec les cas qui ne sont pas retenus par la sélection. Vous pouvez les filtrer temporairement (Filtrer les observations non sélectionnées), ou les éliminer de manière permanente (Supprimer les observations non sélectionnées). Si ces deux possibilités ne vous conviennent pas, vous pouvez également copier les observations retenues dans un nouveau fichier (Copier les observations sélectionnées dans un nouvel ensemble de données). À ce moment, vous devez préciser le nom du nouveau fichier de données. Dans le cas présent, nous conservons l’option par défaut, c’est-à-dire le filtre.
6. Cliquez sur OK pour réaliser votre sélection de cas.
Les conditions de sélection peuvent être très complexes. Cette complexité dépend des caractéristiques des sujets que nous voulons filtrer. Voici quelques exemples de conditions de sélection qui seraient écrites dans la boite de commande.
On pourrait désirer isoler seulement quelques sujets dont on connait les numéros :
(identif = 1) or (identif = 3) or (identif = 8)
Ce qui donnerait :
Êtes-vous capable d’exprimer en mots la condition de sélection suivante ?
Alors vous diriez… que nous voulons isoler les variables qui n’ont aucune valeur manquante pour les six questions de satisfaction !!
Les autres stratégies de sélection
Dans la boite de dialogue Sélection de cas, vous avez bien sûr la stratégie Si que nous venons de voir, mais aussi d’autres choix. Voici une brève description pour chacun.
- Toutes les observations : vous ne faites pas de sélection, vous utilisez toutes les observations. Très utile quand vous voulez revenir à la base initiale et annuler une condition préalablement établie.
- Par échantillonnage aléatoire : sélection d’observations aléatoire. Vous choisissez à ce moment combien de cas vous voulez dans votre échantillon, soit en pourcentage (Environ _ % de toutes les observations), soit en précisant un nombre d’observations parmi les X premiers (Exactement _ observations à partir des premières _ Observations).
- Dans un intervalle de temps ou d’observations : la sélection se fait parmi un intervalle. Vous pouvez par exemple vouloir que les cas sélectionnés se situent seulement entre le 2e et le 6e cas.
- Utiliser une variable de filtre : enfin, vous pouvez faire une sélection en ne conservant que les cas qui ont des valeurs valides pour une variable filtre. Vous n’avez qu’à transférer la variable filtre dans la boite prévue à cet effet.