Cours : Fidélité d'un test ou d'une épreuve



La fidélité est une propriété générale de tout test, échelle, épreuve, renvoyant au degré avec lequel une mesure est entachée d'erreur. Tout instrument de mesure induit des erreurs dans la mesure, ce qui ne signifie pas pour autant que cet instrument ne soit pas fiable. Mais il est illusoire de considérer un instrument comme parfait, aussi parle-t-on de fidélité pour refléter la proximité de la mesure avec la valeur réelle que l'on mesure.

Fidélité d'un test et erreurs de mesure

Il s'agit d'une propriété beaucoup plus complexe que la sensibilité d'un test, car elle renvoie à plusieurs sens. Le concept de fidélité est étroitement lié à l'idée de mesure. Or, depuis Heisenberg et son principe d'indétermination (incertitude), toutes les sciences ont conscience du fait qu'aucun instrument de mesure ne sera jamais parfait, aucune mesure ne reflètera parfaitement la réalité. Néanmoins, il est possible de s'en approcher, par exemple, en multipliant les mesures, en affinant l'instrument...

La fidélité d'un test renvoie ainsi au degré avec lequel une mesure est obtenue avec peu d'erreur. Il y a dans cette idée, la notion de stabilité dans le temps (une mesure - indépendante du temps - réalisée à un moment donné doit fournir la même valeur à un autre moment pour lequel les mêmes conditions sont réunies), la notion de précision (une mesure doit être suffisamment précise pour déterminer la valeur sans trop d'erreur), la notion de discrimination (ou plus généralement, de sensibilité).

Par exemple, quand on construit un test d'intelligence, on teste le sujet sur une dimension psychologique réelle qui est la sienne. Le score d'intelligence va refléter cette dimension, mais il est inévitable qu'il y ait une part d'erreur : testé à un moment ou un autre, le sujet peut être plus ou moins concentré, réceptif, distrait, malade... En plus de ces facteurs aléatoires, il se trouve toujours, également, des erreurs liées à l'instrument de mesure : un test d'intelligence ne mesure pas exactement l'intelligence, mais un score à des items que l'on pense, refléter l'intelligence. Il y a ainsi toujours une part d'erreur, liée ne serait-ce qu'à l'instrument de mesure. On distingue donc ces deux grands types d'erreurs :

Les erreurs aléatoires, spontanées, réalisées à un moment donné

Lors de la passation d'un test psychologique (mais c'est également valable pour tout type de mesure), les conditions de passation sont particulières au moment de la mesure. Le sujet est dans un état psychologique donné, et son état va entraîner une certaine part d'erreur, que l'on nomme erreurs aléatoires, lesquelles sont dues en partie aux variations de l'état du sujet. Les conditions de passation entrent en jeu dans la mesure réalisée. On dit de ces erreurs aléatoires qu'elles sont relatives au moment de l'observation (passation). On parle donc de fidélité relative au moment de l'observation, pour désigner la capacité d'un test (ou plus généralement, d'un instrument de mesure) à donner des mesures stables malgré les variations inhérente à l'objet mesuré (en psychométrie, l'esprit humain). Un test ou un item fidèle est donc un test qui donne des résultats stables et constant, dans le temps ou selon les variation d'état psychologique du sujet.

Les erreurs systématiques 

Les erreurs systématique, comme leur nom l'indique, vont se produire à chaque fois qu'on utilise le test, et se manifestent avec la même amplitude. Elles sont liées à la nature du test (le choix des items, la nature de ceux-ci, leurs capacités inhérentes à discriminer, mesurer correctement un aspect...). Le choix d'items représentatifs et censés mesurer ce que l'on veut mesurer, s'accompagne inévitablement d'imprécisions. Il faut toujours vérifier que ceux-ci ne sont pas particulièrement spécifiques, et qu'ils sont cohérent entre eux : deux items qui mesure deux aspects totalement indépendants n'apportent en définitive, dans leur ensemble, aucune conclusion pouvant être tiré de la somme des réponses. Ils n'ont donc aucun intérêt a être présents dans un même test. Même dans le cas où ces items sont proches, il reste une part de proximité et une part d'éloignement. Deux items fidèles entre eux, ne peuvent être qu'exactement pareils, ce qui n'a aucun intérêt (un seul suffit). Néanmoins, les items, différent entre eux, doivent respecter une certaine homogénéité (la variation de deux sujet sur un item doit se retrouver en partie sur un autre). On parle d'erreur systématique relative au choix des items pour désigner cette part de non-cohérence. On va parler d'homogénéité interne pour désigner la qualité de fidélité des items entre eux.

Composantes de la fidélité générale d'un test

Quels sont les moyens dont on dispose pour tester la fidélité d'un test, d'une épreuve, d'une échelle, bref, d'un instrument de mesure?

Fidélité relative au moment de l'expérience

Pour rapprocher la valeur mesurée de la vrai valeur de la dimension mesurée, on réalise habituellement un grand nombre de mesures, dont on fait la moyenne. Néanmoins, dans le cas d'un tests psychologique, cette méthodologie est très contraignante : un sujet qui passe de nombreuses fois une même épreuve se lassent, se déconcentre, s'habitue à l'épreuve. On utilise donc cette méthodologie de façon limitée.

Mais on peut contourner le problème, dans le cas de la construction d'un test, en effectuant plusieurs mesures sur un même groupe de personnes différentes (échantillon représentatif) à des moments différents. Cette méthode, nommée test-retest, permet d'apprécier la part d'erreur aléatoire : si un test est fidèle et peu sensible aux erreurs aléatoires, on obtiendra une forte corrélation entre les résultats du tests et celui du re-test.

Pour calculer un indice de la stabilité (concernant la fidélité pour une mesure individuelle), on utilise le coefficient de Bravais-Pearson. Celui-ci donne une estimation du degré de liaison linéaire entre deux variables numériques recueillie sur un échantillon (les deux variables étant, dans ce cas, les deux scores du test et du re-test).  Ce coefficient, noté r, servira de coefficient de stabilité (du score individuel aux deux tests) va pouvoir se calculer lorsque les deux variables numériques seront recueillies sur un échantillon S. Il est généralement normalisé et compris entre -1 et 1.

Ce coefficient possède donc 2 caractéristiques : l'amplitude (forte - c'est-à-dire, éloignée de 0 - ou faible - proche de 0) et le sens de corrélation (positif "+" ou négatif "-"). Le coefficient de Bravais-Pearson peut se présenter sous 3 formes :
  • Lorsque la corrélation est forte et positive, r est proche de 1 : sur le diagramme de corrélation (nuages de points), cela se traduit par une droite de pente 1. Plus le coefficient tend vers 1, plus on aura la forme d'une droite. Les sujets s'ordonnent de la même façon dans les deux expériences (par exemple, corrélation Taille/Poids). Cela signifie une bonne fidélité relative aux erreurs aléatoires.
  • Lorsque la corrélation est forte est négative : il y a inversion stricte des ordres (par exemple, stress et vacances). Le coefficient r est proche de -1 (cas inverse de celui ci-dessus). Cela signifie également qu'il existe une forte corrélation, et donc, que la fidélité est bonne. Cela signifie également que les deux items considérés mesurent deux aspects opposés. Dans le cas d'une méthodologie test-retest, (puisque les deux tests ou items considérés sont censés être les mêmes!), une corrélation forte-négative signerait davantage une erreur de calcul (inversion quelque part) de celui qui construit le test!
  • Lorsque la corrélation est faible : dans ce cas, on ne peut pas faire de prédictions de variables ; une corrélation faible nous indique qu'il n y a pas de relations linéaires entre les deux variables, et donc, que le score à un test ou un item dépend de tout autre chose que de ce qu'il est censé mesurer, ou que trop de variables que l'on n'a pas pris en compte, interviennent. Par exemple, un test de lecture passé sans lumière le jour (test) et la nuit (re-test) signifie qu'une variable nous échappe (ici, la luminosité, nécessaire pour lire!)
On estime que la fidélité relative au moment de l'expérience, est bonne si r est supérieur à 0.70.

Fidélité relative au choix des items

Il s'agit cette fois de vérifier, non la stabilité entre deux mesures d'un individu, mais la cohérence des items entre eux. On vérifie donc que le choix des items n'a pas entraîné de biais dans les mesures, notamment, à l'aide de ces deux principales techniques :
  • Technique des formes parallèles : lors de l'élaboration de l'épreuve, il faut avoir construit deux formes, différentes au niveau des items qui les composent, mais suivant la même logique et à partir de la même définition (items miroirs : des items semblables deux-à-deux). On fait ensuite passer les deux formes du test aux sujets, pour vérifier que les différences individuelles sont reproduites sur ces deux formes (si un sujet répond positivement à un item, il est cohérent qu'il réponde positivement à un item semblable). Le coefficient d'homogénéité (corrélation) type Bravais-Pearson, nous permet de vérifier si les sujets s'organisent dans le même ordre pour le test et son test miroir. Il est cependant difficile de construire deux formes parallèles, à utiliser, c'est en outre complexe et coûteux. Qui plus est, il y a deux conditions de passations puisqu'il y a deux épreuves. Le coefficient peut donc être fortement biaisé.
  • Méthode Split-half : c'est une technique consistant à "découper" le test en deux groupes d'items (par exemple, si le test donne une note sur 40, on créé deux groupes qui seront notés sur 20, par exemple avec une méthode pair-impair.), le coefficient d'homogénéité sera interne au test, et sur un même échantillon de personnes. Le problème de cette méthode tient au fait que l'on peut se demander si, en découpant l'échantillon, on a réellement crée des groupes représentatifs, en vérifiant une moitié de l'épreuve par rapport à l'autre. Pour aider la vérification, on peut utiliser le coefficient Alpha de Cronbach (par ordinateur), qui donnera la corrélation moyenne de toutes les corrélations possibles entre chaque items et chaque somme d'items.
Fidélité inter-correcteur

Il s'agit d'estimer la part d'erreur de mesure due à la cotation, la part de subjectivité laissée au correcteur. Pour cela, on fait corriger (et interpréter éventuellement) par plusieurs correcteurs la même épreuve, selon des résultats identiques obtenus à partir d'un même échantillon. On vérifie la concordance de jugement entre ces résultats avec le coefficient de corrélation.

Méthodes d'amélioration de la fidélité

Améliorer la fidélité d'une épreuve peut prendre beaucoup de temps. Pour élever la fidélité, on peut :
- améliorer la standardisation de l'épreuve
- améliorer les critères de cotation
- faire diminuer les erreurs aléatoires en contrôlant un maximum de variables
- écarter les items atypiques
- améliorer l'échantillonnage des items
- augmenter le nombre des items.