Cours : Standardisation et étalonnage d'un test en psychométrie



Chaque test, qu'il mesure ou non des dimensions psychologiques, présente des propriétés nécessaires, générales, que sont sa validité, sa fidélité, sa sensibilité. Outre celles-ci, la majorité des tests psychologiques présente également deux propriétés spécifiques : la standardisation et l'étalonnage dont les buts sont, respectivement, de contrôler la situation de passation et les variables parasites, et d'interpréter correctement les résultats individuels par rapport à une population de référence.

Standardisation d'un test

Standardiser un test revient à le transformer en procédure systématique et relativement immuable, cette opération visant à contrôler de la situation dans laquelle un individu va passer le test. La standardisation permet de recréer un environnement de passation toujours identique à celui utilisé pour l'étalonnage (voir chapitre suivant), à faire en sorte que les conditions de départ du test soit les mêmes pour tous et en tout temps. La standardisation permet donc d'écarter les variations parasites qui pourraient modifier les résultats du test et fausser mesures et interprétations de celles-ci. Un test standardisé implique que les éventuelles variations observées, ne sont dues qu'au sujet seulement. Trois des aspects d'un test aident à la standardisation, et sont soumis à elle :
  • Des consignes identiques sont données à tous les sujets : ceux-ci doivent obtenir exactement les mêmes informations, et commencer le test dans des conditions identiques, à chaque passation. Le contrôle de cet aspect permet par exemple d'éviter qu'un sujet ne commence le test sans savoir ce qu'il lui faudra faire (excepté si la consigne dit le contraire!), ou dans des conditions de réalisation gênantes. Outre les consignes, certaines règles sont généralement admises et respectées, concernant la passation de tous les tests : sauf mention contraire dans la consigne, le test doit se passer en l'absence de distracteurs potentiels (environnement sonore bruyant, place animée, condition psychologique adéquate). Sans forcément qu'elles soient optimales, toutes les conditions doivent être réunies pour que le sujet puisse passer le test sans être distrait ou contraint.
  • Le matériel est le même et est présenté dans le même ordre. Cet aspect est également considéré comme faisant partie des conditions de passation, qui doivent être identiques pour tous. Le matériel nécessaire est nécessairement fourni avec les tests. Si ce matériel est abîmé, il est important de le changer, en se procurant exactement le même : inutile de tenter de reconstruire soi-même un matériel défectueux, sauf si vous êtes capables de réaliser exactement le même. Mieux vaut le remplacer en vous adressant à l'organisme distribuant le test. Le contrôle de cet aspect, comme dans le cas des consignes, permet d'éviter des variables parasites susceptible d'entraver le bon déroulement de l'expérience et les résultats au test (par exemple, un test fictif d'empilement de légos ne pourra se réaliser si l'un des légos est détérioré...)
  • La cotation (calcul de score et procédure permettant de le calculer). Cotation et parfois interprétation des tests sont déterminées par les psychologues cognitivistes (ou différentialistes) afin de garantir un résultat inchangé, d'un examinateur à l'autre. En théorie, il n'y a pas de place pour l'interprétation au moment de la mesure. Seuls les résultats peuvent être interprétés, mais pas l'obtention et le calcul de ceux-ci. La WISC, par exemple, dans son test de vocabulaire, donne des critères pour garantir l'objectivité des définitions (le score peut être 0, 1 ou 2, décrivant chaque cas possible). Le score ne dépend donc pas de l'évaluateur. Le contrôle de cet aspect permet d'enlever la subjectivité de l'examinateur dans le calcul du score.
Tous ces contrôles permettent également de garantir de conditions similaires de passation, pour chaque sujet, par rapport aux autres (et surtout par rapport à la population de référence à laquelle il va être comparé!), mais également pour un même sujet qui passe plusieurs fois le test (suivre l'évolution d'une pathologie ou les bénéfices d'une rééducation, le développement des performances, etc... n'a aucun sens si on ne mesure pas dans des conditions semblables : comment pourrait-on conclure qu'une variation provient de la thérapie, de l'éducation, de la rééducation, ou d'une variable non contrôlée?).

Cela étant dit, si la passation d'un test nécessite de contrôler la situation et l'évaluation, il ne faut pas non plus tomber dans l'excès et considérer des variables qui n'ont à l'évidence (quoiqu'il faille se méfier de l'évidence!) qu'un effet limité ou inexistant : passer un test d'anxiété type crayon-papier à une température de 25°C ou 26°C ne fera pas ou extrêmement peu de différence. En fait, on contrôle les aspects (variables) les plus importants.

Étalonnage d'un test

Procédure d'étalonnage

L'étalonnage est la procédure qui va être utilisée pour permettre qu'un score soit interprétable. Par aus de langage, l'étalonnage désigne aussi le résultat de cette technique. C'est le psychologue différentialiste qui impose cette procédure, lorsqu'il construit le test : les utilisateurs se serviront par la suite des résultats. L'étalonnage permet d'obtenir des notes standards (des notes obtenues par beaucoup de sujets) que l'on ordonne et classe. Grâce à ce processus, on obtient un tableau de correspondance, entre la note au test et la dimension psychologique observée. Ainsi, le test passé ensuite par un sujet donne une note que l'on pourra comparer au groupe de référence. L'individu sera donc classé (on saura combien de sujets ont un score inférieur au sien, et inversement).
Par exemple, si on établit un test avec 40 items (0 ou 1 point chacun) : le score brut à une amplitude de 0 à 40. Comment interpréter une note de 32 ?comment étalonnera-t-on le test ?

1. Phase d'échantillonnage : l'expérimentateur fait passer le test à un échantillon représentatif de la population. Pour établir un échantillon représentatif, plusieurs méthodes peuvent être prise, en voici les deux exemples les plus courants :
- Méthode des quotas : on part du principe que plus le nombre de sujet est grand, plus l'étalonnage sera représentatif. On se donne une liste de critères qui définissent la population, puis on cherche la proportion de chaque critère dans la population globale. On reproduit alors ces proportions dans l'échantillon, qui devient alors représentatif. Le problème principal est que cet échantillon est représentatif seulement pour les critères choisis. Or on peut avoir manqué des critères importants qui interfèrent avec les résultats du test (variable non contrôlée).
- Méthode de l'échantillonnage aléatoire. Elle part du principe qu'en prenant au hasard suffisamment de personnes dans la population, on va en reproduire les proportions à petite échelle. L'échantillonnage aléatoire se base sur les loi de probabilité et de statistique générale permettant de définir un seuil d'échantillon au delà duquel il est raisonnable (avec un intervalle d'erreur possible) de penser qu'on a assez de personnes pour représenter la population globale (ou la population du groupe concerné)
On préfère généralement la méthode des quotas, surtout si la base théorique du test est puissante et que l'on est à peu près sûr de connaître les variables personnelles importantes susceptible d'influer sur les résultats. Pour les populations-cibles, par exemple, pour les tests-enfants, on va constituer plusieurs échantillons (4 ans, 5ans, 6 ans,…).

2. Passation du test : on constitue une distribution de référence (histogramme) donnant les résultats aux tests et sub-tests (ou aux items), représentant la collecte de résultats de l'échantillon représentatif.

3. Construction de l'étalonnage : on va découper la distribution en plusieurs "classes" (par exemple, 5 catégories) selon des critères adéquats. Les scores bruts obtenus dans une même classe sont considérés comme équivalents (il y a alors perte de finesse discriminatoire, mais on pourra connaître les proportions de chaque classe). On va faire correspondre les scores bruts à des n° de classe, et l'on va définir les proportions et les limites de ces classes.
Quantilage et étalonnage en échelles normalisées
La principale caractéristique des quantilages est la proportion identique de sujets dans chaque classe. Il s'agit de définir la taille d'intervalles des scores pour lesquels le même nombre de personnes a un score dans cet intervalle que dans les autres. Il existe plusieurs type de quantilages selon le nombre de classes choisi.

- Quartilage : 4 classes (= 4 interquartiles) de 25% des effectifs totaux. On définit 3 quartiles (limites)
- Quintilage : 5 interquintiles de 20% des effectifs et 4 quintiles
- Décilage : 10 interdéciles de 10%
- Centilage : 100 intercentiles et 99 centiles

Caractéristiques d'un quantilage : l'étendue des intervalles est variable, les scores extrêmes sont regroupés dans des intervalles étendus : la plus grande finesse s'obtient dans les classes moyennes. Il y a donc peu de discrimination pour les scores extrêmes, mais une discrimination correcte pour la majorité des personnes qui vont passer le test (individus moyens).

On préfère souvent, à ce niveau, les échelles normalisées.

Il s'agit cette fois de définir le nombre de personnes ayant leur résultats dans des intervalles de score de taille identique. Les résultats représentent (si le test a bien été construit!) une distribution de Laplace-Gauss (courbe dite "en cloche"), avec une majorité de personnes ayant des scores autour de la moyenne, et quelques extrêmes de part et d'autres. On va normaliser (ramener à des pourcentages ou un coefficient compris entre 0 et 1 - c'est à peu près la même chose) cette distribution afin de lui donner l'allure de la proportion. On aura un nombre de classes impair (5, 7, 9, 11, …selon la finesse désirée), la classe centrale comprendra toujours la moyenne, il y aura une symétrie de part et d'autre.

Par exemple, s'il y a 5 classes, la 1ère comprendra 6,7% des sujets, la 2ème 24.2% et la 3ème 38.2%. La 4ème comprendra à nouveau 24,2% et la dernière, 6,7%. Si la finesse est plus grande pour les extrêmes, on obtient néanmoins de très faibles discriminations pour les classes moyennes. Ce type d'étalonnage est utile lorsque l'on veut déceler les extrêmes et leur niveau, par exemple, dans des tests de Quotient intellectuel, pour lesquels il importe peu de discriminer les scores moyens, mais au contraire, il importe de discriminer les scores faibles, très faibles, fort, très forts.

Les étalonnages vont permettre des comparaisons inter-tâches pour un sujet, on pourra réaliser un profil individuel en mettant tous les tests sur un même niveau d'interprétation. Par exemple, un sujet a des scores brut de 32 sur 160 à un test verbal et 20 sur 80 à un test spatial. Au vu de l'étalonnage, il obtient respectivement les notes de 2/20 et 4/20 : il est donc meilleur au test spatial. Ces conclusions, ici, sont relativement visibles dès le départ, mais il arrive que les résultats à des tests différents ne soient pas aussi facilement comparable - d'où le recours à une normalisation.