Analyser la qualité d’un questionnaire d’évaluation en ligne

Publié par griemetic_admin le

Sébastien Béland (Université de Montréal)

Les questions permettant d’évaluer les bonnes et les mauvaises réponses des étudiants sont très populaires sur les plateformes pédagogiques en ligne. Cette catégorie de questions peut prendre plusieurs formes : choix de réponse multiple, vrai ou faux, questions à apparier, etc. Nous allons, dans ce qui suit, présenter succinctement trois stratégies permettant d’analyser la qualité du questionnaire utilisé : calculer la difficulté d’une question, calculer la capacité discriminante d’une question et estimer la fidélité des scores.

Préparer les données avant les analyses

Pour faciliter le travail, il est recommandé d’organiser les résultats d’évaluation à l’aide d’une matrice où les questions sont insérées en colonnes et où les bonnes (notées « 1 ») et mauvaises (notées « 0 ») réponses sont insérées en rangées. Un exemple de matrice prendrait la forme suivante dans une situation où dix étudiants ont répondu à quatre questions.

 Question 1Question 2Question 3Question 4
Étudiant 11010
Étudiant 21110
Étudiant 31110
Étudiant 41000
Étudiant 50000
Étudiant 60100
Étudiant 71010
Étudiant 81111
Étudiant 91100
Étudiant 101110

Les analyses qui suivent seront inférées à partir de cette matrice de résultats d’évaluation.

La difficulté d’une question

La difficulté d’une question peut prendre la forme d’une proportion qui se calcule en divisant le nombre de bonnes réponses à une question par le nombre total d’étudiants évalués. Ainsi, dans une situation où huit étudiants sur dix ont eu une bonne réponse à une question précise, la difficulté est égale à 8/10= ,8. Évidemment, si aucun étudiant n’a obtenu de bonne réponse à la question, l’indice est égal à zéro et il est égal à un si tous les étudiants ont réussi la question. La dernière rangée de la matrice de réponses suivante présente la valeur de la difficulté pour chacune des questions.

 Question 1Question 2Question 3Question 4
Étudiant 11010
Étudiant 21110
Étudiant 31110
Étudiant 41000
Étudiant 50000
Étudiant 60100
Étudiant 71010
Étudiant 81111
Étudiant 91100
Étudiant 101110
Difficulté,8,6,6,1

Nous constatons que la première question est la plus facile, car elle est réussie par 80% des étudiants. À l’opposé, la cinquième question est la plus difficile, car seulement un étudiant y a obtenu une bonne réponse. Un évaluateur pourrait décider de rejeter une question selon une difficulté qu’il considère inacceptable, par exemple dans le cas d’une question trop difficile pour le groupe d’étudiants évalué.

La capacité discriminante d’une question

On dira qu’une question discrimine bien si elle permet aux étudiants qui maîtrisent bien le contenu évalué de se distinguer de ceux qui ne maîtrisent pas le contenu évalué. Plusieurs stratégies permettent de calculer la capacité discriminante d’une question. La plus connue est celle qui utilise le coefficient de corrélation point-bisériale, qui corrèle la réponse à une question avec les scores totaux des étudiants au questionnaire (avec ou sans cet question). La dernière rangée de la matrice qui suit présente la valeur de la discrimination pour chacune des questions.

 Question 1Question 2Question 3Question 4
Étudiant 11010
Étudiant 21110
Étudiant 31110
Étudiant 41000
Étudiant 50000
Étudiant 60100
Étudiant 71010
Étudiant 81111
Étudiant 91100
Étudiant 101110
Difficulté,8,6,6,1
Discrimination,44,22,51,33

Il existe des barêmes pour estimer ce coefficient. Une valeur inférieure à zero indique que la question ne discrimine pas. Lorsque la valeur de la discrimination est située entre 0 et ,09, on dit que la question présente une très faible discrimination. La discrimination de la question est « faible » pour des valeurs entre ,10 et ,19; « modérée » pour des valeurs entre ,20 et ,29; « bonne » pour des valeurs entre ,30 et ,39; et « très bonne » si elle est au-dessus de ,40 (Laveault et Grégoire, 2014; Nunnaly et Bernstein, 1994). Selon ces valeurs, nous observons que la question deux présente une discrimination modérée et toutes les autres questions présentent des discriminations qualifiées de « bonne » ou « très bonne ».

La fidélité des scores

La fidélité des scores réfère à la capacité d’un questionnaire à générer peu d’erreur ou, pour le dire autrement, être précis[1]. Celle-ci est généralement estimée à l’aide d’un coefficient qui prend théoriquement une valeur entre zéro et un. Plus la valeur de ce coefficient approchera de la valeur de l’unité, plus on considérera que les scores au questionnaire sont « fidèles ». Une convention informelle, mais répandue, stipule qu’une valeur minimale de ,7 est nécessaire pour considérer qu’un questionnaire a une fidélité acceptable. Nous devons mentionner que ce ,7 n’est pas unanimement accepté dans la communauté en mesure et qu’une autre valeur minimale pourrait être acceptée, au besoin.

Nous avons utilisé deux coefficients pour estimer la fidélité des scores des réponses utilisée dans ce court article. D’abord, le coefficient alpha de Cronbach (1951) est égal à ,58 et le coefficient omega de McDonald (1985, 1999) est de ,64. Quoique légèrement différents, ces valeurs nous indiquent essentiellement la même chose : le questionnaire présente une précision limitée. Ainsi, il serait probablement pertinent de retravailler cette évaluation en ajoutant quelques questions et en s’assurant que les questions déjà utilisées sont bien écrites.

L’analyse de la qualité des questions à l’aide du logiciel JASP

         Les analyses précédentes ont été produites à l’aide de JASP, qui est offert en téléchargement gratuit à l’adresse suivante :

Après avoir intégré les résultats de l’évaluation dans le logiciel, il faut sélectionner l’onglet « Descriptives » et, ensuite, « Reliability Analysis » :

Ensuite, il faut sélectionner « Mean » pour calculer la difficulté des questions, « Item-rest correlation » pour calculer la discrimination des questions et « Cronbach’s  » ainsi que  « McDonald’s  » pour obtenir des estimations de la fidélité des scores.

Références

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Laveault, D.et Grégoire, J.(2014).Introduction aux théories de tests en psychologie et en sciences de l’éducation(3eédition). Bruxelles: De Boeck Université.

McDonald, R. P. (1985). Factor analysis and related methods. Mahwah, NJ: Lawrence Erlbaum.

McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum.

Nunnally, J.C. et Bernstein, I.H. (1994) The Assessment of Reliability. Psychometric Theory, 3, 248-292.


[1] L’information contenue dans cette section peut être obtenue de différentes façons. Nous allons uniquement traiter de la stratégie appelée « consistance interne ».