Faut-il soulever la question des standards dans l’évaluation des élèves ?
Partant du rappel de la part importante que prend le mode de référencement des acquis des élèves (le « niveau ») dans le système français au caractère injuste de l’École, l’auteur se demande dans quelle mesure le recours fréquent dans d’autres systèmes à la notion de standard pourrait être intéressante, en rappelant divers essais tentés en France, jusqu’ici restés à la marge.
En quoi le système français d’évaluations et d’examens, combiné à la fabrique française des « programmes », participe du caractère élitiste et injuste de l’École
L’injustice du système français d’éducation se révèle par sa capacité à « fabriquer de l’échec scolaire », c’est-à-dire à déterminer aux différents niveaux (de scolarité) les élèves qui seront visés par des jugements négatifs globaux, précédant souvent des décisions d’orientation irréversibles. La question des modalités de ces jugements n’est donc pas mineure.
Or le système français d’évaluation, notamment certificative a deux caractéristiques majeures, bien connues, qui le distinguent de beaucoup d’autres systèmes :
- Il juge les candidats de façon « globale », par le calcul d’une moyenne générale. On n’a pas toujours conscience que peu de systèmes procèdent ainsi, en mêlant par exemple les résultats de différentes disciplines étrangères les unes aux autres. En Angleterre par exemple un examen ne débouche jamais sur un résultat global : on passe « des » A-levels, et on obtient un grade dans chacun d’eux. Le palmarès de l’étudiant est donc directement parlant, indiquant les matières où il a en quelque sorte acquis une spécialisation. Défendra-t-on le système français d’examens, en disant qu’il garantit une « culture générale » ? Ou s’interrogera-t-on sur le caractère très peu lisible d’un résultat d’examen « à la française » ? Qui pour nous se rattache à l’ « indifférence aux savoirs » d’un système où la fonction de « sélection » a pris le pas sur celle de formation de tous1.
- L’autre caractéristique des examens français, parente de la première sans se confondre avec elle, est celle d’examens qui jugent en « noir ou blanc ». On remarque que les deux caractéristiques (la moyenne de diverses composantes étrangères et le résultat binaire) correspondent à une logique de concours, quand il faut en effet prendre une décision sur une candidature, plutôt qu’à une logique d’examen : l’inspiration chinoise par la médiation jésuite ancienne serait notamment en cause. Bien sûr un outil permanent de ce tropisme binaire est l’attribution de notes, et de notes sur 20, avec la médiane à la moyenne : ce sont les phénomènes notamment mis en avant par André Antibi au titre de la « constante macabre ». De façon automatique et constante, un tel système tend à considérer la moitié de l’effectif comme « en échec », et, symétriquement, une note située au-dessus de 10/20 « sauve » celui qu’elle vise, en n’en disant pas plus sur les qualités ou défauts de sa prestation.
On saisit là, en son cœur instrumental, la fabrique française de l’échec scolaire : on centre l’intérêt des élèves sur les classements, en fonction de la « moyenne », et on classe les mêmes élèves selon des critères qui permettent d’en programmer l’éviction.
Un regard sur les procédures toutes matérielles régissant le déroulement d’une session de baccalauréat, par exemple, illustre cela : une machinerie nationale complexe d’élaboration des sujets demande qu’ils soient « cobayés » par des professeurs en exercice, en un temps plus faible que celui des candidats, avec comme mission de rendre à la fois une copie et un rapport sur le niveau du sujet par rapport à ce qu’ils savent du « niveau » des élèves. L’important est là le singulier : il existerait, quelque part, un « niveau » moyen des élèves, explicité nulle part, mais intériorisé pour servir de critère implicite pour le choix de sujets qui devront conduire un nombre suffisant de candidats à « la moyenne ». Tout cela montre que l’on vise l’atteinte d’ « un » niveau mais que la palette des prestations et des talents n’intéresse pas.
Comment la question se pose ailleurs : pourquoi nous intéresser au mot de « standard » en éducation
Il nous a été donné de participer à l’étude d’une vingtaine de systèmes étrangers d’examens à la fin du secondaire supérieur, dans le cadre de la recherche The Standard Setting Project conduite à l’Université d’Oxford, (symposium international réuni au Brasenose Collège2 en mars 2018). Notre expérience de membre de jurys dans d’autres systèmes que le système français nous a par ailleurs permis de vivre de l’intérieur ces réalités, mais nous avons surtout en mémoire le désarroi qui fut le nôtre quand il nous fut demandé au sein du collectif d’Oxford, de présenter avec un certain détail le baccalauréat français, prenant conscience de ce qui nous séparait de tous les autres3.
Ce qui frappe c’est bien entendu la tâche qui revient aux commissions d’examens, qui consiste à faire deux choses contraires aux traditions françaises : ne pas décerner de diplôme « interdisciplinaire », peut-on dire, d’une part, et ne pas déboucher sur des jugements en « pass or fail » d’autre part. C’est-à-dire, dans beaucoup des systèmes étudiés, remettre des certificats correspondant à des enseignements isolés, et, pour chacun de ces certificats, délivrer un grade, matérialisé par une lettre ou un chiffre, sur une échelle de 5 ou 6 valeurs possibles.
La conséquence de cet état des choses est un travail extrêmement délicat pour les examinateurs, dont les décisions seront immédiatement actives pour les lauréats4, sans être tempérées par des calculs de moyennes, ni neutralisées dans une décision en « pass or fail ». Le besoin est clair d’une référence à laquelle se raccrocher, et c’est précisément ce qu’on appelle les « standards ». C’est avec ce sens que nous aimerions proposer le mot en français et non en référence à des standards internationaux de performance auxquels se sont intéressés Nathalie Mons et Xavier Pons dans Les standards en éducation dans le monde francophone (IRDP, 2006, Neuchâtel) : celui d’une référence, en général issue du curriculum, permettant en face d’une connaissance, d’une compétence, ou de quelque autre réalité d’apprentissage, de déterminer plusieurs degrés de maîtrise par le candidat. Le mot de maîtrise est ici utilisé par défaut pour désigner des réalités diverses d’une culture scolaire à une autre, certaines accordant plus de valeur à la prestation d’un élève plus « couvrante » (en augmentant le « breadth » des standards) ou plutôt plus « approfondie » (en augmentant leur « depth »).
L’élaboration de ces standards est variable selon les pays : elle peut être tirée très directement du curriculum, elle peut se faire avant une épreuve ou de façon plus pérenne à partir de l’estimation par des experts de ce qui sera le « minimum acceptable » pour la prestation d’un candidat, elle peut aussi se faire avec le premier souci que le standard soit respecté d’une année à l’autre, ou au contraire que le standard permette de conserver la même proportion de lauréats. Ce qui est important c’est l’attention mise à définir la « ground boundary », ou encore selon les pays le « cut score », dont le franchissement permettra d’obtenir le premier grade.
On voit bien que la configuration est très différente selon qu’on va évaluer selon une conception atomiste (de petits et nombreux items) ou selon une conception agrégée (avec des épreuves plus larges). Ce point d’hésitation des systèmes de standards se comprend si on sait que ces réflexions, dans les divers pays, sur l’évaluation, sont bien plus développées qu’en France où l’examen est une chose « qui va de soi » et qu’on étudie peu, sauf exceptions dans quelques disciplines. Précisément on doit produire des standards explicites. Mais il y a plusieurs façons de l’être et les chercheurs distinguent volontiers des évaluations qui sont fondées sur le curriculum, d’autres qui sont fondées sur la mesure de l’atteinte d’un résultat (ce qui semble ramené à l’enseignement professionnel dans sa version pure), d’autres encore, les plus puissantes, agissant dans un paysage depuis longtemps accaparé par les états-Unis et le recours à la psychométrie. Qui, elle, pratiquant des tests au sens français du mot, s’intéresse aux « petits » items, et, sans dévoiler ce qu’elle évalue, recherche le trait caché d’où elle va tirer des conséquences par corrélations diverses. A noter que les responsables britanniques de l’étude étaient lors du symposium très en retrait face aux certitudes états-uniennes.
Des essais curriculaires partiels contre cet état des choses n’ont pas débouché, mais sembleraient une clé possible pour sortir de l’impasse française en matière d’évaluation. Des propositions ont été faites en France pour chercher d’autres modes. Mais rarement directement, tant l’examen est un tabou. Plutôt à l’occasion de changements curriculaires. Généraux ou dans le cadre de certaines disciplines.
Si la notion de standards est inexistante dans le droit éducatif français, des recherches d’amélioration de la situation ont parfois ouvert la voie à une telle logique :
- Dans le cas spécifique d’une discipline, comme l’éducation physique et sportive, on trouve de façon installée ce type d’approche, avec par exemple une évaluation en 12 points pour les conduites motrices et 8 points pour les compétences sociales et méthodologiques (« par exemple savoir arbitrer, coopérer avec ses camarades, les observer, prendre de décisions collectives, etc. »), et dans ce cadre il y a 4 paliers ou degrés, définis nationalement mais qui doivent être précisés par les enseignants. L’élève est évalué et le meilleur niveau atteint est par exemple un « engagement solidaire » : aux professeurs d’expliciter à quoi cela correspond concrètement, par exemple: « s’impliquer à chaque séance pour progresser et aider ses partenaires à prendre des décisions en les observant à partir de critères simples ».
- La question se posa surtout quand un regard sur le curriculum de fait, en France, pour la scolarité obligatoire, montra que les « programmes », tels qu’ils sont traditionnellement, ne sont pas clairs sur ce qui est attendu des élèves : c’est en réaction au caractère critiquable de cet état de choses que fut lancée cette idée d’un « socle commun » décrivant un ensemble d’acquis indispensables (qu’il se fût agi de connaissances, de compétences ou encore de culture ne sera pas débattu ici).
Or, comme on sait, la définition du socle, ou plutôt des deux socles successifs fut l’occasion de divers échanges sur ce qui en permettrait l’évaluation, et sur le lien entre l’évaluation du socle et l’obtention du brevet. On atteint là une difficulté majeure puisque le socle voulant définir un minimum (notion dont on peut regretter qu’elle ait été parfois maltraitée, alors que le cut score auquel nous faisions allusion précédemment est sur cette logique), ne pouvait entrer dans une logique de moyenne générale, alors que le brevet est décerné sur ce critère.
Plusieurs facteurs nous conduisaient là en position de recours à des standards : on sortait du cadre disciplinaire traditionnel, on pouvait aussi sortir de la référence à des programmes « rêvés » et distinguer l’indispensable de ce qui se développe et peut être validé au-delà ; les textes officiels et les documents d’accompagnement découpaient les « éléments signifiants » de chaque « domaine » en un certain nombre de larges items. La question est de savoir si la maîtrise des éléments signifiants d’un domaine peut déboucher sur des degrés de validation différenciés. A noter que ne pas le faire risque de rendre l’obtention de la totalité des items du socle extrêmement difficile, le contraire de ce qui était souhaité.
La question est aussi celle du degré de granularité auquel on veut aboutir, entre l’atomisme et l’agrégation : le standard peut renvoyer à divers niveaux d’approfondissement ou à divers niveaux d’agrégation.
Les questions de justice sont liées de près à des questions techniques qui ne doivent pas être ignorées ! Les traditions de l’évaluation, notamment certificatives en France, sont éminemment contestables dans le chemin nécessaire vers une école juste. Nous pensons qu’au lieu d’examens totalisants, bipolaires et ne donnant pas aux élèves de repères clairs sur leurs acquis, il serait souhaitable de permettre la validation de divers « standards » ayant correspondu à des étayages précis, validations qui, à leur tour, seraient éléments d’étayage5.
Autre chose est possible, en tous cas, que ce que le système français rumine sans même en avoir toujours conscience.
Roger-François Gauthier
Expert en comparaison internationale en éducation et en politiques éducatives comparées,
membre fondateur du Collectif d’interpellation curriculaire (CICUR)
- Voir sur ce thème Roger-François Gauthier, Crise des savoirs scolaires, Pour une école de la conscience, Berger-Levrault, 2019 . ↩︎
- Ce projet a donné lieu à Jo-Anne Baird, Tina Isaacs, Dennis Opposs et Lena Gray, Examination Standards, How measures and meanings differ around the world, Institute of Education Press, University College London, 2018 ↩︎
- Roger-François Gauthier, Standard setting in France: The baccalauréat, et Sandra Johnson, Grade comparability and the French baccalauréat, in Jo-Ann Baird, op. cit, 2018. ↩︎
- Nous citons l’ouvrage mentionné en note 3 : « For most of them, the result they receive from their examination, will be an extremely important determinant of where they progress to in termes of education or employment ». ↩︎
- Une partie de ces réflexions est reprise d’un travail collectif élaboré au sein du groupe technique du CICUR consacré à l’évaluation, dont le pilotage revient à Mmes Lucie Mougenot et Mariem Siala. ↩︎