Bepunktungs- und Notenanalyse einer Prüfung
Qualitative und quantitative Analyse einer Geographie-Prüfung
Im Rahmen des Fachdidaktikkurses „Beurteilen und Bewerten“ für Lehrpersonen auf der Sekundarstufe II in Geographie haben 18 Studierende eine von 22 Gymnasiast/-innen an der Alten Kantonsschule in Aarau geschriebene Prüfung benotet und ausgewertet. Die Kernfrage der Untersuchung war, inwieweit sich die einzelnen Bewertungen der Lehramtskandidat/-innen untereinander und vor allem im Vergleich zur routinierten Lehrperson unterschieden und welche Auswirkungen dies auf die Noten der Schüler/-innen hatte.
Der Vergleich der Klassendurchschnitte zeigte vordergründig eine unauffällige Verteilung und erweckte den Eindruck von gültigen Bewertungen. In der Detailanalyse zeigten sich allerdings enorme Unterschiede zwischen den Beurteilenden. Je nach „Lehrperson“ ergaben sich mehrfach Abweichungen von über zwei Notenpunkten.
Eine vertrauenswürdige Übereinstimmung ergab sich in Bezug auf die Geschlechter. Die Schülerinnen dieser Klasse schnitten durchwegs zwischen 0.2 bis 0.6 Notenpunkten besser ab als die Schüler.
Die 25-seitige Beschreibung der Untersuchung und Auswertung kann als PDF bei peter.gloor@fhnw.ch bestellt werden.
Peter Gloor
Beispiel: Auszug aus dem Text:
Fazit und Kommentar
Die Durchführung und Korrektur einer Prüfung von 22 Gymnasiast/-innen durch 18 Kursteilnehmende und die dadurch gesammelten Daten ermöglichen eine schier unendliche Anzahl von Möglichkeiten für Darstellungen, Auswertungen und Interpretationen. In den Kapiteln 5.1 bis 5.3 wurde eine Auswahl gezeigt, welche im Wesentlichen aufgrund der Gespräche im Kurs durch die Kursteilnehmenden erarbeitet worden sind.
Gesamthaft betrachtet, belegt die Untersuchung, dass Noten mit grosser Vorsicht zu betrachten sind. Die Erkenntnisse sind nicht neu. In diesem Fall sind sie besonders wertvoll für die Kursteilnehmenden, weil sie anhand eines selbst erarbeitenden Beispiels erworben werden konnten. Eine wichtige Erkenntnis ist zum Beispiel, dass die Benotungen vordergründig ein relativ homogenes Bild vermitteln. Die Verteilung der Punkte (Kap. 5.3, Aufgabenanalyse) legen allerdings grosse Unterschiede offen, insbesondere in der Frage 1. Gerade diese Frage, eine Wissensfrage, so wurde anfangs vermutet, hätte eine einheitliche Bepunktung ergeben müssen, weil sie vermeintlich einfach zu bewerten sei. Das Gegenteil stellte sich heraus.
Die Untersuchung zeigte auf, wie schwierig es ist, gute Prüfungsfragen zu stellen, so dass diese zu validen, reliablen und objektiven Ergebnissen führen. Fragen wie „Erklären Sie folgenden Begriff (...)“ scheinen gemeinhin einfach und klar, doch letztlich ist es eine Frage, die ein weites Antwortfeld erzielte. Entsprechend war die Streuung der Bepunktung. Jede Kursteilnehmerin und jeder Kursteilnehmer hatte andere Vorstellungen von einer Begriffserklärung.
Letztlich doch erstaunlich unterschiedliche Bepunktungen durch die Kursteilnehmenden ergaben sich, wenn man die Ergebnisse der einzelnen Schülerinnen und Schülern focussierte und verglich. Da zeigte sich alles andere als Einheitlichkeit. Erstaunlich war dies nicht in Bezug auf Unterschiede, diese hatten wir erwartet. Es war die Deutlichkeit, die überraschte.
Die Untersuchung zeigte einmal mehr die Relativität und somit auch die Schwierigkeit der Notengebung, wobei in dieser Arbeit die Umsetzung von Punkten in Noten nicht diskutiert wurde. (Im Rahmen der Vorgaben wurde abgemacht, die Punkte linear in die Notenskala umzurechnen und auf Zehntel zu runden.)
Was mit der Untersuchung belegt werden konnte ist, dass die Rangfolge innerhalb einer Klasse – unabhängig vom Benotenden ähnlich aussieht und dass Schülerinnen wie Schüler von allen Kursteilnehmenden gleichwertig benotet worden sind. Es gibt keinen Geschlechterunterschied.
Noten haben längst nicht die Aussagekraft, welche ihnen im Alltag zugestanden wird. Insbesondere gilt dies für die Durchschnittswerte. Sie als Argumente für „gute“ Prüfungen zu sehen, ist äusserst zweifelhaft.
Eine Abschaffung der Noten soll mit dieser Untersuchung nicht angestrebt werden. Wenn aufgrund der kritischen Betrachtungen ergänzende, andere Beurteilungsformen nicht quantitativer Art in den Schulalltag der künftigen Lehrpersonen einfliessen, ist das Ziel dieser Arbeit erreicht.
Für die Kursteilnehmenden war es eine interessante Erfahrung, als angehende Lehrpersonen bei der vergleichenden Benotung in dieser Art als „Versuch“ mitzumachen.
Sébastien Jenni, ein Kursteilnehmer, schrieb in einem abschliessenden Kommentar zur Semesteraufgabe: „Die Notengebung wird nie objektiv und gerecht sein, sondern abhängig vom Kontext und den darin agierenden Subjekten. Wenn wir mit diesem Wissen daran gehen, dann kommt es sicher gut.“
In diesem Sinne war diese Arbeit als Weg das Ziel und ich danke allen, welche konstruktiv und mit gross
em Einsatz mitgemacht haben.
Beispiel einer Abbildung:
Abbildung 8: Die Durchschnittsnoten der Schülerinnen und Schüler (Wehren, Müller)
Bei allen Benotenden ergab sich zumindest ein einheitliches Ergebnis in Bezug auf die Geschlechter. Die Schüler der Klasse sind generell schlechter als die Schülerinnen, zumindest in dieser Prüfung. Ballo mit 0.2 Notenpunkten Unterschied und Rüegge mit guten 0.6 stellen die Extremwerte dar. Gloor liegt mit 0.4 im Mittelfeld.
Die Abbildung 8 sowie die Ergebnisse in Abbildung 6 weisen darauf hin, dass die Benotungen innerhalb der Klasse, was die Rangfolgen betrifft, von hoher Güte sind. Mit der Prüfung, respektive der Bepunktung und Bewertung, kann unabhängig von der Lehrperson eine relativ zuverlässige Rangfolge erstellt werden. Die Einordnung der Rangierung auf der Notenskala von eins bis sechs ist hingegen unzuverlässig und stark vom Benotenden abhängig.


