Bei geschlossenen Aufgabenformaten (Multiple-Choice, Single-Choice, Drop-Down, Drag-and-Drop, etc...) sind die korrekten Antworten immer schon in den Antwortmöglichkeiten enthalten. Prüflinge müssen dann die richtige oder richtigen Antwortoptionen auswählen. Dabei kann kaum verhindert werden, dass Prüflinge bei fehlendem Wissen einfach raten. Maluspunkte sind rechtlich nicht zulässig [1], das Alles-oder-Nichts-Prinzip erschwert die korrekte Beantwortung von Aufgaben überproportional (dazu später mehr). Auf dieser Seite soll einerseits das Problem der Ratewahrscheinlichkeit dargestellt und Lösungsmöglichkeiten vorgestellt und diskutiert werden.





Bei Fragen und Beratungswünschen kontaktieren Sie uns gerne:

e-examinations@fu-berlin.de







Geschlossene Aufgabentypen sind im elektronischen Format beliebt, da hier die Antworten der Prüflinge automatisiert ausgewertet werden. Nachteil des Formats ist die hohe Ratewahrscheinlichkeit.



Ein Beispiel:

Wann wurde die Freie Universität Berlin gegründet?

a. 1932

b. 1949

c. 1948

d. 1950





Jede Antwortoption hat eine Wahrscheinlichkeit von 25%, die korrekte Antwort zu sein. Aufgrund der fehlenden Maluspunkte werden Studierende definitiv eine der Antworten auswählen. Würde eine Prüfung aus 100 SC-Aufgaben mit jeweils einem Punkt bestehen, hätten die Prüflinge daher bereits durch bloßes Raten 25 Punkte und damit bereits die Hälfte der benötigen Punkte zum Bestehen (zumeist 50% Grenze) erreicht (Lukas, J. et. al.: S. 13f.). Noch stärker tritt dieser Effekt bei Aufgaben des Typs "richtig - falsch" auf. Hier beträgt die statistische Punkteausbeute im genannten Beispiel durch Raten bereits die erforderlichen 50%.










Die augenscheinliche Lösung dieses Problems wäre die Erhöhung von Antwortmöglichkeiten. Dies führt jedoch zu weiteren Problemen. Einerseits ist die Formulierung von guten Distraktoren komplex. Sobald Distraktoren einfach auszuschließen sind, da sie klar als unplausibel eingeschätzt werden können, verfliegt die gewünschte Wirkung (siehe auch: Test-Wiseness (Thoma, GB., Köller, O.)). Andererseits führt die Erhöhung von Distraktoren dazu, dass Studierende weitaus mehr Inhalte lesen müssen. Dies erhöht die Bearbeitungsdauer und die kognitive Belastung. Die Prüflinge müssen mehr Informationen im mentalen Kurzzeitspeicher ablegen. Es stellt sich somit die Frage, welche Kompetenzen die Aufgabe nun eigentlich abfragt. Des Weiteren verringert die Anzahl an Distraktoren zwar die Ratewahrscheinlichkeit, diese wird jedoch nie eliminiert (dies ist bei geschlossenen Aufgaben nie möglich). Somit kann ein bestimmter Prozentsatz an Punkten immer auch auf Raten zurückgeführt werden.










Da die Ratewahrscheinlichkeit nie vollständig eliminiert werden kann, hilft der Blick auf ein anderes Instrument zur Ratekorrektur: die Notengrenzen. Während häufig an der vorgeschriebenen Bestehensgrenze der Prüfungsordnung festgehalten wird, können diese und weitere Notengrenzen ggf. auch an die Prüfung angepasst werden (dies sollte mit dem Prüfungsausschuss abgeklärt werden bzw. mit der Prüfungsordnung abgesichert werden).

Lukas et. al. (S. 4-9) beschreiben diesen Sachverhalt wie folgt: die beiden Aspekte Kompetenz und Performanz stellen die relevanten Variablen der Prüfungsleistung der Prüflinge dar. Während Prüfer:innen die Kompetenz messen wollen, können Sie nur die beobachtbare Performanz erfassen. Da die statistische Ratewahrscheinlichkeit von geschlossenen Aufgabenformaten bekannt ist, kann anhand dieser eine Anpassung der Notengrenzen vorgenommen werden.

Beherrscht ein Prüfling also 50% der Inhalte und ist bekannt, dass eine Ratewahrscheinlichkeit von 20% vorliegt (entspricht einer richtigen Antwort und vier Distraktoren), so muss dieser 60% der Punkte erreichen, um den gewünschten Kompetenzwert zu demonstrieren. Die Autoren argumentieren jedoch, dass Prüflinge aufgrund von Stress und fehlender Konzentration auch Flüchtigkeitsfehler begehen, sodass das benötigte Ergebnis zum Bestehen auf 57,75% fällt (f = .05). Die Grenzen können für alle Kompetenzlevel und Notengrenzen festgelegt werden. Das adaptive Verschieben der Notengrenze je nach Aufgabentyp und Distraktorenanzahl hilft also dabei, auf die individuelle Prüfung abgestimmte Notengrenzen zu kreieren, welche trotz der Ratewahrscheinlichkeit bei geschlossenen Aufgaben valide Bewertungsmuster generieren.



Als grundsätzliche Formel für Single-Choice-Aufgaben führen Lukas et. al. (S. 6) an: 

Ergebnis = p * (1 - f - g * h) + g * h

p = das Wissen des Prüflings

f = Flüchtigkeitsfehler

g = Ratewahrscheinlichkeit

h = Rateneigung (bei fehlenden Maluspunkten ist von h = 1 auszugehen)





Da auch andere Aufgabentypen bzw. andere Parameter verwendet werden (bspw. Anzahl der Distraktoren und richtigen Antworten), müssen die Notengrenzen für jede Prüfung und ggf. für jeden Aufgabentyp individuell berechnet werden. Dafür kann bspw. der Online-Rechner von Lukas et. al. genutzt werden: Berechnung ratekorrigierter Notengrenzen (uni-halle.de)










Viele Lehrende nutzen das Alles-oder-Nichts-Prinzip, um die Folgen der Ratewahrscheinlichkeit abzumildern. Studierende müssen hier alle richtigen und keine falschen Antworten auswählen, um die Punkte zu erhalten. Ansonsten werden keine Punkte vergeben.

Die Wahrscheinlichkeit, durch bloßes Raten ausschließlich alle korrekten Antworten zu treffen, ist hier tatsächlich deutlich reduziert. Weitaus stärker wirkt sich in diesem Prüfverfahren jedoch der Flüchtigkeitsfehler aus. Studierende, die alle Inhalte beherrschen (p = 100%), jedoch Flüchtigkeitsfehler im Umfang von 5% (f = .05) tätigen, erreichen in diesem Format nur noch rund 82% der Punkte (Lukas et. al., S. 20). Es besteht kein linearer Zusammenhang mehr zwischen Wissen und Ergebnis. Lukas et. al. (S. 20) zeigen zudem, dass eine hohe Streuung der Ergebnisse vor allem im Bereich von 75% des beherrschten Wissens auftritt. Demnach können Studierende mit gleichem Wissensstand deutlich unterschiedliche Ergebnisse produzieren, je nachdem, ob das Wissen thematisch geballt oder eher verteilt vorliegt.

Somit wird deutlich, dass das Alles-oder-Nichts-Prinzip die Studierenden erkennbar benachteilt und die Prüfung über den eigentlich gewünschten Effekt der Reduktion der Ratewahrscheinlicht hinaus übermäßig schwieriger wird.






[1] Siehe bspw.: OVG Nordrhein-Westfalen, Urteil vom 16.12.2008 - 14 A 2154/08 Abs. 74 (https://openjur.de/u/134912.html) & OVG Nordrhein-Westfalen, Beschluss vom 04.10.2006 - 14 B 1035/06 Abs. 24 (https://openjur.de/u/114868.html).

Lukas, J.; Melzer, A & Much, S. (2008): Auswertung von Klausuren im Antwort-Wahl-Verfahren. Halle: Martin-Luther-Universität Halle-Wittenberg, S. 13f.

Thoma, GB., Köller, O. (2018): Test-wiseness: ein unterschätztes Konstrukt?. Z f Bildungsforsch 8, 63–80. https://doi.org/10.1007/s35834-018-0204-0