Innovative Wege in der e-Prüfung: Rückblick auf das e-Prüfungs-Symposium an der RWTH Aachen
Ende 2023 fand das zweitägige e-Prüfungs-Symposium an der RWTH Aachen statt, das sich dem spannenden Thema „Innovative ePrüfungskonzepte – Neue Ideen und individuelle Lösungen“ widmete. Die Veranstaltung bot uns Einblicke in den aktuellen Stand von E-Prüfungen an unterschiedlichen Hochschulen aus Deutschland. Wir werfen in diesem Artikel einen Blick zurück auf unsere Highlights der Veranstaltung.
Learning Analytics – Daten der Studierenden effizient nutzen
Jonas Leschke, Koordinator von KI: EDU.NRW und Dozent an der Ruhr-Universität Bochum präsentierte uns Teilnehmenden eine Zusammenfassung seiner Arbeit zu Learning Analytics. Leschke betonte dabei die Relevanz von Learning Analytics für Lehren und Lernen. Mit der technischen Infrastruktur namens Polaris (Provider oriented open learning analytics) ermöglicht er die Sammlung von Daten auf Mikro-, Meso- und Makroebene. Eine besondere Herausforderung besteht in der Datenerfassung in Bezug auf die Lernorte der Studierenden, da stets nur ein Ausschnitt des Lernens erfasst werden kann. Der rechtliche Rahmen und die technische Umsetzung sind weitere Hürden, die es zu überwinden gilt. Die bereits etablierte Arbeit mit E-Prüfungen wurde dabei als potenzielle Lösung betrachtet, da die Klausuren genügend Lerndaten liefern und rechtlich abgesichert sind. Entscheidend ist es, betonte Leschke, in die Entwicklung von Learning Analytics alle Statusgruppen der Hochschule mit einzubeziehen und einen unbewerteten, von der Sammlung unangetasteten Lernraum für die Studierenden zu erhalten. Die Frage für uns bleibt, ob Learning Analytics zukünftig als Lerncoach fungieren können, ohne einen zu hohen Druck auf die Studierenden auszuüben.
Potenziale, Nutzen und Risiken von Large Language Models im Kontext des E-Assessments
Diese Keynote war nicht der einzige Vortrag zu KI:
Tim Metzler, Mohammad Wasil, Jörn Hees & Paul Plöger von der HS Bonn-Rhein-Sieg haben ein Experiment gewagt:
ChatGPT 4, LLaMa2 oder LeoLM. Welches dieser drei LLMs ist geeignet, Prüfungsergebnisse zu bewerten?
Im ersten Teil des Experiments sollten die LLMs die Antworten der Studierenden nur anhand der Frage und der Musterlösung bewerten. Diese Bewertungen wurden dann mit den Bewertungen der Prüfenden verglichen. Nur ChatGPT bewertete sehr ähnlich wie die Prüfenden. LeoLM bewertete sehr zufällig und LLaMa2 bewertete immer gleich.
Bei der Konsistenz der Bewertung wurde gemessen, ob bei gleicher Eingabe auch die gleiche Ausgabe erfolgte. Auch hier war ChatGPT4 recht gut, aber LLaMa2 war natürlich besser, nichts ist konsistenter als immer die gleichen Punkte zu vergeben. LeoLM versagte auch hier auf ganzer Linie.
Im zweiten Teil wurde nur noch ChatGPT getestet. Anhand der Frage und der Musterlösung erstellte das Modell zunächst Bewertungskriterien. Diese wurden dann von den Prüfenden bewertet und von den meisten als sehr sinnvoll erachtet. Ausnahmen bildeten Fragen bzw. Musterlösungen, die nach Meinung der Bewertenden schlecht gestellt waren.
Anschließend bewertete die KI die Antworten anhand der Frage, der Musterlösung und der Kriterien. Dies funktionierte erstaunlich gut, mit Ausnahme von Formeln und Berechnungen.
Werden LLMs bald selbst die Leistungen der Studierenden bewerten? Wahrscheinlich nicht, schätzt das Team der HS Bonn-Rhein-Sieg, denn wie überzeugend die Ergebnisse auch sein mögen, die Verantwortung für die Bewertung liegt letztlich bei den Prüfenden. Aber eine Voranalyse kann helfen, auch kompliziertere Fragen schneller zu bewerten, und die KI kann durchaus dabei unterstützen, den eigenen Fragenpool noch einmal zu hinterfragen. Denn schlechte Fragen führen zu schlechten Bewertungen, egal ob Mensch oder Maschine.
Diversität der Studierenden: Keynote von Stefan Stürmer der FernUni Hagen
Die zweite Keynote, präsentiert von Stefan Stürmer von der FernUniversität Hagen, fokussierte sich auf die Diversität der Studierenden und die Akzeptanz von E-Prüfungen. Stürmer unterstrich, dass die Anforderungen an E-Prüfungen auch die Vielfalt der Studierenden berücksichtigen müssen. Hierbei spielen Technik, Recht, Didaktik und Organisation eine Rolle, um Barrierefreiheit, Nachteilsausgleiche und diversitätssensible Gestaltung zu gewährleisten. Die FernUni Hagen verfolgt in ihrem E-Prüfungs-Projekt seit 2018 die Ziele Effizienzsteigerung und dezentrale Durchführung von Prüfungen an verschiedenen Standorten. Eine begleitende Studie untersuchte die Akzeptanz von E-Klausuren in Bezug auf die Diversität der Studierenden. Die Ergebnisse zeigen, dass Alter, Technologieakzeptanz und Erfahrungen mit dem Prüfungssystem die Akzeptanz von E-Prüfungen im Allgemeinen beeinflussen. Eine positive Entwicklung wurde bei Studierenden verzeichnet, die bereits Erfahrungen mit digitalen Prüfungen gesammelt hatten.
Insgesamt verdeutlichte das e-Prüfungs-Symposium in Aachen, dass innovative Ansätze in diesem Bereich sowohl durch effiziente Nutzung von Studierendendaten als auch durch Berücksichtigung der Diversität der Studierenden vorangetrieben werden können. Wir haben einiges daraus mitgenommen und freuen uns schon auf das nächste Mal ePS – dann an der TU München.
Prüfungssoftware und -hardware: Ein Ausblick auf die kommenden Jahre
Viele der Vorträge schnitten ein ähnliches Thema an. Welche technischen Gegebenheiten wollen wir für die Zukunft der E-Prüfungen? Allerdings lagen die Gewichte häufig weit auseinander.
Im Vortrag Changing a running system berichtete das Team der HS Hamm-Lippstadt, dass sie von ihren vielen Prüfungssystemen (Dynexite, ILIAS, Klaus Online, Moodle, Q-Exam) die seit 2018 sowohl hochschulweit als auch zum Teil nur fachbereichsintern im Einsatz waren auf eines reduzieren möchten, ab 2024 läuft nur noch Dynexite. Das ist zwar mit viel Arbeit verbunden, damit Fragenpools in ein System übertragen werden können, gleichzeitig spart es auf Dauer eine Menge Ressourcen. Auch hardwareseitig gibt es Veränderungen, sie haben mobile Prüfungshardware auf Chrome OS-Basis eingekauft und bieten den Prüfenden nun die Möglichkeit mit abgesicherter Hardware zu schreiben.
Und damit sind sie nicht alleine, in CAMPLA/Lernstick: Digitale Prüfungen mit Bring Your Own Device stellt die FHNW Schweiz ihre Lösung vor. Die Studierenden schreiben Klausuren mit eigener Hardware, aber auf dieser bootet das Team ein gesondertes Betriebssystem, das komplett abgesichert ist. Außerdem können die Studierenden auf Wunsch auch remote auf Hochschulcomputer zugreifen, so dass dies nicht nur der Sicherheit sondern auch der Chancengleichheit dient und gleichzeitig auch die Möglichkeit gibt, abgesichert Drittapplikationen anzubieten.
Dominik Herrmann der Uni Bamberg geht einen ganz eigenen Weg. Er kaufte günstig 300 gebrauchte Laptops, auf denen er seine Informatikprüfungen durchführt. In diesen Prüfungen befindet sich die Prüfung und prüfungsrelevantes Material auf einem USB-Stick, der am Anfang der Prüfung entschlüsselt wird. Dabei nutzt er selbstgeschriebene HTML-Seiten, wobei die eingegebenen Antworten mittels Intranet alle paar Minuten abgeglichen werden. So gibt es fast keine Möglichkeit zur Täuschung und dennoch kann er den Studierenden eine Umgebung liefern, die wirklich berufsrelevante Prüfungen zulässt.
Das Team der RWTH präsentierte zum Ende des ersten Veranstaltungtages Ihre eigene Umgebung für Prüfungen; Den Prüfungsraum im Untergeschoss des 22 Meter hohen Gebäudes “SuperC” am Templergraben. Wir durften uns mittels einem eigens konzipierten Gewinnspiel von der Prüfungssituation vor Ort überzeugen. Insgesamt waren es zwei spannende Tage zum Thema Innovative ePrüfungskonzepte und wir freuen uns auf das nächste Symposium, dann an der Technischen Universität in München.