Beeinflusst das Geschlecht der Lehrenden die Ergebnisse von Lehrveranstaltungsumfragen?

Lehrveranstaltungsevaluationen gehören zum Hochschulalltag für Studierende und Lehrende und diese Rückmeldungen fließen in die Weiterentwicklung der Lehreveranstaltungsevaluation oder Vergabe von Zulagen und Prämien mit ein. Bekannt ist, dass Lehrevaluationen nicht eindeutig Lehrqualität oder Lehrwirksamkeit messen, sondern die Ergebnisse immer auch von schwer durch Lehrende beeinflussbare Faktoren wie z.B. die Veranstaltungsgröße, das Vorinteresse der Studierenden oder das Veranstaltungsniveau beeinflusst sind(für eine Übersicht siehe z.B. Ulrich 2016: S. 174 ff).

Hier kann man sich fragen, ob an der FH Aachen Personenmerkmale eine Rolle spielen und ob bestimmte Personen per se schlechter oder besser bewertet werden. Für das Geschlecht der Lehrenden haben wir uns das auf Anregung eines Fachbereichs einmal näher angeschaut.

Was sagt die Forschung?

Eine Mehrheit der Studien findet einen Geschlechterbias in den Ergebnissen von Lehreveranstaltungsumfragen (Kreitzer & Sweet-Cushman 2021). Diese Studien zeigen, dass neben der Qualität der Lehre auch Erwartungen, Rollenbilder und Stereotype die Ergebnisse beeinflussen.

Allerdings ist die Lage komplex. Stärke und Richtung des Bias sind nicht einheitlich:

Einige Untersuchungen finden keine klaren oder konsistenten Unterschiede zwischen weiblichen und männlichen Lehrenden (Spooren et al. 2013).
Andere zeigen kleine, aber sich nicht signifikant auf das Ergebnis auswirkende Effekte (Wolbring 2013, Punyanunt-Carter & Carter 2015).
Wieder andere Studien finden spezifische problematische Konstellationen, wie eine schlechtere Bewertung von nicht professoralen Lehrenden durch männliche Studierende (Mengel et al. 2017).

Wirkung von Geschlechterstereotypen

Ein weiterer Befund aus der Forschung: Studierende bewerten nicht alle Aspekte der Lehre gleich, sondern legen je nach Geschlecht unterschiedliche Maßstäbe an.

Frauen werden für mangelnde Vorbereitung oder Kommunikation schneller schlecht bewertet.
Bei Männern hingegen werden höhere Ansprüche an Führungsqualität und -rolle gestellt und fehlende Autorität eher negativ bewertet (Boring 2017).

Neben den quantifizierbaren Werten der Skalafragen wirken sich entsprechende Rollenerwartungen auch (und ggf. sogar stärker) auf die Freitextkommentare aus. Auch nicht beleidigende, sachlich formulierte Kommentare können geschlechterstereotype Zuschreibungen oder überzogene Ansprüche auf Basis von Geschlechterstereotypen enthalten.

Was zeigen hochschulweite Auswertungen?

Ein Blick auf aggregierte Daten zeigt keine signifikanten Geschlechterunterschiede in den Evaluationsergebnissen der FH Aachen. Über die letzten 9 Semester (SoSe 2021 – SoSe 2025) lag der durchschnittliche Globalindikator[1], der aus den Mittelwerten aller Veranstaltungen pro lehrender Person in diesem Zeitraum gebildet wurde, sowohl für Männer wie auch Frauen bei 1,89 (Abbildung 1).

Abbildung 1: Mittelwerte und Signifikanz der Mittelwertunterschiede der Globalindikatorwerte von weiblichen und und männlichen Lehrenden an den Fachbereichen der FH Aachen

In den ingenieurwissenschaftlichen Fachbereichen tauchen teilweise Unterschiede auf. Diese lassen sich vermutlich weniger durch das Geschlecht selbst erklären, sondern eher durch die Statusgruppenzugehörigkeit zum einen (Abbildung 2) und der Fachnähe der unterrichteten Fächer zum anderen. So treten die besagten Unterschiede nur in der Gruppe der nicht professoralen Lehrenden auf. Und diese (relativ kleine) Gruppe unterscheidet sich sehr stark in den unterrichteten Fächern. Männer sind eher in technischen, mutmaßlich fachnäheren Veranstaltungen tätig und Frauen eher in überfachlichen (Wirtschaft, Englisch oder Sozialkompetenzen). Entsprechend liegt die Vermutung nahe, dass die Fachnähe und das Vorinteresse der Studierenden hier der ausschlaggebende Punkt sind.

Abbildung 2: Mittelwerte und Signifikanz der Mittelwertunterschiede der Globalindikatorwerte von männlichen und weiblichen Lehrenden an ingenieurwissenschaftlichen Fachbereichen für Professor:innen und nicht professorale Lehrende

Was bedeutet das für den Umgang mit Lehrevaluationen?

Die wichtigste Schlussfolgerung lautet: Lehrevaluation misst nicht eindeutig Lehrqualität oder Lehrwirksamkeit. Sie bildet vielmehr die subjektive Lehrerfahrung der Studierenden ab – und diese ist von vielen Faktoren geprägt, darunter eben auch Fachnähe/-interesse, Veranstaltungsformat und Geschlechterstereotypen.

Um diesen Verzerrungen zu begegnen, berechnet das ZHQ beispielsweise Korrekturfaktoren bezüglich der Veranstaltungsgröße und des Fachsemesters, die in der Vergabe von W2-Zulagen auf Grundlage von Lehrveranstaltungsumfragen berücksichtigt werden. Darüber hinaus können Ergebnisse der Lehrveranstaltungsevaluation zwar zur Vergabe der Lehrprämien mit herangezogen werden, sollten aber nicht alleiniges Entscheidungskriterium sein.

Lehrveranstaltungsevaluationen sind ein nützliches Instrument, aber kein neutraler Spiegel der Lehrqualität. Wer sie interpretiert oder für Entscheidungen nutzt, sollte sich der möglichen Verzerrungen in quantitativen Ergebnissen, wie auch den Freitexten, bewusst sein. Ein reflektierter Umgang hilft nicht nur, Ungerechtigkeiten zu vermeiden, sondern auch, Umfrageergebnisse sinnvoll für die Weiterentwicklung von Lehre einzusetzen.

Literatur

Boring, A. (2017): Gender biases in student evaluations of teaching. Journal of Public Economics, Vol 145, pp. 27-41.

Punyanunt-Carter, N., & Carter, S. (2015): Students‘ gender bias in teaching evaluations. Higher Learning Research Communications, 5(3), 28-37.

Kreitzer, R.J. & Sweet-Cushman, J. (2021): Evaluating Student Evaluations of Teaching: A Review of Measurement and Equity Bias in SETs and Recommendations for Ethical Reform. Journal of Academic Ethics, Vol. 20, No. 1, pp. 73-84.

Mengel, F., Sauermann, J. & Zölitz, U. (2017): Gender Bias in Teaching Evaluations. IZA Discussion Papers, No. 11000, Bonn: Institute of Labor Economics (IZA)

Spooren, P., Brockx, B., Mortelmanns, D. (2013): On the Validityof Student Evaluation of Teaching: The State oft he Art. Review of Educational Research, Vol. 83, No 4, pp. 598-642.

Ulrich, I. (2016): Gute Lehre in der Hochschule. Praxistipps zur Planung und Gestaltung von Lehrveranstaltungen. Wiesbaden: Springer.

Wolbring, T. (2013): Fallstricke der Lehrevaluation, Möglichkeiten und Grenzen der Messbarkeit von Lehrqualität. Frankfurt am Main: Campus.

[1] Der Globalindikator setzt sich aus den jeweiligen Einzelindikatoren der Fragebögen zusammen, für den Standardfragebogen an der FH Aachen sind dies Konzept, Vermittlung der Inhalte, Interaktion, Lernerfolg und Gesamtzufriedenheit. Ein beispielhafte Darstellung der genauen Berechnung findet sich im Erläuterungsdokument zum Standardfragebogen (S. 11 und Anhang B).

Manuel Bör

Beiträge

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.