Fachbeitrag: Retest-Reliabilität des Modularen Online-Tests

Autorin: Marcella Gaudino

Ziel der vorliegenden Untersuchung war es, die Zuverlässigkeit des Modularen Online-Tests für Verwaltungen (MOT-V) zu überprüfen. Konkret ging es darum, die Stabilität der Testergebnisse über einen bestimmten Zeitraum zu erfassen und zu diskutieren.

Stabilität der Ergebnisse: Der MOT-V im Test

Diese Studie untersucht die Retest-Reliabilität des von der dgp entwickelten Modularen Online-Tests für Verwaltungen (MOT-V). Die Retest-Reliabilität ist eine Methode zur Überprüfung der Zuverlässigkeit eines Tests. Dabei wird die Konsistenz (Stabilität) der Testergebnisse einer Gruppe von Teilnehmenden gemessen, die den Test zu zwei verschiedenen Zeitpunkten absolvieren.

Ziel ist es, festzustellen, wie stabil und zuverlässig die Testergebnisse über die Zeit hinweg sind. Dafür wird die Korrelation zwischen den Ergebnissen der beiden Testdurchläufe berechnet. Eine hohe Korrelation weist daraufhin, dass der Test zeitlich konsistente Ergebnisse liefert. Wenn ein Test eine hohe Retest-Reliabilität aufweist, bedeutet dies, dass die Ergebnisse nicht stark von temporären Faktoren beeinflusst werden. Reliabilitäten ab .70 sind für Gruppenvergleiche akzeptabel (Nunnally & Bernstein, 1994).

Der MOT-V ist eine Testbatterie, die die verbale und numerische Verarbeitungskapazität erfasst. Verarbeitungskapazität ist ein zentraler Bestandteil von Intelligenz, welche von der Kindheit bis ins hohe Alter eine hohe Stabilität aufweist (Deary, et al., 2000). Die Testbatterie besteht aus acht Testbereichen (Modulen). Zu den Testmodulen der verbalen Verarbeitungskapazität gehören Verbale Analogien, Wortklassifikation, Schlüsse Vergleichen und Textanalyse mit insgesamt 60 Items. Die Testbereiche Tabellen und Statistiken, Textrechnen, Zahlenreihen und Grundrechnen sind der numerischen Verarbeitungskapazität untergeordnet, die mittels 63 Items erfasst wird.

Die Zielgruppe der Testbatterie sind Bewerber*innen für kaufmännische Berufe/mittlerer Dienst (Laufbahngruppe 1.2) sowie Bewerber*innen gehobener Dienst (Laufbahngruppe 2.1). Die Durchführung der gesamten Testbatterie dauert etwa zwei Stunden. Die Teilnehmenden absolvierten den Test online mit einem eigenen Laptop/PC in einer selbst ausgesuchten Umgebung. Dabei wurden alle Teilnehmenden beim ersten sowie zweiten Testdurchlauf überwacht; die meisten mittels der Software PRUEFSTER, bei der eine Ausweiskontrolle und Aufnahme des Bildschirmes sowie der Frontkamera verpflichtend ist. Ziel dabei ist es, Täuschungsversuche möglichst zu vermeiden (Jobmann & Kleinmanns, 2023).

Stichprobe

Die Stichprobe umfasst 74 Teilnehmende aus Deutschland, die im Zeitraum von 2022 bis 2024 zweimal an einem High-Stakes-Bewerbungsverfahren eines Kunden der dgp teilnahmen. Die Teilnehmenden bewarben sich auf Stellen im mittleren oder gehobenen Dienst bei einer Bundesbehörde. Zwischen den beiden Testzeitpunkten lagen mindestens 6 und maximal 12 Monate. Die Stichprobe setzt sich aus 40 weiblichen, 33 männlichen und einer diversen Teilnehmenden zusammen. Das durchschnittliche Alter der Teilnehmenden beträgt 30.05 Jahre (SD = 9.56), wobei die Altersspanne von 17 bis 57 Jahren reicht.

Analysen

Die Testergebnisse wurden auf der Ebene der verbalen und numerischen Verarbeitungskapazität sowie auf Gesamttest-Ebene analysiert, siehe Tabelle 1. Die Berechnungen erfolgten durch das Programm R (Version 4.3.3; R Core Team, 2024). Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r = .72 mit einer mittleren Veränderung von 5.26 Punkten von Testzeitpunkt 1 zu Testzeitpunkt 2. Die Teilnehmenden erzielten im zweiten Testdurchlauf im Durchschnitt 5.26 Punkte mehr als im ersten Durchlauf, was auf eine Verbesserung der Leistung hinweist. Für die verbale Verarbeitungskapazität liegt die unkorrigierte Retest-Reliabilität bei r = .61 und die durchschnittliche Veränderung beträgt 1.08 Punkte. Der unkorrigierte Retest-Koeffizient der numerischen Verarbeitungskapazität beträgt r = .77 mit einer durchschnittlichen Veränderung von 4.18 Punkten.

Um zu untersuchen, ob ein signifikanter Unterschied zwischen den Testmittelwerten der gleichen Personen bei zwei Testzeitpunkten besteht, wird ein t-Test für gepaarte Stichproben oder eine Effektgröße der Mittelwertunterschiede (Cohen’s d) berechnet (Lievens et al., 2005; siehe Tabelle 1). Bei einem Alpha-Level von .05 zeigen die numerische Verarbeitungskapazität sowie der Gesamttest einen signifikanten Anstieg der Testergebnisse beim zweiten Testdurchlauf.

Tabelle zur Darstellung der Retest-Reliabilität (rtt), Mittelwerte (M), Standardabweichungen (SD), t-Werte, Freiheitsgrade (df), p-Werte und 95%-Konfidenzintervalle für die verbale Verarbeitungskapazität (vVK), numerische Verarbeitungskapazität (nVK) und den Gesamttest.

Diskussion

Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r = .72, was gemäß Nunnally und Bernstein (1994) eine akzeptable Retest-Reliabilität darstellt. Für die verbale Verarbeitungskapazität liegt die Retest-Reliabilität bei r = .61, und für die numerische Verarbeitungskapazität beträgt sie r = .77. Zudem liegt eine Verbesserung der Testleistung vor, die sich in einer Steigerung von 5,26 korrekten Antworten bei insgesamt 123 möglichen korrekten Antworten zeigt. Es ist jedoch ratsam, die Ergebnisse vorsichtig zu betrachten, da einige Aspekte in die Aussagekraft der Ergebnisse eingreifen.

Unsere Stichprobe umfasste nur 74 Teilnehmende, die an beiden Testzeitpunkten teilgenommen hatten. Zudem stammen die Daten nur von einem Kunden, der Bewerber*innen für Berufsbilder im mittleren und gehobenen Dienst rekrutiert. Die Bewerbenden mit zweimaliger Teilnahme sind zum großen Teil solche Personen, die bei der ersten Teilnahme nicht erfolgreich waren. Dadurch ist unsere Stichprobe nicht geplant, sondern hochselektiv, was die niedrigere Reliabilität akzeptabel erscheinen lässt. Für alle Bewerber*innen liegen zwischen dem ersten und dem zweiten Test mindestens 6 und maximal 12 Monate, aber die Zeiträume sind bei allen Teilnehmenden unterschiedlich. Dennoch gehen wir nicht von einer Varianzeinschränkung aus, da die Varianzen in der Teilstichprobe meistens genauso groß wie in der Gesamtstichprobe des Kunden waren.

Ein potenzielles Problem bei der Erfassung der Retest-Reliabilität sind Erinnerungs- und Übungseffekte der Teilnehmenden. Erinnerungseffekte treten auf, wenn Personen sich bei der Wiederholung eines Tests an ihre früheren Antworten erinnern und diese erneut angeben. Übungseffekte dagegen treten auf, wenn Personen bei wiederholten Tests durch die vorherige Testung profitieren und dadurch bessere Ergebnisse erzielen, wodurch sich die Retest-Reliabilität auch hier künstlich erhöht (Schermelleh-Engel & Werner, 2008). Da wir ausschließlich Daten von Bewerber*innen mit einem Mindestabstand von sechs Monaten zwischen den Testzeitpunkten vorliegen haben, gehen wir nicht von Erinnerungseffekten aus. Übungseffekte können wir nicht ausschließen; zur Vorbereitung auf den Test stellen wir Übungsaufgaben zur Verfügung und raten allen Bewerbenden, diese zu bearbeiten, um den Effekt von Übung bei allen möglichst konstant zu halten.

Literaturverzeichnis

Deary, I. J., Whalley, L. J., Lemmon, H., Crawford, J. R., & Starr, J. M. (2000). The stability of individual differences in mental ability from childhood to old age: Follow-up of the 1932 Scottish Mental Survey. Intelligence, 28(1), 49–55. https://doi.org/10.1016/S0160-2896(99)00031-8

Jobmann, A. & Kleinmanns, A. (2023). Welchen Nutzen bringt Proctoring von Online-Tests? dgp Informationen 2023/24.

Lievens, F., Buyse, T., & Sackett, P. R. (2005). Retest effects in operational selection settings: Development and test of a framework. Personnel Psychology, 58(4), 981–1007. https://doi.org/10.1111/j.1744-6570.2005.00713.x

Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). McGraw-Hill.

R Core Team. (2024). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Schermelleh-Engel, K., Werner, C. (2008). Methoden der Reliabilitätsbestimmung. In: Moosbrugger, H., Kelava, A. (Hrsg.) Testtheorie und Fragebogenkonstruktion. Springer. https://doi.org/10.1007/978-3-540-71635-8_6

Marcella Gaudino

Praktikantin bei Forschung & Entwicklung, dgp
Zeitraum: März bis September 2024

Marcella Gaudino studiert im 4. Semester „Empirische Bildungsforschung und Pädagogische Psychologie“ an Eberhard Karls Universität in Tübingen und war 2024 im Rahmen eines Pflichtpraktikums ein halbes Jahr bei der Deutschen Gesellschaft für Personalwesen e. V. in der Abteilung Forschung und Entwicklung beschäftigt und hat in dieser Zeit unter anderem die vorliegende Untersuchung erstellt.

Titelbild mit Auge zu Fachbeitrag "Welchen Nutzen bringt Proctoring von Online-Tests" in den dgp informationen

Weiterführende Literatur:

Nutzen von Proctoring

Untersuchung der Retest-Reliabilität des Modularen Online-Tests für Verwaltungen

Stabilität der Ergebnisse: Der MOT-V im Test

Stichprobe

Analysen

Diskussion

Literaturverzeichnis

Mehr Neuigkeiten

Video: Anforderungsanalyse in der Personalauswahl nach DIN 33430

dgp auf dem KGSt-Forum 2026: Impulse für ein modernes Karriereverständnis

Einladung zum Webinar: Persönlichkeitstests in der Personalarbeit

Praxispartner*innen gesucht: Kooperation in Validierungsstudien zu SJTs

Fachbeitrag: Sozialkompetenz schriftlich messen – (wie) geht das?

Neues Seminarthema: Führen in Teilzeit – wirksam, klar und gut organisiert

Webinar Anforderungsanalyse verschoben – Ersatztermin steht

Stellenangebot: Rollenspieler*innen in der Region Hannover

Einladung zum Webinar: Anforderungsanalyse in der Personalauswahl