Zum Inhalt springen

Untersuchung der Retest-Reliabilität des Modularen Online-Tests für Verwaltungen

Autorin: Marcella Gaudino



Ziel der vorliegenden Untersuchung war es, die Zuverlässigkeit des Modularen Online-Tests für Verwaltungen (MOT-V) zu überprüfen. Konkret ging es darum, die Stabilität der Testergebnisse über einen bestimmten Zeitraum zu erfassen und zu diskutieren.

Stabilität der Ergebnisse: Der MOT-V im Test

Diese Studie untersucht die Retest-Reliabilität des von der dgp entwickelten Modularen Online-Tests für Verwaltungen (MOT-V). Die Retest-Reliabilität ist eine Methode zur Überprüfung der Zuverlässigkeit eines Tests. Dabei wird die Konsistenz (Stabilität) der Testergebnisse einer Gruppe von Teilnehmenden gemessen, die den Test zu zwei verschiedenen Zeitpunkten absolvieren.

Ziel ist es, festzustellen, wie stabil und zuverlässig die Testergebnisse über die Zeit hinweg sind. Dafür wird die Korrelation zwischen den Ergebnissen der beiden Testdurchläufe berechnet. Eine hohe Korrelation weist daraufhin, dass der Test zeitlich konsistente Ergebnisse liefert. Wenn ein Test eine hohe Retest-Reliabilität aufweist, bedeutet dies, dass die Ergebnisse nicht stark von temporären Faktoren beeinflusst werden. Reliabilitäten ab .70 sind für Gruppenvergleiche akzeptabel (Nunnally & Bernstein, 1994).

Der MOT-V ist eine Testbatterie, die die verbale und numerische Verarbeitungskapazität erfasst. Verarbeitungskapazität ist ein zentraler Bestandteil von Intelligenz, welche von der Kindheit bis ins hohe Alter eine hohe Stabilität aufweist (Deary, et al., 2000). Die Testbatterie besteht aus acht Testbereichen (Modulen). Zu den Testmodulen der verbalen Verarbeitungskapazität gehören Verbale Analogien, Wortklassifikation, Schlüsse Vergleichen und Textanalyse mit insgesamt 60 Items. Die Testbereiche Tabellen und Statistiken, Textrechnen, Zahlenreihen und Grundrechnen sind der numerischen Verarbeitungskapazität untergeordnet, die mittels 63 Items erfasst wird.

Die Zielgruppe der Testbatterie sind Bewerber*innen für kaufmännische Berufe/mittlerer Dienst (Laufbahngruppe 1.2) sowie Bewerber*innen gehobener Dienst (Laufbahngruppe 2.1). Die Durchführung der gesamten Testbatterie dauert etwa zwei Stunden. Die Teilnehmenden absolvierten den Test online mit einem eigenen Laptop/PC in einer selbst ausgesuchten Umgebung. Dabei wurden alle Teilnehmenden beim ersten sowie zweiten Testdurchlauf überwacht; die meisten mittels der Software PRUEFSTER, bei der eine Ausweiskontrolle und Aufnahme des Bildschirmes sowie der Frontkamera verpflichtend ist. Ziel dabei ist es, Täuschungsversuche möglichst zu vermeiden (Jobmann & Kleinmanns, 2023).

Stichprobe

Die Stichprobe umfasst 74 Teilnehmende aus Deutschland, die im Zeitraum von 2022 bis 2024 zweimal an einem High-Stakes-Bewerbungsverfahren eines Kunden der dgp teilnahmen. Die Teilnehmenden bewarben sich auf Stellen im mittleren oder gehobenen Dienst bei einer Bundesbehörde. Zwischen den beiden Testzeitpunkten lagen mindestens 6 und maximal 12 Monate. Die Stichprobe setzt sich aus 40 weiblichen, 33 männlichen und einer diversen Teilnehmenden zusammen. Das durchschnittliche Alter der Teilnehmenden beträgt 30.05 Jahre (SD = 9.56), wobei die Altersspanne von 17 bis 57 Jahren reicht.

Analysen

Die Testergebnisse wurden auf der Ebene der verbalen und numerischen Verarbeitungskapazität sowie auf Gesamttest-Ebene analysiert, siehe Tabelle 1. Die Berechnungen erfolgten durch das Programm R (Version 4.3.3; R Core Team, 2024). Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r =  .72 mit einer mittleren Veränderung von 5.26 Punkten von Testzeitpunkt 1 zu Testzeitpunkt 2. Die Teilnehmenden erzielten im zweiten Testdurchlauf im Durchschnitt 5.26 Punkte mehr als im ersten Durchlauf, was auf eine Verbesserung der Leistung hinweist. Für die verbale Verarbeitungskapazität liegt die unkorrigierte Retest-Reliabilität bei r = .61 und die durchschnittliche Veränderung beträgt 1.08 Punkte. Der unkorrigierte Retest-Koeffizient der numerischen Verarbeitungskapazität beträgt r = .77 mit einer durchschnittlichen Veränderung von 4.18 Punkten.

Um zu untersuchen, ob ein signifikanter Unterschied zwischen den Testmittelwerten der gleichen Personen bei zwei Testzeitpunkten besteht, wird ein t-Test für gepaarte Stichproben oder eine Effektgröße der Mittelwertunterschiede (Cohen’s d) berechnet (Lievens et al., 2005; siehe Tabelle 1). Bei einem Alpha-Level von .05 zeigen die numerische Verarbeitungskapazität sowie der Gesamttest einen signifikanten Anstieg der Testergebnisse beim zweiten Testdurchlauf.

Tabelle zur Darstellung der Retest-Reliabilität (rtt), Mittelwerte (M), Standardabweichungen (SD), t-Werte, Freiheitsgrade (df), p-Werte und 95%-Konfidenzintervalle für die verbale Verarbeitungskapazität (vVK), numerische Verarbeitungskapazität (nVK) und den Gesamttest.

Diskussion

Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r = .72, was gemäß Nunnally und Bernstein (1994) eine akzeptable Retest-Reliabilität darstellt. Für die verbale Verarbeitungskapazität liegt die Retest-Reliabilität bei r = .61, und für die numerische Verarbeitungskapazität beträgt sie r = .77. Zudem liegt eine Verbesserung der Testleistung vor, die sich in einer Steigerung von 5,26 korrekten Antworten bei insgesamt 123 möglichen korrekten Antworten zeigt. Es ist jedoch ratsam, die Ergebnisse vorsichtig zu betrachten, da einige Aspekte in die Aussagekraft der Ergebnisse eingreifen.

Unsere Stichprobe umfasste nur 74 Teilnehmende, die an beiden Testzeitpunkten teilgenommen hatten. Zudem stammen die Daten nur von einem Kunden, der Bewerber*innen für Berufsbilder im mittleren und gehobenen Dienst rekrutiert. Die Bewerbenden mit zweimaliger Teilnahme sind zum großen Teil solche Personen, die bei der ersten Teilnahme nicht erfolgreich waren. Dadurch ist unsere Stichprobe nicht geplant, sondern hochselektiv, was die niedrigere Reliabilität akzeptabel erscheinen lässt. Für alle Bewerber*innen liegen zwischen dem ersten und dem zweiten Test mindestens 6 und maximal 12 Monate, aber die Zeiträume sind bei allen Teilnehmenden unterschiedlich. Dennoch gehen wir nicht von einer Varianzeinschränkung aus, da die Varianzen in der Teilstichprobe meistens genauso groß wie in der Gesamtstichprobe des Kunden waren.

Ein potenzielles Problem bei der Erfassung der Retest-Reliabilität sind Erinnerungs- und Übungseffekte der Teilnehmenden. Erinnerungseffekte treten auf, wenn Personen sich bei der Wiederholung eines Tests an ihre früheren Antworten erinnern und diese erneut angeben. Übungseffekte dagegen treten auf, wenn Personen bei wiederholten Tests durch die vorherige Testung profitieren und dadurch bessere Ergebnisse erzielen, wodurch sich die Retest-Reliabilität auch hier künstlich erhöht (Schermelleh-Engel & Werner, 2008). Da wir ausschließlich Daten von Bewerber*innen mit einem Mindestabstand von sechs Monaten zwischen den Testzeitpunkten vorliegen haben, gehen wir nicht von Erinnerungseffekten aus. Übungseffekte können wir nicht ausschließen; zur Vorbereitung auf den Test stellen wir Übungsaufgaben zur Verfügung und raten allen Bewerbenden, diese zu bearbeiten, um den Effekt von Übung bei allen möglichst konstant zu halten.

Literaturverzeichnis

Deary, I. J., Whalley, L. J., Lemmon, H., Crawford, J. R., & Starr, J. M. (2000). The stability of individual differences in mental ability from childhood to old age: Follow-up of the 1932 Scottish Mental Survey. Intelligence, 28(1), 49–55. https://doi.org/10.1016/S0160-2896(99)00031-8

Jobmann, A. & Kleinmanns, A. (2023). Welchen Nutzen bringt Proctoring von Online-Tests? dgp Informationen 2023/24. 

Lievens, F., Buyse, T., & Sackett, P. R. (2005). Retest effects in operational selection settings: Development and test of a framework. Personnel Psychology, 58(4), 981–1007. https://doi.org/10.1111/j.1744-6570.2005.00713.x

Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). McGraw-Hill.

R Core Team. (2024). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Schermelleh-Engel, K., Werner, C. (2008). Methoden der Reliabilitätsbestimmung. In: Moosbrugger, H., Kelava, A. (Hrsg.) Testtheorie und Fragebogenkonstruktion. Springer. https://doi.org/10.1007/978-3-540-71635-8_6


Marcella Gaudino

Marcella Gaudino

Praktikantin bei Forschung & Entwicklung, dgp
Zeitraum: März bis September 2024

Marcella Gaudino studiert im 4. Semester „Empirische Bildungsforschung und Pädagogische Psychologie“ an Eberhard Karls Universität in Tübingen und war 2024 im Rahmen eines Pflichtpraktikums ein halbes Jahr bei der Deutschen Gesellschaft für Personalwesen e. V. in der Abteilung Forschung und Entwicklung beschäftigt und hat in dieser Zeit unter anderem die vorliegende Untersuchung erstellt.

Mehr Neuigkeiten

Icon für Kalender 10.04.2025

3. Erfahrungsaustausch zur Personalarbeit von Feuerwehren  

Auf Einladung der dgp kamen im März 2025 wieder Personalverantwortliche der Feuerwehren in den östlichen Bundesländern zu einem spannenden Austausch zusammen.
Icon für Tags Veranstaltungen
Icon für Kalender 09.04.2025

Webinar: Neuer Ansatz für Nachwuchs-Assessments – Pilotprojekt mit der Hansestadt Stade 

Die Hansestadt Stade hat mit der dgp ein neues und erfolgreiches Nachwuchs-Assessment konzipiert, welches im Rahmen eines Webinars am 7. Mai 2025 vorgestellt wird. Melden Sie sich jetzt an!
Icon für Tags Veranstaltungen
Icon für Kalender 07.04.2025

Personelle Veränderungen im Vorstand der dgp

Die Deutsche Gesellschaft für Personalwesen e. V. (dgp) hat ein neues Vorstandsgremium mit Michael Sothmann als neuem Vorstandsvorsitzenden und Isabel Limmer als stellvertretende Vorstandsvorsitzende. Die dgp freut sich auf die künftige Zusammenarbeit.
Icon für Tags Unternehmen
Icon für Kalender 31.03.2025

Webinar-Aufzeichnung: Wie sicher sind Online-Eignungstests?

Was passiert, wenn Bewerber*innen in Testverfahren täuschen, um ihre Ergebnisse zu verbessern? Im dgp-Webinar wird beleuchtet, wie häufig getäuscht wird, welche Folgen Täuschung hat und wie in der Praxis gegengesteuert wird.
Icon für Tags Veranstaltungen
Icon für Kalender 12.02.2025

Video: Potenziale von Bewerber*innen und Mitarbeiter*innen erkennen  

Ab sofort steht die Video-Aufzeichnung des Webinars zum Thema Potenzialdiagnostik zur Verfügung. Sie erfahren, was in der Personalpsychologie unter Potenzial verstanden wird und welche Relevanz es bei der Stellenbesetzung haben kann.
Icon für Tags Veranstaltungen
Icon für Kalender 28.01.2025

Schummeln leicht gemacht? Webinar zur Sicherheit von Online-Eignungstests 

Melden Sie sich jetzt für das kostenfreie Webinar "Sicherheit von Online-Eignungstests" am 20. März 2025 an! Sie erfahren, welche Fragen sich im Zusammenhang mit der Aussagekraft von Online-Tests stellen sowie wie man deren Integrität sicherstellen kann.
Icon für Tags Veranstaltungen
Icon für Kalender 28.01.2025

TBS-DTK-Transparenz-Zertifikat für die dgp

Das TBS-DTK-Transparenz-Zertifikat, vergeben vom Diagnostik- und Testkuratorium (DTK) der Föderation Deutscher Psychologenvereinigungen, dient als Gütesiegel für die Dokumentation psychologischer Testverfahren.
Icon für Tags Unternehmen
Icon für Kalender 09.01.2025

Berliner dgp-Team in neuen Räumlichkeiten – ab jetzt im Regierungsviertel

Offiziell zum 1. Januar 2025 hat das Berliner Team der Deutschen Gesellschaft für Personalwesen e. V. neue Räumlichkeiten bezogen. Ab sofort befindet sich das Büro in der Glinkastraße 30, mitten im Berliner Regierungsviertel.
Icon für Tags Unternehmen
Icon für Kalender 16.12.2024

Fachbeitrag: "Auswahlverfahren haben doch nichts mit der Realität zu tun!"

Kommt Ihnen das bekannt vor? Viele Personalauswahlverfahren stehen auf einem tendenziell wackeligen Fundament. Dabei gibt es eine hilfreiche Basis für erfolgreiche Stellenbesetzungen: die Anforderungsanalyse nach DIN 33430.
Icon für Tags Veröffentlichungen