Direkt zum Inhalt wechseln

Untersuchung der Retest-Reliabilität des Modularen Online-Tests für Verwaltungen

Autorin: Marcella Gaudino



Ziel der vorliegenden Untersuchung war es, die Zuverlässigkeit des Modularen Online-Tests für Verwaltungen (MOT-V) zu überprüfen. Konkret ging es darum, die Stabilität der Testergebnisse über einen bestimmten Zeitraum zu erfassen und zu diskutieren.

Stabilität der Ergebnisse: Der MOT-V im Test

Diese Studie untersucht die Retest-Reliabilität des von der dgp entwickelten Modularen Online-Tests für Verwaltungen (MOT-V). Die Retest-Reliabilität ist eine Methode zur Überprüfung der Zuverlässigkeit eines Tests. Dabei wird die Konsistenz (Stabilität) der Testergebnisse einer Gruppe von Teilnehmenden gemessen, die den Test zu zwei verschiedenen Zeitpunkten absolvieren.

Ziel ist es, festzustellen, wie stabil und zuverlässig die Testergebnisse über die Zeit hinweg sind. Dafür wird die Korrelation zwischen den Ergebnissen der beiden Testdurchläufe berechnet. Eine hohe Korrelation weist daraufhin, dass der Test zeitlich konsistente Ergebnisse liefert. Wenn ein Test eine hohe Retest-Reliabilität aufweist, bedeutet dies, dass die Ergebnisse nicht stark von temporären Faktoren beeinflusst werden. Reliabilitäten ab .70 sind für Gruppenvergleiche akzeptabel (Nunnally & Bernstein, 1994).

Der MOT-V ist eine Testbatterie, die die verbale und numerische Verarbeitungskapazität erfasst. Verarbeitungskapazität ist ein zentraler Bestandteil von Intelligenz, welche von der Kindheit bis ins hohe Alter eine hohe Stabilität aufweist (Deary, et al., 2000). Die Testbatterie besteht aus acht Testbereichen (Modulen). Zu den Testmodulen der verbalen Verarbeitungskapazität gehören Verbale Analogien, Wortklassifikation, Schlüsse Vergleichen und Textanalyse mit insgesamt 60 Items. Die Testbereiche Tabellen und Statistiken, Textrechnen, Zahlenreihen und Grundrechnen sind der numerischen Verarbeitungskapazität untergeordnet, die mittels 63 Items erfasst wird.

Die Zielgruppe der Testbatterie sind Bewerber*innen für kaufmännische Berufe/mittlerer Dienst (Laufbahngruppe 1.2) sowie Bewerber*innen gehobener Dienst (Laufbahngruppe 2.1). Die Durchführung der gesamten Testbatterie dauert etwa zwei Stunden. Die Teilnehmenden absolvierten den Test online mit einem eigenen Laptop/PC in einer selbst ausgesuchten Umgebung. Dabei wurden alle Teilnehmenden beim ersten sowie zweiten Testdurchlauf überwacht; die meisten mittels der Software PRUEFSTER, bei der eine Ausweiskontrolle und Aufnahme des Bildschirmes sowie der Frontkamera verpflichtend ist. Ziel dabei ist es, Täuschungsversuche möglichst zu vermeiden (Jobmann & Kleinmanns, 2023).

Stichprobe

Die Stichprobe umfasst 74 Teilnehmende aus Deutschland, die im Zeitraum von 2022 bis 2024 zweimal an einem High-Stakes-Bewerbungsverfahren eines Kunden der dgp teilnahmen. Die Teilnehmenden bewarben sich auf Stellen im mittleren oder gehobenen Dienst bei einer Bundesbehörde. Zwischen den beiden Testzeitpunkten lagen mindestens 6 und maximal 12 Monate. Die Stichprobe setzt sich aus 40 weiblichen, 33 männlichen und einer diversen Teilnehmenden zusammen. Das durchschnittliche Alter der Teilnehmenden beträgt 30.05 Jahre (SD = 9.56), wobei die Altersspanne von 17 bis 57 Jahren reicht.

Analysen

Die Testergebnisse wurden auf der Ebene der verbalen und numerischen Verarbeitungskapazität sowie auf Gesamttest-Ebene analysiert, siehe Tabelle 1. Die Berechnungen erfolgten durch das Programm R (Version 4.3.3; R Core Team, 2024). Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r =  .72 mit einer mittleren Veränderung von 5.26 Punkten von Testzeitpunkt 1 zu Testzeitpunkt 2. Die Teilnehmenden erzielten im zweiten Testdurchlauf im Durchschnitt 5.26 Punkte mehr als im ersten Durchlauf, was auf eine Verbesserung der Leistung hinweist. Für die verbale Verarbeitungskapazität liegt die unkorrigierte Retest-Reliabilität bei r = .61 und die durchschnittliche Veränderung beträgt 1.08 Punkte. Der unkorrigierte Retest-Koeffizient der numerischen Verarbeitungskapazität beträgt r = .77 mit einer durchschnittlichen Veränderung von 4.18 Punkten.

Um zu untersuchen, ob ein signifikanter Unterschied zwischen den Testmittelwerten der gleichen Personen bei zwei Testzeitpunkten besteht, wird ein t-Test für gepaarte Stichproben oder eine Effektgröße der Mittelwertunterschiede (Cohen’s d) berechnet (Lievens et al., 2005; siehe Tabelle 1). Bei einem Alpha-Level von .05 zeigen die numerische Verarbeitungskapazität sowie der Gesamttest einen signifikanten Anstieg der Testergebnisse beim zweiten Testdurchlauf.

Tabelle zur Darstellung der Retest-Reliabilität (rtt), Mittelwerte (M), Standardabweichungen (SD), t-Werte, Freiheitsgrade (df), p-Werte und 95%-Konfidenzintervalle für die verbale Verarbeitungskapazität (vVK), numerische Verarbeitungskapazität (nVK) und den Gesamttest.

Diskussion

Die unkorrigierte Retest-Reliabilität des Gesamttests beträgt r = .72, was gemäß Nunnally und Bernstein (1994) eine akzeptable Retest-Reliabilität darstellt. Für die verbale Verarbeitungskapazität liegt die Retest-Reliabilität bei r = .61, und für die numerische Verarbeitungskapazität beträgt sie r = .77. Zudem liegt eine Verbesserung der Testleistung vor, die sich in einer Steigerung von 5,26 korrekten Antworten bei insgesamt 123 möglichen korrekten Antworten zeigt. Es ist jedoch ratsam, die Ergebnisse vorsichtig zu betrachten, da einige Aspekte in die Aussagekraft der Ergebnisse eingreifen.

Unsere Stichprobe umfasste nur 74 Teilnehmende, die an beiden Testzeitpunkten teilgenommen hatten. Zudem stammen die Daten nur von einem Kunden, der Bewerber*innen für Berufsbilder im mittleren und gehobenen Dienst rekrutiert. Die Bewerbenden mit zweimaliger Teilnahme sind zum großen Teil solche Personen, die bei der ersten Teilnahme nicht erfolgreich waren. Dadurch ist unsere Stichprobe nicht geplant, sondern hochselektiv, was die niedrigere Reliabilität akzeptabel erscheinen lässt. Für alle Bewerber*innen liegen zwischen dem ersten und dem zweiten Test mindestens 6 und maximal 12 Monate, aber die Zeiträume sind bei allen Teilnehmenden unterschiedlich. Dennoch gehen wir nicht von einer Varianzeinschränkung aus, da die Varianzen in der Teilstichprobe meistens genauso groß wie in der Gesamtstichprobe des Kunden waren.

Ein potenzielles Problem bei der Erfassung der Retest-Reliabilität sind Erinnerungs- und Übungseffekte der Teilnehmenden. Erinnerungseffekte treten auf, wenn Personen sich bei der Wiederholung eines Tests an ihre früheren Antworten erinnern und diese erneut angeben. Übungseffekte dagegen treten auf, wenn Personen bei wiederholten Tests durch die vorherige Testung profitieren und dadurch bessere Ergebnisse erzielen, wodurch sich die Retest-Reliabilität auch hier künstlich erhöht (Schermelleh-Engel & Werner, 2008). Da wir ausschließlich Daten von Bewerber*innen mit einem Mindestabstand von sechs Monaten zwischen den Testzeitpunkten vorliegen haben, gehen wir nicht von Erinnerungseffekten aus. Übungseffekte können wir nicht ausschließen; zur Vorbereitung auf den Test stellen wir Übungsaufgaben zur Verfügung und raten allen Bewerbenden, diese zu bearbeiten, um den Effekt von Übung bei allen möglichst konstant zu halten.

Literaturverzeichnis

Deary, I. J., Whalley, L. J., Lemmon, H., Crawford, J. R., & Starr, J. M. (2000). The stability of individual differences in mental ability from childhood to old age: Follow-up of the 1932 Scottish Mental Survey. Intelligence, 28(1), 49–55. https://doi.org/10.1016/S0160-2896(99)00031-8

Jobmann, A. & Kleinmanns, A. (2023). Welchen Nutzen bringt Proctoring von Online-Tests? dgp Informationen 2023/24. 

Lievens, F., Buyse, T., & Sackett, P. R. (2005). Retest effects in operational selection settings: Development and test of a framework. Personnel Psychology, 58(4), 981–1007. https://doi.org/10.1111/j.1744-6570.2005.00713.x

Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). McGraw-Hill.

R Core Team. (2024). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Schermelleh-Engel, K., Werner, C. (2008). Methoden der Reliabilitätsbestimmung. In: Moosbrugger, H., Kelava, A. (Hrsg.) Testtheorie und Fragebogenkonstruktion. Springer. https://doi.org/10.1007/978-3-540-71635-8_6


Marcella Gaudino

Marcella Gaudino

Praktikantin bei Forschung & Entwicklung, dgp
Zeitraum: März bis September 2024

Marcella Gaudino studiert im 4. Semester „Empirische Bildungsforschung und Pädagogische Psychologie“ an Eberhard Karls Universität in Tübingen und war 2024 im Rahmen eines Pflichtpraktikums ein halbes Jahr bei der Deutschen Gesellschaft für Personalwesen e. V. in der Abteilung Forschung und Entwicklung beschäftigt und hat in dieser Zeit unter anderem die vorliegende Untersuchung erstellt.

Mehr Neuigkeiten

Icon für Kalender 26.09.2024

dgp-Webinar zeigt, wie sich Potenziale bei Bewerber*innen erkennen lassen 

Das Webinar „Neue Wege in der Personalauswahl – Wie sich Potenziale von Bewerber*innen und Mitarbeiter*innen erkennen lassen“ findet am 7.2.2025 statt. Jetzt kostenfrei anmelden!
Icon für Tags Veranstaltungen
Icon für Kalender 25.09.2024

dgp modernisiert ihre Satzung – gültig seit dem 5. September 2024 

Zum 5. September 2024 wurde die neue Satzung der dgp ins Vereinsregister aufgenommen. Es ist die sechste Satzungsversion seit der Vereinsgründung im Jahre 1949.
Icon für Tags Unternehmen
Icon für Kalender 18.09.2024

Webinar zu Eignungsdiagnostik trotz oder wegen Fachkräftemangel? 

Das Webinar „Objektive und datenbasierte Personalauswahl – Wie das richtige Testverfahren hilft, Fehlentscheidungen bei der Stellenbesetzung zu vermeiden“ findet am 6.11.2024 statt. Jetzt kostenfrei anmelden!
Icon für Tags Veranstaltungen
Icon für Kalender 24.07.2024

Dienstleistungs-Angebot für Feuerwehren wird vorgestellt und ausgebaut 

Die dgp bietet Feuerwehren in Deutschland Beratungsleistungen und maßgeschneiderte Lösungen für ein effektives Personalmanagement an, um aktuelle Herausforderungen zu bewältigen.
Icon für Tags Unternehmen
Icon für Kalender 17.07.2024

Verstärkung im Team: neue Kolleginnen in Hannover und Berlin

Herzlich willkommen im Team und viel Erfolg bei der dgp wünschen wir Nisrin Jemel im Bereich Seminarorganisation in Hannover sowie Joana Thielen als Personalpsychologin in Berlin.
Icon für Tags Unternehmen
Icon für Kalender 03.07.2024

Bitte um Teilnahme: Forschungsprojekt zum Arbeitsverhalten  

Machen Sie mit bei der Umfrage der dgp-Abteilung "Forschung und Entwicklung" zu Arbeitsverhalten und Arbeitszufriedenheit! Ihre Antworten sind natürlich komplett anonym.
Icon für Tags Unternehmen
Icon für Kalender 14.06.2024

Tradition und Innovation: dgp feiert 75-jähriges Bestehen mit Festprogramm  

In den Räumen des Sprengel Museums Hannover feierte die Deutsche Gesellschaft für Personalwesen e. V. in der vergangenen Woche ihren 75. Geburtstag mit zahlreichen Gästen.
Icon für Tags Veranstaltungen
Icon für Kalender 07.06.2024

Werte und Geschichte der dgp als Jubiläumsvideo  

Der erste Unternehmensfilm der dgp präsentiert eine Zeitreise durch die vergangenen 75 Jahre des Vereins und zeigt auf, was die Deutsche Gesellschaft für Personalwesen (aus)macht.
Icon für Tags Unternehmen
Icon für Kalender 28.05.2024

Jubiläumsausgabe "dgp informationen" erschienen

Aus Anlass des 75. Jahrestages der dgp sind die aktuellen "dgp informationen" als Jubiläumsausgabe erschienen. Neben zahlreichen Fachartikeln zu personalpsychologischen Themen gibt es Sonderbeiträge wie z. B. Interviews mit dem Führungsteam.
Icon für Tags Veröffentlichungen