Sind wir bei PISA wirklich schlechter geworden?

Posted by Erich Neuwirth on 7. Dezember 2016 in Allgemein with Comments closed | ∞

Ich habe gestern einen ersten Kommentar zu den PISA-Ergebnissen für 2015 verfasst.

Das am meisten berichtete Ergebnis war, dass wir uns im Vergleich zu 2012 in allen Gebieten verschlechtert haben.

Nicht berichtet wurde in der Regel, dass es da große geschlechterspezifische Unterschiede gibt.

Die Ergebnisse der Buben beim Lesen sind sogar geringfügig besser, die der Mädchen aber bedeutend schlechter.
In Mathematik und ind den Naturwissenschaften wurden die Ergebnisse sowohl der Buben als auch der Mädchen schlechter,
die Verschlechterung bei dem Mädchen war aber deutlich höher als bei den Buben.

Wenn man nach Erklärungen für diese Unterschiede sucht und die österreichische Dokumentation zu PISA 2015 liest, dann stellt man fest, dass es einen großen Unterschied zwischen PISA 2015 und den früheren PISA-Tets gibt: 2015 wurde (zumindest in allen OECD-Mitgliedsländern, also auch in Österreich) der Test an Computern durchgeführt.

Die OECD hat zwar in der Vorbereitungsphase für PISA 2015 (nämlich 2014) einen Feldtest durchgeführt, um zu untersuchen
ob der Papier-und-Bleistift-Test und der Computertest vergleichbar sind; die OECD berichtet in ihrer internationalen Dokumentation (im Anhang A5) über diese Vergleiche.

Es gibt allerdings ein Riesenproblem:
Österreich hat an dieser vorbereitenden Feldstudie nicht teilgenommen.

Es gibt Hinweise darauf, dass in Deutschland der Computertest schwieriger war als der Papier-und-Bleistift-Test (siehe Zitat weiter unten), vergleichbare Erkenntnisse für Österreich gibt es aber einfach nicht.

Wir haben also keinerlei halbwegs gesichertes Wissen darüber, wie sich die Testumstellung auf die österreichischen Ergebnisse ausgewirkt hat.

Denkbar sind zum Beispiel folgende Effekte:

In Ländern, in denen in den Schulen Computertests schon im Regelunterricht üblich sind, könnte sich die Umstellung weniger auf das Ergebnis auswirken als in Ländern, wo Computertests im in vielen Schulen Regelunterricht kaum üblich sind (was ich für Österreich annehme)
Da sich Buben vielleicht außerhalb der Schule eher mit Computern beschäftigen als Mädchen könnte das auch eine Erklärung für die im Vergleich zu früher stark veränderten Geschlechtsunterschiede sein.

Österreich hat am Feldtest 2014 nicht teilgenommen, weil es im Schulbereich in ganz anderem Kontext zu einem Problem mit Datensicherheit gekommen ist und die damalige Bildungsministerin, Frau Heinisch-Hosek, in einer (meiner Meinung nach übertriebenen) Panikreaktion daraufhin alle Vorbereitungsarbeiten für PISA gestoppt hat. Ich habe damals mehrfach darauf hingewiesen, dass es sehr unangenehme Folgen haben kann, wenn wir an der Eichung des neuen Tests nicht teilnehmen.

Genau solche Folgen, die die Aussagekraft der PISA-Ergebnisse drastisch reduzieren, sind jetzt eingetreten.

Hier noch ein Zitat aus dem österreichischen PISA-Bericht des bifie (Seite 1/4), das sich mit dem Unterschied zwischen Papier-und-Bleistift-Tests und Computertests beschäftigt.

Die sogenannten Trenditems (jene Aufgaben, die bereits in früheren Erhebungen eingesetzt wurden), die die Basis für die Messung von Leistungsveränderungen über die Zeit bilden, mussten für PISA 2015 von der Papierversion in eine Computerversion übertragen werden. Dadurch kann sich allerdings die Schwierigkeit der Aufgabe für die Schüler/innen ändern. Um sicherzugehen, dass ein Umstieg von einer papier- auf eine computerbasierte Testung keine Auswirkung auf die Vergleichbarkeit der Ergebnisse der aktuellen Erhebung mit den früheren Erhebungen hat, wurde von der OECD im Rahmen des Feldtests eine Mode-Effect-Studie durchgeführt (vgl. Kapitel 3). Eine Zusammenfassung der Ergebnisse der Mode-Effect-Studie findet sich in Anhang AT des internationalen Ergebnisberichts der OECD (2016a). Die OECD weist darin darauf hin, dass die Ergebnisse zwischen den beiden Erhebungsmodi auf internationaler Ebene (bei Betrachtung aller PISA-Teilnehmerländer) vergleichbar sind. Dies bedeutet, dass sich die durchschnittliche Leistung sowie der Anteil der Schüler/ innen auf den verschiedenen Leistungslevels nicht signifikant unterscheiden würden, wenn die Schüler/innen, die den Test am Computer bearbeitet haben, denselben Test auf Papier absolviert hätten.

Die von der OECD berichteten Ergebnisse der Mode-Effect-Studie sind allerdings mit der Einschränkung verbunden, dass durch das Design dieser Studie lediglich Aussagen über die Schüler/innen aller Teilnehmerländer möglich sind, aber keine aussagekräftigen Rückschlüsse für einzelne Länder. Es kann also durchaus sein, dass in einzelnen Ländern der Wechsel auf eine computerbasierte Erhebung teilweise die Ergebnisse beeinflusst. In Österreich wurde aufgrund der Verschiebung der Projektphasen im Feldtest ausschließlich computerbasiert getestet, sodass von Österreich keine Daten zu Moduseffekten vorliegen und auch keine Daten in die internationale Mode-Effect-Studie eingehen konnten. Für Österreich gibt es also keine Möglichkeit, die Leistungen der Schüler/innen beim herkömmlichen Papier-und-Bleistift-Test mit jenen im Computertest direkt zu vergleichen und damit auch keinen Anhaltspunkt dafür, wie groß eine durch die Erhebungsmodalität bedingte Veränderung (Mode Effect) ausfällt. Für Deutschland liefert der Feldtest 2014 beispielsweise Hinweise darauf, dass die PISA-Aufgaben im Mittel am Computer schwieriger waren als auf Papier. Dabei scheinen die Mode Effects durch den Computer bei den Naturwissenschaftsitems am größten, bei den Lese- items am geringsten zu sein (Sälzer & Reiss, 2016).

Erste Anmerkungen zu den PISA-2015-Ergebnissen

Posted by Erich Neuwirth on 6. Dezember 2016 in Allgemein with Comments closed | ∞

Die PISA-Ergebnisse für 2015 wurden heute veröffentlicht.

Die OECD hat nicht alle früheren Ergebnisse angeführt, deswegen weisen wir hier die Ergebnisse aller bisherigen PISA-Tests zur Übersicht aus.

Einige Zahlen in dieser Tabelle sind fett gedruckt. Warum?
Die OECD ist der Meinung, dass man Längsschnittvergleiche erst ab jenem Zeitpunkt machen sollte, an dem eine der 3 Domänen erstmals Hauptdomäne war. Das war bei Lesen 2000 (und 2009), bei Mathematik 2003 (und 2012) und bei den Naturwissenschaften 2006 (und 2015). Das sind die fettgedrucken Zahlen.

Warum sind die Zahlen in der Zeile für das Jahr 2009 kursiv gedruckt? Die OECD schränkt (auch im oben verlinkten Bericht) die Interpretationsmöglicheiten der Ergebnisse für 2009 drastisch ein und meint, dass diese Zahlen für Längsschnittvergleiche nicht geeignet sind.
Zur Erinnerung: Damals gab es von manchen Schülervertretern einen Boykottaufruf und deswegen musste eine doch merkbare Anzahl von Testbögen als nicht auswertbar ausgeschieden werden. Das hat wahrscheinlich das Testergebnis für 2009 etwas verzerrt.
Lässt man 2009 einmal außer Acht, dann sind die Ergebnisse für Mathematik und Lesen für alle anderen Tests bis 2012 praktisch gleich.
Da kaum anzunehmen ist, dass es in einem doch recht trägen Bildungssystem innerhalb von 3 Jahren zu einem dramatischen Absturz und in den 3 folgenden Jahren zu einem Aufschwung zu alten Höhen kommt, sollte man die Abweichung der Ergebnisse von 2009 aufgrund einer deutlich anderen psychologischen Situation beim Tests mit höchster Vorsicht interpretieren. Das ist auch der Grund, warum die OECD diese Zahlen in manchen Berichten gar nicht veröffentlicht.

Vergleicht man die Ergebnisse von 2009 mit 2015, so sieht man, dass die Ergebnisse in allen 3 Domänen schlechter wurden, und zwar
im Lesen um 5 Punkte, in Mathematik um 9 Punkte, und in den Naturwissenschaften sogar um 11 Punkte.

Sehr interessant werden die Ergebnisse, wenn man sie nach Geschlecht aufgliedert:

Am auffälligsten ist, dass die Verschlechterung im Lesen nur bei den Mädchen stattgefunden hat (um 13 Punkte), die Buben haben sich sogar geringfügig verbessert (um 4 Punkte).

In Mathematik und Naturwissenschaften sind die Ergebnisse sowohl bei den Buben als auch bei dem Mädchen schlechter geworden, bei den Mädchen war die Verschlechterung 12 bzw. 16 Punkte, bei den Buben 7 bzw. 6 Punkte.

Bei derartigen Mustern in Daten (insbesondere die völlig verschiedene Entwicklung bei Buben und Mädchen im Lesen) wird man an den bei PISA 2003 zunächst behaupteten „Absturz“ erinnert. Damals hat eine genauere Analyse ergeben, dass der Absturz nur bei den Buben feststellbar und auf ein Gewichtungsproblem der Stichprobe zurückzuführen war.

Da es auch diesmal auffällige Unterschiede bei den geschlechtsspezifischen Änderungen gibt scheint es sinnvoll, die aktuellen Daten genauer zu analysieren um diese Unterschiede erklären zu können.

Wahlkampfplanung, Daten und Statistik. Und die Experten.

Posted by Erich Neuwirth on 15. November 2016 in Allgemein, Statistische Fakten zur Politik with Comments closed | ∞

Ich habe heute zwei sehr interessante Artikel gelesen:

Hat Clintons Algorithmus versagt?

und

Guest post: the foreclosure vote

„Foreclosure homes“ sind Häuser, die zwangsversteigert werden.

Beide Artikel geben Hinweise, dass Hillary Clinton mit ihrem ausgeklügelten computerbasierten „Wählerkontakteprogramm“ wesentliche Wählergruppen nicht erreicht hat, weil die Qualität der Daten zu schlecht war.

Das kann passieren.

Es hat aber vor allem mit dem Glauben an die Überlegenheit von auf Algorithmen beruhenden Entscheidungssysteme zu tun.

Viele solcher Systeme werden ja mit dem Argument „sie müssen nichts von den Methoden und Theorien verstehen, die Daten werden ihnen gute Prognosen liefern“ vermarktet.

Was da der Clinton-Kampange passiert ist zeigt, wie falsch derartiges Denken ist.

Alle Prognosemodelle sind – wie der Name sagt – Modelle; sie beruhen also auf bestimmten Annahmen, das sind in der Regel mathematische Gleichungen, die Zusammenhänge quantifizieren, indem sie aus vorliegenden Daten z.B. errechnen, welche Werte bestimmte Variable annehmen.

Wenn man so ein Modell verwendet, dann sollte man verstehen, wie es funktioniert und auf welchen Annahmen es beruht. Und man sollte auch über die Datenqualität Bescheid wissen. Man sollte auf keinen Fall Daten einfach übernehmen und einfach davon ausgehen, das die korrekt sind. Das Problem ist ernsthaft arbeitenden Statistikern bekannt; es gibt mittlerweile eigene „Werkzeugkästen” für data tidying and cleansing, also Datenputzen.

In den vielen Projekten, die ich als statistischer Konsulent gemacht habe, ist mir noch kein einziger Fall untergekommen, wo die Daten im Originalzustand schon die für eine sinnvolle Auswertung oder Prognose notwendige Qualität hatten.

Die Probleme, die diese beiden Artikel beschreiben, könnte man auch unter den Begriffen „Data Science ist noch nicht Statistik“ zusammenfassen.

Data Science wird oft verkauft als automatisiertes Werkzeug zum Gewinnen von Erkenntnissen aus Daten,
bei denen man sich ein gründliches Eingehen auf die Modellannahmen ersparen kann.

Das kann bei Problemen, die durch vorgefertigte Standardmodelle abgedeckt werden, immer wieder einmal gut gehen. Es kann aber auch – und das scheint in der Clinton-Kampangne passiert zu sein – gewaltig schief gehen.

Viel Denkarbeit (also Auseinandersetzung mit der Modellbildung) kann nicht automatisiert werden, und ebenso kann die Beurteilung, ob die Datenqualität zur Beantwortung bestimmter Fragen ausreichend ist, nicht automatisiert beantwortet werden.

Wenn man Modelle verwendet und daraus Prognosen und Analysen ableitet, dann ist es auch sehr wichtig, klar zu kommunizieren, welche Teile der Ergebnisse auf echten Daten beruhen, und welche Teile Szenarien – also denkmögliche Varianten eines Sachverhalts – beschreiben.

Wenn man am Abend einer Wahl zu einem Zeitpunkt, wo die Briefwahlstimmen noch nicht ausgezählt sind, Wählerstromanalysen publiziert und so tut, als wären da schon die Briefwählerstimmen mitberücksichtigt, dann verkauft man nämlich die Konsumenten für dumm.

Bei der letzten Bundespräsidentenwahl wurden etwa 1/6 der Stimmen als Briefwahlstimmen abgegeben.
Diese Daten hat es am Wahlabend noch nicht gegeben. Trotzdem wurde eine Wählerstromanalyse inklusive Briefwahlstimmen publiziert. Es wurde in keiner Form darauf hingewiesen, dass 1/6 der Daten dieser Analyse fiktiv war, sie beruhten nämlich auf einer Prognose für Wahlkartenstimmen, also einer Wahlhochrechnung für diese Stimmen. Dafür gab es aber zum Zeitpunkt der Analyse keine Daten.

So etwas zu tun ist in meinen Augen wissenschaftlich unredlich.

Man gaukelt den Medienkonsumenten eine Genauigkeit der Analyse vor, die weder durch die Datenlage
noch durch eine ausreichend unumstrittene Modellbildung zu rechtfertigen ist.

Und jetzt noch eine dringende Leseempfehlung: wie solche automatisierten Entscheidungsprozesse zu politisch und gesellschaftlich sehr gefährlichen Folgen führrn können kann man im Buch

Weapons of Math Destruction von Cathy O’Neill

nachlesen. Ihre Website mathbabe.org ist es ebenfalls wert, regelmäßig besucht zu werden. (Auf dieser Website findet sich auch der zweite in diesem Blogbeitrag zitierte Artikel).

Wahlanalysen für die Steiermark

Posted by Erich Neuwirth on 26. Oktober 2016 in Allgemein with Comments closed | ∞

Ich habe am 15. Oktober einem Vortrag für die Kommunalpolitische Vereinigung der ÖVP Steiermark gehalten. Der Titel war

Wähler in der Stadt – Wähler am Land
Unterschiede und Gemeinsamkeiten

Die KPV hat mir freundlicherweise gestattet, die Vortragsfolien auch öffentlich zur Verfügung zu stellen.

Hier sind sie.

Diese Webseite funktioniert auf mobilen Geräten nicht besonders gut.

Wahlkarten und Urnenwahl in Deutschland

Posted by Erich Neuwirth on 19. Oktober 2016 in Allgemein with Comments closed | ∞

Da es Gerüchte gibt, dass es nur in Österreich auffällige Unterschiede zwischen Urnenwahlergebnissen und Briefwahlergebnissen gibt, habe ich mir die Ergebnisse der deutschen Bundestagswahl 2013 in dieser Hinsicht angesehen. Die Analyse gtbts auf www.wahlanalyse.com.

Bildung und Statistik

Sind wir bei PISA wirklich schlechter geworden?

Erste Anmerkungen zu den PISA-2015-Ergebnissen

Wahlkampfplanung, Daten und Statistik. Und die Experten.

Wahlanalysen für die Steiermark

Wahlkarten und Urnenwahl in Deutschland

Neueste Beiträge

Neueste Kommentare

Archive

Kategorien

Meta

Blogroll