Statistik und Politik – wie aussagekräftig sind Meinungsumfragen
In Deutschland versucht man gerade, mit verschiedenen Mitteln den Motiven der PEGIDA-Demonstranten auf die Spur zu kommen. Eines dieser Mittel ist Statistik in Form von Stichprobenbefragungen.
In Österreich will der Wissenschaftsminister (der auch Vizekanzler und Wirtschaftsminister ist) belegen, dass die österreichische Bevölkerung mit vielen Aspekten der Wissenschaftspolitik zufrieden ist. Auch das geschieht mit einer Stichprobenbefragung.
Zu PEGIDA gab es eine Pressekonferenz der TU-Dresden mit einer auch am Web verfügbaren Präsentation.
In dieser Präsentation finden man folgende als zentrales Ergebnis ausgewiesene Aussage:
Der „typische“ PEGIDA-Demonstrant entstammt der Mittelschicht, ist gut ausgebildet, berufstätig, verfügt über ein für sächsische Verhältnisse leicht überdurchschnittliches Nettoeinkommen, ist 48 Jahre alt, männlich, gehört keiner Konfession an, weist keine Parteiverbundenheit aus und stammt aus Dresden oder Sachsen.
Auf der angegebenen Webseite gibt es auch ein Dokument, das die Methodik der Untersuchung beschreibt. Darin liest man, dass die Umfrage an 3 verschiedenen Tagen durchgeführt wurde, und dass etwa 2/3 der Befragten die Antworten verweigert haben. Überhaupt nicht eingegangen wird auf die Möglichkeit, dass da einzelne Befragte mehrfach geantwortet haben, was wegen der drei Fragezeitpunkte ja möglich wäre.
Wenn man als Statistiker in der Methodenbeschreibung dann liest
Gewisse Verzerrungen sind theoretisch nicht auszuschließen.
dann wundert man sich doch. Bei einer derartigen Befragung davon auszugehen, dass sie unverzerrt sein könnte ist ziemlich wagemutig!
Derartige Befragungen haben schon eine Berechtigung. Sie fördern bei einer Problemstellung, wo es noch keinen gesicherten Wissensstand gibt, anekdotische Evidenz über mögliche Motive zutage. Sie lassen aber in keinem Fall Aussagen über die statistische Zusammensetzung der Demonstranten zu. Wenn man die Ergebnisse dann mit Formulierungen wie der „typische“ PEGIDA-Demonstrant präsentiert, dann verläßt man jedoch den Boden der wissenschaftlichen Sauberkeit!
In der Zeit ist ein Artikel erscheinen, der diese methodisch-statistischen Fragen recht sauber darstellt.
Und jetzt nach Österreich.
Vizekanzler und Wissenschaftsministern Mitterlehner hat den Wissenschaftsmonitor präsentiert.
Da geht es um die Einschätzung von Wissenschaftsthemen und Studienbedingungen in der Bevölkerung. Eine Zusammenfassung der Ergebnisse gibts als Download.
In dieser Zusammenfassung liest man, dass die maximale Schwankungsbreite 3,1% beträgt. Man liest auch, dass die Umfrage über meinungsraum.at durchgeführt wurde.
Auf dieser Website findet man auch eine Beschreibung der Methodik.
Darin steht, dass die Befragungen an einer Stichprobe aus dem meinungsraum-Panel durchgeführt werden. Dieses Panel ist aber keine klassische Stichprobe aus der Grundgesamtheit aller erwachsenen Österreicher. Panel-Teilnehmer werden über Websites oder telefonisch rekrutiert. Sie müssen sich bereit erklären, eine oder mehrere Befragungen mitzumachen. Diese Gruppe ist – was Interesse an politischen oder anderen öffentlich relevanten Fragen betrifft – sicher nicht repräsentativ für die österreichische Bevölkerung. Die angegebene Schwankungsbreite soll aber den Eindruck erwecken, dass die Anteile in der Gesamtbevölkerung nicht weiter von den Stichprobenanteilen abweichen. Aus der Sicht der statistischen Methodik kann man damit aber bei einer derartigen „Stichprobenziehung“ nicht rechnen. Die Werte liefern möglicherweise ein Meinungsbild, aber methodisch abgesicherte Schwankungsbreiten kann man wohl kaum zuverlässig ermitteln.
Noch ein interessantes Detail gibt es. In der Beschreibung der Methodik von meinungsraum.at findet man folgende Frage (samt Antwort).
8. Wird das Panel ausschließlich für Marktforschungszwecke eingesetzt?
Ja.
Seit wann gehören Fragen nach der Einschätzung des Wissenschaftsstandorts Österreich zur Markforschung?
Wie sinnvoll die Absicht ist, die gesamte österreichische Bevölkerung zu Thmen der Wisssenschaftspolitik wie etwa
Wie würden Sie Österreich als Standort für Wissenschaft und Forschung beurteilen?
unabhängig von Informationen über den entsprechenden Wissensstand der Befragten zu befragen, steht noch auf einem ganz anderen Blatt. Um dieses Vorgehen einschätzen zu können sind aber keine statistischen Spezialkenntnisse notwendig.
Die Bundeshymne und die Kunst – und die Rechtschreibung
In einem alten Artikel hab ich ein paar Anmerkungen zur „Verholperung“ der Bundeshymne durch sprachlich ungeschicktes Gendern gemacht.
Es gibt noch etwas seltsames.
In der 2011 verpflichtend gewordenen Neufassung gibts die Zeile
Einig laß in Jubelchören
früher war das
Einig laß in Brüderchören
Die Neufassung holpert an dieser Stelle nicht, der Sprachrhythmus ist gleich geblieben.
Allerdings war 2011 schon die neue Rechtschreibung in Kraft, und da müsste es statt „laß” jetzt „lass” heißen (zumindest glaube ich das – ich hab die neue Rechtschreibung – weil zu alt – ja nicht in der Schule gelernt).
Und das ist auch (meinen Kenntnissen der neuen Rechtschreibung nach) die einzige Stelle, wo man aus Rechtschreibgründen was ändern müsste!
Warum hat man diese Änderung nicht gleich mit durchgeführt?
An der Unantastbarkeit eines literarischen Werks kann es ja nicht gelegen haben!
Anmerkungen zur Modellschularbeit Mathematik AHS – Dezember 2014
Diese (vom bifie erstellte) Modellschularbeit soll Schülern einen Vorgeschmack auf die Zentralmatura geben. Ein Großteil der Beispiele unterscheidet sich nicht sehr stark vom bisher Üblichen, aber einige Beispiele sollen (oder wollen) anwendungsnäher sein als das bisher üblich war. Und da kommt es dann zu Ungereimtheiten. Nur aber der Reihe nach Anmerkungen zu einigen Beispielen aus der Sicht von jemandem, der unter anderem an der Universität Nichtmathematikern Mathematik nahebringen muss.
Die Aufgaben findet man hier zum Teil 1 und hier zum Teil 2. Die Korrekturhefte findet man hier zum Teil 1 und hier zum Teil 2.
Wenn sie meine Anmerkungen nachvollziehen wollen, dann machen sie diese Dateien am besten in einem zusätzlichen Fenster in ihrem Browser auf.
Teil 1 – Aufgabe 1
Das Aufgabenformat ist seltsam. Lückentext mit Multiple Choice ist etwas, was bei mathematischen Fragestellungen selten auftritt. Mir fällt dazu eine Karikatur ein, in der ein Jobbewerber gefragt wird, was er denn gut könne, und antwortet „Tests bearbeiten kann ich wirklich gut!“.
Teil 1 – Aufgabe 2
Ausgehend von einer vorgegebenen Aussage über einen Winkel stehen 5 weitere Aussagen zur Wahl. Für diese Aussagen soll entschieden werden, welche davon aus der vorgegebenen Aussage folgen und welche nicht. Als Zusatzinformation erfährt man, dass genau 2 der 5 Aussagen richtig sind. Wenn man also auf Anhieb 2 Aussagen als richtig identifizieren kann muss man über die restlichen Aussagen gar nicht mehr nachdenken. Das scheint mir (zumindest in der Mathematik) ein eigenwilliges Frageformat. Mein Vorschlag wäre, bei diesem Beispiel nicht vorzugeben, dass genau 2 Aussagen richtig sind, aber zur Unterstützung eine kleine Grafik mit den Graphen von Sinus und Cosinus mitzudrucken.
Teil 1 – Aufgabe 6
Auch in diesem Fall wird vorgegeben, dass genau 2 von 5 Aussagen richtig sind. Das kommt in der Praxis kaum je vor. Und dieses Beispiel beansprucht zumindest von der Aufgabenstellung her eine gewisse Praxisnähe.
Teil 1 – Aufgabe 8
Bei diesem Beispiel bekommen Statistiker Magenschmerzen. Ausgehend von einer veröffentlichten Darstellung kriminalstatistischer Daten geht es darum, einen bestimmten Wert zu interpretieren. Die grafische Darstellung der Daten begeht eine statistische Todsünde, es handelt sich um ein abgeschnittenes Balkendiagramm. In praktisch jeder Einführung in Statistik lernt man, dass diese Darstellung sehr schlecht ist, weil sie Unterschiede übertreibt. Diese Darstellung ist nicht „Schuld“ der Prüfungsautoren, denn sie wurde tatsächlich so publiziert. Man sollte aber einen derartigen statistischen Kunstfehler nicht unkommentiert in einer Prüfung verwenden. Es gäbe mindestens zwei Möglichkeiten, dieses Problem zu umgehen. Man könnte die Daten aus der verwendeten Quelle einfach als Tabelle angeben; die Aufgabenstellung wäre genauso zu bearbeiten, weil die Grafik keine weitere Information liefert. Oder man könnte die schlechte Darstellung als Teil der Aufgabe thematisieren, etwas durch die Frage „Warum ist die verwendete Grafik statistisch irreführend?“.
Teil 1 – Aufgabe 9
Bei einer Aufgabe über die Ableitungsfunktion einer Geschwindigkeitsfunktion sollte der Begriff Beschleunigung wohl entweder explizit oder als Antwort auf eine Frage vorkommen. Wenn man von Ableitung von Geschwindigkeit spricht, dann wird fast immer auch der Begriff „Beschleunigung“ explizit vorkommen.
Teil 1 – Aufgabe 11
Diese Aufgabe ist ziemlich komplex. Ausgehend vom Graphen der Ableitungsfunktion sollen gültige Aussagen über die ursprüngliche Funktion ausgesucht werden. Etwas seltsam ist, dass eine Aussage über den Bereich von minus unendlich bis 0 beurteilt werden soll, das dargestellte Schaubild aber nicht einmal erst bei -1/2 beginnt. Auch hier erscheint mir seltsam, dass die Vorgabe lautet, dass genau 2 von 5 vorgegebenen Aussagen richtig sind.
Teil 1 – Aufgabe 12
Bei dieser Aufgabe ist leicht zu sehen, dass die letzte der 5 Aussagen richtig ist. Zu erkennen ob die anderen Aussagen richtig oder falsch sind ist durchaus schwierig. Insbesondere sind die Überlegungen, die zeigen, dass die dritte Aussage richtig ist, etwas trickreich, weil es rein grafisch nicht ganz einfach ist, die Fläche zu „sehen“, die dem Ausdruck A/5 entspricht.
Teil 1 – Aufgabe 14
Dieses Beispiel ist komplexer als es den Anschein hat. Natürlich ist streng formal dies Zufallsvariable X nicht binomialverteilt, sondern hypergeometrisch verteilt. Allerdings ist der Unterschied nicht besonders groß. In einigen praktischen Fällen wäre es also zur Abschätzung von Größenordnungen durchaus möglich, die Binomialverteilung als Ersatz für die hypergeometrische Verteilung zu verwenden.
Teil 2 – Aufgabe 1
Wenn innerhalb eines Beispiels mit 3 Teilen die Funktionsbezeichung f dreimal für drei verschiedene Funktionen verwendet wird ist das verwirrend.
Teil 2 – Aufgabe 2
Bei diesem Beispiel sind die Erläuterungen im Korrekturheft nicht ganz zufriedenstellend. Bei der Unteraufgabe c) ist zu überprüfen, ob die Grafik den Schluss zulässt, dass exponentielles Wachstum vorliegt. Bei 5 Werten sollte man dazu 4 Quotienten bzw. Wurzelausdrücke bilden. Im Korrekturheft werden als Vorlage aber nur 2 solche Ausdrücke berechnet. Außerdem wäre es nützlich, im Korrekturheft darauf hinzuweisen, dass man die Antwort auch ausgehend von den Logarithmen der Unfallsrisikowerte finden kann.
Teil 2 – Aufgabe 3
Die letzte Aufgabe in Teilaufgabe c) ist zwar als mathematisches Problem lösbar, allerdings ziemlich artifiziell. In dieser Form tritt die Frage in realem Anwendungskontext kaum je auf.
Die zwei Kulturen – und was in Österreich daraus wird
Der englische Wissenschafter C.P. Snow hat 1959 einen sehr beachteten Vortrag mit dem Titel „The two Cultures¨ gehalten. Dieser Vortrag wurde danach auch in gedruckter Form publiziert. Es geht darin um die kulturellen Unterschiede zwischen den Natur- und den Geisteswissenschaften. Im Englischen spricht man übrigens von Science und Humanities. Wenn ein Teil der Wissenschaften im deutschsprachigen Raum für sich in der Namensgebung den Geist beansprucht und ihn damit den anderen Fächern abspricht, dann ist das eigentlich beleidigend. Ein sehr geschätzter Kollege meint daher, dass die Bezeichnung Buchwissenschaften eigentlich treffender wäre, weil die von diesen Wissenschaften untersuchten Gegenstände hauptsächlich in Büchern zu finden wären.
Aber das ist eine andere Geschichte.
Sehr deutlich in Erinnerung gerufen hat mir diese Geschichte der Artikel von Klaus Hödl im standard vom 13. Oktober. Dort liest man „Noch nie habe ich gehört, dass eine Veröffentlichung in einem englischsprachigen Peer-Review-Journal für den Erhalt einer Anstellung auch nur die geringste Rolle gespielt hätte”.
In den Naturwissenschaften (und dazu zählen wir der Einfachheit halber einmal auch Mathematik, Statistik und Informatik) ist derartiges nämlich mittlerweile auch in Österreich das wichtigste Kriterium für den Verlauf einer wissenschaftlichen Karriere. Wie extrem anders hier die wissenschaftlichen Kulturen bewerten möchte ich auch mit einer persönlichen Anekdote illustrieren:
Ich habe (gemeinsam mit einem US-Koautor) ein einigermaßen erfolgreiches Buch geschrieben. Das Buch ist 2009 erschienen und war bei der Vorstellung beim größten US-Statistik-Kongress ein ziemlicher Renner.
Der Verlag (Springer, einer der renommiertesten Verlage im Bereich der Naturwissenschaften) ist daraufhin mit uns beiden Autoren sehr pfleglich umgegangen. Und dann denkt man sich als naiver Naturwissenschafter, dass so ein erfolgreiches Werk in der eigenen Fakultät Ansehen bringen sollte.
Zu dieser Zeit wurde an der Universität Wien den Fakultäten vom Rektorat verordnet, dass sie Bewertungskriterien für wissenschaftliche Publikationen aufzustellen hatten, und dass ein Teil der einzelnen Forschungsgruppen zugeteilten Ressourcen an die nach diesen Kriterien bewerteten Forschungserfolge gebunden werden sollte. Meine Fakultät (die Fakultät für Informatik) hat sich damals selbst ein dreistufiges Bewertungsschema verordnet. A-wertige Publikationen waren vor allem Artikel in englischsprachigen Fachzeitschriften, B-wertig waren vor allem Beiträge in Proceedings (Sammelbänden der Kongressbeiträge) von angesehenen Konferenzen; alles andere war C-wertig. Bücher waren also automatisch nur C-wertig, d.h. unter „außerdem gibts da noch, ist aber nicht wirklich wichtig“ kategorisiert. Diese Bewertungsregeln wurden uns nicht von oben verordnet, die hat meine Fakultät selbst aufgestellt. Andere Fakultäten haben sich damals andere Regeln verordnet. Bei den „Geisteswissenschaften“ wurden Bücher in renommierten Verlagen als A-wertig eingestuft! Da die Anzahl der A-wertigen Publikationen auch beim Vergleich zwischen den Fakultäten und damit bei der Ressourcenzuteilung eine Rolle spielt, konnte ich die Kollegen an meiner Fakultät dann doch davon überzeugen, dass erfolgreiche Bücher in renommierten Verlagen doch nicht ganz gleich wie ein Artikel im wissenschaftlichen Äquivalent eines Lokalblattes bewertet werden sollten und meine Fakultät erweiterte das Klassifikationsschema für Publikationen. Neben der Einstufung A-wertig kam die Einstufung Ae-wertig dazu. Das e bedeutet extern, und gemeint war, dass eine Publikation, die nach den Kriterien einer anderen Fakultät A-wertig wäre, an unserer Fakultät als Ae-wertig eingestuft wurde. Ae war (und ist nach wie vor) höherwertig als B! Ebenso kam die Einstufung Be-wertig (also B-wertig nach
den Kriterien einer anderen Fakultät) dazu. Be lag (und liegt) zwischen B und C. Damit waren also für das nächste Jahr Bücher höher bewertet als vorher, und mein Buch wäre nach diese Kriterien als Ae-wertig eingestuft worden. Rückwirkend
wurde die entsprechende Regelung aber nicht in Kraft gesetzt. Somit brachte mir mein Buch keinen unmittelbaren Vorteil in der fakultätsinternen Konkurrenz um Ressourcen.
Und dann geschah etwas Unvorhergesehenes. Mein Verlag stellte eine Nachfrage nach einer japanischen Übersetzung meines Buches fest. Die erschien dann auch im folgenden Jahr. Und damit hatte ich eine Ae-wertige Publikation! Das Buch selbst war nach den
damals aktuellen Kriterien meiner Fakultät nichts Besonderes, aber die japanische Übersetzung, die ich selber nicht einmal sinnverstehend lesen konnte, brachte meiner Forschungsgruppe zusätzliche Ressourcen!
Was hat das mit dem Kommentar von Herrn Hödl zu tun? Meine Erfahrungen zeigen (glaube ich zumindest), dass kurzfristig erstellte Bewertungsmaßstäbe für erfolgreiche wissenschaftliche Arbeit sehr stark von standortspezifischen Kriterien und von der gerade aktuellen Kultur der einzelnen Fächer geprägt werden. Sie zeigen aber auch, dass es kein absolut hoffnungsloses Unterfangen ist, zu versuchen, Kollegen zum Über-den-Tellerrand-Schauen anzuregen. Die Diskussion darüber, dass andere Fakultäten andere Kriterien erarbeitet hatten, hat letztendlich doch zu einer Adaption unserer Kriterien geführt. Wir waren tatsächlich imstande, von anderen Disziplinen zu lernen. Unter anderem auch, weil wir bei der Mittelvergabe in Konkurrenz zu den anderen Disziplinen stehen.
Die zwei Kulturen spielen übrigens nicht nur bei den Bewertungsmaßstäben eine Rolle. Man sollte sie auch beim Entwurf und bei der Implementation von computergestützten Lernumgebungen stärker berücksichtigen. Zu glauben, man könne an einer Universität die Vielfalt ihrer Disziplinen und die damit einhergehenden Lernkulturen mit einer einheitlichen Lernumgebung unterstützen, gehört wohl ins Reich der Utopien.