Wahlprognose, Wahlhochrechnung und Wahlanalyse –
was denkt sich ein Statistiker dazu
In der nzz.at habe ich einen Artikel mit dem Titel
Wahlumfragen taugen nicht für Prognosen
publiziert. Dieser Artikel ist eine leicht modifizierte Form des folgenden Textes:
Bei der Gemeinderatswahl in Wien war die 17-Uhr-Prognose des ORF ziemlich weit vom Endergebnis entfernt. Insbesondere gab es Fehlinformationen über Gleichstand oder Vorsprung zwischen SPÖ und FPÖ. Die erste Hochrechnung (um 18 Uhr) war dann schon sehr treffsicher; insbesondere prognostizierte sie schon den deutlichen Abstand zwischen SPÖ und FPÖ.
Wieso konnte die erste Prognose so schiefgehen?
Die Wahlprognose von 17 Uhr beruhte auf einer Umfrage, die Hochrechnung um ca. 18 Uhr dagegen auf tatsächlichen Wahlergebnissen aus Wahlsprengeln. Der Auszählungsgrad der ersten Hochrechnung betrug 13,9%. Wieso gab es um 17 Uhr noch kein zuverlässige Hochrechnung?
Bei den Wiener Wahlen schließen alle Wahllokale gleichzeitig um 17 Uhr. Bei anderen Wahlen (Landtagswahlen, Nationalratswahlen, Bundespräsidentenwahlen) gibt es viele Wahllokale, die schon früher schließen. Daher stehen bei den anderen Wahlen beim Wahlschluss (bei bundesweiten Wahlen um 17 Uhr, bei manchen anderen Wahlen früher) schon viele ausgezählte Ergebnisse zur Verfügung. In Wien gab es um 17 Uhr noch kein ausgezähltes Sprengelergebnis.
Daher wurde im ORF beschlossen, eine Prognose auf Grundlage einer sehr knapp vor der Wahl durchgeführten Umfrage durchzuführen. Laut Beschreibung der ORF-Hochrechner wurden dazu in den letzten Tagen vor der Wahl etwa 2200 Wahlberechtigte telefonisch befragt. Die prognostizierten Parteienanteile wurden allerdings nicht direkt dieser Umfrage entnommen, sondern mit Hilfe einer Rückerinnerungsfrage („welche Partei haben sie denn das letzte Mal gewählt“) nachjustiert. Die Forscher des SORA-Instituts sagen, dass es offensichtlich bei der Rückerinnerungsfrage zu Problemen gekommen und daher die Nachjustierung der Umfrageergebnisse schiefgegangen ist.
Wahlprognosen zum Wahlschluss ohne ein einziges ausgezähltes Teilergebnis gibt es auch in Deutschland. Dort darf nämlich erst mit der Auszählung begonnen werden, wenn alle Wahllokale bereits geschlossen haben. Die 18-Uhr-Prognosen in Deutschland (dort ist der Wahlschluss später) sind ziemlich treffsicher. Wie schafft man das in Deutschland?
Die Prognosen in Deutschland beruhen nicht auf Umfragen vor der Wahl, sondern auf exit polls. Bei einem der beiden Forschungsinstitute, die solche Prognosen erstellen, nämlich bei infratest-dimap, geschieht das so: Bei bundesweiten Wahlen werden mehrere hundert Wahlsprengel nach statistischen Kriterien ausgewählt (bei der letzten Bundestagswahl 640) und die Wähler in diesen Wahlsprengeln gebeten, auf einem Fragebogen ihre gerade getroffene Wahlentscheidung anzukreuzen sowie einige weitere Daten über sich zu machen (Geschlecht, Alter usw.). Diesen Fragebogen werfen sie dann selbst in eine Urne. Die Urne wird im Laufe des Tages mehrmals geleert und die jeweiligen Zwischenergebnisse an die Prognosezentrale übermittelt. Insgesamt wurden bei der letzten Bundestagswahl etwa 100.000 Wähler so befragt.
Diese Form der Prognose unterscheidet sich in wesentlichen Punkten von der bei der Gemeinderatswahl Wien verwendeten Methode.
In Deutschland
* werden wesentlich mehr Wähler befragt
* sind die Antworten erkennbar anonymisiert
* müssen sich die Wähler nicht an frühere Wahlentscheidungen erinnern
* werden die Befragten nicht vorab nach ihrer Wahlabsicht sondern unmittelbar nach ihrer Stimmabgabe nach ihrer Wahlentscheidung gefragt.
Dass ein derartiger großer exit poll deutlich zuverlässigere Resultate liefert als eine im Vergleich dazu kleine vor der Wahl durchgeführte Umfrage ist nicht besonders überraschend. Natürlich kostet ein derartiger exit poll auch ein Vielfaches einer telefonischen Vorwahlumfrage.
Es war eine ziemlich wagemutige Entscheidung von Fernsehanstalten, am Wahltag Wahlprognosen auf Grund von Umfragen vor der Wahl zu publizieren.
Bei der politischen Umfrageforschung gibt es sowieso Probleme, derer sich vor allem Statistiker schmerzlich bewusst sind.
Bei Umfragen werden mittlerweile (noch vor wenigen Jahren war das nicht so) Schwankungsbreiten publiziert. Die Schwankungsbreite beträgt bei einer 1000er-Umfrage ±3,16%, bei einer 400er-Umfrage ±5,0%. Auch wenn man sich keine Formeln merken mag gibts dafür eine Faustregel: Bei einer Umfrage mit 100 Befragten ist die Schwankungsbreite ±10,0%, und bei jeder Vervierfachung des Stichprobenumfangs wird die Schwankungsbreite halbiert. Die Voraussetzung für die Anwendung der dahintersteckenden Formel ist allerdings, dass es sich dabei um eine echte Zufallsstichprobe handelt und dass die Prozentsätze direkt aus den Rohdaten ohne irgendwelche Nachjustierungen errechnet werden. Beides ist typischerweise bei politischen Umfragen nicht der Fall. Telefonumfragen liefern aus verschiedenen Gründen keine klassischen Zufallsstichproben. Außerdem wird bei den Umfragen die Zahl der Antwortverweigerer meist nicht dokumentiert. Dadurch alleine ist meist die angegebene Schwankungsbreite schon irreführend, die sollte nämlich mit der Zahl derer, die eine auswertbare Antwort gegeben haben, berechnet werden, und nicht mir der Anzahl der Befragten. Wenn man nur die Prozentsätze der auswertbaren Antworten ausweist, dann geht man davon aus, dass das Ergebnis der Antwortverweigerer nicht systematisch anders wäre als das der Antworter. Dieses Problem versucht man mit „Kontrollfragen“ teilweise lösen. Man geht davon aus, dass man den statistischen Zusammenhang zwischen anderen Fragen und der Wahlentscheidungsfrage kennt, und versucht so, zumindest teilweise die verweigerten Antworten zur Wahlentscheidung zu extrapolieren.
Wenn man den Konsumenten von Meinungsumfragen dabei helfen will, die Qualität und Zuverlässigkeit der Umfragen einzuschätzen, dann sollte man
* die Methode der Stichprobenauswahl klar dokumentieren
* bei jeder Frage die Zahl der auswertbaren Antworten angeben
* zumindest Hinweise auf die Extrapolationsverfahren, mit denen verweigerte Antworten kompensiert werden, geben.
Man kann aus der schiefgegangenen Prognose aber auch etwas Grundsätzliches lernen: Umfragen sind ein durchaus taugliches Instrument zur Erhebung der momentanen Stimmungslage, als Prognoseinstrument taugen sie aber definitiv nicht. Die auf der Zufallsstichprobenmethodik beruhenden Formeln zur Berechnung der Schwankungsbreiten sind nämlich nicht anwendbar, weil die Voraussetzungen dafür bei den meisten Umfragen nicht erfüllt sind.
Noch etwas weiteres ist anzumerken: es scheint mir etwas naiv, zu glauben, dass man mit den Umfragen, die bezüglich der Wahlentscheidung definitiv ziemlich weit daneben gelegen sind, halbwegs präzise Aussagen das Wahlverhalten von Untergruppen von Wählern (beispielsweise der unter 30-jährigen Männer) ableiten kann. Diese Untergruppen sind nämlich viel kleiner als die gesamte Stichprobe (unter 30-jährige Männer sind etwa 10% der Wahlberechtigten), und daher sind die Stichprobenergebnisse auch viel ungenauer. Bei derartigen Aussagen nur die Schwankungsbreite anzugeben wäre sogar dann grob verfälschend, wenn es sich um eine klassische Zufallsstichprobe handelte.
Und noch eine Anmerkung scheint mir wichtig. Am Wahlabend wurde bereits eine Wählerstromanalyse publiziert, die den Anspruch stellt, alle Wählerströme zu erfassen. Bei dieser Wahl wurden allerdings etwas 20% der Stimmen mit Wahlkarten abgegeben, und die meisten davon waren am Wahlabend noch nicht ausgezählt. Die Wählerstromanalyse beruht also bei einem wesentlichen Anteil der Stimmen auf einer Trendextrapolation für die Wahlkartenstimmen und nicht auf einer Analyse sämtlicher ausgezählter Stimmen. Man sollte also diese Analyse auch mit entsprechender Vorsicht interpretieren. Redlicher erschiene mir, eine Wählerstromanalyse nur mit den ausgezählten Stimmen und zusätzlich eine Variante mit den extrapolierten Wahlkartenstimmenergebnissen zu publizieren.
Auch zu den vielen und in vielen Fällen sehr informativen Landkarten, die auf den Sprengelergebnissen beruhen, ist anzumerken, dass die Sprengelergebnisse keine Wahlkartenstimmen umfassen. Schlussfolgerungen wie „in den Außenbezirken war die Wahlbeteiligung höher als in den Innenbezirken“ können durch verschieden hohe Wahlkartenstimmenanteile systematisch verzerrt werden.
Statistik besteht nicht nur darin, Formeln zu verwenden oder Grafiken aus Daten zu erstellen. Statistik muss auch überlegen, ob die vorhandenen Daten genau jene Struktur haben, die man zum Beantworten der interessierenden Fragen braucht. Interpretationen feinkörniger Wahlergebnisse, bei denen Wahlkartenstimmen nicht so einfach eingerechten werden können, können durchaus auch verfälschte Bilder vermitteln. Und in Wählerstromanalysen, die die Wahlkartenstimmen noch schätzen (müssen), weil sie noch fehlen, gehen subjektive Annahmen der Analysierenden und nicht nur objektiv ermittelte Daten ein. Das ist durchaus zulässig, sollte aber sehr klar erkennbar gemacht werden. Und Fernsehanstalten sollten sich genau überlegen, ob sie wirklich am Wahltag Umfragen als Prognoseinstrumente einsetzen wollen. Wenn sie das wollen, dann sollten sich auch ernsthaft mit Fachleuten darüber reden, mit welcher Methode sich welche Prognosegenauigkeit erreichen lässt.