34

Was kann man aus Meinungsumfragen erschließen und was nicht?

Posted by Erich Neuwirth on 4. Dezember 2012 in Allgemein |

Im Jahr 2013 kommen einige Wahlen und Volksbefragungen auf uns zu.

Im Jänner die Volksbefragung zur Wehrpflicht, spätestens im Oktober die Nationalratswahl, und vorher schon Landtagswahlen in Kärnten, Niederösterreich und Tirol.
In Deutschland gibt’s Landtagswahlen in Niedersachsen, Bayern und Hessen und im September die Bundestagswahl.

Daher liest und hört man immer wieder die Ergebnisse und Interpretationen von Meinungsumfragen. Für einen Statistiker bedeutet das einen ziemliche hohen Leidensdruck, weil sehr oft aus Meinungsumfragen Dinge herausgelesen werden, die auch bei nachsichtigstem Umgang mit den Interpretatoren (in der Regel Journalisten und Politikern) jeder vernünftigen statistischen Grundlage entbehren.

Mit der folgenden Tabelle kann man 2 methodische Fragen beantworten:

  1. Wie groß ist die Schwankungsbreite für den Anteil einer Partei bei allen Wahlberechtigten, wenn er in  einer Stichprobe erhoben wurde?
  2. Kann man aufgrund einer Stichprobe sagen, dass eine Partei derzeit einen höheren Anteil an allen Wahlberechtigten hat als eine andere Partei?
Die Daten der Stichprobe müssen in die umrandeten Felder eingegeben werden. Genauere Erläuterungen folgen später. Eine Zusatzbemerkung ist aber noch notwendig. Oft (nicht immer) wird bei Meinungsumfragen die Stichprobengröße, also die Anzahl der Befragten, angegeben. Um die Schwankungsbreiten statistisch korrekt berechnen zu können, braucht man auch eine nahezu nie angegebene Kenngröße: den Anteil der validen Antworten – also jener Antworten, die auch auswertbar sind. Leider wird der praktisch nie angegeben; laut Auskunft von Dr. Beutelmeyer von market liegt dieser Anteil typischerweise zwischen 70% und 80%.
Jetzt können sie einmal anfangen, mit der Tabelle Berechnungen über die Schwankungsbreite anzustellen.
Im Ausgangszustand untersucht die Tabelle eine Umfrage unter 1000 Wahlberechtigten. Wir nehmen (idealisierenderweise) an, dass alle eine auswertbare Antwort gegeben haben. Im Ausgangsszenario hat eine Partei in der Umfrage 25,4% erreicht. Die Tabelle gibt dann die Auskunft, dass der Anteil dieser Partei an allen Wahlberechtigten zwischen 22,7% und 28,1% liegt, uns zwar mit 95%-iger Sicherheit.
Das bedeutet, dass man, wenn man diese Formeln (bzw. eine derartige Tabelle) verwendet, 19 von 20 mal den Anteil an den Wahlberechtigten richtig eingrenzen wird, 1 mal von 20 mal aber falsch liegen wird!
Der untere Teil der Tabelle untersucht, ob man aus den Stichprobenergebnissen schließen kann, dass die Partei, die in der Stichprobe vor einer anderen liegt,
auch bei den Wahlberechtigten vorne liegt. Im Ausgangszustand der Tabelle liegt Partei A zwar in der Stichprobe vor Partei B, man kann aber nicht mit ausreichender Sicherheit sagen, dass das auch bei allen Wahlberechtigten der Fall ist. Ausreichende Sicherheit bedeutet ähnlich wie soeben, dass man eine Aussage machen will, bei der man als Statistiker berechnen kann, dass sie 19 von 20 mal richtig sein wird, wenn man das Verfahren oft verwendet.
Zum Durchrechnen andere Szenarien können sie die Zahlen in den umrandeten Feldern ändern, die Tabelle rechnet dann sofort die neuen Schranken aus.

Sie können diese Excel-Tabelle auch auf ihren Rechner laden. Dazu müssen sie nur auf das Excel-Symbol in der schwarzen Leiste unterhalb der Tabelle klicken.

Wenn sie die Seite in ihrem Browser neu laden, dann sehen sie wieder die Tabelle mit den ursprünglichen Werten.

Einige Zahlenspielereien

Typischerweise geben nicht alle Befragten eine auswertbare Antwort. Wie wirkt es sich denn aus, wenn nur 80% der Befragten eine auswertbare Antwort geben? Dann werden alle Schwankungsbreiten größer, und etwas vereinfacht gesagt werden dann alle Schwankungsbreiten mit 1,1 multipliziert. Liegt der Anteil bei 70%, dann werden die Schwankungsbreiten ungefähr mit 1,15 multipliziert. Sie können das in der Tabelle ausprobieren.

Noch etwas kann man in der Tabelle nachrechnen: wenn man den Umfang der Stichprobe vergrößert und dazu verdoppelt, dann wird die Schwankungsbreite nicht halb so groß, sondern etwa 70% so gross. Erst wenn man die Stichprobe 4x so groß wie ursprünglich macht, dann wird die Schwankungsbreite halbiert. Die genauen Formeln finden sie im nächsten Abschnitt.

Die Tabelle illustriert eine weitere wichtige Tatsache: beim Vergleich der Anteile von zwei Parteien kann man nicht die Formel für die Schwankungsbreite für eine Partei verwenden. Folgender Schluss ist falsch:

Partei A hat in der Stichprobe 25,4%, und die Schwankungsbreite beträgt 2,7%. Partei B hat 22,4%. Dieser Anteil (22,4%) liegt außerhalb des „Sicherheitsbereichs“ (22,7% bis 28,1%) vom Partei A und daher kann man mit ausreichender Sicherheit sagen, dass Partei A auch bei allen Wahlberechtigten vor Partei B liegt.

Mann muss für den Schwankungsbereich der Parteiendifferenz eine eigene Formel verwenden, und in unserem Beispiel ergeben die Berechnungen, dass das Intervall für den Unterschied von -1,3% bis 7,3% geht. Es enthält also sowohl positive als auch negative Werte, und daher kann man nicht sagen, dass eine der beiden Parteien vor der anderen liegt.

In vielen Tageszeitungen findet man Interpretationen von Meinungsumfragen, die die Schwankungsbereiche überhaupt nicht berücksichtigen. Die Situation bessert sich, Qualitätszeitungen weisen mittlerweile schon öfter auf Schwankungsbreiten hin.
Die Schwankungsbreiten für Parteiendifferenzen werden aber kaum je verwendet. In der Folge wird oft davon gesagt oder geschrieben, dass eine Partei vor der anderen läge. Das stimmt dann meist in der Stichprobe; für die Grundgesamtheit aller Wahlberechtigten kann man das aber meist nicht mit ausreichender Sicherheit sagen.

Ein kleines Beispiel: Hat man 2 Parteien, die sich im Bereich vom 20% bis 25% bewegen, dann kann man erst dann sagen, dass eine Partei vor der anderen liegt, wenn der Unterschied in der Stichprobe mindestens 4,4% beträgt

Noch eine Anmerkung: Die Tabelle kann man sinnvollerweise erst bei Stichprobengrößen von mehreren hundert Befragten anwenden.

Für welche Art von Stichproben funktioniert das?

Die Tabelle und die Formeln im nächsten Abschnitt gehen davon aus, dass die Auswahl der Befragten per Zufallsstichprobe erfolgt.

Man sollte also ein Verzeichnis aller Wähler haben und dann mit einem Zufallsmechanismus (meist sind das computergenerierte Zufallszahlen) die zu Befragenden aus dieser Liste auswählen. Dieses Ideal ist sicher schwer zu erfüllen. Die entsprechenden Voraussetzungen werden sicher dann nicht eingehalten, wenn die einzelnen Interviewer selber die zu Befragenden bestimmen können, wie das bei manchen Varianten des Quotenverfahrens der Fall ist.

Ein weit verbreitetes Missverständnis besteht darin, zu glauben, dass die Repräsentativität der Stichprobe das zentrale Qualitätskriterium wäre. Das entscheidende Kriterium dafür, dass unsere Tabelle und unsere Formeln die gewünschte Treffsicherheit haben, ist die Zufallsauswahl. Eine korrekt durchgeführte Zufallsauswahl liefert Repräsentativität als Nebeneffekt.

Die Formeln

Jetzt geht’s ans Eingemachte. Wenn sie sich mit Formeln nicht sehr wohl fühlen, dann müssen sie diesen Abschnitt nicht mehr lesen. Sie können die Tabelle weiter oben auch so verwenden, wenn sie die Erläuterungen zur Tabelle berücksichtigen.

Die Basisformel für Umfragegenauigkeit lautet:
Wenn wir in einer Umfrage mit $n$ Befragten in der Stichprobe eine Anteil von $\hat{p}$ erhalten, dann berechnet man die Schwankungsbreite für die Sicherheit $\alpha$ als
$$d=z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ und der Bereich, in dem der entsprechende (unbekannte) Anteil an der Grundgesamtheit liegt, lautet $$\hat{p}\pm d$$

$z_{\alpha}$ ist ein Wert, den man in Normalverteilungstabellen nachschlagen kann. Der meist verwendete Wert ist $z_{0,95}=1,96$.
Das ergibt sich aus dem Anspruch, in 19 von 20 Fällen (also in 95% aller Fälle) eine korrekte Aussage zu machen. Stellt man höhere Sicherheitsansprüche, dann verwendet man $z_{0,99}=2,58$. Dann sind die statistischen Schlussfolgerungen in 99 von 100 Fällen korrekt.

Excel kann die Werte $z_{\alpha}$ ebenfalls berechnen.

Die statistisch-mathematisch korrekte Formulierung, die die Grundlage von Anteilsberechnungen bei Meinungsumfragen liefert, lautet:

Wenn der Anteil eines bestimmten Merkmals in einer Zufallsstichprobe vom Umfang $n$ den Wert $\hat{p}$ hat, dann liegt der entsprechende Anteil in der Grundgesamtheit mit Sicherheit $\alpha$ zwischen den Werten $\hat{p}-z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ und $\hat{p}+z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

Wenn wir die Anteile zweier Parteien in einer Stichprobe schätzen, dann lautet die statistisch korrekte Formulierung samt Formel:

Wenn die Anteile zweier einander ausschließender Merkmale in einer Zufallsstichprobe vom Umfang $n$ die Werte $\hat{p}_A$ und $\hat{p}_B$ und die Anteilsdifferenz daher die Werte $\hat{p}_A-\hat{p}_B$ haben, dann liegt die entsprechende Anteilsdifferenz in der Grundgesamtheit mit Sicherheit $\alpha$ zwischen den Werten $\hat{p}_A-\hat{p}_B-z_{\alpha}\sqrt{\frac{\hat{p}_A+\hat{p}_B-(\hat{p}_A-\hat{p}_B)^2}{n}}$ und $\hat{p}_A-\hat{p}_B+z_{\alpha}\sqrt{\frac{\hat{p}_A+\hat{p}_B-(\hat{p}_A-\hat{p}_B)^2}{n}}$

Schlagwörter: ,

34 Comments

Comments are closed. Would you like to contact the author directly?

Copyright © 2011-2017 Bildung und Statistik All rights reserved.
This site is using the Desk Mess Mirrored theme, v2.5, from BuyNowShop.com.

Transparenzgesetz.at Info-Logo