{"id":2005,"date":"2016-11-15T09:12:58","date_gmt":"2016-11-15T08:12:58","guid":{"rendered":"http:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/?p=2005"},"modified":"2016-11-15T10:04:13","modified_gmt":"2016-11-15T09:04:13","slug":"wahlkampfplanung-daten-und-statistik-und-die-experten","status":"publish","type":"post","link":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/2016\/11\/15\/wahlkampfplanung-daten-und-statistik-und-die-experten\/","title":{"rendered":"Wahlkampfplanung, Daten und Statistik. Und die Experten."},"content":{"rendered":"<p>Ich habe heute zwei sehr interessante Artikel gelesen: <\/p>\n<p><a href=\"http:\/\/www.spektrum.de\/kolumne\/hat-clintons-algorithmus-versagt\/1429494\">Hat Clintons Algorithmus versagt?<\/a><\/p>\n<p>und<\/p>\n<p><a href=\"https:\/\/mathbabe.org\/2016\/11\/14\/guest-post-the-foreclosure-vote\/\">Guest post: the foreclosure vote<\/a><\/p>\n<p>&#8222;Foreclosure homes&#8220; sind H\u00e4user, die zwangsversteigert werden.<\/p>\n<p>Beide Artikel geben Hinweise, dass Hillary Clinton mit ihrem ausgekl\u00fcgelten computerbasierten &#8222;W\u00e4hlerkontakteprogramm&#8220; wesentliche W\u00e4hlergruppen nicht erreicht hat, weil die Qualit\u00e4t der Daten zu schlecht war.<\/p>\n<p>Das kann passieren. <\/p>\n<p>Es hat aber vor allem mit dem Glauben an die \u00dcberlegenheit von auf Algorithmen beruhenden Entscheidungssysteme zu tun.<\/p>\n<p>Viele solcher Systeme werden ja mit dem Argument &#8222;sie m\u00fcssen nichts von den Methoden und Theorien verstehen, die Daten werden ihnen gute Prognosen liefern&#8220; vermarktet.<\/p>\n<p>Was da der Clinton-Kampange passiert ist zeigt, wie falsch derartiges Denken ist. <\/p>\n<p>Alle Prognosemodelle sind &#8211; wie der Name sagt &#8211; Modelle; sie beruhen also auf bestimmten Annahmen, das sind in der Regel mathematische Gleichungen, die Zusammenh\u00e4nge quantifizieren, indem sie aus vorliegenden Daten z.B. errechnen, welche Werte bestimmte Variable annehmen. <\/p>\n<p>Wenn man so ein Modell verwendet, dann sollte man verstehen, wie es funktioniert und auf welchen Annahmen es beruht. Und man sollte auch \u00fcber die Datenqualit\u00e4t Bescheid wissen. Man sollte auf keinen Fall Daten einfach \u00fcbernehmen und einfach davon ausgehen, das die korrekt sind. Das Problem ist ernsthaft arbeitenden Statistikern bekannt; es gibt mittlerweile eigene \u201eWerkzeugk\u00e4sten\u201d f\u00fcr data tidying and cleansing, also Datenputzen. <\/p>\n<p>In den vielen Projekten, die ich als statistischer Konsulent gemacht habe, ist mir noch kein einziger Fall untergekommen, wo die Daten im Originalzustand schon die f\u00fcr eine sinnvolle Auswertung oder Prognose notwendige Qualit\u00e4t hatten.<\/p>\n<p>Die Probleme, die diese beiden Artikel beschreiben, k\u00f6nnte man auch unter den Begriffen &#8222;Data Science ist noch nicht Statistik&#8220; zusammenfassen.<\/p>\n<p>Data Science wird oft verkauft als automatisiertes Werkzeug zum Gewinnen von Erkenntnissen aus Daten,<br \/>\nbei denen man sich ein gr\u00fcndliches Eingehen auf die Modellannahmen ersparen kann.<\/p>\n<p>Das kann bei Problemen, die durch vorgefertigte Standardmodelle abgedeckt werden, immer wieder einmal gut gehen. Es kann aber auch &#8211; und das scheint in der Clinton-Kampangne passiert zu sein &#8211; gewaltig schief gehen.<\/p>\n<p>Viel Denkarbeit (also Auseinandersetzung mit der Modellbildung) kann nicht automatisiert werden, und ebenso kann die Beurteilung, ob die Datenqualit\u00e4t zur Beantwortung bestimmter Fragen ausreichend ist, nicht automatisiert beantwortet werden.<\/p>\n<p>Wenn man Modelle verwendet und daraus Prognosen und Analysen ableitet, dann ist es auch sehr wichtig, klar zu kommunizieren, welche Teile der Ergebnisse auf echten Daten beruhen, und welche Teile Szenarien &#8211; also denkm\u00f6gliche Varianten eines Sachverhalts &#8211; beschreiben.<\/p>\n<p>Wenn man am Abend einer Wahl zu einem Zeitpunkt, wo die Briefwahlstimmen noch nicht ausgez\u00e4hlt sind, W\u00e4hlerstromanalysen publiziert und so tut, als w\u00e4ren da schon die Briefw\u00e4hlerstimmen mitber\u00fccksichtigt, dann verkauft man n\u00e4mlich die Konsumenten f\u00fcr dumm.<\/p>\n<p>Bei der letzten Bundespr\u00e4sidentenwahl wurden etwa 1\/6 der Stimmen als Briefwahlstimmen abgegeben.<br \/>\nDiese Daten hat es am Wahlabend noch nicht gegeben. Trotzdem wurde eine W\u00e4hlerstromanalyse inklusive Briefwahlstimmen publiziert. Es wurde in keiner Form darauf hingewiesen, dass 1\/6 der Daten dieser Analyse fiktiv war, sie beruhten n\u00e4mlich auf einer Prognose f\u00fcr Wahlkartenstimmen, also einer Wahlhochrechnung f\u00fcr diese Stimmen. Daf\u00fcr gab es aber zum Zeitpunkt der Analyse keine Daten.<\/p>\n<p>So etwas zu tun ist in meinen Augen wissenschaftlich unredlich. <\/p>\n<p>Man gaukelt den Medienkonsumenten eine Genauigkeit der Analyse vor, die weder durch die Datenlage<br \/>\nnoch durch eine ausreichend unumstrittene Modellbildung zu rechtfertigen ist.<\/p>\n<p>Und jetzt noch eine dringende Leseempfehlung: wie solche automatisierten Entscheidungsprozesse zu politisch und gesellschaftlich sehr gef\u00e4hrlichen Folgen f\u00fchrrn k\u00f6nnen kann man im Buch<\/p>\n<p>Weapons of Math Destruction von Cathy O&#8217;Neill <\/p>\n<p>nachlesen. Ihre Website <a href=\"https:\/\/mathbabe.org\">mathbabe.org<\/a> ist es ebenfalls wert, regelm\u00e4\u00dfig besucht zu werden. (Auf dieser Website findet sich auch der zweite in diesem Blogbeitrag zitierte Artikel).<\/p>\n<div class=\"tweet_button116\" style=\"float: right; margin-left: 10px;\"><a href=\"http:\/\/twitter.com\/share\" rel=\"nofollow\" class=\"twitter-share-button\" data-url=\"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/2016\/11\/15\/wahlkampfplanung-daten-und-statistik-und-die-experten\/\" data-text=\"Wahlkampfplanung, Daten und Statistik. Und die Experten. - Bildung und Statistik\" data-count=\"vertical\" data-lang=\"de\" data-via=\"neuwirthe\"  data-related=\"\"><\/a><\/div>","protected":false},"excerpt":{"rendered":"<p>Ich habe heute zwei sehr interessante Artikel gelesen: Hat Clintons Algorithmus versagt? und Guest post: the foreclosure vote &#8222;Foreclosure homes&#8220; sind H\u00e4user, die zwangsversteigert werden. Beide Artikel geben Hinweise, dass Hillary Clinton mit ihrem ausgekl\u00fcgelten computerbasierten &#8222;W\u00e4hlerkontakteprogramm&#8220; wesentliche W\u00e4hlergruppen nicht erreicht hat, weil die Qualit\u00e4t der Daten zu schlecht war. Das kann passieren. Es hat [&hellip;]<\/p>\n<div class=\"tweet_button116\" style=\"float: right; margin-left: 10px;\"><a href=\"http:\/\/twitter.com\/share\" rel=\"nofollow\" class=\"twitter-share-button\" data-url=\"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/2016\/11\/15\/wahlkampfplanung-daten-und-statistik-und-die-experten\/\" data-text=\"Wahlkampfplanung, Daten und Statistik. Und die Experten. - Bildung und Statistik\" data-count=\"vertical\" data-lang=\"de\" data-via=\"neuwirthe\"  data-related=\"\"><\/a><\/div>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1,5],"tags":[],"_links":{"self":[{"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/posts\/2005"}],"collection":[{"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/comments?post=2005"}],"version-history":[{"count":12,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/posts\/2005\/revisions"}],"predecessor-version":[{"id":2018,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/posts\/2005\/revisions\/2018"}],"wp:attachment":[{"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/media?parent=2005"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/categories?post=2005"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.neuwirth.priv.at\/bildungundstatistik\/wp-json\/wp\/v2\/tags?post=2005"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}