Für die Veranstaltung Fallstudien I bekamen wir einen Datensatz zu Abgasmessungen, die unter anderem der ZDF in Auftrag gegeben hatte. Das Magazin Frontal21 sowie die Deutsche Umwelthilfe stützten sich bei einigen „Faktenaussagen“ zum Diesel-Skandal auf diese Erhebung der Berner FH-Prüfstelle.

Die folgende, gekürzte Version meines Analyseberichts zeigt, warum sie das nicht einfach hätten tun dürfen.

 

Da der Text ursprünglich ein Statistik-Bericht ist, wird er sich auch so lesen. Ich habe ihn nicht zu einem Artikel umformuliert. Vor allem an den mathematischen Beschreibungen der Methoden, also an den Formeln, ist hier aber gespart worden. Wer trotzdem soviel Berichtsprache wie möglich vermeiden will, sollte lediglich die Einleitung und das Fazit lesen!

 

Einleitung

Mehr als ein halbes Jahr nach dem Bekanntwerden ihrer Abgasmanipulation sieht sich die Volkswagen AG hohen Geschäftsverlusten[1] und einem riesigen Imageschaden[2] gegenüber, während die gesamte Automobilbranche stärker in den Fokus der Öffentlichkeit rückt. So berichteten Zeitungen erst jüngst von freiwilligen Rückrufaktionen[3] und der japanische Hersteller Mitsubishi räumte offiziell die Manipulation von Verbrauchsdaten ein[4].

Der Dieselskandal ist ein aktuelles Beispiel für journalistische Trendthemen, bei denen Daten die Grundlage bilden. Die Validität der Geschichten steht und fällt mit der Qualität und Aussagekraft dieser Daten. Wie bei jeder journalistischen Tätigkeit ist es daher die Aufgabe des Redakteurs, die Datengrundlage zu prüfen, bevor er sich auf sie stützt.

Im Zuge des Skandals haben die Deutsche Umwelthilfe und das ZDF Magazin Frontal21 Abgasuntersuchungen verschiedener Automobilmodelle bei der Prüfstelle der Fachhochschule Bern in Auftrag gegeben. Am Beispiel drei konkreter Fragestellungen an diesen Datensatz wird der vorliegende Bericht einige Probleme bei der Interpretation unbalancierter Erhebungen aufzeigen, welche Journalisten im Umgang mit Zahlen stets im Hinterkopf behalten sollten. Unter Verwendung von Methoden der deskriptiven Statistik wird der Einfluss der Motortemperatur auf das Messergebnis und die Zusammenhänge der verschiedenen Abgasstoffe untersucht. Des Weiteren wird der Versuch unternommen, die untersuchten Automodelle auf Grundlage ihrer quantitativen Messresultate zu bewerten und zu vergleichen. Als kleiner Exkurs in die Welt der Statistik soll dem Leser dabei ein Grundverständnis für den Umgang mit Datensätzen und möglichen Problemen bei der Analyse und Ergebnisinterpretation an die Hand gegeben werden.

In diesem gekürzten Bericht wird zunächst näher auf die Struktur des Datensatzes und die einhergehende Problematik eingegangen. Danach werden die angewandten statistischen Methoden besprochen und die Auswertung im Hinblick auf die drei Kernfragen vorgenommen. Zum Schluss werden die wichtigsten Erkenntnisse zusammengefasst und ein Überblick über die genutzte Literatur gegeben.

 

Datenbeschreibung und Problemstellung

Bei dem untersuchten Datensatz handelt es sich um eine Zusammenfassung der Ergebnisse von der Abgasprüfstelle der Fachhochschule Bern (AFHB), welche im Auftrag des ZDF und der Umwelthilfe Deutschland insgesamt je ein Fahrzeug acht verschiedener Automodelle von sieben unterschiedlichen Marken geprüft hat. Im Zeitraum von Ende September 2015 bis Mitte Februar 2016 untersuchten Mitarbeiter der Prüfstelle einen BMW Touring, einen Fiat 500x, einen Mercedes Benz C, einen Opel Zafira, einen Renault Espace sowie einen Renault Laguna, einen Smart fortwo coupe und einen VW Passat auf ihr Emissionsverhalten auf dem Rollenprüfstand und der Straße. Die Berichte zu den Messungen können auf den Webseiten der Umwelthilfe Deutschland[5] und dem ZDF Magazin Frontal21[6] eingesehen werden.

Der Datensatz ist das Ergebnis einer kontrollierten Primärerhebung[7] der Mitarbeiter der Berner Abgasprüfstelle (AFHB) und umfasst 41 Beobachtungen mit je 14 Variablen. In der ersten Spalte findet sich der genaue Name des Fahrzeugmodells, als zweites ist das Datum der Prüfungsdurchführung festgehalten. Insgesamt wurde der Ausstoß von fünf verschiedenen Abgasstoffen gemessen: In Milligramm pro Kilometer die Emissionen von Kohlenstoffmonoxid (CO), Stickoxiden (NOx), Kohlenwasserstoffen (THC), den in THC enthaltenen Nichtmethankohlenwasserstoffen (NMHC) und in Gramm pro Kilometer Kohlenstoffdioxid (CO2). Die Messwerte sind kardinal skaliert und mit bis zu einer Nachkommastelle angegeben. Laut dem Berner Prüfstand erfüllen die genutzten Messwerkzeuge die Regelungen der Economic Commission for Europe[8][9]. Testdetails wie der Fahrzyklus (nominal: NEFZ, CADC, WLTC, NEFZ+10km/h), der Modus (nominal: 4WD = Vierradantrieb, 2WD = Zweiradantrieb), die Motorleistung in Kilowatt (kardinal), die Größe des Hubraums in Kubikzentimeter (kardinal), das Gesamtgewicht in Kilogramm (kardinal) sowie der Kilometerstand als ganze Zahl (kardinal) sind zusätzlich angegeben. Zudem ist aufgeführt, ob der Wagen im kalten oder warmen Motorzustand gemessen wurde (nominal: kalt, warm), wobei ein warmer Motor eine längere Autofahrt simuliert.[10]

 

Der Datensatz ist unbalanciert, dass heißt die Anzahl Messungen variiert pro Automodell. Mit je acht Tests wurden der Mercedes und der Renault Espace am häufigsten untersucht, der BMW und VW Passat mit je zwei Messreihen am seltensten. Die geringe Stichprobengröße birgt ein großes Problem bei der Interpretation der Analyseergebnisse, denn die Unterscheidung zwischen Ausnahme- und Regelwerten ist schwer möglich. Außerdem sind Vergleiche der Automodelle nach Merkmalen wie der Motortemperatur schwierig, da beispielsweise der VW und der BMW jeweils nur im kalten Motorzustand überprüft wurden. Weiterhin können Mess-, Rundungs- und Dokumentationsfehler nicht ausgeschlossen werden. Zudem wurden die Messungen von NMHC für alle sechs Prüfungen des Fiat-Modells nicht zusätzlich zu den THC-Messungen durchgeführt, wodurch die Stichprobe der Nichtmethankohlenwasserstoffe auf 33 Werte sinkt. Vier dieser Werte sind Nullwerte, wobei nicht festzustellen ist, ob es sich dabei um Fehler oder sehr kleine Messwerte zwischen Null und 0,4 handelt (0,4 ist der nächst höhere in dieser Messreihe dokumentierte Wert). Ein Dokumentationsfehler liegt bei einem Messwert des THC-Gehalts von dem Opel Zafira vor, der als -0,3 angegeben ist. Weiter fehlt die Angabe des Modus bei elf Messreihen.

 

Methoden

Methoden der deskriptiven Statistik

Die deskriptive oder beschreibende Statistik hat das Ziel, große Datenmengen durch wenige Lagemaße zu charakterisieren.[11] Die vorliegende Analyse beruht ausschließlich auf deskriptiven Methoden, die hier kurz vorgestellt werden sollen. Im Originalbericht ist dieser Teil formellastiger und recht ausführlich, weshalb er hier gekürzt wurde.

 

Arithmetisches Mittel[12]

Das arithmetische Mittel ist ein Durchschnittswert und wird aus der Summe der Werte geteilt durch ihre Gesamtanzahl berechnet. Das arithmetische Mittel ist anfällig für Ausreißer, also Werte, die einen sehr viel höheren oder sehr viel niedrigeren Wert als der Großteil der Werte annehmen. Es eignet sich vor allem für die Beschreibung von symmetrischen Verteilungen metrischer Daten. Das arithmetische Mittel kann eine Zahl sein, die so nicht tatsächlich in den Daten vorkommt. (Beispiel: Das arithmetische Mittel von 1 und 2 ist 1.5)

 

Median[13]

Der Median ist ein weiteres Durchschnittsmaß, das sowohl für metrische als auch ordinale Skalenniveaus verwendet werden kann. Er ist der in den Daten real vorkommende Wert, der bei den aufsteigend sortierten Daten die Hälfte aller Werte unter sich hat. Er wird daher auch Zentralwert oder 50%-Quantil genannt. Der Median ist robust gegen Ausreißer, bei Verteilungen mit nur wenigen Beobachtungen als Deskription aber oft nicht sinnvoll. (Beispiel: Der Median von 1,2,6 ist 2)

 

Boxplot[14]

Der Boxplot ist eine grafische Darstellung der Verteilung einer Datenmenge, aus dem Zentrum, Schiefe, Streuung und Spannweite abgelesen werden können. Er besteht aus einer Box, welche die mittleren 50% Beobachtungen der Daten umschließt. Das heißt, 25% der Werte liegen oberhalb und 25% unterhalb der Werte in der Box. Der Median ist als Querbalken durch die Box eingezeichnet. Von der Box gehen zwei Striche, die Whiskers, bis zum 5- bzw 95%-Perzentil. Die unteren und oberen 5% der Datenwerte werden als Ausreißer bezeichnet und mit Punkten oder Kreuzen markiert. (Beispiel: Siehe Abbildung 1)

 

Scatterplot[15]

Will man die gemeinsame Verteilung zweier Variablen darstellen, verwendet man häufig einen Scatterplott (Streudiagramm). Die Wertepaare werden in ein X-Y-Koordinatensystem eingetragen. Diese Darstellung eignet sich vor allem bei einer größeren Datenanzahl und bei gleich skalierten Wertepaaren. Erstellt man einen Scatterplot kann auch der Korrelationskoeffizient berechnet und versucht werden, ein Modell anzupassen, das den Zusammenhang der beiden Variablen möglichst gut beschreibt (zum Beispiel einen linearen Zusammenhang).

 

Software

Die Berechnungen und die in diesem Bericht gezeigten Grafiken wurde mit dem Statistikprogramm R und dem Framework RStudio, Version 0.99.442 gemacht. Im Folgenden sind die verwendeten Zusatzpakete mit einer kurzen Beschreibung ihrer für den Beitrag relevanten Funktion aufgeführt.

 

tidyr[19]

Die Funktion gather() aus diesem Paket kondensiert die Daten von einem weiten in ein langes Format.[20] Mit diesem Datenformat arbeiten die folgenden Pakete.

dplyr[21]

Mit den Funktionen dieses Pakets können Daten im tidyr-Format gruppiert, gefiltert, zusammengefasst und geordnet werden.

ggplot2[22] und die Erweiterung GGally[23]

ggplot2 ist ein Grafikpaket mit dem Boxplots, Scatterplots, Barcharts und andere Diagramme erstellt werden können. Die Erweiterung GGally wird bei der Erstellung von Scattermatrizen benötigt.

gridExtra[24]

Mit gridExtra können mehrere ggplots als eine Grafik zusammengefügt werden.

reshape2[25]

reshape2 hat eine ähnliche Funktion wie tidyr und wurde bei dieser Analyse für die Berechnung einer Korrelationsmatrix verwendet.

 

Daten und Code der Analyse sind als Jupyter Notebook auf GitHub veröffentlicht.

 

Auswertung hinsichtlich der Fragestellungen

Die Analyse der Daten erfolgte mit einem Fokus auf drei Kernfragen und wurde gänzlich mit der Programmiersprache R und deren kostenlosen Zusatzpaketen durchgeführt. Um die Emissionswerte untereinander vergleichen zu können, wurden zunächst die Kohlenstoffdioxid-Messwerte in Gramm pro Kilometer umgerechnet.

 

Welche Rolle spielt die Motortemperatur?

Die nominal skalierte Motortemperatur soll das Emissionsverhalten bei kurzen Fahrten mit kaltem Motor und längeren Fahrten mit warmen Motor unterscheiden. Um ihren Einfluss auf die Messwerte zu untersuchen wurden Boxplots erstellt, welche die Ausprägungen pro Abgasstoff in solche bei warmem und kaltem Motor unterscheiden. Da die Modelle von BMW und VW lediglich bei kaltem Motorzustand gemessen wurden, sind diese Testreihen dabei vernachlässigt worden.

11

Abbildung 1: Boxplots der Abgasverteilung von CO und NOx nach Motortemperatur

Für alle fünf gemessenen Abgase konnten abhängig von der Temperatur erhebliche Unterschiede im Volumen der Ausstöße festgestellt werden. Während die Messergebnisse für Kohlenmonoxide, Kohlenwasserstoffe sowie Nichtmethankohlenwasserstoffe und Kohlenstoffdioxid bei kaltem Motor höher sind, verhält es sich bei den Stickoxiden genau anders herum. Während die Stickoxid-Messungen bei kaltem Motor noch unter ihrem aktuell in der EU geltendem Grenzwert von 0,08 Gramm pro Kilometer[26] liegen, überschreiten ihn neun der 21 bei warmem Motor festgestellten NOx-Werte. Abbildung 1 zeigt die Boxplots der Messungen von Kohlenmonoxid und den Stickstoffoxiden exemplarisch im Vergleich.[27] Wie in Kapitel 3 erläutert, markiert der schwarze Boxgürtel den Median und die schwarzen Punkte außerhalb der Box die Ausreißer. Die tatsächlichen Werte sind zusätzlich als transparente Punkte eingezeichnet, die schwarzen Kreuze markieren das arithmetische Mittel.

Obwohl die Boxplots nahe legen, dass ein warmer Motor die Emissionen von CO, CO2, THC und NMHC verringert und die Emissionen von NOx erhöht, ist bei der Interpretation dieses Einflusses wegen der in Kapitel 2 genannten Problematik der Stichprobengröße Vorsicht geboten. Hinzu kommt, dass die neun NOx-Messwerte, die über dem Grenzwert liegen, lediglich zu zwei verschiedenen Fahrzeugmodellen gehören. Fünf gehören zum Renault Espace, vier zum Fiat-Modell. Zwar weisen auch alle anderen Wagen einen mehr oder weniger stark erhöhten NOx-Ausstoß bei warmem Motor im Vergleich zu ihrem Messwert im kalten Motorzustand auf, andere Faktoren wie eingebaute Filter, die Fahrtgeschwindigkeit oder der Fahrzyklus könnten dies allerdings zusätzlich beeinflussen.

 

Gibt es Zusammenhänge zwischen den Emissionswerten?

12

Abbildung 2.1: Scatterplot von THC und CO nach Automodell

Um zu untersuchen, ob und wie sich die Ausstöße der verschiedenen Abgase beeinflussen, wurde zunächst eine Übersicht der Korrelationskoeffizienten erstellt. Drei Stoffpärchen weisen dabei eine hohe positive Korrelation größer 0,6 auf. Den stärksten Zusammenhang haben dabei die Abgase THC und NMHC. Dieser ist jedoch vernachlässigbar, da Nichtmethankohlenwasserstoffe ein Bestandteil der Kohlenwasserstoffe sind. Mit einem Korrelationskoeffizienten von 0,66 weisen die Emissionen von Kohlenstoffmonoxid und Kohlenwasserstoffen ebenfalls einen positiven linearen Zusammenhang auf. Der Scatterplot (Abbildung 2.1) zeigt große Unterschiede im Hinblick auf die verschiedenen Automodelle. Die eingezeichnete Regressionsgerade ist von einem Schlauch umgeben, welcher das 95%-Intervall darstellt. Der größere Durchmesser des Schlauchs ist ein Indiz dafür, dass sich das lineare Regressionsmodell allein nicht gut für die Beschreibung des Zusammenhangs eignet. Die Daten streuen und die Spannweite variiert teils stark je nach betrachtetem Automodell. Die Messwerte des Smart fortwo coupe bewegen

sich beispielsweise in einem sehr viel schmaleren Werteintervall als die anderen Fahrzeuge und könnten eher einen quadratischen Zusammenhang aufweisen. Allerdings ist die Stichprobengröße zu gering für gesicherte Aussagen. Mit einem

111

Abbildung 2.2: Scatterplot von NMHC und CO nach Automodell

Korrelationskoeffizienten von 0,62 korrelieren auch Kohlenstoffmonoxid und Nichtmethankohlenstoffe vergleichsweise stark positiv (Abbildung 2.2), allerdings ist die Problematik der Anpassung eines Modells hier dieselbe. Zudem ist bekannt, dass NMHC ein Teil von THC ist und ein ähnliches Verhalten der Messwerte daher zu erwarten war.

123

Abbildung 2.3: Scattermatrix

Zur Interpretationsproblematik kommt der in 4.1 festgestellte Einfluss der Motortemperatur hinzu. Abbildung 2.3 zeigt eine Scattermatrix, welche die Scatterplots jedes Stoffpärchens, ihre Dichtefunktion und die Korrelationskoeffizienten getrennt nach der Motortemperatur zeigt. Obwohl auf diese Grafik und die Dichtefunktion in diesem Bericht nicht weiter eingegangen werden soll, so zeigt sie doch, dass die Motortemperatur die Berechnung des linearen Zusammenhangs der Stoffe maßgeblich beeinflusst. Auch zu dieser Frage kann der Datensatz daher nur Tendenzen, keine Fakten liefern.

 

Vergleich der Emissionen der verschiedenen Fahrzeugmodelle: Gibt es Autos, die besonders gut oder schlecht abschneiden?

13

Abbildung 3.1: Barplot der mittleren CO2-Emission pro Automodell und Motortemperatur

Um sich dieser Frage anzunähern wurden Barcharts der mittleren Emissionswerte (arithm. Mittel) pro Automodell für die verschiedenen Abgasstoffe und aufgeteilt nach Motortemperatur erstellt. Da sich die Ausstöße je nach Abgas und Motortemperatur teils stark unterscheiden, kann sich der Frage lediglich angenähert werden, da hier keine Definition von gut oder schlecht abschneiden festgelegt werden soll. Ausgehend von der Gefahr des Stoffes für den Menschen, für die Umwelt oder einfach nur von Größe des Gesamtvolumens kann die Antwort ganz unterschiedlich ausfallen. Im vorliegenden Bericht sollen daher nur die zwei Automodelle mit dem höchsten und die zwei mit dem niedrigsten Volumen für drei der fünf Abgasstoffe und nach Motortemperatur näher betrachtet werden. In den Abbildungen 3.1, 3.2 und 3.3 sind die Barcharts von CO2, NOx und CO zu sehen.[28] Kohlenstoffdioxid macht den größten Volumenanteil der Gesamtemissionen aus und ist aufgrund der globalen Erwärmung stark im Fokus der Abgasdiskussion. Die Stickstoffoxid-Emission wird wegen der Erkenntnisse aus 4.1 näher besprochen. Kohlenmonoxid wird betrachtet, da es für den Menschen der tödlichste Stoff der Fünf ist.[29]

14

Abbildung 3.2: Barplot der mittleren NOx-Emission pro Automodell und Motortemperatur

Bei gemeinsamer Betrachtung von warmem und kaltem Motor verzeichnen den größten mittleren CO2-Ausstoß bei warmem und kaltem Motor verzeichnen das Modell von Fiat und der Renault Lugano, die geringsten das Opel-Modell und der Smart fortwo coupe. Bei den Stickoxid-Emissionen bei kaltem Motor führen knapp der Renault Lugano und das Mercedes-Modell, wobei die Wertunterschiede zwischen allen Automodellen hier sehr gering sind. Opel und Fiat haben den geringsten Durchschnitt. Bei warmem Motor sieht die Rangliste anders aus: Der Renault Espace und das Fiat-Modell emittieren im Mittel mit Abstand am meisten NOx. Die niedrigsten Werte haben hier der Renault Lugano und das Opel-Modell. Der Ausstoß des für den Menschen tödlichen Kohlenmonoxids bei kaltem Motor ist beim Opel und dem Renault Espace am größten, bei warmem Motor bei den beiden Renault-Modellen. Die geringsten Durchschnittswerte weisen bei beiden Motorzuständen Fiat und Smart auf.

33

Abbildung 3.3: Barplot der mittleren CO-Emission pro Automodell und Motortemperatur

Bei der Interpretation dieser Ranglisten sind die geringe, unbalancierte Stichprobengröße je Automodell und die fehlenden Werte für BMW und VW für die warme Motortemperatur sowie die fehlenden NMHC-Werte für den Fiat zu beachten. Zudem ist das hier für die Berechnung des Durchschnitts gewählte arithmetische Mittel sehr anfällig für Ausreißer, welche aufgrund der geringen Stichprobengröße schwer zu identifizieren und auszuschließen sind.

 

Fazit

Im vorliegenden Bericht wurde ein Datensatz zu Abgasmessungen verschiedener Automodelle von der Abgasprüfstelle der Fachhochschule Bern auf drei Kernfragen hin untersucht. Bei der Analyse der Datenstruktur wurde festgestellt, dass die Erhebung stark unbalanciert ist. Stellvertretend für die Automodelle wurde nur je ein Fahrzeug getestet. Die Abgasuntersuchung wurde je Modell unterschiedlich oft durchgeführt und auch gewisse Faktoren wie die Motortemperatur wurden innerhalb dieser Cluster verschieden oft geändert. Zudem gibt es fehlende und eventuell fehlerhafte Werte. Die Gesamtstichprobe ist überdies sehr klein.

Mit Hilfe von nach der Motortemperatur getrennten Boxplots wurde gezeigt, dass dieser Faktor einen Einfluss auf die Emissionen der verschiedenen Abgasstoffe hat. Die beobachteten Messwerte von Kohlenmonoxid, Kohlenstoffdioxid, Kohlenwasserstoffen und Nichtmethankohlenwasserstoffen sind bei warmer Motortemperatur größer als bei kalter. Für den Stickoxid-Ausstoß kehrt sich diese Beobachtung um. Aufgrund der Strukturproblematik des Datensatzes, fehlenden Angaben zur Fahrtdauer, exakter Motortemperatur und den großen Unterschieden in dem Verhalten der Ausstöße nach Automodell ist diese Aussage jedoch nicht mehr als eine wenig belastbare Tendenz. Für eine weitere Ergebnisbewertung ist es außerdem wichtig zu wissen, dass die Grenzwerte, auf die die Autoabgase getestet werden, lediglich für den kalten Motor festgelegt und auch bei kaltem Motor geprüft werden. Warum genau ein erhöhter Ausstoß bei eingelaufenem motor festzustellen ist, kann mit Methoden der Statistik nicht erklärt werden.

Auch bei der Frage nach einem Zusammenhang zwischen den verschiedenen Abgasstoffen können über die Berechnung des Korrelationskoeffizienten und der Anpassung eines linearen Regressionsmodells nur unsichere Aussagen getroffen werden. Über die visuelle Analyse der nach Automodell eingefärbten Scatterplots konnten große Unterschiede pro Testfahrzeug festgestellt werden, die eine allgemeingültige Antwort unmöglich machen. Mit einem Korrelationskoeffizienten von über 0,6 ist ein positiver Zusammenhang zwischen den Kohlenmonoxid-Emissionen und dem Ausstoß von Kohlenwasserstoffen und Nichtmethankohlenwasserstoffen zu beobachten. Hier würde sich eine Betrachtung der betreffenden Chemie lohnen, um eventuelle Zusammenhänge bei der Entstehung der Stoffe zu identifizieren. Die Stärke der beobachteten Korrelation hängt stark von dem untersuchten Automodell und der Motortemperatur ab.

Der Datenstruktur ist es auch geschuldet, dass auf die Frage nach dem Abschneiden der verschiedenen Automodelle nur Teilantworten möglich sind. Je nach Definition von gut oder schlecht abschneiden kann das Ergebnis anders ausfallen. Hier soll daher nur gesagt werden, dass unter den getesteten Fahrzeugen der Fiat und Renault Espace mit ihren im Vergleich überdurchschnittlich hohen mittleren Messwerten der Stickoxid-Emission bei warmem Motorzustand negativ auffallen. Auch beim CO2-Ausstoß sind diese beiden Wagen unter den hohen Messwerten zu finden, bei anderen Stoffe liegen sie auch mal im Mittelfeld oder bei den niedrigen Emissionen.

Der Datensatz lässt damit viel Raum für Interpretationen und eignet sich eher als grobe Orientierung zum Thema Autoabgase und ihre Einflussfaktoren. Um valide Aussagen auf die drei Kernfragen zu erhalten, müsste eine größere Stichprobe mit mehr Testwagen pro Modell und einer ausgeglichenen Anzahl der Veränderungen von möglichen Einflussfaktoren gezogen werden. Dann könnten Aussagen mit den hier verwendeten Methoden gestärkt werden. Auch andere Methoden wie das Clustern der Daten nach Ähnlichkeiten aller Faktoren oder das Anpassen quadratischer und anderer Modelle an die Daten könnten interessant sein.

Die vorliegende Analyse hat gezeigt, dass Aussagen, wie sie das ZDF Magazin Frontal21 und vor allem die Deutsche Umwelthilfe auf Grundlage dieser Daten formuliert haben, so nicht allgemeingültig gestützt werden. Der Datensatz ist schlicht zu klein und unausgewogen. Diese Feststellung wird untermauert durch die Distanzierung der Abgasprüfstelle der Berner Fachhochschule von den Vorwürfen der Deutschen Umwelthilfe gegen den Automobilhersteller Opel. Auf Nachfrage von Focus Online soll ein Mitarbeiter der Prüfstelle gesagt haben, dass die Testergebnisse falsch interpretiert werden können und man nicht wisse, ob sich ein zweites Fahrzeug genauso verhalten hätte.[32] Gerade Journalisten, die wenig oder keine Erfahrung mit Erhebungstechniken und allgemeiner Statistik haben sollten bei der Verwendung von Daten für die Formulierung von Fakten oder Vorwürfen daher mit äußerster Sorgfalt vorgehen.

 

 

[1] Vgl. VW macht größten Verlust der Firmengeschichte. IN: Zeit Online. 22.04.2016. URL: http://www.zeit.de/wirtschaft/unternehmen/2016-04/abgas-skandal-volkswagen-verlust (abgerufen am 24.04.2016, 15:30 Uhr)

[2] Vgl. HULVERSCHEIDT, Claus. Abgasskandal lässt Volkswagen-Image in den USA einbrechen. IN: Süddeutsche Zeitung. 29.02.2016. URL: http://www.sueddeutsche.de/wirtschaft/volkswagen-ein-fall-fuer-das-lehrbuch-1.2885197 (abgerufen am 23.04.2016, 11:30 Uhr)

[3] Vgl. BEITRINGER, Matthias. Fast alle deutschen Hersteller starten Rückruf.

IN: Zeit Online. 22.04.2016 . URL: http://www.zeit.de/wirtschaft/unternehmen/2016-04/abgas-skandal-auto-rueckruf (abgerufen am 23.04.2016, 11 Uhr)

[4] Vgl. Unbekannt. Mitsubishi räumt Manipulation von Verbrauchswerten ein.

IN: Zeit Online. 20.04.2016. URL: http://www.zeit.de/mobilitaet/2016-04/mitsubishi-motors-abgaswerte-manipulation-vw-abgasskandal (abgerufen am 23.04.2016, 11 Uhr)

[5] Vgl. Deutsche Umwelthilfe. Deutsche Umwelthilfe zieht „Dieselgate-Halbjahresbilanz“ – Viele Autobauer setzen Abschalteinrichtung ein – KBA-Verfahren gegen Daimler, Opel und VW. URL: http://www.duh.de/pressemitteilung.html?&tx_ttnews%5Btt_news%5D=3769(abgerufen am 24.04.2016, 22:30 Uhr)

[6] Vgl. KOBERSTEIN, Hans et al. Auffällige Abgaswerte nicht nur bei VW. 15.12.2015. IN: Frontal21, ZDF. URL: http://www.zdf.de/frontal-21/auffaellige-abgaswerte-nicht-nur-bei-vw-sondern-auch-bei-daimler-und-bei-bmw-41478242.html (abgerufen am 24.04.2016, 22:30 Uhr)

[7] Vgl. KOSFELD, Reinhold. Statistik1. Folien 2. 2. Datengewinnung. 2.1 Erhebungsarten. S. 1. URL: http://www.uni-kassel.de/~rkosfeld/lehre/statistikI/Folien2%28Datengewinnung%29.pdf (abgerufen am 25.04.2016, 15:20 Uhr)

[8] Vgl. United Nations. Agreement. Uniform provisions concerning the approval of vehicles with regard to the emission of pollutants according to engine fuel requirements. 26.04.2011. URL: https://www.unece.org/fileadmin/DAM/trans/main/wp29/wp29regs/r083r4e.pdf (abgerufen am 24.04.2016, 23:40 Uhr)

[9] Vgl. Berner Fachhochschule, Abgasprüfstelle. Emissionsmessungen an einem BMW 320d Touring (EURO5a) auf dem Rollenprüfstand und auf der Strasse. November 2015.

URL: http://www.zdf.de/ZDF/zdfportal/blob/41471464/2/data.pdf(abgerufen am 24.04.2016, 23:40 Uhr)

[10] Vgl. Deutsche Umwelthilfe. Deutsche Umwelthilfe zieht „Dieselgate-Halbjahresbilanz“ – Viele Autobauer setzen Abschalteinrichtung ein – KBA-Verfahren gegen Daimler, Opel und VW. URL: http://www.duh.de/pressemitteilung.html?&tx_ttnews%5Btt_news%5D=3769(abgerufen am 24.04.2016, 22:30 Uhr)

[11] NATROP, Johannes. Angewandte Deskriptive Statistik. Praxisbezogenes Lehrbuch mit Fallbeispielen. De Gruyter, 2015. S. 4-5.

[12] HEUMANN, Christian / TOUTENBURG, Helge. Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit R und SPSS. 6. Auflage. Springer-Verlag, 2008. S. 59-60.

[13] Ebd. S. 52-53.

[14] HEUMANN, Christian / TOUTENBURG, Helge. Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit R und SPSS. 6. Auflage. Springer-Verlag, 2008. S. 82-83.

[15] Ebd. S. 103.

[19] WICKHAM, Hadley (2016). tidyr: Easily Tidy Data with `spread()` and `gather()` Functions. R package version 0.4.1. https://CRAN.R-project.org/package=tidyr

[20] WICKHAM, Hadley. Tidy Data. Journal of Statistical Software. URL: http://vita.had.co.nz/papers/tidy-data.pdf (abgerufen am 25.04.2016, 22:40 Uhr). S. 5-8.

[21] WICKHAM, Hadley / FRANCOIS, Romain (2015). dplyr: A Grammar of Data Manipulation. R package version 0.4.3. https://CRAN.R-project.org/package=dplyr

[22] WICKHAM, Hadley (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.

[23] SCHLOERKE et al(2016). GGally: Extension to ggplot2. R package version 1.0.1. https://CRAN.R-project.org/package=GGally

[24] AUGUIE, Baptiste (2016). gridExtra: Miscellaneous Functions for „Grid“ Graphics. R package version 2.2.1. https://CRAN.R-project.org/package=gridExtra

[25] WICKHAM, Hadley (2007). Reshaping Data with the reshape Package. Journal of Statistical Software, 21(12), 1-20. URL http://www.jstatsoft.org/v21/i12/

[26] Vgl. Umwelt Bundesamt. Grenzwerte für Schadstoffemissionen von PKW. URL: https://www.umweltbundesamt.de/sites/default/files/medien/378/bilder/dateien/2_tab_grenzwerte-pkw.pdf (abgerufen am 25.04.2016)

[27] Bei Interesse können die Boxplots der weiteren Abgasstoffe dem Jupyter Notebook entnommen werden.

[28] Bei Interesse können die weiteren Balkendiagramme dem Jupyter Notebook entnommen werden.

[29] Vgl. MORTIMER, Charles / MÜLLER, Ulrich: Chemie. 10. Luftverschmutzung. 2010. 10. Auflage. S. 445-446.

[32] Vgl. dpa. DUH-Vorwürfe gegen Opel. Berner Abgasprüfstelle distanziert sich. 05.11.2015. URL: http://www.focus.de/finanzen/news/wirtschaftsticker/duh-vorwuerfe-gegen-opel-berner-abgaspruefstelle-distanziert-sich_id_5065457.html (abgerufen am 25.04.2016, 16:00 Uhr)