Herzlich Willkommen zum ersten Teil des R-Crashkurses für Journalist*innen, in dem ich dir zeige, wo du R und RStudio herunterladen kannst und dir die wichtigsten Funktionen und Features von RStudio erkläre. Wer es verpasst hat: Hier geht’s zum Vorwort des Crashkurses.

R herunterladen

Die Statistiksprache R ist Open Source, also frei verfügbar und gestützt durch eine Community von R-Usern. Diese schreiben immer neue Funktionen, auf die dann alle zugreifen können. Herunterladen kannst du R auf der Seite des R Projects. Statt eines großen Download-Buttons musst du dir hier einen sogenannten CRAN-Mirror von einer Liste aussuchen. CRAN steht für Comprehensive R Archive Network und bezeichnet das Netzwerk aus auf der Welt verteilten Servern (den Mirrors), auf denen jeweils eine aktuelle Kopie von R samt Dokumentation hinterlegt ist. Da R vor allem von Statistikern verwendet wird, sind die meisten Mirrors von Universitäten.

Eigentlich ist es völlig egal, welchen Mirror du zum Download auswählst, die R-Versionen sind überall auf dem gleichen Stand. Es wird empfohlen, einen Mirror in der Nähe deines Wohnorts zu nehmen und ich würde immer zu einem https-Link raten. Mein R habe ich von dem Mirror der Universität Münster. Unter dem Link kannst du dir dann den passenden Download für dein Betriebssystem aussuchen.

Wenn du Windows hast, wähle unter Windows das base-Paket aus. Arbeitest du mit Mac OS X, kannst du noch zwischen den Downloads für Maverick, El Capitan und weiteren wählen. Die Software installierst du dann genauso, wie du andere Programme auf deinem PC installierst.

Ab jetzt kannst du mit R auf deinem Computer arbeiten. Dafür musst du nur die Konsole öffnen (bei Macs findest du sie unter „Terminal“), „R“ eingeben und Enter drücken. Auf dem zweiten Screenshot siehst du, wie ich R starte, zwei Berechnungen mache und dann R über den Befehl q() wieder beende.

Du könnest R auf jeden Fall so verwenden. Du könntest direkt in der Konsole arbeiten, könntest Variablen festlegen, Datensätze einlesen oder ganz neue erstellen, Grafiken bauen und sie als PDF oder PNG speichern. So verwende ich beispielsweise Python, wenn ich damit arbeite. Das einzige, was mich dabei immer sehr nervt, sind die dutzenden Fenster, die sich chaotisch auf meinen Bildschirmen ansammeln. Da wäre das Terminal, der Text Editor mit dem Skript, und die Fenster, die sich öffnen, wenn ich beispielsweise einen gerade erstellten Datensatz in Tabellenform oder eine gebaute Grafik ansehen möchte.

 

RStudio

Um ein bisschen Ordnung zu schaffen, gibt es sogenannte IDEs, kurz für Integrated Development Environments. Im Prinzip sind IDEs Dashboards, die einen schnellen Zugriff auf die wichtigsten Funktionen zulassen, ohne mehrere voneinander getrennte Fenster oder Anwendungen nutzen zu müssen. Die Software, die wir als nächstes herunterladen wollen, RStudio, ist so ein IDE speziell für R. In diesem Dashboard haben wir Konsole und Skript, einen Platz für Grafiken und eine Übersicht aller Datensätze und Variablen bereits integriert, plus noch viel mehr Features, von denen ich dir in diesem Crashkurs ein paar zeigen werde. Herunterladen kannst du es ganz leicht hier. Wähle den kostenlosen Download!

Wenn du RStudio zum ersten Mal öffnest, ist es schon voll funktionsfähig und sollte drei offene Fenster haben: Die Konsole, den Workspace mit den Tabs „Environment“ und „History“ und das Fenster für die Ordnerübersicht, Grafiken, die Hilfeseite und den Viewer. Oben links kannst du über das Symbol mit dem Pluszeichen ein neues R-Skript öffnen. Bis auf die Hintergrundfarbe und den Content sollte RStudio bei dir dann in etwa so aussehen:

RStudio gewinnt vielleicht keinen Preis für das schönste Design, ist aber unglaublich praktisch. Das Panel oben links ist der Platz für das Skript. Du kannst hier auch mehr als eins gleichzeitig aufhaben und über die Tabs hin und her switchen. Das R-Skript ist ein ganz normales Textdokument, in den du deinen R Code schreiben kannst. Du kannst das Skript über das Disketten-Symbol abspeichern (ich mache das über den Shortcut Command/Steuerung-S), schließen, wieder mit RStudio öffnen und immer wieder umschreiben oder bearbeiten.

Ausgeführt wird der Code aber erst dann, wenn er in die Konsole gegeben wird. Du kannst auch direkt in der Konsole programmieren, das hat aber den Nachteil, dass du deine Anweisungen und Berechnungen nirgends abgespeichert hast und nicht Wochen später exakt so noch einmal ausführen lassen kannst. Deshalb macht es Sinn, in einem Skript zu programmieren, und es komplett oder teilweise in die Konsole zu geben, um es ausführen zu lassen. Ein ganzes Skript kannst du in die Konsole geben, indem du in RStudio auf den Source-Button, oben rechts am Skript-Fenster klickst. Ich mache das nie, weil der Button in meiner Erfahrung manchmal etwas buggy ist und die Zeilen nicht exakt nacheinander ausführt. Ich markiere stattdessen das ganze Skript oder die Teile, die ich ausgeführt haben will, und klicke entweder auf den Run-Button oder nutze den Shortcut Command/Steuerung-Enter. Wenn du nichts markierst, wird nur die Zeile ausgeführt, in die du vorher mit dem Cursor geklickt hast.

Die Konsole und das Skript direkt beieinander zu haben hat viele Vorteile. Wenn dir die Konsole zum Beispiel beim Ausführen des Codes einen Fehler zurückgibt, kannst du einzelne Zeilen ausführen und den Fehler schneller finden und bearbeiten. Außerdem kannst du durch das Markieren von Skriptteilen nur exakt die Teile ausführen, die du gerade ausführen willst. Das ist vor allem dann praktisch, wenn du einen sehr großen Datensatz einliest oder zeitaufwändige Berechnungen durchführst, und nicht immer wieder das gesamte Skript ausführen möchtest. Das Skriptfenster ist auch der Ort, in dem sich in einem neuen Tab ein Datensatz in einer filter- und sortierbaren Tabelle öffnet, wenn du auf den Datensatznamen klickst oder das mit einem Befehl auslöst. Wie das geht, werden wir uns im nächsten Teil des Kurses kurz anschauen.

Das Panel oben rechts ist ein super praktisches Übersichtsfeature von RStudio. Wann immer du einen Datensatz einliest und benennst oder neue Variablen festlegst, tauchen sie hier samt einer Kurzbeschreibung auf. Bei Datensätzen bekommst du über den kleinen Pfeil sogar eine Übersicht der Spaltennamen samt Angabe, ob es sich dabei um Zahlen oder Wörter handelt. In der History kannst du sehen, welche Befehle du bereits in die Konsole geschickt hast. Das letzte Fenster links unten hat ebenfalls mehrere Tabs. Du kannst hier dein Ordnerverzeichnis öffnen, Hilfeseiten aufrufen und sehen, welche Pakete mit Zusatzfunktionen du bereits installiert und geladen hast. Sobald du in R eine Grafik erstellst, öffnet sie sich außerdem im Plot-Tab. Über den Zoom-Button kannst du sie dir auch in größer anschauen. Du kannst die Größe der Fenster übrigens einfach über dragging mit der Maus verändern!

Dank RStudio kann man auch ziemlich viele Schritte ausführen, ohne zu programmieren. Über den File-Tab kannst du zum Beispiel Datensätze einlesen und über den Plot-Tab können wir unsere Grafiken exportieren. Ich würde aber dazu raten, diese Dinge im Skript zu coden, denn je mehr Schritte du zwischendurch manuell über drag and drop und andere Funktionen löst, desto mehr Schritte musst du auch genau so manuell wiederholen, wenn du deine Analyse nochmal durchführen möchtest. Da lohnt es sich meistens, etwas mehr Zeit in das Programmieren dieser Anweisungen zu stecken, und dafür später alles mit einem einzigen Klick wiederholt ausführen zu können.

Das wichtigste zum Schluss: Wie gesagt, RStudio hat nicht das tollste Design, aber man kann das Styling von Skript und Konsole anpassen. Im Mac unter RStudio > Preferences oder Einstellungen, bei einigen auch unter Global Options, kannst du unter Appearance ein Theme und eine Schriftart wählen. Ich nehme immer Monokai und Monaco.

Wenn das alles bei dir geklappt hat, kannst du weiter zu Crashkurs: Programmieren in R für Journalist*innen | Teil 2: Grundvokabeln, wo du nun endlich mit R programmieren wirst!

Hattest du irgendwelche Probleme beim Installieren und findest auch über Google nicht heraus, was du falsch gemacht hast? Dann hau am besten Journocode, die Datenjournalismus-Initiative, zu der ich auch gehöre, via Slack, Twitter oder Facebook an. Wir helfen gerne und haben die Programme schon auf diversen Betriebssystemen installiert. Wenn du noch mehr über die Funktionen und Features von RStudio wissen möchtest, geh auf die RStudio Seite oder wirf einen Blick auf dieses RStudio Cheat Sheet. Unter diesem Link findest du außerdem einen Überblick über R und RStudio von John Verzani.