R Anfängerkurs

Termin:
Do 26.02.2015, 9-17:30 & Fr 27.02.2015, 9-16
Dozenten:
Dipl.-Stat. Veronika Deffner, Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...




Multivariate Statistik mit R

Termin:
abgesagt
Dozenten:
Prof. Dr. Jan Gertheiss
Voraussetzungen:
Anwendung von R für einfache Datenanalysen

Inhalt:

Die multivariate Statistik beschäftigt sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen, wobei "höherdimensional" typischerweise "ab drei" (ohne Schranke nach oben) bezeichnet. Zu Beginn des Kurses werden Methoden zur Visualisierung höherdimensionaler Daten vorgestellt. Weitere Themen sind Diskriminanzanalyse zur Prognose kategorischer abhängiger Variablen (Klassifikation), und das Auffinden von Gruppen in Daten mit Hilfe der Clusteranalyse. Den Abschluß bilden Dimensionsreduktionverfahren wie Hauptkomponenten- und Faktorenanalyse, die benutzt werden können, um latente Zusammenhangsstrukturen in Daten zu modellieren. Die Theorie aller vorgestellten Methoden wird erklärt und die Anwendung an praktischen Beispielen im EDV-Labor geübt. Der Kurs basiert auf dem Buch An Introduction to Applied Multivariate Analysis with R von B. Everitt und T. Hothorn.




Praktische Datenanalyse mit R

Termin:
Do 19.03.2015, 9-17:30 & Fr 20.03.2015, 9-16
Dozenten:
Alexander Engelhardt, M. Sc., Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses) oder Programmier-Erfahrung, Grundkenntnisse in Statistik

Inhalt:

Dieser Kurs wurde für Personen konzipiert, die bekannte Standardmethoden der Statistik mit Hilfe von R zur Analyse eigener Daten verwenden möchten. Themenschwerpunkte sind dabei:
  • Einfache Verfahren zur Visualisierung von Daten
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Varianzanalyse (z.B. ANOVA)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
  • Logistische Regression und verallgemeinerte lineare Modelle.
Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.

Der Kurs basiert auf dem Buch "A Handbook of Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399).

Programmieren mit R

Termin:
Do 26.03.2015, 9-17:30 & Fr 27.03.2015, 9-16
Dozenten:
Alexander Engelhardt, M. Sc., Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs dient der allgemeinen Vertiefung in R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich das komplexe Werkzeug R leichter und effizienter bedienen lässt. Zudem wird erklärt, wie sich statistische Resultate und Ergebnisse aus R Code automatisch und dynamisch in Berichten einbinden lässt. Themenschwerpunkte sind dabei:
  • Effizienter Umgang mit R
  • Schreiben eigener Funktionen
  • Tipps und Tricks zu gutem Programmierstil, gute Programmierpraktiken
  • Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception Handling, ...
  • Objektorientierte Programmierung
  • Implementierung eigener statistischer Modelle in R und Erstellung von R Paketen
  • Dynamische Berichterstellung mit Hilfe von Rmarkdown
  • Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.

R Anfängerkurs

Termin:
Do 23.07.2015, 9-17:30 & Fr 24.07.2015, 9-16
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...





Effizientes und Paralleles Programmieren mit R

Termin:
Do 13.08.2015, 9-17:30 & Fr 14.08.2015, 9-16
Dozenten:
Prof. Dr. Bernd Bischl
Voraussetzungen:
Fundierte Grundkenntnisse in R

Inhalt:

Zentrales Thema des Kurses ist der effiziente Einsatz von R für zeitintensive Rechenmethoden und statistische Experimente. Zu Beginn wird eine strukturierte Einführung in die elementaren Techniken des effizienten Programmierens in R gegeben:
  • Vektorisierung 
  • Funktionale Programmierung mit Map und Reduce 
  • Benchmarking und Profiling von Funktionen 
  • Strukturiertes Programmieren 
Der zweite Teil des Kurses beschäftigt sich daraufhin mit dem Einsatz von R in parallelen Umgebungen, also insbesondere Mehrkern-, Cluster- und Batchsystemen. Hier werden die Teilnehmer die R-Pakete parallel, parallelMap, BatchJobs und BatchExperiments erlernen. Die Referenten sind die Entwickler der drei letztgenannten Pakete und besitzen langjährige Erfahrung im Parallelen Rechnen mit R in High-Performance-Cluster-Umgebungen.
Wir werden sicherstellen, dass die Teilnehmer für die Dauer des Kurses auf mindestens einer Hochleistungsrechenumgebung experimentieren und deren technische Details erlernen können. Anvisiert ist hier eine Kooperation mit dem Leibniz Rechenzentrum (LRZ, www.lrz-muenchen.de), so dass dessen Linux-Cluster im Batch-Betrieb genutzt werden kann. Dies erfordert Grundkenntnisse im Umgang mit der Unix-Shell. Deshalb wird von den Teilnehmern erwartet, dass sie sich vor Beginn des Kurses anhand von bereitgestelltem Material selbstständig vorbereiten (Aufwand ca. 2 Stunden). Der Kurs wird in deutscher Sprache gehalten, die Kursmaterialien sind in englischer Sprache verfasst.

Maschine Learning & Data Mining mit R

Termin:
Mo 17.08.2015, 9-17:30 & Di 18.08.2015, 9-16
Dozenten:
Prof. Dr. Bernd Bischl
Voraussetzungen:
Grundkenntnisse in R (etwa im Umfang des Anfängerkurses) und Statistik, Grundkenntnisse in Statistik

Inhalt:

In diesem Kurs werden moderne statistische Verfahren des maschinellen Lernens zur Analyse komplexer Klassifikations- und Regressionsprobleme vorgestellt, die besonders für die Modellierung überwachter, nicht-linearer Zusammenhänge geeignet sind. Die zugrundeliegenden Prinzipien der Verfahren werden für Anfänger verständlich eingeführt und illustriert, sowie Besonderheiten herausgehoben. Der Hauptteil des Kurses beschäftigt sich mit der Anwendung von in R verfügbaren Werkzeugen anhand praktischer Beispiele.

Modellierungstechniken, die im Kurs behandelt werden:
  • Klassifikations- und Regressions-Bäume 
  • Random Forests 
  • Boosting 
  • Support Vector Machines 
Weiterführende Themen, die im Kurs behandelt werden:
  • Modellevaluation und Resampling (z.B. Kreuzvalidierung, Bootstrap) 
  • Modellselektion und Hyperparameter-Tuning 
  • Merkmalsselektion
  • Parallelisierung 
Der Kurs wird in deutscher Sprache gehalten, die Kursmaterialien sind in englischer Sprache verfasst. Wir bitten die Teilnehmer bei der Anmeldung kurz mitzuteilen, zu welchen der oben genannten Themen bereits Vorkenntnisse bestehen.

Analyse von Finanzdaten mit R

Termin:
Do 10.09.2015, 9-17:30 & Fr 11.09.2015, 9-16
Dozent:
Andreas Fuest, M. Sc.
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses), Grundkenntnisse in Statistik

Inhalt:

Ziel des Kurses ist es, den TeilnehmerInnen die Anwendung der wichtigsten State-of-the-Art-Techniken zur Analyse von Finanzdaten mit Hilfe von R zu vermitteln. Hierbei handelt es sich zum einen um Modelle der Zeitreihenanalyse, die Risikoprognosen ermöglichen - allen voran die 2003 mit dem Nobelpreis für Wirtschaftswissenschaften prämierten (G)ARCH-Modelle. Zum anderen lernen wir Methoden zur Beschreibung und Modellierung komplexer Abhängigkeitsstrukturen zwischen verschiedenen Wertpapieren innerhalb eines Portfolios kennen. Nach einer kurzen Einführung in die Theorie steht jeweils die praktische Anwendung im Vordergrund. Die Themen im Einzelnen:
  • R und Finanzdaten (Datenquellen und -import, Visualisierungstechniken)
  • Stylized Facts von Finanzdaten
  • Risikoprognosen: lineare (ARIMA) und nichtlineare (GARCH) Zeitreihenmodelle
  • Risikoabhängigkeiten: Multivariate Verteilungen und Copulas
Wesentliche Teile des Kurses basieren auf dem Buch Statistics and Data Analysis for Financial Engineering (http://link.springer.com/book/10.1007/978-1-4419-7787-8) von David Ruppert.

Praktische Datenanalyse mit R

Termin:
verschoben, siehe Praktische Datenanalyse & Programmieren mit R 
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses) oder Programmier-Erfahrung, Grundkenntnisse in Statistik

Inhalt:

Dieser Kurs wurde für Personen konzipiert, die bekannte Standardmethoden der Statistik mit Hilfe von R zur Analyse eigener Daten verwenden möchten. Themenschwerpunkte sind dabei:
  • Einfache Verfahren zur Visualisierung von Daten
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Varianzanalyse (z.B. ANOVA)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
  • Logistische Regression und verallgemeinerte lineare Modelle.
Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.

Der Kurs basiert auf dem Buch "A Handbook of Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399).

Unsupervised Statistical Learning mit R

Termin:
abgesagt (neuer Termin im nächsten Jahr)
Dozenten:
Dr. Steffen Unkel
Voraussetzungen:
Elementare Kenntnisse in Statistik, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Der Ausdruck "Statistical Learning" bezieht sich auf eine Menge von Methoden zur Erkennung von Strukturen und Zusammenhängen in Datensätzen. Die Verfahren des statistischen Lernens lassen sich in überwachtes Lernen (englisch: supervised learning) und unüberwachtes Lernen (englisch: unsupervised learning) einteilen. Anders als bei Methoden des überwachten Lernens (z.B. bei Regressionsverfahren) gelten für sämtliche Methoden des unüberwachten Lernens, dass die Charakterisierung der Daten ohne eine a-priori Outputgröße ermittelt wird. In diesem Kurs werden die folgenden modernen Verfahren des unüberwachten statistischen Lernens vorgestellt:
  • Hauptkomponentenanalyse für sparse und hochdimensionale Daten
  • Multidimensionale Skalierung
  • Biplots zur Visualisierung multivariater Datensätze
  • Assoziationsanalyse
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ist das wohl bekannteste und am häufigsten verwendete statistische Verfahren zur Dimensionsreduktion von Datensätzen. Durch eine PCA wird eine Vielzahl miteinander korrelierter Variablen durch eine geringere Zahl möglichst aussagekräftiger und unkorrelierter Hauptkomponenten ersetzt. Häufig ist es nützlich wenn die Lösung der PCA möglichst viele Null-Einträge aufweist bzw. die Ergebniskonfiguration dünn oder spärlich (englisch: sparse) besetzt ist. Darüber hinaus liegen in Anwendungen zunehmend hochdimensionale Datenstrukturen vor, in denen die Anzahl der Variablen deutlich größer als die Anzahl der Beobachtungen ist. Es werden Erweiterungen der PCA für sparse und hochdimensionale Daten diskutiert.
Die multidimensionale Skalierung ist ein Bündel von Analysemethoden zur Entdeckung von Strukturen innerhalb von Beobachtungen. Ziel der multidimensionalen Skalierung ist es die Objekte räumlich so anzuordnen, dass die Abstände (Distanzen) zwischen den Objekten im Raum möglichst exakt den erhobenen (Un-)Ähnlichkeiten entsprechen. Um die Interpretation zu erleichtern, wird die erhaltene Konfiguration meist in zwei oder drei Dimensionen dargestellt.  
Biplots sind graphische Darstellungen von Datenmatrizen, die gleichzeitig Objekte und Variablen in einer Graphik abbilden. Biplots bieten die Möglichkeit der Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf verschiedenen dimensionsreduzierenden Verfahren, beispielsweise der Hauptkomponentenanalyse oder der multidimensionalen Skalierung.
Die Assoziationsanalyse bezeichnet die Suche nach Assoziationsregeln. Diese beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Items (Elemente einer Menge, wie z.B. einzelne Artikel eines Warenkorbs) zu ermitteln, die das Auftreten anderer Items innerhalb einer Transaktion implizieren.
Die zugrundeliegenden Prinzipien der o.a. Verfahren des unüberwachten statistischen Lernens werden verständlich eingeführt und illustriert. Der Schwerpunkt des Kurses liegt auf der Anwendung von in R verfügbaren Werkzeugen zur Implementierung der Methoden anhand von Beispielen aus der Praxis.

Der Kurs findet in deutscher Sprache statt, die Kursunterlagen sind in englischer Sprache verfasst. Wir bitten die Teilnehmer bei der Anmeldung kurz mitzuteilen, zu welchen der oben genannten Themen bereits Vorkenntnisse bestehen.

Literatur:
- Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2. Auflage, Springer.
- Gower, J., Lubbe, S., Le Roux, N. (2011): Understanding Biplots, Wiley.
- James, G., Witten, D., Hastie, T., Tibshirani, R. (2013): An Introduction to Statistical Learning with Applications in R, Springer.

Praktische Datenanalyse & Programmieren mit R

Termin:
Do 08.10.2015, 9-17:30 & Fr 09.10.2015, 9-16
Dozenten:
Alexander Engelhardt, M. Sc., Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs ist eine individuelle Kombination der Kurse "Praktische Datenanalyse mit R" und "Programmieren mit R" und dient der allgemeinen Vertiefung in R. Der Kurs richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich das komplexe Werkzeug R leichter und effizienter bedienen lässt. Weiterhin werden einige bekannte Methoden aus der Statistik vorgestellt, die zur Analyse eigener Daten verwendet werden können. Alle verwendeten statistischen Verfahren und Programmiertechniken werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.
Aus den folgenden Themenschwerpunkten werden 5-6 Themen durch Mehrheitsentscheid der Teilnehmer und Teilnehmerinnen ausgewählt:
  • Effizienter Umgang mit R mit Tipps und schreiben eigener Funktionen in R (empfohlen)
  • Dynamische Berichterstellung mit Hilfe von R
  • markdown bzw. Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML (empfohlen)
  • Einfache Verfahren zur Visualisierung von Daten (empfohlen)
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Varianzanalyse (z.B. ANOVA)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
  • Logistische Regression und verallgemeinerte lineare ModelleErstellung von R Paketen
  • Objektorientierte Programmierung und Generische Funktionen in R
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.