Praktische Datenanalyse & Programmieren mit R
- Termin:
- Do 08.10.2015, 9-17:30 & Fr 09.10.2015, 9-16
- Dozenten:
- Alexander
Engelhardt, M. Sc., Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Anfängerkurses)
Inhalt:
Dieser Kurs ist eine individuelle Kombination der beliebtesten Inhalte
unserer beiden Kurse "Praktische Datenanalyse mit R" und "Programmieren
mit R" und dient der allgemeinen Vertiefung in R. Der Kurs richtet sich
an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben
(z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend
auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt,
mittels derer sich das komplexe Werkzeug R leichter und effizienter
bedienen lässt. Weiterhin werden einige bekannte Methoden aus
der Statistik vorgestellt, die zur Analyse eigener Daten verwendet
werden können. Alle verwendeten statistischen Verfahren und
Programmiertechniken werden zur Auffrischung kurz erklärt, an
echten Datenbeispielen motiviert, demonstriert und mit Hilfe von
Übungsaufgaben von den Teilnehmern eingeübt. Zudem
wird in dem Anwendungsteil des Kurses auch auf die Interpretation der
Ergebnisse eingegangen.
Themenschwerpunkte sind
dabei:
- Effizienter Umgang mit R und schreiben
eigener Funktionen in R
- Dynamische Berichterstellung mit Hilfe von Rmarkdown
bzw. Umwandlung von R Code und R Output in
besser lesbare Dateiformate wie PDF, Word oder HTML
- Einfache Verfahren zur Visualisierung von Daten
- Klassische Hypothesen-Tests (z.B. t-Test)
- Das lineare Regressionsmodell mit Erweiterungen wie
multipler Regression und Verwendung von kategorischen
Prädiktoren
Alle vorgestellten Inhalte
werden ausführlich erläutert, vorgeführt und
mit Hilfe von
Übungsaufgaben von den Teilnehmern eingeübt.
R Basiskurs
- Termin:
- Di 16.02.2016, 9-17:30 & Mi 17.02.2016, 9-16
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- keine
Inhalt:
Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R
zur
Analyse und Visualisierung eigener Daten erlernen wollen. Neben
Installation und Grundlagen der Bedienung von R wird die praktische
Anwendung einfacher deskriptiver statistischer Methoden an Beispielen
demonstriert und geübt. Der Kurs umfasst die Themen:
- Grundlagen statistischer Software
- Grundlagen von R, Installation des Basispakets und
von Erweiterungspaketen
- Graphische Benutzerschnittstellen (GUIs) für
R
- Datenimport und Datenmanipulation, Interaktion mit
Tabellenkalkulationsprogrammen
- Berechnung von Kennzahlen: Mittelwert, Varianz,
Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln,
...
- einfache Grafiken: Histogramme, Boxplots,
Dichteschätzer, Balken- & Streudiagramme, ...



Programmieren mit R
- Termin:
- Do 18.02.2016, 9-17:30 & Fr 19.02.2016, 9-16
- Dozenten:
- Alexander
Engelhardt, M. Sc., Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Anfängerkurses)
Inhalt:
Dieser
Kurs dient der allgemeinen Vertiefung in R und
richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R
gesammelt haben (z.B. im Anfängerkurs, oder auch im
Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden
einfache Techniken vermittelt, mittels derer sich R leichter und
effizienter bedienen lässt. Es werden Grundkonzepte der
Programmierung mit R behandelt, die zum besseren Verständnis
der
Funktionsweise in R führen, womit individuelle
Anforderungen
eigener / neuer Analysen und Methoden ermöglichen. Dies
umfasst
die Verwendung von Scripts zur Reproduktion von Analysen, die
Automatisierung von Analysen, die Adaption von Standardverfahren an
eigene Bedürfnisse, sowie die Implementierung einfacher neuer
Verfahren.
Zudem wird erklärt, wie sich statistische Resultate und
Ergebnisse aus R Code automatisch und dynamisch in Berichten
einbinden lässt. Themenschwerpunkte sind
dabei:
- Effizienter Umgang mit R
- Schreiben eigener Funktionen
- Tipps und Tricks zu gutem Programmierstil, gute
Programmierpraktiken
- Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception
Handling, ...
- Objektorientierte Programmierung
- Implementierung eigener statistischer Modelle in R
und Erstellung von R Paketen
- Dynamische Berichterstellung mit Hilfe von Rmarkdown
- Umwandlung von R Code und R Output in besser lesbare
Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte
werden ausführlich erläutert, vorgeführt und
mit Hilfe von
Übungsaufgaben von den Teilnehmern eingeübt.
Praktische Datenanalyse mit R
- Termin:
- Do 03.03.2016, 9-17:30 & Fr 04.03.2016, 9-16
- Dozenten:
- Andreas
Bender, M. Sc, Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Grundkenntnisse in R (im Umfang des
Anfängerkurses) oder
Programmier-Erfahrung, Grundkenntnisse in
Statistik
Inhalt:
Dieser Kurs wurde für Personen konzipiert, die bekannte
Standardmethoden der Statistik mit
Hilfe von R zur Analyse eigener Daten verwenden möchten.
Themenschwerpunkte sind dabei:
- Einfache
Verfahren zur Visualisierung von Daten
- Klassische Hypothesen-Tests
(z.B. t-Test)
- Varianzanalyse (z.B. ANOVA)
- Das lineare
Regressionsmodell mit Erweiterungen wie multipler Regression und
Verwendung von
kategorischen Prädiktoren
- Logistische Regression und verallgemeinerte lineare
Modelle.
Alle
verwendeten statistischen Verfahren werden zur Auffrischung kurz
erklärt, an echten
Datenbeispielen motiviert, demonstriert und mit Hilfe von
Übungsaufgaben eingeübt.
Zudem
wird in dem Anwendungsteil des Kurses auch auf die Interpretation der
Ergebnisse eingegangen.
Der Kurs basiert auf dem Buch "A Handbook of
Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn,
erschienen 2006 bei CRC Press (ISBN 9781584885399).
Programmieren mit R
- Termin:
- Do
10.03.2016, 9-17:30 & Fr 11.03.2016, 9-16 (verschoben
auf September)
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Anfängerkurses)
Inhalt:
Dieser
Kurs dient der allgemeinen Vertiefung in R und
richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R
gesammelt haben (z.B. im Anfängerkurs, oder auch im
Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden
einfache Techniken vermittelt, mittels derer sich R leichter und
effizienter bedienen lässt. Es werden Grundkonzepte der
Programmierung mit R behandelt, die zum besseren Verständnis
der
Funktionsweise in R führen, womit individuelle
Anforderungen
eigener / neuer Analysen und Methoden ermöglichen. Dies
umfasst
die Verwendung von Scripts zur Reproduktion von Analysen, die
Automatisierung von Analysen, die Adaption von Standardverfahren an
eigene Bedürfnisse, sowie die Implementierung einfacher neuer
Verfahren.
Zudem wird erklärt, wie sich statistische Resultate und
Ergebnisse aus R Code automatisch und dynamisch in Berichten
einbinden lässt. Themenschwerpunkte sind
dabei:
- Effizienter Umgang mit R
- Schreiben eigener Funktionen
- Tipps und Tricks zu gutem Programmierstil, gute
Programmierpraktiken
- Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception
Handling, ...
- Objektorientierte Programmierung
- Implementierung eigener statistischer Modelle in R
und Erstellung von R Paketen
- Dynamische Berichterstellung mit Hilfe von Rmarkdown
- Umwandlung von R Code und R Output in besser lesbare
Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte
werden ausführlich erläutert, vorgeführt und
mit Hilfe von
Übungsaufgaben von den Teilnehmern eingeübt.
R Basiskurs
- Termin:
- Do 21.07.2016, 9-17:30 & Fr 22.07.2016, 9-16
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- keine
Inhalt:
Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R
zur
Analyse und Visualisierung eigener Daten erlernen wollen. Neben
Installation und Grundlagen der Bedienung von R wird die praktische
Anwendung einfacher deskriptiver statistischer Methoden an Beispielen
demonstriert und geübt. Der Kurs umfasst die Themen:
- Grundlagen statistischer Software
- Grundlagen von R, Installation des Basispakets und
von Erweiterungspaketen
- Graphische Benutzerschnittstellen (GUIs) für
R
- Datenimport und Datenmanipulation, Interaktion mit
Tabellenkalkulationsprogrammen
- Berechnung von Kennzahlen: Mittelwert, Varianz,
Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln,
...
- einfache Grafiken: Histogramme, Boxplots,
Dichteschätzer, Balken- & Streudiagramme, ...



Eigene Zusatzpakete in R erstellen
- Termin:
- Mo 25.07.2016, 9-17:30 & Di 26.07.2016, 9-16
- Dozenten:
- Prof. Bernd
Bischl, Dr.
Fabian Scheipl
- Voraussetzungen:
- Programmiererfahrung mit R
Inhalt:
Effektive Datenanalyse verlangt nach effizienter Nutzung und
souveräner Beherrschung moderner Softwaretools. In diesem Kurs
werden Programmiertechniken vermittelt, die eine bessere Kontrolle der
Arbeitsumgebung in R erlauben und Sie in die Lage versetzen Ihre
eigenen Ideen in Software zu verwirklichen und anderen in Form von R
Paketen zugänglich zu machen.
Der Kurs umfasst die Themen:
- Kurze Wiederholung: Grundlagen und Prinzipien von R,
Verfassen eigener Funktionen, Debugging
- Das S3 Klassensystem
- Die R Paketstruktur
- Arbeiten mit dem 'devtools' Paket zur Paketentwicklung
- Moderne Paketdokumentation mit 'roxygen2'
- Wie funktionieren Namespaces in R?
- Moderne Unit-Tests mit 'testthat'
- Erstellen von Vignetten für R Pakete mit
'knitr'
Einführung Maschinelles Lernen und Data Mining
mit R
- Termin:
- Do
28.07.2016, 9-17:30 & Fr
29.07.2016, 9-16
- Dozenten:
- Prof. Dr.
Bernd Bischl
- Voraussetzungen:
- Grundkenntnisse in R bzw. Datenanalyse (im Umfang
des R Basiskurs), Grundkenntnisse in Statistik
Inhalt:
In diesem Kurs werden moderne statistische Verfahren des maschinellen
Lernens zur Analyse komplexer Klassifikations- und Regressionsprobleme
vorgestellt, die besonders für die Modellierung
überwachter, nicht-linearer Zusammenhänge geeignet
sind. Die zugrundeliegenden Prinzipien der Verfahren werden
für Anfänger verständlich
eingeführt und illustriert, sowie Besonderheiten
herausgehoben. Der Hauptteil des Kurses beschäftigt sich mit
der Anwendung von in R verfügbaren Werkzeugen anhand
praktischer Beispiele. Modellierungstechniken, die im Kurs behandelt
werden:
- Elementare, einfache Klassifikations- und
Regressionsmodelle
- Klassifikations- und Regressions-Bäume
- Random Forests
- Boosting
Weiterführende Themen, die im Kurs behandelt werden:
- Modellevaluation und Resampling (z.B.
Kreuzvalidierung, Bootstrap)
- Modellselektion und Hyperparameter-Tuning
- Parallelisierung
Der Kurs wird in deutscher Sprache gehalten, die Kursmaterialien sind
in englischer Sprache verfasst. Wir bitten die Teilnehmer bei der
Anmeldung kurz mitzuteilen, zu welchen der oben genannten Themen
bereits Vorkenntnisse bestehen.
Der Kurs ist als Einstiegskurs konzipiert. Sollte Bedarf zu
fortgeschrittenen Themen im Bereich Machine Learning bestehen, nehmen
Sie bitte direkt Kontakt mit dem Dozenten auf.
Programmieren mit R
- Termin:
- Do 15.09.2016, 9-17:30 & Fr 16.09.2016, 9-16
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Anfängerkurses)
Inhalt:
Dieser
Kurs dient der allgemeinen Vertiefung in R und
richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R
gesammelt haben (z.B. im Anfängerkurs, oder auch im
Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden
einfache Techniken vermittelt, mittels derer sich R leichter und
effizienter bedienen lässt. Es werden Grundkonzepte der
Programmierung mit R behandelt, die zum besseren Verständnis
der
Funktionsweise in R führen, womit individuelle
Anforderungen
eigener / neuer Analysen und Methoden ermöglichen. Dies
umfasst
die Verwendung von Scripts zur Reproduktion von Analysen, die
Automatisierung von Analysen, die Adaption von Standardverfahren an
eigene Bedürfnisse, sowie die Implementierung einfacher neuer
Verfahren.
Zudem wird erklärt, wie sich statistische Resultate und
Ergebnisse aus R Code automatisch und dynamisch in Berichten
einbinden lässt. Themenschwerpunkte sind
dabei:
- Effizienter Umgang mit R
- Schreiben eigener Funktionen
- Tipps und Tricks zu gutem Programmierstil, gute
Programmierpraktiken
- Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception
Handling, ...
- Objektorientierte Programmierung
- Dynamische Berichterstellung mit Hilfe von Rmarkdown
- Umwandlung von R Code und R Output in besser lesbare
Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte
werden ausführlich erläutert, vorgeführt und
mit Hilfe von
Übungsaufgaben von den Teilnehmern eingeübt.
Moderne Multivariate Verfahren mit R
- Termin:
- Do 29.09.2016, 9-17:30 & Fr 30.09.2016, 9-16
- Dozenten:
- Dr.
Steffen Unkel, Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Anfängerkurses)
Inhalt:
Multivariate Verfahren beschäftigen sich mit dem Auffinden und
der Modellierung von Strukturen in höherdimensionalen
Datensätzen. Kursinhalte sind:
- Prognose kategorischer abhängiger Variablen
(Klassifikation) mittels Diskriminanzanalyse.
- Auffinden von Gruppen bzw.
Ähnlichkeitsstrukturen in Daten mit Hilfe der Clusteranalyse.
- Dimensionsreduktion von Datensätzen mittels
Hauptkomponentenanalyse (PCA) und moderne Erweiterungen auf sparse und
hochdimensionale Daten.
- Biplots zur Visualisierung multivariater
Datensätze.
- Assoziationsanalyse.
Ziel der Diskriminanzanalyse ist die Klassifizierung von
Beobachtungen in Gruppen (z.B. Klassifizierung von
"kreditwürdige" und "nicht kreditwürdige" Kunden).
Hierbei wird versucht die im Vorfeld bekannten Gruppen anhand von
Merkmalen (z.B. Alter oder Einkommen eines Kunden)
möglichst optimal zu trennen. Bei der Clusteranalyse sind die
Gruppen im Vorfeld nicht bekannt, d.h. es sollen für gegebene
Daten verschiedene Gruppen gefunden werden (sog. Cluster). Die
Einteilung in Gruppen soll so erfolgen, dass sich
Beobachtungen innerhalb eines Clusters möglichst
ähnlich sind und sich die Cluster untereinander
möglichst unterscheiden.
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis
(PCA)) ersetzt eine Vielzahl miteinander korrelierter Variablen durch
eine geringere Zahl unkorrelierter Hauptkomponenten. Häufig
ist es vorteilhaft wenn die Lösung einer
Hauptkomponentenanalyse möglichst viele Null-Einträge
aufweist (englisch: sparse solution). Darüber hinaus liegen in
Anwendungen zunehmend hochdimensionale Datenstrukturen vor, in denen
die Anzahl der Variablen deutlich größer als die
Anzahl der Beobachtungen ist.
Biplots bieten die Möglichkeit der gleichzeitigen
Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf
dimensionsreduzierenden Verfahren.
Die Assoziationsanalyse bezeichnet die Suche nach Assoziationsregeln.
Diese beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen.
Der Zweck einer Assoziationsanalyse besteht darin, Items (Elemente
einer Menge, wie z.B. einzelne Artikel eines Warenkorbs) zu ermitteln,
die das Auftreten anderer Items innerhalb einer Transaktion
implizieren.
Die zugrundeliegenden Prinzipien der o.a. Verfahren werden
verständlich eingeführt und illustriert. Der
Schwerpunkt des Kurses liegt auf der Anwendung von in R
verfügbaren Werkzeugen zur Implementierung der Methoden anhand
von Beispielen aus der Praxis.
Der Kurs findet in deutscher Sprache statt, die Kursunterlagen sind in
englischer Sprache verfasst.
Praktische Datenanalyse mit R
- Termin:
- Di 04.10.2016, 9-17:30 & Mi 05.10.2016, 9-16
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- Grundkenntnisse in R (im Umfang des
Anfängerkurses) oder
Programmier-Erfahrung, Grundkenntnisse in
Statistik
Inhalt:
Dieser Kurs wurde für Personen konzipiert, die bekannte
Standardmethoden der Statistik mit
Hilfe von R zur Analyse eigener Daten verwenden möchten.
Themenschwerpunkte sind dabei:
- Einfache
Verfahren zur Visualisierung von Daten
- Klassische Hypothesen-Tests
(z.B. t-Test)
- Varianzanalyse (z.B. ANOVA)
- Das lineare
Regressionsmodell mit Erweiterungen wie multipler Regression und
Verwendung von
kategorischen Prädiktoren
- Logistische Regression und verallgemeinerte lineare
Modelle.
Alle
verwendeten statistischen Verfahren werden zur Auffrischung kurz
erklärt, an echten
Datenbeispielen motiviert, demonstriert und mit Hilfe von
Übungsaufgaben eingeübt.
Zudem
wird in dem Anwendungsteil des Kurses auch auf die Interpretation der
Ergebnisse eingegangen.
Der Kurs basiert auf dem Buch "A Handbook of
Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn,
erschienen 2006 bei CRC Press (ISBN 9781584885399).
R Basiskurs
- Termin:
- 06.10.2016, 9-17:30 & 07.10.2016,
9-16
- Dozenten:
- Giuseppe
Casalicchio, M. Sc.
- Voraussetzungen:
- keine
Inhalt:
Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R
zur
Analyse und Visualisierung eigener Daten erlernen wollen. Neben
Installation und Grundlagen der Bedienung von R wird die praktische
Anwendung einfacher deskriptiver statistischer Methoden an Beispielen
demonstriert und geübt. Der Kurs umfasst die Themen:
- Grundlagen statistischer Software
- Grundlagen von R, Installation des Basispakets und
von Erweiterungspaketen
- Graphische Benutzerschnittstellen (GUIs) für
R
- Datenimport und Datenmanipulation, Interaktion mit
Tabellenkalkulationsprogrammen
- Berechnung von Kennzahlen: Mittelwert, Varianz,
Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln,
...
- einfache Grafiken: Histogramme, Boxplots,
Dichteschätzer, Balken- & Streudiagramme, ...


