Praktische Datenanalyse mit R (R Grundkurs)

Termin:
Do 8.11.2007, 9-17:30 & Fr 9.11.2007, 9-16
Dozenten:
Prof. Dr. Torsten Hothorn, Prof. Dr. Friedrich Leisch
Voraussetzungen:
Kenntnisse in Statistik im Umfang einer Einführungsvorlesung

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung statistischer Methoden (im Umfang einer typischen Einführungsvorlesung aus Statistik) an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Datenimport und Datenmanipulation
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...
  • Klassische Inferenzstatistik: t-Test, F-Test, Chi-Quadrat-Test, ...
Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt. Der Kurs basiert auf dem Buch A Handbook of Statistical Analysis Using R von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399). Ein Freiexemplar des Buches ist in der Kursgebühr enthalten.


Programmieren mit R

Termin:
Do 13.12.2007, 9-17:30 & Fr 14.12.2007, 9-16
Dozenten:
Prof. Dr. Torsten Hothorn, Prof. Dr. Friedrich Leisch
Voraussetzungen:
elementare Kenntnisse in Statistik, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

Statistik wird in immer größerem Ausmaß zu einer computationalen Wissenschaft, inbesonders die angewandte Statistik kommt ohne den Einsatz und die Beherrschung moderner Software-Werkzeuge nicht aus. Dieser Kurs dient der allgemeinen Vertiefung in die Datenanalyse mit R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Grundkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Programmiertechniken vermittelt, mittels derer sich das komplexe Werkzeug R leichter bedienen lässt:
  • Effizienter Umgang mit R
  • Grundlegende Elemente und Prinzipien der Sprache
  • Schreiben eigener Funktionen
  • Tipps und Tricks zu gutem Programmierstil, gute Programmierpraktiken
  • Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception Handling, ...
  • Objektorientierte Programmierung
  • Implementierung eigener statistischer Modelle in R

Machine Learning & Data Mining mit R

Termin:
Do 24.1.2008, 9-17:30 & Fr 25.1.2008, 9-16
Dozenten:
Prof. Dr. Torsten Hothorn, Prof. Dr. Friedrich Leisch, Carolin Strobl M.Sc.
Voraussetzungen:
elementare Kenntnisse in Statistik, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

In diesem Kurs werden moderne statistische Verfahren des maschinellen Lernens zur Analyse komplexer Klassifikations- und Regressionsprobleme vorgestellt, die besonders für die Modellierung nicht-linearer Regressionszusammenhänge in hoch-dimensionale Daten geeignet sind. Die zugrundeliegenden Prinzipien der Verfahren werden verständlich eingeführt und illustriert, sowie Besonderheiten herausgehoben.

Ein Schwerpunkt ist dabei die Selektion von wenigen relevanten Einflußgrößen aus tausenden von potentiellen Kandidaten, z.B. in der Selektion von genetischen Markern zur Prognose des Krankheitsstatus. Der Hauptteil des Kurses beschäftigt sich mit der Anwendung von in R verfügbaren Werkzeugen anhand von Beispielen aus der Praxis.

  • klassische und moderne Klassifikations- und Regressionsbäume
  • Bagging und Random Forests zur Prädiktion und Variablenselektion
  • Boosting von additiven und hoch-dimensionalen generalisierten linearen Modellen
  • Support Vector Machines


Generalisierte Regression mit R

Termin:
Do 24.4.2008, 9-17:30 & Fr 25.4.2008, 9-16
Dozenten:
Dr. Thomas Kneib, Dipl.-Stat. Fabian Scheipl
Voraussetzungen:
Grundkenntnisse zu linearen Modellen, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

Dieser Kurs stellt nach einer kurzen Wiederholung des klassischen linearen Regressionsmodells drei wesentliche Erweiterungen vor:
Generalisierte lineare Modelle:
Die Zielvariable wird nicht mehr als (approximativ) normalverteilt betrachtet, sondern folgt einer beliebigen Verteilung aus der univariaten Exponentialfamilie. Enthalten sind damit insbesondere Regressionsmodelle für binäre Zielgrößen (Bernoulliverteilung) und Zählvariablen (Poissonverteilung), aber auch Regressionsmodelle für nichtnegative Zufallsvariablen basierend auf der Gammaverteilung. Der Kurs stellt zunächst einige spezielle generalisierte lineare Modelle vor und bettet diese anschließend in den allgemeinen Rahmen ein.
Modelle mit zufälligen Effekten:
Bei der Analyse von Longitudinaldaten oder gruppierten Daten ist die Annahme der Unabhängigkeit der Beobachtungen typischerweise nicht mehr gegeben. Regressionsmodelle mit zufälligen Effekten erweitern den linearen Prädiktor linearer und generalisierter linearer Modelle um zufällige, individuen- bzw. gruppenspezifische Effekte und erlauben damit die Berücksichtigung von Korrelationen. Der Kurs wird sich im Wesentlichen auf lineare Modelle mit zufälligen Effekten beschränken, aber auch kurz auf Erweiterungen für generalisierte lineare Modelle eingehen.
Generalisierte additive Modelle:
In linearen und generalisierten linearen Modellen wird der Erwartungswert der Zielvariablen basierend auf einem rein linearen Prädiktor modelliert. Obwohl durch Transformationen von Kovariablen bereits einfache, nichtlineare Zusammenhänge beschrieben werden können, sind automatisierte, flexiblere Alternativen zur Analyse nichtlinearer Zusammenhänge in der Praxis von besonderem Wert. Generalisierte additive Modelle sind eine allgemeine Modellklasse zur Untersuchung solcher nichtlinearer Zusammenhänge. In diesem Kurs wird der besondere Fokus auf der Modellierung mit Hilfe von Spline-Funktionen und Penalisierungsansätzen liegen. Eine Reihe von Erweiterungen wie die Modellierung von Interaktionen und variierenden Koeffizienten werden ebenfalls behandelt.


R & Excel: Integration von anspruchsvoller Statistik in Bürosoftware

Termin:
abgesagt
Dozenten:
Ao.Univ.Prof. Dr. Erich Neuwirth, Dipl.-Stat. Sebastian Kaiser
Voraussetzungen:
Verwendung von R, Verwendung von Excel

Inhalt:

Das Excel-Addin RExcel ermöglicht die Einbettung von R in Excel. Damit wird es möglich, anspruchsvolle statistische Methoden mit dem Benutzer-Interface von Excel einzusetzen. Diese Einbettung ist auf mehrere Arten möglich:
  1. Excel als Datencontainer: Rohdaten und Ergebnisstabellen können einfach zwischen Excel und R transferiert werden. Kommandos werden über die Excel-Kommandozeile eingegeben, aber auch Excel kann als Notizblock für R-Kommandos verwendet werden.
  2. Excel als Anwendungsmaschine: VBA-Macros, die der Benutzer gar nicht sehen muss, automatisieren die Verwendung von R als Excel-Erweiterung. Durch Klicken von Buttons werden R-Programme ausgeführt. Dadurch wird Excel zu einem einfach bedienbaren Frontend fuer R, und es wird möglich, R auch nicht statistische gebildeten Benutzern in Form vorgefertigter statistischer Anwendungen zur Verfügung zu stellen.
  3. Worksheet-Funktionen: R kann auch in die Neuberechnungs-Automatik von Excel eingebettet werden. Damit kann man Worksheet-Funktionen implementieren, die R verwenden, aber immer dann, wenn sich Daten ändern, automatisch neu berechnet werden. R wird also ganz nahtlos als Teil der "Rechenmaschine" in Excel eingebettet.
Die Teilnehmer lernen in diesem Kurs Beispiele zu allen drei Einsatzsatzszenarien kennen und erstellen auch kleine Anwendungen. Softwareinstallation und grundlegende Information über die Architektur des Systems (notwendig zur korrekten Installation) werden ebenfalls behandelt.

Angewandte Ökonometrie mit R

Termin:
Do 10.7.2008, 9-17:30 & Fr 11.7.2008, 9-16
Dozent:
Dr. Achim Zeileis
Voraussetzungen:
grundlegende Kenntnis der ökonometrischen Methoden sowie praktische Erfahrung mit R

Inhalt:

  • Lineare Regression für Querschnitts- und Zeitreihendaten
  • Validierung und Diagnostik für Regressionsmodelle
  • Zeitreihen: Werkzeuge, klassische Analyse, Einheitswurzel/Kointegration, Strukturbrüche
  • Ausblick auf weitere Regressionsmodelle: Panel-Daten, nicht/semi-parametrische Regression, mikroökonometrische Modelle