R Anfängerkurs

Termin:
Do 30.10.2008, 9-17:30 & Fr 31.10.2008, 9-16
Dozenten:
Prof. Dr. Friedrich Leisch, Dipl.-Ing. Manuel Eugster
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...


Praktische Datenanalyse mit R

Termin:
Do 11.12.2008, 9-17:30 & Fr 12.12.2008, 9-16
Dozenten:
Prof. Dr. Torsten Hothorn, Dipl.-Stat. Fabian Scheipl
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses) oder Programmier-Erfahrung, Grundkenntnisse in Statistik

Inhalt:

Dieser Kurs zeigt, wie bekannte Standardmethoden der Statistik mit Hilfe von R zur Analyse eigener Daten verwendet werden können. Der Fokus liegt auf den aus Statistik-Einführungsvorlesungen bekannten Verfahren der Visualisierung von Daten, klassischen Hypothesen-Tests (t-Test, Varianzanalyse, ...), nichtparametrischen Verfahren und bedingter Inferenz. Ein weiterer Schwerpunkt ist das lineare Regressionsmodell mit Erweiterungen wie multipler Regression, kategorische Prädiktoren und verallgemeinerte lineare Modelle Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt.

Ziel des Kurses ist es, die aus eher theoretischen Statistik-Vorlesungen bekannten Verfahren in der Praxis an echten Daten anzuwenden. Der Kurs basiert auf dem Buch "A Handbook of Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399). Ein Freiexemplar des Buches ist in der Kursgebühr enthalten.

Multivariate Statistik mit R

Termin:
Do 22.1.2009, 9-17:30 & Fr 23.1.2009, 9-16
Dozenten:
Prof. Dr. Friedrich Leisch, Dipl.-Stat. Sebastian Kaiser
Voraussetzungen:
Anwendung von R für einfache Datenanalysen

Inhalt:

Die multivariate Statistik beschaftigt sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen, wobei "höherdimensional" typischerweise "ab drei" (ohne Schranke nach oben) bezeichnet. Zu Beginn des Kurses werden Methoden zur Visualisierung höherdimensionaler Daten wie Linearprojektionen, parallele Koordinaten, Grand Tour und interaktive Methoden (Linking, Brushing) vorgestellt. Weitere Themen sind Diskriminanzanalyse zur Prognose kategorischer abhängiger Variablen (Klassifikation), und das Auffinden von Gruppen in Daten mit Hilfe der Clusteranalyse. Den Abschluß bilden Dimensionsreduktionverfahren wie Hauptkomponenten- und Faktorenanalyse, die benutzt werden können, um latente Zusammenhangsstrukturen in Daten zu modellieren. Die Theorie aller vorgestellten Methoden wird erklärt und die Anwendung an praktischen Beispielen im EDV-Labor geübt.

Psychometrie mit R

Termin:
Do 26.2.2009, 9-17:30 & Fr 27.2. 2009, 9-13
Dozenten:
Dr. Carolin Strobl, Dr. Florian Wickelmaier
Voraussetzungen:
elementare Kenntnisse in Statistik, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

In diesem Kurs werden zwei der zentralen Themengebiete der Psychometrie vorgestellt: die Messung von Personen-Eigenschaften und Fähigkeiten mithilfe der Item-Response-Theorie (IRT) und die Skalierung von Attributen und Präferenzen anhand von Paarvergleichsdaten und probabilistischen Wahlmodellen.

Die den Verfahren zugrundeliegenden theoretischen und statistischen Prinzipien und Annahmen werden verständlich eingeführt. Die praktische Anwendung der Verfahren in R wird in mehreren Übungssequenzen behandelt.

Der Inhalt des Kurses umfaßt
  • Einführung in das Rasch Modell
    • Datenstruktur
    • Modellgleichung und Annahmen
    • Parameterschätzung
    • Modelltests
  • Weitere IRT Modelle
    • Birnbaum Modelle
    • Rating Scale und Partial Credit Modelle
  • Einführung in das Bradley-Terry-Luce-Modell
    • Datenstruktur
    • Modellgleichung und Annahmen
    • Parameterschätzung
    • Modelltests
  • Weitere probabilistische Wahlmodelle
    • Elimination by Aspects (EBA)
    • Präferenzbäume


R Anfängerkurs

Termin:
Do 02.04.2009, 9-17:30 & Fr 03.04.2009, 9-16
Dozenten:
Dipl.-Ing. Manuel Eugster, Dipl.-Stat. Sebastian Kaiser
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...


Machine Learning & Data Mining mit R

Termin:
Do 25.6.2009, 9:30-18:00 & Fr 26.6.2009, 9-16
Dozenten:
Prof. Dr. Torsten Hothorn, Prof. Dr. Friedrich Leisch, Dr. Carolin Strobl
Voraussetzungen:
elementare Kenntnisse in Statistik, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

In diesem Kurs werden moderne statistische Verfahren des maschinellen Lernens zur Analyse komplexer Klassifikations- und Regressionsprobleme vorgestellt, die besonders für die Modellierung nicht-linearer Regressionszusammenhänge in hoch-dimensionale Daten geeignet sind. Die zugrundeliegenden Prinzipien der Verfahren werden verständlich eingeführt und illustriert, sowie Besonderheiten herausgehoben.

Ein Schwerpunkt ist dabei die Selektion von wenigen relevanten Einflußgrößen aus tausenden von potentiellen Kandidaten, z.B. in der Selektion von genetischen Markern zur Prognose des Krankheitsstatus. Der Hauptteil des Kurses beschäftigt sich mit der Anwendung von in R verfügbaren Werkzeugen anhand von Beispielen aus der Praxis.

  • klassische und moderne Klassifikations- und Regressionsbäume
  • Bagging und Random Forests zur Prädiktion und Variablenselektion
  • Boosting von additiven und hoch-dimensionalen generalisierten linearen Modellen
  • Support Vector Machines