R Anfängerkurs

Termin:
Do 28.01.2010, 9-17:30 & Fr 29.01.2010, 9-16 und
Do 30.09.2010, 9-17:30 & Fr 01.10.2010, 9-16
Dozenten:
Dipl.-Ing. Manuel Eugster, Dipl.-Stat. Sebastian Kaiser, Dipl.-Stat. Armin Monecke,
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...


Räumliche Statistik mit R

Termin:
Do 25.02.2010, 9-17:30 & Fr 26.02.2010, 9-16 und
Do 14.10.2010, 9-17:30 & Fr 15.10.2010, 9-16
Dozenten:
Prof. Dr. Thomas Kneib, Michael Höhle, Ph.D.
Voraussetzungen:
Solide Kenntnisse zu linearen Modellen, Erfahrung mit praktischer Datenanalyse mit R (etwa im Umfang des R-Anfängerkurses)

Inhalt:

Die Räumliche Statistik beschäftigt sich mit der Analyse und Modellierung von Daten, die eine räumliche Dimension aufweisen. Diese Dimension kann in unterschiedlicher Art und Weise vorliegen, beispielsweise in Form von Koordinatenpunkten an denen die Zielgröße erhoben wurden oder in Form von Regionenzugehörigkeiten. In bestimmten Anwendungen ist auch die räumliche Verteilung der Daten selbst von Interesse. Je nach genauer Datenstruktur und Fragestellung kommen spezielle Verfahren der räumlichen Statistik zum Einsatz.

Dieser Kurs vermittelt den Einsatz von R zur Analyse, Modellierung und Schätzung für räumliche Problemstellungen. Die Inhalte gliedern sich wie folgt:
  • Zunächst wird der Umgang mit und die Visualisierung von räumlichen Daten in R behandelt. Des Weiteren wird die Verknüpfung zwischen R und dem OpenSource GIS Programm GRASS besprochen.
  • Der zweite Teil des Kurses behandelt Verfahren der klassischen Geostatistik zur Analyse von räumlichen Daten, bei der Zielgröße und Kovariablen mit zusätzlicher Koordinateninformation ausgestattet sind. Neben Verfahren zur Exploration räumlicher Korrelationen (Korrelogramm, Semivariogramm) werden verschiedene Varianten von stationären Gauß-Prozessen (Kriging) behandelt.
  • Markov-Zufallsfelder erlauben die Abbildung räumlicher Abhängigkeiten basierend auf diskreter räumlicher Information wie sie beispielsweise durch die Zuordnung von Beobachtungen zu Landkreisen in der Epidemiologie entstehen. In diesem Teil des Kurses werden die entsprechenden Konzepte eingeführt und beschrieben wie Markov-Zufallsfelder zur Analyse von Regionendaten eingesetzt werden können.
  • Im letzten Teil werden statistische Verfahren zur Beschreibung räumlicher Punktmuster mittels Punktprozessen behandelt. Die Konzepte der Intensitätsfunktion, K-Funktion und deren Schätzung werden präsentiert und der homogene und inhomogene Poisson-Prozess und dessen Modellierung anhand von Kovariablen werden erläutert.
Alle behandelten statistischen Methoden werden durch relevante Anwendungsbeispiele illustriert und in Computerübungen vor Ort eigenständig geübt.

Parallel Computing with R

Termin:
Mo 15.3.2010, 9 - 17 & Di 16.3.2010, 9 - 17
Dozenten:
Markus Schmidberger
Voraussetzungen:
Grundkenntnisse in R oder Programmier-Erfahrung
Achtung: Der Kurs findet am Leibniz Rechenzentrum statt (Boltzmannstrasse 1, 85748 Garching Kursraum H.U.010).

Inhalt:

Durch neue Hardwareentwicklungen (multi-core), immer größeren Datensätzen und rechenaufwändigeren Methoden wächst das Interesse an parallelem Rechnen. Dieser Kurs zeigt, wie paralleles Rechnen in und mit R effizient für verschiedene Anwendungen eingesetzt werden kann. Zur Auffrischung werden wichtige R Programmiermethoden (Vektorisierung, apply-Funktionen, ...) wiederholt. Nach einer kurzen Einführung in die Theorie zu parallelem Rechnen wird an Hand von Beispielen "paralleles Denken" und "parallele Codeentwicklung" vermittelt. Hierbei wird auch auf das Profiling von seriellem Code eingegangen. Schwerpunkt des Kurses ist der praktische Einsatz der Familie von snow-Paketen auf Rechenclustern und von R Paketen für Multicore-Computer. Der Einsatz von weiteren Paketen (NWS, ...), Batchsystemen und Grid Computing wird ebenfalls kurz erklärt und an Beispielen eingesetzt.

Ziel des Kurses ist es, Methoden und Verfahren für paralleles Rechnen mit R den Teilnehmern zu vermitteln und anhand von statistischen Beispielen werden parallele Implementierungen vertieft. Der Kurs vertieft Inhalte aus dem Paper "State-of-the-Art in Parallel Computing with R" von Schmidberger, et.al. erschienen 2009 bei JSS.

Parallel Computing with R (in English)

Date:
Mo 8.11.2010, 9 - 17 & Di 9.11.2010, 9 - 17
Lecturer:
Markus Schmidberger
Requirements:
Basic knowledge in R and first R programming skills (e.g. implementing your own R functions)
Basic knowledge in using Linux systems (a short course can be found at http://www.linux.org/lessons/beginner/)
PLEASE NOTE: The course takes place at the Leibniz Rechenzentrum in Garching (Boltzmannstrasse 1, 85748 Garching Kursraum H.U.010).

Topics:

Primary drivers for the increased focus on parallel computing are new hardware trends (multi-core), larger data sets, and increased computational requirements stemming from more sophisticated methodologies. This course demonstrates the efficient use of R in parallel computing. In the beginning advanced R programming skills (vectorization, apply functions, profiling) will be repeated. After a short theoretical course for parallel computing the parallel program design, methods and techniques for parallel computing, and parallel thinking are communicated with several examples. Main part of the course is the practical application of the R packages snow, multicore and foreach. Nevertheless, there are exercises for using batch systems and other R packages for parallel computing (snowfall, NWS). In the course the computer resources - including the HLRB2 with 9728 processors - from the Leibniz Rechenzentrum (LRZ, www.lrz-muenchen.de) can be used. The participants are guided to use these resources and how to write applications for getting resources at the LRZ. The course extends the content of the publication "State-of-the-Art in Parallel Computing with R", Schmidberger, et.al. published in 2009 at the JSS journal.

Generalisierte Regression mit R

Termin:
Do 29.04.2010, 9-17:30 & Fr 30.04.2010, 9-16
Dozenten:
Dipl.-Stat. Fabian Scheipl, Prof. Dr. Thomas Kneib
Voraussetzungen:
Grundkenntnisse zu linearen Modellen, praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Grundkurses)

Inhalt:

Dieser Kurs stellt nach einer kurzen Wiederholung des klassischen linearen Regressionsmodells drei wesentliche Erweiterungen vor:
Generalisierte lineare Modelle:
Die Zielvariable wird nicht mehr als (approximativ) normalverteilt betrachtet, sondern folgt einer beliebigen Verteilung aus der univariaten Exponentialfamilie. Enthalten sind damit insbesondere Regressionsmodelle für binäre Zielgrößen (Bernoulliverteilung) und Zählvariablen (Poissonverteilung), aber auch Regressionsmodelle für nichtnegative Zufallsvariablen basierend auf der Gammaverteilung. Der Kurs stellt zunächst einige spezielle generalisierte lineare Modelle vor und bettet diese anschließend in den allgemeinen Rahmen ein.
Modelle mit zufälligen Effekten:
Bei der Analyse von Longitudinaldaten oder gruppierten Daten ist die Annahme der Unabhängigkeit der Beobachtungen typischerweise nicht mehr gegeben. Regressionsmodelle mit zufälligen Effekten erweitern den linearen Prädiktor linearer und generalisierter linearer Modelle um zufällige, individuen- bzw. gruppenspezifische Effekte und erlauben damit die Berücksichtigung von Korrelationen. Der Kurs wird sich im Wesentlichen auf lineare Modelle mit zufälligen Effekten beschränken, aber auch kurz auf Erweiterungen für generalisierte lineare Modelle eingehen.
Generalisierte additive Modelle:
In linearen und generalisierten linearen Modellen wird der Erwartungswert der Zielvariablen basierend auf einem rein linearen Prädiktor modelliert. Obwohl durch Transformationen von Kovariablen bereits einfache, nichtlineare Zusammenhänge beschrieben werden können, sind automatisierte, flexiblere Alternativen zur Analyse nichtlinearer Zusammenhänge in der Praxis von besonderem Wert. Generalisierte additive Modelle sind eine allgemeine Modellklasse zur Untersuchung solcher nichtlinearer Zusammenhänge. In diesem Kurs wird der besondere Fokus auf der Modellierung mit Hilfe von Spline-Funktionen und Penalisierungsansätzen liegen. Eine Reihe von Erweiterungen wie die Modellierung von Interaktionen und variierenden Koeffizienten werden ebenfalls behandelt.

Multivariate Statistik mit R

Termin:
Do 17.06.2010, 9-17:30 & Fr 18.06.2010, 9-16
Dozenten:
Prof. Dr. Friedrich Leisch, Dipl.-Stat. Sebastian Kaiser
Voraussetzungen:
Anwendung von R für einfache Datenanalysen

Inhalt:

Die multivariate Statistik beschäftigt sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen, wobei "höherdimensional" typischerweise "ab drei" (ohne Schranke nach oben) bezeichnet. Zu Beginn des Kurses werden Methoden zur Visualisierung höherdimensionaler Daten wie Linearprojektionen, parallele Koordinaten, Grand Tour und interaktive Methoden (Linking, Brushing) vorgestellt. Weitere Themen sind Diskriminanzanalyse zur Prognose kategorischer abhängiger Variablen (Klassifikation), und das Auffinden von Gruppen in Daten mit Hilfe der Clusteranalyse. Den Abschluß bilden Dimensionsreduktionverfahren wie Hauptkomponenten- und Faktorenanalyse, die benutzt werden können, um latente Zusammenhangsstrukturen in Daten zu modellieren. Die Theorie aller vorgestellten Methoden wird erklärt und die Anwendung an praktischen Beispielen im EDV-Labor geübt.