|
R Anfängerkurs
- Termin:
- Do 28.01.2010, 9-17:30 & Fr 29.01.2010, 9-16
und
Do 30.09.2010, 9-17:30 & Fr 01.10.2010, 9-16
- Dozenten:
- Dipl.-Ing.
Manuel Eugster, Dipl.-Stat.
Sebastian Kaiser, Dipl.-Stat.
Armin Monecke,
- Voraussetzungen:
- keine
Inhalt:
Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R
zur
Analyse und Visualisierung eigener Daten erlernen wollen. Neben
Installation und Grundlagen der Bedienung von R wird die praktische
Anwendung einfacher deskriptiver statistischer Methoden an Beispielen
demonstriert und geübt. Der Kurs umfasst die Themen:
- Grundlagen statistischer Software
- Grundlagen von R, Installation des Basispakets und
von Erweiterungspaketen
- Graphische Benutzerschnittstellen (GUIs) für
R
- Datenimport und Datenmanipulation, Interaktion mit
Tabellenkalkulationsprogrammen
- Berechnung von Kennzahlen: Mittelwert, Varianz,
Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln,
...
- einfache Grafiken: Histogramme, Boxplots,
Dichteschätzer, Balken- & Streudiagramme, ...

Räumliche Statistik mit R
- Termin:
- Do 25.02.2010, 9-17:30 & Fr 26.02.2010, 9-16
und
Do 14.10.2010, 9-17:30 & Fr 15.10.2010, 9-16
- Dozenten:
- Prof. Dr.
Thomas Kneib, Michael
Höhle, Ph.D.
- Voraussetzungen:
- Solide Kenntnisse zu linearen Modellen, Erfahrung
mit praktischer Datenanalyse mit R (etwa im Umfang des
R-Anfängerkurses)
Inhalt:
Die Räumliche Statistik beschäftigt sich mit der
Analyse und Modellierung von Daten, die eine räumliche
Dimension aufweisen. Diese Dimension kann in unterschiedlicher Art und
Weise vorliegen, beispielsweise in Form von Koordinatenpunkten an denen
die Zielgröße erhoben wurden oder in Form von
Regionenzugehörigkeiten. In bestimmten Anwendungen ist auch
die räumliche Verteilung der Daten selbst von Interesse. Je
nach genauer Datenstruktur und Fragestellung kommen spezielle Verfahren
der räumlichen Statistik zum Einsatz.
Dieser Kurs vermittelt den Einsatz von R zur Analyse, Modellierung und
Schätzung für räumliche Problemstellungen.
Die Inhalte gliedern sich wie folgt:
- Zunächst wird der Umgang mit und die
Visualisierung von räumlichen Daten in R behandelt. Des
Weiteren wird die Verknüpfung zwischen R und dem OpenSource
GIS Programm GRASS besprochen.
- Der zweite Teil des Kurses behandelt Verfahren der
klassischen Geostatistik zur Analyse von räumlichen Daten, bei
der Zielgröße und Kovariablen mit
zusätzlicher Koordinateninformation ausgestattet sind. Neben
Verfahren zur Exploration räumlicher Korrelationen
(Korrelogramm, Semivariogramm) werden verschiedene Varianten von
stationären Gauß-Prozessen (Kriging) behandelt.
- Markov-Zufallsfelder erlauben die Abbildung
räumlicher Abhängigkeiten basierend auf diskreter
räumlicher Information wie sie beispielsweise durch die
Zuordnung von Beobachtungen zu Landkreisen in der Epidemiologie
entstehen. In diesem Teil des Kurses werden die entsprechenden Konzepte
eingeführt und beschrieben wie Markov-Zufallsfelder zur
Analyse von Regionendaten eingesetzt werden können.
- Im letzten Teil werden statistische Verfahren zur
Beschreibung räumlicher Punktmuster mittels Punktprozessen
behandelt. Die Konzepte der Intensitätsfunktion, K-Funktion
und deren Schätzung werden präsentiert und der
homogene und inhomogene Poisson-Prozess und dessen Modellierung anhand
von Kovariablen werden erläutert.
Alle behandelten statistischen Methoden werden durch relevante
Anwendungsbeispiele illustriert und in Computerübungen vor Ort
eigenständig geübt.

Parallel Computing with R
- Termin:
- Mo 15.3.2010, 9 - 17 & Di 16.3.2010, 9 - 17
- Dozenten:
- Markus
Schmidberger
- Voraussetzungen:
- Grundkenntnisse in R oder Programmier-Erfahrung
Achtung: Der Kurs findet am Leibniz Rechenzentrum
statt (Boltzmannstrasse 1, 85748 Garching
Kursraum H.U.010).
Inhalt:
Durch neue Hardwareentwicklungen (multi-core), immer
größeren Datensätzen
und rechenaufwändigeren Methoden wächst das Interesse
an parallelem
Rechnen. Dieser Kurs zeigt, wie paralleles Rechnen in und mit R
effizient
für verschiedene Anwendungen eingesetzt werden kann. Zur
Auffrischung
werden wichtige R Programmiermethoden (Vektorisierung,
apply-Funktionen,
...) wiederholt. Nach einer kurzen Einführung in die Theorie
zu parallelem
Rechnen wird an Hand von Beispielen "paralleles Denken" und "parallele
Codeentwicklung" vermittelt. Hierbei wird auch auf das Profiling von
seriellem Code eingegangen. Schwerpunkt des Kurses ist der praktische
Einsatz der Familie von snow-Paketen auf Rechenclustern und von R
Paketen
für Multicore-Computer. Der Einsatz von weiteren Paketen (NWS,
...),
Batchsystemen und Grid Computing wird ebenfalls kurz erklärt
und an
Beispielen eingesetzt.
Ziel des Kurses ist es, Methoden und Verfahren für paralleles
Rechnen mit
R den Teilnehmern zu vermitteln und anhand von statistischen Beispielen
werden parallele Implementierungen vertieft. Der Kurs vertieft Inhalte
aus
dem Paper "State-of-the-Art in Parallel Computing with R" von
Schmidberger, et.al. erschienen 2009 bei JSS.
Parallel Computing with R (in English)
- Date:
- Mo 8.11.2010, 9 - 17 & Di 9.11.2010, 9 - 17
- Lecturer:
- Markus
Schmidberger
- Requirements:
- Basic knowledge in R and first R programming skills
(e.g. implementing your own R functions)
Basic knowledge in using Linux systems (a short course can be found at http://www.linux.org/lessons/beginner/)
PLEASE NOTE: The course takes place at the Leibniz Rechenzentrum
in Garching (Boltzmannstrasse 1, 85748 Garching Kursraum H.U.010).
Topics:
Primary drivers for the increased focus on parallel computing are new
hardware trends (multi-core), larger data sets, and increased
computational requirements stemming from more sophisticated
methodologies. This course demonstrates the efficient use of R in
parallel computing. In the beginning advanced R programming skills
(vectorization, apply functions, profiling) will be repeated. After a
short theoretical course for parallel computing the parallel program
design, methods and techniques for parallel computing, and parallel
thinking are communicated with several examples. Main part of the
course is the practical application of the R packages snow, multicore
and foreach. Nevertheless, there are exercises for using batch systems
and other R packages for parallel computing (snowfall, NWS).
In the course the computer resources - including the HLRB2 with 9728
processors - from the Leibniz Rechenzentrum (LRZ, www.lrz-muenchen.de)
can be used. The participants are guided to use these resources and how
to write applications for getting resources at the LRZ.
The course extends the content of the publication "State-of-the-Art in
Parallel Computing with R", Schmidberger, et.al. published in 2009 at
the JSS journal.
- Termin:
- Do 29.04.2010, 9-17:30 & Fr 30.04.2010, 9-16
- Dozenten:
-
Dipl.-Stat.
Fabian Scheipl, Prof.
Dr. Thomas Kneib - Voraussetzungen:
- Grundkenntnisse zu linearen Modellen, praktische
Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang
des Grundkurses)
Inhalt:
Dieser Kurs stellt nach einer kurzen Wiederholung des klassischen
linearen Regressionsmodells drei wesentliche Erweiterungen
vor:
- Generalisierte lineare Modelle:
- Die Zielvariable wird nicht mehr als (approximativ)
normalverteilt betrachtet, sondern folgt einer beliebigen Verteilung
aus der univariaten Exponentialfamilie. Enthalten sind damit
insbesondere Regressionsmodelle für binäre
Zielgrößen (Bernoulliverteilung) und
Zählvariablen (Poissonverteilung), aber auch
Regressionsmodelle für nichtnegative Zufallsvariablen
basierend auf der Gammaverteilung. Der Kurs stellt zunächst
einige spezielle generalisierte lineare Modelle vor und bettet diese
anschließend in den allgemeinen Rahmen ein.
- Modelle mit zufälligen Effekten:
- Bei der Analyse von Longitudinaldaten oder
gruppierten Daten ist die Annahme der Unabhängigkeit der
Beobachtungen typischerweise nicht mehr gegeben. Regressionsmodelle mit
zufälligen Effekten erweitern den linearen Prädiktor
linearer und generalisierter linearer Modelle um zufällige,
individuen- bzw. gruppenspezifische Effekte und erlauben damit die
Berücksichtigung von Korrelationen. Der Kurs wird sich im
Wesentlichen auf lineare Modelle mit zufälligen Effekten
beschränken, aber auch kurz auf Erweiterungen für
generalisierte lineare Modelle eingehen.
- Generalisierte additive Modelle:
- In linearen und generalisierten linearen Modellen
wird der Erwartungswert der Zielvariablen basierend auf einem rein
linearen Prädiktor modelliert. Obwohl durch Transformationen
von Kovariablen bereits einfache, nichtlineare Zusammenhänge
beschrieben werden können, sind automatisierte, flexiblere
Alternativen zur Analyse nichtlinearer Zusammenhänge in der
Praxis von besonderem Wert. Generalisierte additive Modelle sind eine
allgemeine Modellklasse zur Untersuchung solcher nichtlinearer
Zusammenhänge. In diesem Kurs wird der besondere Fokus auf der
Modellierung mit Hilfe von Spline-Funktionen und
Penalisierungsansätzen liegen. Eine Reihe von Erweiterungen
wie die Modellierung von Interaktionen und variierenden Koeffizienten
werden ebenfalls behandelt.

Multivariate Statistik mit R
- Termin:
- Do 17.06.2010, 9-17:30 & Fr 18.06.2010, 9-16
- Dozenten:
- Prof. Dr.
Friedrich Leisch, Dipl.-Stat.
Sebastian Kaiser
- Voraussetzungen:
- Anwendung von R für einfache Datenanalysen
Inhalt:
Die multivariate Statistik beschäftigt sich mit dem Auffinden
und der
Modellierung von Strukturen in höherdimensionalen
Datensätzen, wobei
"höherdimensional" typischerweise "ab drei" (ohne Schranke
nach oben)
bezeichnet. Zu Beginn des Kurses werden Methoden zur Visualisierung
höherdimensionaler Daten wie Linearprojektionen, parallele
Koordinaten, Grand Tour und interaktive Methoden (Linking, Brushing)
vorgestellt. Weitere Themen sind Diskriminanzanalyse zur Prognose
kategorischer abhängiger Variablen (Klassifikation), und das
Auffinden
von Gruppen in Daten mit Hilfe der Clusteranalyse. Den
Abschluß bilden
Dimensionsreduktionverfahren wie Hauptkomponenten- und
Faktorenanalyse, die benutzt werden können, um latente
Zusammenhangsstrukturen in Daten zu modellieren. Die Theorie aller
vorgestellten Methoden wird erklärt und die Anwendung an
praktischen
Beispielen im EDV-Labor geübt.


|