Programmieren mit R
Inhalt:Statistik wird in immer größerem Ausmaß zu einer computationalen Wissenschaft, inbesonders die angewandte Statistik kommt ohne den Einsatz und die Beherrschung moderner Software-Werkzeuge nicht aus. Dieser Kurs dient der allgemeinen Vertiefung in die Datenanalyse mit R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Grundkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Programmiertechniken vermittelt, mittels derer sich das komplexe Werkzeug R leichter bedienen lässt:
R Anfängerkurs
Inhalt:Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
![]() ![]() ![]() ![]() Analyse von mehrdimensionalen Kontingenztabellen
Inhalt:Kategoriale Daten bilden in vielen Untersuchungen den größten Teil der Beobachtungen. Solche Datensätze entstehen immer dann, wenn die Teilnehmer nach verschiedenen Merkmalen klassifiziert werden: nach der Lösung einer Testaufgabe (richtig, falsch), nach politischer Einstellung (konservativ, liberal, sozialdemokratisch etc.) oder nach Diagnose (Hepatitis A, B, C).Dieser Kurs führt in Verfahren zur Analyse solcher Daten ein:
![]() ![]() ![]() ![]() Publikationsfähige Graphiken
Inhalt:Explorative Analyse von Daten ist in vielen Fällen stark von grafischen Methoden geprägt, Assoziationen zwischen Variablen sieht man in Grafiken meist viel schneller als in Tabellen mit numerischen Kennzahlen. Auch statistische Grafiken haben im vergangenen Jahrzehnt einen wahren Boom erlebt und werden immer mehr zur Herausarbeitung von Ergebnissen in wissenschaftlichen Publikationen verwendet. R bietet eine Vielzahl von Möglichkeiten, Grafiken zu erstellen, verändern und an die eigenen Bedürfnisse anzupassen. In diesem Kurs werden alle notwendigen technischen, ästhetischen und inhaltlichen Details zur Erstellung einer publikationsfähigen Grafik in R vermittelt:
![]() ![]() ![]() ![]() Finite Mischmodelle in R
Inhalt:Bei Anwendungen weiß man häufig, dass die Beobachtungen nicht homogen sind, sondern dass es Gruppen in den Daten gibt. Leider steht die Information, welcher Gruppe eine Beobachtung zugeordnet ist, oft nicht zur Verfügung. Mithilfe von finiten Mischmodellen können innerhalb eines Modells sowohl die Gruppenzugehörigkeit als auch die Modelle für die einzelnen Gruppen bestimmt werden. Die Anwendungsgebiete von finiten Mischmodellen sind vielfältig und umfassen unter anderem das Clustern von Genexpressionsdaten und die Marktsegmentierung. Die Modellklasse der finiten Mischungen ist extrem flexibel, da beliebige Modelle zu Mischungen dieser Modelle erweitert und innerhalb eines einheitlichen statistischen Rahmens behandelt werden können. Im diesem Kurs wird die Modellklasse der finiten Mischmodelle mit verschiedenen Erweiterungen vorgestellt und die Schätzung und Identifikation dieser Modelle mithilfe von Maximum Likelihood Methoden besprochen. Auf CRAN stehen mehrere Pakete für das Schätzen verschiedener Mischmodellen zur Verfügung, wobei im Besonderen das R Paket flexmix präsentiert wird. flexmix stellt eine erweiterbare und flexible Implementierung zur Schätzung von verschiedensten Mischmodellen dar. Die Anwendung wird an praktischen Beispielen im EDV-Labor geübt.Parallel Computing with R (in English)
Topics:Primary drivers for the increased focus on parallel computing are new hardware trends (multi-core), larger data sets, and increased computational requirements stemming from more sophisticated methodologies. This course demonstrates the efficient use of R in parallel computing. In the beginning advanced R programming skills (vectorization, apply functions, profiling) will be repeated. After a short theoretical course for parallel computing the parallel program design, methods and techniques for parallel computing, and parallel thinking are communicated with several examples. Main part of the course is the practical application of the R packages snow, multicore and foreach. Nevertheless, there are exercises for using batch systems and other R packages for parallel computing (snowfall, NWS). In the course the computer resources - including the HLRB2 with 9728 processors - from the Leibniz Rechenzentrum (LRZ, www.lrz-muenchen.de) can be used. The participants are guided to use these resources and how to write applications for getting resources at the LRZ. The course extends the content of the publication "State-of-the-Art in Parallel Computing with R", Schmidberger, et.al. published in 2009 at the JSS journal.Multivariate Statistik mit R
Inhalt:Die multivariate Statistik beschäftigt sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen, wobei "höherdimensional" typischerweise "ab drei" (ohne Schranke nach oben) bezeichnet. Zu Beginn des Kurses werden Methoden zur Visualisierung höherdimensionaler Daten vorgestellt. Weitere Themen sind Diskriminanzanalyse zur Prognose kategorischer abhängiger Variablen (Klassifikation), und das Auffinden von Gruppen in Daten mit Hilfe der Clusteranalyse. Den Abschluß bilden Dimensionsreduktionverfahren wie Hauptkomponenten- und Faktorenanalyse, die benutzt werden können, um latente Zusammenhangsstrukturen in Daten zu modellieren. Die Theorie aller vorgestellten Methoden wird erklärt und die Anwendung an praktischen Beispielen im EDV-Labor geübt. Der Kurs basiert auf dem Buch An Introduction to Applied Multivariate Analysis with R von B. Everitt und T. Hothorn.![]() ![]() ![]() ![]() ![]() |