Algorithmic Foundations of Data Science

 

Vorlesung im Sommersemester 2020

 
Datenstrom von Nullen und Einsen Urheberrecht: © Lehrstuhl i7

Ansprechpartnerin

Name

Eva Fluck

Telefon

work
+49 241 80 21728

E-Mail

E-Mail
 

Termine

Vorlesungen:
Di, 12:30 - 14:00 Uhr im AH V
Do, 12:30 - 14:00 Uhr im AH V

Übungen:
Fr, 12:30 - 14:00 Uhr im 5056
oder
Mo, 16:30 - 18:00 Uhr im AH II

 
 

Inhalt

Im Zeitalter von "big data" und "advanced analytics" ergeben sich einige Herausforderungen für die Datanverarbeitung. Anfragen werden immer komplexer und benötigen oft "data mining" und "machine learning" Algorithmen. Auch die Größe der Datensätze erfordern neue und effizientere Ansätze.

In dieser Vorlesung behandeln wir die "theoretischen Grundlagen" der modernen Datenverarbeitung und Analyse. Dies beinhaltet Themen aus dem Bereich der Datenbaken-Theorie, wie zum beispiel "data models", die Analyse von query-Sprachen, sowie grundlegende algorithmische und komplexitätstheoretische Fragestellungen der Datenverarbeitung. Außerdem befassen wir uns mit der Theorie des algorithmischen Lernens und behandeln neben den grundlegenden "machine learning" Algorithmen auch "support vector machines", das PAC Modell, und VC-Dimensionnen. Zusätzlich dazu behandeln wir auch neue berechnungsmodelle für sehr große Datensätze, wie zum beispiel das streaming-Modell und das map-reduce Paradigma.

Hierbei liegt der Schwerpunkt der Vorlesung bei den "berechenbarkeits Aspekten" dieser Theorien. Statistik, was zweifelsfrei ein wichtiger Bestandteil der Datenwissenschaften ist, wird keine zentrale Rolle in dieser Veranstaltung spielen.

Voraussetzungen

Diese Vorlesung ist an Master Studentinnen und Studenten gerichtet.

Es werden keine besonderen Vorkenntnisse benötigt.

 

Organisatorisches

Die Vorlesung wird in Englisch gehalten.

Termine

Diese 3-Stündige Vorlesung wird als 4-Stündige Veranstaltung gehalten. Sie findet jedoch nicht jede Woche statt.
Die genauen Termine werden in der ersten Vorlesung und in RWTHonline sowie RWTHmoodle bekannt gegeben.

Dozent

Martin Grohe

 

Übungsaufgaben

Wir werden wöchentliche Übungsaufgaben veröffentlichen. Das erfolgreiche Bearbeiten dieser Aufgaben, davon mindestens 50% der erreichbaren Punkte, ist erforderlich für die Klausurzulassung.

Die Übungsaufgaben werden wöchentlich in RWTHmoodle hochgeladen und müssen zu Beginn in der darauf folgenden Woche abgegeben werden.

Abgabegruppen von bis zu drei Studenten und Studentinnen sind erlaubt und erwünscht.

Klausur

Zum erfolgreichen Absolvieren der Vorlesung gehört das Bestehen der schriftlichen Klausur.
Die genauen Details zur Klausur werden im RWTHmoodle bekannt gegeben.

 

Literatur

S. Abiteboul, R. Hull, V. Vianu. Foundations of Databases. Addison Wesley 1995.

J. Hopcroft, R. Kannan. Foundations of Data Science. Unpublished, draft available online.

M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. MIT Press 1994.

J. Leskovec, A. Rajaraman, J. Ullman. Mining of Massive Datasets. Cambridge University Press 2014.

S.J. Russell, P. Norvig. Artificial Intelligence: A Modern Approach. 3rd Edition, Pearson 2014.

 

Externe Links