Foundations of Data Science

 

Vorlesung im Wintersemester 2017/2018

 
Datenstrom von Nullen und Einsen Urheberrecht: © Lehrstuhl i7
 

Termine

Vorlesung
Di, 13:15 - 14:45 Uhr (AH II)
Do, 8:30 - 10:00 Uhr (AH II)

Übung
Di, 10:15 - 11:45 Uhr (5056)

 
 

Inhalt

Im Zeitalter von "big data" und "advanced analytics" ergeben sich einige Herausforderungen für die Datanverarbeitung. Anfragen werden immer komplexer und benötigen oft "data mining" und "machine learning" Algorithmen. Auch die Größe der Datensätze erfordern neue und effizientere Ansätze.

In dieser Vorlesung behandeln wir die "theoretischen Grundlagen" der modernen Datenverarbeitung und Analyse. Dies beinhaltet Themen aus dem Bereich der Datenbaken-Theorie, wie zum beispiel "data models", die Analyse von query-Sprachen, sowie grundlegende algorithmische und komplexitätstheoretische Fragestellungen der Datenverarbeitung. Außerdem befassen wir uns mit der Theorie des algorithmischen Lernens und behandeln neben den grundlegenden "machine learning" Algorithmen auch "support vector machines", das PAC Modell, und VC-Dimensionnen. Zusätzlich dazu behandeln wir auch neue berechnungsmodelle für sehr große Datensätze, wie zum beispiel das streaming-Modell und das map-reduce Paradigma.

Hierbei liegt der Schwerpunkt der Vorlesung bei den "berechenbarkeits Aspekten" dieser Theorien. Statistik, was zweifelsfrei ein wichtiger Bestandteil der Datenwissenschaften ist, wird keine zentrale Rolle in dieser Veranstaltung spielen.

Voraussetzungen

Diese Vorlesung ist sowohl an Bachelor als auch an Master Studentinnen und Studenten gerichtet.

Es werden keine besonderen Vorkenntnisse benötigt.

 

Organisatorisches

Die Vorlesung wird in Englisch gehalten.

Termine

Dienstag, 13:15 Uhr - 14:45 Uhr im 2350|111 (AH II)
Donnerstag, 8:30 Uhr - 10:00 Uhr im 2350|111 (AH II)

Diese 3-Stündige Vorlesung wird als 4-Stündige Veranstaltung gehalten. Sie findet jedoch nicht jede Woche statt.
Die genauen Termine werden in der ersten Vorlesung und im Campus-Office bekannt gegeben.

Dozent

Martin Grohe

 

Übungsaufgaben

Wir werden wöchentliche Übungsaufgaben veröffentlichen. Das erfolgreiche Bearbeiten dieser Aufgaben, davon mindestens 50% der erreichbaren Punkte, ist erforderlich für die Klausurzulassung.

Die Übungsaufgaben werden Donnerstags im L2P hochgeladen und müssen zu Beginn der Vorlesung am Donnerstag in der darauf folgenden Woche abgegeben werden. Alternativ kann auch der Einwurfkasten am Lehrstuhl, Gebäude E1, erster Stock, bis um 10:00 Uhr genutzt werden.

Abgabegruppen von bis zu drei Studenten und Studentinnen sind erlaubt und erwünscht.

Die Lösungen der Übungsaufgaben werden immer Dienstags, 8:30-10:00 Uhr im 2356|056 (5056) vorgestellt.

Klausur

Zum erfolgrichen Absolvieren der Vorlesung gehört das bestehen der schriftlichen Klausur.
Die genauen Details zur Klausur werden im L2P bekannt gegeben. Die geplanten Klausurtermine sind:

Donnerstag, 15. Februar 2018, 11:30 Uhr, 2350|111 (AH II)
Donnerstag, 22. März 2018, 11:30 Uhr, 2350|009 (AH I)

 

Literatur

S. Abiteboul, R. Hull, V. Vianu. Foundations of Databases. Addison Wesley 1995.

J. Hopcroft, R. Kannan. Foundations of Data Science. Unpublished, draft available online.

M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. MIT Press 1994.

J. Leskovec, A. Rajaraman, J. Ullman. Mining of Massive Datasets. Cambridge University Press 2014.

S.J. Russell, P. Norvig. Artificial Intelligence: A Modern Approach. 3rd Edition, Pearson 2014.