Foundations of Data Science

 

Vorlesung im Wintersemester 2016/2017

 
Datenstrom von Nullen und Einsen Urheberrecht: Lehrstuhl i7
 
 

Inhalt

Das Verarbeiten und Auswerten von Datensätzen ist heutzutage stark geprägt durch Themen wie "Big Data" sowie neuen Möglichkeiten durch maschinelles Lernen. Analyseanfragen werden aufwendiger und komplexer und beinhalten oft auch Aspekte aus den Bereichen Data Mining und Maschinelles Lernen. Zusätzliche Herausforderungen entstehen durch die teilweise enorme Größe der zugrundeliegenden Datensätze, diesen kann oft nur durch neue Algorithmischen Ansätze begegnet werden.

Die Vorlesung "Foundations of Datascience" konzentriert sich dabei auf die theoretischen Grundlangen moderner Datenauswertung und -analyse. Themen der Vorlesung sind unter anderem Datenbanktheorie, Lerntheorie sowie algorithmischen Themen rund um Streaming-Algorithmen und das Map-Reduce Programmierparadigma zum Verarbeiten großer Datensätze. Der Bereich der Datenbanktheorie umfasst dabei Fragen zu Datenmodellen, Anfragesprachen sowie Fragen zur Komplexität der Anfrageauswertung. Lerntheorie beschreibt die Theoretische Grundlage hinter Machine learning Algorithmen. In der Vorlesung werden dabei grundlegende Algorithmen wie Perceptron und Support vector machines besprochen (mit einem Fokus auf theoretische Garantien dieser Algorithmen), sowie Modelle wie das PAC Modell und die VC-Dimension zur Analyse der Generalisierungsfähigkeiten eines Lernalgorithmus.

Der Fokus der Vorlesung liegt dabei klar auf algorithmischen Aspekten - Statistik spielt in dieser Vorlesung keine entscheidende Rolle, obwohl sie ebenfalls eine der wesentlichen Grundlagen der modernen Datenwissenschaft und Datenanalyse ist.

Voraussetzungen

Diese Vorlesung ist sowohl an Bachelor als auch an Master Studentinnen und Studenten gerichtet.

Es werden keine besonderen Vorkenntnisse benötigt.

 

Organisatorisches

Die Vorlesung wird in Englisch gehalten.

Dozent

Martin Grohe

 

Klausur

Zum erfolgrichen Absolvieren der Vorlesung gehört das Bestehen der schriftlichen Klausur.
Die genauen Details zur Klausur sind im L2P angekündigt. Die Klausurtermine sind:

Donnerstag, 15. Februar 2018, 11:30 Uhr, 2350|111 (AH II)
Donnerstag, 22. März 2018, 11:30 Uhr, 2350|009 (AH I)

 

Literatur

S. Abiteboul, R. Hull, V. Vianu. Foundations of Databases. Addison Wesley 1995.

J. Hopcroft, R. Kannan. Foundations of Data Science. Unpublished, draft available online.

M. Kearns, U. Vazirani. An Introduction to Computational Learning Theory. MIT Press 1994.

J. Leskovec, A. Rajaraman, J. Ullman. Mining of Massive Datasets. Cambridge University Press 2014.

S.J. Russell, P. Norvig. Artificial Intelligence: A Modern Approach. 3rd Edition, Pearson 2014.