Data Science Studium & Data Science Arbeit
Forschung von Data Science Machine Learning vs. Implementierung von Machine Learning
Im Data Science Studium liegt der Fokus oft auf dem theoretischen Wissen hinter den Methoden des maschinellen Lernens (Machine Learning, ML). Als Student beschäftigt man sich intensiv mit der Mathematik hinter den Algorithmen und den statistischen Konzepten, die damit einhergehen. Das ist besonders im Bereich der Forschung in Data Science von großer Bedeutung. Es ist eine fundierte Theorie erforderlich, um neue Modelle zu entwickeln oder bestehende zu verbessern.
In der Arbeitswelt sieht die Realität jedoch anders aus. Hier geht es nicht nur darum, neue ML-Algorithmen zu erforschen. Vielmehr geht es um die Implementierung und Anwendung bestehender Methoden. In vielen Projekten ist es für die Lösung von Business Problemen entscheidend, ML Modelle schnell und effizient auf reale Daten anzuwenden. Der effizienteste Weg ein neues Modell aufzusetzen ist es, eine Library (z.B. Pytorch für NN-Modelle) von bereits implementierte Modellen zu verwenden. Somit muss man als Data Scientist das Modell nur noch konfigurieren und nicht ganz von Anfang programmieren. Wenn du mehr über Sprachmodelle wissen möchtest, ist vielleicht auch der Artikel zum Thema Sprachmodelle für dich interessant.
Data Science ist ein eher neuer Studiengang
Data Science ist ein relativ neuer Studiengang, der erst in den letzten Jahren überhaupt an die meisten Universitäten gekommen ist. Während klassische Disziplinen wie Informatik oder Mathematik schon seit Jahrzehnten etabliert sind, ist Datenwissenschaften noch in der Entwicklung. Das führt dazu, dass Studiengänge nicht immer auf die spezifischen Anforderungen des Arbeitsmarktes abgestimmt sind. Ein Data Science Studium kann eine solide Grundlage in Statistik, Programmierung und Machine Learning bieten. Die praktische Anwendung dieser Fähigkeiten ist jedoch nicht immer vollständig abgedeckt.
Viele Hochschulen und Universitäten bieten mittlerweile spezialisierte Programme an. Aber aufgrund der dynamischen Entwicklung des Feldes können einige Bereiche, wie z.B. die praktische Implementierung von Modellen oder die Nutzung aktueller Tools und Technologien, in der Ausbildung zu kurz kommen. Das bedeutet, dass sich Absolventen nach dem Studium oftmals weiterbilden müssen, um den Anforderungen der Praxis gerecht zu werden.
Cloud ist oftmals ein wichtiger Aspekt, aber nicht unterrichtet an Universitäten
Ein Paradebeispiel für ein sehr wichtigen Aspekt im Data Science Workflow ist die Verwendung einer Cloud. Die Cloud bietet die Möglichkeit mit großen Datenmengen zu arbeiten, ohne dass eine umfangreiche lokale Infrastruktur erforderlich ist. Plattformen wie AWS, Google Cloud oder Microsoft Azure sind in vielen Unternehmen unverzichtbar geworden. Mit diesen Technologien können Data Science Projekte aller Art umgesetzt werden.
Im Data Science Studium wird die Verwendung einer Cloud nicht (oder sehr selten) unterrichtet. Dies führt dazu, dass viele Absolventen zwar gute theoretische Kenntnisse besitzen, jedoch Schwierigkeiten haben, in realen Projekten mit Cloud-Umgebungen zu arbeiten. In der Praxis sind Cloud-Kompetenzen jedoch entscheidend, um Projekte im richtigem Rahmen umzusetzen.
Data Science ist mehr als nur Modellbau
Ein weiteres Missverständnis, das oft im Zusammenhang mit Data Science besteht, ist die Vorstellung, dass es ausschließlich um den Bau von Vorhersagemodellen geht. In Wahrheit ist der datenwissenschaftliche Prozess viel umfassender und erfordert auch Kompetenzen in anderen Bereichen, wie Data Engineering oder ML Ops. Data Engineering behandelt zum Beispiel Fragen wie „Wo kommen meine Daten her?“, „Wie kann ich diese automatisiert in mein Modell fließen lassen?“, „In welchem Format sind die Daten, muss ich erst Transformationen anwenden?“ und noch vieles anderes. ML Ops ist das Gebiet, welches sich z. B. mit der Bereitstellung von Modellen (an Endpunkten) und deren iterativem Neutrainieren beschäftigt. Dies sind essenzielle Faktoren und Themen, welche die Umsetzung eines Data Science Projektes ausmachen. Ein Modell allein reicht nicht, um ein derartiges Projekt erfolgreich im Unternehmen umzusetzen. Im Studium liegt der Fokus häufig aber auf der Modellierung, da dies der „glamouröse“ Teil der Arbeit ist. Die Daten werden meist mitgegeben und sind auch schon in einem schönen Format, welches für das Erstellen eines Modells ideal ist, aber leider im Unternehmenskontext selten der Fall.
Aufgaben von Data Scientists
Ein weiterer Unterschied zwischen dem Studium und der Arbeit in der Data Science ist die Teamdynamik. Im Studium arbeitet man häufig in Einzelprojekten oder kleinen Gruppen. Die Aufgaben sind oft auf spezifische Teilbereiche oder meist auf die Modellerstellung fokussiert. In der Praxis variiert jedoch die Teamstruktur je nach Unternehmen und Projektgröße erheblich. In großen Unternehmen gibt es oft spezialisierte Rollen für Data Scientists, Data Engineers und Machine Learning Engineers. Hier konzentrieren sich die einzelnen Rollen auf unterschiedliche Aspekte des Prozesses.
In kleinen Unternehmen, Startups oder Unternehmen, die erst ein neues Data Team aufbauen wollen, ist es hingegen häufig erforderlich, dass ein Data Scientist eine breite Palette von Aufgaben übernehmen kann. Manchmal muss man nicht nur Modelle entwickeln, sondern auch die Datenarchitektur aufbauen, Features erstellen, die Ergebnisse kommunizieren und sogar in die Produktion bringen. In solchen Umfeldern ist eine breite Kompetenz und Flexibilität gefragt. Das bedeutet, dass Data Scientists in der Praxis (zumindest in kleinen Teams) oft mehr Verantwortung übernehmen müssen und weniger auf das spezialisierte Fachwissen einzelner Disziplinen angewiesen sind.
Fazit
Das Studium im Bereich Data Science bietet eine solide theoretische Grundlage, die für die Arbeit in der Branche von entscheidender Bedeutung ist. Doch die reale Arbeitswelt fordert oft zusätzliche Fähigkeiten und praktische Erfahrungen, die im Studium nur zum Teil vermittelt werden. Insbesondere die Implementierung von Machine Learning, der Umgang mit Cloud-Technologien und die Bedeutung von Data Engineering und ML Ops sind in der Praxis genauso wichtig wie das theoretische Wissen (wenn nicht sogar wichtiger).
Wer in datenwissenschaftlichen Bereich arbeiten möchte, muss nicht nur ein tiefes Verständnis für die Theorie der Algorithmen haben, sondern auch in der Lage sein, komplexe Datenarchitekturen zu verstehen, zu bauen und zu optimieren. Dies bedeutet, dass Data Scientists (wie in der Informatik üblich) kontinuierlich dazulernen müssen, besonders am Anfang der Arbeitskarriere.