Data Science hat man nun wohl doch schon häufiger mal gehört; aber Data Engineering?
Data Engineering vs. Data Science
Ganz offensichtlich ist der Erfolg eines Data Scientists nur so gut wie die Daten, auf die er zugreifen kann. Daten gibt es überall – so auch in Unternehmen – und in den verschiedensten Formaten. Sie werden gesammelt in Datenbanken oder Textdateien.
Und hier kommt Data Engineering ins Spiel. Denn ein Data Engineer baut sog. Pipelines, welche genau diese Daten in Formate umwandeln, die der Data Scientist verwenden kann. Daher sind Data Engineers sind zwar ebenso wichtig wie Data Scientists, aber häufiger weniger sichtbar. Sie sind diejenigen, die weit vom Endprodukt der Analyse entfernt sind und bereiten Big Data vor.
Rennwagen – bauen oder fahren?
Ein Rennwagenfahrer hat das zwar immer Vorrecht, gegen seine Konkurrenten auf der Strecke anzutreten und zu fahren. Er ist der Sieger, der vom und vor dem Publikum gefeiert wird. Jedoch ist es der Konstrukteur, der die Motoren zu Hochleistungen bringt. Verschiedene Abgasanlagen werden ausprobiert und alles so weit optimiert, bis der Fahrer eine leistungsstarke, robuste Maschine fahren kann.
Was ist Data Engineering?
Was aber optimiert Data Engineering? Ein Dateningenieur bereitet Daten für analytische oder betriebliche Zwecke auf; dazu zählt u.a. der Aufbau von Datenpipelines, um Informationen aus verschiedenen Quellsystemen zusammenzuführen. Sein Fokus liegt außerdem auf der Integration, Konsolidierung und Bereinigung von Daten. Ebenso konzentriert er sich auf deren Strukturierung für den Einsatz in einzelnen Analyseapplikationen.
Data Engineers befassen sich also i.d.R. einerseits mit strukturierten Daten und andererseits mit unstrukturierten Datensätzen. Aus diesem Grund müssen ihnen die unterschiedlichsten Ansätze der Datenarchitektur und -anwendung bekannt sein. Zudem sind eine Vielzahl von großen Datentechnologien, wie beispielsweise eine konstant steigende Auswahl an Open-Source-Datenerfassungs- und Verarbeitungs-Frameworks, im Werkzeugkasten des Data Engineers enthalten.
Data Engineers als Bindemittel
Data Engineers sind das Bindeglied zwischen der Big Data und Data Scientists. Dank ihrer konstruierten Plattformen ermöglichen sie es den Datenwissenschaftlern alle Informationen verarbeiten zu können