Dies ist eines von 4636 IT-Projekten, die wir erfolgreich mit unseren Kunden abgeschlossen haben.

Wobei dürfen wir Sie unterstützen?

Weißes Quadrat mit umrandeten Seiten rechts oben

Entwickeln komplexer Data Pipelines mit Argo Workflows

Projektdauer: 2 Jahre, 1 Monat

Kurzbeschreibung

Ziel des Projektes ist die Befähigung eines Data-Science Teams zum eigenständigen Aufbau und Betrieb von Data-Pipelines zur Abbildung komplexer ETL/ELT Prozesse unter Verwendung von Argo Workflow Engine. Die Entwicklung findet zunächst auf einer Cloud-Infrastruktur statt und wird dann mit den gesammelten Erfahrungen in einer Cloud Native Lösung fortgesetzt. Die PTA verantwortet sowohl die Installation und den Betrieb einer Zwischenlösung auf Basis eines Single-Node Systems als auch die geplante Migration zu einem Cloud Service der Google Cloud Platform (GCP).

Ergänzung

Die PTA unterstützt den Kunden bei der Installation aller relevanter Systemkomponenten (Docker, Minikube, Argo Workflows, MinIO) im Sinne eines Testsystems. Voraussetzung um Argo Workflows zu installieren ist eine Kubernetes Distribution. Hierzu werden Docker und die Single-Node Kubernetes Distribution 'Minikube' auf einer dedizierten virtuellen Maschine (VM) installiert. Zusätzlich wird MinIO als cloud-kompatibler Object Store auf der VM installiert und bietet somit die Möglichkeit des Datenaustauschs zwischen den Verarbeitungseinheiten (Steps) eines Workflows. Außerdem entwickelt die PTA gemeinsam mit dem Kunden produktive Data-Pipelines bzw. ETL/ELT Prozesse unter Nutzung von Argo Workflows. Nach erfolgreichen Tests von Argo Workflows verantwortet die PTA die Migration der Workflow-Engine in die Google Cloud unter Nutzung der Google Kubernetes Engine (GKE).

Fachbeschreibung

Anfragen aus den Fachbereichen erfordern oftmals das Entwickeln komplexer Data-Pipelines, welche sich mit gängigen ETL/ELT Tools wie z. B. Oracle Data Integrator nur schwer realisieren lassen. Das Orchestrieren von Verfahren aus dem Bereich Data-Science zu komplexen Workflows benötigt häufig die Flexibilität bei der Entwicklung, welche klassiche ETL/ELT Tools selten bieten. Aus diesem Grund hat sich der Kunde für 'Argo Workflows' entschieden. Argo Workflows ist eine Container-native Open-Source-Workflow-Engine zur Orchestrierung paralleler Jobs auf Kubernetes. Mit Argo Workflows können Prozessabläufe (Workflows) definiert werden, bei denen jeder Schritt (Step) im Workflow ein Container ist. Dies ermöglicht Workflows zu entwickeln, deren Steps unterschiedlichste Versionen von Bibliotheken oder Technologien nutzen. Mit Argo Workflows können außerdem mithilfe gerichteter azyklischer Graphen (DAG) mehrstufige Workflows als Abfolge von Schritten modelliert werden inkl. ihrer Abhängigkeiten untereinander.

Überblick

Projektzeitraum01.06.2021 - 30.06.2023