Integration eines Hadoop-Systems in die bestehende klassische Business Intelligence (BI) Landschaft
Kurzbeschreibung
Im Rahmen des Projektes zur Modernisierung der Business-Intelligence / Data Warehouse Landschaft ist ein Konzept zur Datenbewirtschaftung, -haltung und -auswertung auf Grundlage eines Hadoop-Systems erforderlich. Es soll hierbei u.a. berücksichtigt werden, wie sich ein Hadoop-System optimal in die bestehende BI Landschaft des Kunden integrieren lässt.
Ergänzung
Die bestehende BI-Infrastruktur bestehend aus einem Teradata Enterprise Data Warehouse mit ETL-Strecken (Extract, Transform, Load) abgebildet in Oracle Data Integrator soll um ein Hadoop-System erweitert werden. Hierzu sind Konzepte für Datenbewirtschaftung, -haltung und -auswertung notwendig, die sich von klassischen Ansätzen unterscheiden. Dies umfasst u.a. die Evaluation und Auswahl geeigneter Knowledge-Module des Oracle Data Integrators hinsichtlich der Datenbewirtschaftung, eines geeigneten Datenformats (Avro, CSV, JSON, ORC, Parquet) und Kompressionsverfahrens (Snappy, Zlib) hinsichtlich der Datenhaltung und einer geeigneten SQL-Engine (Hive/Tez, Presto, Spark) hinsichtlich der Datenauswertung.
Fachbeschreibung
Hadoop ist ein in Java programmiertes Software-Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten können. Applikationen können mit Hilfe von Hadoop komplexe Computing-Aufgaben auf tausende von Rechnerknoten verteilen und Datenvolumina im Petabyte-Bereich verarbeiten, so das Versprechen der Entwickler.(Quelle: https://www.computerwoche.de/a/hadoop-der-kleine-elefant-fuer-die-grossen-daten,2507037)