Big Data im Banking

Eine Bank verfügte über ein bestehendes Data Warehouse auf Basis von Hadoop und zahlreichen SAS-Komponenten, das jedoch nicht alle erforderlichen Funktionen und Features enthielt, um die datengesteuerte Entscheidungsfindung im Unternehmen zu unterstützen, bzw. Fachanwendern entsprechende Daten in notwendiger Geschwindigkeit und Qualität zur Verfügung zu stellen. Das Unternehmen entschied sich daher dafür, das bestehende DWH um verschiedene Features zu erweitern.

Es wurden vorgelagerte Ladeinstanzen hinzugefügt, um sicherzustellen, dass die Daten korrekt bereinigt und strukturiert werden, bevor sie in das DWH geladen werden. Dies half, die Datenqualität zu verbessern und Fehler in den Daten zu minimieren. Die Ladeschicht (auch als „Staging Layer“ bezeichnet), ist für ein Data Warehouse ist ein wichtiger Bestandteil, der dazu dient, Daten aus verschiedenen Quellen zu sammeln und vorzubereiten, bevor sie in das Data Warehouse geladen werden. Die neue Ladeschicht besteht dabei aus mehreren Schritten, die aufeinander aufbauen, um die Daten im Vorfeld zu bereinigen und in das benötigte Format zu bringen. Zu Beginn wurden die Rohdaten aus verschiedenen Quellen extrahiert, wie Datenbanken, Log-Dateien sowie CSV-Dateien und Webdiensten.

Im ersten Schritt wurden die Rohdaten validiert, um sicherzustellen, dass sie vollständig und korrekt sind. Dies wurde durch die Überprüfung von Schlüsselwerten, Datentypen, Datenformaten und der Anwendung von Geschäftsregeln durchgeführt.

Daraufhin wurden die Rohdaten bereinigt, um Fehler, Duplikate, leere Felder oder ungültige Werte zu entfernen. Hierbei wurden auch Fehlerkorrekturen oder Ergänzungen vorgenommen. Ebenfalls wurden die bereinigten Daten in das benötigte Format gebracht, durch die Zusammenführung von Daten aus verschiedenen Quellen, das Umwandeln von Datentypen und die entsprechende Anwendung von Transformationsregeln.

Die vorbereiteten Daten wurden teilweise aggregiert, um statistische Informationen zu generieren und um das Datenmodell des Data Warehouses anzupassen.

Schließlich wurden die vorbereiteten Daten in das HDFS geladen.

Insgesamt diente die neue Ladeschicht dazu, dass die Daten im Data Warehouse von hoher Qualität sind und für die Analyse und Berichterstellung geeignet sind. Durch die Bereinigung und Vorbereitung der Daten im Vorfeld konnten Fehler vermieden, die Performance des Data Warehouses verbessert und die Effektivität der Analyseprozesse gesteigert werden.

Teil des Projekts war die Erstellung von Reports mit Hilfe von Tableau, um die geladenen Daten anzuzeigen und qualitativ zu kontrollieren. Dies ermöglichte es den Nutzern, die Daten schnell zu visualisieren und auf Abweichungen zu prüfen, um Probleme schnell zu identifizieren und zu lösen.

Ein weiteres wichtiges Feature war die Ablösung von SAS Komponenten und Reports und Integration in Python-basierte Lösungen. Dies ermöglichte es dem Unternehmen, effizienter zu arbeiten und Zeit und Ressourcen zu sparen.

Um diese Erweiterungen zu implementieren, wurde Hadoop und Pyspark verwendet. Hadoop ist ein Open-Source-Framework, das die verteilte Speicherung und Verarbeitung großer Datensätze auf Clustern von Computern ermöglicht. Pyspark ist eine Python-Bibliothek, die auf Apache Spark aufbaut und eine einfache Schnittstelle zur Verarbeitung großer Datensätze auf Hadoop bereitstellt.

Durch die Implementierung dieser Erweiterungen konnte die Datenqualität verbessert und die Datenvisualisierung und Kontrolle optimiert werden. Das Unternehmen konnte datengesteuerte Entscheidungen schneller treffen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert