vdwh-logo

Data Solution Design Patterns

Implementierung und Automatisierung für ein flexibles Data Warehouse

Workshop mit Roelant Vos


Jetzt anmelden!


"Für ein Data Warehouse haben wir keine Zeit!"

... kommt Ihnen das bekannt vor?

Automatisierung und Codegenerierung ermöglichen eine schnellere und flexiblere Implementierung von Data Solutions. Lernen Sie den revolutionären Ansatz für eine vollständig automatisierte Lösung von Roelant Vos kennen.

  • Implementierung eines persistenten Rohdatenspeichers (PSA)
  • Anwendung hybrider Modellierungstechniken basierend auf Data Vault
  • Definieren robuster Muster für die Datenlogik, zu welchen sich der nötige Programmcode generieren lässt
  • Definieren eines Metadatenmodells für Automatisierung, Codegenerierung und Virtualisierung
  • Anwendung von DevOps, Test-, Orchestrierungs und Kontroll-Frameworks
  • Sicherstellen, dass die gelieferten Daten die Erwartungen der Kunden erfüllen

Diese praktische Schulung zur Konzeption und Implementierung vermittelt Ihnen alles, was Sie brauchen, um eine automatisierte Lösung von Anfang bis Ende aufzubauen und zu pflegen.


Was bietet Data Solution Automation?


Die Arbeit mit Daten kann komplex sein und oft ist die "richtige" Antwort für den jeweiligen Zweck das Ergebnis einer Reihe von Iterationen, bei denen Fachexperten (KMU) und Datenexperten zusammenarbeiten.

Dies ist von Natur aus ein iterativer Prozess. Selbst bei bestem Engagement und verfügbarem Wissen unterliegt das resultierende Datenmodell dem zunehmenden Verständnis, das mit der Arbeit mit Daten einhergeht.

Mit anderen Worten: Das Data Solution Modell ist nicht immer etwas, das man auf Anhieb richtig machen kann. In der Realität kann es lange dauern, bis sich ein Modell festigt, und in den heutigen schnelllebigen Umgebungen kann dies sogar nie eintreten.

Die Wahl der richtigen Design Patterns für Ihre Data Solution trägt dazu bei, dass sich die Lösung mit dem Unternehmen und der Technologie weiterentwickelt und die technischen Schulden laufend reduziert werden.

Diese Einstellung ermöglicht auch einige faszinierende Möglichkeiten, wie z. B. die Versionskontrolle des Datenmodells, der Design-Metadaten und ihrer Beziehungen - um die gesamte Datenlösung so darzustellen, wie sie zu einem bestimmten Zeitpunkt war - oder um verschiedene Datenmodelle für verschiedene Geschäftsbereiche zu ermöglichen.

Diese Idee, kombiniert mit der Möglichkeit, automatisch verschiedene Strukturen und Interpretationen von Daten sowie die Datenlogistik zu deren Befüllung oder Übermittlung bereitzustellen, nennen wir "Data Solution Virtualisierung".

Die Idee einer automatisierten virtuellen Data Solution entstand bei der Arbeit an der Verbesserung der Generierung von Data Warehouse Ladeprozessen. Es handelt sich gewissermaßen um eine Weiterentwicklung der ETL-Generierung. Die Kombination von Data Vault mit einer Persistent Staging Area (PSA) bietet zusätzliche Funktionalität, da sie es dem Entwickler ermöglicht, die gesamte Lösung oder Teile davon neu zu erstellen.

Die Möglichkeit, eine virtuelle Data Solution bereitzustellen, bietet mehrere Optionen. Das bedeutet nicht, dass Sie die gesamte Lösung virtualisieren müssen, aber Sie können auswählen, welcher Ansatz für das jeweilige Szenario am besten geeignet ist und Technologien und Modelle im Laufe der Zeit ändern.

Um Ideen wachsen zu lassen, brauchen Entwickler eine unmittelbare Verbindung zu dem, was sie gerade erschaffen. Das bedeutet, dass Sie als Entwickler in der Lage sein müssen, die Auswirkungen Ihrer Änderungen auf das, woran Sie gerade arbeiten, direkt zu sehen.

Das ist es, was die virtuelle Data Solution als Konzept und Denkweise ermöglichen soll: eine direkte Verbindung zu den Daten, um jede Art von Untersuchung zu unterstützen und Kreativität bei der Nutzung zu ermöglichen.

Bei der Virtualisierung von Data Warehousing geht es im Wesentlichen darum, dem Leitsatz zu folgen, eine direkte Verbindung zu den Daten herzustellen. Es geht darum, Wege zur Vereinfachung zu finden und weiterhin daran zu arbeiten, Barrieren bei der Bereitstellung von Daten und Informationen zu beseitigen. Es geht darum, Ideen zu ermöglichen, weil Daten für jede Art von Entdeckung oder Behauptung verfügbar gemacht werden können.

Virtuelles Data Warehousing ist die Möglichkeit, Daten direkt aus einem Rohdatenspeicher zu präsentieren, indem man Lademuster, Informationsmodelle und Architekturen des Data Warehouse nutzt. In vielen Data Warehouse-Lösungen gilt es bereits als Best Practice, Data Marts in ähnlicher Weise zu "virtualisieren". Das Virtuelle Data Warehouse geht diesen Ansatz noch einen Schritt weiter, indem es das gesamte Data Warehouse auf Basis der Rohdaten jederzeit (virtuell) umgestalten kann.

Erreicht wird diese Fähigkeit mit Hilfe eines historisierten Rohdatenspeichers, auch bekannt als Persistent Staging Area "PSA". Hier werden die ankommenden Daten durch Ermittlung des jeweiligen Deltas technisch komprimiert und können jederzeit vollständig wiederhergestellt werden. Diese Generierung dieser Prozesse kann allein auf Basis der technischen Metadaten vollständig automatisiert werden.

Ein virtuelles Data Warehouse ist nicht dasselbe wie Datenvirtualisierung. Diese beiden Konzepte sind grundsätzlich unterschiedlich. Datenvirtualisierung ist nach den meisten Definitionen die Bereitstellung eines einheitlichen direkten Zugriffs auf Daten über viele "unterschiedliche" Datenspeicher hinweg. Es ist eine Möglichkeit, auf Daten zuzugreifen und sie zu kombinieren, ohne sie physisch in andere Umgebungen verschieben zu müssen. Die Datenvirtualisierung konzentriert sich jedoch nicht auf Lademuster sowie Datenarchitektur und -modellierung.

Das Virtuelle Data Warehouse hingegen ist ein flexibler und überschaubarer Ansatz zur Lösung von Themen der Datenintegration und Zeitabweichung mit Hilfe von Data-Warehouse-Konzepten, der im Wesentlichen ein definiertes Schema-on-Read bietet.

Das virtuelle Data Warehouse wird durch die Kombination der Prinzipien der ETL-Generierung, hybrider Data Warehouse Modellierungskonzepte und eines Persistent Historical Data Store "PSA" ermöglicht. Es ist eine ideale Möglichkeit, direkten Bezug zwischen Rohdaten und Informationsbereitstellung für den Endanwender herzustellen, da Änderungen an den Metadaten und Modellen sofort in der Informationsbereitstellung abgebildet werden können. Das persitieren von Daten im Sinne eines traditionellen Data Warehouse ist jedoch immer noch eine Option und kann erforderlich sein, um die gewünschte Performance zu liefern. Der deterministische Charakter eines virtuellen Data Warehouse ermöglicht je nach Anforderung einen dynamischen Wechsel zwischen physischer und virtueller Struktur.

In vielen Fällen ändert sich dieser Mix aus physischen und virtuellen Objekten in den Data Warehouses im Laufe der Zeit. Ein guter Ansatz ist es, "virtuell zu starten" und zu persistieren wann und wo immer es notwendig oder sinnvoll ist.


Broschüre herunterladen

Ihr Trainer

Roelant Vos ist seit mehr als 20 Jahren im Bereich Data Warehousing und BI tätig und gilt seit vielen Jahren als erfahrener Experte in der Data Vault Community.

Seit mehr als 10 Jahren teilt er seine Ideen, Tipps und Gedanken in seinem Blog roelantvos.com.

Als Softwareentwickler, Berater, Trainer und Entscheidungsträger in der Unternehmenswelt hat Roelant das Datenmanagement aus verschiedenen Blickwinkeln betrachtet.

Das gemeinsame Merkmal war immer die Leidenschaft für Automatisierung, Codegenerierung, wiederverwendbare Schemata und modellgetriebenes Design - der Schlüssel, um Datenlösungen kontrollierbar und flexibel zu machen.

Sein Schwerpunkt liegt nun auf der Durchführung von Schulungen, der Beratung und der Entwicklung von Open-Source-Software, um die Bereitstellung von robusten Datenlösungen zu erleichtern. Im Rahmen dessen hat er die Data-Solution-Automation-Engine auf GitHub initiiert.

Sie wollen ...

  • erfahren, welche Art von Lösungsarchitektur eine flexible Datenbereitstellung unterstützt, die sich mit dem Unternehmen weiterentwickeln kann
  • die Konzepte hinter den wesentlichen Data Loading Patterns verstehen, welche Optionen in Frage kommen und wie diese zu implementieren sind
  • Generierungsmethoden für die Datenlogistik ("ETL") nutzen, um mehr Zeit für wertschöpfende Arbeiten wie Datenmodellierung und Verbesserung der Datenbereitstellung aufwenden zu können
  • an einem Do-It-Yourself (DIY) Date Solution Framework arbeiten oder haben ein Data-Warehouse-Automation-Produkt (DWA) eingeführt und sind jetzt auf der Suche nach einem tieferen Verständnis für die verwendeten Patterns und Modellierungsansätze
  • sich einen vollständigen Überblick über alle Komponenten verschaffen, die für eine robuste und kontrollierbare Data Solution erforderlich sind

    Der Workshop behandelt fortgeschrittene Modellierungs- und Implementierungstechniken und deckt ein breites Spektrum an Interessengebieten ab. Er ist daher nicht nur für BI- und ETL-Spezialisten geeignet, sondern auch für BI-Architekten, Datenmodellierer und Dateningenieure.

Voraussetzungen

  • Ausreichende Englischkenntnisse (Kurssprache ist Englisch)
  • Grundlegende Kenntnisse in Data Warehousing und Datenintegration
  • Gute SQL-Kenntnisse
  • Grundsätzliches Verständnis von Programmierung und einfachen Skripten
  • Erfahrung mit Datenmodellierungstechniken für Data Warehouse (Beispielsweise: dimensionale Modellierung, Data-Vault-Modellierung)

Ist der Kurs für mich relevant?

Durch die Anwendung von hybriden bzw. Ensemble Logical Model Mustern (z.B. Data Vault) auf der Grundlage einer Persistent Staging Area (PSA) - einer historisierten Aufzeichnung aller ursprünglichen Transaktionen - kann ein beispielloses Maß an Flexibilität bei der Implementierung und Pflege einer Datenlösung erreicht werden. Die sich wiederholenden Aspekte der Datenaufbereitung werden reduziert, und es wird einfacher, die Lösung an die sich ständig ändernden geschäftlichen und technischen Anforderungen anzupassen.

Diese Muster sind augenscheinlich einfach - fast schon täuschend einfach. Tatsächlich aber erfordert jedes Muster umfassende Überlegungen auf technischer und konzeptioneller Ebene, um den Erwartungen des Unternehmens gerecht zu werden.

Die Data Vault-Modellierung bietet elegante Möglichkeiten zur Bewältigung der Komplexität, dennoch hängt der Erfolg von der korrekten Modellierung der Daten und der richtigen Anwendung der Muster ab. Die Nutzung von Datenlogistik ("ETL"), Generierung und Virtualisierungsverfahren ermöglicht ein hohes Maß an Flexibilität, da Sie verschiedene Modellierungsansätze schnell umgestalten und testen können, um herauszufinden, welcher Ansatz für Ihren Anwendungsfall am besten geeignet ist.

So haben Sie mehr Zeit für wertschöpfende Arbeiten, wie die Optimierung der Datenmodelle und die Bereitstellung der Daten.

Diese fortgeschrittene Schulung ist für jeden relevant, der verstehen möchte, wie man "modellgetriebenes Design" und "musterbasierte Codegenerierung" einsetzt, um die Entwicklung zu beschleunigen. Der Inhalt richtet sich an eine Vielzahl von Datenexperten, darunter Data Warehouse-Spezialisten, Datenmodellierer und -architekten sowie Dateningenieure und Datenintegrationsentwickler.

Flexibles Design und Implementierung

Ziel der Schulung ist es, die Architektur und die Konzepte für eine flexible Datenlösung zu vermitteln, wobei der Schwerpunkt darauf liegt, so schnell wie möglich in die Muster und praktischen Implementierungstechniken einzutauchen.

Um dies zu ermöglichen, wird in der Schulung die Implementierung der wichtigsten Data Vault-Modellierungskonzepte einschließlich ihrer verschiedenen Sonderfälle und Aspekte erörtert. Die Mechanismen zur Bereitstellung von Informationen für die Nutzung durch Fachanwender (zum Beispiel “Marts") werden ebenfalls erläutert - einschließlich der Details, wie die "richtigen" Informationen durch die Implementierung von Geschäftslogik und die Verwaltung mehrerer Zeitlinien für die Berichterstattung ("bitemporal") erzeugt werden können.

Die Schulung stellt Werkzeuge und Konfigurationen zur Verfügung, mit denen Sie Ihre eigene Entwicklung automatisieren können - oder Sie lernen die Ansätze kommerzieller Standardsoftware kennen, damit diese voll genutzt werden können.

Trainingsinhalte und Zeitplan

Tag 1

  • Grundlagen des modellgetriebenen Designs
  • Datenarchitektur
  • Data Staging-Konzepte
  • Modellierungskonzepte
  • Einführung in Design-Metadaten
  • Codegenerator

Tag 2

  • Natural Business Relationships-Muster
  • Kontext-Muster
  • Historisierung
  • Technische Überlegungen
  • Zeitplanung, Workflows und Parallelität
  • Kontinuierliches Laden
  • DevOps und Versionierung

Tag 3

  • Temporality-Konzepte
  • Datenbereitstellung für die Fachanwender
  • Anwendung der Geschäftslogik
  • Vervollständigung der Lösung

Workshopübersicht herunterladen

Praktischer Anteil

Im Rahmen des Workshops gibt es die Möglichkeit direkt mit einigen der nötigen Frameworks zu arbeiten um eine robuste, flexible und einfach zu verwaltende Lösung aufzubauen. Dies geschieht im Rahmen kleiner Übungen während der geplanten Workshopzeiten.

In diesen Übungen wir der Microsoft Stack verwendet (SQL Server, Windows), aber der Inhalt und die Vorlagen lassen sich problemlos auf andere Umgebungen übertragen.

Im Rahmen der Übungen werden wir folgende Themen behandeln:

  • Aufsetzen einer neuen Automatisierungsumgebung
  • Definitionen von Source-to-Target-Mappings
  • Generierung von Code und
  • Ausführung und Testen der Lösung

Benötigte Software

Im Rahmen der praktischen Übungen nutzen wir die folgenden Programme:

Wir werden die nötige Software im Rahmen des Workshops gemeinsam einrichten.

Weltweit verfügbar

Offene Workshops werden regelmäßig weltweit angeboten, Sie können unseren Workshop aber auch in-house nur für Ihre Mitarbeiter buchen, dann passen wir die Inhalte auf Wunsch Ihren Bedürfnissen an. Gerne verabreden wir mit Ihnen auch Remote-Termine, bei denen wir die Inhalte des Workshops für Sie anpassen und auf mehrere Sessions verteilen können. Weitere Infos finden Sie weiter unten oder kontaktieren Sie uns gerne.

Termine & Preise

Coaching
  • Flexibles Coaching und Qualitätssicherung
    für Einzelpersonen oder kleine Teams
  • info@dwhpatterns.com
Preis auf Anfrage
Inhouse
Preis auf Anfrage

Termine & Anmeldung





Gerne stehen wir bei weiteren Fragen zu Ihrer Verfügung:

info@dwhpatterns.com


Copyright: Roelant Vos

Impressum | Datenschutz | Bildquellen