Wanneer je werkzaam bent in het vakgebied van Data Governance is het waarschijnlijk dat je met verschillende tools en terminologie wordt geconfronteerd die zichzelf niet verklaren. Deze tools en termen laten niets aan de verbeelding over. In deze blogreeks zullen we onderwerpen behandelen en op een laagdrempelige manier uitleggen. Deze week richten we ons op data warehouses, data lakes, en data lakehouses.

Introduction

Organisaties gebruiken processen om producten en diensten te creëren en te leveren aan hun klanten. In deze processen wordt data gecreëerd en aangepast. Denk hierbij aan een ziekenhuis dat patiëntgegevens moet opzoeken, of de data van een verzekeraar die aanvragen van financiële transacties moet indienen. Deze gegevens worden regelmatig gebruikt en moeten met één vingerknip beschikbaar zijn. Het snel kunnen vinden, opvragen, en opslaan van relevante gegevens is voor veel bedrijven essentieel. De computersystemen die deze bedrijfsprocessen ondersteunen, moeten worden geoptimaliseerd om de nodige prestaties te leveren.

Transactiesystemen zijn geoptimaliseerd om afzonderlijke gegevens te vinden, op te vragen, en op te slaan.

Anderzijds hebben organisaties informatie nodig om de juiste strategieën te kiezen, bedrijfsprocessen te optimaliseren, en consumentengedrag te voorspellen. Om deze inzichten te verschaffen worden management dashboards en rapporten gecreëerd ter ondersteuning van het management. Deze processen hebben verschillende systemen nodig, namelijk systemen die in korte tijd grote hoeveelheden gegevens kunnen verwerken en in staat zijn grote getallen te kraken. De opslag van deze enorme hoeveelheid gegevens moet tevens goedkoper zijn dan de transactionele tegenhanger ervan.

Gegevensopslagsystemen zijn geoptimaliseerd om grote hoeveelheden gegevens tegelijk te verwerken.

Verschillende opties zijn nodig voor gegevensopslag: data warehouses, data lakes, en data lakehouses.

Data warehouse

De naam data warehouse is al een mooie analogie; het is een plaats waar gegevens worden opgeslagen. Een magazijn verschilt van een winkel: in een winkel ligt de focus op het zoeken, verkopen, en leveren van individuele producten. In een magazijn zijn producten in bulk opgeslagen, en worden ze in bulk verplaatst, meestal voor een langere periode. Hetzelfde is het geval voor de data variant. In transactionele systemen (de systemen die de organisatie helpen hun producten en diensten te leveren), individuele data cases worden gevonden, gewijzigd, en opgeslagen op een snelle en gestructureerde manier. In een data warehouse wordt dezelfde data opgeslagen voor langere tijdsperiodes. Data warehouses worden ook gebruikt om snapshots van data op te slaan. Ze zijn een geweldige basis om te rapporteren en een goed beginpunt om gedetailleerde analyses uit te voeren. Data warehouses omvatten gestructureerde data, bijvoorbeeld data die gemodelleerd en gedefinieerd worden op een gestructureerde manier. Door het gestructureerde karakter heeft een data warehouse een uitzonderlijke technische architectuur voor onderhoud.

Data warehouse

Data lake

De term data lake is iets minder vanzelfsprekend. In een data lake is gestructureerde-, en niet gestructureerde data opgeslagen. Wat gestructureerde data is, is eerder uitgelegd. Voorbeelden van niet gestructureerde data zijn: tekst, afbeeldingen, pdf’s, Excel bestanden, Word documenten, CSV’s, en Json. Een van de belangrijke voordelen van een data lake is dat het zeer flexibel is met het type gegevens dat wordt opgeslagen, evenals het volume van deze gegevens. De belangrijkste gebruikers van het data lake zijn de AI- & data science projecten die data verwerken van groot volume (Big Data). Een van de nadelen van een data lake is dat men gemakkelijk kan verdwalen in de enorme hoeveelheid en variëteit aan data die in een data lake is opgeslagen, resulterend in een data swamp! Het vinden van data, het begrijpen van de betekenis van de data, en het vertrouwen op de kwaliteit van de data in kwestie is een grote uitdaging in data lakes.

Data lake

Data lakehouse

Dit is waar het data lakehouse in het plaatje past. In zijn basis is het een data lake, dus kan het profiteren van dezelfde voordelen. Om de nadelen van het data lake te op te vangen, wordt het data lakehouse uitgebreid met functies om de opgeslagen data te vinden en te begrijpen. Bovendien heeft het data lakehouse een verbindingspunt waar gegevensbronnen op dezelfde universele manier kunnen worden benaderd, waardoor het gemakkelijker wordt om met de gegevens te interacteren.

Data lakehouse

Ben je enthousiast of nieuwsgierig geworden naar onderwerpen op het gebied van Data Governance? Bij Clever Republic delen we graag onze gedachten over het verbinden van data met systemen, processen, mensen en beleid. Neem gerust contact met ons op, we beantwoorden graag al uw vragen.