Menu

In mijn vorige blog heb ik het gehad over de groei naar volwassenheid op het gebied van Business Intelligence (BI). Waar bevindt je organisatie zich en hoe kun je je verbeteren op dat gebied. In deze blog wil ik inzoomen op de technieken die je kunt gebruiken.

Datawarehousing is het onderbrengen van allerlei soorten data in één systeem. Stel je voor: je gooit allerlei gegevens uit een bedrijf op één grote hoop. Klantgegevens, de boekhouding, gegevens uit het magazijn en personeelsgegevens. Zie daar maar eens managementinformatie van te maken. Pas als je al die data in één systeem onderbrengt, wordt het mogelijk die data te analyseren en te gebruiken bij het nemen van beslissingen. Computerwetenschapper Bill Inmon, één van de grondleggers van datawarehousing, gebruikte de volgende definitie: ‘Datawarehousing is een onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevensverzameling met als doel het maken van managementinformatie.’ Maar hoe werkt dat dan?

Verschillende methodes

Er zijn verschillende methodes om een datawarehouse te ontwikkelen. Van oudsher hebben we de methode van Inmon en de methode van Kimball, een andere grondlegger van de moderne datawarehouse-architectuur. Beiden gaan uit van een centrale opslag van data die met behulp van ETL-technieken worden geladen vanuit een of meerdere bronsystemen. ETL staat voor extraheren, transformeren en laden: extraheren van data uit een externe bron, transformeren tot een bruikbaar formaat en het laden in het datawarehouse.

De Inmon-methode: top-down

De methode van Inmon gaat uit van een top-down-aanpak. Zijn zogenaamde ‘corporate-data-model’ begint met het neerzetten van een overkoepelende structuur die de basis vormt voor het datawarehouse. De opbouw van zo’n datawarehouse is complex en niet geschikt voor rapportagedoeleinden. Daarvoor dienen datamarts. Een datamart is een dataset geoptimaliseerd voor rapportage en analytics en dient vaak voor een specifieke afdeling of domein.

Voor- en nadelen van de Inmon-methode

Bij de Inmon-methode bevat het datawarehouse een versie van de waarheid, krijg je inzicht in het businessproces doordat dit de basis vormt voor het model. Ook is de methode flexibel omdat aanpassingen maar op een plek plaatsvinden. Een nadeel kan zijn dat het model en de implementatie ervan erg complex kan worden in de tijd. Bovendien kan de initiële set-up en de implementatie kan lang duren. Dit moet gemanaged worden.

De Kimball-methode: bottom-up

Kimball was de eerste die met een alternatief kwam voor de methode van Inmon. Kimball’s beginpunt was namelijk niet een gestandaardiseerd datawarehouse, maar zijn methode focust eerst op de dataverzameling. Hij start met het definiëren van de belangrijkste businessprocessen en het inventariseren van de vragen die het datawarehouse moet beantwoorden. Vervolgens worden de relevante bronsystemen geanalyseerd en beschreven. Door middel van ETL-technieken wordt de data uit het bronsysteem in een staging-database geplaatst – een soort landingsplaats voor data. Daarna wordt die data in een datawarehouse doorgezet. Het datawarehouse volgens Kimball is gemodelleerd als een stermodel (dimensioneel model), terwijl Inmon een ander genormaliseerd model (3NF) adviseert. Het stermodel van Kimball wordt direct gebruik voor rapportages en analyses. Er is dus geen extra ‘datamart’-laag.

Voor- en nadelen van de Kimball-methode

Bij de Kimball-methode is het mogelijk de eerste fase relatief snel op te leveren, de performance is goed en het is goed te beheren in een klein team. Bovendien is een stermodel eenvoudig door de business te begrijpen; de meeste BI-tools werken met feiten en dimensies. Helaas is deze methode niet heel enterprise-georiënteerd, maar meer gericht op businessprocessen. Daarbij is één versie van de waarheid moeilijk af te dwingen en is het niet heel flexibel bij het wijzigen van het model, bijvoorbeeld als de feitentabel uitgebreid moet worden.

Data vault

De data vault is een andere manier van datawarehousemodelleren, eind jaren ‘90 ge?ntroduceerd door Dan Linstedt. Data vault wordt toegepast als enterprise-datawarehouse-oplossing. Een belangrijk verschil met Inmon en Kimball is dat men het concept ‘één versie van de waarheid’ loslaat. Als bedrijfsprocessen in de loop der tijd veranderen dan is dit binnen het data-vault-concept geen probleem. Bij Inmon en Kimball wel, omdat daar de data in het datawarehouse als business georienteerd is. Bij data vault worden alle feiten opgeslagen, met een een paar extra parameters. Dit betekent dat de kwaliteit van de data voornamelijk beheerd wordt bij de bron. Een goede uitleg over hoe data vault wordt gemodelleerd bewaar ik graag voor een later moment.

Meer weten?

Heb je vragen of ideeën? Of borrelt er iets maar kun je er nog niet helemaal de vinger op leggen? Aarzel niet - bel ons, mail ons, en we denken mee. Kunnen we er volgende keer weer iets moois over schrijven.

Frank Huning

Tecknoworks Nederland BV

Pascalstraat 13H | 2811 EL Reeuwijk | Nederland

T: +31 (0)881 182 200 | M: +31 (0)6 28 9090 13

E: frank.huning@tecknoworks.com| W: www.tecknoworks.com

comments powered by Disqus

Let's write our story!

We don't just write code, we write stories! Working with us is fun, inspiring and good for business!