Menu

Big Data gaat ons leven veranderen. Maar hoe precies? Die vraag kan denk ik nog niemand 123 beantwoorden. Om een stukje dichterbij dat antwoord te komen, gaan wij onze ervaringen delen in deze blog. Soms heel praktisch, soms met wat meer theorie; soms bekeken vanuit de techniek, soms vanuit een business-perspectief. Maar we beginnen natuurlijk… bij het begin.

Er hebben zich veel lezers aangemeld voor onze blog, en dat is natuurlijk fantastisch. Maar al die mensen hebben een verschillend kennisniveau en verschillende interesses als het gaat om Big Data. Dus ben je al een power user van Excel of databaseprogramma's en weet je al heel veel van dit onderwerp, dan vragen we je een heel klein beetje geduld. We duiken vanzelf dieper de data in. En voor diegenen die niets (willen) begrijpen van databases en machine-learning-algoritmes: we zullen ook business cases behandelen. En het beste nieuws is misschien wel dat we ook verzoeknummers doen! Dus mocht je een specifieke vraag hebben die je hier beantwoord zou willen zien, aarzel dan niet om ons te mailen! Mag van alles zijn!

How Big Is Big?

De term Big Data is in de jaren ‘90 populair geworden. Op dat moment werd de term vooral gebruikt om datasets aan te duiden die zo groot en complex waren, dat de toenmalige databases en analysetools er niet goed mee om konden gaan. Maar wat in de jaren ‘90 big was, stelt tegenwoordig vaak niet veel meer voor. Ondanks het feit dat opslaan en bewerken van grote datasets eenvoudiger en goedkoper is geworden, zijn we toch de term Big Data blijven hanteren. Tegenwoordig bedoelen we er eigenlijk elk soort (voorspellende) analyse mee die van een of meer datasets waardevolle informatie weet te maken. Het gaat allang niet meer om de grootte van de dataset, maar meer om de methodes die we gebruiken om de data te analyseren.

De fases in een Big-Data-oplossing in het kort

1. Data sources:
Hier wordt de data gegenereerd. Meestal gaat het om transactionele data (zoals sales), klikgedrag op websites, e-mails, data verzameld door sensoren, GPS-trackers etc.
2. Integratie:
De fase waarin de brondata verplaatst wordt, en soms getransformeerd om het beter te kunnen opslaan, bijwerken en bewerken
3. Data stores:
De databases waar de analyse uitgevoerd wordt. We gebruiken hiervoor databases die speciaal zijn ingericht voor analyse, waardoor het efficiënter wordt en we de bronsystemen niet te hoeven verstoren met het bevragen voor analyse.
4. Analytische methodes en technieken:
Gestructureerde analyse. Dit kan bijvoorbeeld in Excel, maar ook met gespecialiseerde analysetools en platforms die geavanceerde analysemethodes ondersteunen. Hier worden artificiële intelligentie en machine-learning-modellen ontwikkeld.
5. Data-visualisatie, rapportage of interactief delen van informatie uit databases of uitkomsten van analyses.
6. Integratie van resultaten en modellen in applicaties die dagelijks gebruikt kunnen worden.

Integratie in applicaties voor dagelijks gebruik

In de laatste integratiestap worden de uitkomsten van analyses en modellen ingezet in de praktijk. Een goed en eenvoudig voorbeeld van een machine-learning-model zijn de adviezen die webwinkels aan jou als klant geven, op basis van aankopen en zoekgedrag uit het verleden, van jou en duizenden andere bezoekers. Als je in een webwinkel als Amazon een boek zoekt, krijg je het advies om er bijvoorbeeld nog twee boeken bij te kopen, onder een kopje als ‘Frequently bought together’ of ‘Anderen bekeken ook’.

Het fenomeen kent waarschijnlijk iedereen. Het algoritme dat erachter zit is het associatie-algoritme, dat vanwege deze toepassing meestal de shopping-basket-analyse genoemd wordt. Die kun je vast in je zak steken. Een andere keer leggen we uit hoe dat algoritme werkt.

Ik heb er in het rood bijgekrabbeld hoe de vorige oplossing er in ons vorige plaatje ongeveer uit zou zien:

Andere mogelijke toepassingen

Bij Tecknoworks werken we ook aan dit soort modellen. Het hoeft hierbij niet per se te gaan om het kunnen geven van een goed advies in een boekwinkel. Wij proberen met een vergelijkbaar model bijvoorbeeld iets te zeggen over medicatiegebruik bij patiënten met diabetes. Op basis van medicatiehistorie kunnen we een voorspelling doen over de volgende medicatie die een patiënt waarschijnlijk nodig zal hebben. Andere analyseprojecten waar we ons mee bezighouden zijn bijvoorbeeld fraudedetectie bij ingediende verzekeringsclaims, het identificeren van klanten die mogelijk op het punt staan te vertrekken, of het voorspellen consumptie van goederen of diensten over een bepaalde tijdsperiode.

Zelf aan de slag met Big Data

Mocht je nog niet structureel bezig zijn met Big-Data-projecten: je kunt gewoon vandaag beginnen. Neem nu de eerste stap: bewaar je data. Ga dan nadenken over hoe je die data kunt inzetten. Probeer trends of patronen te ontdekken. En experimenteer. Begin klein, en bouw het langzaam op. Excel is echt prima om mee te beginnen. Complexe algoritmes kun je altijd later gaan toepassen. Mocht je al wel bezig zijn met dataprojecten, ben ik benieuwd wat je bereikt hebt, en waar je eventueel tegenaan loopt. Bel ons, mail ons, en we denken mee. Kunnen we er volgende keer weer iets moois over schrijven.


Maurik van den Heuvel

Tecknoworks Nederland BV

Pascalstraat 13H | 2811 EL Reeuwijk | Nederland

T: +31 (0)881 182 200 | M: +31 (0)6 5104 4631

E: maurik.vandenheuvel@tecknoworks.nl | W: www.tecknoworks.com

comments powered by Disqus

Let's write our story!

We don't just write code, we write stories! Working with us is fun, inspiring and good for business!