Menu

Vandaag worden we praktisch! En dit keer heb je er meteen wat aan. Tenminste… Als je van wijn houdt.

Sommigen van onze lezers hebben misschien het boek Supercrunchers van Ian Ayres gelezen, met de veelbelovende ondertitel 'How anything can be predicted'. Klinkt goed, of niet?

Number Cruncher of statisticus?

Het boek begint zo: 'Orley Ashenfelter really loves wine: 'when a good red wine ages,' he says, 'something quite magical happens.' Yet Orley isn't just obsessed with how wine tastes. He wants to know about the forces behind great and not so great wines.' Orley is in zijn dagelijks leven een econoom aan Princeton. Sinds computers en Big Data (in elk geval op sommige plekken) cool zijn geworden worden mensen als Orley door schrijvers als Ian Ayres 'Number Crunchers' genoemd. Dat verkoopt ongetwijfeld beter dan de uitleg dat Orley statistiek is gaan studeren omdat accountancy hem aan het eind van de middelbare school iets te spannend leek. En daar heb ik eigenlijk wel begrip voor.

Statistiek als alternatief voor slurpen en spugen

Wat leuk is aan Orley, in elk geval voor mensen uit ons vakgebied, is dat hij de kwaliteit van Bordeaux-wijnen is gaan evalueren aan de hand van statistiek in plaats van met - vrij vertaald - spugen, slurpen en dik doen over tannines, grondsoorten en houten vaten. Ik zal het uitleggen.Hieronder zien we de prijs van Bordeaux in 1983 (getransformeerd, op de y-as) uitgezet naar oogstjaar.

Er zit duidelijk een dalende trend in en dat komt doordat oudere wijnen duurder worden. Maar we zien ook direct dat de individuele punten nog steeds bijzonder veel afwijken van de trendlijn. Dat moet dus betekenen dat de prijs van wijn niet alleen afhangt van de ouderdom van de wijn. Maar waarvan dan wel?

Kwaliteit teruggebracht tot een formule

Daarvan zegt Orley gelukkig het volgende: 'Het is nogal simpel: wijn is een natuurproduct waarvan de kwaliteit enorm wordt beinvloed door het weer. Als de zomer bijzonder warm is, worden druiven sneller rijp en hebben dan een lagere zuurtegraad. In de jaren dat er minder regen valt, wordt de druif meer geconcentreerd. Dus het zijn de hete, droge jaren die exceptionele kwaliteit leveren.'
Orley heeft de kwaliteit (waarbij de prijs de kwaliteit representeert) in een regressieanalyse teruggebracht tot de volgende formule:

Samengevat: hoe meer regen in de winter (er staat een + voor in de vergelijking), hoe hoe hoger de temperatuur in de zomer (daar staat ook een +), en minder regen tijdens de oogst (daar staat een -), hoe beter de wijn. Vergeet de -12.415 aan het begin van de formule voor nu maar even.
Over de methode waarop deze formule tot stand komt is nog wel wat te vertellen. Maar vandaag houden we het praktisch. Het enige wat ik erover wil uitleggen is dat de kwaliteit van de wijn in deze methode wordt bepaald als (het logaritme van) de verhouding van de prijs van elk Bordeaux-jaar ten opzichte van de prijs van het jaar 1961, wat een exceptioneel jaar was.

De kwaliteit van een oogst kwantificeren

Dat betekent dus dat we de kwaliteit van een oogst kunnen kwantificeren door het aantal millimeters regen en de gemiddelde temperatuur in dat jaar in te vullen in de bovenstaande formule. Sterker nog, we zouden een gooi kunnen doen naar de prijs per fles over een paar jaar. Dat laatste doen we nu niet, want daar zitten allerlei saaie en tijdrovende haken en ogen aan. Maar wat we wel kunnen doen, is nu al proberen vast te stellen of het oogstjaar 2017 naar verwachting goed of niet zo goed zal zijn.
Daarvoor kunnen we verschillende methodes gebruiken, maar omdat een plaatje meer zegt dan duizend woorden, doen we het zo.

Een cluster met goede jaren en één met minder goede jaren

Hieronder zetten we per oogstjaar het aantal millimeter regen tijdens de oogst (augustus en september) uit tegen de gemiddelde temperatuur tussen april en september. Deze twee variabelen zijn in het model het belangrijkste. De regen in de winter laten we nu even weg. In het groen geven we alle oogstjaren weer die uiteindelijk een gemiddelde prijs hadden die hoger was dan de mediaan van de onderzochte jaren. In het rood de goedkopere. Dus, de duurste 14 jaren zijn groen, de goedkoopste 13 jaren zijn rood. Dan zien we duidelijk dat een hogere temperatuur tussen april en september en minder regenval tijdens de oogst de duurdere wijnen opleveren.

We kunnen twee clusters bepalen, een cluster met de duurdere jaren en een cluster met de minder dure jaren.
En als we in ditzelfde plaatje de regenval en de temperatuur voor 2017 plotten, zien we duidelijk dat 2017 zich aan het uiterste einde van de goede jaren bevindt. En niet zo'n beetje ook!

Wat de zomer van 2017 té warm?

Dat brengt gelijk een heel nieuw probleem met zich mee, namelijk dat de temperatuur in 2017 hoger was dan alle observaties die gebruikt zijn om het model te schatten. En dan zou het zo kunnen zijn dat het model van Orley deze situatie niet goed kan voorspellen; was de zomer van 2017 misschien wel té warm? Op basis van de data die we beschikbaar hebben, kunnen we daar helaas niet veel over zeggen. We moeten bij het interpreteren van dit soort modellen, zeker bij observaties die buiten de gebruikelijke range vallen, goed blijven nadenken.

Ik zet mijn geld op 2017

Maar voorlopig zet ik mijn geld op 2017. Goede kans dat dat een geweldig wijnjaar wordt.

Borrelt er nu iets bij je?

Heb je vragen of ideeën? Of borrelt er iets maar kun je er nog niet helemaal de vinger op leggen? Aarzel niet - bel ons, mail ons, en we denken mee. Kunnen we er volgende keer weer iets moois over schrijven.

Maurik van den Heuvel
Tecknoworks Nederland BV
Pascalstraat 13H | 2811 EL Reeuwijk | Nederland
T: +31 (0)881 182 200 | M: +31 (0)6 5104 4631
E: maurik.vandenheuvel@tecknoworks.com| W: www.tecknoworks.com

P.S.: Overigens staat deze formule op pagina 2 van Supercrunchers niet helemaal correct weergegeven. Ze zijn de - voor 12.415 vergeten.

comments powered by Disqus

Let's write our story!

We don't just write code, we write stories! Working with us is fun, inspiring and good for business!