Techniek versus Brein: de wedstrijd die Big Data heet

Prof. dr. Bert Kersten, hoogleraar Bedrijfsprocessen & ICT

"Vlak voor de Kerst heeft de Tweede Kamer twee rapporten ontvangen over het opsporen van onregelmatigheden bij declaraties in de zorg. In dat onderzoek zijn 1,9 miljard declaraties van zorgaanbieders onderzocht, zoals huisartsen, tandartsen, ziekenhuizen en verpleeghuizen. Dat gaf enige problemen. Zoals wel vaker bij Big Data, maar ligt dat aan de techniek of loopt ons brein achter?

In mijn studententijd was de techniek er in ieder geval nog niet klaar voor. Om zoveel rekenkracht te krijgen was een compleet rekencentrum nodig aan de Wassenaarseweg in Leiden. En natuurlijk mocht je daar als student niet zo maar gebruik van maken! Je mocht slechts een klein deel van de capaciteit gebruiken en dan alleen maar gedurende bepaalde perioden van de dag.

Van datamining naar mining large datastreams

De wetten van Moore (rekenkracht verdubbelt elke 18 maanden), Kryder (capaciteit van hard disks verdubbelt elke 12 maanden) en Lyman & Varian (de hoeveelheid informatie die bedrijven en organisaties opslaan verdubbelt elke 12 maanden) veranderen het speelveld van datamining (het gericht zoeken naar statistische verbanden in gegevensverzamelingen). In de eerste plaats verschuiven we van datamining naar mining large datastreams: we putten rechtstreeks uit dynamische datastromen en niet meer uit "gestolde" data. Bekend zijn de toepassingen die zijn gemaakt voor het supersnel detecteren van fraude met creditcards en het opsporen van skimming bij betaalkaarten: detecteren in (near) real time.

Een tweede kentering is het gebruik van RAM (Random Access Memory). Dit is het interne geheugen van de computer waar data (voorheen) tijdelijk wordt opgeslagen, in tegenstelling tot de harde schijf die data voor een langere termijn vasthoudt. Door de grote hoeveelheid data die in RAM kan worden opgeslagen, kunnen we veel sneller zoeken en detecteren. Zo worden bij het detecteren van skimming 1,1 miljard transacties in RAM onderzocht. Slimme en efficiente datastructuren helpen daarbij. Dit betekent een geweldige versnelling in snelheid omdat het "langzame" I/O (input/output) wordt vermeden. Rekentechnisch gezien is er sprake van een versnelling met een factor van 10 duizend tot 100 duizend.

Het nieuwe paradigma

Mijn voornaamste conclusie van de afgelopen jaren is dat de beperkingen in mining large data streams liggen in de mens: de creativiteit schiet te kort en nieuw denken blijft achter. Techniek is niet meer de issue en ook de hoeveelheid data niet. De business en data-analisten blijven het paradigma hanteren waarmee ze de laatste jaren hebben gewerkt. Dat kan echt anders.

Stel je een datastream of database voor die je in real time kunt bevragen. Geen gedoe met query's en met protocollen: stel de vragen in natuurlijke taal aan de datastream die je voor je ziet. Bij banken: alle betalingen, bij verzekeraars: alle declaraties, bij de overheid: alle verzoeken die tot de overheid worden gericht. Het nieuwe paradigma is: het antwoord is er, ik moet alleen even zoeken.

Zoals ik naar mining data streams en big data kijk, zijn de belangrijkste lessen van de afgelopen jaren dat we niet meer in (technische) beperkingen moeten denken. Met teamwork van data-analisten en domeindeskundigen zijn geweldige (commerciele) resultaten te boeken. Wacht niet tot alle data "gaaf" is: dan moet je veel te lang wachten. Ga aan de gang! En ook in dit werk geldt: opgeven is geen optie. Het antwoord ligt ergens in de stapel verborgen...."

Big Data Essentials

Prof. dr. Bert Kersten is hoogleraar Bedrijfsprocessen & ICT aan Nyenrode Business Universiteit waar hij ook kerndocent is voor deze module in de modulaire Executive MBA in Food & Finance en Public & Private. Bert is ook een van de docenten in het nieuwe executive programma `Big Data Essentials'. In deze reeks van acht bijeenkomsten bereiden de met zorg uitgezochte experts de deelnemers voor om de eerste stappen te zetten in het ontwikkelen van een big-data-strategie voor hun organisatie.