Nederlandse Organisatie voor Wetenschappelijk Onderzoek

Twee promoties analyseren opvallend gedrag websurfers

27 oktober 2008

Welk gedrag vertonen bezoekers van een website? Kopen zij een specifiek product vooral op maandagen? Keren ze steeds op een bepaald moment van de dag terug? Voor ondernemers is het lucratief om dergelijke patronen te herkennen en te benutten. NWO-onderzoeker Edgar de Graaf ontdekte dat interessante patronen vaak met een tijdsaspect samenhangen. De Graaf promoveert 29 oktober in Leiden. NWO-onderzoeker Jeroen De Knijf ontwikkelde manieren om sneller relevante patronen te vinden. Hij promoveert 19 november in Utrecht.

In vaktermen heet het data mining: het zoeken naar interessante verbanden in grote hoeveelheden gegevens. Veel data mining-programma's produceren een stortvloed aan mogelijk interessante patronen: hoe vind je dan als gebruiker wat je zoekt? De bestanden zijn bovendien niet altijd ingericht op dergelijke zoekacties, zoals het geval is op internet maar ook in de bio-informatica. Meestal gaat het om semi-gestructureerde bestanden: ze bevatten bijvoorbeeld vaak hyperlinks naar andere bestanden, en bevatten (deel)informatie in allerlei formaten, zoals tekst, beeld en geluid.

MISTA-project

Edgar de Graaf en Jeroen De Knijf werkten beiden binnen het door NWO gefinancierde MISTA-project (Mining in Semi-Structured Data) aan methoden om gerichter en sneller patronen te vinden in grote hoeveelheden semi-gestructureerde gegevens. De Graaf ontdekte dat sommige patronen interessant zijn omdat ze vlak achter elkaar voorkwamen. Andere patronen vallen juist op doordat ze bijvoorbeeld wekelijks voorkwamen. Dit tijdsaspect is volgens De Graaf de moeite waard om nader te onderzoeken.

De presentatie van de patronen kan het beste visueel worden gedaan, zodat de gebruiker in één oogopslag de informatie vindt die hij zoekt. Hiervoor beschrijft De Graaf verschillende manieren om verschillende soorten informatie weer te geven.

Wikipedia comprimeren

De Knijf toonde aan dat het aantal patronen drastisch kan worden verminderd door de gebruiker vooraf te laten aangeven aan welke kenmerken een patroon in ieder geval moet voldoen. Daardoor kan het data mining-programma de interessante patronen aanzienlijk sneller uitrekenen.

Een tweede manier die De Knijf bedacht heeft om het aantal resultaten terug te brengen is het comprimeren van een hele collectie documenten (bijvoorbeeld Wikipedia-pagina's) in een enkel document. De Knijf toont aan dat die samenvatting inderdaad de essentiële informatie uit de hele collectie bevat, door nauwkeurige modellen te bouwen die slechts gebruik maken van het gecomprimeerde document.

Het onderzoek is gefinancierd via de Open competitie 2003 van NWO Exacte Wetenschappen.

..............................

Noot voor de redactie,