Twee promoties analyseren opvallend gedrag websurfers
27 oktober 2008
Welk gedrag vertonen bezoekers van een website? Kopen zij een
specifiek product vooral op maandagen? Keren ze steeds op een bepaald
moment van de dag terug? Voor ondernemers is het lucratief om
dergelijke patronen te herkennen en te benutten. NWO-onderzoeker Edgar
de Graaf ontdekte dat interessante patronen vaak met een tijdsaspect
samenhangen. De Graaf promoveert 29 oktober in Leiden. NWO-onderzoeker
Jeroen De Knijf ontwikkelde manieren om sneller relevante patronen te
vinden. Hij promoveert 19 november in Utrecht.
In vaktermen heet het data mining: het zoeken naar interessante
verbanden in grote hoeveelheden gegevens. Veel data mining-programma's
produceren een stortvloed aan mogelijk interessante patronen: hoe vind
je dan als gebruiker wat je zoekt? De bestanden zijn bovendien niet
altijd ingericht op dergelijke zoekacties, zoals het geval is op
internet maar ook in de bio-informatica. Meestal gaat het om
semi-gestructureerde bestanden: ze bevatten bijvoorbeeld vaak
hyperlinks naar andere bestanden, en bevatten (deel)informatie in
allerlei formaten, zoals tekst, beeld en geluid.
MISTA-project
Edgar de Graaf en Jeroen De Knijf werkten beiden binnen het door NWO
gefinancierde MISTA-project (Mining in Semi-Structured Data) aan
methoden om gerichter en sneller patronen te vinden in grote
hoeveelheden semi-gestructureerde gegevens. De Graaf ontdekte dat
sommige patronen interessant zijn omdat ze vlak achter elkaar
voorkwamen. Andere patronen vallen juist op doordat ze bijvoorbeeld
wekelijks voorkwamen. Dit tijdsaspect is volgens De Graaf de moeite
waard om nader te onderzoeken.
De presentatie van de patronen kan het beste visueel worden gedaan,
zodat de gebruiker in één oogopslag de informatie vindt die hij zoekt.
Hiervoor beschrijft De Graaf verschillende manieren om verschillende
soorten informatie weer te geven.
Wikipedia comprimeren
De Knijf toonde aan dat het aantal patronen drastisch kan worden
verminderd door de gebruiker vooraf te laten aangeven aan welke
kenmerken een patroon in ieder geval moet voldoen. Daardoor kan het
data mining-programma de interessante patronen aanzienlijk sneller
uitrekenen.
Een tweede manier die De Knijf bedacht heeft om het aantal resultaten
terug te brengen is het comprimeren van een hele collectie documenten
(bijvoorbeeld Wikipedia-pagina's) in een enkel document. De Knijf
toont aan dat die samenvatting inderdaad de essentiële informatie uit
de hele collectie bevat, door nauwkeurige modellen te bouwen die
slechts gebruik maken van het gecomprimeerde document.
Het onderzoek is gefinancierd via de Open competitie 2003 van NWO
Exacte Wetenschappen.
..............................
Noot voor de redactie,
Nederlandse Organisatie voor Wetenschappelijk Onderzoek