Universiteit Twente
Persberichten > Nieuw > 02-024
02-024 23-04-2002
02/24 23 april 2002
Van zoekmachine naar vindmachine
`Webspace-methode' vindt de informatie die je wèl wilt
Zoekmachines vinden vaak niet wat je zoekt. Ze geven een lijst
webadressen, en `succes ermee!'. De gehanteerde zoekmethode, `text
retrieval', is beproefd maar ook beperkt. Promovendus Roelof van Zwol
heeft daarom een nieuwe en onconventionele zoekmethode ontwikkeld.
Deze `Webspace Methode' presenteert de gevraagde informatie uit
verschillende documenten -tekst, maar ook foto's en video's- meteen in
één scherm. In een `retrieval performance experiment' presteert de
methode aanzienlijk beter in nauwkeurigheid en slaagkans. Roelof van
Zwol promoveert op 26 april aan de faculteit Informatica van de
Universiteit Twente.
De Webspace Methode die Van Zwol heeft ontwikkeld, kan overweg met
lastige vragen. Bijvoorbeeld: "Ik zoek alle vrouwelijke tennisspelers,
geboren ná 1970, die de Australian Open hebben gespeeld, maar niet
gewonnen. Met een foto en een lijst van wedstrijden die ze in hun
loopbaan wèl hebben gewonnen." De gebruiker maakt via een menu een
keuze. Op één scherm presenteert de zoekmachine alle gegevens,
bijeengesprokkeld in verschillende documenten. Van Zwol noemt dit een
`materialised view'.
De methode kent niet de tekortkomingen van bestaande zoekmachines.
"Moderne search engines zoals Google werken uitstekend, maar ze zijn
nog steeds gebaseerd op de aloude `text retrieval': het vinden van
woordcombinaties in tekstdocumenten. Door slimmer met taal om te gaan,
worden ze steeds een stukje verfijnd, maar dat zijn steeds kleine
stappen." De gebruiker moet een lijst doorworstelen en adres-na-adres
kijken of de resultaten enigszins beantwoorden aan zijn vraag. Uit
recent Amerikaans onderzoek blijkt dat de gebruiker na vier of vijf
adressen al afhaakt, terwijl er vaak duizenden treffers worden
gepresenteerd.
Eigenwijs
De Webspace Methode is niet zomaar te vertalen naar het hele Internet,
geeft Van Zwol toe. Tot nu toe werkt zijn methode vooral op collecties
van documenten die tot op zekere hoogte overzichtelijk en van beperkte
omvang zijn, bijvoorbeeld in een intranet-omgeving. Als voorbeelden
heeft hij de methode losgelaten op de site van de tenniswedstrijd
`Australian Open' en de site van reisorganisatie `Lonely Planet'.
"Omzetting naar Internet zou geen probleem zijn als niet iedereen zo
eigenwijs zou zijn een eigen standaard te hanteren. Daarin tekent zich
wel een verandering af met de overgang van `html' naar `xml'."
Filmfragmenten
In web-gebaseerde collecties van documenten maakt Van Zwol gebruik van
de semantische samenhang -niet puur het woord, maar vooral de
betekenis ervan- tussen verschillende documenten. "Het idee is: er zit
een structuur in, waarom zou je die bij het zoeken dan niet
gebruiken?" De gebruiker is geïnteresseerd in de informatie zèlf, niet
zozeer in de locatie waar de gegevens zijn opgeslagen. Hierin
onderscheidt zich een data-base georiënteerde aanpak van de gangbare
manier om in `bestanden en kaartenbakken' te denken. Tegelijk maakt
het niet meer uit hóe de informatie is opgeslagen. Van Zwol en zijn
collega's beperken zich niet tot tekst: via de Webspace Methode is ook
te zoeken in foto's en videofragmenten. Bij de bovengenoemde
tennissers kunnen bijvoorbeeld spelmomenten in filmpjes worden
gezocht, en meteen in beeld gebracht: de speler spoelt meteen door
naar het gezochte moment. Hiervoor wordt onder meer gebruik gemaakt
van het onderzoek van Milan Petkovic (Universiteit Twente) en Menzo
Windhouwer (CWI, Amsterdam).
Nauwkeurig
De Webspace Methode is zeker nog geen commerciële zoekmachine. De
methode werkt echter uitstekend in de onderzochte collecties. In een
vergelijking met zoekmachines als Google, presteert Webspace in
vrijwel alle gevallen beter. In `precision' en `recall' worden
tweemaal betere resultaten geboekt, zo blijkt uit tests met een
gebruikerspanel.
Noot voor de pers
Ir. Roelof van Zwol (Ede, 1972) studeerde tot 1998 Informatica aan de
Universiteit Twente. Hij heeft zijn promotie-onderzoek gedaan in de
Databases groep onder leiding van prof.dr. Peter Apers. Het onderzoek
is ondergebracht in het Centrum voor Telematica en
Informatietechnologie (CTIT). Van Zwol verdedigt zijn proefschrift op
26 april om 13.15 uur in zaal 2 van het BB-gebouw op de campus van de
Universiteit Twente.
Kijk voor meer informatie op www.cs.utwente.nl/~zwol
Meer informatie: ir. Wiebe van der Veen, Bureau Communicatie UT, tel. (053) 489 4244, e-mail w.r.vanderveen@utwente.nl
© Universiteit Twente 2002