Automatic lexico-semantic acquisition for question answering
Datum: 23 oktober 2008
Promotie: mw. M.L.E. van der Plas, 16.15 uur, Academiegebouw,
Broerstraat 5, Groningen
Proefschrift: Automatic lexico-semantic acquisition for question
answering
Promotor(s): prof.dr. J. Nerbonne
Faculteit: Letteren
Hoe een computer zijn woordenschat vergroot
De woorden `herfst' en `najaar' hebben dezelfde betekenis, `Parijs'
verwijst naar een stad en het woord `feest' roept bij mensen woorden
als `wijn' en `plezier' op. Mensen verwerven dit soort van informatie,
zoals synoniemen, eigennamen en assocaties, gedurende hun leven
simpelweg door taal te gebruiken. Ook voor een computersysteem is het
mogelijk om relaties tussen woorden, zoals synoniemie (herfst-najaar)
en co-hyponiemie (appel-sinaasappel) automatisch uit tekst te leren.
De soort van informatie die opgeleverd wordt hangt wel af van de
methode die gebruikt wordt. Promovenda Lonneke van der Plas deed
onderzoek naar dergelijke systemen.
Voor veel computer-applicaties die taal gebruiken, zoals zoekmachines
en geavanceerde programma's, die vragen van gebruikers beantwoorden,
is informatie over relaties tussen woorden erg belangrijk.
Bijvoorbeeld om te herkennen dat een bepaalde betekenis kan worden
afgeleid uit verschillende tekstvarianten. Wanneer een gebruiker het
woord `rijwiel' als zoekterm intypt in een zoekmachine als Google, is
een uitbreiding met een synoniem als `fiets' noodzakelijk om niet het
merendeel van de gewenste informatie te missen .
Van der Plas behandelt in haar proefschrift drie methoden voor het
automatisch vergaren van lexicaal-semantische informatie: een op
syntaxis gebaseerde methode, een meertalige op vertaalrelaties
gebaseerde methode en een methode waarbij gekeken wordt naar de
nabijheid van woorden in een tekst. De drie methoden vullen elkaar aan
wat betreft het soort data dat gebruikt wordt en het type informatie
dat opgeleverd wordt.
Het resultaat van het onderzoek is ook te zien in een demo op
internet, waar de gebruiker een woord kan intypen. Het systeem geeft
de gebruiker een lijst van gelijkende woorden, die het automatisch
geleerd heeft door de syntactische contexten van woorden te
vergelijken.
Zie voor de demo www.let.rug.nl/~gosse/SetsTwNC/
Zie voor IMIX: www.nwo.nl/imix
Lonneke van der Plas (Terneuzen, 1976) voltooide de MPhil `Computer
Speech and Language Processing' aan de Universiteit van Cambridge en
studeerde algemene taalwetenschap aan de Katholieke Universiteit
Nijmegen. Zij verrichtte haar promotieonderzoek bij de afdeling
Alfa-Informatica van de Faculteit der Letteren aan de
Rijksuniversiteit Groningen, onder leiding van promotor prof.dr.ir.
John Nerbonne en co-promotor dr. Gosse Bouma. Het onderzoek werd
gefinancierd door NWO binnen het project IMIX. Van der Plas werkt nu
als postdoc aan de Universiteit van Genève.
Rijksuniversiteit Groningen