Rijksuniversiteit Groningen

Automatic lexico-semantic acquisition for question answering

Datum: 23 oktober 2008

Promotie: mw. M.L.E. van der Plas, 16.15 uur, Academiegebouw, Broerstraat 5, Groningen

Proefschrift: Automatic lexico-semantic acquisition for question answering

Promotor(s): prof.dr. J. Nerbonne

Faculteit: Letteren

Hoe een computer zijn woordenschat vergroot

De woorden `herfst' en `najaar' hebben dezelfde betekenis, `Parijs' verwijst naar een stad en het woord `feest' roept bij mensen woorden als `wijn' en `plezier' op. Mensen verwerven dit soort van informatie, zoals synoniemen, eigennamen en assocaties, gedurende hun leven simpelweg door taal te gebruiken. Ook voor een computersysteem is het mogelijk om relaties tussen woorden, zoals synoniemie (herfst-najaar) en co-hyponiemie (appel-sinaasappel) automatisch uit tekst te leren. De soort van informatie die opgeleverd wordt hangt wel af van de methode die gebruikt wordt. Promovenda Lonneke van der Plas deed onderzoek naar dergelijke systemen.

Voor veel computer-applicaties die taal gebruiken, zoals zoekmachines en geavanceerde programma's, die vragen van gebruikers beantwoorden, is informatie over relaties tussen woorden erg belangrijk. Bijvoorbeeld om te herkennen dat een bepaalde betekenis kan worden afgeleid uit verschillende tekstvarianten. Wanneer een gebruiker het woord `rijwiel' als zoekterm intypt in een zoekmachine als Google, is een uitbreiding met een synoniem als `fiets' noodzakelijk om niet het merendeel van de gewenste informatie te missen .

Van der Plas behandelt in haar proefschrift drie methoden voor het automatisch vergaren van lexicaal-semantische informatie: een op syntaxis gebaseerde methode, een meertalige op vertaalrelaties gebaseerde methode en een methode waarbij gekeken wordt naar de nabijheid van woorden in een tekst. De drie methoden vullen elkaar aan wat betreft het soort data dat gebruikt wordt en het type informatie dat opgeleverd wordt.

Het resultaat van het onderzoek is ook te zien in een demo op internet, waar de gebruiker een woord kan intypen. Het systeem geeft de gebruiker een lijst van gelijkende woorden, die het automatisch geleerd heeft door de syntactische contexten van woorden te vergelijken.

Zie voor de demo www.let.rug.nl/~gosse/SetsTwNC/

Zie voor IMIX: www.nwo.nl/imix

Lonneke van der Plas (Terneuzen, 1976) voltooide de MPhil `Computer Speech and Language Processing' aan de Universiteit van Cambridge en studeerde algemene taalwetenschap aan de Katholieke Universiteit Nijmegen. Zij verrichtte haar promotieonderzoek bij de afdeling Alfa-Informatica van de Faculteit der Letteren aan de Rijksuniversiteit Groningen, onder leiding van promotor prof.dr.ir. John Nerbonne en co-promotor dr. Gosse Bouma. Het onderzoek werd gefinancierd door NWO binnen het project IMIX. Van der Plas werkt nu als postdoc aan de Universiteit van Genève.

donderdag 23 oktober 2008