Rijksuniversiteit Groningen

Goede oefenstof voorkomt dat parser overtraind raakt

Een zin als 'de gluurder kijkt naar de nudist met een telescoop' kan meerdere betekenissen hebben. Een menselijke interpretator kiest onmiddellijk de meest waarschijnlijke betekenis en veronderstelt dat de gluurder door een telescoop kijkt. 'Kennis van de wereld' speelt hierbij een grote rol. Alleen als je er iets langer over nadenkt, kom je op de gedachte dat het ook zou kunnen dat de nudist met een telescoop in de hand rondloopt terwijl hij begluurd wordt.

Een parser, een computerprogramma dat zinnen syntactisch analyseert, zet eerst alle mogelijke betekenissen van een zin op een rij en staat vervolgens voor de vraag wat nu de meest waarschijnlijke betekenis is. Voor het reduceren van het aantal oplossingen is een statistische methode de beste keus, zegt linguïst Tony Mullen. In zijn proefschrift onderzoekt hij welke karakteristieken van statistische modellen van belang zijn bij de selectie van de juiste betekenis. Statistische modellen zijn algemeen en moeten afgestemd en getraind worden voor een taak. Dat gaat met het aanbieden van oefenzinnen. Daarbij dreigt het gevaar van overfitting of overtraining. Karakteristieken die gekozen zijn voor de training kunnen té specifiek zijn, met als gevolg dat het model na enkele trainingsronden de trainingsdata te goed beschrijft. Het is dan niet meer in staat om generalisaties te maken. Mullen testte verschillende modellen met behulp van meerdere linguïstische gegevensbanken. Daaruit blijkt dat, hoewel het wel mogelijk is om overtrainde modellen weer wat op te knappen, niets zo goed werkt als een model dat gevormd is met een goede, rijke set karakteristieken. Mullen concludeert dat linguïsten de aandacht dus beter kunnen richten op het creëren van modellen die voldoende algemene en frequent voorkomende karakteristieken bevatten, dan op het opkalefateren van modellen die de fout in zijn gegaan. /JS

Anthony Mullen (Fairbanks, USA, 1971) studeerde linguïstiek aan het Trinity College in Dublin. Het onderzoek werd uitgevoerd de afdeling Alfa Informatica van de faculteit Letteren van de RUG.

Datum en tijd

Vrijdag 22 maart 2002, 14.15 uur

Promovendus

A. Mullen, tel. (050)363 59 36, e-mail: mullen@let.rug.nl (werk)

Proefschrift

An investigation into compositional features and feature merging for maximum entropy-based parse selection

Promotor

Prof.dr. J. Nerbonne

Faculteit

Wiskunde en natuurwetenschappen

Plaats

Aula Academiegebouw, Broerstraat 5, Groningen