Rijksuniversiteit Groningen
Goede oefenstof voorkomt dat parser overtraind raakt
Een zin als 'de gluurder kijkt naar de nudist met een telescoop' kan meerdere betekenissen hebben. Een menselijke interpretator kiest onmiddellijk de meest waarschijnlijke betekenis en veronderstelt dat de gluurder door een telescoop kijkt. 'Kennis van de wereld' speelt hierbij een grote rol. Alleen als je er iets langer over nadenkt, kom je op de gedachte dat het ook zou kunnen dat de nudist met een telescoop in de hand rondloopt terwijl hij begluurd wordt.
Een parser, een computerprogramma dat zinnen syntactisch analyseert,
zet eerst alle mogelijke betekenissen van een zin op een rij en staat
vervolgens voor de vraag wat nu de meest waarschijnlijke betekenis is.
Voor het reduceren van het aantal oplossingen is een statistische
methode de beste keus, zegt linguïst Tony Mullen. In zijn proefschrift
onderzoekt hij welke karakteristieken van statistische modellen van
belang zijn bij de selectie van de juiste betekenis. Statistische
modellen zijn algemeen en moeten afgestemd en getraind worden voor een
taak. Dat gaat met het aanbieden van oefenzinnen. Daarbij dreigt het
gevaar van overfitting of overtraining. Karakteristieken die gekozen
zijn voor de training kunnen té specifiek zijn, met als gevolg dat het
model na enkele trainingsronden de trainingsdata te goed beschrijft.
Het is dan niet meer in staat om generalisaties te maken. Mullen
testte verschillende modellen met behulp van meerdere linguïstische
gegevensbanken. Daaruit blijkt dat, hoewel het wel mogelijk is om
overtrainde modellen weer wat op te knappen, niets zo goed werkt als
een model dat gevormd is met een goede, rijke set karakteristieken.
Mullen concludeert dat linguïsten de aandacht dus beter kunnen richten
op het creëren van modellen die voldoende algemene en frequent
voorkomende karakteristieken bevatten, dan op het opkalefateren van
modellen die de fout in zijn gegaan. /JS
Anthony Mullen (Fairbanks, USA, 1971) studeerde linguïstiek aan het
Trinity College in Dublin. Het onderzoek werd uitgevoerd de afdeling
Alfa Informatica van de faculteit Letteren van de RUG.
Datum en tijd
Vrijdag 22 maart 2002, 14.15 uur
Promovendus
A. Mullen, tel. (050)363 59 36, e-mail: mullen@let.rug.nl (werk)
Proefschrift
An investigation into compositional features and feature merging for
maximum entropy-based parse selection
Promotor
Prof.dr. J. Nerbonne
Faculteit
Wiskunde en natuurwetenschappen
Plaats
Aula Academiegebouw, Broerstraat 5, Groningen