Parse selection with support vector machines
Datum: 18 februari 2010
Promotie: dhr. F. Dellatorre Borges, 13.15 uur, Academiegebouw,
Broerstraat 5, Groningen
Proefschrift: Parse selection with support vector machines
Promotor(s): prof.dr.ir. J. Nerbonne
Faculteit: Letteren
MaxEnt geschikter voor parse selection dan SVM's
Het doel van het promotieonderzoek van Francisco Dellatorre Borges was
om SVM's (Support Vector Machines) toe te passen op het probleem van
parse selection. In het bijzonder onderzocht hij het gebruik van SVM's
bij de parse trees die Alpino genereert, om de prestaties te kunnen
vergelijken met het huidige Alpino disambiguatieonderdeel, dat
gebaseerd is op Maximum Entropy. Het bleek dat MaxEnt beter presteerde
dan de gebruikte modellen.
De eerste vraag was of het probleem als een classificatieprobleem of
als een regressieprobleem beschouwd moest worden. Volgens Dellatorre
Borges is het eigenlijk een skewed regression-probleem. Hij heeft
daarom voor SV Regressie gekozen. Dellatorre Borges is begonnen met
het uitvoeren van kleine experimenten om de prestaties van
verschillende SVR implementations en van verschillende kernels te
evalueren. De MaxEnt resultaten waren beter dan de beste resultaten
die met SVM verkregen waren (op dezelfde dataset). Daarna zijn SVR
modellen gebouwd zonder de gebruikte hoeveelheid data te beperken. Dit
legde meteen het grootste probleem bloot van het werken met SVM's: de
grote hoeveelheid computationele middelen, die nodig is voor het
trainen en evalueren van de modellen. Dellatorre Borges heeft
verschillende kleine modellen getraind en hun voorspellingen lineair
gecombineerd. De eerste uitkomst was dat de prestatie van de
voorspellingen van een enkel model inderdaad lager was dan die van de
gecombineerde voorspellingen, wat laat zien dat het combineren van de
resultaten van kleine modellen significante prestatievoordelen
oplevert. De tweede was dat door toename van de modelgrootte, de
prestaties ook significant omhoog gingen. Terwijl de prestatietoename
in verhouding met de eerdere experimentele opzet veel hoger was voor
SVM-modellen dan voor MaxEnt, presteerde MaxEnt nog steeds beter dan
de gebruikte modellen.
Francisco Dellatorre Borges (Brazilië, 1977) studeerde natuurkunde aan
de universiteit van Sao Paulo. Hij verrichtte zijn onderzoek bij de
vakgroep alfa-informatica aan de Faculteit der Letteren van de
Rijksuniversiteit Groningen. Dellatorre Borges werkt bij EMC.
Laatst gewijzigd: 04 februari 2010 12:21
Rijksuniversiteit Groningen