Mining for meaning. The extraction of lexico-semanticknowledge from text
Datum: 24 juni 2010
Promotie: dhr. T. van de Cruys, 14.45 uur, Academiegebouw, Broerstraat
5, Groningen
Proefschrift: Mining for meaning. The extraction of
lexico-semanticknowledge from text
Promotor(s): prof.dr.ir. J. Nerbonne
Faculteit: Letteren
Computer kan woordbetekenis uit teksten afleiden
Het is heel goed mogelijk om woorden met een verwante betekenis
automatisch uit teksten te halen, blijkt uit het promotieonderzoek van
Tim van de Cruys. De context heeft invloed op de soort verwantschap:
een nauwe (syntactische) context leidt tot groepen die nauw aan elkaar
verwant zijn, terwijl een brede context (alle woorden in eenzelfde zin
of paragraaf) woorden groepeert die tot hetzelfde betekenisveld
behoren.
Woorden hebben een bepaalde betekenis. Taalgebruikers kunnen die
betekenis meestal moeiteloos achterhalen, maar voor een computersysteem
is dat een lastige opgave. Van de Cruys onderzocht hoe een computer de
betekenis van een woord automatisch uit grote tekstcollecties kan
afleiden. Dat gebeurt concreet door de context van woorden (zoals de
omringende woorden, of de syntactische relaties van een woord) met
elkaar te vergelijken, en zo te bepalen in welke mate woorden op elkaar
lijken of van elkaar verschillen. Die informatie stelt de computer in
staat om groepen van woorden die semantisch op elkaar lijken volledig
automatisch uit teksten te halen.
Een belangrijk gedeelte van Van de Cruys'onderzoek is gewijd aan
methodes voor dimensionaliteitsreductie, en de toepassing ervan op
taal. Het gebruik van grote tekstcollecties houdt in dat het aantal
verschillende contexten al snel oploopt tot enkele honderdduizenden.
Met een wiskundige dimensionaliteitsreductie kan de overvloed aan
individuele contexten teruggebracht worden tot een beperkt aantal
dimensies. Kenmerkend hierbij is dat die dimensies latente semantiek
bevatten: de waarde van een woord voor een bepaalde dimensie geeft aan
hoe sterk het woord op een bepaald betekenisveld (zoals economie,
transport, voedsel) scoort. De databanken die op die manier opgebouwd
worden, worden daarna gebruikt in verschillende taalgerichte
toepassingen, zoals het ontdekken van versteende uitdrukkingen, het
onderscheiden van de verschillende betekenissen van een woord, en de
extractie van typische argumenten voor werkwoorden. Van de Cruys toont
aan dat een computer met enkele simpele algoritmes woordbetekenis uit
teksten kan afleiden, en dat is een belangrijke stap naar een
computersysteem dat echt begrijpt wat er in een tekst geschreven staat.
Tim van de Cruys (België, 1982) studeerde artificial intelligence aan
de KU Leuven. Hij verrichtte zijn onderzoek bij de afdeling
alfa-informatica van de Faculteit der Letteren. Van de Cruys is
momenteel postdoctoraal onderzoeker bij INRIA, Institut national de
recherche en informatique et automatique (Parijs).
Laatst gewijzigd: 15 juni 2010 11:38
Rijksuniversiteit Groningen