Nederlandse Organisatie voor Wetenschappelijk Onderzoek
Continuous Access To Cultural Heritage
Promotie Marieke van Erp met symposium 'Text mining in the real world'
30 juni 2010
Waar is deze kikker de afgelopen 2 eeuwen allemaal waargenomen?
Op 30 juni om 14.00 uur, zal Marieke van Erp haar proefschrift
verdedigen waarvoor zij haar onderzoek uitvoerde binnen het MITCH
project. Hieraan voorafgaand wordt in de ochtend het symposium Text
Mining in the Real World georganiseerd door de ILK onderzoeksgroep van
het Tilburg centre for Cognition and Communication.
Op het symposium zullen twee deskundigen spreken over de toepassing van
text mining en soortgelijke technologieën in alledaagse
praktijkomgevingen, en welke complexe gevolgen dat heeft. De sprekers
zijn prof. Eduard Hovy (Information Sciences Institute, USC, Marina del
Rey, CA, U.S.A.) en prof. Piek Vossen (Computational Lexicology and
Terminology Lab, Free University of Amsterdam). Het symposium start om
09.30 uur.
Ingang is gratis; een lunch wordt verzorgd. Belangstellenden wordt
verzocht zich aan te maken door een e-mail te sturen aan
Joke Hellemons: J.W.Hellemons@uvt.nl vóór 23 juni.
* voor het programma, abstracts en meer information: ga naar de ILK
website
Over Marieke van Erps promotieonderzoek
'Accessing Natural History: Discoveries in Data Cleaning, Structuring,
and Retrieval'
waar is deze kikker de afgelopen 2 eeuwen gevonden? Onderzoekers in
Naturalis hebben de afgelopen twee eeuwen een schat aan informatie
verzameld over het leven op aarde. Tot voor kort was deze informatie
alleen toegankelijk via de originele handgeschreven logboeken. De
Tilburgse computationeel linguïste Marieke van Erp heeft binnen het
project MITCH onderzocht hoe de toegankelijkheid tot natuurhistorische
data in Naturalis verbeterd kan worden.
Ze belicht drie verschillende aspecten van het digitalisatieproces:
automatisch data opschonen, data structureren, en verrijking met
synoniemen. Van Erp presenteert eerst twee data-opschoonmethoden: een
data-gedreven en een kennisgedreven methode. Zij vond dat deze methoden
niet alleen qua aanpak complementair zijn, maar ook in het soort fouten
dat ze opsporen in data. Ze heeft ook een methode ontwikkeld die een
platte databasestructuur kan voorzien van relaties tussen kolommen door
kennis uit een externe encyclopedie te halen. Ten slotte heeft ze de
verbeteringen in de toegankelijkheid van de data in Naturalis getest
met een zoeksysteem dat domeinkennis gebruikt om zoekopdrachten
preciezer te formuleren en uit te breiden met synoniemen.
Uit haar resultaten blijkt dat de structurering en verrijking van data
zorgen voor een significante toename in het aantal zoekopdrachten dat
beantwoord kan worden.
Promotor: prof. dr. A.P.J. van den Bosch (UvT)Co-promotor: dr. P. K.
Lendvai (UvT)