Nederlandse Organisatie voor Wetenschappelijk Onderzoek

Continuous Access To Cultural Heritage

Promotie Marieke van Erp met symposium 'Text mining in the real world'

30 juni 2010

Waar is deze kikker de afgelopen 2 eeuwen allemaal waargenomen?

Op 30 juni om 14.00 uur, zal Marieke van Erp haar proefschrift verdedigen waarvoor zij haar onderzoek uitvoerde binnen het MITCH project. Hieraan voorafgaand wordt in de ochtend het symposium Text Mining in the Real World georganiseerd door de ILK onderzoeksgroep van het Tilburg centre for Cognition and Communication.

Op het symposium zullen twee deskundigen spreken over de toepassing van text mining en soortgelijke technologieën in alledaagse praktijkomgevingen, en welke complexe gevolgen dat heeft. De sprekers zijn prof. Eduard Hovy (Information Sciences Institute, USC, Marina del Rey, CA, U.S.A.) en prof. Piek Vossen (Computational Lexicology and Terminology Lab, Free University of Amsterdam). Het symposium start om 09.30 uur.

Ingang is gratis; een lunch wordt verzorgd. Belangstellenden wordt verzocht zich aan te maken door een e-mail te sturen aan Joke Hellemons: J.W.Hellemons@uvt.nl vóór 23 juni.


* voor het programma, abstracts en meer information: ga naar de ILK website

Over Marieke van Erps promotieonderzoek
'Accessing Natural History: Discoveries in Data Cleaning, Structuring, and Retrieval'

waar is deze kikker de afgelopen 2 eeuwen gevonden? Onderzoekers in Naturalis hebben de afgelopen twee eeuwen een schat aan informatie verzameld over het leven op aarde. Tot voor kort was deze informatie alleen toegankelijk via de originele handgeschreven logboeken. De Tilburgse computationeel linguïste Marieke van Erp heeft binnen het project MITCH onderzocht hoe de toegankelijkheid tot natuurhistorische data in Naturalis verbeterd kan worden.

Ze belicht drie verschillende aspecten van het digitalisatieproces: automatisch data opschonen, data structureren, en verrijking met synoniemen. Van Erp presenteert eerst twee data-opschoonmethoden: een data-gedreven en een kennisgedreven methode. Zij vond dat deze methoden niet alleen qua aanpak complementair zijn, maar ook in het soort fouten dat ze opsporen in data. Ze heeft ook een methode ontwikkeld die een platte databasestructuur kan voorzien van relaties tussen kolommen door kennis uit een externe encyclopedie te halen. Ten slotte heeft ze de verbeteringen in de toegankelijkheid van de data in Naturalis getest met een zoeksysteem dat domeinkennis gebruikt om zoekopdrachten preciezer te formuleren en uit te breiden met synoniemen.

Uit haar resultaten blijkt dat de structurering en verrijking van data zorgen voor een significante toename in het aantal zoekopdrachten dat beantwoord kan worden.

Promotor: prof. dr. A.P.J. van den Bosch (UvT)Co-promotor: dr. P. K. Lendvai (UvT)