Rijksuniversiteit Groningen

Persbericht

Rijksuniversiteit Groningen

Nummer: 32

Datum: 28 maart 2006

Scroogle: Google voor oude handschriften

Honderden meters archief waarin je moet zoeken met behulp van een index met globale gegevens over de inhoud. Dat zijn in een notendop de eigenschappen van veel collecties oude handschriften. De onderzoeksafdeling Kunstmatige Intelligentie van de Rijksuniversiteit Groningen onderzoekt hoe een computer orde kan scheppen in een zee van geschreven woorden. Te beginnen bij de handschriften van het Kabinet van de Koningin. NWO honoreerde het onderzoeksproject 'Morph' met 430.000 euro in het kader van de Open Competitieronde Exacte Wetenschappen.

De handschriften van het Kabinet van de Koningin liggen opgeslagen bij het Nationaal Archief. Dat bevat papieren van de Rijksoverheid, alles bij elkaar zo'n 100 km aan schappen. Voortdurend komen zoekvragen binnen. Jaarlijks raadplegen ongeveer tienduizend historici, journalisten en onderzoekers van familiegeschiedenissen het archief. 'Bij elke vraag gaat een medewerker in het acht verdiepingen tellende gebouw op zoek naar de juiste map', zegt hoogleraar Lambert Schomaker, directeur onderzoek en educatie van Kunstmatige Intelligentie. 'In een tijd waarin iedereen op internet zoekt, gaat dat wringen. Zeker bij een archief als het Nationaal Archief dat er alles aan doet om met de tijd mee te gaan. Daarom ontwikkelen wij Scroogle: Google voor oude handschriften.'

Regelmaat

De onderzoeksvraag van Morph is hoe je een machine kunt gebruiken om te vinden wat je zoekt in een groot archief van handschriften. Het gaat niet om handschriftherkenning, een toepassing die archivarissen al jaren geleden afschreven, omdat geen enkel systeem goed genoeg is voor de soms eeuwenoude collecties. Schomaker: 'De clou is dat je niet moet kijken vanuit de exacte tekst die er geschreven staat. Dat werkt alleen maar frustrerend. Wij kijken in ons onderzoek naar dit handschrift door de ogen van een 'domme' computer die niet kan lezen of schrijven. Wat kan die computer met al deze documenten?'

Vormvergelijking

Een computer kan bijvoorbeeld zoeken naar vorm-overeenkomsten in de handschriften en regelmaat in documenten. Als je de computer vervolgens voedt met een klein aantal globale aanwijzingen van mensen over welke woorden horen bij welke vormen, kan de computer alle tussenliggende mogelijkheden en dus verschillende handschriften 'leren' ordenen. 'Met deze methode voorkom je dat bijvoorbeeld het Nationaal Archief duizenden manuren moet investeren om een computer gedetailleerd te vertellen hoe hij individuele letters moet 'lezen'. Als er voldoende tekstmateriaal 'geannoteerd' is op een globale manier, maakt het bovendien niet uit of er hier en daar een menselijke fout gemaakt is', aldus Schomaker.

Blue Gene

De computer leert met relatief beperkte input hoe hij deze en andere collecties handschriften inzichtelijk moet maken. Beperkte input betekent echter niet in dat deze vorm van kunstmatige intelligentie kan worden uitgevoerd op de gemiddelde huiscomputer. De onderzoekers maken voor hun berekeningen gebruik van de Blue Gene supercomputer van het rekencentrum van de Groningse universiteit. Blue Gene, gebouwd door IBM, is op het ogenblik de op een na krachtigste computer in Europa.

Scratch

Het onderzoeksproject Morph is een meer fundamenteel vervolg op het bestaande NWO onderzoek Scratch (Script Access to the Cultural Heritage). Scratch richt zich op geschreven cultureel erfgoed en maakt op zijn beurt deel uit van een nationaal onderzoek naar methoden om alle cultureel erfgoed eenvoudig toegankelijk te maken. Van potscherven tot muntencollecties en oude handschriften. Scratch is vooral gericht op de praktische toepassing van het digitaal ontsluiten van oude handschriften. Morph is fundamenteel van aard omdat het de vraag probeert te beantwoorden hoe je computers kunt 'leren' om regelmaat te ontdekken in massale hoeveelheden analoge gegevens zoals oude handschriften.

Noot voor de pers

Meer informatie: Lambert Schomaker, hoogleraar Kunstmatige Intelligentie, tel: 050-363 79 08, e-mail: schomaker@ai.rug.nl

Redactie: afdeling Communicatie RUG

Postbus 72, 9700 AB Groningen

Tel. 050-363 4444

E-mail: communicatie@rug.nl