Nederlandse Taalunie

26 maart 2004

Taal- en Spraaktechnologiedag 2004

Hier spreekt men Nederlands...

Naarmate ICT meer deel uitmaakt van ons dagelijks leven wordt het belangrijker om met computers in natuurlijke taal te kunnen communiceren en dan liefst in de eigen taal, het Nederlands. Dit kan pas als voor het Nederlands ook de nodige ICT-toepassingen worden ontwikkeld. De Nederlandse en de Vlaamse overheid hebben veel geld geïnvesteerd in de ontwikkeling van de digitale materialen die hiervoor nodig zijn. Deze komen vanaf nu beschikbaar via de onlangs opgerichte Centrale voor Taal- en Spraaktechnologie (TST-centrale). Dit geldt ook voor het net afgeronde Corpus Gesproken Nederlands (CGN), een grote taaldatabank die circa 800 uur spraakopnames (ongeveer 9 miljoen woorden) bevat. Het Nederlands is de eerste taal waarvoor een dergelijke TST-centrale is opgericht en waarvoor zo'n groot corpus met spraakopnames werd ontwikkeld. In dit opzicht zijn de TST-centrale en het CGN internationaal een unicum en vervullen daarom een belangrijke voorbeeldfunctie.

De TST-centrale is gevestigd aan het Instituut voor Nederlandse Lexicologie (INL) te Leiden en is verantwoordelijk voor het verwerven, beheren, onderhouden en verspreiden van digitale gegevensbanken (m.n. corpora van gesproken en geschreven taal en elektronische woordenboeken) die specifiek voor het Nederlands met overheidsgelden zijn ontwikkeld. Deze bestanden zijn beschikbaar voor onderzoekers, maar ook voor bedrijven die ze nodig hebben voor het ontwikkelen van technologische toepassingen als digitale woordenboeken, instrumenten voor machinevertaling, spelling- en grammaticacontrole bij tekstverwerkingssoftware, interactieve leermethodes, automatische informatiediensten en spraakgestuurde informatie- en navigatiesystemen in auto's. Deze toepassingen zijn nodig om ervoor te zorgen dat Nederlandssprekenden in de eigen taal kunnen communiceren in de informatiemaatschappij. Voor een kleine afzetmarkt als het Nederlandse taalgebied is daar steun van de overheid bij nodig. Omdat het belangrijk is dat de beschikbare materialen toegankelijk zijn voor alle doelgroepen en efficiënt benut kunnen worden is besloten ze onder te brengen in één TST-centrale.

Het grootste corpus dat nu via de TST-centrale beschikbaar komt, is het Corpus Gesproken Nederlands (CGN). Dit is het resultaat van een groot Vlaams-Nederlands project dat in maart 2004 is afgerond. Het doel van dit project was het aanleggen van een grote databank van het hedendaags Standaardnederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Dit corpus bevat circa 9 miljoen woorden (ca. 800 uur spraakopnames) waarbij alle opnames zijn uitgeschreven en van diverse annotaties voorzien. Dat is nuttig voor onderzoek naar regionale taalverschillen in Nederland en Vlaanderen of naar verschillen in uitspraak tussen mannen en vrouwen, ouderen en jongeren, maar ook bijvoorbeeld naar verschillen in spraak bij formele en informele gesprekken. Het Corpus Gesproken Nederlands is onmisbaar voor allerhande praktische toepassingen. Zo zal het worden gebruikt voor het "trainen" van computers zodat zij het Nederlands van alle gebruikers kunnen herkennen, van mannen en vrouwen, uit Noord en Zuid. Het project is gefinancierd door de Vlaamse en Nederlandse regeringen en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. De rechten berusten bij de Nederlandse Taalunie.

De TST-centrale en het Corpus Gesproken Nederlands worden op vrijdag 2 april 2004 gepresenteerd op een Vlaams-Nederlandse Taal- en Spraaktechnologiedag die door de Nederlandse Taalunie in Rotterdam (Hotel Engels) wordt georganiseerd. Het programma van deze TST-dag is te vinden op: http://taalunieversum.org/agenda/203/.

Voor meer informatie kunt u contact opnemen met de Nederlandse Taalunie, Annemieke Hoorntje, Postbus 10595, 2501 HN Den Haag, Nederland. E-mail: ahoorntje@taalunie.org. Telefoon + 31 70 346 95 48. © Nederlandse Taalunie, 2000/2004 - alle rechten voorbehouden

vrijdag 2 april 2004