26 maart 2004
Taal- en Spraaktechnologiedag 2004
Hier spreekt men Nederlands...
Naarmate ICT meer deel uitmaakt van ons dagelijks leven wordt het
belangrijker om met computers in natuurlijke taal te kunnen
communiceren en dan liefst in de eigen taal, het Nederlands. Dit kan
pas als voor het Nederlands ook de nodige ICT-toepassingen worden
ontwikkeld. De Nederlandse en de Vlaamse overheid hebben veel geld
geïnvesteerd in de ontwikkeling van de digitale materialen die
hiervoor nodig zijn. Deze komen vanaf nu beschikbaar via de onlangs
opgerichte Centrale voor Taal- en Spraaktechnologie (TST-centrale).
Dit geldt ook voor het net afgeronde Corpus Gesproken Nederlands
(CGN), een grote taaldatabank die circa 800 uur spraakopnames
(ongeveer 9 miljoen woorden) bevat. Het Nederlands is de eerste taal
waarvoor een dergelijke TST-centrale is opgericht en waarvoor zo'n
groot corpus met spraakopnames werd ontwikkeld. In dit opzicht zijn de
TST-centrale en het CGN internationaal een unicum en vervullen daarom
een belangrijke voorbeeldfunctie.
De TST-centrale is gevestigd aan het Instituut voor Nederlandse
Lexicologie (INL) te Leiden en is verantwoordelijk voor het verwerven,
beheren, onderhouden en verspreiden van digitale gegevensbanken (m.n.
corpora van gesproken en geschreven taal en elektronische
woordenboeken) die specifiek voor het Nederlands met overheidsgelden
zijn ontwikkeld. Deze bestanden zijn beschikbaar voor onderzoekers,
maar ook voor bedrijven die ze nodig hebben voor het ontwikkelen van
technologische toepassingen als digitale woordenboeken, instrumenten
voor machinevertaling, spelling- en grammaticacontrole bij
tekstverwerkingssoftware, interactieve leermethodes, automatische
informatiediensten en spraakgestuurde informatie- en navigatiesystemen
in auto's. Deze toepassingen zijn nodig om ervoor te zorgen dat
Nederlandssprekenden in de eigen taal kunnen communiceren in de
informatiemaatschappij. Voor een kleine afzetmarkt als het Nederlandse
taalgebied is daar steun van de overheid bij nodig. Omdat het
belangrijk is dat de beschikbare materialen toegankelijk zijn voor
alle doelgroepen en efficiënt benut kunnen worden is besloten ze onder
te brengen in één TST-centrale.
Het grootste corpus dat nu via de TST-centrale beschikbaar komt, is
het Corpus Gesproken Nederlands (CGN). Dit is het resultaat van een
groot Vlaams-Nederlands project dat in maart 2004 is afgerond. Het
doel van dit project was het aanleggen van een grote databank van het
hedendaags Standaardnederlands zoals dat wordt gesproken door
volwassenen in Nederland en Vlaanderen. Dit corpus bevat circa 9
miljoen woorden (ca. 800 uur spraakopnames) waarbij alle opnames zijn
uitgeschreven en van diverse annotaties voorzien. Dat is nuttig voor
onderzoek naar regionale taalverschillen in Nederland en Vlaanderen of
naar verschillen in uitspraak tussen mannen en vrouwen, ouderen en
jongeren, maar ook bijvoorbeeld naar verschillen in spraak bij formele
en informele gesprekken. Het Corpus Gesproken Nederlands is onmisbaar
voor allerhande praktische toepassingen. Zo zal het worden gebruikt
voor het "trainen" van computers zodat zij het Nederlands van alle
gebruikers kunnen herkennen, van mannen en vrouwen, uit Noord en Zuid.
Het project is gefinancierd door de Vlaamse en Nederlandse regeringen
en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. De
rechten berusten bij de Nederlandse Taalunie.
De TST-centrale en het Corpus Gesproken Nederlands worden op vrijdag 2
april 2004 gepresenteerd op een Vlaams-Nederlandse Taal- en
Spraaktechnologiedag die door de Nederlandse Taalunie in Rotterdam
(Hotel Engels) wordt georganiseerd. Het programma van deze TST-dag is
te vinden op: http://taalunieversum.org/agenda/203/.
Voor meer informatie kunt u contact opnemen met de Nederlandse
Taalunie, Annemieke Hoorntje, Postbus 10595, 2501 HN Den Haag,
Nederland. E-mail: ahoorntje@taalunie.org. Telefoon + 31 70 346 95 48.
© Nederlandse Taalunie, 2000/2004 - alle rechten voorbehouden
Nederlandse Taalunie