Universiteit Maastricht

Gezamenlijk persbericht UM/NWO

7 november 2008

Publicatie in Science over decodering van spraakverwerkingsprocessen

UM-wetenschappers maken neurale vingerafdruk van spraakherkenning

Wetenschappers van de Universiteit Maastricht hebben een methode ontwikkeld waarmee men in iemands hersenen kan aflezen wie tegen deze persoon praat en wat men tegen hem of haar zegt. Met behulp van neuro-imaging en data-mining technieken hebben zij de hersenactiviteit in kaart gebracht die betrokken is bij het herkennen van klanken en stemmen. In hun Science-artikel Who is Saying What ? Brain-Based Decoding of Human Voice and Speech laten de vier auteurs zien dat je klanken en stemmen kunt identificeren aan de hand van een unieke neurale vingerafdruk in de hersenen van de luisteraar. In de toekomst kunnen met deze nieuwe kennis computersystemen voor automatische spraak- en sprekerherkenning worden verbeterd.

Zeven proefpersonen luisterden naar drie verschillende klanken (de klinkers /a/, /i/ en /u/), uitgesproken door drie verschillende personen, terwijl met neuro imaging technieken (fMRI) hun hersenactiviteit in kaart werd gebracht. Met behulp van data mining methoden ontwikkelden de onderzoekers een algoritme om die hersenactiviteit te vertalen naar unieke patronen die de identiteit van een klank of een stem bepalen. De verschillende akoestische kenmerken van stembandtrillingen (formanten) blijken de hersenactiviteit te bepalen. Net als bij echte vingerafdrukken zijn de neurale patronen uniek èn specifiek: de neurale vingerafdruk van een klank verandert niet als iemand anders die klank uitspreekt en de vingerafdruk van een spreker blijft hetzelfde als diezelfde spreker iets anders zegt.

Uit deze studie bleek ook dat een deel van het complexe decoderingsproces van geluid plaatsvindt in de hersengebieden die tot nu toe verantwoordelijk werden gehouden voor vroege auditieve verwerkingsprocessen. Bestaande neurocognitieve modellen veronderstellen dat bij het luisteren naar geluiden verschillende gebieden in de hersenen actief zijn volgens een bepaalde hiërarchie: na een eenvoudige verwerking in de auditieve hersenschors vindt de complexere analyse (van klanken naar woorden) in gespecialiseerde hersengebieden plaats. De bevindingen van deze studie impliceren een minder hiërarchische verwerking van spraak die meer verspreid is over de hersenen.

Het onderzoek is mede gefinancierd door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO): twee van de vier auteurs, Elia Formisano en Milene Bonte voerden hun onderzoek uit met een NWO-beurs (Vidi en Veni). De data mining methoden zijn ontwikkeld tijdens het promotie-onderzoek van Federico De Martino (gepromoveerd aan de UM op 24 oktober jl.).

vrijdag 7 november 2008