Zelfs in kakofonie van geluid pikt computer spraak eruit
Uitzendingen van het acht uur journaal doorzoeken kan sinds kort
dankzij een spraakherkenner die vooraf getraind wordt. Promovendus
Marijn Huijbregts van de Universiteit Twente gaat echter nog een stap
verder: ook voor audio- en videobestanden die een spraakherkenner
vooraf helemaal niet kent, heeft hij een Spoken Document Retrieval
ontwikkeld. Zelfs bij onverwacht veel achtergrondruis kan deze
herkenner zijn werk goed doen. Huijbregts promoveert op 21 november
aan de faculteit Elektrotechniek, Wiskunde en Informatica.
Informatie uit tekst kan snel gevonden worden met bijvoorbeeld een
index in een boek of een zoekmachine als Google. Zoeken in audio- en
videobestanden, die geen gemakkelijk doorzoekbare index hebben, is
veel moeilijker. Om dit te vereenvoudigen kun je een spraakherkenner
gebruiken, aangezien je de meeste informatie uit audio- en
videobestanden over het algemeen uit spraak haalt. Met behulp van
opname door een spraakherkenner kan spraak worden omgezet in tekst.
Hiervoor is een Spoken Document Retrieval (SDR)-systeem nodig. Een
SDR-systeem maakt het mogelijk rechtstreeks in audio- en
videomaterialen te zoeken, net als het zoeken in tekstdocument. Een
soort Google voor audio en video dus.
Acht uur journaal
De Human Media Interaction-groep van de Universiteit Twente
ontwikkelde eerder een SDR-systeem voor het acht uur journaal. Met
behulp van zoektermen kan gezocht worden naar specifieke onderwerpen.
Dit systeem is specifiek getraind met teksten uit dagbladen en twintig
uur aan uitzendingen. Het SDR-systeem voor het acht uur journaal werkt
goed, omdat in deze situatie duidelijk is wat er ongeveer gezegd gaat
worden en er weinig omgevingsruis aanwezig is. Zou je dit systeem
ongetraind toepassen op andere videobestanden, dan werkt het niet naar
behoren. Huijbregts vroeg zich af of hij ook een SDR-systeem kon
ontwikkelen, waarvoor bijna geen trainingsdata nodig is en dat toch
onbekende audio- en videobestanden goed kan verwerken.
SHoUT
Bij onbekende audio- en videobestanden is het vooraf niet duidelijk
wat er allemaal gaat gebeuren: wie wat zegt, wat er gezegd gaat worden
en welke omgevingsgeluiden er zijn. Huijbregts ontwikkelde daarom een
SDR-systeem, dat zo robuust mogelijk is voor deze onbekende
omstandigheden: SHoUT (Spraak Herkennings onderzoek Universiteit
Twente). Het SDR-systeem is robuust als het in staat is om alle audio-
en videobestanden te verwerken onder allerlei omstandigheden, zoals
veel achtergrondruis of waarbij onduidelijk wordt gesproken.
SHoUT is opgedeeld in drie verschillende stappen. In de eerste stap
maakt het systeem onderscheid tussen spraak en andere geluiden.
Hierbij wordt bijvoorbeeld achtergrondmuziek gefilterd van spraak. De
tweede stap die het systeem neemt is het identificeren van de
verschillende sprekers en deze labellen. Dan is het tijd voor de
laatste stap: de automatische spraakherkenning. Hier zet het systeem
spraak om in tekst. Het tekstbestand kun je nu met trefwoorden
doorzoeken naar relevante onderwerpen, zoals Google dat doet met
tekstbestanden op internet.
Schematisch overzicht van SHoUT
Schematisch overzicht van SHoUT
De eerste versie van SHoUT is beschikbaar, maar wordt verder
ontwikkeld door de promovendus. SHoUT en andere demonstraties van
SDR-systemen zijn te vinden op de website van Huijbregts.
Universiteit Twente