‘Je klinkt nogal boos vandaag, wat is er?’

‘Aan de borreltafel’ is een rubriek over wetenschap. Wetenschapsjournalist Enith Vlooswijk praat met én tekent over UT-onderzoekers, die vertellen over hun vakgebied en de misvattingen die hierover bestaan. In deze twaalfde aflevering: Arjan van Hessen, onderzoeker op het gebied van spraakherkenning.

Het liefst zou Arjan van Hessen een zelflerend algoritme ontwikkelen dat de computer verandert in een fijne gesprekspartner. Niet eentje die korte antwoorden geeft op simpele vragen als ‘hoe laat is het’ en ‘hoe laat sluit de supermarkt?’, maar een met wie je een vol halfuur kunt discussiëren.

‘Dat lijkt me echt een geweldige volgende stap: de computer niet als bron van informatie, maar als een bron van gezelligheid’, zegt hij. ‘Die kan horen of ik blij ben, verdrietig, of kwaad. Die zou dan de vraag kunnen stellen: goh, je klinkt nogal boos vandaag, wat is er gebeurd?’

Van Hessen, onderzoeker op het gebied van spraakherkenning, zal nog even moeten wachten. De technologie is zover dat een computerprogramma zo’n 93 procent van een gesproken uiting kan omzetten naar geschreven taal. Dat wil zeggen: bij ideale omstandigheden. Wanneer een algoritme van de onderzoeker een opname van dit interview omzet naar geschreven tekst, blijkt het resultaat nog behoorlijk lastig te lezen. ‘Schoenen kopen’ wordt ‘schande koken’ en de naam Enith klinkt volgens het algoritme als ‘één in het’. Zelfs als een algoritme die 93 procent wel haalt, is er nog een groot verschil tussen spreek- en schrijftaal, vertelt Van Hessen. Onze aarzelingen, onderbrekingen in het midden van de zin en slordig uitgesproken woorden zijn een crime voor elk vertaalprogramma. ‘We spreken zelden in grammaticaal correcte volzinnen.’

Als spraaktechnoloog is Van Hessen zich daarvan wat meer bewust dan de gemiddelde taalgebruiker. ‘Soms vraagt iemand hoe ik heet, maar ik spreek de ‘H’ van ‘Van Hessen heel minimaal uit. Je hoort hem als je weet dat hij er zit. Dat gaat heel vaak fout en dan denk ik: zo gaat spraakherkenning. Ik realiseer me hoe wij communiceren en wat er fout gaat.’

Nu is het doodnormaal om Google de weg te vragen, maar tot 2010 leek het nog verre toekomstmuziek, herinnert Van Hessen zich. Dat jaar presenteerde Microsoft spraakherkenning op basis van deep neural networks (zelflerende algoritmes). ‘De prestaties waren zoveel beter dan wat daarvoor gebeurde, dat binnen een jaar ongeveer iedereen in de hele wereld deze methode omarmde.’ Inmiddels staan alledaagse gebruikers van spraakherkenningstechnologieën niet eens meer stil bij de complexiteit van spraakherkenningstechnologie, merkt de onderzoeker. ‘Het is een onzichtbare technologie en mensen verwachten dat het honderd procent van de tijd werkt.’

De volgende grote stap in zijn vakgebied is een programma dat niet alleen woorden ontcijfert, maar uit die woordenbrij ook de bedoeling van de spreker filtert. Pas dan zou de computer echt kunnen fuctioneren als een gesprekspartner. Van Hessen snapt dat daar ethische bezwaren aan kunnen kleven. ‘Vroeger kon de computer de getallen nul tot en met tien herkennen. Daar ligt niemand wakker van. Nu al klinkt het vaak zo goed dat mensen het niet doorhebben dat ze spreken met een computer. Sommigen vinden dat het systeem dat kenbaar moet maken, anderen zien daar het nut niet van in. Dat zijn best wel fundamentele vragen in mijn ogen.’

Voorlopig is Van Hessen zelf nog druk met algoritmes die ook de emotionele lading van woorden begrijpen. ‘Ik kan tegen jou zeggen: Jaa…. (Rolt met zijn ogen.) Maar dan bedoel ik dus nee.’ Tja, maak dat een computer maar eens wijs.