Jouw stem die jou alles kan laten zeggen, zonder dat je het zelf weet. Zo kun je Vall-E samenvatten, de recent gelanceerde text-to-speech-tool van Microsoft. Na een sample van slechts 3 seconden van iemands stem gehoord te hebben, kan dit A.I.-model vrijwel foutloos uitgesproken zinnen reproduceren, waarbij je nauwelijks kunt herkennen dat het een machine is die tegen je praat, en niet degene van wie hij het stemgeluid ‘geleend’ heeft. Hij kan zelfs intonatie en emotie als boosheid, frustratie en ‘slaperig’ in de gesproken tekst leggen.
Vall-E is getraind met 60.000 uur aan (Engelstalige) spraakopnames.
Vall-E is getraind met 60.000 uur aan Engelstalige spraakopnames, schrijven onderzoekers in een researchpaper. Het Vall-E-model is getest door studenten van Cornell University, die een website met allerlei demo’s publiceerden. Op deze pagina zijn verschillende echte spraakopnames te horen, die zijn gebruikt als sample voor Vall-E. Bij iedere sample worden vervolgens spraakopnames gepubliceerd die door Vall-E zijn gegenereerd.
Overtuigend of niet
Hoe overtuigend het nu al is? Dat is waarschijnlijk vooral iets om zelf uit te vinden. Maar net zoals deep fake-video’s soms behoorlijk nep ogen, maar vaak ook verbluffend echt, geldt dit ook voor de geluidsopnames van Vall-E, die over het algemeen behoorlijk indrukwekkend zijn. De onderzoekers schrijven zelf trouwens ook dat het A.I.-model nog bepaald niet perfect is. Bepaalde woorden uit de tekstprompt kunnen bijvoorbeeld worden overgeslagen, of juist dubbel voorkomen in de gesproken tekst.
Op dit moment is Vall-E nog niet openbaar beschikbaar.
Ook erkennen de onderzoekers dat er een gevaar schuilt in deze technologie, omdat je hiermee – zonder toestemming – iemands stem dingen kunt laten zeggen die hij of zij nooit gezegd heeft. Wel is het volgens hen mogelijk om een detectiemodel te ontwikkelen dat kan herkennen of een geluidsfragment door Vall-E is gegenereerd. Op dit moment is Vall-E nog niet openbaar beschikbaar, zoals ChatGPT. En of dat ooit gebeurt, is ook nog maar de vraag, aldus Microsoft.
Vervanging van sollicitatiegesprekken?
Hoe dan ook is het interessant om na te denken over de implicaties van zulke technologie. De meeste huidige chatbots kunnen onmogelijk doorgaan voor een menselijke stem. Maar wat als dat wél zo is, en deze technologie bijvoorbeeld kandidaten kan bellen voor een eerste screening-gesprek? Of – als je het werkelijk structureel aanpakt – voor sollicitatiegesprekken, waarbij elke kandidaat het gevoel heeft daadwerkelijk met een mens van vlees en bloed in gesprek te zijn? Want waarom zou je zelf nog iemand bellen als een computer dat (in principe) net zo goed kan doen?
Het zou de volgende stap kunnen zijn in wat wel bekend staat als ‘Interview Intel’.
Het zou de volgende stap kunnen zijn in wat wel bekend staat als ‘Interview Intel’, oftewel: meer op wetenschap gebaseerde sollicitatiegesprekken dan de random gesprekken die het nu nog vaak zijn, die vaak meer lijken te draaien om de vraag of de interviewer de geïnterviewde aardig vindt dan om de daadwerkelijke kwaliteiten van de kandidaat voor de betreffende functie. Het enige is: wat als de techniek wél beschikbaar komt, en ook kandidaten de voordelen ervan ontdekken? Zouden zij de tool dan niet kunnen inzetten om ook voor hen het volledige sollicitatiegesprek te voeren?