Ik hoor dode mensen? Natuurlijke taaltechnologie brengt verleden en tegenwoordige stemmen tot leven

Video: Beyond Death (Full Episode) | The Story of God with Morgan Freeman

Inhoud

Grote veranderingen in NLP
Spannende "to Voice" creaties bij Vivo
Kunstmatige stem in marketing
Je stem leeft op
In het jaar 2525

Afhaal:

Vergeet ingeblikte stemmen; het reproduceren van echte is het nieuwe doel voor natuurlijke taalverwerking.

Tegenwoordig zijn de meeste computerstemmen passé. Je wordt waarschijnlijk niet erg opgewonden van cyborgs en robots als je de "droid" op je telefoon hoort die je helpt met het betalen van een factuur of je vraagt welke afdeling je wilt. Maar wat als u plotseling Kurt Cobain hoorde vragen om kaartinformatie? Of John F. Kennedy die je vertelt over de wonderen van vroeg stemmen? Of Elvis krijgt je naam en adres voordat ze inbreken in "een stuk, een stuk brandende liefde?"

Dit zou allemaal ... nogal raar zijn, maar wat nog fascinerender is, is dat de technologie er eigenlijk al is. Nog geen tien jaar geleden waren we verbaasd over het vermogen van computers om zelfs maar te praten. Nu staan we op het punt om te worden gevloerd door vrij bereikbare, door de computer gegenereerde stemmen die klinken als mensen die we kennen.

Grote veranderingen in NLP

Als u aandacht besteedt aan het gebied van natuurlijke taalverwerking (NLP), heeft u misschien gehoord over een aantal recente ontwikkelingen die verder gaan dan het soort ingeblikte virtuele assistent-stemmen die we nu horen in onze wereldwijde positioneringssystemen (GPS) en geautomatiseerde bedrijven telefoonlijnen.

Het begin van NLP vereiste heel wat onderzoek naar de algemene mechanica van menselijke spraak. Onderzoekers en ingenieurs moesten individuele fonetiek identificeren, ze in grotere algoritmen vouwen voor het genereren van zinnen en zinnen, en vervolgens proberen om alles op een metaniveau te beheren om iets te genereren dat echt klonk. Na verloop van tijd hebben de NLP-leiders dit onder de knie en begonnen ze geavanceerde algoritmen te bouwen om te begrijpen wat mensen zeggen. Door deze twee samen te voegen, bedachten bedrijven de stuurprogramma's voor de virtuele assistenten van vandaag en volledig digitale factureringsmedewerkers, wiens maniertjes - hoewel vervelend - nog steeds verbazingwekkend zijn als je stopt met nadenken over het werk dat hen is tegengekomen.

Nu gaan sommige bedrijven verder dan de generieke virtuele stem om een specifieker gepersonaliseerd resultaat samen te stellen. Dit vereist het doornemen van het lexicon van een bepaalde persoon en het verzamelen van grote hoeveelheden unieke spraakvideo, en vervolgens dit archief toepassen op de complexe ritmes voor fonetiek, nadruk, cadans en alle andere kleine aanwijzingen die taalkundigen vaak groeperen onder de brede vlag van 'prosodie'.

Wat eruit komt is een stem die luisteraars beschouwen als 'eigendom' van een bepaalde persoon - iemand die ze kennen en waarmee ze hebben gesproken, of iemand wiens stem ze herkennen als gevolg van de bekendheid van de persoon.

Van Elvis tot Martin Luther King, ieders stem kan nu op deze manier worden "gekloond" - op voorwaarde dat er een substantieel vooraf opgenomen opname van hun spraak is. Door nog meer gedetailleerde analyse en manipulatie toe te passen op individuele kleine geluiden, kunnen bedrijven een virtuele kopie van iemands stem maken die veel op het echte geluid lijkt.

Spannende "to Voice" creaties bij Vivo

Vivo is bijvoorbeeld een bedrijf dat een revolutie teweegbrengt in het gebruik van kunstmatige menselijke stemmen voor allerlei campagnes, van audioboeken tot interactieve spraakrespons (IVR). Bij Vivo werken onderzoeks- en productieteams aan processen die in theorie specifiek de stemmen van overleden beroemdheden, zoals Ol Blue Eyes zelf, kunnen repliceren.

"Om de stem van Frank Sinatra te klonen, zouden we zijn opgenomen nalatenschap doornemen", zegt Vivo CEO Gershon Silbert, over hoe dit soort technologie zou kunnen werken.

Op dit moment werkt Vivo aan het archiveren van de stemmen van degenen die nog bij ons zijn, zoals NPR-correspondent Neal Conan, die zich heeft aangemeld als een model voor dit soort IT-pioniersproject. Een promotievideo toont Vivo-medewerkers die nauwgezet fonetische codemodules maken met behulp van de beschikbare spraakinvoer van Conan. Vervolgens maken ze de modellen voor to speech-tools (TTS) die een dramatisch menselijk en gepersonifieerd resultaat oproepen.

Volgens Ben Feibleman, vice-president strategie en bedrijfsontwikkeling bij Vivo, werkt de computer op foneemniveau (met de kleinste unieke delen van spraak) om zich te conformeren aan een prosodisch model voor een individuele menselijke stem.

"Het weet hoe de stem spreekt," zegt Feibleman, eraan toevoegend dat de computer door "eenheidsselectie" te gebruiken, een aantal stukken kiest om een enkel kort woord samen te stellen, zoals waar het woord "vrijdag" vijf componenten krijgt die helpen ontwikkelen een bijzondere nadruk en tonaal resultaat.

Kunstmatige stem in marketing

Dus, hoe werkt dit in marketing? De producten van Vivo kunnen zeer nuttig zijn bij het maken van producten, zoals audioboeken, die een doelgroep kunnen bereiken. Hoeveel effectiever zou een Elvis-stem bijvoorbeeld worden vergeleken met een van de generieke, deadpan, geautomatiseerde stemmen van vandaag als deze zou worden gebruikt om aan entertainment gerelateerde producten te verkopen?

Of, hoe zit het in de politiek? Feibleman heeft gewerkt aan verschillende ideeën om projecten als deze te gebruiken om marketing te verbeteren voor bedrijven of andere partijen die effectievere berichten nodig hebben.

"Als u politici kent die zich kandidaat stellen voor de president, kan dit ervoor zorgen dat 10 miljoen swing-state-kiezers een persoonlijk telefoontje krijgen van een kandidaat, hen bedanken voor hun steun en hen vertellen waar ze moeten gaan stemmen, het weer en alles erop en eraan nacht voor de verkiezingen, "zei Feibleman.

Je stem leeft op

Er is nog een voor de hand liggende toepassing op al deze technologie. Bedrijven in natuurlijke talen zoals Vivo kunnen een persoonlijke service maken die alle spraakgegevens van een klant naar een product uploadt waarmee die persoon "voor altijd" kan spreken.

Praktische implementatie zou waarschijnlijk een aantal vragen oproepen over hoe we gesproken stemmen horen en internaliseren. Wat is er bijvoorbeeld voor nodig om een geluidsstream precies zo te laten klinken als iemand? Hoe goed moeten we een persoon kennen om een bepaalde stem te herkennen? En interessant genoeg, wat gebeurt er als een natuurlijke taaldienst een grove karikatuur produceert in plaats van een dwingende nabootsing?

Resultaten evalueren, zegt Feibleman, hangt vaak af van de overweging van con. Hij zegt bijvoorbeeld dat kinderen meestal geen vragen stellen over wie er aan het woord is als ze naar een verhaal luisteren. Ze willen gewoon meer. Maar ook, veel volwassenen denken misschien niet na over wie er met hen praat, gezien een bepaald scenario, zoals een passieve uitzending of telefoon. Het is ook gemakkelijker om via de telefoon door een computer voor de gek te worden gehouden, omdat het gedempte geluid glitches of andere discrepanties tussen de computerresultaten en een menselijke stem kan maskeren.

"Het komt niet in je op om de authenticiteit van de stem te betwisten", zegt Feibleman.

In het jaar 2525

Naarmate bedrijven vooruitgaan in het ontwikkelen van producten en diensten en het beantwoorden van deze vragen, kunnen technologieën voor 'levende spraak' ons helpen om die convergentie van technologie en de menselijke geest te bereiken, die klassiek kunstmatige intelligentie (AI) wordt genoemd.

Als computers kunnen spreken zoals wij, kunnen ze andere gebruikers misleiden door te denken dat ze denken zoals wij, wat ons voedt in het grotere principe van singulariteit, zoals John von Neumann, een technisch pionier uit de jaren 1950, geëvolueerd door schrijvers. en denkers zoals Ray Kurzweil. Kurzweils 2005 boek, "The Singularity Is Near," windt sommigen op en maakt anderen bang. Kurzweil heeft voorspeld dat "intelligentie" als een fenomeen tegen 2045 sterk ongrijpbaar zal worden uit het menselijk brein en zal migreren naar technologie, waardoor de lijnen tussen machines en hun menselijke meesters vervagen.

Onsterfelijk gemaakt in de tekst van Zager & Evans "In the Year 2525" (niemand doet enge sci-fi ballads zoals deze jongens) ...

In het jaar 4545
Je zult je tanden niet nodig hebben, niet nodig
jouw ogen
Je zult niets vinden om op te kauwen
Nobodys zal naar je kijken

In het jaar 5555
Je armen hangen slap langs je lichaam
Je benen hebben niets te doen
Sommige machines doen dat voor u

Zijn computerstemmen een stap in deze richting? Als een nieuwe manier om sommige functies van het menselijk lichaam te outsourcen (of vaker om ze te simuleren), is dit soort technologische vooruitgang een van de grootste - en waarschijnlijk ondergemelde - vorderingen op de horizon als we naar een unieke toekomst kijken . (Lees meer over 'de singulariteit' in Kunnen computers de menselijke geest imiteren?)