Är du intresserad av dem ERBJUDANDEN? Spara med våra kuponger på WhatsApp o TELEGRAM!

Microsoft VALL-E kommer att imitera vår röst efter bara 3 sekunders tal

Januari 11 2023

På bara 3 sekunder kan en AI som aldrig har hört dig tala imitera din röst perfekt. Detta är den senaste bedriften av Microsofts artificiella intelligens - VAL-E text-till-tal-modellen, som kan kopiera allas röst efter behag med bara 3 sekunders tal.

Microsoft VALL-E kommer att imitera vår röst efter bara 3 sekunders tal

Den härstammar från DALL E, men är specialiserad på ljudområdet, och text-till-tal-effekten blev populär efter att den släpptes online.

Vissa användare sa att om VAL·E och ChatGPT kombineras kommer resultatet att bli fantastiskt. För andra verkar det som att dagen då det blir möjligt att ringa videosamtal med AI inte är långt borta. Det finns till och med de som skämtar om att efter att AI har tagit hand om författarna och målarna, nästa är röstskådespelarna.

Men hur imiterar VAL·E ett "ohört" ljud på 3 sekunder?

ALL-E analyserar ljud med språkmodeller. Den syntetiserar tal baserat på AI "ohörda" ljud, d.v.s. nollprovsinlärning.

Den traditionella text-till-tal-lösningen är i grunden ett pre-workout-läge tillsammans med en finjustering. Om det används i ett scenario med nollexempel kommer det att resultera i dålig likhet och naturlighet hos det genererade talet.

Baserat på detta kom VALL-E från ingenstans och föreslog en annan idé än den traditionella sångmodellen.

Jämfört med den traditionella modellen som använder Mel-spektrat för att extrahera egenskaper, tar ALL-E direkt talsyntes som en uppgift för språkmodellen, den förra är kontinuerlig och den senare är diskret.

I synnerhet är den traditionella talsyntesprocessen ofta vägen för "fonem → mel-spektrogram (mel-spektrogram) → vågform".

Men VALL -E förvandlade denna process till "fonem→diskret ljudkodning→vågform":

När det gäller modelldesign liknar ALL-E också VQVAE. Kvantiserar ljud till en serie diskreta tokens. Den första kvantiseraren är ansvarig för att fånga ljudinnehållet och identitetsegenskaperna för högtalaren, medan den andra kvantiseraren ansvarar för signalförfining. vilket låter mer naturligt:

Sedan betingad av texten och 3-sekunders ljudprompten, matar den autoregressivt ut en diskret ljudkodning:

Men inte bara det, förutom talsyntes med noll sampel, stöder ALL-E även röstredigering och skapande av röstinnehåll i kombination med GPT-3.

Det omgivande bakgrundsljudet kan också återställas

Att döma av de syntetiserade rösteffekterna kan VALL-E återställa mer än bara högtalarens klang.

Tonhöjden imiteras inte bara på plats, utan den stöder också en mängd olika talhastigheter. Till exempel är det två olika talhastigheter som tillhandahålls av VAL-E när samma mening läses upp två gånger, men tonlikheten är fortfarande hög:

Samtidigt kan bakgrundsljudet från den andra parten också återställas korrekt.

Dessutom kan VALL-E efterlikna en mängd olika talarens känslor, inklusive flera typer som arg, sömnig, neutral, glädje och illamående.

Det är värt att nämna att datamängden som används för VALL·E-utbildningen inte är speciellt stor.

Jämfört med OpenAIs Whisper, som krävde 680.000 7.000 ljudträningstimmar och bara använde mer än 60.000 XNUMX högtalare och XNUMX XNUMX träningstimmar, överträffade VALL-E förtränad text-till-tal vad gäller likhet med Model YourTTS text-to-speech.

Dessutom hörde YourTTS rösterna från 97 av 108 högtalare i förväg under träningen, men den faller fortfarande under VAL-E i själva testet.

När det gäller fälten där det kan tillämpas:

Den kan inte bara användas för att efterlikna din egen röst, som att hjälpa funktionshindrade personer att slutföra en konversation med andra, utan du kan också använda den för att tala för dig när du inte vill. Naturligtvis kan den även användas för ljudboksinspelning.

VALL-E är dock inte öppen källkod ännu och du kan behöva vänta lite längre med att testa det.