La sintesi vocale espressiva secondo NVIDIA

All'Interspeech 2021 NVIDIA ha presentato la sua ricerca sulla sintesi vocale espressiva. Un progetto innovativo che consente di generare e convertire voci in maniera dettagliatissima.

La sintesi vocale espressiva di Nvidia presentata all'Interspeech 2021
La sintesi vocale espressiva di Nvidia presentata all'Interspeech 2021

Ti ricordi le voci dei primi navigatori satellitari? Oppure i primi sintetizzatori vocali? Ricordo che mi divertivo con quello dell'Amiga 500 (primi anni '90) ma ti lascio immaginare la qualità.
L'intelligenza artificiale è l'elemento che ha determinato un grande cambio di passo fino a condurci ai toni raffinati degli attuali assistenti virtuali negli smart speaker ed in molti altri touchpoint.

Nonostante questo, c'è ancora un divario per arrivare all'emulazione fedele del "parlato umano" che possiamo sentire nelle conversazioni quotidiane. Questo perché le persone parlano con ritmi, intonazioni e timbri complessi da riprodurre anche dai più moderni modelli di AI.

Tuttavia l'accelerazione tecnologica sta producendo degli enormi progressi, dei quali ho già parlato, ad esempio, nel post relativo al progetto MateDub.
I ricercatori NVIDIA stanno sviluppando modelli evoluti che possono essere applicati in moltissimi ambiti, ad esempio ad assistenti virtuali per l'assistenza clienti, nei videogiochi, per gli audiolibri, su avatar digitali, e molto altro. Il lavoro di ricerca è stato presentato all'Interspeech 2021.

Il team creativo interno di NVIDIA, inoltre, utilizza questa tecnologia anche per produrre una narrazione espressiva in una serie di video dedicati all'intelligenza artificiale.

Un video del sistema NVIDIA per la sintesi vocale espressiva

La sintesi vocale espressiva è solo uno degli elementi del lavoro di NVIDIA Research nell'AI conversazionale, la quale  comprende anche NLP (elaborazione del linguaggio naturale), ASR (Automated Speech Recognition), il keyword detection, e altro ancora.

Modelli di Conversational AI con MeMo

Il progetto dedicato alla sintesi vocale è stato chiaramente ottimizzato per funzionare su GPU NVIDIA, ed è stato reso possibile a partire da NeMo, un toolkit open source dedicato ai ricercatori che sviluppano modelli di AI conversazionale.


L'analisi della voce umana

La svolta nel lavoro di NVIDIA è da attribuire allo sviluppo di modelli come RAD-TTS. Il video che segue ne mostra una demo.

Addestrando il modello di sintesi vocale con l'audio del parlato di un individuo, RAD-TTS può convertire qualsiasi messaggio di testo nella voce di chi parla.

Un'altra delle sue caratteristiche è la possibilità di convertire la voce registrata di una persona con la voce di un'altra in maniera precisissima. Ad esempio si potrebbe registrare una voce che legge la sceneggiatura di un video e quindi utilizzare il modello di AI per trasformare quel parlato nella voce di un altro narratore, anche di sesso diverso.
Partendo da questo output, il produttore potrebbe quindi dirigere l'intelligenza artificiale come farebbe con un doppiatore, modificando il parlato sintetizzato per enfatizzare parole specifiche e modificando il ritmo della narrazione per esprimere meglio il tono del video.

The AI model’s capabilities go beyond voiceover work: text-to-speech can be used in gaming, to aid individuals with vocal disabilities or to help users translate between languages in their own voice. It can even recreate the performances of iconic singers, matching not only the melody of a song, but also the emotional expression behind the vocals.
- Isha Salian, NVIDIA

Per approfondire

NVIDIA Shares Speech Synthesis Research at Interspeech | NVIDIA Blog
Developers and creators can access conversational AI models for expressive speech synthesis to generate voices for characters, virtual assistants and avatars.
NVIDIA NeMo
NVIDIA NeMo NVIDIA NeMo™ is an open-source toolkit for researchers developing state-of-the-art conversational AI models. Download Now Building state-of-the-art conversational AI models requires researchers to quickly experiment with novel network architectures. This means going through the complex a…
Clonazione della voce? Il progetto MateDub!
Cos’è MateDub? Uno strumento per fare doppiaggio utilizzando voci prodotte da un’intelligenza artificiale allenata ascoltando i migliori doppiatori. Scopri i dettagli!