L'AI generativa a supporto del videomaker professionista: un video su Padova incontra Runway

Attraverso l'esperienza di Matteo, un videomaker professionista con grande esperienza vediamo come possiamo usare l'AI nei flussi di lavoro creativo per potenziare le capacità e le competenze. Scopriamo, inoltre, il primo video su Padova generato attraverso l'AI generativa di Runway.

L'AI generativa a supporto del videomaker professionista: un video su Padova incontra Runway
L'AI generativa a supporto del videomaker professionista: un video su Padova incontra Runway

Spesso leggiamo espressioni catastrofiche per quanto riguarda l'intelligenza artificiale e il mondo del lavoro. Personalmente, ritengo corretto interpretare questa nuova generazione di strumenti come un'estensione delle nostre capacità: sistemi che possono amplificare le nostre competenze per ottenere dei risultati migliori.

Per questo motivo, ho portato in questo post l'esperienza di Matteo Menapace, un caro amico, ma anche un videomaker professionista molto esperto e appassionato. Una passione che l'ha spinto a sfidare le estreme temperature della Siberia, l'ardente inferno del deserto iraniano del Lut e l'ha condotto persino sulle vette della catena montuosa del Karakorum, arrivando a presentare dei progetti alla Mostra del Cinema di Venezia.

Matteo sta introducendo dei sistemi basati sull'AI nei suoi flussi di lavoro e ha realizzato un piccolo video dimostrativo su Padova, la città in cui è nato e dove vive attualmente. Prima di tutto, guardiamo la produzione. Successivamente andiamo a capire l'approccio e il pensiero.

Come è stato realizzato

Dopo moltissima sperimentazione, ha scelto di usare Runway: un sistema molto potente, basato sull'AI, dedicato alla generazione e all'editing di video.

Il mio obiettivo non era generare nuove "immagini", quanto vedere come l'IA potesse modificare creativamente immagini già esistenti. Volevo attingere al mio vasto archivio personale per elaborarlo e verificare se potevo ottenere qualcosa di interessante. Fin dall'inizio, ho pensato di utilizzare immagini di Padova per creare un breve video promozionale del territorio, trasformando le riprese in qualcosa di unico.
Le fasi della generazione del video partendo da una ripresa
Le fasi della generazione del video partendo da una ripresa

Per ottenere il risultato ho realizzato moltissimi test, che mi sono stati utili anche per conoscere il nuovo strumento. Ho usato ChatGPT per creare un testo narrativo di circa 30 secondi, focalizzato sulla bellezza di Padova, sull'intelligenza artificiale e su come questi due elementi possano suscitare interesse nella visita della città. Il contenuto è stato doppiato da uno speaker professionista.

Le fasi di montaggio del video
Le fasi di montaggio del video
Ho dedicato molto tempo a costruire ciò che è noto come sound design, ovvero l'aggiunta di effetti sonori come il temporale nelle scene introduttive del Santo, una colonna sonora epica e il rumore della città nelle scene davanti al Pedrocchi, oltre agli effetti sonori durante le riprese aeree del Prato della Valle, e così via. A mio parere, ho ottenuto il risultato desiderato. Il video generato non è straordinario, ma riesce a comunicare le opportunità creative che questa tecnologia può offrire al mio lavoro. Siamo ancora agli inizi e ciò significa che c'è ampio spazio per migliorare e crescere.

L'intelligenza artificiale generativa a supporto dei professionisti

Ho fatto qualche domanda a Matteo per capire meglio l'approccio di un professionista nei confronti di questa generazione di algoritmi.

Quali saranno gli sviluppi futuri di questi sistemi?

Il mondo dell'AI ci sta mettendo di fronte a un'accelerazione spaventosa. In qualche mese, ad esempio, siamo passati da una generazione Text-To-Video totalmente incoerente e di bassa qualità a video praticamente perfetti.

L'evoluzione della funzionalità Text-To-Video in 4 mesi

È appena stato rilasciato un nuovo aggiornamento di Runway, l'applicazione che ho utilizzato per lo sviluppo del mio progetto, e non vedo l'ora di dedicare del tempo a studiarne a fondo le nuove funzionalità.
Questo aggiornamento sicuramente conterrà una serie di migliorie, grandi e piccole, che potrebbero avere un impatto significativo nel mio flusso di lavoro.

L'uso dell'intelligenza artificiale nel campo dell'editing video sta aprendo porte a soluzioni creative e innovative che potrebbero cambiare radicalmente il modo in cui concepiamo e realizziamo i progetti multimediali.

La nuova funzionalità di Runway

L'aggiornamento di Runway permette di generare video più estesi rispetto alla versione precedente, passando da 4 secondi a 18 secondi. Nell'annuncio ufficiale della nuova funzionalità pubblicato da Runway su X, si può vedere un piccolo tutorial che lo spiega.

Quello che segue è un esempio di video "esteso" generato con Runway Gen-2 partendo da una immagine creata attraverso Midjourney. La qualità che già oggi abbiamo a disposizione è davvero elevata.

Il video è stato generato da Tatiana Tsiguleva (@ciguleva) con Runway Gen-2

Il video seguente, invece, mette a confronto la generazione video che si poteva ottenere da un'immagine prima e dopo il rilascio della nuova funzionalità.

Il video del confronto, creato da @CuriousRefuge con Runway Gen-2

L'aspetto degno di nota è il miglioramento della stabilità delle scene. La stabilità, è sempre stato uno dei principali problemi nella generazione video, ma sembra in via di risoluzione.


Quali competenze sono necessarie per integrare queste tecnologie nella produzione video professionali?

Questa è una domanda sulla quale si potrebbero spendere fiumi di inchiostro.

Secondo me questi strumenti sono davvero straordinari, ma senza una conoscenza della materia si rischia di usarli “con il freno a mano tirato".

Mi spiego meglio. Prendiamo ad esempio un fotografo esperto: nonostante abbia la stessa conoscenza del tool di un principiante, sarà in grado di sfruttare al massimo le potenzialità di Midjourney. Questo perché le competenze pratiche che ha sviluppato sul campo gli consentono di prendere decisioni consapevoli riguardo ai prompt da inserire nell'applicazione. La sua esperienza gli permette di valutare attentamente la situazione, di fare scelte corrette e di perdere meno tempo.

Sono fermamente convinto che l'esperienza sia un fattore determinante in qualsiasi ambito. Anche nel dominio dell'AI.

Nel contesto del video making, l'esperienza consente di sviluppare un occhio critico, una sensibilità artistica e una comprensione profonda dei dettagli tecnici. Questi elementi si riflettono nell'uso degli strumenti tecnologici rendendo l'approccio più sofisticato e creativo.

La capacità di applicare la tecnologia in modo efficace e innovativo dipende fortemente dall'esperienza e dalla competenza di chi li utilizza. E questo vale sempre, in tutti i contesti.

Quali sono gli scenari e le applicazioni in cui vedi maggiori potenzialità? Che tipo di video potranno essere realizzati beneficiando di questi algoritmi?

Le applicazioni sono infinite perché i video vengono usati in qualsiasi contesto e ramo della comunicazione.
Potremmo avere “deepfake” sempre più incredibili, ma anche video di cerimonie dove con un click possiamo rimuovere la vecchia fidanzata che crea fastidi.
Video documentaristici dove l’audio registrato sulla vetta di una montagna in mezzo a raffiche di vento potrà essere ripulito in un attimo, migliorando notevolmente la resa emotiva della ripresa.
Secondo me non esiste video che non possa essere migliorato… ma sta sempre al buon gusto di chi lo postproduce.

Certe volte, ad esempio, è meglio lasciare l’imperfezione che rende più “sincera” la ripresa!

L'AI generativa in questo settore sarà solo una riduzione dell'effort di produzione? O può fare molto anche durante il processo creativo?

Personalmente dedico sempre un considerevole lasso di tempo in ogni mio progetto per scoprire l'idea che sia in sintonia con me stesso e con le aspettative del mio cliente. Questo è un aspetto che l'AI attualmente non può assolvere. L'intelligenza artificiale può supportarci nella pre-visualizzazione di una scena e nell'elaborazione di sfondi o effetti particolari, ma la concezione stessa della scena è un compito che spetta a me.

Dal mio punto di vista la creatività
è un tesoro senza prezzo.

La creazione di effetti particolari richiede la mia scelta personale, poiché sono consapevole dei gusti e delle preferenze del mio cliente. Sono convinto che affidarsi esclusivamente all'algoritmo rischierebbe di essere controproducente, rischiando di perdere tempo e di non raggiungere gli obiettivi desiderati.
Insisto, la creatività è un valore incommensurabile, attualmente fuori dalla portata di qualsiasi algoritmo.

L'AI può assistere, ma l'atto di immaginare, inventare e innovare rimane una prerogativa umana, fondamentale per produrre risultati autentici e appaganti.

Spesso si sentono frasi pessimistiche sull'AI e il mondo del lavoro. Molti content creator nutrono dei timori. Tu, invece, hai abbracciato questi nuovi mezzi con entusiasmo. Perché? Qual è stata la leva? Cosa consiglieresti ai tuoi colleghi?

Fin da quando ero bambino ho sempre amato sperimentare e provare cose nuove! Oggi svolgo una professione che a quel tempo non esisteva, ma l'istinto non è cambiato.

Ho vissuto l'era in cui pensare a una singola persona in grado di realizzare una produzione video era impensabile, soprattutto a causa delle limitazioni dell'attrezzatura. L'era analogica con i suoi costi elevati era l'unico punto di riferimento, il digitale era ancora lontano. Se avevi un'idea, dovevi inevitabilmente affidarti ad altre figure per poterla realizzare. Chi possedeva una telecamera e sapeva come usarla, un fonico che catturava l'audio e un montatore esperto che gestiva il materiale girato con costosi strumenti di editing.

Con l'arrivo del digitale, molte di queste complessità sono state semplificate ed è emersa la figura del videomaker, una persona che con una telecamera e un computer può realizzare autonomamente, seppur con alcune limitazioni, un risultato accettabile.
Tuttavia, l'avvento del digitale non ha decretato la scomparsa delle figure professionali menzionate in precedenza, le quali si sono evolute.

Ecco perché, secondo me, l'intelligenza artificiale seguirà una traiettoria simile. Sarà uno strumento epocale di potenza straordinaria, capace di generare nuove figure professionali che impareranno ad utilizzarla in modo efficace.

Non intendo entrare nel dibattito sulle "fake news" o argomenti simili, poiché il fotomontaggio è esistito fin dall'invenzione della fotografia e la storia della fotografia è ricca di esempi di immagini manipolate. Questo non ha portato a una demonizzazione della fotografia stessa.

Lo stesso processo si verificherà con l'AI. L'essere umano si evolve quando sperimenta, accetta nuove sfide e abbraccia il cambiamento. Pertanto, dovremmo evolverci e accogliere l'AI con entusiasmo. Ci divertiremo tantissimo!

Per approfondire

Runway - Advancing creativity with artificial intelligence.
Runway is an applied AI research company shaping the next era of art, entertainment and human creativity.
Gen-2 by Runway
A multimodal AI system that can generate novel videos with text, images or video clips.
Un viaggio nel futuro con l’AI generativa
Di cosa abbiamo bisogno per affrontare la sfida che l’Intelligenza Artificiale ci sta proponendo? Quali sono le potenzialità da sfruttare e i rischi da affrontare? Mi auguro che questo viaggio possa aumentare la consapevolezza e la comprensione di tutto questo, per capire meglio il futuro.
L’Intelligenza Artificiale è la “nuova elettricità”, ma accelera molto di più.
Spesso l’Intelligenza Artificiale viene identificata come la “nuova elettricità”. Tuttavia, ci sono elementi che la rendono molto diversa. Che futuro ci aspetta con l’AI integrata profondamente nelle nostre vite? Proviamo a scoprirlo!
Da testo a immagini attraverso l’intelligenza artificiale.. possiamo parlare di arte?
Oggi sentiamo parlare spesso di DALL·E 2 di OpenAI, Imagen Muse, Midjourney, BlueWillow e AI Stable Diffusion. Si tratta di algoritmi basati sull’AI che vengono definiti Text-To-Image, e sono in grado di generare immagini di qualità a partire da un testo descrittivo in linguaggio naturale.