Da testo a immagini attraverso l'intelligenza artificiale.. possiamo parlare di arte?

Oggi sentiamo parlare spesso di DALL·E 2 di OpenAI, DALL·E mini, e Imagen. Si tratta di algoritmi basati sull'intelligenza artificiale che vengono definiti Text-To-Image, e sono in grado di generare immagini di qualità a partire da un testo descrittivo in linguaggio naturale.

Da testo a immagini attraverso l'intelligenza artificiale.. possiamo  parlare di arte?
Da testo a immagini attraverso l'intelligenza artificiale.. possiamo parlare di arte?

Negli ultimi mesi si sono visti a confronto diversi algoritmi basati sull'intelligenza artificiale che vengono definiti Text-To-Image perché sono in grado di trasformare del testo (formulato in linguaggio naturale) in immagine.

I più noti sono DALL·E 2 di OpenAI, DALL·E mini (un progetto open-source) e Imagen di Google.

Cos'è DALL·E 2?

DALL·E 2 è la nuova versione di DALL·E, un modello di linguaggio generativo che  trasforma delle semplici frasi in immagini. Ha 3,5 miliardi di parametri e appartiene alla categoria dei LLM (Large Language Model), anche se, ad esempio, non è grande quanto GPT-3. È curioso il fatto che il modello ha dimensioni inferiori del suo predecessore. Nonostante questo, DALL·E 2 genera immagini con una risoluzione 4 volte migliore rispetto a DALL·E.

Quelle che seguono sono immagini generate chiedendo al sistema..

"an astronaut riding a horse in a photorealistic style"

Un altro aspetto interessante di DALL·E 2 è la sua capacità di modificare e ritoccare in modo realistico le foto. Gli utenti possono selezionare un'area dell'immagine, e usare un messaggio testuale per indicare la modifica desiderata. In pochi secondi, l'algoritmo produce diverse combinazioni di immagine modificata.

DALL·E 2 aggiunge un divano nell'immagine originale nella posizione 1
DALL·E 2 aggiunge un divano nell'immagine originale nella posizione 1
DALL·E 2 aggiunge un divano nell'immagine originale nella posizione 2
DALL·E 2 aggiunge un divano nell'immagine originale nella posizione 2

Da notare come gli oggetti modificati vengono inseriti con ombra e illuminazione adeguate. Questo dimostra la capacità di DALL·E 2 di comprendere le relazioni tra oggetti diversi e l'ambiente.

Infine, un'ultima abilità dell'algoritmo è nella creazione di varianti di un'immagine partendo da una originale.

Come funziona?

DALL·E 2 "ha imparato" il rapporto tra le immagini e il testo utilizzato per descriverle. Utilizza un processo chiamato "diffusione", che inizia con uno schema di punti casuali e modifica gradualmente quel modello verso un'immagine quando ne riconosce aspetti specifici.

Come funziona DALL·E 2 di OpenAI

Un esperimento realizzato con DALL·E 2 che mi ha colpito in modo particolare è quello postato su Twitter da Michael Green, nel quale viene chiesto all'algoritmo di generare delle immagini che riproducano lo stile di fotografi noti (Dorothea Lange, Helmut Newton, Diane Arbus, ecc.). Quello che segue è il risultato dell'elaborazione.

Cliccando nel link al tweet, è possibile consultare l'esperimento completo di tutte le immagini.

Cos'è DALL·E mini?

DALL·E mini è un tentativo di riprodurre gli impressionanti risultati di DALL·E (di OpenAI) attraverso un modello open-source.

Le immagini che seguono sono state generate attraverso l'input dato precedentemente al modello di OpenAI: "an astronaut riding a horse in a photorealistic style".

Un esempio di utilizzo di DALL·E mini
Un esempio di utilizzo di DALL·E mini

La qualità del risultato non è assolutamente paragonabile al modello visto in precedenza, ma il sistema è in training continuo.

Come funziona?

Il modello viene addestrato attraverso milioni di immagini presenti online con le didascalie associate. Nel tempo, "impara" a disegnare un'immagine ricevendo un prompt testuale (una stringa di input in linguaggio naturale). Alcuni output vengono generati grazie al fatto che l'algoritmo ha processato immagini simili, tuttavia può produrre anche immagini uniche, ad esempio l'astronauta a cavallo, combinando più concetti.

Attraverso il seguente link, è possibile approfondire in dettaglio il funzionamento ed il confronto con DALL·E. Ad esempio, il modello in questione è 27 volte più piccolo dispetto alla prima versione di OpenAI, con 0,4 miliardi di parametri contro 12 miliardi; inoltre è stato addestrato su 15 milioni di coppie immagine-descrizione, contro i 250 milioni del modello di OpenAI.

DALL-E Mini Explained
Generate images from a text prompt in this interactive report: DALL-E Mini Explained, a reproduction of OpenAI DALL·E. Made by Boris Dayma using W&B

Il tool online

Attraverso un tool online è possibile effettuare dei test utilizzando DALL·E mini. L'utilizzo è semplicissimo: basta inserire un prompt testuale nel campo di testo e cliccare su "run". In poco più di un minuto verrà generato un set di immagini corrispondente.

Un tool online per utilizzare DALL·E mini
Un tool online per utilizzare DALL·E mini

Cos'è Imagen?

Imagen è un modello Text-To-Image di Google con un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio.

La scoperta chiave è che i modelli generici di linguaggio di grandi dimensioni (ad esempio T5), pre-addestrati su grandi quantità di contenuti testuali, sono sorprendentemente efficaci nel codificare il testo per la sintesi di immagini: l'aumento delle dimensioni del modello linguistico in Imagen aumenta notevolmente sia la fedeltà del campione che l'allineamento immagine-testo.

Durante dei test con utenti reali, questi hanno preferito Imagen rispetto ad altri modelli, sia in termini di qualità del campione, che di allineamento immagine-testo.

Il confronto tra Imagen di Google ed altri modelli
Il confronto tra Imagen di Google ed altri modelli
#1 in COCO FID - #1 in DrawBench

Si può definire arte?

Online, diverse fonti iniziano ad utilizzare termini come "AI-generater Art".. ma possiamo davvero considerare arte ciò che generano questi algoritmi? Anche se hanno la capacità di creare immagini da idee che nessuno ha mai espresso prima, direi di NO.

Di fatto, come avviene per la generazione di testo, anche in questo caso si tratta di pura matematica e calcolo probabilistico. Questi modelli creano l'output pixel dopo pixel in base ai dati sui quali sono stati addestrati, ma non hanno alcuna comprensione dell'azione che stanno compiendo.

L'arte è nei nostri occhi, non negli algoritmi!

Di certo, l'aspetto più interessante è che questi sistemi, partendo da semplici brief, genereranno dei contenuti sempre più completi e vicini alla perfezione, permettendo alle persone di concentrarsi sulla qualità.

Parlando di arte in particolare, penso che molti nuovi artisti emergeranno con la tecnologia, come abbiamo visto negli ultimi 8 anni. L'approccio "tradizionale" rimarrà, ma penso che vedremo crescere l'interesse verso l'AI art. Il che, a mio avviso, è straordinario.
La capacità di descrivere la propria immaginazione in un testo comprensibile dal modello di machine learning è diventata una competenza fondamentale. Il talento dell'artista non sta usando strumenti di editing digitale, modellazione 3D o texturing, ma le parole che descrivono accuratamente l'immagine.
- Eva Rtology -

Per approfondire

DALL·E 2
DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.
Imagen: Text-to-Image Diffusion Models
How Does DALL·E 2 Work?
Diffusion, and more diffusion.
GPT-3, Generative Pre-trained Transformer: cos’è e come funziona?
GPT-3 (Generative Pre-trained Transformer) è un modello di linguaggio di OpenAI basato sull’intelligenza artificiale particolarmente efficiente nella produzione automatica di testi.