Soft skill e algoritmi: le fondamenta dei brand del futuro

Se un illustratore professionista provasse un sistema di Text-To-Image come DALL·E 2 come lo troverebbe? Partendo dalle considerazioni di un post che descrive questo test, faremo riflessioni cercando di avere anche un occhio verso il futuro.

Soft skill e algoritmi: le fondamenta dei brand del futuro
Soft skill e algoritmi: le fondamenta dei brand del futuro

In settimana ho letto un post in cui un illustratore e storyboard artist professionista (con 10 anni di esperienza) ha provato uno degli algoritmi di Text-To-Image che ormai, dal punto di vista mediatico, hanno il monopolio in ambito marketing/tecnologia da diverso tempo. Nello specifico ha provato DALL·E 2 di OpenAI.

Il titolo del post (tradotto) è "Perché DALL·E non mi ruberà il lavoro da illustratore", e l'ho trovato un punto di vista estremamente interessante.

Why Dall-E will not steal my job
I finally was able to try it. And I can assure you it’s impossible to create professional and useful images from a text description.

Prima di tutto, l'autore fa ciò che avrei fatto anch'io, ovvero ha provato a riprodurre con l'algoritmo un output sviluppato professionalmente per la campagna di un brand. Nel post scrive che, tutto sommato, l'immagine da generare sembra molto semplice da descrivere: "un uomo e una donna in una Citroën Ami in vista frontale". Aggiunge..

"non mi importa nemmeno che l'auto sia colorata di blu e che i personaggi siano bianchi. Volevo solo capire se è possibile ottenere qualcosa di simile con DALL·E.
I risultati sono migliori di quanto mi aspettassi, ma davvero lontani dall'essere utili per il mio cliente".

Quella che segue è una delle elaborazioni dell'algoritmo. Nel post se ne possono vedere molte altre.

Il risultato dell'elaborazione di DALL·E 2 relativa al prompt testuale
Il risultato dell'elaborazione di DALL·E 2 relativa al prompt testuale

L'articolo continua con diverse riflessioni che provo a riassumere in alcuni punti.

  • Descrivere un'immagine utilizzando una descrizione testuale è molto, molto difficile.
  • Probabilmente un illustratore impiegherebbe molto meno tempo a disegnare un elemento, rispetto alla ricerca del prompt efficace.
  • Nessuna delle immagini generate potrebbe essere utilizzata in ambito professionale.
"Ho grandi dubbi sul fatto che software di questo tipo, anche notevolmente migliorati, potranno davvero aiutare i miei clienti in ambito professionale".
  • Uno strumento, anche potente, non rende chiunque un artista.
  • Quello che riesce a fare una macchina è davvero impressionante, ma.. "non è quello che avevo in mente..  non è il mio stile.. manca di personalità".
"Quindi a tutte le persone che parlano della fine dell'illustrazione e dell'animazione, o anche dell'arte, sappiate che l'arte non può morire".

Alcune mie considerazioni

Pur non essendo un illustratore, mi sento in accordo con i concetti che vengono espressi. A volte riporto questo esempio..

Anche mia madre ha imparato a scontornare le foto usando filtri basati su algoritmi, ma questo non la renderà un grafico.

Però mi sento di aggiungere qualche annotazione da osservatore, sviluppatore e utilizzatore di questi sistemi da molto tempo.

Oggi, gli algoritmi di generazione di immagini che elaborando un prompt testuale sono da considerare delle evoluzioni straordinarie, che sono cresciute fino ai livelli che conosciamo oggi in brevissimo tempo. Infatti, anche se sembrano sistemi al nostro fianco da sempre, il primo Text-To-Image di OpenAI si chiamava ImageGPT e risale al 2020, mentre la prima versione di DALL·E è del 2021.
Però non dobbiamo dimenticare che quasi tutti questi sviluppi sono delle versioni beta. Quindi, probabilmente, stiamo solo "annusandone" le potenzialità, e non oso immaginare che "potenza di fuoco" potremmo avere a disposizione tra qualche anno.

Dal punto di vista professionale, vista la poca maturità, hanno poche applicazioni, anche perché attualmente non esistono mezzi per trasformare un'idea ben definita (come il concetto che ha in mente l'illustratore mentre crea) in immagine. Il motivo primario è che  il linguaggio naturale stesso che utilizziamo per esprimerla è fortemente limitato.

Ci saranno sistemi per tradurre un pensiero in creazione digitale? In un episodio podcast che ho registrato con Paolo Bergamo, in una proiezione verso il futuro, abbiamo parlato di onde cerebrali.. e se ci pensiamo, un'interfaccia di questo tipo potrebbe permetterlo.

Se vuoi la mia interpretazione del futuro, credo che l'analisi dati e l'assistente virtuale passeranno ad un'altra modalità, ovvero alle onde cerebrali.
Intervista a Paolo Bergamo: le disruptive technology a servizio delle aziende
In un’emozionante intervista, con Paolo Bergamo parliamo di Voice Technology, di assistenti virtuali, di Realtà Aumentata e Virtuale. Ma approfondiamo anche le tecnologie del futuro come le onde cerebrali. Paolo è stato per 15 anni in Salesforce, nel team di Marc Benioff, e oggi è il CEO di OverIT.

Probabilmente a qualcuno sembrerà fantascienza, ma esistono già sperimentazioni in questo ambito, volte a creare un ponte nella comunicazione tra uomo e macchina che bypassa i limiti del linguaggio umano.

Sperimentazioni interessanti per i creativi

Molto più interessante per chi svolge un lavoro come quello dell'autore del post è il progetto pilota di Meta AI denominato Make-a-Scene.

AI Generativa Multimodale: uno step oltre il concetto di Text-to-Image
Grazie a un’esplorazione di Meta AI sull’intelligenza artificiale e agli algoritmi generativi, possiamo proiettarci verso il concetto di AI Generativa Multimodale. Si tratta di un nuovo approccio che consente di generare immagini di qualità partendo da uno “schizzo” ed una descrizione testuale.

Si tratta di un'intelligenza artificiale che sposta l'asticella verso la multimodalità, considerando non solo un input testuale, ma anche una rappresentazione grafica. Ecco che in questo caso si riesce ad andare un po' oltre ai limiti imposti dal linguaggio.

Il progetto Make-A-Scene di Meta AI

OpenAI, inoltre, ha recentemente lanciato "Outpainting": una nuova funzionalità di DALL·E che consente di espandere un'immagine oltre le sue dimensioni originali.

Basta caricare un'immagine, decidere quale zona espandere e l'algoritmo creerà integrando nuovi elementi alla perfezione, anche rendendo luci e ombre delle aree generate coerenti con il resto dell'immagine.

Outpainting di OpenAI: la nuova funzionalità di DALL·E

Oltre alle implicazioni creative, pensiamo a tutte le problematiche relative alle proporzioni delle immagini: potrebbero svanire.

Un piccolo sforzo di immaginazione

Dopo tutte queste considerazioni, però, chiedo un piccolo sforzo di visione.

Immaginiamo di integrare questi sistemi agli editor che usano i creativi.. in modo che possano generare elementi della loro creazione in real-time, come questo plugin basato su Stable Diffusion.

Un tweet che mostra Stable Diffusion come plugin di un editor grafico

Oppure in modo che possano essere ispirati da idee proposte dall'algoritmo.

Immaginiamo di utilizzare GPT-3 come strumento per i copywriter.. oppure di integrarlo negli editor degli sviluppatori, come già avviene con sistemi come Codex.

OpenAI Codex: dal linguaggio naturale al codice di programmazione
OpenAI lancia Codex in versione beta e ci dimostra come sia possibile creare codice di programmazione (quindi software) spiegando all’AI le operazioni da svolgere. Ed è solo l’inizio!

Conclusioni

Di strada da fare ce n'è tantissima per questi sistemi, e di evoluzioni algoritmiche ne vedremo in quantità. Tutto questo, tecnologicamente, sta facendo i primi passi.. ma è l’inizio anche di un percorso che ci porterà ad avere a disposizione un'intelligenza aumentata che estenderà le nostre capacità e colmerà i nostri "gap operativi", e che porterà i brand a trasformarsi in termini di cultura aziendale.

L'AI, paradossalmente, renderà l'aspetto umano sempre più centrale, portando strategia, immaginazione, creatività a diventare i punti di forza per il futuro dei brand.

I brand dovranno contare sempre di più sugli elementi differenzianti delle persone, quelli che non sono aumentabili da un'intelligenza artificiale: le soft skill e gli algoritmi, saranno le fondamenta dei brand del futuro.

Alcune note finali

  • L'esempio che viene fatto nel post sul gioco degli scacchi, per quanto sia sensato, lo trovo esagerato.
Even chess survived the success of AI tools. When Deep Blue beat Garry Kasparov in 1997, everybody assumed chess was dead.
  • Per capire l'enorme potenziale dei sistemi generativi basati sull'AI, al netto delle "semplici" applicazioni delle quali abbiamo parlato in questo articolo, che sono sbalorditive, ma rappresentano una goccia nell'oceano, invito a leggere il seguente post.
Cosa sono le reti GAN? L’intelligenza artificiale che gioca a guardie e ladri per creare e predire
Le reti GAN possono generare contenuti (immagini, video, musica) in modo incredibilmente realistico, e per farlo usano un principio che trovo affascinante e sbalorditivo.. in un certo senso competono e si sfidano giocano a guardie e ladri. Scopriamo come funzionano con esempi pratici.
C'è molto di più! Queste ricerche possono salvare vite, preservare l'arte, migliorare l'istruzione. È quella la direzione da osservare e salvaguardare.

Per approfondire

Da testo a immagini attraverso l’intelligenza artificiale.. possiamo parlare di arte?
Oggi sentiamo parlare spesso di DALL·E 2 di OpenAI, DALL·E mini, Imagen, Midjourney e AI Stable Diffusion. Si tratta di algoritmi basati sull’AI che vengono definiti Text-To-Image, e sono in grado di generare immagini di qualità a partire da un testo descrittivo in linguaggio naturale.
DALL·E 2
DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.
DALL·E: Introducing Outpainting
Extend creativity and tell a bigger story with DALL-E images of any size Today we’re introducing Outpainting, a new feature which helps users extend their creativity by continuing an image beyond its original borders — adding visual elements in the same style, or taking a story in new direc…
GPT-3 per la SEO: potenzialità, limiti, futuro. Il mio WMF 2022
Quest’anno al WMF, in sala SEO, ho parlato di GPT-3 e di generazione di contenuti attraverso l’intelligenza artificiale. Come funziona? Cosa rappresenta? Qual è il futuro del lavoro aumentati dagli algoritmi? Capire la natura del mezzo, genera il vero vantaggio competitivo.