ChatGPT, GPT-3 e algoritmi generativi

Oggi non si fa che parlare ci ChatGPT, GPT-3, GPT-4 e di algoritmi generativi. Con Massimo Cerofolini approfondiamo e chiariamo queste tematiche. Il testo e l'immagine di questo post sono stati creati usando l'Intelligenza Artificiale, e successivamente revisionati.

ChatGPT, GPT-3 e algoritmi generativi
ChatGPT, GPT-3 e algoritmi generativi

Gli algoritmi generativi rappresentano, senza dubbio, uno dei temi più interessanti che oggi gravitano intorno al mondo dell'intelligenza artificiale.
In questa chiacchierata con Massimo Cerofolini abbiamo fatto un viaggio con due obiettivi: approfondire e rendere più chiaro l'argomento.
Tra le tappe non mancano GPT-3, ChatGPT, GPT-4, il confronto con i motori di ricerca, le questioni etiche e legali, la generazione di immagini (DALL-E 2, Midjourney, Stable Diffusion), ma anche la generazione di video e audio, VALL-E di Microsoft, fino alle GAN e all'interpretazione delle onde cerebrali.

Lo stesso post che stai leggendo rappresenta un esperimento che ha come protagonisti gli algoritmi generativi. Il testo, infatti, è stato ricavato attraverso 3 fasi: una trascrizione del video ad opera di Whisper di OpenAI, la successiva sintesi dei principali argomenti realizzata attraverso ChatGPT, e la mia revisione comprensiva di integrazioni. Anche l'immagine principale è stata creata attraverso diverse elaborazioni di Midjourney.

L'intervista sugli algoritmi generativi

Cosa sono gli algoritmi generativi?

Gli algoritmi generativi sono sistemi basati sull'intelligenza artificiale e il machine learning che vengono addestrati su una grande quantità di dati. Essi sono in grado di generare nuove informazioni, come testo, immagini, video o suoni, a partire da istruzioni di input (prompt), in base ai dati acquisiti in fase di addestramento.

Gli algoritmi generativi sono costituiti da reti neurali artificiali (quindi siamo nel dominio del Deep Learning) caratterizzate da miliardi di parametri. Più è elevato il numero di parametri, più precise ed efficienti saranno le predizioni della rete, ma allo stesso tempo questa diventerà anche più onerosa da addestrare (qui, un'approfondimento del significato di "parametri").

GPT-3 e ChatGPT

GPT-3 (Generative Pre-trained Transformer di terza generazione) è un esempio di algoritmo generativo sviluppato da OpenAI in grado di produrre testo simile a quello che potrebbe essere scritto da un essere umano, ha 175 miliardi di parametri ed ha un training basato su 45TB di dati provenienti da Wikipedia, Common Crawl, libri disponibili online e pagine web di qualità.

OpenAI è una società no-profit co-fondata da Elon Musk, che oggi si sta avviando a diventare un'appendice di Microsoft che ha acquistato l'utilizzo commerciale delle sue potenzialità.

ChatGPT, rappresenta la soluzione conversazionale di OpenAI. Fondamentalmente si tratta di un algoritmo basato su GPT-3 (e da un addestramento aggiuntivo dedicato al codice di programmazione) ed ottimizzato per interagire con l'utente attraverso il "dialogo".

Altri sistemi generativi

Oltre agli sviluppi di OpenAI, nello scenario si sentono nominare altri sistemi generativi, in particolare che riguardano la creazione di testo ed assistenti editoriali (ad esempio Jasper, Copy.ai, Frase, Simplified, SEOZoom), ma tendenzialmente si tratta di strumenti che si basano su GPT-3.
Attenzione! Il fatto che siano basati su GPT-3 non rende questi sistemi banali. Di fatto sfruttano i loro dati ed algoritmi proprietari per generare prompt efficaci e sfruttare al meglio GPT-3.

Algoritmi e caratteristiche umane

Spesso tendiamo ad attribuire a questi algoritmi delle caratteristiche umane, ma in realtà non esiste una comprensione e un'intelligenza come le intendiamo noi: si tratta di puro calcolo statistico. Il testo viene generato in modo probabilistico.

GPT-3 non impara nulla sul mondo ma impara molto bene come le persone utilizzano le parole.
- Gary Marcus -

Modelli generativi e motori di ricerca

Gli algoritmi generativi come GPT-3 possono commettere errori e avere limiti nella loro capacità di generare testo preciso e corretto. Il motivo deriva dalla natura di questi sistemi, che è ben diversa da quella di un motore di ricerca.

  • Il motore di ricerca ha come obiettivo quello di fornire informazioni aggiornate e selezionate per pertinenza rispetto alla richiesta.
  • L'algoritmo generativo ha come obiettivo quello di completare un testo di input (o di produrre altri formati a partire dall'input).

Tuttavia, l'interazione con la chat ha facilitato un contorto pensiero di sovrapposizioni tra le due tipologie di sistema, e non a caso stanno emergendo soluzioni ibride che hanno sviluppato integrazioni che mirano a coprire le lacune di ChatGPT. Quelli che seguono sono alcuni esempi.

  • You.com, un motore di ricerca con modalità di interazione conversazionale (chat). Contrariamente a ChatGPT mette in rilevo anche le fonti dalle quali le informazioni vengono estratte, le quali possono essere consultate per approfondire.
  • Perplexity, un altro esempio di motore di ricerca con interazione attraverso la chat. Anche Perplexity mette in evidenza le fonti che compongono le risposte ed aggiunge le ricerche correlate. Nel video che segue è possibile vedere un mio test di ricerca dopo il recente major update: l'esperienza di ricerca è davvero convincente.
Un test di Perplexity: il primo motore di ricerca conversazionale al mondo
  • Writesonic, un motore di ricerca che mette a disposizione la chat e consente di includere i dati di Google. Genera anche immagini sfruttando altri modelli, ad esempio Stable Diffusion.
  • NeevaAI, un ulteriore esemplare di motore di ricerca con interazione conversazionale.

Microsoft sta lavorando per dotare Bing, il suo attuale motore di ricerca, di uno strumento in grado di competere con i motori di ricerca tradizionali utilizzando OpenAI e ChatGPT. Ci si aspetta che questo possa rappresentare una sfida interessante per Google, attuale leader del settore.

I modelli generativi non sono motori di ricerca! La loro natura è completamente diversa. Tuttavia, delle soluzioni ibride in cui le informazioni vengono aggregate da un modello di linguaggio potrebbero essere interessanti.

Non solo sistemi Text-To-Text e Text-To-Image

I sistemi generativi stanno permettendo non solo di creare testo ed immagini partendo da un prompt testuale, ma anche di creare codice di sviluppo in modo più efficiente e rapido, consentendo anche a persone meno esperte di "competere" con chi lo è. Questi sviluppi potrebbero avere un impatto significativo su molte industrie e professioni.

Ma non solo. Esistono algoritmi in grado di generare modelli 3D da un prompt testuale, oppure da un'immagine. Questo apre nuove opportunità per il design, l'architettura e altre aree.

Anche il mondo dell'audio è interessato da questa grande rivoluzione. Attraverso algoritmi è già possibile generare audio di alta qualità, anche in applicazioni complesse come la ripresa di un parlato interrotto o la continuazione di una melodia suonata al pianoforte. Esistono molte applicazioni potenziali per questi sviluppi, come il doppiaggio e la creazione di musica.

Una dimostrazione di AudioLM di Google (completamento di parlato e pianoforte)

Tutto questo è valido anche per la generazione di video, e anche al contrario, ovvero è possibile ottenere la generazione di testo a partire da immagini e filmati. Questo offre nuove opportunità per la descrizione delle immagini, la generazione di sottotitoli e la creazione di contenuti.

Esempi di video generati attraverso Imagen Video di Google
Esempi di video generati attraverso Imagen Video di Google

GAN (Generative Adversarial Networks)

I Large Language Models (come GPT-3) sono una categoria di algoritmi generativi, ma ne esistono anche altre, ad esempio le GAN (Generative Adversarial Networks) per creare sistemi ancora più sofisticati. Per approfondire l'argomento, consiglio il seguente contenuto.

Cosa sono le reti GAN? L’intelligenza artificiale che gioca a guardie e ladri per creare e predire
Le reti GAN possono generare contenuti (immagini, video, musica) in modo incredibilmente realistico, e per farlo usano un principio che trovo affascinante e sbalorditivo.. in un certo senso competono e si sfidano giocano a guardie e ladri. Scopriamo come funzionano con esempi pratici.

Si potrà andare oltre il linguaggio?

Parallelamente a tutto questo, grazie all'utilizzo dell'intelligenza artificiale, si sta progredendo con delle sperimentazioni verso la comprensione delle onde cerebrali umane, aprendo nuove prospettive per il trattamento delle disabilità e la creazione di nuovi modi di interazione uomo-macchina, andando bypassare i limiti del linguaggio e permettendo una comunicazione più precisa e naturale. Tuttavia, questa tecnologia solleva anche questioni etiche importanti.

Applicazioni basate su algoritmi generativi

Questi sistemi offrono nuove opportunità alle aziende in ambito professionale attraverso la possibilità di mettere a punto nuovi servizi e di integrare procedure innovative.

Abbiamo visto in precedenza come esistano già, ad esempio, diverse applicazioni che assistono gli utenti nella scrittura di contenuti, ma anche nella ricerca all'interno di archivi e nella trasformazione dei dati in linguaggio naturale (democratizzazione dei dati).

A proposito di quest'ultimo esempio, ho realizzato un piccolo prototipo in cui ho connesso dei dati statistici facendo generare una descrizione dell'andamento attraverso GPT-3 e ChatGPT (vedi immagine che segue). I risultati sono molto interessanti.

Un esempio di generazione di testo con GPT-3 o ChatGPT a partire dai dati analitici
Un esempio di generazione di testo con GPT-3 o ChatGPT a partire dai dati analitici

Relativamente alla generazione dei testi, l'AI può essere utilizzata come assistente alla scrittura, per espandere aree di contenuto, per generare titoli, per dettagliare alcune informazioni e anche per sintetizza alcune fonti.
E tutto questo lo può fare con diversi stili (es. ironico, sarcastico o drammatico), a seconda delle esigenze dell'utente. Questo permette di poter contare su maggior ispirazione e creatività.

L'assistente editoriale basato sull'AI (GPT-3) di SEOZoom

Lo screening dell'informazione

Le API di OpenAI possono essere utilizzate per trasformare dati tecnici in testo, per estrarre ed elaborare contenuti da video e podcast, offrendo ulteriori opportunità di ottimizzazione dell'effort per le aziende.

Tra le mie sperimentazioni ho testato, ad esempio, dei sistemi in grado di trascrivere interi video di YouTube (attraverso Whisper), produrre una sintesi del contenuto ed estrarre i principali argomenti trattati.

Elaborazione di video di YouTube attraverso le API di OpenAI e Whisper
Elaborazione di video di YouTube attraverso le API di OpenAI e Whisper

E non solo utilizzando dei video di YouTube, ma anche episodi podcast.

Elaborazione di podcast attraverso le API di OpenAI e Whisper
Elaborazione di podcast attraverso le API di OpenAI e Whisper

Lo screening dell'informazione di base è un metodo efficace per selezionare e filtrare i dati rilevanti per il proprio lavoro, soprattutto per coloro che si occupano di elaborazione di contenuti come giornalisti, aziende che si occupano di realizzare report, ecc..

Questo metodo permette di avere una base solida di informazioni per poter creare contenuti di qualità.

Il deepfake: una problematica concreta

Grazie all'accelerazione di questi algoritmi e al conseguente sviluppo di tecnologie avanzate come la sintesi vocale e la generazione di video, esiste il rischio che questi strumenti possano essere utilizzati per riprodurre la voce e gli elementi visuali legati alle persone, rendendo obsoleti meno affidabili i sistemi di identificazione utilizzati dalle banche o da altri enti.

Microsoft, ad esempio, ha appena annunciato VALL-E un nuovo sistema di generazione di voci sintetiche che si basa sulla tecnologia EnCodec di Meta.

Con 3 secondi di audio registrato è possibile clonare una voce, compresa anche di ambiente acustico, emozioni e tono.

Tuttavia, parallelamente all'evoluzione degli algoritmi generativi, si evolveranno anche le contromisure tecnologiche e la componente legale per proteggere o limitare eventuali minacce nei confronti della sicurezza.
OpenAI ha dichiarato di essere al lavoro su un algoritmo di "filigrana" in grado di individuare i testi prodotti attraverso i loro modelli.

Quello che però mi sento di dire è che con sistemi esterni sarà sempre più complesso rilevare la scrittura da parte di algoritmi evoluti, perché già oggi le tecniche di rilevazione che si utilizzano sono deboli. Quando uscirà GPT-4, ad esempio, vedremo un balzo importante.

Alessio Pomaro on LinkedIn: #gpt3 #gpt4 #ai #intelligenzaartificiale #seo
🤔 Cosa significa per un modello passare dai 175 miliardi di parametri di #GPT3 ai 100 trilioni di #GPT4?💡 I parametri, o pesi, sono le connessioni tra i…

Intelligenza Artificiale e lavoro

Quanto questo mondo di algoritmi determinerà un crollo di posti di lavoro? I posti di lavoro che si verranno a creare compenseranno quelli che verranno persi?

Paradossalmente questi algoritmi andranno a ridurre i gap tecnologici e, di conseguenza, andranno ad alzare l'attenzione verso le soft skill, ovvero verso ciò che non è replicabile da una macchina: l'immaginazione, la creatività, la strategia.

Credo che le soft skill, insieme agli algoritmi, saranno il futuro dei brand che guardano avanti.

Di certo, comunque, il cambiamento di alcune mansioni, come in tutte le rivoluzioni industriali, andranno a riorganizzare delle occupazioni. E ne nasceranno di nuove. Ma la velocità, l'accelerazione alla quale stiamo assistendo è talmente elevata che dovranno necessariamente intervenire le istruzioni per gestire questo aspetto.


Per approfondire

VALL-E
Da testo a immagini attraverso l’intelligenza artificiale.. possiamo parlare di arte?
Oggi sentiamo parlare spesso di DALL·E 2 di OpenAI, DALL·E mini, Imagen, Midjourney e AI Stable Diffusion. Si tratta di algoritmi basati sull’AI che vengono definiti Text-To-Image, e sono in grado di generare immagini di qualità a partire da un testo descrittivo in linguaggio naturale.
Algoritmi Generativi: non solo testo e immagini, ma anche video e suoni
Oggi non si fa che parlare di generazione di testo ed immagini attraverso l’intelligenza artificiale. Ma gli algoritmi generativi sono già oltre, e possono creare video e audio a partire da un input testuale. Scopriamo questi sistemi.
Introducing Whisper
We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Read Paper View Code View Model Card Whisper examples: Reveal Transcript Whisper is an automatic speech recogn…
SEO e Intelligenza Artificiale: ecco perché Google non penalizzerà i Contenuti
3 cose TOP: il motivo per il quale Google non penalizzerà questi contenuti, tutti gli strumenti e le risorse per studiarla, i contributi di Marco Quadrella, Paolo dello Vicario e Alessio Pomaro. E UNA LIVE ANNUNCIATA!