L'evoluzione di Gemini di Google: qualche riflessione

Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che sta generando Google nella sua (rin)corsa per la leadership dell'AI Generativa.

L'evoluzione di Gemini di Google: qualche riflessione
L'evoluzione di Gemini di Google: qualche riflessione

Il 6 dicembre viene presentato Gemini (il modello di linguaggio più grande e potente di Google), in un post emozionante che descrive funzionalità sbalorditive e test che dimostrano performance superiori ai modelli di OpenAI. Nello stesso articolo viene annunciato che Bard, nello stesso giorno, avrebbe iniziato ad usare la versione Pro del modello.

Ecco Gemini: il nostro modello IA più grande e capace
Gemini è il modello più generale e capace che abbiamo mai costruito. È progettato fin dalle sue fondamenta per essere multimodale, e ottimizzato per tre diverse dimensio…

L'8 febbraio Google cambia nome a Bard, rendendolo Gemini, basato sull'omonimo modello, versione Pro 1.0.

Non essendoci confusione a sufficienza, alla piattaforma chatbot (il ChatGPT di Google) viene dato lo stesso nome del modello.
Bard diventa Gemini: ecco Ultra 1.0 e una nuova app mobile
Bard sarà da oggi in poi conosciuto come Gemini, e con Ultra 1.0 stiamo lanciando un\u0027applicazione mobile e Gemini Advanced.

Contemporaneamente, viene lanciata la versione più evoluta di Gemini (il chatbot) a pagamento: Gemini Advanced con Gemini Ultra 1.0: il modello di linguaggio più evoluto. Il tutto, esattamente in linea alla formula di OpenAI (ChatGPT con GPT-3.5 gratuito + ChatGPT Plus con GPT-4 a pagamento) e con prezzi abbastanza allineati.

Dopo svariate interazioni, è chiaro che i due modelli sono della stessa classe. Apparentemente gli output sono paragonabili (e questo non stupisce più), ma in task in cui si pretende precisione e dettaglio, il modello di Google non regge il confronto con GPT-4.

Alcuni test usando Gemini Advanced

Nei post che seguono, ho pubblicato alcuni test.

Alessio Pomaro on LinkedIn: #bard #gemini #google #openai #prompt #gpt4 #ai #genai #generativeai…
🧠 [TEST GEMINI] Dopo aver reso #Bard il nuovo #Gemini, #Google lancia la versione Advanced equipaggiato con Gemini Ultra. 🧐 Direi tutto in perfetto stile…
Alessio Pomaro on LinkedIn: #gemini #gpt4 #llm #ai #genai #generativeai #intelligenzaartificiale
🧠 Dopo alcuni giorni di test su #Gemini Advanced la mia conclusione non cambia. 🧐 Di certo è un modello della stessa classe di #GPT4. Ma se ragioniamo sul…

Il tutto, senza contare che la piattaforma di OpenAI mette a disposizione ulteriori preziose integrazioni per l'utilizzo del sistema come assistente personale (plugin, GPTs, code interpreter, Assistants).

Gemini 1.5

Dopo una settimana, viene lanciato il modello Gemini 1.5 Pro (la versione precedente era Gemini Pro 1.0.. spero riusciremo a capirci quando ne usciranno altre!), che ha performance paragonabili alla versione Ultra 1.0, ma con una finestra di contesto che gestisce fino a 1 milione di token.

Our next-generation model: Gemini 1.5
Gemini 1.5 delivers dramatically enhanced performance, with a breakthrough in long\u002Dcontext understanding across modalities.

Ma se la versione Ultra, su una finestra di contesto molto più piccola, risulta essere imprecisa (in base ai miei test, ma non sono l'unico ad averne fatti), su 1 milione di token, la Pro come potrà essere?

Probabilmente inferiore, ma questo
va accertato: sono in whitelist.

Notevoli le nuove funzionalità multimodali, ad esempio la capacità di gestire immagini, video, audio e codice. Nel video che segue si può vedere un esempio di gestione di un video all'interno di AI Studio.

Gemini 1.5 e la gestione dei video

Performance

Nella descrizione delle performance su una grande quantità di token in input (sempre in riferimento al post), vengono fatti test di ricerca di testo.

In the Needle In A Haystack (NIAH) evaluation, where a small piece of text containing a particular fact or statement is purposely placed within a long block of text, 1.5 Pro found the embedded text 99% of the time, in blocks of data as long as 1 million tokens.

Ma trovare un testo incorporato rappresenta un task relativamente semplice. Rispettare delle istruzioni precise specificate nel prompt, invece, è quello che serve per portare in produzione questi modelli.

Architettura

Nel post di presentazione, inoltre, viene raccontata l'architettura MoE (Mixture of Experts).. ma anche GPT-4, con tutta probabilità, utilizza la stessa architettura.

Ottimizzazione per la lingua inglese

Nel frattempo su Gemini Advanced (il chatbot), compare un messaggio che avverte che "il modello è ottimizzato per l'inglese, ma può rispondere anche nelle altre lingue".

Conclusioni

Non riesco davvero a realizzare la confusione che stanno generando tutti questi cambiamenti repentini e apparentemente poco ponderati negli utenti. Senza contare la difficoltà nella consultazione della documentazione e nell'uso della piattaforma. Un esempio banale: anche solo capire quali modelli sono disponibili su Vertex AI risulta essere complicato, dovendosi districare in una vera e propria "giungla" di pagine. La stessa informazione, relativa ai modelli OpenAI, si ottiene in due clic.

Le performance di GPT-4, secondo me, non sono ancora raggiunte (e non ho fatto test con la versione Turbo!). Non vorrei dirlo, ma GPT-4 è basato su una tecnologia del 2022.

Non oso immaginare il momento
in cui verrà rilasciato GPT-5

Aggiungo un'ultima considerazione per comprendere l'evoluzione di queste tecnologie in casa Google rispetto a OpenAI. Mentre Google presenta Lumiere per la generazione dei video (sicuramente evoluto e innovativo, ma..), OpenAI presenta Sora, che può generare output come quelli che seguono.

Sora, il modello di generazione video di OpenAI

Di certo Google ha l'ecosistema dalla sua parte, e può aggiungere funzionalità basate sull'AI generativa in ogni software che ne fa parte. Ma sui modelli integrabili in flussi aziendali customizzati, siamo ancora lontani dai competitor.

Quanti rinnoveranno Gemini Advanced dopo i due mesi gratuiti? Se dovessi rispondere oggi, direi.. pochissimi.

Per approfondire

Gemini 1.5: Our next-generation model, now available for Private Preview in Google AI Studio
Developers have been building with Gemini, and we’re excited to turn cutting edge research into early developer products in Google AI Studio.
Lumiere - Google Research
Space-Time Text-to-Video diffusion model by Google Research.
Sora: Creating video from text

- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂