Google I/O in 10 punti chiave e qualche considerazione

10 punti chiave e alcune riflessioni sui progetti presentati da Google durante l'I/O

Google I/O in 10 punti chiave e qualche considerazione
Google I/O in 10 punti chiave e qualche considerazione

Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono state presentate tutte le novità che ruotano attorno all'intelligenza artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro come flagship model.

L'evento è stato una lunga carrellata (quasi stordente) di applicazioni rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google: l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema.

Google I/O 2024: la live completa


I 10 esempi chiave

Quella che segue è la mia selezione dei 10 esempi più significativi presentati durante l'evento.

1) Veo, il modello dedicato alla generazione video

Un potente modello text-to-video che, nella visione di Google, consentirà ai registi di creare riprese cinematografiche attraverso prompt testuali.
Può generare video di alta qualità con risoluzione 1080p che possono superare il minuto di durata, con un'ampia gamma di stili cinematografici e visivi.

Esempi di video generati con Veo - Google DeepMind

Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato anche su YouTube per la creazione di shorts.

La pagina che segue è l'approfondimento nel sito web di Google DeepMind.

Veo
Veo is our most capable video generation model to date. It generates high-quality, 1080p resolution videos that can go beyond a minute, in a wide range of cinematic and visual styles.

2) L'integrazione nativa dell'AI nella ricerca

Google sta trasformando radicalmente l'esperienza di ricerca, integrando tecnologie avanzate di AI per semplificare e arricchire l'interazione degli utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze personali.

L'evoluzione della ricerca online

Le nuove funzionalità consentiranno di formulare domande complesse in una sola ricerca, integrando capacità di ragionamento a più step e pianificazione.
Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per spiegazioni a un pubblico giovane.

Attraverso le nuove capacità di pianificazione direttamente nella ricerca, Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze), con possibilità di customizzazione.
Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI, con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati che categorizzano i contenuti in modo innovativo.
Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le capacità di search visuale.

L'approfondimento nel blog di Google.

Generative AI in Search: Let Google do the searching for you
We’re bringing AI Overviews to everyone in the U.S. and adding new gen AI experiences to take more of the legwork out of searching.

3) Project Astra: il futuro degli AI Assistant

Un progetto dedicato alla creazione di agenti AI universali che possono interagire in modo naturale e immediato, comprendendo e rispondendo al contesto dinamico del mondo reale.

Project Astra - Google DeepMind

Non permette soltanto l'interazione con l'acquisizione della fotocamera in real-time, ma addirittura di interagire con il video nello schermo, ad esempio indicando gli elementi di interesse.

Davvero emozionante l'utilizzo del sistema
attraverso gli smart glasses e la voce.

Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google indicano passi significativi verso sistemi più veloci, efficienti e capaci di interazioni multimodali avanzate, spianando la strada per assistenti AI futuristici e onnipresenti.

L'approfondimento nel blog di Google.

Gemini breaks new ground with a faster model, longer context, AI agents and more
We’re sharing updates across our Gemini family of models and a glimpse of Project Astra, our vision for the future of AI assistants.

4) Imagen 3: il nuovo modello text-to-image

Imagen 3 rappresenta un significativo avanzamento nella tecnologia di generazione di immagini da input testuale, con migliorie sostanziali nella qualità visiva, nella comprensione dei prompt e in termini di sicurezza, promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di Google.

Imagen 3: il nuovo modello text-to-image

Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza e la responsabilità, includendo watermarking digitale, impercettibile all'occhio umano ma rilevabile per l'identificazione.

Watermarking AI-generated text and video with SynthID
Announcing our novel watermarking method for AI-generated text and video, and how we’re bringing SynthID to key Google products

Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e Ads.

L'approfondimento dal sito web di Google DeepMind.

Imagen 3
Imagen 3 is our highest quality text-to-image model, capable of generating images with even better detail, richer lighting and fewer distracting artifacts than our previous models.

5) Gemini 1.5 Pro è ora disponibile per tutti

Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni di token.

Gemini 1.5 Pro è ora disponibile per tutti

L'approfondimento nel blog di Google.

Get more done with Gemini: Try 1.5 Pro and more intelligent features
Gemini Advanced subscribers will get access to Gemini 1.5 Pro, a 1 million token context window and more personalized features.

6) Trillium: una nuova architettura di TPU efficiente e performante

Il lancio delle TPU Trillium di sesta generazione segna un significativo avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo notevoli miglioramenti nella velocità di training e nell'efficienza energetica, essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale su larga scala.

Trillium: una nuova architettura di TPU efficiente e performante

Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte rispetto alle prestazioni di calcolo di picco per chip della versione precedente.

L'approfondimento nel blog di Google Cloud.

Introducing Trillium, sixth-generation TPUs | Google Cloud Blog
The new sixth-generation Trillium Tensor Processing Unit (TPU) makes it possible to train and serve the next generation of AI foundation models.

7) Gemini 1.5 Flash

Un modello più leggero, ottimizzato per attività in cui diventano fondamentali la bassa latenza e i costi.

Gemini 1.5 Flash

Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione di token su Google AI Studio e Vertex AI.

Gemini Flash
Our lightweight model, optimized for when speed and efficiency matter most, with a context window of up to one million tokens.

8) Generative Music con MusicFX

MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi ritmi e composizioni.

Generative Music con MusicFX

Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare vita a storie musicali. È un playground per ispirare la generazione di nuova musica.

Un approfondimento nel blog di Google.

Introducing VideoFX, plus new features for ImageFX and MusicFX
Today we’re introducing VideoFX, plus new features for ImageFX and MusicFX that are now available in 110 countries.

9) Gemini integrato su Google Sheets

Grazie a questa integrazione sarà possibile interagire con Gemini direttamente all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il linguaggio naturale.

Gemini integrato su Google Sheets

La possibilità di organizzare gli allegati di Drive, generare un foglio e analizzare i dati verrà implementata su Labs entro la fine dell'anno.

Collaborate with Gemini in Google Sheets (Workspace Labs) - Google Docs Editors Help
With Gemini in Google Sheets, you can: Create tables. Create formulas. Summarize your files from Drive and emails from Gmail. Feature availability Th

10) L'integrazione di Gemini anche su Gmail, Docs, Calendar

Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le applicazioni. Ad esempio sarà possibile riconoscere determinate mail, organizzandole su Drive e Sheets.

L'integrazione di Gemini anche con Gmail, Docs, Calendar


Considerazioni finali

Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10 punti condivisi. Si è parlato, infatti, anche di:

I/O 2024
Here’s a look at everything we announced at Google I/O 2024.

Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con una miriade di progetti basati sull'AI senza dare un riferimento chiaro all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto disorientato.. o almeno per me la sensazione è stata questa.

Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a ripetere che manca davvero un unico assistente centrale per tutto l'ecosistema.

Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane difficile affrontare un altro assistente.

GPT-4o: il più performante, multimodale, e.. gratuito!?
3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update

- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂