Generative AI: novità e riflessioni - #11 / 2025

Gemini 3 e Nano Banana Pro alzano l’asticella nella generazione visiva e agentica. Prompt Assistant, Veo 3.1, GPT-5.1, Claude 4.5 e nuovi tool Google e Meta testati sul campo. Immagini, video, flussi AI e risorse pratiche per creare, automatizzare e sperimentare.

Generative AI: novità e riflessioni - #11 / 2025
Generative AI: novità e riflessioni - #11 / 2025
Buon aggiornamento, e buone riflessioni..

Image Prompt Assistant

Ho creato un Agente AI che crea prompt strutturati per modelli dedicati alla generazione di immagini (es. Gemini 3 Pro Image - Nano Banana Pro, Imagen 4, Seedream 4, GPT Image, ecc.).

Image Prompt Assistant
Image Prompt Assistant

Dopo diversi test, su diversi modelli, devo dire che lo trovo uno strumento utile, che permette di ottenere un'aderenza elevata delle immagini generate con l'idea di partenza.
L'agente riceve in input una descrizione di base dell'immagine, pone domande di follow-up per espandere i dettagli in modo guidato e semplice, e produce un prompt in JSON da usare come input per i modelli.
Attualmente lo uso in un flusso che parte da un semplice testo, genera l'immagine (fotogramma chiave), e infine produce la clip video. Ma ho trasferito la stessa logica dell'agente in un GPT per ChatGPT.

Per provarlo

ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.

Le immagini che seguono sono state create in questo modo: idea > GPT > prompt > Imagen 4 Ultra.

Il GPT permette anche la creazione guidata, e la produzione multipla di prompt per generare immagini coerenti dello stesso soggetto con inquadrature diverse.

Se qualcuno vorrà provarlo, sarò felice di ricevere feedback per migliorarlo.

La nuova metrica della visibilità? La rilevanza contestuale!

Oggi la pertinenza non basta più. Per comparire nelle AI Overview (e non solo), serve dimostrare di saper rispondere bene, nel contesto giusto.

La nuova metrica della visibilità? La rilevanza contestuale!

  • Pertinenza ≠ Rilevanza → La prima trova i contenuti “vicini”, la seconda sceglie quelli “giusti”.
  • Embeddings & Reranker → I contenuti vengono selezionati e ordinati in base a quanto bene rispondono alla query.
  • Test reale su Google AI Overviews → Primo nei risultati, ma fuori dalle fonti. Ottimizzando la risposta (usando un reranker) è diventata prima fonte.
  • Tool multi-agent → Un sistema automatizzato per migliorare le risposte e aumentare la probabilità di essere scelti come fonte.
È importante sforzarci di comprendere i concetti
tecnici chiave, per poi trasformarli in
strategie e automazioni che fanno la differenza.

Gemini 3 e Antigravity

Google ha presentato Gemini 3, il suo modello AI più avanzato, progettato per offrire capacità senza precedenti in ragionamento, multimodalità e interazione agentica.

L'ho provato.

  • Una delle novità più interessanti: finalmente il modello supporta l'uso dei tool insieme agli output strutturati.
  • Ho fatto un test con la web search e output in JSON. Questo sembra un dettaglio, ma nello sviluppo di applicazioni è un grande upgrade.
  • Ho testato il modello su task abbastanza complessi, dove la versione precedente aveva qualche difficoltà nell'elaborazione e nella creazione di un output strutturato (mentre GPT-5.1 aveva successo): il salto, al di là dei benchmark, sembra essere interessante. Anche se la concezione di "web search" di Gemini continua ad essere diversa da quella di OpenAI.
  • Su workflow agentici con LangGraph le performance sono sempre elevate.

Gemini 3 Pro stabilisce nuovi standard nei benchmark di intelligenza artificiale, superando le versioni precedenti in compiti complessi di logica, matematica, codifica e comprensione visiva. La nuova modalità "Deep Think" porta il modello a un livello superiore, affrontando sfide avanzate con risultati da record.
Ha una finestra di contesto da 1 milione di token, e la capacità di integrare testo, immagini, video, audio e codice.

È stato introdotto anche Google Antigravity, una nuova piattaforma di sviluppo che sfrutta le capacità agentiche di Gemini 3.

Google Antigravity
Google Antigravity

L'ho provato: oltre alla modalità di utilizzo classica dell'IDE, il sistema ti permette di delegare interi blocchi di lavoro ad agenti che aprono in autonomia editor, terminale e browser, pianificano i passi, li eseguono e li documentano in artefatti verificabili (liste di task, diff di codice, log di esecuzione, screenshot), lasciando all'utente il ruolo di supervisore e orchestratore del flusso. È un cambio di paradigma: non più solo “scrivimi questo pezzo di codice”, ma “portami da qui al risultato”, seguendo il ragionamento dell’agente e intervenendo quando serve.

Framework avanzato di sicurezza: è il modello più testato e sicuro mai rilasciato da Google, con valutazioni indipendenti e nuove difese contro abusi e attacchi AI.

Gemini 3 è già disponibile in Search (AI Mode), in Gemini App, su Vertex AI, AI Studio (ora usabile con API key) e nella nuova piattaforma Antigravity.

Gemini 3 Pro Image (Nano Banana Pro)

Gemini 3 Pro Image (Nano Banana Pro) è arrivato, con una caratteristica che non ha nessun altro modello: il supporto del reasoning di Gemini 3 e della ricerca di Google.. e questo cambia tutto!

Le immagini mostrano alcuni miei test di generazione ed editing. Non avevo dubbi sulla qualità dell'output, ma mi ha impressionato il fatto di inserire nel prompt il contenuto completo della mia newsletter per ottenere l'immagine di sintesi. Così come l'estrazione dei capi d'abbigliamento dalla foto della modella, o gli ingredienti della ricetta partendo dal nome e l'immagine del piatto.

Come sempre, ormai, l'aderenza al prompt è stupefacente.

Il modello genera immagini in 2K e 4K, con un controllo creativo professionale su illuminazione, messa a fuoco, composizione e stile.
Grazie al rendering avanzato del testo e alla capacità di localizzazione multilingua, consente di creare contenuti visivi complessi come mockup pubblicitari, fumetti, infografiche e materiali educativi. Il modello è in grado di mantenere la coerenza dei volti o dei personaggi su più immagini, e può combinare fino a 14 input visivi in un’unica composizione.

Uno degli aspetti più distintivi, come dicevo nell'introduzione, è la possibilità di accedere alla "conoscenza del mondo" in tempo reale attraverso il Grounding con Google Search. Questo permette di produrre visualizzazioni più accurate, ad esempio per mappe storiche o diagrammi scientifici.

L'integrazione con piattaforme come Adobe, Figma e Google Antigravity estende ulteriormente il suo potenziale applicativo, rendendolo uno strumento versatile sia per sviluppatori che per team creativi.

È disponibile tramite l'API di Gemini, Vertex AI e l’app Gemini, e include watermark digitali SynthID in ogni immagine generata, a tutela dell'autenticità e della trasparenza dei contenuti creati con intelligenza artificiale.

Gemini 3 Pro Image (Nano Banana Pro): un test di coerenza + prompt

Quello che segue è un test di coerenza del modello.

Le immagini sono state generate usando lo stesso prompt, variando i riferimenti visuali, ovvero le foto dei soggetti.

Le istruzioni sono state generate attraverso "Image Prompt Assistant":

ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.
Il risultato: il modello mostra una forte aderenza al prompt, che può essere ulteriormente migliorata aggiungendo ulteriori dettagli. Più aumenta l'oggettività nelle istruzioni, e più aumenta la coerenza.

Una guida di Google per l'uso del modello

Google ha pubblicato una guida con 10 suggerimenti per usare al meglio il modello.

Alcuni spunti pratici dalla guida

Rispetto ai modelli precedenti, Nano Banana Pro migliora in modo netto nella resa del testo, coerenza dei personaggi, sintesi visiva, grounding su dati reali (tramite Search) e output fino al 4K.

  • Prompting naturale: niente "tag soup" come dog, 4k, hyperrealistic. Meglio usare frasi complete come se si stesse parlando con un illustratore umano.
  • Editing invece di rigenerare: se un’immagine è quasi corretta, basta chiedere modifiche specifiche ("Cambia la luce al tramonto e rendi il testo blu neon") senza ripartire da zero.
  • Text rendering avanzato: utile per creare infografiche leggibili partendo da PDF o dati grezzi. Può sintetizzare report finanziari, diagrammi tecnici o lavagne educative.
  • Identity locking: mantiene fedelmente il volto e lo stile di un personaggio o prodotto attraverso più immagini, anche in contesti diversi.
  • Editing conversazionale: basta descrivere cosa cambiare, senza mascherature manuali. Il modello comprende contesto, logica e fisica (es. riempire un bicchiere, togliere turisti da una foto).
  • Traduzione dimensionale: da pianta 2D a rendering 3D o viceversa, ideale per architettura, UI design e prototipi visivi.
La guida è firmata da Guillaume Vernade (Gemini Developer Advocate) e include 10 sezioni operative, ognuna con esempi pronti da testare in AI Studio.

E-commerce: da immagini statiche a video sfilate

Questo è un esempio di 4 immagini di un e-commerce trasformate in mini-sfilate loopabili, cioè che possono essere riprodotte in un ciclo continuo.

Veo 3.1: trasformare immagini statiche di prodotto in video dinamici coerenti

Per produrle ho usato "Veo 3 Prompt Assistant" per creare dei prompt solidi e iper dettagliati, e Veo 3.1 in modalità Image-To-Video, usando l'immagine di prodotto come frame iniziale e finale.

ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.
La coerenza dei movimenti dei soggetti, è data dal dettaglio del prompt, che non lascia nulla al caso, e rimane lo stesso per tutti i video.

Veo 3.1: tripla estensione via API

Un esempio di video con la ripresa di un drone, generato con Veo 3.1 usando una tripla estensione via API.

Veo 3.1: tripla estensione via API

La generazione è text-to-video, e i 4 prompt (video principale + 3 estensioni) sono stati prodotti attraverso "Veo 3 Prompt Assistant".
La coerenza degli elementi visuali e audio è notevole.

Per provare "Veo 3 Prompt Assistant" (nuova versione):

ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.

Oppure basta cercare "Veo 3 Prompt Assistant" nella sezione GPT di ChatGPT.

Il Colab che ho usato per la generazione con l'API di Veo 3.1:

Basta impostare l'API Key di Gemini e modificare i prompt.

È possibile ottenere un buon output da un modello usando un prompt non strutturato?

Sì.. ma quello che otteniamo non l'abbiamo pilotato, non è riproducibile.. e questo non può diventare un processo.

Con un prompt di 4 parole, su Veo, ad esempio, si possono ottenere video bellissimi. Ma se volessimo un video simile con una piccola variazione, senza un prompt dettagliato di riferimento, non sarebbe ottenibile.
Ecco a cosa serve creare prompt iper dettagliati e strutturati: a pilotare con precisione il modello, e a creare processi replicabili.

Nel video, un esempio di 3 clip in cui uso lo stesso prompt su Veo 3.1 variando la stanza e qualche altro dettaglio.

L'importanza di usare prompt strutturati: la coerenza

Tutti i prompt sono stati creati attraverso "Veo 3 Prompt Assistant", per mantenere la coerenza.

ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.

GPT 5.1

OpenAI rilascia GPT-5.1, un aggiornamento che mira a rendere ChatGPT più intelligente, naturale nel dialogo e più personalizzabile.

OpenAI rilascia GPT-5.1
L'ho provato nei miei GPTs e anche in applicazioni via API: l'esperienza risulta essere migliore e più veloce.

Le due nuove versioni, Instant e Thinking, migliorano sia la velocità sia la qualità del ragionamento: Instant diventa più "caldo", conversazionale e preciso nell’eseguire istruzioni, mentre Thinking adatta in modo dinamico il tempo di riflessione, offrendo spiegazioni più chiare e risultati più solidi nei compiti complessi.

L'esperienza d'uso cambia in modo significativo anche sul fronte della personalizzazione. Oltre agli stili aggiornati (Default, Friendly, Efficient) arrivano Professional, Candid e Quirky, insieme alla possibilità di regolare finezza, calore e concisione direttamente dalle impostazioni. Le preferenze ora si applicano subito a tutte le conversazioni, incluse quelle già in corso.

Le API si aggiornano con gpt-5.1-chat-latest per Instant e con GPT-5.1 per Thinking, entrambe con ragionamento adattivo e miglioramenti sostanziali nella qualità delle risposte.

GPT-5.1: Prompting Guide

L’evoluzione dei LLM richiede prompt sempre più mirati, iterativi e strutturati per sfruttare appieno capacità come ragionamento adattivo, controllo del tono e interazione con strumenti esterni.

Questo emerge dalla nuova guida per GPT-5.1 pubblicata da OpenAI. Sono molto d'accordo: lo sto usando in un agente con una quantità enorme di istruzioni e di instradamento del "reasoning", ottenendo output davvero precisi.

Una sintesi della guida

  • Con GPT-5.1, il prompting diventa una leva strategica. Il modello è progettato per bilanciare velocità e intelligenza, adattandosi alla complessità del task e consumando meno token per input semplici. È altamente steerable: si può modellare tono, verbosità e personalità con precisione.
  • In ambito coding, il modello introduce strumenti nativi come apply_patch e shell, permettendo flussi multi-step e modifiche strutturate al codice. Supporta anche esecuzioni parallele e mantiene lo stato attraverso piani d’azione espliciti. La nuova modalità di reasoning none consente interazioni a bassa latenza e maggiore controllo, simile ai modelli precedenti come GPT-4.1.
  • Il prompting efficace con GPT-5.1 implica anche la gestione attiva dell’interazione: aggiornamenti all’utente durante lunghe esecuzioni, chiarezza nei piani, attenzione alla persistenza nella risoluzione dei task. La qualità delle istruzioni determina la qualità del comportamento: piccoli cambiamenti nel prompt possono produrre grandi variazioni di risultato.
  • Il metaprompting diventa un approccio utile per analizzare e correggere i comportamenti indesiderati del modello, attraverso cicli di ispezione e revisione delle istruzioni.
Con queste nuove generazioni di modelli, scrivere un buon prompt diventa sempre più importante nella progettazione di sistemi intelligenti.

Shopping Research su ChatGPT

OpenAI introduce una nuova esperienza di shopping research su ChatGPT, pensata per semplificare la ricerca dei prodotti. Basta descrivere ciò che si sta cercando, e il sistema costruisce una guida d’acquisto personalizzata, completa e basata su fonti affidabili.

L'ho provato su diverse query. Prima di iniziare la ricerca propone una serie di domande legate al contesto.
Successivamente avvia un processo di ricerca e selezione, proponendo una short list di prodotti (di cui uno consigliato), con una tabella comparativa.
Durante la fase di ricerca propone delle opzioni di raffinamento in tempo reale.
Attualmente non presenta widget di prodotto con le diverse offerte come la normale funzionalità di ricerca. Ma il post di OpenAI specifica che in futuro sarà disponibile anche l'Instant Checkout. Quindi probabilmente l'esperienza si evolverà nel prossimo futuro.

Si basa su una versione specializzata di GPT-5 mini, addestrata per leggere siti web attendibili, citare le fonti e sintetizzare grandi quantità di dati.

Un pensiero a caldo: si tratta di evoluzioni interessanti, ma lo saranno davvero quando apriranno effettivamente il "Merchant Center", consentendo agli e-commerce di condividere i feed, e la ricerca potrà contare su dati strutturati.

Claude Opus 4.5

Claude Opus 4.5 è il nuovo modello di punta di Anthropic, progettato per eccellere in attività complesse come sviluppo software, automazione tramite agenti AI e utilizzo avanzato di strumenti digitali.

È più efficiente dei modelli precedenti, con un significativo risparmio nell’uso dei token e prestazioni migliori nei benchmark interni.
Si distingue per la capacità di gestire compiti a lungo termine, con ragionamenti più profondi e meno interruzioni.

L’introduzione del parametro “effort” consente di bilanciare flessibilità e precisione a seconda del contesto d’uso. Il modello ottimizza processi come refactoring, code review e pianificazione tecnica, con risultati tangibili anche in ambiti come la modellazione finanziaria e la generazione di contenuti lunghi e coerenti.

Dal punto di vista della sicurezza, è il modello più allineato rilasciato da Anthropic, con una resistenza superiore agli attacchi di prompt injection.

È disponibile via API, cloud e nelle applicazioni desktop e mobile, con nuove funzionalità per Chrome, Excel e strumenti di sviluppo distribuiti.


Agentic Slides di Kimi

Kimi presenta Agentic Slides con Gemini 3 Pro Images (Nano Banana Pro): la generazione di presentazioni attraverso l'AI inizia a diventare davvero interessante.

L'ho provato, e il risultato è impressionante.

Il sistema si basa su Kimi K2 con web search e input multimodale.
Genera l'outline della presentazione, che può essere editato prima della generazione delle slide. La presentazione generata può essere modificata e ampliata all'interno del sistema di Kimi.

L'esportazione può essere in PPTX o PDF.

La generazione di immagini su Flow

Flow di Google si evolve anche con la generazione di immagini attraverso Gemini 3 Pro Image (Nano Banana Pro) e Imagen 4, permettendo dei flussi di creazione più completi.
Ora, ad esempio, è possibile generare immagini che diventano key frame per i video, che successivamente possono essere estesi in piattaforma.

Nell'esempio, uso il mio prompt assistant per creare istruzioni coerenti per immagine e video. Genero l'immagine con Imagen 4, e infine la animo con Veo 3.1.

Altra funzionalità interessante: è possibile estrarre fotogrammi dai video, editarli, e sfruttarli come key frame per generare altri video.

Il potenziale aumenta.

Generare immagini più coerenti?

Con un workflow multi-agente è possibile mettere in atto un ciclo di ottimizzazione, creazione e verifica molto interessante.
Nell'esempio, uso un sistema basato su LangGraph, Gemini 3 Pro e Gemini 2.5 Flash Image (Nano Banana).

L'input la descrizione dell'immagine da generare.

Gli agenti si occupano di:

  • trasformare l'input in un prompt strutturato per la generazione dell'immagine;
  • generare l'immagine;
  • valutare la coerenza dell'immagine rispetto al prompt attraverso uno score, e produrre un feedback.

Se il valutatore stabilisce che l'immagine non è adeguata, in base alle osservazioni, produce un piano di ottimizzazione del prompt, e il lavoro torna all'agente che crea un nuovo prompt, il quale successivamente farà generare una nuova immagine. E così via finché l'immagine risulta essere adeguata.

Il processo è estendibile anche ai video, visto che le nuove generazioni di modelli hanno una forte propensione alla multimodalità.

Creare presentazioni con Gemini modificabili in Google Slides?

La funzionalità è già disponibile, anche in Italia. Basta attivare "Canvas" e indicare al modello, nel prompt, di creare una presentazione in base al contesto a disposizione.

Nel mio esempio, ho caricato un documento in PDF, e il sistema ha creato una presentazione di 13 slide.

Usando l'interazione in chat si possono ottenere modifiche al contenuto, ma l'aspetto interessante è la possibilità di aprire e modificare la presentazione direttamente su Google Slides.

Mettendo a punto dei buoni prompt, descrivendo stile, target, elementi grafici, e altri dettagli, possiamo ottenere delle bozze di buon livello.

3 novità interessanti su NotebookLM

Su NotebookLM sono state rilasciate 3 importanti novità che riguardano le Video Overview, la Deep Research, le presentazioni e le infografiche.

  1. È stato introdotto lo stile personalizzato per la Video Overview. Ora è possibile descrivere le caratteristiche visuali del video, oltre al prompt dedicato al contenuto. L'ho provato: non si tratta di un controllo completo (le strutture di base rimangono), ma è un passo in avanti verso overview completamente custom.
  2. Il rollout della Deep Research è completo e usabile.
    L'ho provato, e, come pensavo è notevole: ora il "problema" diventa gestire le fonti.
  3. Finalmente è stata integrata la possibilità di creare infografiche e presentazioni.
    Attraverso prompt specifici è possibile ottenere dei risultati molto interessanti.

Negli esempi si vede un'infografica generata partendo da un e-book sul Deep Learning e una presentazione generata dal materiale su un mio talk.
Unico neo: le presentazioni non possono essere editate su Google Slides, ma sono scaricabili in PDF.


Agent Builder di OpenAI: è un buon sistema?

Sì, ma attenzione allo SPRECO DI TOKEN (enorme)! Spiego come evitarlo.

Per testare la piattaforma, ho provato a riprodurre un workflow multi agente sviluppato su LangGraph.

Il flusso non è particolarmente complesso, ma ha tutti gli ingredienti per capire le dinamiche: agenti con ruoli diversi e connessi a tool anche via MCP, workflow anche con logica condizionale gestita autonomamente, gestione dello "stallo decisionale", prompt dinamici costruiti dagli agenti stessi.

Il framework può essere usato in modalità "stateful" (come LangGraph), ed è questo che lo rende flessibile. In pratica, gli agenti condividono un set di variabili di stato, che leggono e aggiornano durante il workflow.
Una volta completato il flusso in modalità visuale, esportando il codice (Python nel mio caso), in qualche minuto l'applicazione è pronta e funzionante in una macchina dove abbiamo l'Agent SDK installato. E può essere modificata e integrata in un flusso di lavoro più ampio.

Per quanto riguarda il framework, trovo l'astrazione di LangGraph migliore: la rappresentazione del flusso attraverso un grafo (nodi + connessioni) continua ad essere vincente e più semplice.

Un aspetto che trovo inefficiente e poco scalabile di Agent SDK è che quando gli agenti vengono invocati (di default) ricevono in input TUTTA LA CRONOLOGIA della chat. Questo rende più semplice l'implementazione, ma causa un ENORME SPRECO di TOKEN e RIDUCE LA SCALABILITÀ!

Consiglio: lavorare SOLO sugli stati, e NON con la history della conversazione.

In conclusione: continuerei a scegliere LangGraph, ma sono rimasto sorpreso dalla flessibilità e dalla velocità di lavoro di Agent Builder + Agent SDK. Attenzione allo spreco di token!

È fondamentale comprendere il funzionamento dei framework per usarli al meglio.

Opal: esempi di workflow

Opal è un Agent Builder di Google: un sistema che permette di creare applicazioni basate sull'AI in modo visuale.
Quelli che seguono sono due esempi di workflow che ho realizzato.

Video advertising

Il workflow riceve in input un prodotto di riferimento e un target di destinazione, generando una bozza di video advertising completa.
I diversi blocchi sfruttano Gemini e Veo per:

  • cercare informazioni online,
  • creare il copy dell’adv,
  • generare il prompt per il video,
  • produrre il video stesso,
  • costruire un widget HTML con l’annuncio completo.

Opal di Google: un workflow per video advertising

Lavorando sull'ottimizzazione dei prompt dei diversi blocchi, si possono ottenere risultati molto interessanti con un basso effort.

Scrittura di contenuti con Deep Research

In questo esempio, ho sviluppato un workflow che riceve in input un topic ed esegue le seguenti operazioni..

  • Avvia una Deep Research sull'argomento (l'agente è addestrato ad espandere la tematica), e produce un report di ricerca dettagliato.
  • Genera l'outline per un articolo che mette a fuoco la struttura del contenuto.
  • Un agente "scrittore", addestrato con linee guida ed esempi, inizia a generare l'articolo sull'argomento.
  • Parallelamente, due agenti, usando l'outline per generare prompt strutturati per la creazione della "hero" image, e di una clip video.
  • Il post scritto va in revisione, e l'agente produce un'analisi per l'ottimizzazione.
  • Nel frattempo, l'immagine e il video sono pronti.
  • Un agente salva il documento con l'articolo su Drive, e un altro genera una preview della pagina web del post, con i contenuti multimediali.

Opal di Google: scrittura di contenuti con Deep Research

Gli agenti del workflow usano Gemini 2.5 Pro, il 2.5 Flash per la Deep Research, Veo 3.1 e Imagen 4.

Pro del sistema: tool e modelli potenti pronti all'uso in modo semplice, e la possibilità di parallelizzazione dei task.
Contro: non ha nodi decisionali, né connessioni a tool esterni via MCP. Ma la funzionalità sta arrivando.

Recentemente Google ha rilasciato Opal in 160 paesi, ma purtroppo l'Italia non è tra questi.

La Deep Research di Qwen si aggiorna

Il team di Qwen ha rilasciato un importante aggiornamento che riguarda la Deep Research, che rende il sistema più approfondito, veloce e migliore.
L'ho provato per una ricerca abbastanza articolata (in modalità "advanced"): in 1 ora e 22 minuti ha creato un report approfondito di 20 pagine, analizzando 170 fonti.

Il nuovo sistema ha due modalità: "normale" (efficiente e versatile per la maggior parte delle esigenze), e "advanced" (meno veloce, ma più approfondita), e permette il caricamento di file e immagini per arricchire il #prompt di ricerca.

La potenza della ricerca è aumentata: diventa più efficiente e profonda. Inoltre migliora il controllo sul report, gestendo meglio, ad esempio, il numero di parole, paragrafi e contenuto.

Continuo a dirlo: modelli come Qwen e Kimi stanno crescendo, diventando delle alternative sempre più interessanti ai sistemi più noti.

FLUX.2

FLUX.2 è il nuovo modello di generazione e editing di immagini sviluppato da Black Forest Labs, progettato per flussi di lavoro creativi reali.

L'ho provato nella versione "pro", e non ci si poteva aspettare che una qualità altissima. Unica nota: nella coerenza visiva con prompt multimodale, siamo lontani da Gemini.

Supporta immagini ad alta risoluzione (fino a 4MP), mantiene coerenza di stile e soggetti su più riferimenti (fino a 10 immagini), gestisce testi complessi e aderisce a prompt strutturati e linee guida di brand.

Rispetto alla versione precedente, offre maggiore realismo, stabilità dell’illuminazione, resa tipografica migliorata e maggiore comprensione del contesto reale.

Sono disponibili diverse varianti:

  • [pro]: massima qualità e velocità per usi professionali.
  • [flex]: controllo su qualità e tempo di generazione, ideale per sviluppatori.
  • [dev]: modello open-weight avanzato, utilizzabile localmente o via API.
  • [klein] (in arrivo): versione open-source più leggera, con licenza Apache 2.0.

GEM (Generative Ads Recommendation Model) di Meta

Meta ha introdotto GEM (Generative Ads Recommendation Model), un nuovo modello di AI progettato per migliorare la qualità e la rilevanza degli annunci pubblicitari.

Si tratta di un foundation model, cioè un modello di base molto grande e versatile, addestrato su larga scala (con migliaia di GPU e enormi quantità di dati), simile ai LLM, ma dedicato alla pubblicità.

A differenza dei modelli tradizionali che si concentrano solo su compiti specifici, GEM è costruito per apprendere in modo generale da dati eterogenei (clic, interazioni, formato degli annunci, comportamenti degli utenti) e poi trasferire ciò che ha imparato ad altri modelli più piccoli usati in diversi punti dell’ecosistema pubblicitario di Meta.

Meta’s Generative Ads Model (GEM): The Central Brain Accelerating Ads Recommendation AI Innovation
We’re sharing details about Meta’s Generative Ads Recommendation Model (GEM), a new foundation model that delivers increased ad performance and advertiser ROI by enhancing other ads recommendation …

Tra le innovazioni principali:

  • Architettura personalizzata con attenzione multi-livello: GEM distingue tra dati sequenziali (es. cronologia degli utenti) e non sequenziali (es. età, formato dell’annuncio), trattandoli in modo ottimizzato per cogliere meglio le relazioni complesse tra utenti e annunci.
  • Modellazione delle sequenze con struttura a piramide parallela: per analizzare lunghe catene di interazioni (click, visualizzazioni) mantenendo il dettaglio senza perdere informazioni utili, anche su migliaia di eventi.
  • Cross-feature learning con InterFormer: una combinazione di moduli transformer e strati di interazione tra feature, che permette a GEM di affinare continuamente la comprensione del comportamento degli utenti.
  • Trasferimento di conoscenza efficace: GEM usa tecniche avanzate (come knowledge distillation, representation learning e condivisione dei parametri) per migliorare le prestazioni dei modelli verticali senza aumentarne il peso computazionale.
  • Training stack ottimizzato: l’infrastruttura di addestramento è stata ripensata da zero per supportare un modello di queste dimensioni. Risultato: +23× nelle FLOPS di training effettive e +1.43× di efficienza nell’uso delle GPU.
GEM ha già mostrato impatti concreti: nel secondo trimestre 2025 ha aumentato le conversioni pubblicitarie del 5% su Instagram e del 3% su Facebook Feed. E gli aggiornamenti successivi hanno raddoppiato l’efficacia per ogni unità di dati e calcolo aggiunta.

SAM 3 di Meta + Colab

Meta ha presentato SAM 3 e SAM 3D, i nuovi modelli di AI per comprendere, segmentare e ricostruire oggetti e persone in immagini e video.

SAM 3 introduce una segmentazione "open vocabulary" basata su prompt testuali, visivi o immagini esempio, superando i limiti delle etichette predefinite. Rileva, segmenta e traccia concetti complessi come "la seconda persona seduta a sinistra con una giacca rossa", e funziona anche in tempo reale su video.

0:00
/0:34

SAM 3 di Meta

SAM 3D estende queste capacità alla ricostruzione tridimensionale. Con SAM 3D Objects è possibile ottenere modelli 3D con texture a partire da una singola immagine. SAM 3D Body stima con precisione la posa e la forma del corpo umano, anche in presenza di occlusioni o pose inconsuete.

Entrambi i modelli si basano su dataset su larga scala costruiti con un sistema ibrido uomo+AI, migliorando drasticamente la qualità e varietà dei dati. Sono già integrati in prodotti come Facebook Marketplace per visualizzare oggetti in ambienti reali, e saranno utilizzati in strumenti per creatori su Instagram, Meta AI e oltre.

Attraverso la piattaforma Segment Anything Playground, chiunque può sperimentare queste tecnologie senza competenze tecniche, caricando immagini e generando segmentazioni o ricostruzioni 3D in pochi passaggi.

Un Colab per provarlo

Attraverso questo Colab è possibile provarlo, attraverso un flusso semplice e lineare. Il video viene prima convertito in frame JPEG, perché SAM 3 lavora a livello di immagine. Si apre poi una sessione di inferenza video, nella quale il modello carica tutti i frame e salva i loro feature embeddings. Da lì, basta fornire un prompt testuale e SAM 3 genera le maschere per ogni oggetto rilevante e le segue per tutta la sequenza. In pochi secondi si ottiene un tracking pulito, stabile e fedele, senza alcun training.

0:00
/0:15

SAM 3 di Meta: un esempio di utilizzo

Nel video, si vede un esempio del risultato.

File Search Tool nella Gemini API

Google ha introdotto il nuovo File Search Tool nella Gemini API, progettato per semplificare l'implementazione di sistemi RAG (Retrieval-Augmented Generation) nei progetti di AI.

Il sistema è completamente gestito e integrato nell’API, permettendo agli sviluppatori di concentrare gli sforzi sulla costruzione delle applicazioni, senza occuparsi della complessità del recupero dei dati.

File Search gestisce in modo automatico lo storage dei file, le strategie di suddivisione in chunk, la generazione degli embeddings e l’iniezione del contesto nei prompt, il tutto tramite un’esperienza unificata nell’API generateContent.
Utilizza un motore di ricerca vettoriale basato sul modello gemini-embedding-001, in grado di comprendere il significato delle query e restituire risultati pertinenti anche in assenza di corrispondenze testuali esatte.

I risultati generati includono citazioni automatiche che indicano con precisione le fonti utilizzate, rendendo più semplice la verifica delle risposte. Il tool è compatibile con numerosi formati, tra cui PDF, DOCX, TXT, JSON e file di codice.

Per rendere lo strumento accessibile, Google ha introdotto un modello di pricing che prevede la gratuità per la ricerca e la generazione di embeddings al momento della query. Si paga solo per l’indicizzazione iniziale dei file, al costo fisso di 0,15 $ per 1 milione di token.


Kimi K2 Thinking

Kimi K2 Thinking è il nuovo modello open-source di agentic thinking sviluppato da Moonshot AI.

Si tratta di un agente in grado di ragionare in modo autonomo, passo dopo passo, mentre utilizza strumenti esterni come browser, motori di calcolo o ambienti di programmazione. È capace di eseguire da 200 a 300 chiamate sequenziali a tool senza alcun intervento umano, mantenendo coerenza e obiettivi lungo tutto il processo.

Il modello ha ottenuto risultati da stato dell’arte nei principali benchmark di AI:

  • 44,9% su Humanity’s Last Exam (HLE), un test multidisciplinare con domande di livello esperto;
  • 60,2% su BrowseComp, valutando la sua capacità di ricerca e consultazione autonoma di fonti online;
  • 71,3% su SWE-Bench Verified, testando la sua efficacia come agente di programmazione.

Il modello mostra un'elevata generalizzazione in compiti complessi e poco strutturati, ed è in grado di risolvere problemi di matematica avanzata.

Il progetto introduce un paradigma che va oltre la generazione di testo: un’intelligenza artificiale che combina pensiero computazionale, capacità simboliche e uso strumentale, aprendo la strada a una nuova generazione di agenti intelligenti capaci di affrontare compiti aperti e multidisciplinari con autonomia e profondità.


Freepik Spaces

Anche Freepik ha lanciato il suo "canvas" che permette la creazione di workflow per la produzione di contenuti visivi. Si chiama "Spaces".

Freepik Spaces: un test

Nel video si vede un esempio di un semplice flusso, in cui genero un'immagine "text-to-image" con Seedream 4, e partendo dall'immagine ne creo un'altra, con la nuova funzionalità "Camera Angles", che permette di ruotare l'inquadratura.
Infine, collegando l'immagine a un nodo video, e aggiungendo un #prompt testuale, genero un video con Veo 3.1.

Ho creato il prompt per l'immagine usando "Image Prompt Assistant":

ChatGPT - Image Prompt Assistant
Descrivi l’immagine che vuoi creare, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Sfrutta i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.

Il prompt per il video, invece, con "Veo 3 Prompt Assistant":

ChatGPT - Veo 3 Prompt Assistant
Descrivi il video che vuoi creare con Veo 3.1, e genererò un prompt strutturato da usare per ottenere il miglior risultato. Posso fornirti anche l’immagine del fotogramma chiave. Usa i suggerimenti, oppure parlami direttamente della tua idea. Al resto penserò io. Buona creazione.

L'aspetto sempre più interessante di questi modelli è la loro capacità di aderire anche a istruzioni molto strutturate. L'immagine, e poi il video, mostrano esattamente quello che ho descritto nei prompt.


SIMA 2 di Google DeepMind

SIMA 2 è la nuova generazione di agenti AI sviluppata da Google DeepMind, progettata per operare in ambienti virtuali 3D complessi.
Potenziato dal modello Gemini, non si limita a seguire istruzioni: ragiona, comunica, apprende autonomamente e si adatta a mondi mai visti prima.

L'agente comprende obiettivi a lungo termine, esegue compiti articolati e spiega le proprie azioni.. un passo concreto verso l’intelligenza artificiale generale "incarnata"? Le sue abilità si estendono oltre i singoli giochi: riesce a trasferire concetti tra contesti differenti e ad apprendere nuove competenze tramite gioco auto-diretto.

0:00
/0:46

SIMA 2 di Google DeepMind

SIMA 2 è anche in grado di operare in mondi generati in tempo reale da semplici input testuali o visivi, grazie all’integrazione con il progetto Genie.
Durante l’addestramento, il sistema utilizza i feedback di Gemini per migliorarsi progressivamente senza ulteriore supervisione umana, dimostrando una capacità di autoapprendimento su larga scala.

Il progetto rimane in fase di ricerca, ma apre prospettive concrete per applicazioni nella robotica, nell’assistenza virtuale e nell’interazione multimodale uomo-macchina.

Nested Learning di Google Research

Nested Learning è un nuovo approccio al machine learning sviluppato da Google Research, pensato per risolvere un limite comune nei modelli neurali: quando imparano nuove informazioni, tendono a dimenticare quelle già apprese.

Invece di considerare il modello come un unico processo di apprendimento, Nested Learning lo interpreta come un insieme di più sottoprocessi organizzati a livelli, ciascuno con il proprio flusso informativo e il proprio ritmo di aggiornamento.
Questo approccio unifica la struttura del modello e il modo in cui apprende, trattandoli come parti di un unico sistema. Il risultato è un'AI più stabile, che può imparare in modo continuo senza perdere ciò che già conosce.

Hope è l’architettura sperimentale sviluppata secondo questi principi: una rete neurale ricorrente capace di modificare sé stessa e dotata di una memoria flessibile, in grado di gestire grandi quantità di informazioni nel tempo. I risultati mostrano miglioramenti evidenti rispetto ai modelli tradizionali, sia nella comprensione del linguaggio sia nel mantenere memoria di contesti lunghi.

Questo apre nuove prospettive per costruire sistemi di intelligenza artificiale più vicini al modo in cui apprende il cervello umano.

Kosmos: l'AI applicata alla ricerca scientifica

Kosmos rappresenta una delle evoluzioni più significative nel campo dell'AI applicata alla ricerca scientifica.

È un sistema progettato per condurre, in modo autonomo, l'intero ciclo della scoperta: analisi dei dati, esplorazione della letteratura, generazione di ipotesi, verifica e sintesi in report strutturati e completamente tracciabili.
La sua architettura combina due agenti generici (uno dedicato alle analisi e uno alla ricerca bibliografica) coordinati da un "world model" che mantiene coerenza, memoria e direzione scientifica per centinaia di iterazioni. Il risultato è una capacità di ragionamento esteso che supera di un ordine di grandezza quella dei sistemi precedenti.

Kosmos: An AI Scientist for Autonomous Discovery
Data-driven scientific discovery requires iterative cycles of literature search, hypothesis generation, and data analysis. Substantial progress has been made towards AI agents that can automate scientific research, but all such agents remain limited in the number of actions they can take before losing coherence, thus limiting the depth of their findings. Here we present Kosmos, an AI scientist that automates data-driven discovery. Given an open-ended objective and a dataset, Kosmos runs for up to 12 hours performing cycles of parallel data analysis, literature search, and hypothesis generation before synthesizing discoveries into scientific reports. Unlike prior systems, Kosmos uses a structured world model to share information between a data analysis agent and a literature search agent. The world model enables Kosmos to coherently pursue the specified objective over 200 agent rollouts, collectively executing an average of 42,000 lines of code and reading 1,500 papers per run. Kosmos cites all statements in its reports with code or primary literature, ensuring its reasoning is traceable. Independent scientists found 79.4% of statements in Kosmos reports to be accurate, and collaborators reported that a single 20-cycle Kosmos run performed the equivalent of 6 months of their own research time on average. Furthermore, collaborators reported that the number of valuable scientific findings generated scales linearly with Kosmos cycles (tested up to 20 cycles). We highlight seven discoveries made by Kosmos that span metabolomics, materials science, neuroscience, and statistical genetics. Three discoveries independently reproduce findings from preprinted or unpublished manuscripts that were not accessed by Kosmos at runtime, while four make novel contributions to the scientific literature.
In un singolo run di 12 ore, Kosmos può leggere fino a 1.500 articoli, eseguire oltre 40.000 righe di codice e produrre scoperte che, secondo gruppi accademici indipendenti, equivalgono a circa sei mesi di lavoro umano.

Ogni claim è supportato da codice o letteratura primaria, offrendo un grande livello di trasparenza, e permettendo a scienziati esterni di validare o confutare facilmente ogni passaggio. L’accuratezza complessiva delle sue affermazioni, valutata da esperti, è del 79%, con performance particolarmente solide nelle analisi dati e nelle verifiche bibliografiche.

Il valore di Kosmos emerge soprattutto nella sua capacità di esplorare fenomeni complessi con un approccio non pregiudiziale.
Nei test condotti, ha riprodotto risultati recenti non ancora pubblicati, ha fornito prove aggiuntive per scoperte esistenti e ha sviluppato nuovi metodi analitici senza supervisione diretta. In alcuni casi è arrivato a identificare meccanismi biologici che non erano mai stati individuati da ricercatori umani.

Questa potenza analitica non elimina
il ruolo dei ricercatori: lo amplia.

Kosmos dà il meglio quando opera su dati curati da scienziati e quando i risultati vengono valutati criticamente da esperti. La collaborazione uomo–AI diventa un ciclo continuo: lo scienziato imposta il problema, Kosmos esplora lo spazio delle possibilità, l’umano interpreta, corregge, orienta. E ciò che Kosmos propone, anche quando imperfetto, amplia l’orizzonte degli esperimenti e delle domande future.

Nonostante i limiti attuali, il sistema dimostra cosa può diventare la ricerca quando la capacità computazionale si unisce a metodi scientifici automatizzati. Kosmos non promette di sostituire l’ingegno umano, ma accelera il percorso che porta dai dati alla conoscenza, aprendo un nuovo modo di fare scienza in cui esplorazione e validazione si alimentano reciprocamente.


Flora: un workflow con Wan 2.2 e Nano Banana

Flora rimane uno dei sistemi dedicati ai modelli visuali più sorprendenti.
Questo workflow, basato su Gemini 2.5 Flash Image (Nano Banana) e Wan 2.2 Move & Replace, permette di sostituire personaggi, abiti o oggetti in post-produzione.

0:00
/0:18

Flora: un workflow con Wan 2.2 e Nano Banana

Il tutto, collegando blocchi video e immagini di riferimento, e adattando automaticamente il risultato al movimento e alla scena.


L'editing delle immagini di Qwen

Uno space di Hugging Face molto interessante che mostra la potenzialità di Qwen nell'editing delle immagini.
L'applicazione riceve in input un'immagine e permette di selezionare un'opzione di cambio inquadratura.

L'output è un'immagine coerente nell'inquadratura selezionata.

I modelli di generazione video rispettano le leggi fisiche del mondo reale?

Oppure si limitano a generare sequenze visivamente plausibili senza comprenderle?

Quando è stato lanciato Sora 2, dopo diversi test, avevo già risposto con decisione a questa domanda, ma ora arriva una conferma dal paper "Do generative video models understand physical principles?" di Google DeepMind e INSAIT.

Il team ha creato Physics-IQ, un benchmark pensato per misurare la comprensione delle leggi fisiche nei modelli di generazione video. Sono stati messi alla prova otto sistemi tra cui Sora, Runway Gen-3, Lumiere, Pika, Stable Video Diffusion e VideoPoet, chiedendo loro di prevedere come prosegue una scena in base ai primi fotogrammi.

Il dataset include 396 video reali che coprono meccanica dei solidi, fluidodinamica, ottica, termodinamica e magnetismo. I risultati parlano chiaro: anche i modelli più avanzati raggiungono solo il 30% del comportamento fisico reale. Il migliore è VideoPoet (multiframe) con il 29,5%, mentre Sora, pur generando i video più realistici visivamente, si ferma al 10%.

Il dato più interessante: realismo visivo e comprensione fisica non sono correlati. Un video può sembrare perfettamente credibile e al tempo stesso violare le leggi fondamentali del mondo reale.

Il lavoro apre una riflessione più ampia: la previsione del futuro (next-frame prediction) può davvero bastare per imparare la fisica, o servirà un approccio più "embodied", in cui l’IA interagisce con l’ambiente per capirlo davvero?
Il benchmark Physics-IQ è pubblico e rappresenta oggi un riferimento per misurare quanto le intelligenze generative "capiscono" davvero il mondo che imitano.

Le mie considerazioni dopo il lancio di Sora 2

#sora #prompt #veo3 #openai #ai #genai #generativeai #intelligenzaartificiale #llm | Alessio Pomaro
🧠 Primi test con #Sora 2, in modalità “text to video”. ✨ Partiamo dal concetto che siamo ormai a livelli molto alti di qualità dell’output e di coerenza. 👉 L’aderenza al #prompt e gli output sono ottimi, anche su contesti ampi e strutturati, ma mi ha convinto maggiormente #Veo3. 👉 Spero di non sentire più nessuno parlare di “SIMULAZIONE FISICA” per questa categoria di modelli. 👉 Sono perfetti in alcuni ambiti (es. quelli che sono stati mostrati nella live di presentazione di #OpenAI), ma un disastro in altri. Perché non c’è una struttura simbolica che imponga vincoli fisici (es. gravità, inerzia, coerenza dei movimenti): tutto deriva dal training. 💡 Certo che migliora rispetto ai modelli precedenti! Perché migliora il training, aumentano i dati, migliorano le tecniche, si agisce per correggere.. ma non può essere affidabile come un sistema che “conosce effettivamente” le leggi fisiche (un motore fisico di simulazione). 👉 Questo vale anche se si usa una fase di “reasoning” che riscrive i prompt migliorando la descrizione per ottenere un risultato migliore. ❓ Forse ci arriveremo (anche se non ne sono certo, considerando solo questa tecnologia). Di certo, oggi non ci siamo. ___ ✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV #AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM

Tongyi DeepResearch: report tecnico

Dopo il lancio di Tongyi DeepResearch, il team di Alibaba ha pubblicato il report tecnico completo, ed è un documento che segna degli step di avanzamento molto interessanti.

Tongyi DeepResearch: report tecnico

Tongyi DeepResearch è un modello agentico da 30,5 miliardi di parametri, ma con solo 3,3 miliardi attivi per token. Un’architettura efficiente, progettata per eseguire ricerche complesse, pianificare strategie, consultare fonti reali e sintetizzare conoscenza in modo autonomo.
La vera novità è il modo in cui è stato addestrato: un approccio “end-to-end” che unisce due fasi (mid-training e post-training agentico) in un unico flusso continuo. Nella prima fase il modello apprende come comportarsi da agente, nella seconda impara a perfezionare queste abilità attraverso reinforcement learning e fine-tuning supervisionato.

Niente etichette manuali: i dati di addestramento vengono generati automaticamente tramite una pipeline di sintesi che produce domande, ragionamenti e decisioni simulate, in ambienti virtuali e reali. È un modo per scalare la conoscenza senza il costo del lavoro umano, mantenendo coerenza e varietà.

Il modello interagisce con un ecosistema di strumenti (es. il motore di ricerca, interprete Python, parser di file, Google Scholar) e gestisce contesti fino a 128.000 token grazie a un sistema di memoria compressa che

imita il modo in cui una persona sintetizza e aggiorna ciò che sa durante un’indagine lunga.

Nei test, Tongyi DeepResearch ha superato o eguagliato modelli chiusi come OpenAI o3 e DeepSeek-V3.1, raggiungendo prestazioni allo stato dell’arte su benchmark di ricerca complessa come Humanity’s Last Exam, GAIA e WebWalkerQA.
Alibaba ha inoltre introdotto la “Heavy Mode”, che coordina più agenti in parallelo e fonde le loro conclusioni in un’unica risposta coerente: potremmo definirla "intelligenza collaborativa".

Il risultato è un agente capace di unire metodo scientifico e automazione, costruendo una base aperta per la ricerca autonoma.

Personal Health Agent (PHA)

Un nuovo studio di Google Research presenta il Personal Health Agent (PHA), un sistema multi-agente basato su grandi modelli linguistici progettato per offrire supporto personalizzato alla salute e al benessere.

The Anatomy of a Personal Health Agent
Health is a fundamental pillar of human wellness, and the rapid advancements in large language models (LLMs) have driven the development of a new generation of health agents. However, the application of health agents to fulfill the diverse needs of individuals in daily non-clinical settings is underexplored. In this work, we aim to build a comprehensive personal health agent that is able to reason about multimodal data from everyday consumer wellness devices and common personal health records, and provide personalized health recommendations. To understand end-users’ needs when interacting with such an assistant, we conducted an in-depth analysis of web search and health forum queries, alongside qualitative insights from users and health experts gathered through a user-centered design process. Based on these findings, we identified three major categories of consumer health needs, each of which is supported by a specialist sub-agent: (1) a data science agent that analyzes personal time-series wearable and health record data, (2) a health domain expert agent that integrates users’ health and contextual data to generate accurate, personalized insights, and (3) a health coach agent that synthesizes data insights, guiding users using a specified psychological strategy and tracking users’ progress. Furthermore, we propose and develop the Personal Health Agent (PHA), a multi-agent framework that enables dynamic, personalized interactions to address individual health needs. To evaluate each sub-agent and the multi-agent system, we conducted automated and human evaluations across 10 benchmark tasks, involving more than 7,000 annotations and 1,100 hours of effort from health experts and end-users. Our work represents the most comprehensive evaluation of a health agent to date and establishes a strong foundation towards the futuristic vision of a personal health agent accessible to everyone.

Il PHA integra dati da dispositivi indossabili, cartelle cliniche e interazioni conversazionali per fornire analisi, interpretazioni mediche e coaching motivazionale. Il sistema si articola in tre componenti:

  1. il Data Science Agent, che analizza dati numerici e individua pattern;
  2. il Domain Expert Agent, che fornisce risposte mediche accurate e contestualizzate;
  3. l’Health Coach Agent, che aiuta a definire obiettivi realistici e a sostenere il cambiamento comportamentale.

Sviluppato con un approccio centrato sull’utente, il progetto si basa su oltre 1.300 query reali e su dati dello studio WEAR-ME, che ha coinvolto più di mille partecipanti. La valutazione ha compreso 10 benchmark, oltre 7.000 annotazioni umane e più di 1.100 ore di lavoro di esperti e utenti.

I risultati mostrano miglioramenti significativi nell’accuratezza analitica, nella qualità delle risposte mediche e nell’efficacia del coaching rispetto ai modelli linguistici generici.

Forse, stiamo vedendo dei progressi interessanti verso "agenti di salute" integrati, accessibili e orientati all’empowerment delle persone.

- GRAZIE -

Se hai apprezzato il contenuto, puoi
contribuire al progetto con una donazione 🙂