Generative AI: novità e riflessioni - #5 / 2024

Un nuovo appuntamento per aggiornarsi e riflettere sulle tematiche che riguardano l'intelligenza artificiale e la Generative AI.

Generative AI: novità e riflessioni - #5 / 2024
Generative AI: novità e riflessioni - #5 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione.

Buon aggiornamento,
e buone riflessioni..

WMF - We Make Future 2024

Al via l'edizione 2024 di WMF - We Make Future. Una 3 giorni da non perdere, con un programma spettacolare, dal 13 al 15 giugno all’interno degli spazi di BolognaFiere.

Ti aspetto, il 14 giugno alle 12:20 in sala "AI For Future", per un viaggio.. "In and out the black box".

Nell'evoluzione dell'intelligenza artificiale compare sempre più spesso il termine AGI (Artificial General Intelligence). I modelli diventano sempre più performanti, ma allo stesso tempo compiono errori che sembrerebbero banali a chiunque. Qual è la direzione? Lo vedremo in un viaggio tra innovazione e consapevolezza, dentro e fuori dalla "black box".

FutureShots 2024

FutureShots: un evento H-FARM straordinario dove non sono mancati innovazione, condivisione e spunti di valore.
Nel mio intervento ho esposto alcune riflessioni sull'AI generativa, e raccontato esempi di applicazioni concrete basate su questa tecnologia.

A breve pubblicherò l'intervento completo, che è diventato anche un articolo condiviso ai partecipanti del TEDx Padova.

"Non c'è miglior prompt engineer di chi conosce i processi aziendali, potenziato dalla conoscenza di questi sistemi"

La scoperta del cervello umano attraverso l'AI

Un team congiunto di ricercatori di Google e di neuroscienziati di Harvard è riuscito a osservare un'area del cervello umano con una qualità senza precedenti.
Hanno usato l'imaging cerebrale e l'elaborazione delle immagini ad opera dell'AI, riuscendo a ricostruire quasi ogni cellula e le sue connessioni.

I risultati sono stati resi disponibili gratuitamente alla comunità scientifica.

Questi progetti rappresentano piccoli passi verso la comprensione del cervello, e dei disturbi neurologici.

La presentazione di GPT4o: Spring Update

Ho scritto 3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update.

3 punti salienti

  • Non sono le performance di GPT4o la vera novità, ma il (non) costo.
  • La naturalezza delle interazioni multimodali passa a un nuovo livello.
  • Dobbiamo ricordare la natura si questi modelli.

Per approfondire..

GPT-4o: il più performante, multimodale, e.. gratuito!?
3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update

Google I/O il 10 punti chiave

Una sintesi di Google I/O in 10 punti chiave, con qualche considerazione.

Google non ha presentato un nuovo flagship model (che rimane Gemini 1.5 Pro), ma ribadisce il suo punto di forza: l'integrazione in ogni area del suo vasto ecosistema.
  • "The Gemini Era", come l'ha definita Sundar Pichai, è sempre più multimodale e long context.
  • È stata presentata una miriade di applicazioni straordinarie, ma che mi lascia una sensazione di frammentazione. Manca un punto di riferimento centrale.

Dopo avere visto la naturalezza dell'interazione messa in campo da OpenAI (dopo lo Spring Update), per quanto innovativo sia il progetto Astra, è davvero difficile affrontare qualunque altro Assistente.

Per approfondire..

Google I/O in 10 punti chiave e qualche considerazione
10 punti chiave e alcune riflessioni sui progetti presentati da Google durante l’I/O

Screaming Frog e i modelli di linguaggio

Su Screaming Frog SEO Spider è possibile usare le API di OpenAI sui dati derivanti dallo scraping dei siti web.
Nell'esempio uso GPT4o, e genero il tag title e la meta description per le pagine scansionate.

Il tutto avviene attraverso l'area del JavaScript personalizzato, creando iniezioni di snippet durante lo scraping che effettuano le chiamate API con prompt specifici, in cui i dati delle pagine diventano il contesto per il LLM.

LIMITI: per la generazione di contenuti come questi, i soli dati presenti nelle pagine non sono sufficienti. Nei nostri sviluppi in cui creiamo contenuti di ottimizzazione usiamo diverse fonti per ottenere dati strategici.

È estremamente interessante, invece, per l'estrazione di contenuti specifici dalle pagine, per l'analisi, e per generare gli embeddings.


[RISORSA] Web Scraping basato su LLM

ScraperGraphAI è un Web Scraper basato su Python e LLM, efficace ed estremamente semplice da usare.

ScraperGraphAI: scraper basati su LLM
ScraperGraphAI: scraper basati su LLM

Permette di specificare l'URL da elaborare, il LLM da usare e di descrivere con un prompt le informazioni da recuperare dalla pagina.
Restituisce i dati in formato JSON, e usa un browser headless per estrarre i dati renderizzati lato client.

Nell'esempio inserisco la home del mio sito web, e il sistema estrae tutti i post, anche se il listing avviene attraverso un "infinite scroll".

La potenza di sistemi come questo? Il fatto di non essere vincolati alla struttura delle pagine web da analizzare.


La struttura di tutte le "molecole della vita"

In un articolo pubblicato su Nature, Google DeepMind presenta AlphaFold 3.
Un modello rivoluzionario in grado di prevedere la struttura e le interazioni di tutte le "molecole della vita", con una precisione senza precedenti.

AlphaFold 3: 8AW3 - Proteina che modifica l'RNA

Gli scienziati potranno accedere gratuitamente a quasi tutte le funzionalità del sistema gratuitamente.

Quest'area di sviluppo è davvero entusiasmante e utile, ma servirà un utilizzo ancora più responsabile.

AlphaFold 3 predicts the structure and interactions of all of life’s molecules
Our new AI model AlphaFold 3 can predict the structure and interactions of all life’s molecules with unprecedented accuracy.

Sundar Pichai e il futuro dell'AI

Una bellissima intervista a Sundar Pichai sul futuro dell'AI.
3 concetti che porto a casa, che metto in evidenza, e sui quali credo da molto tempo..

  • "Sarei sorpreso se i LLM fossero l'unica cosa di cui abbiamo bisogno per fare progressi".
  • "Penso che, nel tempo, dovremo sviluppare framework che ci permettono di raggiungere una cooperazione globale per garantire la sicurezza in ambito di AI".
  • "Solo i paranoici sopravvivono".

Sundar Pichai e il futuro dell'AI


Un'intervista a Geoffrey Hinton

Geoffrey Hinton, uno degli scienziati che hanno contribuito maggiormente allo sviluppo dell'AI che conosciamo oggi, in un'interessante intervista.

3 concetti in evidenza

  • La scala (dati e computazione) è stata, ed è ancora, un elemento fondamentale per la crescita delle performance dei modelli. Nulla di nuovo, ma sentirlo raccontato da chi ha vissuto questa trasformazione..
  • Memoria a breve termine: i "fast weights" possono essere una chiave per il futuro dei modelli. I "fast weights" si riferiscono ai cambiamenti temporanei nei pesi delle reti neurali che possono migliorare la memoria a breve termine, un concetto ispirato dal funzionamento del cervello umano.
  • Sistemi ibridi che combinano elementi simbolici e neurali possono essere un altro sguardo verso il futuro dell'evoluzione dell'AI (per chi era all' AI Festival, ne ho parlato nell'intervento).

Un'intervista a Geoffrey Hinton


Dario Amodei sull'evoluzione dell'AI

I modelli diventeranno sempre più "intelligenti", e presto saranno in grado di svolgere molti compiti in modo migliore rispetto agli esseri umani. Quindi produrranno dei vantaggi, ma conserveranno dei limiti.

La risposta di Dario Amodei (CEO di Anthropic) alla domanda: "l'AI diventerà più intelligente degli esseri umani"?

Dario Amodei, CEO di Anthropic

In questa intervista alla CNBC vengono affrontati temi interessanti, come la sicurezza, il concetto di AGI e i dati sintetici. Con risposte che ho trovato sensate e coerenti.


ChatGPT: integrazione con Google Drive e Diagrammi interattivi

Una piccola demo dell'interazione di ChatGPT (GPT4o) con i dati di Google Drive.
Nell'esempio chiedo al sistema di esplorare un dataset e di generare dei diagrammi che lo rappresentano.

ChatGPT: integrazione con Google Drive e Diagrammi interattivi

I diagrammi sono interattivi e possono essere modificati live su ChatGPT.
È possibile anche lavorare sul dataset attraverso il linguaggio naturale: ordinamenti, calcoli, tabelle pivot, estrazioni di dati.

È un sistema in beta, ma promette sviluppi interessanti.

Come se la caverebbe un LLM come analista finanziario?

Un paper va ad approfondire questa tematica: vengono forniti rendiconti finanziari a GPT-4 per analizzarli e predire trend futuri.
Anche senza alcuna narrativa o informazione specifica del settore, il LLM supera gli analisti finanziari nella capacità di prevedere i cambiamenti degli utili.

L'accuratezza del LLM per predizioni finanziarie
L'accuratezza del LLM per predizioni finanziarie

L'accuratezza della previsione è alla pari con le prestazioni di un modello di Machine Learning all'avanguardia con training specifico.


L'intelligenza generale (artificiale o naturale) non esiste

Yann LeCun: "L'intelligenza generale, artificiale o naturale, non esiste.
Gatti, cani, esseri umani e tutti gli animali hanno un'intelligenza specializzata. Hanno diversi insiemi di competenze e la capacità di acquisirne di nuove rapidamente. Gran parte dell'intelligenza animale e umana viene acquisita attraverso l'osservazione e l'interazione con il mondo fisico.
Questo è il tipo di apprendimento che dobbiamo riprodurre nelle macchine prima di poter avvicinarci all'intelligenza artificiale di livello umano
".

Generale o ristretta.. è solo questione di etichette. Ciò che serve è rendere chiaro ciò che stiamo andando a sviluppare.

Da PRD a Figma con GPT-4o

Un esempio di automazione basata su GPT-4o che genera progetti Figma basati sul PRD (Product Requirements Document).

Se questo potesse diventare un plugin del software (Figma), potrebbe essere davvero un progetto utilissimo.

I2VEdit: editing video da singolo fotogramma

I2VEdit è un nuovo esempio di una categoria di modelli che probabilmente useremo in molti aspetti della UX nel prossimo futuro.
Permette di editare un video propagando le modifiche messe in atto in un singolo fotogramma.

I2VEdit: editing video da singolo fotogramma

La precisione sembra alta anche in semplici esempi.

Codestral di Mistral

Codestral, il nuovo modello di Mistral dedicato allo sviluppo di codice è davvero interessante, velocissimo, e soprattutto open.

Una demo di Codestral di Mistral

Può gestire 80 linguaggi con 32k token di contesto, e batte su diversi benchmark Code Lama.
Nel video, due semplici esempi di generazione di notebook Python e spiegazione del codice.


Kolmogorov-Arnold Network (KAN)

Recentemente è stato pubblicato un paper che potrebbe rivoluzionare il mondo dell'AI.

Presenta un nuovo tipo di rete neurale chiamata Kolmogorov-Arnold Network (KAN), che potrebbe essere una buona alternativa alle più comuni reti di perceptroni multi-strato (MLP).

KAN: Kolmogorov-Arnold Networks
Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes (“neurons”), KANs have learnable activation functions on edges (“weights”). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today’s deep learning models which rely heavily on MLPs.

A differenza delle MLP, che usano funzioni fisse per processare l'informazione, le KAN permettono di modificare e adattare queste funzioni, rendendo il processo più flessibile e facile da interpretare.

In sostanza, le KAN cambiano il modo in cui i dati vengono trasformati all'interno della rete, offrendo la possibilità di ottimizzare meglio il modello per compiti specifici.

Questo potrebbe rendere le KAN più efficaci ed efficienti rispetto alle MLP, specialmente in termini di precisione e di velocità di apprendimento con meno dati.

L'AI non è senziente

Un contributo interessante di Fei-Fei Li e John Etchemendy di Stanford.
Danno motivazioni sul fatto che l'AI non è "senziente".

Mi preoccupa il fatto che sia necessario argomentare un aspetto come questo.
No, Today’s AI Isn’t Sentient. Here’s How We Know
It is important to understand the profound difference between how humans generate sequences of words and how a large language model does.

SignLLM: un modello per la lingua dei segni

SignLLM è un modello multilingua che riesce a produrre un output in lingua dei segni da un input testuale.

0:00
/0:05

SignLLM: un modello per la lingua dei segni

Le nuove tecnologie ci permetteranno da abbattere le barriere linguistiche.. e non solo.

La partnership tra OpenAI e News Corp

Il bacino di contenuti a disposizione di OpenAI aumenta, con una nuova partnership pluriennale con News Corp.
Il gruppo comprende importanti testate, tra cui il The Wall Street Journal.
I contenuti potranno diventare risposte per gli utenti, e ovviamente training per i modelli.

"..essere o non essere.. su ChatGPT"?

Traduzioni Multi-Agente

Nell'ultima edizione dell'Accademia dedicata all'AI, abbiamo visto un sistema di traduzione dei contenuti multi-agente basato su AutoGen.

In questo paper, i ricercatori hanno creato un team di agenti autonomi con training multidisciplinare sui diversi ruoli (dagli editori ai correttori di bozze).

Traduzioni Multi-Agente
Traduzioni Multi-Agente

Risultato: una qualità altissima. Tanto che, in alcuni casi, le traduzioni vengono preferite a quelle create da esseri umani.


Cognita: un framework per applicazioni RAG

LangChain presenta Cognita, un framework open source per la creazione di applicazioni RAG (Retrieval Augmented Generation) modulari.

Cognita: un framework per applicazioni RAG

Si basa su LangChain/Llamaindex, ogni componente è modulare, è basato su API e facilmente estendibile.
Fornisce un'interfaccia grafica, e può funzionare in locale.


Rendere i modelli di AI più "spiegabili"

Lo sforzo nella ricerca di rendere i LLM più "spiegabili" dà i primi frutti.

Google presenta Model Explorer: un progetto di che mira a visualizzare graficamente la struttura dei modelli.

Model Explorer: Graph visualization for large model development

Anthropic, a sua volta, pubblica un paper in cui condivide idee con lo stesso obiettivo. Con alcune tecniche, scompongono le "decisioni" del modello in parti più piccole e comprensibili.

Extracting Interpretable Features from Claude 3 Sonnet
Extracting Interpretable Features from Claude 3 Sonnet
Le nuove azioni di regolamentazione spingeranno su questo aspetto, quindi vanno trovate subito soluzioni.

Luce verde per l'AI Act

Una legge innovativa volta ad armonizzare le norme sull'AI.

  • Come annunciato, l'approccio è basato sul rischio: più alto sarà il rischio per la società, maggiori saranno le restrizioni.
  • Obiettivi: mantenere i sistemi di AI sicuri, affidabili e trasparenti, nel rispetto dei diritti fondamentali delle persone.
  • Architettura di governance: verranno creati nuovi organi di governo, come l'ufficio AI, un comitato per l'AI e un forum consultivo.
  • L'atto sarà pubblicato nella Gazzetta Ufficiale dell'UE e diventerà attivo in pochi giorni. Il regolamento si applicherà due anni dopo.
Un ottimo inizio per la governance sull'AI, come tanti altri inizi fuori dall'Europa. Ma deve diventare un'azione unica e globale.

Novità da Google Marketing Live

Nell'ultima edizione dell'Accademia abbiamo visto come l'AI potrà aiutare a produrre i nuovi formati di immagine necessari agli e-commerce per il "Try On".

Durante il Google Marketing Live sono state presentate le nuove funzionalità di Product Studio, e una sarà.. per generare immagini per il settore abbigliamento su persone con diverse taglie.

Novità da Google Marketing Live

Tra le altre novità interessanti, gli annunci shopping su AI Overviews, 3D spin, e molto altro, soprattutto su Ads e YouTube.

Sensazioni: per la parte generativa multimediale non siamo così vicini a un output perfetto. Servirà ancora tempo.
Google Marketing Live 2024: Your roundup of announcements - Google Ads Help
May 21, 2024 At

ChatGPT Desktop su Mac

Un esempio di operazione eseguita con ChatGPT desktop su Mac.
Viene usato uno screenshot di "Snake" (il noto gioco) in un prompt in cui viene chiesto al modello di sviluppare il codice necessario per produrlo.
In 90 secondi è tutto pronto per la partita.

ChatGPT Desktop su Mac

Le capacità sono sempre più elevate. Questo è un esempio banale, ma fa intuire le potenzialità.


Microsoft Copilot + PC

Microsoft lancia il marchio Copilot + PC, che mette in evidenza l'integrazione nel sistema operativo, e hardware dedicato all'AI (NPU, processore neurale).
E Copilot userà GPT4o.

Microsoft Copilot + PC

Questo approccio abbraccerà anche i partner: Dell, Lenovo, Samsung, HP, Acer e Asus.

Questa fase della Generative AI potremmo definirla.. multimodalità e integrazione nei sistemi.

RAPIDS cuDF di Nvidia

RAPIDS cuDF è una libreria Python open source di Nvidia che rende Pandas 150 volte più veloce senza toccare una riga di codice.

I dataset diventano sempre più grandi, e di conseguenza i tempi di elaborazione aumentano in fase di analisi. Questa soluzione abbatte il problema.

RAPIDS cuDF di Nvidia

Basta aggiungere l'istruzione %load_ext cuDF.pandas.


Frontier Safety Framework di Google DeepMind

Frontier Safety Framework di Google DeepMind è un nuovo approccio per identificare, valutare e mitigare i rischi futuri posti dai modelli avanzati di AI, garantendo lo sviluppo responsabile e sicuro della tecnologia.

Frontier Safety Framework di Google DeepMind
Frontier Safety Framework di Google DeepMind


I punti chiave

  • identificazione delle capacità con potenziale di danno severo;
  • valutazione periodica dei modelli di frontiera;
  • applicazione di un piano di mitigazione.
Introducing the Frontier Safety Framework
Our approach to analyzing and mitigating future risks posed by advanced AI models

AI al lavoro: uno studio di Microsoft e Linkedin

Microsoft e Linkedin hanno pubblicato uno studio sull'uso di strumenti basati sull'AI al lavoro ed emerge un dato non sorprendente, ma allarmante.

Il 78% degli utenti di AI tool, li usa in task lavorativi perché ne percepisce vantaggi effettivi.
AI at Work is Here - Microsoft e Linkedin
AI at Work is Here - Microsoft e Linkedin

Questo aspetto espone a rischi per la sicurezza dei dati.
Credo che per le aziende sia fondamentale creare delle policy interne per regolamentare questa dinamica.


Le Gems di Gemini

Cosa sono le Gems presentate durante Google I/O?

Possiamo dire che corrispondono ai GPTs di ChatGPT per Gemini (per gli utenti Advanced).

Ma con il solito plus di Google: l'integrazione con l'ecosistema. I dati, ad esempio, possono essere estratti da file su Drive da video su YouTube, da luoghi su Maps.

Un esempio di utilizzo delle Gems di Gemini


Dubbing API di ElevenLabs

ElevenLabs ha rilasciato Dubbing API: una libreria dedicata al doppiaggio.
Con qualche riga di Python, permette di creare traduzioni di audio e video mantenendo la voce originale.

Dubbing API di ElevenLabs


GPT4o e GPTs per il piano free di ChatGPT

OpenAI ha attivato l'utilizzo di GPT-4o per gli utenti senza piano Plus.

Non verrà la tentazione di abbandonare l'abbonamento (per chi lo usa in ambito professionale): il rate limit è bassissimo. L'ho esaurito in poche interazioni, con la possibilità di usarlo nuovamente dopo 10 ore.

Le capability a disposizione sono la ricerca online, l'elaborazione di file, vision e Code Interpreter. E si possono usare anche i GPTs.

Per fare test e per un uso personale è ottimo (ed è già tantissimo).

ElevenLabs Music: preview

Quelle che seguono (cliccando sul thread di X) sono delle preview di ElevenLabs Music.
I brani sono stati generati dal modello, partendo da un prompt testuale (senza editing).

Anche la generazione di audio sta facendo progressi straordinari!

Anthropic lancia un sistema per la generazione di prompt

Basterà descrivere ciò che si desidera ottenere e Claude creerà un prompt pronto all'uso.
Ho provato il sistema. Di certo è un grande passo in avanti per chi è a secco di questi concetti.

Ma chi lavora già su prompt evoluti e ha approfondito la tematica, non inizierà a usare questo tipo di funzionalità: sarebbe limitante.


Un Media Manager per OpenAI

OpenAI annuncia lo sviluppo di "Media Manager", un sistema che permetterà ai creator di gestire se, e in che modo, i loro contenuti dovranno essere usati dai modelli.
Si parla del 2025, infatti nel post di presentazione affermano che questo richiederà una ricerca all'avanguardia.

Credo che, per com'è strutturata l'architettura di queste tecnologie, non sarà un'impresa semplice. Ma di certo è un buon proposito.

Dati dei benchmark nel training dei LLM

Un interessante studio mostra come i risultati sui benchmark dei LLM stanno iniziando ad essere "drogati" dalla presenza dei test nei dati di training.
I test di questo paper sono stati eseguiti su un benchmark nuovo, ma comparabile con GSM8k.

Dati dei benchmark nel training dei LLM: uno studio
Dati dei benchmark nel training dei LLM: uno studio

I modelli che dimostrano overfitting maggiore sono quelli più piccoli e open source, con cali di performance fino al 13% (Mistral e Phi).

I modelli migliori (es. Gemini, GPT, Claude), mostrano un impatto lievissimo.


L'identificazione dei contenuti generati dall'AI

OpenAI presenta un rapporto del lavoro sull'identificazione delle immagini generate con Dall-E 3.
Oltre all'inserimento di metadati C2PA, l'azienda sta lavorando su watermarking resistente alle manomissioni, e allo sviluppo di classificatori.

I primi risultati mostrano una classificazione corretta per il 98% dei test, con meno dello 0,5% di falsi positivi.
Ma le performance sono inferiori se le immagini vengono editate, e se vengono generate da altri modelli.

Un rapporto di OpenAI sull'identificazione delle immagini generate con Dall-E 3
Un rapporto di OpenAI sull'identificazione delle immagini generate con Dall-E 3

Gli strumenti rimangono deboli, ma la ricerca e la sperimentazione, unite alla cultura e alla trasparenza, sono la via giusta.


La partnership tra OpenAI e Stack Overflow

L'accordo migliorerà i modelli di OpenAI e permetterà di dare risposte con fonte Stack Overflow su ChatGPT.

La "battaglia" si sta spostando dallo sviluppo
del modello alla cura dei dati.

Gli errori dei modelli di linguaggio

La gestione dei video nei prompt di Gemini è straordinaria, ma facciamo attenzione.
Nel rispondere alle domande il sistema usa il modello di linguaggio per rielaborare i concetti, ma fa degli errori.

  • Nella prima immagine si vede come descrive correttamente il punto in cui nel video parlo di Llama 3 di Meta.
  • Ma nella seconda scrive "LaMDA (Meta AI)". LaMDA non ha nulla a che vedere con Meta.. ma soprattutto, in quel contesto, nel video stavo parlando di LAM (Large Action Model) del Rabbit R1, non associandolo minimamente a Meta.
L'evoluzione è stupefacente, ma serve attenzione a come si usano questi sistemi.

Emo: un volto robotico della Columbia University

Emo è un progetto della Columbia University: un volto robotico in grado di replicare e anticipare le espressioni facciali umane.

È dotato di diversi modelli di AI, per il rilevamento dei volti, e il controllo degli attuatori facciali. L'obiettivo è quello di rendere i robot in grado di impegnarsi in conversazioni più complesse e naturali.

Emo: un volto robotico della Columbia University

Dal punto di vista scientifico ritengo sia davvero straordinario. Contemporaneamente mi chiedo se serve avere conversazioni naturali con un robot a questo livello.

Jamba di AI21labs

Durante l'AI Festival ho parlato di Mamba, una tecnologia rivoluzionaria in grado di superare i limiti di lunghezza delle sequenze e di efficienza computazionale.
AI21 Labs ha creato Jamba: il primo modello in produzione che combina Mamba con l'architettura dei Transformer tradizionali.

Risultato: un sistema che ha la capacità di selezionare e "ricordare" informazioni importanti da lunghe sequenze, con una maggior capacità di comprensione del contesto.
Il modello ottiene performance elevate superando o eguagliando modelli all'avanguardia della stessa classe, ma sfruttando l'hardware in modo molto migliore.

I Transformer sono efficaci e poco efficienti. Mamba è leggermente meno efficace, ma molto più efficiente.
L'evoluzione tecnologica che stiamo vivendo è impressionante ed eccitante.


No AGI without neuro-symbolic AI

Gary Marcus torna su un concetto che condivido:

"no AGI without neuro-symbolic AI".

Potenza di calcolo e grandi dataset non basteranno per puntare verso il concetto di un'AI generale.

No AGI without neuro-symbolic AI

I sistemi neuro-simbolici potrebbero essere un'interessante prospettiva.

IDM-VTON: un modello per la prova virtuale di un capo d'abbigliamento

Un test di IDM-VTON, un modello che permette di effettuare la prova virtuale di un capo d'abbigliamento su una persona.
L'obiettivo del lavoro è quello di migliorare l'adattamento del vestito al corpo.
Il risultato è interessante, e gli esempi nella pagine del progetto dimostrano una grande precisione.

Una demo di IDM-VTON

Ci avviciniamo a soluzioni usabili professionalmente.

Come funzionano i Large Language Model?

Oggi quasi tutti hanno sentito parlare dei LLM, e milioni di persone li hanno provati. Tuttavia, probabilmente, pochi hanno approfondito il funzionamento.

Come funzionano i LLM?
Come funzionano i LLM?

Spesso ci fermiamo alla frase: "vengono addestrati su un'enorme quantità di dati, e riescono a predire la parola successiva".
Ma come avviene tutto questo?

Un post dettagliato che spiega tutto in modo semplice

Large language models, explained with a minimum of math and jargon
Want to really understand how large language models work? Here’s a gentle primer.

Un esempio di utilizzo delle "mentions" per gestire GPTs diversi in un'unica sessione su ChatGPT

Un esempio di utilizzo di GPTs per l'elaborazione di un video tutorial, trasformandolo in un contenuto testuale, e generando:

  • i dati strutturati;
  • una mappa mentale che descrive i concetti trattati.

L'uso di GPTs multipli su ChatGPT

L'uso delle "mentions" su ChatGPT è interessante e può dare soluzioni utili a ridurre l'effort.


Il primo video musicale realizzato con Sora

Il primo video musicale realizzato con Sora? È quello del brano "The Hardest Part" di Washed Out.
Realizzato dall'artista Paul Trillo.

Il primo video musicale realizzato con Sora


La partnership tra OpenAI e Financial Times

Mentre altre testate, come il New York Daily e il Chicago Tribune, citano OpenAI e Microsoft per violazione del copyright per l'addestramento dei modelli, OpenAI sigla un accordo con il Financial Times per l'integrazione dei contenuti.

ABOUT THE FT
The Financial Times is one of the world’s leading news organisations, recognised internationally for its authority, integrity and accuracy.

Novità per Maestro

Maestro, aggiunge funzionalità interessanti: la ricerca online, il supporto a GPT-4 e a Llama 3 per l'esecuzione in locale.
Quando l'agente "orchestratore" genera i task per i sub-agenti, può effettuare una ricerca online per arricchire le istruzioni.
Grazie a Ollama, è possibile eseguire Maestro in locale, sfruttando Llama 3 70B. E questo apre scenari importanti.

Maestro è un piccolo framework che organizza una rete di agenti per svolgere la richiesta dell'utente.
GitHub - Doriandarko/maestro: A framework for Claude Opus to intelligently orchestrate subagents.
A framework for Claude Opus to intelligently orchestrate subagents. - Doriandarko/maestro

La memoria per le conversazioni di ChatGPT

OpenAI rilascia la memoria per le conversazioni di ChatGPT.

Permette di comunicare al modello quali informazioni vogliamo conservare per le interazioni future.
I dati memorizzati sono completamente gestibili dalle impostazioni.
Nell'esempio è possibile vedere come conserva la conoscenza nella richiesta.


- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂