Generative AI: novità e riflessioni - #5 / 2024

Un nuovo appuntamento per aggiornarsi e riflettere sulle tematiche che riguardano l'intelligenza artificiale e la Generative AI.

Alessio Pomaro

11 giu 2024 • 22 min read

Generative AI: novità e riflessioni - #5 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione.

Buon aggiornamento,
e buone riflessioni..

WMF - We Make Future 2024

Al via l'edizione 2024 di WMF - We Make Future. Una 3 giorni da non perdere, con un programma spettacolare, dal 13 al 15 giugno all’interno degli spazi di BolognaFiere.

Ti aspetto, il 14 giugno alle 12:20 in sala "AI For Future", per un viaggio.. "In and out the black box".

Nell'evoluzione dell'intelligenza artificiale compare sempre più spesso il termine AGI (Artificial General Intelligence). I modelli diventano sempre più performanti, ma allo stesso tempo compiono errori che sembrerebbero banali a chiunque. Qual è la direzione? Lo vedremo in un viaggio tra innovazione e consapevolezza, dentro e fuori dalla "black box".

FutureShots 2024

FutureShots: un evento H-FARM straordinario dove non sono mancati innovazione, condivisione e spunti di valore.
Nel mio intervento ho esposto alcune riflessioni sull'AI generativa, e raccontato esempi di applicazioni concrete basate su questa tecnologia.

A breve pubblicherò l'intervento completo, che è diventato anche un articolo condiviso ai partecipanti del TEDx Padova.

"Non c'è miglior prompt engineer di chi conosce i processi aziendali, potenziato dalla conoscenza di questi sistemi"

La scoperta del cervello umano attraverso l'AI

Un team congiunto di ricercatori di Google e di neuroscienziati di Harvard è riuscito a osservare un'area del cervello umano con una qualità senza precedenti.
Hanno usato l'imaging cerebrale e l'elaborazione delle immagini ad opera dell'AI, riuscendo a ricostruire quasi ogni cellula e le sue connessioni.

Un'area del cervello umano - Google e Harvard

I risultati sono stati resi disponibili gratuitamente alla comunità scientifica.

Vai alla galleria completa

Questi progetti rappresentano piccoli passi verso la comprensione del cervello, e dei disturbi neurologici.

La presentazione di GPT4o: Spring Update

Ho scritto 3 riflessioni sulle novità presentate da OpenAI durante lo Spring Update.

3 punti salienti

Non sono le performance di GPT4o la vera novità, ma il (non) costo.
La naturalezza delle interazioni multimodali passa a un nuovo livello.
Dobbiamo ricordare la natura si questi modelli.

Per approfondire..

Google I/O il 10 punti chiave

Una sintesi di Google I/O in 10 punti chiave, con qualche considerazione.

Google non ha presentato un nuovo flagship model (che rimane Gemini 1.5 Pro), ma ribadisce il suo punto di forza: l'integrazione in ogni area del suo vasto ecosistema.

"The Gemini Era", come l'ha definita Sundar Pichai, è sempre più multimodale e long context.
È stata presentata una miriade di applicazioni straordinarie, ma che mi lascia una sensazione di frammentazione. Manca un punto di riferimento centrale.

Dopo avere visto la naturalezza dell'interazione messa in campo da OpenAI (dopo lo Spring Update), per quanto innovativo sia il progetto Astra, è davvero difficile affrontare qualunque altro Assistente.

Per approfondire..

Screaming Frog e i modelli di linguaggio

Su Screaming Frog SEO Spider è possibile usare le API di OpenAI sui dati derivanti dallo scraping dei siti web.
Nell'esempio uso GPT4o, e genero il tag title e la meta description per le pagine scansionate.

Il tutto avviene attraverso l'area del JavaScript personalizzato, creando iniezioni di snippet durante lo scraping che effettuano le chiamate API con prompt specifici, in cui i dati delle pagine diventano il contesto per il LLM.

Esempi di utilizzo dei Screaming Frog con GPT4o

LIMITI: per la generazione di contenuti come questi, i soli dati presenti nelle pagine non sono sufficienti. Nei nostri sviluppi in cui creiamo contenuti di ottimizzazione usiamo diverse fonti per ottenere dati strategici.

È estremamente interessante, invece, per l'estrazione di contenuti specifici dalle pagine, per l'analisi, e per generare gli embeddings.

[RISORSA] Web Scraping basato su LLM

ScraperGraphAI è un Web Scraper basato su Python e LLM, efficace ed estremamente semplice da usare.

Permette di specificare l'URL da elaborare, il LLM da usare e di descrivere con un prompt le informazioni da recuperare dalla pagina.
Restituisce i dati in formato JSON, e usa un browser headless per estrarre i dati renderizzati lato client.

Nell'esempio inserisco la home del mio sito web, e il sistema estrae tutti i post, anche se il listing avviene attraverso un "infinite scroll".

La potenza di sistemi come questo? Il fatto di non essere vincolati alla struttura delle pagine web da analizzare.

Vai al Colab

La struttura di tutte le "molecole della vita"

In un articolo pubblicato su Nature, Google DeepMind presenta AlphaFold 3.
Un modello rivoluzionario in grado di prevedere la struttura e le interazioni di tutte le "molecole della vita", con una precisione senza precedenti.

AlphaFold 3: 8AW3 - Proteina che modifica l'RNA

Gli scienziati potranno accedere gratuitamente a quasi tutte le funzionalità del sistema gratuitamente.

Quest'area di sviluppo è davvero entusiasmante e utile, ma servirà un utilizzo ancora più responsabile.

Sundar Pichai e il futuro dell'AI

Una bellissima intervista a Sundar Pichai sul futuro dell'AI.
3 concetti che porto a casa, che metto in evidenza, e sui quali credo da molto tempo..

"Sarei sorpreso se i LLM fossero l'unica cosa di cui abbiamo bisogno per fare progressi".
"Penso che, nel tempo, dovremo sviluppare framework che ci permettono di raggiungere una cooperazione globale per garantire la sicurezza in ambito di AI".
"Solo i paranoici sopravvivono".

Sundar Pichai e il futuro dell'AI

Un'intervista a Geoffrey Hinton

Geoffrey Hinton, uno degli scienziati che hanno contribuito maggiormente allo sviluppo dell'AI che conosciamo oggi, in un'interessante intervista.

3 concetti in evidenza

La scala (dati e computazione) è stata, ed è ancora, un elemento fondamentale per la crescita delle performance dei modelli. Nulla di nuovo, ma sentirlo raccontato da chi ha vissuto questa trasformazione..
Memoria a breve termine: i "fast weights" possono essere una chiave per il futuro dei modelli. I "fast weights" si riferiscono ai cambiamenti temporanei nei pesi delle reti neurali che possono migliorare la memoria a breve termine, un concetto ispirato dal funzionamento del cervello umano.
Sistemi ibridi che combinano elementi simbolici e neurali possono essere un altro sguardo verso il futuro dell'evoluzione dell'AI (per chi era all' AI Festival, ne ho parlato nell'intervento).

Un'intervista a Geoffrey Hinton

Dario Amodei sull'evoluzione dell'AI

I modelli diventeranno sempre più "intelligenti", e presto saranno in grado di svolgere molti compiti in modo migliore rispetto agli esseri umani. Quindi produrranno dei vantaggi, ma conserveranno dei limiti.

La risposta di Dario Amodei (CEO di Anthropic) alla domanda: "l'AI diventerà più intelligente degli esseri umani"?

In questa intervista alla CNBC vengono affrontati temi interessanti, come la sicurezza, il concetto di AGI e i dati sintetici. Con risposte che ho trovato sensate e coerenti.

Vai alla traduzione completa

ChatGPT: integrazione con Google Drive e Diagrammi interattivi

Una piccola demo dell'interazione di ChatGPT (GPT4o) con i dati di Google Drive.
Nell'esempio chiedo al sistema di esplorare un dataset e di generare dei diagrammi che lo rappresentano.

ChatGPT: integrazione con Google Drive e Diagrammi interattivi

I diagrammi sono interattivi e possono essere modificati live su ChatGPT.
È possibile anche lavorare sul dataset attraverso il linguaggio naturale: ordinamenti, calcoli, tabelle pivot, estrazioni di dati.

È un sistema in beta, ma promette sviluppi interessanti.

Come se la caverebbe un LLM come analista finanziario?

Un paper va ad approfondire questa tematica: vengono forniti rendiconti finanziari a GPT-4 per analizzarli e predire trend futuri.
Anche senza alcuna narrativa o informazione specifica del settore, il LLM supera gli analisti finanziari nella capacità di prevedere i cambiamenti degli utili.

L'accuratezza del LLM per predizioni finanziarie

L'accuratezza della previsione è alla pari con le prestazioni di un modello di Machine Learning all'avanguardia con training specifico.

Il paper per approfondire

L'intelligenza generale (artificiale o naturale) non esiste

Yann LeCun: "L'intelligenza generale, artificiale o naturale, non esiste.
Gatti, cani, esseri umani e tutti gli animali hanno un'intelligenza specializzata. Hanno diversi insiemi di competenze e la capacità di acquisirne di nuove rapidamente. Gran parte dell'intelligenza animale e umana viene acquisita attraverso l'osservazione e l'interazione con il mondo fisico.
Questo è il tipo di apprendimento che dobbiamo riprodurre nelle macchine prima di poter avvicinarci all'intelligenza artificiale di livello umano".

General intelligence, artificial or natural, does not exist.
Cats, dogs, humans and all animals have specialized intelligence.
They have different collections of skills and an ability to acquire new ones quickly.
Much of animal and human intelligence is acquired through… https://t.co/RqK8zxaf7E
— Yann LeCun (@ylecun) May 26, 2024

Generale o ristretta.. è solo questione di etichette. Ciò che serve è rendere chiaro ciò che stiamo andando a sviluppare.

Da PRD a Figma con GPT-4o

Un esempio di automazione basata su GPT-4o che genera progetti Figma basati sul PRD (Product Requirements Document).

The future that is happening.

Automation powered by GPT-4o generates Figma designs based on PRD.@figma pic.twitter.com/MdTimPopTs
— yancymin (@yancymin) May 28, 2024

Se questo potesse diventare un plugin del software (Figma), potrebbe essere davvero un progetto utilissimo.

I2VEdit: editing video da singolo fotogramma

I2VEdit è un nuovo esempio di una categoria di modelli che probabilmente useremo in molti aspetti della UX nel prossimo futuro.
Permette di editare un video propagando le modifiche messe in atto in un singolo fotogramma.

I2VEdit: editing video da singolo fotogramma

La precisione sembra alta anche in semplici esempi.

Il paper per approfondire

Codestral di Mistral

Codestral, il nuovo modello di Mistral dedicato allo sviluppo di codice è davvero interessante, velocissimo, e soprattutto open.

Una demo di Codestral di Mistral

Può gestire 80 linguaggi con 32k token di contesto, e batte su diversi benchmark Code Lama.
Nel video, due semplici esempi di generazione di notebook Python e spiegazione del codice.

Kolmogorov-Arnold Network (KAN)

Recentemente è stato pubblicato un paper che potrebbe rivoluzionare il mondo dell'AI.

Presenta un nuovo tipo di rete neurale chiamata Kolmogorov-Arnold Network (KAN), che potrebbe essere una buona alternativa alle più comuni reti di perceptroni multi-strato (MLP).

KAN: Kolmogorov-Arnold Networks

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes (“neurons”), KANs have learnable activation functions on edges (“weights”). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today’s deep learning models which rely heavily on MLPs.

arXiv.orgZiming Liu

A differenza delle MLP, che usano funzioni fisse per processare l'informazione, le KAN permettono di modificare e adattare queste funzioni, rendendo il processo più flessibile e facile da interpretare.

In sostanza, le KAN cambiano il modo in cui i dati vengono trasformati all'interno della rete, offrendo la possibilità di ottimizzare meglio il modello per compiti specifici.

Questo potrebbe rendere le KAN più efficaci ed efficienti rispetto alle MLP, specialmente in termini di precisione e di velocità di apprendimento con meno dati.

L'AI non è senziente

Un contributo interessante di Fei-Fei Li e John Etchemendy di Stanford.
Danno motivazioni sul fatto che l'AI non è "senziente".

Mi preoccupa il fatto che sia necessario argomentare un aspetto come questo.

SignLLM: un modello per la lingua dei segni

SignLLM è un modello multilingua che riesce a produrre un output in lingua dei segni da un input testuale.

0:00

/0:05

SignLLM: un modello per la lingua dei segni

Le nuove tecnologie ci permetteranno da abbattere le barriere linguistiche.. e non solo.

Il paper per approfondire

La partnership tra OpenAI e News Corp

Il bacino di contenuti a disposizione di OpenAI aumenta, con una nuova partnership pluriennale con News Corp.
Il gruppo comprende importanti testate, tra cui il The Wall Street Journal.
I contenuti potranno diventare risposte per gli utenti, e ovviamente training per i modelli.

"..essere o non essere.. su ChatGPT"?

Traduzioni Multi-Agente

Nell'ultima edizione dell'Accademia dedicata all'AI, abbiamo visto un sistema di traduzione dei contenuti multi-agente basato su AutoGen.

In questo paper, i ricercatori hanno creato un team di agenti autonomi con training multidisciplinare sui diversi ruoli (dagli editori ai correttori di bozze).

Risultato: una qualità altissima. Tanto che, in alcuni casi, le traduzioni vengono preferite a quelle create da esseri umani.

Il paper per approfondire

Cognita: un framework per applicazioni RAG

LangChain presenta Cognita, un framework open source per la creazione di applicazioni RAG (Retrieval Augmented Generation) modulari.

Cognita: un framework per applicazioni RAG

Si basa su LangChain/Llamaindex, ogni componente è modulare, è basato su API e facilmente estendibile.
Fornisce un'interfaccia grafica, e può funzionare in locale.

Vai al progetto

Rendere i modelli di AI più "spiegabili"

Lo sforzo nella ricerca di rendere i LLM più "spiegabili" dà i primi frutti.

Google presenta Model Explorer: un progetto di che mira a visualizzare graficamente la struttura dei modelli.

Anthropic, a sua volta, pubblica un paper in cui condivide idee con lo stesso obiettivo. Con alcune tecniche, scompongono le "decisioni" del modello in parti più piccole e comprensibili.

Extracting Interpretable Features from Claude 3 Sonnet

Le nuove azioni di regolamentazione spingeranno su questo aspetto, quindi vanno trovate subito soluzioni.

Luce verde per l'AI Act

Una legge innovativa volta ad armonizzare le norme sull'AI.

Come annunciato, l'approccio è basato sul rischio: più alto sarà il rischio per la società, maggiori saranno le restrizioni.
Obiettivi: mantenere i sistemi di AI sicuri, affidabili e trasparenti, nel rispetto dei diritti fondamentali delle persone.
Architettura di governance: verranno creati nuovi organi di governo, come l'ufficio AI, un comitato per l'AI e un forum consultivo.
L'atto sarà pubblicato nella Gazzetta Ufficiale dell'UE e diventerà attivo in pochi giorni. Il regolamento si applicherà due anni dopo.

Un ottimo inizio per la governance sull'AI, come tanti altri inizi fuori dall'Europa. Ma deve diventare un'azione unica e globale.

Novità da Google Marketing Live

Nell'ultima edizione dell'Accademia abbiamo visto come l'AI potrà aiutare a produrre i nuovi formati di immagine necessari agli e-commerce per il "Try On".

Durante il Google Marketing Live sono state presentate le nuove funzionalità di Product Studio, e una sarà.. per generare immagini per il settore abbigliamento su persone con diverse taglie.

Novità da Google Marketing Live

Tra le altre novità interessanti, gli annunci shopping su AI Overviews, 3D spin, e molto altro, soprattutto su Ads e YouTube.

Sensazioni: per la parte generativa multimediale non siamo così vicini a un output perfetto. Servirà ancora tempo.

ChatGPT Desktop su Mac

Un esempio di operazione eseguita con ChatGPT desktop su Mac.
Viene usato uno screenshot di "Snake" (il noto gioco) in un prompt in cui viene chiesto al modello di sviluppare il codice necessario per produrlo.
In 90 secondi è tutto pronto per la partita.

ChatGPT Desktop su Mac

Le capacità sono sempre più elevate. Questo è un esempio banale, ma fa intuire le potenzialità.

Microsoft Copilot + PC

Microsoft lancia il marchio Copilot + PC, che mette in evidenza l'integrazione nel sistema operativo, e hardware dedicato all'AI (NPU, processore neurale).
E Copilot userà GPT4o.

Microsoft Copilot + PC

Questo approccio abbraccerà anche i partner: Dell, Lenovo, Samsung, HP, Acer e Asus.

Questa fase della Generative AI potremmo definirla.. multimodalità e integrazione nei sistemi.

RAPIDS cuDF di Nvidia

RAPIDS cuDF è una libreria Python open source di Nvidia che rende Pandas 150 volte più veloce senza toccare una riga di codice.

I dataset diventano sempre più grandi, e di conseguenza i tempi di elaborazione aumentano in fase di analisi. Questa soluzione abbatte il problema.

RAPIDS cuDF di Nvidia

Basta aggiungere l'istruzione %load_ext cuDF.pandas.

Vai al Colab

Frontier Safety Framework di Google DeepMind

Frontier Safety Framework di Google DeepMind è un nuovo approccio per identificare, valutare e mitigare i rischi futuri posti dai modelli avanzati di AI, garantendo lo sviluppo responsabile e sicuro della tecnologia.

I punti chiave

identificazione delle capacità con potenziale di danno severo;
valutazione periodica dei modelli di frontiera;
applicazione di un piano di mitigazione.

AI al lavoro: uno studio di Microsoft e Linkedin

Microsoft e Linkedin hanno pubblicato uno studio sull'uso di strumenti basati sull'AI al lavoro ed emerge un dato non sorprendente, ma allarmante.

Il 78% degli utenti di AI tool, li usa in task lavorativi perché ne percepisce vantaggi effettivi.

AI at Work is Here - Microsoft e Linkedin

Questo aspetto espone a rischi per la sicurezza dei dati.
Credo che per le aziende sia fondamentale creare delle policy interne per regolamentare questa dinamica.

Vai allo studio

Le Gems di Gemini

Cosa sono le Gems presentate durante Google I/O?

Possiamo dire che corrispondono ai GPTs di ChatGPT per Gemini (per gli utenti Advanced).

Ma con il solito plus di Google: l'integrazione con l'ecosistema. I dati, ad esempio, possono essere estratti da file su Drive da video su YouTube, da luoghi su Maps.

Un esempio di utilizzo delle Gems di Gemini

Dubbing API di ElevenLabs

ElevenLabs ha rilasciato Dubbing API: una libreria dedicata al doppiaggio.
Con qualche riga di Python, permette di creare traduzioni di audio e video mantenendo la voce originale.

Dubbing API di ElevenLabs

Vai alla documentazione

GPT4o e GPTs per il piano free di ChatGPT

OpenAI ha attivato l'utilizzo di GPT-4o per gli utenti senza piano Plus.

Non verrà la tentazione di abbandonare l'abbonamento (per chi lo usa in ambito professionale): il rate limit è bassissimo. L'ho esaurito in poche interazioni, con la possibilità di usarlo nuovamente dopo 10 ore.

Le capability a disposizione sono la ricerca online, l'elaborazione di file, vision e Code Interpreter. E si possono usare anche i GPTs.

Per fare test e per un uso personale è ottimo (ed è già tantissimo).

ElevenLabs Music: preview

Quelle che seguono (cliccando sul thread di X) sono delle preview di ElevenLabs Music.
I brani sono stati generati dal modello, partendo da un prompt testuale (senza editing).

Here’s an early preview of ElevenLabs Music.

All of the songs in this thread were generated from a single text prompt with no edits.

Title: It Started to Sing

Style: “Pop pop-rock, country, top charts song.” pic.twitter.com/Ge9tz3I4iR
— ElevenLabs (@elevenlabsio) May 9, 2024

Anche la generazione di audio sta facendo progressi straordinari!

Anthropic lancia un sistema per la generazione di prompt

Basterà descrivere ciò che si desidera ottenere e Claude creerà un prompt pronto all'uso.
Ho provato il sistema. Di certo è un grande passo in avanti per chi è a secco di questi concetti.

Il sistema di Anthropic per la generazione di prompt

Ma chi lavora già su prompt evoluti e ha approfondito la tematica, non inizierà a usare questo tipo di funzionalità: sarebbe limitante.

Vai alla console di Anthropic

Un Media Manager per OpenAI

OpenAI annuncia lo sviluppo di "Media Manager", un sistema che permetterà ai creator di gestire se, e in che modo, i loro contenuti dovranno essere usati dai modelli.
Si parla del 2025, infatti nel post di presentazione affermano che questo richiederà una ricerca all'avanguardia.

Credo che, per com'è strutturata l'architettura di queste tecnologie, non sarà un'impresa semplice. Ma di certo è un buon proposito.

Dati dei benchmark nel training dei LLM

Un interessante studio mostra come i risultati sui benchmark dei LLM stanno iniziando ad essere "drogati" dalla presenza dei test nei dati di training.
I test di questo paper sono stati eseguiti su un benchmark nuovo, ma comparabile con GSM8k.

I modelli che dimostrano overfitting maggiore sono quelli più piccoli e open source, con cali di performance fino al 13% (Mistral e Phi).

I modelli migliori (es. Gemini, GPT, Claude), mostrano un impatto lievissimo.

Il paper per approfondire

L'identificazione dei contenuti generati dall'AI

OpenAI presenta un rapporto del lavoro sull'identificazione delle immagini generate con Dall-E 3.
Oltre all'inserimento di metadati C2PA, l'azienda sta lavorando su watermarking resistente alle manomissioni, e allo sviluppo di classificatori.

I primi risultati mostrano una classificazione corretta per il 98% dei test, con meno dello 0,5% di falsi positivi.
Ma le performance sono inferiori se le immagini vengono editate, e se vengono generate da altri modelli.

Un rapporto di OpenAI sull'identificazione delle immagini generate con Dall-E 3

Gli strumenti rimangono deboli, ma la ricerca e la sperimentazione, unite alla cultura e alla trasparenza, sono la via giusta.

La partnership tra OpenAI e Stack Overflow

L'accordo migliorerà i modelli di OpenAI e permetterà di dare risposte con fonte Stack Overflow su ChatGPT.

La "battaglia" si sta spostando dallo sviluppo
del modello alla cura dei dati.

Gli errori dei modelli di linguaggio

La gestione dei video nei prompt di Gemini è straordinaria, ma facciamo attenzione.
Nel rispondere alle domande il sistema usa il modello di linguaggio per rielaborare i concetti, ma fa degli errori.

Un esempio di errore di Gemini di Google

Nella prima immagine si vede come descrive correttamente il punto in cui nel video parlo di Llama 3 di Meta.
Ma nella seconda scrive "LaMDA (Meta AI)". LaMDA non ha nulla a che vedere con Meta.. ma soprattutto, in quel contesto, nel video stavo parlando di LAM (Large Action Model) del Rabbit R1, non associandolo minimamente a Meta.

L'evoluzione è stupefacente, ma serve attenzione a come si usano questi sistemi.

Emo: un volto robotico della Columbia University

Emo è un progetto della Columbia University: un volto robotico in grado di replicare e anticipare le espressioni facciali umane.

È dotato di diversi modelli di AI, per il rilevamento dei volti, e il controllo degli attuatori facciali. L'obiettivo è quello di rendere i robot in grado di impegnarsi in conversazioni più complesse e naturali.

Emo: un volto robotico della Columbia University

Dal punto di vista scientifico ritengo sia davvero straordinario. Contemporaneamente mi chiedo se serve avere conversazioni naturali con un robot a questo livello.

Jamba di AI21labs

Durante l'AI Festival ho parlato di Mamba, una tecnologia rivoluzionaria in grado di superare i limiti di lunghezza delle sequenze e di efficienza computazionale.
AI21 Labs ha creato Jamba: il primo modello in produzione che combina Mamba con l'architettura dei Transformer tradizionali.

Risultato: un sistema che ha la capacità di selezionare e "ricordare" informazioni importanti da lunghe sequenze, con una maggior capacità di comprensione del contesto.
Il modello ottiene performance elevate superando o eguagliando modelli all'avanguardia della stessa classe, ma sfruttando l'hardware in modo molto migliore.

I Transformer sono efficaci e poco efficienti. Mamba è leggermente meno efficace, ma molto più efficiente.
L'evoluzione tecnologica che stiamo vivendo è impressionante ed eccitante.

Jamba di AI21 Labs

No AGI without neuro-symbolic AI

Gary Marcus torna su un concetto che condivido:

"no AGI without neuro-symbolic AI".

Potenza di calcolo e grandi dataset non basteranno per puntare verso il concetto di un'AI generale.

No AGI without neuro-symbolic AI

I sistemi neuro-simbolici potrebbero essere un'interessante prospettiva.

IDM-VTON: un modello per la prova virtuale di un capo d'abbigliamento

Un test di IDM-VTON, un modello che permette di effettuare la prova virtuale di un capo d'abbigliamento su una persona.
L'obiettivo del lavoro è quello di migliorare l'adattamento del vestito al corpo.
Il risultato è interessante, e gli esempi nella pagine del progetto dimostrano una grande precisione.

Una demo di IDM-VTON

Ci avviciniamo a soluzioni usabili professionalmente.

Vai al progetto

Come funzionano i Large Language Model?

Oggi quasi tutti hanno sentito parlare dei LLM, e milioni di persone li hanno provati. Tuttavia, probabilmente, pochi hanno approfondito il funzionamento.

Spesso ci fermiamo alla frase: "vengono addestrati su un'enorme quantità di dati, e riescono a predire la parola successiva".
Ma come avviene tutto questo?

Un post dettagliato che spiega tutto in modo semplice

Un esempio di utilizzo delle "mentions" per gestire GPTs diversi in un'unica sessione su ChatGPT

Un esempio di utilizzo di GPTs per l'elaborazione di un video tutorial, trasformandolo in un contenuto testuale, e generando:

i dati strutturati;
una mappa mentale che descrive i concetti trattati.

L'uso di GPTs multipli su ChatGPT

L'uso delle "mentions" su ChatGPT è interessante e può dare soluzioni utili a ridurre l'effort.

Il primo video musicale realizzato con Sora

Il primo video musicale realizzato con Sora? È quello del brano "The Hardest Part" di Washed Out.
Realizzato dall'artista Paul Trillo.

Il primo video musicale realizzato con Sora

La partnership tra OpenAI e Financial Times

Mentre altre testate, come il New York Daily e il Chicago Tribune, citano OpenAI e Microsoft per violazione del copyright per l'addestramento dei modelli, OpenAI sigla un accordo con il Financial Times per l'integrazione dei contenuti.

Novità per Maestro

Maestro, aggiunge funzionalità interessanti: la ricerca online, il supporto a GPT-4 e a Llama 3 per l'esecuzione in locale.
Quando l'agente "orchestratore" genera i task per i sub-agenti, può effettuare una ricerca online per arricchire le istruzioni.
Grazie a Ollama, è possibile eseguire Maestro in locale, sfruttando Llama 3 70B. E questo apre scenari importanti.

Maestro è un piccolo framework che organizza una rete di agenti per svolgere la richiesta dell'utente.

La memoria per le conversazioni di ChatGPT

OpenAI rilascia la memoria per le conversazioni di ChatGPT.

Permette di comunicare al modello quali informazioni vogliamo conservare per le interazioni future.
I dati memorizzati sono completamente gestibili dalle impostazioni.
Nell'esempio è possibile vedere come conserva la conoscenza nella richiesta.

- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂

WMF - We Make Future 2024

FutureShots 2024

La scoperta del cervello umano attraverso l'AI

La presentazione di GPT4o: Spring Update

3 punti salienti

Per approfondire..

Google I/O il 10 punti chiave

Per approfondire..

Screaming Frog e i modelli di linguaggio

[RISORSA] Web Scraping basato su LLM

La struttura di tutte le "molecole della vita"

Sundar Pichai e il futuro dell'AI

Un'intervista a Geoffrey Hinton

3 concetti in evidenza

Dario Amodei sull'evoluzione dell'AI

ChatGPT: integrazione con Google Drive e Diagrammi interattivi

Come se la caverebbe un LLM come analista finanziario?

L'intelligenza generale (artificiale o naturale) non esiste

Da PRD a Figma con GPT-4o

I2VEdit: editing video da singolo fotogramma

Codestral di Mistral

Kolmogorov-Arnold Network (KAN)

L'AI non è senziente

SignLLM: un modello per la lingua dei segni

La partnership tra OpenAI e News Corp

Traduzioni Multi-Agente

Cognita: un framework per applicazioni RAG

Rendere i modelli di AI più "spiegabili"

Luce verde per l'AI Act

Novità da Google Marketing Live

ChatGPT Desktop su Mac

Microsoft Copilot + PC

RAPIDS cuDF di Nvidia

Frontier Safety Framework di Google DeepMind

I punti chiave

AI al lavoro: uno studio di Microsoft e Linkedin

Le Gems di Gemini

Dubbing API di ElevenLabs

GPT4o e GPTs per il piano free di ChatGPT

ElevenLabs Music: preview

Anthropic lancia un sistema per la generazione di prompt

Un Media Manager per OpenAI

Dati dei benchmark nel training dei LLM

L'identificazione dei contenuti generati dall'AI

La partnership tra OpenAI e Stack Overflow

Gli errori dei modelli di linguaggio

Emo: un volto robotico della Columbia University

Jamba di AI21labs

No AGI without neuro-symbolic AI

IDM-VTON: un modello per la prova virtuale di un capo d'abbigliamento

Come funzionano i Large Language Model?

Un post dettagliato che spiega tutto in modo semplice

Un esempio di utilizzo delle "mentions" per gestire GPTs diversi in un'unica sessione su ChatGPT

Il primo video musicale realizzato con Sora

La partnership tra OpenAI e Financial Times

Novità per Maestro

La memoria per le conversazioni di ChatGPT

- GRAZIE -

Iscriviti alla Newsletter

Sign up for more like this.