AI

Un'intelligenza artificiale è riuscita a imitare la capacità di astrazione umana

Per decenni siamo stati convinti che le reti neurali artificiali non sono in grado di generalizzare nuovi concetti a partire da pochi esempi. Un nuovo metodo mette in dubbio questo paradigma
Pensiero astratto e intelligenza artificiale
Pensiero astratto e intelligenza artificialePhonlamaiPhoto / Getty Images

A ottobre 2023 è stato creato il primo modello di intelligenza artificiale capace di generalizzazione sistematica, ovvero dotato dell'abilità "di capire e produrre nuove combinazioni (linguistiche, ndr) a partire da componenti note". Rispetto ai modelli consolidati di AI, come quelli alla base dei comuni chatbot come ChatGpt, questa nuova rete neurale artificiale – sviluppata dall' esperto di psicologia e data science Brenden M.Lake, della New York University, e dal linguista italiano Marco Baroni, che lavora all’Università Pompeu Fabra in Spagna – ha dimostrato una maggiore abilità nell'integrare le parole apprese nel suo vocabolario preesistente e nell'utilizzarle in contesti non familiari, come sanno fare fin da piccoli gli esseri umani.

Il nostro cervello, infatti, è in grado di generalizzare espressioni linguistiche con una certa facilità, utilizzandole consapevolmente in contesti diversi rispetto quelli in cui sono state apprese. Ad esempio, una volta che un bambino impara cosa significa "saltare", può intuire facilmente anche cosa vuol dire "saltare all'indietro" o "saltare due volte attorno a un cono", grazie alle sue capacità di astrazione e combinazione dei concetti. Fare una generalizzazione per gli umani è un gioco da ragazzi: bastano uno o pochi esempi per comprendere l'uso di un termine, non c’è bisogno di leggere intere enciclopedie come per il robot Numero 5 del film cult anni Ottanta Corto Circuito, o intere porzioni di internet come per ChatGpt. Per le AI, invece, è tutto un altro paio di maniche, perché le reti neurali finora sviluppate hanno bisogno di un altissimo numero di esempi, e quindi di moltissimi dati, prima di poter imparare come applicare concetti in contesti nuovi.

L'esperimento

Per potenziare la generalizzazione sistematica, come spiegano nello studio pubblicato su Nature, Lake e Baroni hanno ripensato il training delle reti neurali, proponendo un nuovo approccio detto “meta-learning for compositionality(Mlc). Nel corso di questa procedura, la rete neurale apprende una nuova parola (per esempio, “salta”) e successivamente viene istruita a utilizzarla per generare nuove combinazioni con altre parole già conosciute, come 'salta due volte' o 'salta due volte a destra'. Questo processo si ripete con altre parole, perfezionando progressivamente la sua abilità nella creazione di composizioni.

Successivamente hanno sottoposto i loro modelli di AI ad un test insieme a venticinque soggetti umani per confrontare le diverse capacità cognitive di comprensione del linguaggio tra uomo e macchina. L'esperimento ha utilizzato uno pseudo-linguaggio, un insieme costruito di parole inventate, in modo che i partecipanti stessero veramente imparando questi termini per la prima volta. In questo linguaggio sono presenti solo due categorie di parole, le “primitive” (“dax”, “lug”, “wif” e “zup”) correlate a quattro diversi colori ("rosso", “verde”, “blu” e “giallo”), e le “funzionali” (“blicket”, “kiki”, “fep”) che rappresentano delle regole di espressione con effetti sulle primitive (raddoppia, inverti l’ordine, …). I partecipanti non vengono istruiti sul significato delle regole (conoscono solo i colori associati alle primitive), ma devono dedurre la regola osservando frasi composte sia da primitive che da funzionali. Per esempio, “lug fep” sono tre punti blu e “dax fep” sono tre punti rossi, da cui si deduce che “fep” è la funzionale che triplica i punti. In altre parole, i partecipanti e l’AI devono comprendere il significato delle parole a partire solo da pochi esempi e generalizzarne il significato per interpretare scenari più complessi sistematicamente.

nature.com

Le persone eccellono in questo esercizio, con meno del 20% di errore. Gpt4 di OpenAI, uno dei large language models più avanzati, ha un tasso d’errore tra il 42% e l’86%, il che ci mostra come gli attuali modelli fatichino ancora a raggiungere il livello umano di generalizzazione sistematica. Tuttavia, il modello di Lake e Baroni commette errori con una frequenza simile a quella degli esseri umani.

Le conseguenze

I risultati dei loro esperimenti, condotti su una rete neurale addestrata, mettono in discussione l'ipotesi formulata negli anni Ottanta da due filosofi ed esperti di scienze cognitive, Jerry Fodor e Zenon Pylyshyn, secondo i quali le reti neurali artificiali non avrebbero la capacità di creare simili connessioni tra i concetti e dunque non sarebbero dei modelli in grado di riprodurre quanto accade nel cervello umano. Ma come spiega uno degli autori dello studio "Per la prima volta abbiamo dimostrato che una rete neurale generica può imitare o superare la generalizzazione sistematica umana in un confronto testa a testa”.

Ricerche come quella condotta da Lake e Baroni, che si basano su principi di ragionamento e apprendimento ispirati al cervello umano – come l'astrazione e la capacità di collegare concetti tra di loro – possono contribuire alla creazione di sistemi di intelligenza artificiale più avanzati ed efficienti. Va detto, però, che questa nuova rete neurale capace di generalizzazione sistematica è ancora un primo esperimento accademico che non è certo possa essere integrata in altri modelli di AI più complessi, come ChatGpt, in grado di padroneggiare un uso del linguaggio molto più esteso. Tuttavia, se un tale avanzamento fosse possibile i benefici sarebbero molteplici. In particolare, la generalizzazione sistematica promette di affrontare due delle grandi sfide dell’AI odierna: le allucinazioni, cioè la generazione di affermazioni plausibili ma assolutamente false molto comune nelle risposte dei chatbot, e l’enorme quantità di dati necessari per il training delle AI. Ridurre i dati di training significa aumentare l’accessibilità ai ricercatori di tutto il mondo, ridurre i costi e quindi le emissioni, e poter aggiornare i modelli con dati recenti più di frequente.