L'ultimo esame dell'umanità
Il test definitivo (forse) per valutare l'AI
L’AI è sempre più evoluta e più intelligente, può in qualche modo pensare e ragionare. Sembra quindi che l’AGI, (Intelligenza Artificiale Generale) sia sempre più vicina.
Se per AGI si intende una forma di intelligenza artificiale capace di comprendere, apprendere e svolgere qualsiasi compito intellettuale che un essere umano può imparare o eseguire come facciamo a sapere a che punto siamo di questo percorso?
Negli ultimi anni, i modelli linguistici di grande scala (LLM) hanno fatto passi da gigante, arrivando a “distruggere i più diffusi test di ragionamento” e a superare agevolmente esami una volta ritenuti molto impegnativi. Ad esempio, un modello come GPT-4 o i suoi successori interni di OpenAI hanno raggiunto oltre il 90% di correttezza su MMLU (un test di conoscenze universitarie), quando pochi anni fa lo stesso test vedeva le IA rispondere quasi a caso. Questo rapido saturarsi dei benchmark esistenti ha fatto sì che essi perdessero potere discriminante: se quasi tutte le risposte sono corrette, il test non è più utile a capire quale modello sia realmente più avanzato né a stimare quanto spazio di miglioramento resti.
Alzare l’asticella
Con lo scopo dunque di alzare drasticamente l’asticella, è nato il progetto Humanity's Last Exam (HLE), un nuovo benchmark accademico progettato per testare i limiti delle capacità delle intelligenze artificiali avanzate. Si tratta di un “esame” composto da 2.500 domande estremamente impegnative, provenienti da un vasto spettro di discipline, ideato congiuntamente dal Center for AI Safety (CAIS) – un’organizzazione non-profit focalizzata sui rischi dell’IA – e dall’azienda Scale AI. L’obiettivo dichiarato del progetto è creare il test pubblico più difficile al mondo per sistemi di IA, un esame che resti probante anche man mano che i modelli di linguaggio migliorano. In altre parole, HLE è pensato per essere “l’ultimo esame” accademico a risposte chiuse di cui l’umanità avrà bisogno, con un’ampia copertura di materie e difficoltà al limite estremo delle conoscenze umane.
HLE = Humanity’s Last Exam
GPQA (Graduate-Level Google-Proof Q&A) = benchmark di domande a risposta multipla di livello post-universitario progettato per essere “a prova di Google”
MATH (Mathematics Aptitude Test of Heuristics) = importante benchmark dedicato esclusivamente alla matematica, introdotto nel 2021
MMLU (Massive Multitask Language Understanding)= celebre benchmark introdotto nel 2020 per testare i modelli di linguaggio
Il contenuto dell’esame - finalizzato il 3 aprile 2025 - copre oltre un centinaio di discipline, includendo anche scienze sociali e umanistiche. Circa 41% delle domande sono di matematica, seguite da biologia/medicina (11%), informatica/IA (10%), fisica (9%), scienze umane e sociali (9%), chimica (7%), ingegneria (4%) e altre materie (9%)en.wikipedia.org.
Le domande sono formulate sia a risposta multipla (circa 24%) sia a risposta aperta breve, con verifica rigorosa delle risposte esatte.
Importante è anche la componente multi-modale: circa il 14% dei quesiti richiede di interpretare non solo testo ma anche immagini (ad esempio analizzare un’iscrizione antica o un grafico scientifico).
Questa varietà dovrebbe garantire che il benchmark testi conoscenze e ragionamenti complessi su più fronti. Ogni domanda ha una risposta oggettiva, univoca e verificabile, spesso talmente avanzata da richiedere competenze da esperti nel settore. Ad esempio, tra i quesiti figurano la traduzione di un’iscrizione palmirena trovata su una lapide romana e un complicato quesito di anatomia aviaria sulla struttura tendinea di un osso nei colibrì.
In definitiva, lo scopo di Humanity’s Last Exam è duplice: fornire un metro di paragone aggiornato e rigoroso per valutare l’intelligenza delle IA emergenti, e stabilire quando un’IA raggiungerà capacità paragonabili a un esperto umano in ambito accademico.
Implicazioni Etiche
Il progetto Humanity’s Last Exam solleva diverse considerazioni etiche e di impatto sociale, legate al rapporto tra intelligenza artificiale e conoscenza umana. In primo luogo, il nome evocativo “L’ultimo esame dell’umanità” suggerisce uno scenario in cui le IA eguagliano o superano le capacità umane in compiti accademici: se e quando un modello supererà brillantemente questo test, potremmo trovarci di fronte a un punto di svolta.
Che cosa significa per l’umanità avere macchine in grado di rispondere a qualsiasi domanda specialistica meglio di un esperto umano?
Da un lato, potrebbero aprirsi enormi opportunità positive: IA con conoscenza enciclopedica e abilità di ragionamento avanzato potrebbero accelerare le scoperte scientifiche, aiutare a risolvere problemi complessi (clima, medicina, ecc.) e democratizzare l’accesso al sapere esperto.
Dall’altro lato, emergono timori significativi: perdita di controllo e centralità umana, dipendenza da intelligenze non umane per prendere decisioni cruciali, o persino rischi esistenziali se tali sistemi non fossero allineati ai valori umani. Il fatto stesso che i creatori di HLE provengano dal Center for AI Safety non è casuale: questa organizzazione nasce per “ridurre i rischi su scala societaria derivanti dall’IA”, a conferma che l’esame è pensato anche come strumento preventivo.
Misurare accuratamente i progressi dell’IA è infatti essenziale per capire quanto ci stiamo avvicinando a soglie critiche oltre le quali l’IA potrebbe avere impatti profondi sulla società (in bene o in male).
Detto ciò, alcuni critici mettono in guardia: eccellere nei benchmark chiusi non equivale necessariamente a vera intelligenza generale. C’è il rischio di ridurre il concetto di “intelligenza” alla sola capacità di superare test accademici, che sono pur sempre semplificazioni strutturate della realtà.
Un’IA potrebbe teoricamente imparare a memorizzare fatti o riconoscere schemi ricorrenti nelle domande senza sviluppare comprensione profonda o buon senso. Questo porterebbe a un’illusione di competenza. Eticamente, dunque, HLE non va interpretato come un fine ultimo, ma come un mezzo: se un modello supera HLE, non significa che capisce veramente il mondo come un essere umano, ma che è estremamente bravo in compiti accademici circoscritti.
Gli stessi sviluppatori riconoscono questa distinzione, chiarendo che un punteggio alto in HLE non implica di per sé capacità creative, buon giudizio o autonomia decisionale simile a quella umana.
La comunità AI dovrà quindi evitare di farsi prendere da facili entusiasmi o timori infondati: un modello che “passa l’ultimo esame” potrebbe comunque fallire in altri contesti aperti o di vita reale che richiedono qualcosa in più della semplice nozione o ragionamento formalizzato.
Allo stesso tempo, molti esperti concordano che vedere un’IA avvicinarsi al 100% su HLE sarebbe un segnale epocale. C’è chi sostiene che saturare questo benchmark sarebbe “qualcosa di assolutamente non-umano, nientemeno che un’AGI”, vista la vastità di conoscenze e abilità di ragionamento necessarie.
Altri ritengono che persino un risultato del 50-70% sarebbe già indicativo di un salto qualitativo enorme, pur non equivalendo ancora a un’intelligenza generale completa.
Da un punto di vista etico, queste discussioni riflettono la cautela nel definire traguardi e soglie: HLE può servire a individuare quando un’IA sta raggiungendo territori prima riservati all’intelletto umano, ma interpretare correttamente quel momento sarà cruciale per prendere decisioni responsabili. Ad esempio, se un sistema raggiungesse un punteggio elevatissimo, potrebbe essere opportuno intensificare le verifiche di sicurezza su di esso, valutarne attentamente gli impieghi e forse stabilire delle normative specifiche (come alcuni hanno proposto di fare per i modelli definiti frontier AI, i più avanzati) – il tutto per assicurare che tali capacità straordinarie siano usate a beneficio dell’umanità e non a suo danno.
In conclusione, dal punto di vista etico Humanity’s Last Exam è sia un monito sia una guida. Monito, perché il suo stesso nome e scopo ricordano che potremmo essere vicini a creare macchine che ci eguagliano in ciò che finora ci rendeva cognitivamente speciali – e questo impone una riflessione profonda sulle implicazioni per la nostra specie. Guida, perché fornisce uno strumento con cui monitorare questo progresso in modo aperto e informato, dando così alla società e alle istituzioni il tempo e i dati per discutere di valori, sicurezza e governance dell’IA prima che si raggiungano punti di non ritorno.
Contesto Politico e Geopolitico
Il progetto Humanity’s Last Exam si colloca in un momento storico in cui l’intelligenza artificiale è al centro del dibattito politico e strategico mondiale. Diversi attori e istituzioni, dai governi alle grandi aziende tecnologiche, hanno interessi diretti nello sviluppo e nel controllo delle AI avanzate – e HLE si inserisce come elemento chiave di questo panorama.
Innanzitutto, gli attori coinvolti nella realizzazione di HLE delineano una collaborazione pubblico-privata molto interessante. Da una parte c’è il Center for AI Safety, organizzazione non-profit con sede negli Stati Uniti, che rappresenta la voce della comunità AI safety: ricercatori preoccupati di assicurare che l’IA futura sia benefica e sotto controllo umano. Dall’altra c’è Scale AI, startup di San Francisco nota per fornire dati e infrastrutture di addestramento alle maggiori aziende tech. Questa alleanza insolita (non-profit accademico + impresa for-profit) indica che vi è un consenso trasversale sulla necessità di metriche affidabili per l’IA: sia chi mira a sviluppare modelli sempre più potenti, sia chi vuole garantirne la sicurezza concordano sul valore di un benchmark come HLE. La presenza di oltre 500 istituzioni accademiche di 50 Paesi tra i contributori testimonia inoltre un coinvolgimento globale: università e centri di ricerca dall’Europa, dalle Americhe, dall’Asia, ecc. hanno contribuito all’esame, in molti casi con il patrocinio di enti pubblici o governi (ad esempio docenti universitari finanziati da progetti nazionali). Questo fa di HLE un progetto dal respiro internazionale, che trascende i confini di singole nazioni o aziende.
È importante notare che HLE non è esente da dibattiti nella comunità AI stessa. Alcuni ricercatori vedono di buon occhio un test del genere perché fornisce un punto di riferimento comune e tangibile sul progresso: permette di ancorare discussioni spesso astratte (come “quanto siamo vicini all’AGI?”) a dati concreti e condivisi. Altri sono più critici: temono che un’eccessiva attenzione a vincere sui benchmark incentivi comportamenti di gaming (addestrare specificamente i modelli sulle domande note) e possa dare un’illusione di progresso senza corrispondente robustezza.
Oggi l’AI supera l’Ultimo Esame?
Le prestazioni attuali sul benchmark confermano la durezza tecnica di HLE. I migliori LLM non raggiungono neanche il 25% di risposte corrette.
Ciò implica che i modelli oggi falliscono su larga parte delle domande – esattamente il risultato voluto dal design. Le difficoltà incontrate dalle IA spaziano da limiti di conoscenza (domande su nozioni estremamente di nicchia o scoperte recentissime), a sfide di ragionamento multi-step, fino a comprendere ostacoli come interpretare simboli non familiari (es. lingue morte o notazioni scientifiche rare) e collegare informazioni di diversa natura. È interessante notare che, secondo gli autori, gli errori delle IA non sono dovuti solo a mancanza di conoscenza, ma spesso a mancanza di consapevolezza della propria incertezza. Su HLE i modelli esibiscono fenomeni di allucinazione o confabulazione: forniscono risposte sbagliate con eccessiva sicurezza, invece di ammettere di non sapere. Per questo motivo il benchmark valuta anche l’errore di calibrazione delle IA, misurando la capacità di un modello di associare un livello di confidenza alle proprie risposte e di essere cauto quando non è sicuro. In futuro, un miglioramento tecnico atteso (e auspicato) è che i modelli imparino non solo a rispondere meglio, ma anche a non lanciarsi in risposte azzardate quando non conoscono la soluzione.
I ricercatori stanno già lavorando su questo: la fase successiva di sviluppo per molti LLM includerà addestrarli a riconoscere la propria incertezza e comunicarla, fornendo insieme alla risposta anche una stima percentuale della confidenza.
Questo approccio, già sperimentato in HLE, è tecnicamente importante per rendere le IA più affidabili e allineate, mitigando il rischio che un modello apparentemente brillante fornisca informazioni scorrette senza segnalare dubbi.
Per concludere
Humanity’s Last Exam funge attualmente da cartina tornasole dello stato dell’arte: mette in luce il gap significativo tra le capacità dei migliori modelli odierni e il livello esperto umano in compiti accademici rigorosi. I progressi verranno registrati man mano, e superare nettamente questo benchmark sarà visto come un segnale tecnico di avvicinamento all’intelligenza di livello umano in ambito conoscitivo. Va comunque sottolineato che, anche se un giorno un’IA dovesse ottenere punteggi molto alti su HLE, ciò non significherebbe automaticamente aver raggiunto l’AGI.
Sarà però un indicatore concreto di abilità avanzatissime in termini di conoscenza e ragionamento verificabile.
Siamo davvero pronti a condividere la nostra centralità cognitiva con una macchina?
Se ti interessa il mondo dell’IA ho realizzato un libro che si chiama Alex e Arka: Conversazioni con l'Intelligenza Artificiale, un dialogo uomo macchina sulle implicazioni dell’avvento di questa tecnologia nella nostra società. Clicca QUI per saperne di più.
E se vuoi un assaggio gratuito del libro clicca QUI.