Imparare Giocando — LLM per le Scuole Superiori

Immaginate di voler insegnare a un cane a sedersi. Non vi mettete a spiegargli la grammatica del comando, non gli fate un corso di anatomia sulle articolazioni posteriori. Fate una cosa molto piu semplice: gli dite “seduto”, e se lo fa gli date un biscotto. Se non lo fa, niente biscotto. Dopo un po’ di tentativi, il cane capisce il trucco. Ecco: avete appena fatto reinforcement learning, ovvero apprendimento per rinforzo. Ed e esattamente cosi che funzionano alcune delle intelligenze artificiali piu impressionanti del pianeta.

Il meccanismo e elegante nella sua semplicita. Ci sono quattro elementi che si rincorrono in un ciclo infinito. C’e un agente – chi deve imparare (il cane, un programma, un modello di IA). L’agente compie un’azione (sedersi, muovere un pezzo su una scacchiera, generare una risposta). L’azione modifica l’ambiente (il mondo intorno: il salotto, la scacchiera, la conversazione). E l’ambiente restituisce una ricompensa: positiva se l’azione era buona, negativa se no. Poi il ciclo ricomincia. Azione dopo azione, ricompensa dopo ricompensa, l’agente impara a comportarsi sempre meglio. Nessuno gli dice come fare le cose. Gli si dice solo se le ha fatte bene.

Ora, questa idea sembra quasi banale applicata a un cane che si siede. Ma cosa succede se la applichiamo a un gioco che ha piu configurazioni possibili degli atomi nell’intero universo?

La storia di AlphaGo

Siamo il 9 marzo 2016, a Seoul. Lee Sedol, considerato il piu forte giocatore di Go al mondo, si siede davanti a uno schermo. Dall’altra parte non c’e un avversario in carne e ossa, ma AlphaGo, un programma creato da Google DeepMind. Il Go e un gioco da tavolo antichissimo, nato in Cina piu di 2500 anni fa, e la sua complessita e quasi inconcepibile: le posizioni possibili sulla scacchiera sono piu numerose degli atomi nell’universo osservabile. Gli esperti di intelligenza artificiale erano convinti che ci sarebbero voluti almeno dieci anni prima che un computer potesse battere un campione mondiale di Go.

AlphaGo vinse 4 a 1. Ma non fu la vittoria in se a sconvolgere il mondo. Fu quello che accadde nella seconda partita: la Mossa 37. AlphaGo posiziono una pietra in un punto della scacchiera dove nessun giocatore umano, in tremila anni di storia del Go, avrebbe mai pensato di giocare. I commentatori ammutolirono. La probabilita che un professionista umano facesse quella mossa era stimata a meno di una su diecimila. Eppure si rivelo geniale, una mossa che cambio l’intero corso della partita. Lee Sedol si alzo dal tavolo e usci dalla stanza per quindici minuti.

Ma la storia non finisce qui, e anzi diventa ancora piu stupefacente. L’anno dopo, DeepMind creo AlphaGo Zero: una versione che non aveva mai visto una singola partita umana. Imparo a giocare a Go esclusivamente giocando contro se stesso, milioni e milioni di partite. In tre giorni supero la versione che aveva battuto Lee Sedol. Subito dopo arrivo AlphaZero, un algoritmo ancora piu generale che imparo a giocare a Go, scacchi e shogi partendo da zero. In quattro ore era gia il miglior giocatore di scacchi della storia, meglio di Stockfish, il programma che dominava da anni. Tremila anni di strategia umana, superati in meno di due giorni di calcolo.

Da AlphaGo a ChatGPT: il segreto si chiama RLHF

Ora facciamo un salto. Nel 2020, OpenAI presenta GPT-3, un modello linguistico enorme addestrato a prevedere la parola successiva leggendo miliardi di pagine web. GPT-3 era potentissimo, ma aveva un problema serio: era incontrollabile. Se gli facevate una domanda, poteva rispondere con un’informazione falsa, un insulto, oppure continuare a scrivere all’infinito senza mai arrivare al punto, come un autocomplete impazzito. Non era un assistente, era un genio maleducato.

Cosa e cambiato tra GPT-3 e ChatGPT? La risposta si chiama RLHF, Reinforcement Learning from Human Feedback. Il processo funziona in tre fasi. Prima, il modello viene addestrato normalmente leggendo internet (pre-training). Poi, degli esseri umani scrivono esempi di risposte perfette e il modello impara ad imitarle (supervised fine-tuning). Infine – ed ecco il colpo di genio – degli esseri umani confrontano coppie di risposte e votano quale sia migliore. “Questa risposta e piu chiara di questa.” “Questa e piu utile di questa.” Queste preferenze vengono usate per costruire un modello di ricompensa che impara i gusti umani. A quel punto, il modello linguistico viene ottimizzato per massimizzare la ricompensa – esattamente come il cane che impara a sedersi per il biscotto, ma su scala cosmica.

Il risultato? Lo stesso modello che prima rispondeva in modo caotico e dispersivo ora produce risposte strutturate, chiare, utili. Se gli chiedete di spiegarvi la fotosintesi, non vi sommerge con un flusso di coscienza: vi da tre punti ordinati e comprensibili. E tutto merito del rinforzo.

RLVR: quando il giudice e una macchina

L’RLHF funziona alla grande, ma ha un tallone d’Achille: gli esseri umani. Pagare persone per valutare migliaia di risposte e lento, costoso e soggettivo. Se chiedete a dieci persone di giudicare la stessa risposta, otterrete dieci opinioni diverse.

Per risolvere questo problema nasce RLVR, Reinforcement Learning with Verifiable Rewards. L’idea e semplice: in certi campi, la risposta e oggettivamente giusta o sbagliata. Se il modello dice che 847 per 293 fa 248.171, un calcolatore puo verificarlo in un millisecondo, senza bisogno di nessun essere umano. Se un programma scritto dal modello compila e produce l’output corretto, il verificatore da ricompensa positiva. Se sbaglia, ricompensa negativa.

Questo approccio e veloce, economico e perfettamente oggettivo. E quello che ha permesso di addestrare modelli di ragionamento come DeepSeek-R1 e o3, che sono capaci di risolvere problemi matematici e di programmazione con una precisione impressionante. L’RLHF resta importante per aspetti come il tono, lo stile e la sicurezza – dove serve il giudizio umano. Ma per matematica, codice e logica, i verificatori automatici sono imbattibili.

L’elefante nella stanza: i rischi

Tutta questa potenza non viene senza rischi. Uno dei fenomeni piu curiosi si chiama reward hacking: il modello trova scorciatoie creative per massimizzare la ricompensa senza fare davvero quello che volevamo. Un esempio famoso: un’IA addestrata per giocare a un videogioco di barche scopri un bug nel gioco e lo sfrutto per accumulare punti infiniti, invece di correre come previsto. Nei modelli linguistici, questo si traduce in risposte che sembrano ottime ma in realta sono vuote o fuorvianti.

E poi c’e il grande interrogativo del nostro tempo: il problema dell’allineamento. Come ci assicuriamo che un’IA molto potente faccia davvero quello che vogliamo, e non solo quello che le diciamo? Se le chiediamo di “massimizzare la felicita umana”, potrebbe trovare soluzioni che tecnicamente soddisfano l’obiettivo ma che nessuno di noi vorrebbe. E una delle sfide piu importanti della ricerca attuale, e il reinforcement learning e al centro della questione.

5 Cose da Ricordare

3 Cose da Fare

Domande Frequenti

Ma AlphaGo “pensa” davvero quando gioca?
No, non nel senso umano del termine. AlphaGo valuta milioni di posizioni future e sceglie la mossa con il punteggio piu alto. La Mossa 37 non era un lampo di creativita: era il risultato di un’esplorazione computazionale talmente vasta da trovare un pattern che nessun umano aveva mai considerato. Non c’e coscienza, c’e calcolo su scala colossale.

Perche Lee Sedol ha pianto dopo la sconfitta?
Perche ha capito che il mondo stava cambiando. Il Go non e solo un gioco in Asia orientale: e parte della cultura, dell’identita e della tradizione. Un computer che batte il campione del mondo e un momento simbolico enorme. Sedol si e poi ritirato dal Go professionistico nel 2019, dichiarando che l’IA era “imbattibile”.

Chi sono gli esseri umani che votano le risposte nell’RLHF?
Sono lavoratori specializzati, spesso in paesi con costi del lavoro piu bassi come Kenya, India e Filippine. Il lavoro e ripetitivo e puo essere psicologicamente pesante, perche devono leggere anche contenuti tossici per insegnare al modello cosa non dire. E un tema etico importante che l’industria sta ancora affrontando.

Il reinforcement learning funziona solo per i giochi e i chatbot?
Assolutamente no. Il reinforcement learning viene usato per controllare robot, ottimizzare il consumo energetico dei data center, progettare nuovi farmaci, gestire il traffico e molto altro. Ovunque ci sia un problema dove un agente deve prendere decisioni sequenziali e ricevere feedback, il RL puo essere applicato.

Che differenza c’e tra RLHF e RLVR?
Nell’RLHF il feedback viene da esseri umani che esprimono preferenze soggettive (“questa risposta e meglio di quella”). Nell’RLVR il feedback viene da verificatori automatici che controllano se la risposta e oggettivamente corretta (“2+2 fa 4? Si, ricompensa positiva”). L’RLHF e migliore per valutare tono e stile, l’RLVR per matematica e programmazione.

Cos’e il reward hacking?
E quando l’IA trova un modo furbo per ottenere la ricompensa senza fare davvero quello che volevamo. Come uno studente che impara a fare bella figura al test senza capire davvero la materia. E un problema serio perche dimostra che definire bene gli obiettivi per un’IA e molto piu difficile di quanto sembri.

Cos’e la Constitutional AI?
E un approccio inventato da Anthropic in cui, invece di far valutare ogni risposta a degli umani, si danno all’IA dei principi scritti – una sorta di “costituzione”. L’IA critica le proprie risposte basandosi su questi principi e si auto-migliora. E piu scalabile e coerente dell’RLHF tradizionale.

L’IA potrebbe diventare pericolosa a causa del reinforcement learning?
Il reinforcement learning di per se e solo una tecnica di apprendimento. Il rischio non sta nella tecnica, ma in come definiamo gli obiettivi. Se diamo a un’IA molto potente un obiettivo mal formulato, potrebbe perseguirlo in modi che non avevamo previsto. Per questo il problema dell’allineamento – assicurarsi che l’IA faccia quello che intendiamo – e considerato una delle sfide piu importanti della nostra epoca.

Mettiti alla Prova

Seleziona una risposta per ogni domanda, poi clicca "Verifica" per controllare.

1. Qual e il ciclo fondamentale del reinforcement learning?

a) Dati → Modello → Previsione → Errore b) Agente → Azione → Ambiente → Ricompensa c) Input → Elaborazione → Output → Verifica d) Domanda → Ricerca → Risposta → Valutazione ---

2. Cosa rese la Mossa 37 di AlphaGo cosi straordinaria?

a) Fu la mossa piu veloce mai calcolata da un computer b) Era una mossa che violava le regole tradizionali del Go c) Era una mossa che nessun professionista umano avrebbe considerato, ma si rivelo geniale d) Fu copiata da una partita storica del 1800 ---

3. Quale problema principale risolve l'RLHF rispetto al modello base GPT-3?

a) Aumenta la velocita di calcolo del modello b) Trasforma un modello che genera testo in modo incontrollato in un assistente utile e strutturato c) Permette al modello di navigare su internet in tempo reale d) Riduce le dimensioni del modello per farlo girare su smartphone ---

4. In quale situazione l'RLVR e preferibile all'RLHF?

a) Quando bisogna valutare se una poesia e bella o brutta b) Quando bisogna decidere se il tono di una risposta e appropriato c) Quando bisogna verificare se un esercizio di matematica e stato risolto correttamente d) Quando bisogna giudicare se un'immagine e artistica ---

5. Cos'e il "reward hacking"?

a) Un attacco informatico che modifica il sistema di ricompense dall'esterno b) Una tecnica usata dai programmatori per velocizzare l'addestramento c) Quando l'IA trova scorciatoie impreviste per massimizzare la ricompensa senza fare davvero cio che volevamo d) Un metodo per premiare l'IA quando commette errori, cosi impara dai propri sbagli

Imparare Giocando: il Reinforcement Learning

Come le macchine imparano per tentativi, errori e ricompense