Il Paper che Ha Cambiato Tutto — LLM per le Scuole Superiori

Immaginate di essere nel 2017. Esce un nuovo iPhone, si parla di fidget spinner, e in un angolo tranquillo di Google Brain, otto ricercatori pubblicano un articolo scientifico di quindici pagine con un titolo piuttosto ambizioso: “Attention Is All You Need” – “L’attenzione e tutto cio di cui hai bisogno.” Nessuno, probabilmente nemmeno loro, immaginava che quelle quindici pagine avrebbero riscritto le regole della tecnologia.

Ma facciamo un passo indietro. Prima del 2017, i computer cercavano di capire il linguaggio umano usando le cosiddette RNN (Reti Neurali Ricorrenti). Pensatele come un lettore molto diligente ma lentissimo: leggono un testo parola per parola, in ordine, una alla volta. Se la frase e lunga, quando arrivano alla fine hanno gia dimenticato l’inizio. Come quando qualcuno vi racconta una storia lunghissima e alla fine non ricordate piu come era iniziata.

I Transformer, l’architettura proposta in quel famoso paper, hanno un approccio completamente diverso. Invece di leggere parola per parola, guardano tutte le parole contemporaneamente. E come la differenza tra leggere un libro una riga alla volta e avere una vista dall’alto su tutta la pagina. Ogni parola puo “vedere” tutte le altre e decidere a quali prestare attenzione. Questo meccanismo si chiama, appunto, self-attention.

Il vantaggio pratico? La velocita. Siccome tutte le parole vengono elaborate in parallelo, i Transformer possono sfruttare le GPU (le schede grafiche, quelle che i gamer conoscono bene) per addestrarsi molto piu velocemente. E la velocita, come vedremo, e stata la chiave di tutto.

Curiosita affascinante: tutti e otto gli autori di quel paper hanno poi lasciato Google. Hanno fondato o sono entrati in aziende come Cohere, Character.AI, Essential AI. Quando fai una scoperta rivoluzionaria, evidentemente vuoi portarla nel mondo reale con le tue mani.

La scoperta che ha trasformato una scommessa in una legge

Arriviamo al 2020. Un team di OpenAI, guidato tra gli altri da Dario Amodei (che poi fondera Anthropic, l’azienda che ha creato Claude), pubblica un altro paper fondamentale: le Scaling Laws, le leggi di scala. La loro scoperta e sorprendente nella sua semplicita: le prestazioni dei modelli linguistici migliorano in modo prevedibile quando si aumentano tre ingredienti – parametri, dati e potenza di calcolo.

Non e magia, non e fortuna. E una legge matematica, simile a quelle che governano i terremoti o la crescita delle citta. Si chiama legge di potenza: se raddoppi i parametri del modello, le prestazioni migliorano di una percentuale costante. Non raddoppiano (sarebbe troppo bello), ma crescono in modo regolare e misurabile.

Pensate a un musicista: se raddoppia le ore di pratica, non diventa il doppio piu bravo, ma migliora in modo costante e prevedibile. Con i modelli di IA funziona allo stesso modo.

La corsa dei giganti

I numeri raccontano una storia impressionante. GPT-1 (2018) aveva 117 milioni di parametri – un esperimento modesto per dimostrare che l’idea funzionava. Un anno dopo, GPT-2 arriva a 1,5 miliardi di parametri (13 volte di piu) e genera testo cosi convincente che OpenAI lo definisce “troppo pericoloso per essere rilasciato.” Nel 2020, GPT-3 esplode a 175 miliardi di parametri e mostra capacita che nessuno aveva previsto: scrivere codice, tradurre lingue, ragionare su problemi complessi. Fino ad arrivare a GPT-4 nel 2023, con parametri stimati intorno a 1.800 miliardi.

Ma attenzione: i parametri da soli non bastano. Le scaling laws ci insegnano che servono tre ingredienti in equilibrio, come le gambe di uno sgabello:

Se manca anche solo uno di questi tre ingredienti, gli altri non compensano. E come avere un motore potentissimo senza benzina, o un serbatoio pieno senza motore.

E poi arrivo ChatGPT

Il 30 novembre 2022, OpenAI lancia ChatGPT. In due mesi raggiunge 100 milioni di utenti – la crescita piu rapida nella storia di qualsiasi prodotto tecnologico. L’intelligenza artificiale esce dai laboratori di ricerca e entra nella vita quotidiana di tutti. Quella scommessa fatta anni prima – “se lo costruiamo abbastanza grande, funzionera” – si era rivelata vincente.

Ma la storia non finisce qui. Nel 2022, DeepMind pubblica lo studio Chinchilla, dimostrando che i modelli precedenti erano in realta sotto-addestrati: servivano piu dati, non solo piu parametri. E nel 2025, lo stesso Ilya Sutskever, co-fondatore di OpenAI, dichiara: “Stiamo passando dall’era della scala all’era della ricerca.” I dati di qualita sul web si stanno esaurendo, e la scala da sola potrebbe non bastare piu. Le prossime frontiere sono il ragionamento avanzato, i dati sintetici, e modelli che “pensano” piu a lungo prima di rispondere.

La lezione? La scienza dell’IA non e una linea retta. E una storia di intuizioni coraggiose, scommesse enormi, e continue sorprese. E voi state vivendo esattamente nel momento in cui questa storia si sta scrivendo.

5 Cose da Ricordare

3 Cose da Fare

Domande Frequenti

Cosa sono esattamente i “parametri” di un modello?
Sono numeri (pesi) all’interno della rete neurale che vengono regolati durante l’addestramento. Ogni parametro rappresenta una piccola “decisione” che il modello impara a prendere. Piu parametri ha, piu relazioni complesse riesce a catturare nel linguaggio.

Perche le RNN sono state sostituite dai Transformer?
Le RNN elaborano le parole una alla volta, in sequenza. Questo le rende lente e le fa “dimenticare” le parole lontane. I Transformer, usando il meccanismo di attenzione, guardano tutte le parole contemporaneamente e possono essere addestrati molto piu velocemente sulle GPU.

Quanto costa addestrare un modello come GPT-4?
Le stime parlano di circa 100 milioni di dollari solo per il calcolo. Ma il costo totale, includendo ricercatori, dati e infrastruttura, potrebbe superare il miliardo. Per questo solo poche grandi aziende possono costruire modelli alla frontiera.

Se basta rendere il modello piu grande, perche non lo fanno tutti?
Perche servono risorse enormi: miliardi di dollari, decine di migliaia di GPU, e dati su scala web. Inoltre, la scala da sola non basta – servono anche innovazioni nell’architettura e nella qualita dei dati.

Cosa vuol dire “legge di potenza”?
E una relazione matematica in cui raddoppiare una variabile (ad esempio i parametri) produce un miglioramento costante ma non proporzionale. Raddoppiare i parametri non raddoppia le prestazioni, ma le migliora di circa il 5%. E lo stesso tipo di legge che governa fenomeni naturali come i terremoti.

Perche tutti gli autori del paper originale hanno lasciato Google?
Hanno capito il potenziale di cio che avevano creato e hanno voluto costruire aziende proprie o guidare progetti con maggiore autonomia. Alcuni hanno fondato startup come Cohere ed Essential AI, altri sono passati ad aziende come OpenAI.

Cosa significa che GPT-3 era “sotto-addestrato”?
Lo studio Chinchilla di DeepMind ha dimostrato che GPT-3, pur avendo moltissimi parametri, non era stato addestrato su abbastanza dati. Per ottenere il massimo da un modello, parametri e dati devono crescere in modo proporzionale.

L’IA continuera a migliorare per sempre?
Questa e la grande domanda. Le scaling laws suggeriscono un miglioramento continuo, ma ci sono limiti pratici: i dati di qualita sono finiti, l’energia necessaria e enorme, e i costi crescono rapidamente. Per questo i ricercatori stanno esplorando nuove strade oltre la pura scala.

Mettiti alla Prova

Seleziona una risposta per ogni domanda, poi clicca "Verifica" per controllare.

1. Qual e la differenza fondamentale tra RNN e Transformer nell'elaborazione del linguaggio?

a) Le RNN sono piu veloci dei Transformer b) I Transformer elaborano le parole in parallelo, le RNN in sequenza- C) Le RNN usano piu parametri dei Transformer d) I Transformer funzionano solo in inglese

2. Secondo le scaling laws, cosa succede quando si raddoppiano i parametri di un modello?

a) Le prestazioni raddoppiano esattamente b) Le prestazioni peggiorano per eccesso di complessita c) Le prestazioni migliorano di una percentuale costante e prevedibile- D) Non cambia nulla perche contano solo i dati

3. Quali sono i tre ingredienti fondamentali delle scaling laws?

a) Velocita, memoria, connessione internet b) Parametri, dati e potenza di calcolo (compute)- C) Hardware, software e programmatori d) Testo, immagini e audio

4. Perche ChatGPT ha avuto un impatto cosi grande quando e stato lanciato nel 2022?

a) Era il primo modello di IA mai creato b) Era gratuito e accessibile a tutti, rendendo l'IA un'esperienza diretta per milioni di persone- C) Aveva piu parametri di qualsiasi altro modello d) Era l'unico modello che parlava italiano

5. Cosa ha dimostrato lo studio "Chinchilla" di DeepMind?

a) Che i modelli piu piccoli sono sempre migliori b) Che i parametri non contano, solo i dati c) Che modelli come GPT-3 erano sotto-addestrati: servivano piu dati in proporzione ai parametri- D) Che le scaling laws sono false

Il Paper che ha Cambiato Tutto: Scaling Laws e la Rivoluzione dell’IA