Immaginate di essere nel 2017. Esce un nuovo iPhone, si parla di fidget spinner, e in un angolo tranquillo di Google Brain, otto ricercatori pubblicano un articolo scientifico di quindici pagine con un titolo piuttosto ambizioso: “Attention Is All You Need” – “L’attenzione e tutto cio di cui hai bisogno.” Nessuno, probabilmente nemmeno loro, immaginava che quelle quindici pagine avrebbero riscritto le regole della tecnologia.
Ma facciamo un passo indietro. Prima del 2017, i computer cercavano di capire il linguaggio umano usando le cosiddette RNN (Reti Neurali Ricorrenti). Pensatele come un lettore molto diligente ma lentissimo: leggono un testo parola per parola, in ordine, una alla volta. Se la frase e lunga, quando arrivano alla fine hanno gia dimenticato l’inizio. Come quando qualcuno vi racconta una storia lunghissima e alla fine non ricordate piu come era iniziata.
I Transformer, l’architettura proposta in quel famoso paper, hanno un approccio completamente diverso. Invece di leggere parola per parola, guardano tutte le parole contemporaneamente. E come la differenza tra leggere un libro una riga alla volta e avere una vista dall’alto su tutta la pagina. Ogni parola puo “vedere” tutte le altre e decidere a quali prestare attenzione. Questo meccanismo si chiama, appunto, self-attention.
Il vantaggio pratico? La velocita. Siccome tutte le parole vengono elaborate in parallelo, i Transformer possono sfruttare le GPU (le schede grafiche, quelle che i gamer conoscono bene) per addestrarsi molto piu velocemente. E la velocita, come vedremo, e stata la chiave di tutto.
Curiosita affascinante: tutti e otto gli autori di quel paper hanno poi lasciato Google. Hanno fondato o sono entrati in aziende come Cohere, Character.AI, Essential AI. Quando fai una scoperta rivoluzionaria, evidentemente vuoi portarla nel mondo reale con le tue mani.
Arriviamo al 2020. Un team di OpenAI, guidato tra gli altri da Dario Amodei (che poi fondera Anthropic, l’azienda che ha creato Claude), pubblica un altro paper fondamentale: le Scaling Laws, le leggi di scala. La loro scoperta e sorprendente nella sua semplicita: le prestazioni dei modelli linguistici migliorano in modo prevedibile quando si aumentano tre ingredienti – parametri, dati e potenza di calcolo.
Non e magia, non e fortuna. E una legge matematica, simile a quelle che governano i terremoti o la crescita delle citta. Si chiama legge di potenza: se raddoppi i parametri del modello, le prestazioni migliorano di una percentuale costante. Non raddoppiano (sarebbe troppo bello), ma crescono in modo regolare e misurabile.
Pensate a un musicista: se raddoppia le ore di pratica, non diventa il doppio piu bravo, ma migliora in modo costante e prevedibile. Con i modelli di IA funziona allo stesso modo.
I numeri raccontano una storia impressionante. GPT-1 (2018) aveva 117 milioni di parametri – un esperimento modesto per dimostrare che l’idea funzionava. Un anno dopo, GPT-2 arriva a 1,5 miliardi di parametri (13 volte di piu) e genera testo cosi convincente che OpenAI lo definisce “troppo pericoloso per essere rilasciato.” Nel 2020, GPT-3 esplode a 175 miliardi di parametri e mostra capacita che nessuno aveva previsto: scrivere codice, tradurre lingue, ragionare su problemi complessi. Fino ad arrivare a GPT-4 nel 2023, con parametri stimati intorno a 1.800 miliardi.
Ma attenzione: i parametri da soli non bastano. Le scaling laws ci insegnano che servono tre ingredienti in equilibrio, come le gambe di uno sgabello:
Se manca anche solo uno di questi tre ingredienti, gli altri non compensano. E come avere un motore potentissimo senza benzina, o un serbatoio pieno senza motore.
Il 30 novembre 2022, OpenAI lancia ChatGPT. In due mesi raggiunge 100 milioni di utenti – la crescita piu rapida nella storia di qualsiasi prodotto tecnologico. L’intelligenza artificiale esce dai laboratori di ricerca e entra nella vita quotidiana di tutti. Quella scommessa fatta anni prima – “se lo costruiamo abbastanza grande, funzionera” – si era rivelata vincente.
Ma la storia non finisce qui. Nel 2022, DeepMind pubblica lo studio Chinchilla, dimostrando che i modelli precedenti erano in realta sotto-addestrati: servivano piu dati, non solo piu parametri. E nel 2025, lo stesso Ilya Sutskever, co-fondatore di OpenAI, dichiara: “Stiamo passando dall’era della scala all’era della ricerca.” I dati di qualita sul web si stanno esaurendo, e la scala da sola potrebbe non bastare piu. Le prossime frontiere sono il ragionamento avanzato, i dati sintetici, e modelli che “pensano” piu a lungo prima di rispondere.
La lezione? La scienza dell’IA non e una linea retta. E una storia di intuizioni coraggiose, scommesse enormi, e continue sorprese. E voi state vivendo esattamente nel momento in cui questa storia si sta scrivendo.
I Transformer elaborano tutte le parole in parallelo (a differenza delle RNN che le leggono una alla volta), e questo li rende enormemente piu veloci e capaci di catturare relazioni tra parole distanti.
Le scaling laws sono leggi matematiche prevedibili: piu parametri, piu dati e piu potenza di calcolo producono modelli migliori secondo una relazione regolare e misurabile, non casuale.
Servono tre ingredienti in equilibrio: parametri, dati e compute. Se ne manca uno, gli altri due non bastano a compensare.
La crescita dei modelli e stata esponenziale: da 117 milioni di parametri (GPT-1, 2018) a circa 1.800 miliardi (GPT-4, 2023) in soli cinque anni.
La scala da sola potrebbe non bastare piu: il futuro dell’IA si gioca anche su nuove architetture, ragionamento avanzato e dati sintetici, non solo su modelli sempre piu grandi.
Prova a confrontare le risposte di modelli di dimensioni diverse. Usa un modello piu piccolo (come Llama 3 da 8 miliardi di parametri, disponibile gratuitamente) e confronta le sue risposte con quelle di un modello piu grande su domande complesse. Vedrai con i tuoi occhi l’effetto della scala.
Leggi l’abstract originale di “Attention Is All You Need.” Cercalo su Google Scholar: anche se e in inglese, l’abstract (il riassunto iniziale) e sorprendentemente breve e comprensibile. E il documento che ha dato il via a tutto.
Segui il dibattito attuale sull’IA. Canali YouTube come “Two Minute Papers” o “AI Explained” raccontano in modo accessibile le ultime novita. Essere informati su quello che succede oggi vi dara un vantaggio enorme per capire il mondo di domani.
Cosa sono esattamente i “parametri” di un modello?
Sono numeri (pesi) all’interno della rete neurale che vengono regolati durante l’addestramento. Ogni parametro rappresenta una piccola “decisione” che il modello impara a prendere. Piu parametri ha, piu relazioni complesse riesce a catturare nel linguaggio.
Perche le RNN sono state sostituite dai Transformer?
Le RNN elaborano le parole una alla volta, in sequenza. Questo le rende lente e le fa “dimenticare” le parole lontane. I Transformer, usando il meccanismo di attenzione, guardano tutte le parole contemporaneamente e possono essere addestrati molto piu velocemente sulle GPU.
Quanto costa addestrare un modello come GPT-4?
Le stime parlano di circa 100 milioni di dollari solo per il calcolo. Ma il costo totale, includendo ricercatori, dati e infrastruttura, potrebbe superare il miliardo. Per questo solo poche grandi aziende possono costruire modelli alla frontiera.
Se basta rendere il modello piu grande, perche non lo fanno tutti?
Perche servono risorse enormi: miliardi di dollari, decine di migliaia di GPU, e dati su scala web. Inoltre, la scala da sola non basta – servono anche innovazioni nell’architettura e nella qualita dei dati.
Cosa vuol dire “legge di potenza”?
E una relazione matematica in cui raddoppiare una variabile (ad esempio i parametri) produce un miglioramento costante ma non proporzionale. Raddoppiare i parametri non raddoppia le prestazioni, ma le migliora di circa il 5%. E lo stesso tipo di legge che governa fenomeni naturali come i terremoti.
Perche tutti gli autori del paper originale hanno lasciato Google?
Hanno capito il potenziale di cio che avevano creato e hanno voluto costruire aziende proprie o guidare progetti con maggiore autonomia. Alcuni hanno fondato startup come Cohere ed Essential AI, altri sono passati ad aziende come OpenAI.
Cosa significa che GPT-3 era “sotto-addestrato”?
Lo studio Chinchilla di DeepMind ha dimostrato che GPT-3, pur avendo moltissimi parametri, non era stato addestrato su abbastanza dati. Per ottenere il massimo da un modello, parametri e dati devono crescere in modo proporzionale.
L’IA continuera a migliorare per sempre?
Questa e la grande domanda. Le scaling laws suggeriscono un miglioramento continuo, ma ci sono limiti pratici: i dati di qualita sono finiti, l’energia necessaria e enorme, e i costi crescono rapidamente. Per questo i ricercatori stanno esplorando nuove strade oltre la pura scala.
Seleziona una risposta per ogni domanda, poi clicca "Verifica" per controllare.
1. Qual e la differenza fondamentale tra RNN e Transformer nell'elaborazione del linguaggio?
2. Secondo le scaling laws, cosa succede quando si raddoppiano i parametri di un modello?
3. Quali sono i tre ingredienti fondamentali delle scaling laws?
4. Perche ChatGPT ha avuto un impatto cosi grande quando e stato lanciato nel 2022?
5. Cosa ha dimostrato lo studio "Chinchilla" di DeepMind?