Creare con l'IA: Video — LLM per le Scuole Superiori

Immagina di sfogliare un blocchetto di post-it: su ciascuno c’e un disegno leggermente diverso dal precedente. Se li fai scorrere velocemente sotto il pollice, i disegni sembrano muoversi. Congratulazioni, hai appena inventato il cinema. Un video, in fondo, non e altro che questo: una sequenza di immagini — chiamate frame — mostrate una dopo l’altra a grande velocita, tipicamente 24 o 30 al secondo.

Nella lezione precedente abbiamo visto come l’intelligenza artificiale sia capace di generare immagini singole a partire da una descrizione testuale. La domanda successiva e quasi inevitabile: se sa creare un’immagine, puo crearne trenta al secondo e trasformarle in un video? La risposta e si, ma il salto di difficolta e enorme, e capire perche e la parte interessante della storia.

La sfida della coerenza temporale

Il problema fondamentale si chiama coerenza temporale. Quando l’IA genera un’immagine isolata, deve solo preoccuparsi che quell’immagine abbia senso al suo interno: il cielo in alto, l’erba in basso, un gatto che sembra un gatto. Ma quando genera un video, ogni singolo frame deve essere coerente non solo con se stesso, ma anche con tutti quelli che lo precedono e lo seguono.

Pensa a un gatto che cammina verso sinistra. Nel frame 1 il gatto e a destra dell’inquadratura. Nel frame 2 si e spostato leggermente a sinistra. Nel frame 3 ancora un po’ piu a sinistra. Se nel frame 4 il gatto si teletrasportasse dall’altra parte dello schermo, o improvvisamente avesse cinque zampe, il video sembrerebbe un incubo. L’IA deve tenere traccia di ogni oggetto, della luce, delle ombre, della prospettiva — frame dopo frame, senza errori.

Come funziona (davvero) la generazione video

I modelli piu avanzati per la generazione video usano un’architettura chiamata Diffusion Transformer (DiT). Il nome sembra complicato, ma l’idea di base e elegante. Ricordi come funzionano i modelli di diffusione per le immagini? Si parte da puro rumore — come la neve sulla TV — e lo si “ripulisce” progressivamente fino a ottenere un’immagine sensata. Per i video, il processo e lo stesso, ma in tre dimensioni: larghezza, altezza e tempo.

Il trucco geniale e che il transformer — la stessa architettura che sta dietro a ChatGPT — viene usato per gestire le relazioni tra i vari frame. Ogni pezzo del video “guarda” i pezzi vicini, sia nello spazio che nel tempo, per assicurarsi che tutto sia coerente. E un po’ come scrivere un romanzo dove ogni frase deve avere senso con tutte le altre: il transformer e il revisore che controlla che la trama non abbia buchi.

Gli strumenti di oggi

Il panorama degli strumenti per generare video con l’IA e in piena esplosione. Sora, sviluppato da OpenAI, ha fatto scalpore quando e stato presentato: video fotorealistici fino a un minuto, con una comprensione sorprendente della fisica. Runway Gen-3 e diventato lo standard dell’industria cinematografica e pubblicitaria — e stato usato in produzioni professionali vere e proprie. Kling, sviluppato dalla cinese Kuaishou, ha sorpreso tutti con la qualita dei suoi movimenti realistici e la capacita di generare video lunghi. Veo 2 di Google DeepMind si distingue per la comprensione della fisica: gli oggetti cadono come dovrebbero, l’acqua scorre in modo naturale, la luce si comporta correttamente. E poi c’e Pika, il piu accessibile: facile da usare, perfetto per clip brevi e contenuti social, con un piano gratuito che permette a chiunque di sperimentare.

Le potenzialita sono enormi

Fermati un momento a pensare a cosa significa tutto questo. Un regista indipendente, senza budget, puo creare scene che prima richiedevano milioni di euro in effetti speciali. Un insegnante puo produrre video didattici su misura per la propria classe: visualizzare un evento storico, simulare un esperimento di chimica troppo pericoloso da fare in laboratorio, mostrare come funziona il sistema solare. Uno studente puo trasformare la propria presentazione scolastica in qualcosa di cinematografico. Il mondo della pubblicita puo generare centinaia di varianti di uno spot, personalizzate per ogni mercato. E chiunque abbia un telefono puo diventare un creator di contenuti video senza possedere una telecamera.

I rischi amplificati

Ma — e questo “ma” e importante — tutto cio che abbiamo detto sui rischi delle immagini generate dall’IA vale anche per i video, e in modo amplificato. Il motivo e semplice: il nostro cervello si fida dei video molto piu delle fotografie. Un’immagine manipolata puo farci sorgere il dubbio; un video falso ben fatto puo convincerci completamente.

I deepfake video sono gia una realta: video di politici che dicono cose mai dette, di celebrita in situazioni inventate, persino di persone comuni messe in contesti imbarazzanti o compromettenti. Le fake news in formato video sono particolarmente insidiose perche il video e tradizionalmente considerato una “prova” di un evento. E poi ci sono le implicazioni per il mondo del lavoro: attori, doppiatori, animatori, videomaker — molte professioni creative stanno venendo ridefinite dall’arrivo di questi strumenti.

Come riconoscere un video generato dall’IA

Per fortuna, almeno per ora, i video generati dall’IA lasciano tracce. Le mani e le dita sono il tallone d’Achille: spesso hanno numeri sbagliati di dita, o le dita si fondono tra loro. Il testo nei video (cartelli, scritte, titoli) tende a essere illeggibile o a cambiare tra un frame e l’altro. La fisica a volte non funziona: liquidi che si muovono in modo strano, oggetti che galleggiano senza motivo. C’e lo sfarfallio temporale: dettagli che cambiano inspiegabilmente, come un orecchino che appare e scompare. I volti e i denti possono deformarsi leggermente durante il movimento. E certi movimenti si ripetono in modo troppo identico, come un robot.

Attenzione pero: questi artefatti diminuiscono ogni mese. Per questo si stanno sviluppando soluzioni piu strutturali, come lo standard C2PA (Coalition for Content Provenance and Authenticity), supportato da Google, Adobe, Microsoft e molti altri. L’idea e semplice: ogni contenuto digitale — foto o video — viene accompagnato da una specie di “certificato di nascita” digitale che ne certifica l’origine e la storia. E come un marchio di autenticita, invisibile ma verificabile.

In definitiva, il miglior strumento contro la disinformazione resta il pensiero critico. Se un video sembra troppo perfetto, troppo scioccante, o troppo conveniente per essere vero, vale sempre la pena fermarsi e verificarlo.

5 Cose da Ricordare

3 Cose da Fare

Domande Frequenti

Qual e la differenza tra generare un’immagine e generare un video con l’IA?
Un’immagine e un singolo frame che deve essere coerente solo con se stesso. Un video e una sequenza di frame (24-30 al secondo) dove ogni frame deve essere coerente con tutti gli altri nel tempo: oggetti, luci, ombre, movimenti devono evolvere in modo fluido e naturale. Questo rende la generazione video enormemente piu complessa.

Sora puo creare video di qualsiasi cosa?
In teoria si, ma in pratica ha molte restrizioni. OpenAI blocca la generazione di volti di persone reali, contenuti violenti e materiale inappropriato. Tuttavia, essendo una tecnologia in rapida evoluzione, altri strumenti meno regolamentati potrebbero non avere le stesse limitazioni.

Quanto costa generare un video con l’IA?
Dipende dallo strumento. Pika offre un piano gratuito con limiti, Runway parte da circa 12 dollari al mese, e ci sono piani professionali piu costosi. I costi computazionali dietro le quinte sono elevati: generare un minuto di video puo richiedere diversi minuti di calcolo su hardware molto costoso (GPU specializzate).

I film del futuro saranno fatti interamente dall’IA?
Probabilmente no, almeno non nel prossimo futuro. E piu realistico pensare all’IA come a uno strumento nelle mani dei creativi: per la pre-visualizzazione delle scene, gli effetti speciali, le colonne sonore, lo storyboarding. Il regista e la visione creativa umana restano fondamentali.

Come posso capire se un video che vedo online e stato generato dall’IA?
Oggi puoi cercare artefatti visivi: mani con dita strane, testo illeggibile, fisica che non torna, dettagli che cambiano tra un frame e l’altro. Puoi anche usare strumenti di rilevamento come TrueMedia.org e verificare la fonte del video. In futuro, standard come C2PA integreranno metadati verificabili nei contenuti autentici.

Cosa sono i “world model” e perche sono importanti?
I modelli piu avanzati, come Veo 2 di Google, non si limitano a generare pixel: cercano di costruire una rappresentazione interna del mondo fisico. Capiscono (almeno in parte) la gravita, le ombre, i riflessi, la prospettiva. Non “capiscono” davvero la fisica come un essere umano, ma producono risultati sempre piu realistici. E un passo verso un’IA che modella il mondo, non solo lo imita.

Il deepfake e illegale?
La legislazione e ancora in evoluzione. In molti paesi e illegale creare deepfake per diffamazione, frode o molestie. L’Unione Europea, con l’AI Act, sta introducendo regole che richiedono di dichiarare quando un contenuto e generato dall’IA. Tuttavia, l’applicazione di queste leggi e ancora una sfida.

Cosa significa C2PA e come funziona?
C2PA sta per Coalition for Content Provenance and Authenticity. E uno standard aperto, supportato da Adobe, Microsoft, Google, BBC e altri, che permette di incorporare in ogni contenuto digitale dei metadati verificabili: chi lo ha creato, quando, con quale strumento, se e stato modificato. Pensalo come un certificato di nascita digitale che accompagna foto e video dalla creazione alla condivisione.

Mettiti alla Prova

Seleziona una risposta per ogni domanda, poi clicca "Verifica" per controllare.

1. Perche generare un video con l'IA e molto piu difficile che generare una singola immagine?

a) Perche i video richiedono piu colori delle immagini b) Perche ogni frame deve essere coerente con tutti gli altri nel tempo (coerenza temporale) c) Perche i video sono sempre in alta definizione d) Perche i video richiedono una connessione internet piu veloce

2. Cosa fa il transformer nell'architettura Diffusion Transformer (DiT) usata per generare video?

a) Aggiunge il sonoro al video b) Comprime il video per ridurne le dimensioni c) Gestisce le relazioni tra i frame, assicurando coerenza spaziale e temporale d) Converte il video da 2D a 3D

3. Quale di questi NON e un artefatto tipico dei video generati dall'IA?

a) Mani con un numero sbagliato di dita b) Testo illeggibile che cambia tra un frame e l'altro c) Video sempre in bianco e nero d) Fisica innaturale, come oggetti che galleggiano senza motivo

4. Perche i deepfake video sono considerati piu pericolosi delle immagini false?

a) Perche i video occupano piu spazio sul telefono b) Perche il nostro cervello si fida dei video molto piu delle fotografie c) Perche i video si possono condividere solo sui social media d) Perche i video non possono essere verificati in nessun modo

5. Cos'e il C2PA e a cosa serve?

a) Un programma per creare deepfake piu realistici b) Un social network dedicato ai video generati dall'IA c) Uno standard aperto che incorpora metadati verificabili nei contenuti digitali per certificarne l'origine d) Un filtro di Instagram per riconoscere i volti falsi

Creare con l’IA: I Video

Dall’immagine al movimento — come l’intelligenza artificiale ha imparato a girare film