Immagina di sfogliare un blocchetto di post-it: su ciascuno c’e un disegno leggermente diverso dal precedente. Se li fai scorrere velocemente sotto il pollice, i disegni sembrano muoversi. Congratulazioni, hai appena inventato il cinema. Un video, in fondo, non e altro che questo: una sequenza di immagini โ chiamate frame โ mostrate una dopo l’altra a grande velocita, tipicamente 24 o 30 al secondo.
Nella lezione precedente abbiamo visto come l’intelligenza artificiale sia capace di generare immagini singole a partire da una descrizione testuale. La domanda successiva e quasi inevitabile: se sa creare un’immagine, puo crearne trenta al secondo e trasformarle in un video? La risposta e si, ma il salto di difficolta e enorme, e capire perche e la parte interessante della storia.
Il problema fondamentale si chiama coerenza temporale. Quando l’IA genera un’immagine isolata, deve solo preoccuparsi che quell’immagine abbia senso al suo interno: il cielo in alto, l’erba in basso, un gatto che sembra un gatto. Ma quando genera un video, ogni singolo frame deve essere coerente non solo con se stesso, ma anche con tutti quelli che lo precedono e lo seguono.
Pensa a un gatto che cammina verso sinistra. Nel frame 1 il gatto e a destra dell’inquadratura. Nel frame 2 si e spostato leggermente a sinistra. Nel frame 3 ancora un po’ piu a sinistra. Se nel frame 4 il gatto si teletrasportasse dall’altra parte dello schermo, o improvvisamente avesse cinque zampe, il video sembrerebbe un incubo. L’IA deve tenere traccia di ogni oggetto, della luce, delle ombre, della prospettiva โ frame dopo frame, senza errori.
I modelli piu avanzati per la generazione video usano un’architettura chiamata Diffusion Transformer (DiT). Il nome sembra complicato, ma l’idea di base e elegante. Ricordi come funzionano i modelli di diffusione per le immagini? Si parte da puro rumore โ come la neve sulla TV โ e lo si “ripulisce” progressivamente fino a ottenere un’immagine sensata. Per i video, il processo e lo stesso, ma in tre dimensioni: larghezza, altezza e tempo.
Il trucco geniale e che il transformer โ la stessa architettura che sta dietro a ChatGPT โ viene usato per gestire le relazioni tra i vari frame. Ogni pezzo del video “guarda” i pezzi vicini, sia nello spazio che nel tempo, per assicurarsi che tutto sia coerente. E un po’ come scrivere un romanzo dove ogni frase deve avere senso con tutte le altre: il transformer e il revisore che controlla che la trama non abbia buchi.
Il panorama degli strumenti per generare video con l’IA e in piena esplosione. Sora, sviluppato da OpenAI, ha fatto scalpore quando e stato presentato: video fotorealistici fino a un minuto, con una comprensione sorprendente della fisica. Runway Gen-3 e diventato lo standard dell’industria cinematografica e pubblicitaria โ e stato usato in produzioni professionali vere e proprie. Kling, sviluppato dalla cinese Kuaishou, ha sorpreso tutti con la qualita dei suoi movimenti realistici e la capacita di generare video lunghi. Veo 2 di Google DeepMind si distingue per la comprensione della fisica: gli oggetti cadono come dovrebbero, l’acqua scorre in modo naturale, la luce si comporta correttamente. E poi c’e Pika, il piu accessibile: facile da usare, perfetto per clip brevi e contenuti social, con un piano gratuito che permette a chiunque di sperimentare.
Fermati un momento a pensare a cosa significa tutto questo. Un regista indipendente, senza budget, puo creare scene che prima richiedevano milioni di euro in effetti speciali. Un insegnante puo produrre video didattici su misura per la propria classe: visualizzare un evento storico, simulare un esperimento di chimica troppo pericoloso da fare in laboratorio, mostrare come funziona il sistema solare. Uno studente puo trasformare la propria presentazione scolastica in qualcosa di cinematografico. Il mondo della pubblicita puo generare centinaia di varianti di uno spot, personalizzate per ogni mercato. E chiunque abbia un telefono puo diventare un creator di contenuti video senza possedere una telecamera.
Ma โ e questo “ma” e importante โ tutto cio che abbiamo detto sui rischi delle immagini generate dall’IA vale anche per i video, e in modo amplificato. Il motivo e semplice: il nostro cervello si fida dei video molto piu delle fotografie. Un’immagine manipolata puo farci sorgere il dubbio; un video falso ben fatto puo convincerci completamente.
I deepfake video sono gia una realta: video di politici che dicono cose mai dette, di celebrita in situazioni inventate, persino di persone comuni messe in contesti imbarazzanti o compromettenti. Le fake news in formato video sono particolarmente insidiose perche il video e tradizionalmente considerato una “prova” di un evento. E poi ci sono le implicazioni per il mondo del lavoro: attori, doppiatori, animatori, videomaker โ molte professioni creative stanno venendo ridefinite dall’arrivo di questi strumenti.
Per fortuna, almeno per ora, i video generati dall’IA lasciano tracce. Le mani e le dita sono il tallone d’Achille: spesso hanno numeri sbagliati di dita, o le dita si fondono tra loro. Il testo nei video (cartelli, scritte, titoli) tende a essere illeggibile o a cambiare tra un frame e l’altro. La fisica a volte non funziona: liquidi che si muovono in modo strano, oggetti che galleggiano senza motivo. C’e lo sfarfallio temporale: dettagli che cambiano inspiegabilmente, come un orecchino che appare e scompare. I volti e i denti possono deformarsi leggermente durante il movimento. E certi movimenti si ripetono in modo troppo identico, come un robot.
Attenzione pero: questi artefatti diminuiscono ogni mese. Per questo si stanno sviluppando soluzioni piu strutturali, come lo standard C2PA (Coalition for Content Provenance and Authenticity), supportato da Google, Adobe, Microsoft e molti altri. L’idea e semplice: ogni contenuto digitale โ foto o video โ viene accompagnato da una specie di “certificato di nascita” digitale che ne certifica l’origine e la storia. E come un marchio di autenticita, invisibile ma verificabile.
In definitiva, il miglior strumento contro la disinformazione resta il pensiero critico. Se un video sembra troppo perfetto, troppo scioccante, o troppo conveniente per essere vero, vale sempre la pena fermarsi e verificarlo.
Un video e una sequenza di immagini: tipicamente 24-30 frame al secondo. Generare video e molto piu difficile che generare immagini singole perche ogni frame deve essere coerente con i precedenti e i successivi (coerenza temporale).
I Diffusion Transformer combinano due tecnologie: i modelli di diffusione (che partono dal rumore per creare immagini) e i transformer (che gestiscono le relazioni tra frame). Questo permette di generare video con coerenza spaziale e temporale.
Esistono gia strumenti potenti e accessibili: Sora, Runway, Kling, Veo 2 e Pika permettono a chiunque di creare video con l’IA, con applicazioni che vanno dal cinema all’educazione ai social media.
I rischi sono amplificati rispetto alle immagini: il nostro cervello si fida dei video piu delle foto, rendendo i deepfake video particolarmente pericolosi per la disinformazione.
I video generati dall’IA lasciano ancora tracce riconoscibili: mani anomale, testo illeggibile, fisica innaturale, sfarfallio temporale. Ma questi artefatti stanno diminuendo, e servono soluzioni strutturali come lo standard C2PA.
Sperimenta in prima persona: crea un account gratuito su Pika (pika.art) e prova a generare un breve video da un prompt testuale. Osserva con attenzione il risultato: riesci a individuare artefatti nelle mani, nel testo o nella fisica degli oggetti?
Diventa un detective dei deepfake: la prossima volta che vedi un video virale sui social, prima di condividerlo fermati 30 secondi. Guarda le mani, il testo, i movimenti ripetuti, i dettagli dei volti. Prova anche a usare il sito TrueMedia.org per verificare se un video e autentico.
Esplora le applicazioni creative: pensa a un progetto scolastico โ una presentazione di storia, scienze o letteratura โ e immagina come potresti arricchirlo con un breve video generato dall’IA. Scrivi il prompt che useresti e, se hai accesso a uno strumento, prova a realizzarlo.
Qual e la differenza tra generare un’immagine e generare un video con l’IA?
Un’immagine e un singolo frame che deve essere coerente solo con se stesso. Un video e una sequenza di frame (24-30 al secondo) dove ogni frame deve essere coerente con tutti gli altri nel tempo: oggetti, luci, ombre, movimenti devono evolvere in modo fluido e naturale. Questo rende la generazione video enormemente piu complessa.
Sora puo creare video di qualsiasi cosa?
In teoria si, ma in pratica ha molte restrizioni. OpenAI blocca la generazione di volti di persone reali, contenuti violenti e materiale inappropriato. Tuttavia, essendo una tecnologia in rapida evoluzione, altri strumenti meno regolamentati potrebbero non avere le stesse limitazioni.
Quanto costa generare un video con l’IA?
Dipende dallo strumento. Pika offre un piano gratuito con limiti, Runway parte da circa 12 dollari al mese, e ci sono piani professionali piu costosi. I costi computazionali dietro le quinte sono elevati: generare un minuto di video puo richiedere diversi minuti di calcolo su hardware molto costoso (GPU specializzate).
I film del futuro saranno fatti interamente dall’IA?
Probabilmente no, almeno non nel prossimo futuro. E piu realistico pensare all’IA come a uno strumento nelle mani dei creativi: per la pre-visualizzazione delle scene, gli effetti speciali, le colonne sonore, lo storyboarding. Il regista e la visione creativa umana restano fondamentali.
Come posso capire se un video che vedo online e stato generato dall’IA?
Oggi puoi cercare artefatti visivi: mani con dita strane, testo illeggibile, fisica che non torna, dettagli che cambiano tra un frame e l’altro. Puoi anche usare strumenti di rilevamento come TrueMedia.org e verificare la fonte del video. In futuro, standard come C2PA integreranno metadati verificabili nei contenuti autentici.
Cosa sono i “world model” e perche sono importanti?
I modelli piu avanzati, come Veo 2 di Google, non si limitano a generare pixel: cercano di costruire una rappresentazione interna del mondo fisico. Capiscono (almeno in parte) la gravita, le ombre, i riflessi, la prospettiva. Non “capiscono” davvero la fisica come un essere umano, ma producono risultati sempre piu realistici. E un passo verso un’IA che modella il mondo, non solo lo imita.
Il deepfake e illegale?
La legislazione e ancora in evoluzione. In molti paesi e illegale creare deepfake per diffamazione, frode o molestie. L’Unione Europea, con l’AI Act, sta introducendo regole che richiedono di dichiarare quando un contenuto e generato dall’IA. Tuttavia, l’applicazione di queste leggi e ancora una sfida.
Cosa significa C2PA e come funziona?
C2PA sta per Coalition for Content Provenance and Authenticity. E uno standard aperto, supportato da Adobe, Microsoft, Google, BBC e altri, che permette di incorporare in ogni contenuto digitale dei metadati verificabili: chi lo ha creato, quando, con quale strumento, se e stato modificato. Pensalo come un certificato di nascita digitale che accompagna foto e video dalla creazione alla condivisione.
Seleziona una risposta per ogni domanda, poi clicca "Verifica" per controllare.
1. Perche generare un video con l'IA e molto piu difficile che generare una singola immagine?
2. Cosa fa il transformer nell'architettura Diffusion Transformer (DiT) usata per generare video?
3. Quale di questi NON e un artefatto tipico dei video generati dall'IA?
4. Perche i deepfake video sono considerati piu pericolosi delle immagini false?
5. Cos'e il C2PA e a cosa serve?