Come riconoscere un video generato dall’AI | La realtà oltre lo schermo

Se fino a qualche anno fa una puntata come “Joan is Awful” di Black Mirror poteva sembrare fantascienza distopica, oggi si fa molta più fatica a riderci sopra.

C’è una linea quasi impercettibile che separa tecnologia e realtà. Come se le due cose iniziassero a sfiorarsi così tanto da rendere difficile distinguere dove finisca l’una e cominci l’altra. E quel momento, per molti di noi, è già arrivato.

Cosa resta di davvero autentico, al giorno d’oggi, quando persino un video può essere montato senza che nessuno se ne accorga? E soprattutto, quanto siamo realmente preparati a convivere con questa nuova normalità che, pur essendo in divenire, sembra voler riscrivere in silenzio il nostro modo di percepire il mondo reale?

Abbiamo certamente sviluppato più consapevolezza, maggior senso critico, altrettanta diffidenza. Sappiamo dell’esistenza dei deepfake, siamo consapevoli di scrollare sempre più immagini e video generati da AI. Eppure, questa lucidità non basta a sciogliere quella sensazione di stare vivendo sull’orlo di qualcosa che non sappiamo ancora definire.

Ci aiuta, però, a mettere ordine. E perché no, a rivolgerci le domande giuste.

L’AI è più vecchia di mia mamma

Per comprendere dove siamo oggi, vale la pena ricordare che l’intelligenza artificiale non è affatto nata con i video iperrealistici che popolano i social. Le sue radici affondano negli anni ’50, quando figure come Alan Turing e John McCarthy posero le fondamenta teoriche di una domanda che allora appariva quasi inverosimile:

“Can machines think?”

“Le macchine possono pensare?”

Per i successivi decenni l’AI è rimasta confinata nei laboratori e nei convegni accademici, oggetto di ricerca lenta e specialistica, lontana dalla quotidianità delle persone comuni. Il punto di svolta si colloca invece tra gli anni ’90 e i primi anni 2000, quando l’arrivo del World Wide Web e la crescita esponenziale delle capacità computazionali aprono una nuova fase.

Non più sistemi che seguono regole definite dall’uomo, ma algoritmi che iniziano a imparare dai dati.

Con l’arrivo del nuovo millennio, l’affermazione del deep learning e dell’AI generativa fa compiere un ulteriore salto in avanti. Non si tratta più soltanto di riconoscere volti o tradurre testi, ma di creare contenuti con un grado di verosimiglianza tale da mettere in discussione il nostro istinto percettivo. In parallelo, i social media offrono il palcoscenico perfetto su cui queste capacità possono dispiegarsi.

Uncanny Valley: l’abbiamo davvero superata?

Già negli anni ’70, il ricercatore giapponese Masahiro Mori introduceva il concetto di “Uncanny valley”, la valle perturbante.
Un’ipotesi secondo cui, man mano che un robot o una figura artificiale diventa sempre più simile all’essere umano, la nostra risposta emotiva tende ad aumentare, e così anche l’empatia. Tuttavia, oltre una certa soglia – quando è “quasi” umano ma non del tutto – qualcosa si incrina. Avvertiamo disagio, quasi inquietudine.

Sempre meno coinvolgimento e più repulsione.

È come se il nostro cervello, perennemente allenato a riconoscere il volto umano, captasse dei difetti impercettibili ma decisivi che lo spingessero a pensare: “somiglia a noi, ma non è uno di noi”. Per molti anni, questa teoria è servita a spiegare perché alcuni robot umanoidi, alcuni personaggi animati o certe ricostruzioni digitali risultassero tanto realistiche quanto inquietanti.

La domanda cruciale allora è: abbiamo realmente superato questa valle?

I sistemi di AI che dialogano con noi in modo pertinente hanno alleviato gran parte di quel fastidio iniziale. Non appare più “strano” che una macchina ci dia suggerimenti personalizzati, che avvii una conversazione amichevole o addirittura mantenga un tono emotivo adeguato al contesto.

Tuttavia, questa soglia è sempre meno evidente soprattutto con le immagini e i video. Ciò che un tempo provocava un senso di artificiosità, come una pelle troppo liscia, delle luci innaturali o dei movimenti leggermente rigidi, oggi tutto questo passa sempre più inosservato a causa dei ricorrenti modelli sempre più raffinati a cui siamo sottoposti, capaci letteralmente di educare i nostri occhi ad una fruizione rapida e distratta, senza più sospetti.

Paradossale.

Più l’AI imita bene la realtà, meno la stessa ci sembra strana

E più diventa complicato distinguerla.

AI e Social Media

Per capire quanto questo cambiamento sia ormai radicato e profondo, basti pensare alla composizione di un feed di un qualsiasi social media, per poi capire, tra l’infinita varietà di clip di intrattenimento a disposizione, quanti contenuti siano frutto di un evento realmente accaduto e quanti, invece, siano stati generati da un modello di AI.

Se per decenni abbiamo associato il video a una forma di prova inconfutabile di un particolare evento, oggi è possibile scorgere scene che non si sono mai verificate, o in alternativa ascoltare dichiarazioni che nessuno ha mai reso o addirittura osservare persone in luoghi in cui le stesse non sono mai state.

Uno degli scenari più probabili non è solo quello che prevede che l’umanità verrà sempre più tratta in inganno, ma quello che ritrae una graduale erosione del livello di fiducia globale, a mano a mano che si è esposti a un numero crescente di contenuti ambigui o potenzialmente falsi.

Con il susseguirsi di queste esperienze, cresce l’abitudine al dubbio

Un processo che ci porta a mettere in discussione ogni contenuto, anche quando lo stesso appare legittimo.

In questo senso appare sempre più emblematico l’utilizzo dell’“AI button”. Quel commento che gli utenti lasciano sotto un potenziale video sospetto, per segnalare che lo stesso potrebbe essere stato generato dall’intelligenza artificiale. Una forma di vigilanza collettiva che nasce dal tentativo di evitare che le altre persone vengano letteralmente tratte in inganno. Insomma, un ulteriore segnale che testimonia quanto la percezione del rischio sia ormai particolarmente diffusa.

Ma quindi come riconosci un video generato da AI?

La domanda che sicuramente ti starai facendo è: “Come faccio a capire se quello che sto guardando sia davvero reale?”

Spoiler: non esiste un metodo infallibile.

Ci sono però alcuni semplici regolette che possiamo sfruttare per una buona igiene visiva.

Intelligenza Artificiale e Verità Visiva: I Segnali per Non Farti Ingannare

1. Qualità dell’immagine

Per molto tempo uno dei principali segnali poteva essere ricondotto alla qualità delle immagini.

Contenuti dallo stile granuloso, pixelato, dettagli “impastati”, specie nelle zone più complesse (capelli, sfondi, mani).
Molti generatori, soprattutto agli inizi, producevano solo video con una definizione talvolta imperfetta. Questo perché la realizzazione di sequenze nitide e coerenti poteva risultare particolarmente costosa.

Oggi però questo indicatore sta perdendo sempre più rilevanza grazie alla smisurata diffusione di modelli capaci di generare video in alta definizione, con luce, texture e ombre estremamente veritiere.

2. Durata e montaggio

Un altro pattern tipico dei contenuti generati dai sistemi AI è la brevità dei contenuti.

Molti video prodotti con tool generativi durano pochissimi secondi. Una scelta tecnica, economica, ma anche “strategica”.

Più il video è breve, più è facile che l’AI non commetta errori macroscopici.

3. Volti ed espressioni

Sapevate che il volto umano possiede oltre 40 muscoli, asimmetrie naturali ed espressioni che cambiano in modo fluido e mai perfettamente simmetrico?
Ecco, è importante ricordare che i video generati da AI riescono a imitare tutto questo particolarmente bene, ma spesso non alla perfezione. Quindi, cosa osservare?

Movimenti oculari innaturali, con sguardo fisso e occhi che si muovono in modo poco fluido.
Volti immobili e microespressioni assenti, tra cui sulla fronte.
Simmetria eccessiva del volto.

4. La famosa Uncanny valley

Qui entra in gioco la tua voce interiore.

Ricordi la Uncanny valley di cui parlavamo prima? Quella sensazione di disagio per qualcosa di umano, ma non del tutto?

Se guardando un video percepisci un piccolo brivido, una leggera inquietudine, un “non riesco a spiegartelo, ma è strano”, vale la pena fermarsi a riguardare.

5. Le mani

Le mani sono una parte del corpo particolarmente complessa: dieci dita, gesti inaspettati, interazioni con oggetti e sovrapposizioni.
L’AI inciampa spesso su articolazioni improbabili, mani che si fondono tra loro o con ciò che stanno toccando, o addirittura gesti particolarmente disallineati con quello che la persona sta dicendo o facendo.

6. Azioni che non hanno senso

Sono i cosiddetti “adaptors”, quei piccoli gesti che alleviano tensioni, accompagnano il pensiero e aiutano a concentrarci.
L’AI può replicarli, ma spesso non ne coglie il vero senso.

In questo modo può capitare di vedere qualcuno che tiene una penna in modo anormale, muovendo la stessa in modo innaturale o mediante gesti che non hanno nessuna coerenza con quello che sta succedendo.

7. Quando persone e oggetti si fondono

Un altro punto critico per l’AI è la relazione tra persone e oggetti.

Spesso il modello dà priorità a volti e corpi, trattando gli oggetti come “secondari”. Quando un oggetto si sovrappone alle mani o ad un busto, capita che venga assorbito e deformato o addirittura fuso.

La domanda da farsi in questi casi è: “Il modo in cui quell’oggetto entra in contatto con il corpo è coerente con la scena che viene riprodotta?”

Una forchetta che non entra davvero in bocca, il cibo che resta sospeso, una tazza che sembra letteralmente incollata alla mano, sono tutti segnali che dimostrano come l’AI risulti ancora parecchio limitata nella rappresentazione puntuale del nesso causa-effetto.

8. Labbra e voce

Sebbene alcuni programmi riescano a generare avatar dai tratti particolarmente realistici, il processo che riguarda la riproduzione del parlato umano resta ancora estremamente complesso da replicare. Nel comunicare non muoviamo solo le labbra, ma attiviamo letteralmente una coreografia articolata di guance, mascella, mento, occhi e micro-espressioni che seguono il ritmo, l’enfasi e il contenuto emotivo delle parole pronunciate.
Quando l’AI prova a sincronizzare tutto questo attraverso un audio, spesso emergono piccole discrepanze. Dalle labbra leggermente fuori tempo, alle guance troppo ferme, sino agli occhi che non seguono fedelmente il tratto emotivo di ciò che viene detto.

Non ci serve più paura.

Ci serve più senso critico.

Arrivati a questo punto, ha senso fare un’importante riflessione: il video generato dall’AI non è di per sé un nostro potenziale nemico, ma uno strumento potentissimo in grado di riprodurre contenuti incredibilmente creativi ed artistici.
La vera sfida allora non riguarda la capacità di riuscire a captare prontamente gli eventuali contenuti artificiali, bensì riuscire a mantenere uno sguardo lucido su un mondo in cui ciò che scorgiamo non può più essere considerato come l’unica verità.

Non ha senso demonizzare ogni forma di AI, né cercare di rivivere un’epoca pre-tecnologica

Sarebbe tuttavia auspicabile affinare una certa capacità di utilizzare questi nuovi strumenti attraverso lo sguardo critico di chi guarda uno schermo senza smettere di porsi domande e di riconoscere che, in un mondo in cui quasi tutto può essere generato, la vera responsabilità non è tanto quella di saper distinguere il vero dal falso, quanto continuare a coltivare un pensiero critico all’altezza della complessità che ci circonda.
Non si tratta di diffidare di ciò che vediamo, ma di fidarci un po’ di più della nostra capacità di mettere in discussione ciò che vediamo.

IMMAGINE DI COPERTINA TRATTA DAL FILM Free Guy – Eroe per gioco.