27 maggio 2024 12:01

Mi sono clonato e ho creato un video del mio alter ego digitale.

L’ho fatto per vari motivi: capire come funzionano gli strumenti e quali sono le loro potenzialità e i loro limiti; capire qual è il livello di sicurezza di questa operazione, quali i termini e le condizioni dei servizi, quali i modi per assicurarsi che si dia davvero il proprio consenso alla clonazione digitale; farmi venire in mente dubbi e opportunità. E, naturalmente, l’ho fatto per scrivere questo pezzo.

Attenzione Visto che siamo di fronte a una tecnologia di frontiera, prima di cominciare servono le avvertenze e una dichiarazione di trasparenza. Se vuoi provare a replicare la mia esperienza assicurati di volerlo davvero fare e di aver letto bene tutto: non solo quel che scrivo ma anche quello che dichiarano le aziende produttrici dei software che nominerò, le loro norme sulla privacy e sulla gestione dei dati, quello che dichiarano i costi e le possibili conseguenze. Ho pagato tutti i servizi che nomino e non ho alcun tipo di affiliazione con le aziende che li producono.

Per visualizzare questo contenuto, accetta i cookie di tipo marketing.

Gli strumenti Per creare il mio clone digitale ho scelto due strumenti. Il primo è ElevenLabs, un servizio specializzato nella generazione di audio sintetici. Il secondo è HeyGen, che ho usato per clonare il mio aspetto, il modo in cui mi muovo e muovo le labbra quando parlo. La scelta degli strumenti è arbitraria. Il mio processo prevede di capire, prima di tutto, chi finanzia le varie società produttrici. Poi leggo le recensioni, analizzo i nomi delle aziende che fanno già uso dei vari servizi, verifico i prezzi, la facilità d’uso e le misure di sicurezza, leggo i termini e condizioni d’uso. Poi c’è anche un po’ di casualità, una volta che sono convinto di tutto il resto.

I due servizi che ho scelto si possono anche mettere in collegamento. Cioè: utilizzando le interfacce di programmazione (api, application programming interface) posso avere un video generato con HeyGen che usa la mia voce clonata con ElevenLabs (quest’ultimo è superiore a HeyGen o altri equivalenti nella gestione della voce, altrimenti avrei usato un servizio solo).

La procedura Per insegnare a ElevenLabs a parlare come me, ho caricato quattro ore di registrazioni della mia voce. Ho usato una serie di lezioni che ho fatto per non dover registrare il mio parlato appositamente e per essere quanto più naturale possibile. Per insegnare a HeyGen a generare video e a muovere le labbra come le muovo io mentre parlo, invece, ho dovuto caricare un video che ho girato con uno smartphone messo su cavalletto. Nel video, parlo a braccio per circa 4 minuti.

Ho seguito attentamente le istruzioni per non sprecare tempo. È importante che l’audio sia quanto più possibile pulito, registrato con un buon microfono, senza eco, senza rumori di fondo, senza altre voci. È importante anche che, parlando, si usino diversi registri e toni di voce. Così la macchina impara meglio. Per questo è stato utile avere delle registrazioni in cui parlavo in maniera naturale.

Per il video, invece, oltre all’inquadratura fissa, a una buona risoluzione dell’immagine (dall’alta definizione in su) e a una buona illuminazione, è importante non muoversi troppo, gesticolare con moderazione, non portare le mani oltre il petto, guardare verso l’obiettivo che riprende (il mio consiglio è di non guardare dritto in camera ma leggermente a lato, per evitare di avere lo sguardo troppo inquietante).

I costi Il primo livello di abbonamento a ElevenLabs costa 11 dollari americani per un mese che poi diventano 22 a partire dal mese successivo. In ogni mese puoi generare fino a 140mila battute convertite in audio, che equivalgono, più o meno, alla lettura di un saggio lungo o, se preferisci, a circa 80 minuti di parlato. Il primo livello di abbonamento di HeyGen, invece, costa 29 dollari al mese. Con questa cifra puoi generare fino a 15 minuti di video. In più, ho scelto la funzione di fine tuning che migliora la sincronizzazione delle labbra con la voce. Costa altri 49 dollari. Se consideriamo il cambio euro-dollaro del 19 maggio, giorno in cui ci ho fatto gli acquisti, creare il mio clone è costato 81,22 euro.

I risultati La voce è quasi perfetta. Si può poi lavorare su vari parametri che consentono di modificare il tono di voce, la sua varietà, l’enfasi e si può ottenere una propria versione audio che parla come uno speaker radiofonico degli anni ottanta o come un cantastorie o proprio come te. Nel mio caso, ha il mio accento piemontese persino quando parla inglese o giapponese. Anche se addestrata con il solo italiano, infatti, la macchina è in grado di generare audio in varie lingue.

Il video non è ancora all’altezza dell’audio. I movimenti sono strani, le microespressioni anche. Il mio avatar sbatte poco le palpebre. Ho dovuto escludere un esperimento fatto con un’inquadratura che includeva anche le mani perché la macchina non è in grado di simulare il modo in cui gesticolo in maniera coerente con quello che sto dicendo. Però, la sincronia con le labbra ha sempre meno problemi e dobbiamo aspettarci che il risultato migliori nel tempo. Per rendersene conto basta confrontare l’ultimo video che ho prodotto con il primo esperimento che avevo fatto a settembre 2023.

Tempistiche Avere le registrazioni della mia voce è stato un enorme risparmio di tempo, azzerando quasi del tutto quella fase di addestramento. A parte il video, che ha richiesto un’oretta di lavoro, soprattutto per la scelta del video migliore da usare per creare il mio avatar, il grosso del tempo è il lavoro della macchina. Poi ho dovuto imparare come scrivere il testo che il mio avatar audio-video doveva interpretare e come usare al meglio i parametri. Ho dovuto anche capire come simulare le pause e le incertezze per rendere più naturale il parlato, per esempio aggiungendo degli ehm al copione che ho scritto per la macchina. In tutto ci ho messo circa cinque ore. La prossima volta ce ne metterò molte meno. Per il solo audio, il tempo è solo quello di scrittura del testo e i pochi minuti di elaborazione della macchina. Come per tutti questi servizi c’è una curva di apprendimento che richiede di investire un po’ di lavoro: superata quella fase, il risparmio di tempo è assicurato.

I dubbi Sono tanti. Ho dovuto dare il mio consenso all’uso della mia voce e della mia immagine identificandomi con una lettura di un testo casuale a webcam accesa, ma non mi è stato richiesto alcun documento di identità. Le aziende assicurano che non useranno i miei dati biometrici per altri fini e che solo io potrò usare il mio clone e assicurano che cancelleranno dei dati se non pagherò più, ma non restituiscono i file – in realtà avrebbe anche poco senso che lo facessero e non sarebbe garanzia di alcunché – e richiedono, dunque, un enorme atto di fiducia da parte di chi sceglie di fare quest’esperienza.

Le applicazioni Sono tante. Per esempio, posso finalmente far leggere i miei articoli in modo che si possano ascoltare come se fossero un audiolibro o un podcast: ho provato con questo pezzo di Artificiale, puoi ascoltarlo seguendo questo link. Posso farmi presentare su un palco in maniera creativa, affidando a una macchina i noiosissimi saluti istituzionali di un evento (è esattamente quello che ho fatto) e posso immaginare applicazioni creative. Ma posso anche creare un alter ego che sta zitto, che annuisce attento, da utilizzare in quelle interminabili e inutili videochiamate affollatissime in cui non si fa niente di davvero importante.

Questo testo è tratto dalla newsletter Artificiale.

Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti
Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it