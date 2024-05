Attenzione Visto che siamo di fronte a una tecnologia di frontiera, prima di cominciare servono le avvertenze e una dichiarazione di trasparenza. Se vuoi provare a replicare la mia esperienza assicurati di volerlo davvero fare e di aver letto bene tutto: non solo quel che scrivo ma anche quello che dichiarano le aziende produttrici dei software che nominerò, le loro norme sulla privacy e sulla gestione dei dati, quello che dichiarano i costi e le possibili conseguenze. Ho pagato tutti i servizi che nomino e non ho alcun tipo di affiliazione con le aziende che li producono.

L’ho fatto per vari motivi: capire come funzionano gli strumenti e quali sono le loro potenzialità e i loro limiti; capire qual è il livello di sicurezza di questa operazione, quali i termini e le condizioni dei servizi, quali i modi per assicurarsi che si dia davvero il proprio consenso alla clonazione digitale; farmi venire in mente dubbi e opportunità. E, naturalmente, l’ho fatto per scrivere questo pezzo.

Gli strumenti Per creare il mio clone digitale ho scelto due strumenti. Il primo è ElevenLabs , un servizio specializzato nella generazione di audio sintetici. Il secondo è HeyGen , che ho usato per clonare il mio aspetto, il modo in cui mi muovo e muovo le labbra quando parlo. La scelta degli strumenti è arbitraria. Il mio processo prevede di capire, prima di tutto, chi finanzia le varie società produttrici. Poi leggo le recensioni, analizzo i nomi delle aziende che fanno già uso dei vari servizi, verifico i prezzi, la facilità d’uso e le misure di sicurezza, leggo i termini e condizioni d’uso. Poi c’è anche un po’ di casualità, una volta che sono convinto di tutto il resto.

La procedura Per insegnare a ElevenLabs a parlare come me, ho caricato quattro ore di registrazioni della mia voce. Ho usato una serie di lezioni che ho fatto per non dover registrare il mio parlato appositamente e per essere quanto più naturale possibile. Per insegnare a HeyGen a generare video e a muovere le labbra come le muovo io mentre parlo, invece, ho dovuto caricare un video che ho girato con uno smartphone messo su cavalletto. Nel video, parlo a braccio per circa 4 minuti.

Ho seguito attentamente le istruzioni per non sprecare tempo. È importante che l’audio sia quanto più possibile pulito, registrato con un buon microfono, senza eco, senza rumori di fondo, senza altre voci. È importante anche che, parlando, si usino diversi registri e toni di voce. Così la macchina impara meglio. Per questo è stato utile avere delle registrazioni in cui parlavo in maniera naturale.

Per il video, invece, oltre all’inquadratura fissa, a una buona risoluzione dell’immagine (dall’alta definizione in su) e a una buona illuminazione, è importante non muoversi troppo, gesticolare con moderazione, non portare le mani oltre il petto, guardare verso l’obiettivo che riprende (il mio consiglio è di non guardare dritto in camera ma leggermente a lato, per evitare di avere lo sguardo troppo inquietante.

I costi Il primo livello di abbonamento a ElevenLabs costa 11 dollari americani per un mese che poi diventano 22 a partire dal mese successivo. In ogni mese puoi generare fino a 140mila battute convertite in audio, che equivalgono, più o meno, alla lettura di un saggio lungo o, se preferisci, a circa 80 minuti di parlato. Il primo livello di abbonamento di HeyGen, invece, costa 29 dollari al mese. Con questa cifra puoi generare fino a 15 minuti di video. In più, ho scelto la funzione di fine tuning che migliora la sincronizzazione delle labbra con la voce. Costa altri 49 dollari. Se consideriamo il cambio euro-dollaro del 19 maggio, giorno in cui ci ho fatto gli acquisti, creare il mio clone è costato 81,22 euro.

I risultati La voce è quasi perfetta. Si può poi lavorare su vari parametri che consentono di modificare il tono di voce, la sua varietà, l’enfasi e si può ottenere una propria versione audio che parla come uno speaker radiofonico degli anni ottanta o come un cantastorie o proprio come te. Nel mio caso, ha il mio accento piemontese persino quando parla inglese o giapponese. Anche se addestrata con il solo italiano, infatti, la macchina è in grado di generare audio in varie lingue.

Il video non è ancora all’altezza dell’audio. I movimenti sono strani, le microespressioni anche. Il mio avatar sbatte poco le palpebre. Ho dovuto escludere un esperimento fatto con un’inquadratura che includeva anche le mani perché la macchina non è in grado di simulare il modo in cui gesticolo in maniera coerente con quello che sto dicendo. Però, la sincronia con le labbra ha sempre meno problemi e dobbiamo aspettarci che il risultato migliori nel tempo. Per rendersene conto basta confrontare l’ultimo video che ho prodotto con il primo esperimento che avevo fatto a settembre 2023.