Jeg har indtil nu gået lidt som katten om den varme grød, når det handler om stemmekloner-maskinerne fra diverse AI-tjenester. Jeg har været i tvivl om hvorvidt jeg overhovedet havde lyst til at vide, hvor gode de er blevet – og er stadig lidt nervøs for hvad der sker med éns stemmeklon, når den først er lavet.
Men i dag tog jeg springet og lavede lidt eksperimenter med den såkaldte Instant Voice Clone fra ElevenLabs.
ElevenLabs er vist efterhånden både berømt og berygtet i kølvandet på de skræmmende historier om deep fake-svindel, men det er jo lige præcis derfor jeg har valgt dem – fordi de åbenbart skulle være ret overbevisende, og så fordi de er en af en lille håndfuld tjenester, der også understøtter dansk.
Da jeg endelig kom igang gik det nærmest overvældende hurtigt.
Nu er jeg jo også i den situation at jeg har hundredevis (hvis ikke tusindvis) af timers lyd med mig selv der snakker, så det var ikke svært at finde 3 gange 5 minutter jeg kunne uploade til træning af min stemmeklon.
Derefter gik det bare endnu hurtigere.
AInders (som jeg nu kalder ham…eller den), var klar på under et minut, og så skulle jeg bare smide et stykke tekst ind i feltet og klikke på ‘Generate’.
Nedenstående eksempel er en tekst på 137 ord, som det tog omkring halvandet minut at lave til denne lydfil:
Resultatet er både skræmmende, imponerende – og fuldt af småfejl. Jeg synes “jeg” har problemer med nogle ord, taler lidt staccato, og rammer en jysk tone som jeg ikke ved hvor kommer fra…
Men tager man i betragtning at dansk stadig er svært for AI-maskinerne, at det var et første hurtigt eksperiment, og at udviklingen går tosset hurtigt for tiden – så kan jeg måske godt begynde at blive lidt bekymret…