Imaginați-vă următorul scenariu. Sună un telefon. Un funcționar răspunde și își aude șefa, panicată, spunându-i că a uitat să transfere banii către noul antreprenor înainte de a pleca pentru o zi și că are nevoie ca el să facă acest lucru. Îi dă informațiile despre transferul bancar și, odată cu banii transferați, criza a fost evitată.
Muncitorul se așează pe scaun, respiră adânc și privește cum șeful său intră pe ușă. Vocea de la celălalt capăt al apelului nu era șeful său. De fapt, nu era nici măcar un om. Vocea pe care o auzea era cea a unui deepfake audio, o mostră audio generată de o mașină, concepută pentru a suna exact ca șeful său.
Atacurile de acest gen care folosesc înregistrări audio au avut loc deja, iar deepfakes audio conversaționale s-ar putea să nu fie departe.
Deepfakes, atât audio, cât și video, au fost posibile doar odată cu dezvoltarea unor tehnologii sofisticate de învățare automată în ultimii ani. Deepfakes au adus cu ele un nou nivel de incertitudine în jurul mediilor digitale. Pentru a detecta deepfakes, mulți cercetători au apelat la analiza artefactelor vizuale – minusculele defecte și inconsecvențe – găsite în deepfakes video.
Falsurile audio reprezintă o amenințare potențial și mai mare, deoarece oamenii comunică adesea verbal fără video – de exemplu, prin intermediul apelurilor telefonice, al radioului și al înregistrărilor vocale. Aceste comunicări exclusiv vocale extind foarte mult posibilitățile atacatorilor de a utiliza deepfakes.
Pentru a detecta deepfakes audio, noi și colegii noștri de cercetare de la Universitatea din Florida am dezvoltat o tehnică care măsoară diferențele acustice și dinamice ale fluidelor între eșantioanele de voce create organic de vorbitori umani și cele generate sintetic de computere.
Voci organice vs. sintetice
Oamenii vocalizează forțând aerul peste diferitele structuri ale tractului vocal, inclusiv faldurile vocale, limba și buzele. Prin rearanjarea acestor structuri, modificați proprietățile acustice ale tractului vocal, permițându-vă să creați peste 200 de sunete distincte, sau foneme. Cu toate acestea, anatomia umană limitează în mod fundamental comportamentul acustic al acestor diferite foneme, rezultând o gamă relativ mică de sunete corecte pentru fiecare dintre ele.
În schimb, deepfakes audio sunt create permițând mai întâi unui computer să asculte înregistrările audio ale unui vorbitor țintă al victimei. În funcție de tehnicile exacte utilizate, computerul ar putea avea nevoie să asculte doar 10 până la 20 de secunde de înregistrări audio. Această înregistrare audio este utilizată pentru a extrage informații cheie despre aspectele unice ale vocii victimei.
Atacatorul selectează o frază pentru ca deepfake-ul să o rostească și apoi, folosind un algoritm modificat de transformare a textului în vorbire, generează o mostră audio care sună ca și cum victima ar spune fraza selectată. Acest proces de creare a unei singure mostre audio deepfaked poate fi realizat în câteva secunde, permițând potențial atacatorilor suficientă flexibilitate pentru a utiliza vocea deepfake într-o conversație.
Detectarea falsurilor audio
Primul pas în diferențierea vorbirii produse de oameni de cea generată de deepfakes este înțelegerea modului de modelare acustică a tractului vocal. Din fericire, oamenii de știință dispun de tehnici de estimare a ceea ce o persoană – sau o ființă, cum ar fi un dinozaur – ar suna pe baza măsurătorilor anatomice ale tractului său vocal.
Noi am făcut invers. Prin inversarea multora dintre aceste tehnici, am reușit să extragem o aproximare a tractului vocal al unui vorbitor în timpul unui segment de vorbire. Acest lucru ne-a permis să ne uităm efectiv în anatomia vorbitorului care a creat eșantionul audio.

De aici, am emis ipoteza că eșecul probelor audio deepfake nu ar fi constrâns de aceleași limitări anatomice pe care le au oamenii. Cu alte cuvinte, analiza probelor audio deepfaked a simulat forme ale tractului vocal care nu există la oameni.
Rezultatele testelor noastre nu numai că au confirmat ipoteza noastră, dar au dezvăluit ceva interesant. Atunci când am extras estimări ale tractului vocal din sunetul audio deepfake, am constatat că estimările erau deseori comic de incorecte. De exemplu, a fost obișnuit ca deepfake audio să rezulte traiecte vocale cu același diametru relativ și aceeași consistență ca un pai de băut, spre deosebire de traiectele vocale umane, care sunt mult mai largi și au o formă mult mai variabilă.
Această realizare demonstrează că sunetul deepfake, chiar și atunci când este convingător pentru ascultătorii umani, este departe de a fi imposibil de distins de vorbirea generată de oameni. Prin estimarea anatomiei responsabile de crearea discursului observat, este posibil să se identifice dacă sunetul a fost generat de o persoană sau de un computer.
De ce contează acest lucru
Lumea de astăzi este definită de schimbul digital de media și informații. Totul, de la știri la divertisment și până la conversațiile cu cei dragi, se desfășoară de obicei prin intermediul schimburilor digitale. Chiar și în fază incipientă, materialele video și audio false subminează încrederea pe care oamenii o au în aceste schimburi, limitând efectiv utilitatea lor.
Pentru ca lumea digitală să rămână o resursă critică de informații în viața oamenilor, sunt esențiale tehnici eficiente și sigure de determinare a sursei unei mostre audio.
*Toate produsele recomandate sunt selectate de către echipa noastră editorială. Unele dintre articolele noastre includ link-uri afiliate. Dacă cumpărați ceva prin intermediul unuia dintre aceste link-uri, ne ajutați să câștigăm un mic comision din partea vânzătorului și astfel sa susținem scrierea de articole utile și de calitate.