Vishing 2.0: quando l'intelligenza artificiale dà voce all'inganno

1 giorno fa
Tempo di lettura: 4 min

Per anni è stato fondamentale formare i propri dipendenti sulle mail di phishing o frodi simili, quindi di diffidare da e-mail sospette e da messaggi fraudolenti.

Oggi però, i criminali informatici stanno sfruttando un canale molto più diretto e persuasivo: la voce umana.

Grazie ai progressi dell'intelligenza artificiale, è diventato possibile clonare una voce in pochi secondi ed utilizzarla per simulare telefonate credibili, facendo leva sulla psicologia delle vittime.

Dalle classiche chiamate spam alle sofisticate campagne di vishing e voice cloning, le truffe telefoniche stanno vivendo una nuova evoluzione.

In questo scenario, riconoscere una frode non è più soltanto una questione di attenzione ai dettagli: persino una voce familiare potrebbe non appartenere alla persona che crediamo di conoscere.

Come funziona il voice cloning?

Il voice cloning è una tecnica basata sull'intelligenza artificiale che consente di replicare le caratteristiche vocali di una persona, come timbro, intonazione, ritmo e cadenza.

Se fino a pochi anni fa erano necessari lunghi campioni audio e risorse computazionali non indifferenti, oggi molti modelli sono in grado di creare una copia molto simile se non uguale ad una voce utilizzando pochi secondi di registrazione.

Il processo si dirama generalmente in due fasi:

l'analisi della voce originale;
la generazione di nuovi contenuti vocali;

L'algoritmo analizza le caratteristiche distintive del parlato per generare un modello digitale capace di riprodurre qualsiasi sequenza audio, anche inedita.

Sebbene la tecnologia offra vantaggi significativi, dall'accessibilità per le persone con disabilità vocali al doppiaggio avanzato, la sua democratizzazione ha inavvertitamente abbassato le barriere d'ingresso per il cybercrime, trasformando la sintesi vocale in una nuova arma di ingegneria sociale

Dal vishing tradizionale al vishing 2.0

Il termine "vishing" deriva dalla combinazione di "voice" e "phishing", quindi voice phishing, ed identifica le truffe che utilizzano telefonate anziché e-mail o messaggi di testo (Smishing) per ingannare le vittime.

In passato queste campagne, denominate TOAD (Telephone-Oriented Attack Delivery), si basavano principalmente su tecniche di social engineering: operatori fraudolenti fingevano di appartenere a banche, aziende o enti pubblici per ottenere accesso remoto, credenziali, dati personali o autorizzazioni per effettuare pagamenti.

Oggi l'intelligenza artificiale ha introdotto un nuovo elemento di persuasione: la possibilità di impersonare una voce conosciuta.

Un attaccante può raccogliere campioni vocali accessibili pubblicamente via web come ad esempio da video pubblicati sui social network, interviste, webinar, podcast, messaggi vocali compromessi, ecc.

Una volta generato il clone vocale, è possibile simulare una telefonata proveniente da un dirigente aziendale, un collega, un familiare o qualsiasi persona ritenuta affidabile dalla vittima.

Caller ID spoofing

La credibilità di molte campagne di vishing non dipende esclusivamente dalla voce clonata. Gli attaccanti combinano spesso l'attacco di voice cloning con una tecnica nota come caller ID spoofing, che consente di alterare le informazioni visualizzate dal destinatario durante una chiamata.

In pratica, attraverso servizi VoIP configurati in modo improprio o infrastrutture telefoniche compromesse, un criminale può far apparire sul display della vittima un numero diverso da quello realmente utilizzato.

In alcuni casi il numero visualizzato può appartenere ad un'azienda legittima, a un ente pubblico o persino a una persona conosciuta dalla vittima.

La combinazione tra voice cloning e caller ID spoofing rappresenta una delle evoluzioni più insidiose ed avanzate delle truffe telefoniche moderne.

Se la vittima vede sul display il numero del proprio istituto bancario e contemporaneamente ascolta una voce che sembra autentica, la probabilità di fidarsi della chiamata aumenta significativamente.

Come difendersi

La prima linea di difesa rimane la consapevolezza o, in termini più semplici, la formazione.

Le organizzazioni dovrebbero aggiornare i programmi di Security Awareness introducendo dei (video) corsi speicifici sull'argomento, includendo anche scenari di simulazioni vishing e voice cloning, non limitandosi alle tradizionali campagne di phishing via e-mail.

È inoltre consigliabile introdurre procedure di verifica per tutte le richieste sensibili ricevute telefonicamente.

Ad esempio, un ordine di pagamento urgente dovrebbe essere confermato tramite un secondo canale di comunicazione o attraverso processi di approvazione già definiti.

Per i privati può essere utile concordare con familiari e persone di fiducia una parola chiave o una domanda di verifica da utilizzare in situazioni di emergenza.

In caso di richieste insolite, soprattutto se accompagnate da urgenza o pressione emotiva, è sempre opportuno interrompere la conversazione e contattare direttamente la persona attraverso un numero noto.

Conclusione

Con la democratizzazione delle tecnologie di intelligenza artificiale, il threat landscape ha subito un’accelerazione significativa.

Se per anni l'attenzione dell'utente è stata focalizzata sul riconoscimento di messaggi e e-mail di phishing, oggi il perimetro di difesa si è spostato su un piano più intimo e difficile da presidiare: quello della voce.

Il voice cloning rappresenta un moltiplicatore di forza per l'ingegneria sociale, rendendo la distinzione tra autentico e sintetico sempre più labile.

In uno scenario in cui bastano pochi secondi di campionamento audio per simulare l'identità di un soggetto, la fiducia non può più basarsi sul riconoscimento uditivo.

Nel paradigma del Vishing 2.0, il processo di verifica deve trascendere il mezzo: non è più sufficiente identificare l'interlocutore, occorre validare l'integrità della fonte attraverso procedure di autenticazione che prescindano dalla sola prova vocale.

Fonti e link di approfondimento: