Wśród generatywnej sztucznej inteligencji szaleństwa ostatnich kilku miesięcy, badacze bezpieczeństwa powracają do obaw, że głosy generowane przez sztuczną inteligencję lub głębokie fałszywe głosy stały się wystarczająco przekonujące i łatwe do wyprodukowania, że oszuści zaczną ich masowo używać.
W ostatnich latach miało miejsce kilka głośnych incydentów, w których cyberprzestępcy wykorzystywali fałszywe głosy dyrektorów generalnych firm w celu kradzieży dużych sum pieniędzy – nie wspominając o tym, że dokumentaliści pośmiertnie stworzyli fałszywe głosy Anthony’ego Bourdaina. Ale czy przestępcy znajdują się w punkcie zwrotnym, w którym każde połączenie spamowe może zawierać sklonowany głos twojego rodzeństwa desperacko szukającego „kaucji?” Nie, twierdzą naukowcy – przynajmniej jeszcze nie.
Technologia pozwalająca na tworzenie przekonujących, solidnych podróbek głosu jest potężna i coraz bardziej powszechna w kontrolowanych warunkach lub sytuacjach, w których dostępne są obszerne nagrania głosu danej osoby. Pod koniec lutego reporter Motherboard, Joseph Cox, opublikował ustalenia, że nagrał pięć minut swojej rozmowy, a następnie wykorzystał publicznie dostępną generatywną usługę sztucznej inteligencji, ElevenLabs, do stworzenia głębokich podróbek głosu, które pokonały bankowy system uwierzytelniania głosowego. Ale podobnie jak wady generatywnej sztucznej inteligencji w innych mediach, w tym ograniczenia chatbotów generujących tekst, usługi głębokiego fałszowania głosu nadal nie mogą konsekwentnie dawać doskonałych wyników.
„W zależności od scenariusza ataku należy wziąć pod uwagę możliwości działania w czasie rzeczywistym i jakość skradzionej próbki głosu” — mówi Lea Schönherr, badaczka ds. bezpieczeństwa i uczenia maszynowego w CISPA Helmholtz Center for Information Security w Niemczech. „Chociaż często mówi się, że potrzeba tylko kilku sekund skradzionego głosu, jakość i długość mają duży wpływ na wynik deepfake’u audio”.
Oszustwa cyfrowe i ataki socjotechniczne, takie jak phishing, wydają się stale rosnącym zagrożeniem, ale badacze zauważają, że oszustwa, w których napastnicy dzwonią do ofiary i próbują podszyć się pod kogoś, kogo ofiara zna, istnieją od dziesięcioleci — sztuczna inteligencja nie jest potrzebna. A sam fakt ich długowieczności oznacza, że te pokusy są przynajmniej w pewnym stopniu skuteczne w nakłanianiu ludzi do wysyłania atakującym pieniędzy.
„Te oszustwa istnieją od zawsze. W większości przypadków to nie działa, ale czasami ofiara jest skłonna uwierzyć w to, co mówią, z jakiegokolwiek powodu” – mówi Crane Hassold, wieloletni badacz socjotechniki i były analityk zachowań cyfrowych dla FBI. „Wiele razy te ofiary przysięgają, że osoba, z którą rozmawiały, była osobą podszywaną, podczas gdy w rzeczywistości to tylko ich mózgi wypełniają luki”.
Hassold mówi, że jego babcia była ofiarą oszustwa polegającego na podszywaniu się pod inne osoby w połowie 2000 roku, kiedy napastnicy zadzwonili i udali, że są nim, przekonując ją do wysłania im 1500 dolarów.
„Z moją babcią oszust początkowo nie powiedział, kto dzwoni, po prostu zaczęli rozmawiać o tym, jak zostali aresztowani podczas udziału w festiwalu muzycznym w Kanadzie i chcieli, aby wysłała pieniądze na kaucję. Jej odpowiedź brzmiała: „Crane, czy to ty?” a potem mieli dokładnie to, czego potrzebowali” — mówi. „Oszuści zasadniczo przygotowują swoje ofiary do wiary w to, w co chcą, aby wierzyły”.
Podobnie jak w przypadku wielu oszustw socjotechnicznych, podszywanie się pod głos działa najlepiej, gdy ofiara jest pilna i po prostu próbuje komuś pomóc lub wykonać zadanie, za które odpowiada.
„Moja babcia zostawiła mi wiadomość na poczcie głosowej, kiedy jechałem do pracy, mówiąc coś w stylu„ Mam nadzieję, że wszystko w porządku. Nie martw się, wysłałem pieniądze i nikomu nie powiem” – mówi Hassold.
Justin Hutchens, dyrektor ds. badań i rozwoju w firmie Set Solutions zajmującej się bezpieczeństwem cybernetycznym, mówi, że oszustwa głosowe typu deepfake są coraz większym problemem, ale martwi się również o przyszłość, w której oszustwa oparte na sztucznej inteligencji staną się jeszcze bardziej zautomatyzowane.
„Spodziewam się, że w niedalekiej przyszłości cyberprzestępcy zaczną łączyć technologię głębokiego fałszywego głosu z interakcjami konwersacyjnymi obsługiwanymi przez duże modele językowe” — mówi Hutchens o platformach takich jak ChatGPT firmy Open AI.
Na razie jednak Hassold przestrzega przed zbyt pochopnym założeniem, że oszustwa związane z podszywaniem się pod głos są napędzane przez deepfake. W końcu analogowa wersja oszustwa wciąż istnieje i wciąż przyciąga właściwy cel we właściwym czasie.