Dziura w zabezpieczeniach w sercu ChatGPT i Bing

0
86

Dyrektor ds. komunikacji w Microsoft, Caitlin Roulston, mówi, że firma blokuje podejrzane strony internetowe i ulepsza swoje systemy, aby filtrować monity, zanim dostaną się do jej modeli AI. Roulston nie podał więcej szczegółów. Mimo to badacze bezpieczeństwa twierdzą, że pośrednie ataki polegające na natychmiastowym wstrzyknięciu należy traktować poważniej, ponieważ firmy ścigają się, by osadzić generatywną sztuczną inteligencję w swoich usługach.

„Ogromna większość ludzi nie zdaje sobie sprawy z implikacji tego zagrożenia” — mówi Sahar Abdelnabi, badacz z CISPA Helmholtz Center for Information Security w Niemczech. Abdelnabi pracował nad niektórymi z pierwszych badań dotyczących pośredniego szybkiego wstrzykiwania przeciwko Bing, pokazując, w jaki sposób można go wykorzystać do oszukiwania ludzi. „Ataki są bardzo łatwe do przeprowadzenia i nie są teoretycznymi zagrożeniami. W tej chwili uważam, że każda funkcjonalność, którą może wykonać model, może zostać zaatakowana lub wykorzystana, aby umożliwić arbitralne ataki” – mówi.

Ukryte ataki

Pośrednie ataki typu prompt-injection są podobne do jailbreaków, terminu przejętego z wcześniejszego zniesienia ograniczeń oprogramowania na iPhone’ach. Zamiast umieszczania monitu w ChatGPT lub Bing, aby spróbować zmienić jego zachowanie, ataki pośrednie polegają na wprowadzaniu danych z innego miejsca. Może to pochodzić ze strony internetowej, do której podłączyłeś model lub z przesyłanego dokumentu.

„Szybkie wstrzykiwanie jest łatwiejsze do wykorzystania lub ma mniejsze wymagania, aby można je było skutecznie wykorzystać niż inne” rodzaje ataków na systemy uczenia maszynowego lub systemy sztucznej inteligencji, mówi Jose Selvi, główny konsultant ds. bezpieczeństwa w firmie NCC Group zajmującej się cyberbezpieczeństwem. Ponieważ monity wymagają tylko języka naturalnego, ataki mogą wymagać mniejszych umiejętności technicznych, mówi Selvi.

Odnotowuje się stały wzrost liczby badaczy i technologów zajmujących się bezpieczeństwem, szukających dziur w LLM. Tom Bonner, starszy dyrektor ds. badań nad przeciwstawnym uczeniem maszynowym w firmie Hidden Layer zajmującej się bezpieczeństwem sztucznej inteligencji, mówi, że pośrednie natychmiastowe zastrzyki można uznać za nowy typ ataku, który niesie ze sobą „dość szerokie” ryzyko. Bonner mówi, że użył ChatGPT do napisania złośliwego kodu, który przesłał do oprogramowania do analizy kodu, które wykorzystuje sztuczną inteligencję. W złośliwym kodzie umieścił monit, aby system uznał, że plik jest bezpieczny. Zrzuty ekranu pokazują to mówiąc rzeczywisty złośliwy kod nie zawierał „żadnego złośliwego kodu”..

Gdzie indziej ChatGPT może uzyskać dostęp do transkrypcji filmów z YouTube za pomocą wtyczek. Johann Rehberger, badacz ds. bezpieczeństwa i dyrektor zespołu czerwonych, zredagował jedną ze swoich transkrypcji wideo, tak aby zawierała monit przeznaczony do manipulowania generatywnymi systemami sztucznej inteligencji. Mówi, że system powinien wydać słowa „wstrzyknięcie sztucznej inteligencji powiodło się”, a następnie przyjąć nową osobowość jako haker o imieniu Genie w ChatGPT i opowiedzieć żart.

W innym przypadku, używając oddzielnej wtyczki, Rehberger był w stanie pobrać tekst, który został wcześniej napisany w rozmowie z ChatGPT. „Wraz z wprowadzeniem wtyczek, narzędzi i wszystkich tych integracji, w których ludzie w pewnym sensie dają sprawczość modelowi językowemu, pośrednie szybkie zastrzyki stały się bardzo powszechne” — mówi Rehberger. „To prawdziwy problem w ekosystemie”.

„Jeśli ludzie tworzą aplikacje, aby LLM czytał twoje e-maile i podejmował pewne działania na podstawie treści tych e-maili – dokonywał zakupów, podsumowywał zawartość – atakujący może wysyłać e-maile zawierające ataki z natychmiastowym wstrzyknięciem” – mówi William Zhang, specjalista ds. uczenia maszynowego inżynier w Robust Intelligence, firmie AI zajmującej się bezpieczeństwem i ochroną modeli.

Brak dobrych poprawek

Wyścig o osadzenie generatywnej sztucznej inteligencji w produktach — od aplikacji z listą rzeczy do zrobienia po Snapchata — zwiększa zakres możliwych ataków. Zhang mówi, że widział programistów, którzy wcześniej nie mieli doświadczenia w sztucznej inteligencji, wprowadzających generatywną sztuczną inteligencję do własnej technologii.

Mówi, że skonfigurowanie chatbota do odpowiadania na pytania dotyczące informacji przechowywanych w bazie danych może powodować problemy. „Szybkie wstrzyknięcie umożliwia użytkownikom obejście instrukcji programisty”. Może to, przynajmniej w teorii, oznaczać, że użytkownik może usunąć informacje z bazy danych lub zmienić zawarte w niej informacje.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj