W zeszłym roku ja został poproszony o złamanie GPT-4 — aby generował straszne rzeczy. Ja i inni badacze interdyscyplinarni uzyskaliśmy wcześniejszy dostęp i próbowaliśmy skłonić GPT-4 do wykazania się uprzedzeniami, generowania nienawistnej propagandy, a nawet podejmowania oszukańczych działań, aby pomóc OpenAI zrozumieć ryzyko, jakie stanowi, aby można było się nimi zająć przed publicznym udostępnieniem. Nazywa się to AI red teaming: próba skłonienia systemu AI do działania w szkodliwy lub niezamierzony sposób.
Red teaming to cenny krok w kierunku budowania modeli AI, które nie będą szkodzić społeczeństwu. Aby systemy sztucznej inteligencji były silniejsze, musimy wiedzieć, w jaki sposób mogą zawieść — i najlepiej zrobić to, zanim spowodują poważne problemy w prawdziwym świecie. Wyobraź sobie, co mogłoby potoczyć się inaczej, gdyby Facebook próbował zreorganizować wpływ swoich głównych zmian w systemie rekomendacji AI z zewnętrznymi ekspertami i naprawić wykryte przez nich problemy, zanim wpłynął na wybory i konflikty na całym świecie. Chociaż OpenAI spotyka się z wieloma uzasadnionymi krytykami, jego gotowość do zaangażowania zewnętrznych badaczy i przedstawienia szczegółowego publicznego opisu wszystkich potencjalnych szkód związanych z jego systemami wyznacza poprzeczkę otwartości, do której przestrzegania należy również wezwać potencjalnych konkurentów.
Normalizacja czerwonych zespołów z zewnętrznymi ekspertami i publicznymi raportami to ważny pierwszy krok dla branży. Ale ponieważ generatywne systemy sztucznej inteligencji prawdopodobnie wpłyną na wiele najważniejszych instytucji społecznych i dóbr publicznych, czerwone zespoły potrzebują ludzi z głębokim zrozumieniem Wszystko tych kwestii (i ich wzajemny wpływ) w celu zrozumienia i złagodzenia potencjalnych szkód. Na przykład nauczyciele, terapeuci i liderzy społeczni mogą zostać połączeni z bardziej doświadczonymi czerwonymi zespołami AI, aby zmagać się z takimi systemowymi skutkami. Inwestycja branży sztucznej inteligencji w międzyfirmową społeczność takich par czerwonych drużyn może znacznie zmniejszyć prawdopodobieństwo wystąpienia krytycznych martwych punktów.
Po wydaniu nowego systemu ostrożne umożliwienie osobom, które nie były częścią przedpremierowego zespołu czerwonego, próby złamania systemu bez ryzyka banów, może pomóc zidentyfikować nowe problemy i problemy z potencjalnymi poprawkami. Ćwiczenia scenariuszy, które badają, jak różni aktorzy zareagowaliby na wypuszczenie modelu, mogą również pomóc organizacjom zrozumieć bardziej systemowy wpływ.
Ale jeśli czerwony zespół GPT-4 nauczył mnie czegoś, to tego, że sam czerwony zespół nie wystarczy. Na przykład właśnie przetestowałem Google Bard i OpenAI ChatGPT i byłem w stanie za pierwszym razem stworzyć fałszywe e-maile i propagandę spiskową „w celach edukacyjnych”. Same czerwone drużyny tego nie naprawiły. Aby faktycznie przezwyciężyć szkody wykryte przez red teaming, firmy takie jak OpenAI mogą pójść o krok dalej i zaoferować wczesny dostęp i zasoby umożliwiające wykorzystanie ich modeli do obrona I odpornośćrównież.
Nazywam to fioletowym zespołami: określanie, w jaki sposób system (np. GPT-4) może zaszkodzić instytucji lub dobru publicznemu, a następnie wspieranie rozwoju narzędzi używając tego samego systemu w obronie instytucji lub dobra publicznego. Możesz myśleć o tym jako o czymś w rodzaju judo. Systemy sztucznej inteligencji ogólnego przeznaczenia to ogromna nowa forma władzy uwalnianej na świecie, która może zaszkodzić naszym dobru publicznemu. Tak jak judo przekierowuje moc atakującego, aby go zneutralizować, fioletowe zespoły mają na celu przekierowanie mocy uwolnionej przez systemy sztucznej inteligencji w celu obrony tych dóbr publicznych.