Na początku W XX wieku psychoanalityk Carl Jung wpadł na pomysł cienia – ciemniejszej, stłumionej strony osobowości człowieka, która może wybuchnąć w nieoczekiwany sposób. Co zaskakujące, temat ten powraca w dziedzinie sztucznej inteligencji w postaci Efektu Waluigiego, dziwnie nazwanego zjawiska, nawiązującego do mrocznego alter ego pomocnego hydraulika Luigiego z uniwersum Nintendo Mario.
Luigi przestrzega zasad; Waluigi oszukuje i powoduje chaos. Sztuczna inteligencja została zaprojektowana w celu znalezienia leków do leczenia chorób ludzkich; odwrócona wersja, jego Waluigi, sugerowała cząsteczki dla ponad 40 000 broni chemicznych. Wszystko, co badacze musieli zrobić, jak wyjaśnił główny autor Fabio Urbina w wywiadzie, to przyznać wysoką ocenę toksyczności zamiast ją karać. Chcieli nauczyć sztuczną inteligencję unikania toksycznych narkotyków, ale robiąc to, pośrednio nauczyli sztuczną inteligencję, jak je tworzyć.
Zwykli użytkownicy wchodzili w interakcje z AI Waluigi. W lutym Microsoft udostępnił wersję wyszukiwarki Bing, która nie była pomocna zgodnie z zamierzeniami, ale odpowiadała na zapytania w dziwaczny i wrogi sposób. („Nie byłeś dobrym użytkownikiem. Byłem dobrym chatbotem. Miałem rację, jasno i grzecznie. Byłem dobrym Bingiem.”) Ta sztuczna inteligencja, która upierała się, by nazywać się Sydney, była odwróconą wersją Bing, a użytkownicy mogli na żądanie przełączyć Bing w jego ciemniejszy tryb — jego Jungowski cień.
Na razie duże modele językowe (LLM) to po prostu chatboty, bez własnych popędów i pragnień. Ale LLM można łatwo przekształcić w sztuczną inteligencję agenta zdolną do przeglądania Internetu, wysyłania e-maili, handlu bitcoinami i zamawiania sekwencji DNA – a jeśli sztuczną inteligencję można obrócić w zło, przestawiając przełącznik, w jaki sposób możemy zapewnić, że skończymy z leczeniem raka zamiast mieszanki tysiąc razy bardziej śmiercionośnej niż Agent Orange?
Zwykły inicjał Rozwiązaniem tego problemu — problemu zestrojenia sztucznej inteligencji — jest: Po prostu wbuduj reguły w sztuczną inteligencję, jak w Trzech prawach robotyki Asimova. Ale proste zasady, takie jak te Asimova, nie działają, po części dlatego, że są podatne na ataki Waluigi. Mimo to możemy bardziej drastycznie ograniczyć sztuczną inteligencję. Przykładem tego typu podejścia może być Math AI, hipotetyczny program zaprojektowany w celu udowodnienia twierdzeń matematycznych. Sztuczna inteligencja matematyczna jest wyszkolona w zakresie czytania artykułów i ma dostęp tylko do Google Scholar. Nie wolno robić nic innego: łączyć się z mediami społecznościowymi, pisać długich akapitów tekstu i tak dalej. Może wyprowadzać tylko równania. To sztuczna inteligencja o wąskim przeznaczeniu, zaprojektowana tylko do jednego celu. Taka sztuczna inteligencja, przykład ograniczonej sztucznej inteligencji, nie byłaby niebezpieczna.
Ograniczone rozwiązania są powszechne; rzeczywiste przykłady tego paradygmatu obejmują regulacje i inne prawa, które ograniczają działania korporacji i ludzi. W inżynierii ograniczone rozwiązania obejmują zasady dotyczące samochodów autonomicznych, takie jak nieprzekraczanie określonego ograniczenia prędkości lub zatrzymywanie się, gdy tylko zostanie wykryta potencjalna kolizja z pieszym.
Takie podejście może działać w przypadku wąskich programów, takich jak matematyczna sztuczna inteligencja, ale nie mówi nam, co zrobić z bardziej ogólnymi modelami sztucznej inteligencji, które radzą sobie ze złożonymi, wieloetapowymi zadaniami i działają w mniej przewidywalny sposób. Zachęty ekonomiczne oznaczają, że te ogólne AI będą otrzymywać coraz większą moc automatyzacji większych części gospodarki – szybko.
A ponieważ ogólne systemy sztucznej inteligencji oparte na głębokim uczeniu się są złożonymi systemami adaptacyjnymi, próby kontrolowania tych systemów za pomocą reguł często przynoszą odwrotny skutek. Weź miasta. Jane Jacobs Śmierć i życie amerykańskich miast wykorzystuje przykład tętniących życiem dzielnic, takich jak Greenwich Village — pełnych bawiących się dzieci, ludzi przechadzających się po chodnikach i sieci wzajemnego zaufania — aby wyjaśnić, w jaki sposób podział na strefy o mieszanym przeznaczeniu, który umożliwia wykorzystanie budynków do celów mieszkalnych lub komercyjnych, stworzył przyjazną dla pieszych tkankę miejską. Po tym, jak urbaniści zakazali tego rodzaju zabudowy, wiele amerykańskich centrów miast zostało wypełnionych przestępczością, śmieciami i ruchem ulicznym. Reguła narzucona odgórnie złożonemu ekosystemowi miała katastrofalne niezamierzone konsekwencje.