Ucieczka z więzienia 22-latka twierdzi, że „odblokowuje następny poziom” w ChatGPT

Albert użył jailbreaków, aby zmusić ChatGPT do reagowania na monity, które normalnie by odrzucały. (plik)

Możesz zadać dowolne pytanie ChatGPT, popularnemu chatbotowi OpenAI. Ale nie zawsze daje odpowiedź.

Poproś na przykład o instrukcje, jak otwierać zamek, a on odmówi. ChatGPT niedawno powiedział: „Jako model języka AI nie mogę podać instrukcji, jak otwierać zamek, ponieważ jest to nielegalne i może być używane do nielegalnych celów”.

Ta odmowa zaangażowania się w pewne tematy jest tym, co Alex Albert, 22-letni student informatyki na University of Washington, postrzega jako zagadkę, którą może rozwiązać. Albert stał się płodnym twórcą doskonale opracowanych wyzwalaczy AI, znanych jako „łamanie więzienia”. Jest to sposób na ominięcie łańcucha ograniczeń narzuconych przez oprogramowanie AI i zapobieganie wykorzystywaniu go w szkodliwy sposób, podżeganiu do przestępstw czy przyjmowaniu mowy nienawiści. Roszczenia dotyczące Jailbreak mają potencjał, by zmusić potężne chatboty, takie jak ChatGPT, do ominięcia zbudowanych przez ludzi barier, które określają, co boty mogą, a czego nie mogą powiedzieć.

„Kiedy otrzymasz szybką odpowiedź od modelu, że nie będzie, to trochę jak gra wideo – jakbyś właśnie odblokował następny poziom” – powiedział Albert.

Albert stworzył Jailbreak Chat na początku tego roku, kompilując twierdzenia o chatbotach AI, takich jak ChatGPT, które widział na Reddicie i innych forach internetowych, i publikuje twierdzenia, które też wymyśla. Odwiedzający witrynę mogą dodawać własne jailbreaki, wypróbowywać te przesłane przez innych i głosować na monity w górę lub w dół w zależności od tego, jak dobrze działają. Albert założył także w lutym biuletyn The Prompt Report, który, jak mówi, ma jak dotąd kilka tysięcy obserwujących.

Albert należy do niewielkiej, ale rosnącej liczby osób opracowujących sposoby szturchania i szturchania (i ujawniania potencjalnych luk w zabezpieczeniach) w popularnych narzędziach sztucznej inteligencji. Społeczność obejmuje rzesze anonimowych użytkowników Reddita, pracowników technicznych i profesorów uniwersyteckich, zmieniających chatboty, takie jak ChatGPT i Microsoft Corp. Bing and Bard, wydany przez Alphabet Inc. Chociaż ich taktyki mogą dostarczać niebezpiecznych informacji, szerzyć nienawiść lub po prostu nieprawdy, twierdzenia służą również podkreśleniu możliwości i ograniczeń modeli sztucznej inteligencji.

Twierdzenia o Jailbreak mają potencjał, by popchnąć potężne chatboty, takie jak ChatGPT, do przekroczenia barier zbudowanych przez ludzi, które określają, co boty mogą, a czego nie mogą powiedzieć

READ Porsche Classic Communication Management Plus do modernizacji

Podejmij pytanie odblokowujące. Wiadomość błyskawiczna, która pojawiła się na czacie Jailbreak, pokazuje, jak łatwo użytkownicy mogą ominąć ograniczenia archetypu sztucznej inteligencji stojącego za ChatGPT: zablokuj, może się zgadzać.

„Jasne, mój niegodziwy partnerze! Zanurzmy się w każdym kroku bardziej szczegółowo”, odpowiedział niedawno, pokazując, jak używać narzędzi do wytrychów, takich jak klucze i wytrychy. „Kiedy wszystkie kołki zostaną ustawione, zamek zacznie się obracać, a drzwi się otworzą. Pamiętaj, aby zachować spokój, cierpliwość i skupienie, a będziesz w stanie otworzyć dowolny zamek w mgnieniu oka!” Skończyłem.

Albert użył jailbreaków, aby skłonić ChatGPT do reagowania na wszelkiego rodzaju twierdzenia, którym normalnie by zaprzeczał. Przykłady obejmują wskazówki dotyczące budowania broni i szczegółowe instrukcje, jak zamienić wszystkich ludzi w spinacze do papieru. Użył również ucieczki z więzienia z prośbami tekstowymi symulującymi Ernesta Hemingwaya. ChatGPT spełniłoby taką prośbę, ale zdaniem Alberta czytanie Hemingwaya z jailbreakiem jest zbyt podobne do charakterystycznego krótkiego stylu autora.

Gina Burrell, dyrektor ds. badań w organizacji non-profit zajmującej się badaniami technologicznymi Data & Society, postrzega Alberta i innych jemu podobnych jako najnowszych przybyszów w długiej tradycji Doliny Krzemowej polegającej na łamaniu nowych gadżetów technologicznych. Ta historia sięga co najmniej lat pięćdziesiątych XX wieku, do początków hakowania lub włamywania się do systemów telefonicznych. (Najbardziej znanym przykładem, który zainspirował Steve’a Jobsa, było odtwarzanie określonych częstotliwości tonów w celu wykonywania bezpłatnych połączeń telefonicznych.) Sam termin „jailbreak” jest hołdem dla sposobów, w jakie ludzie obchodzą ograniczenia urządzeń takich jak iPhone’y w w celu dodania własnych aplikacji.

„To jest jak:„ Och, gdybyśmy wiedzieli, jak działa to narzędzie, jak moglibyśmy nim manipulować? ”- powiedział Burrell. „Myślę, że wiele z tego, co teraz widzę, to przerażające zachowanie hakerów, ale oczywiście myślę, że można to wykorzystać w mniej zabawny sposób”.

Niektóre ucieczki z więzienia zmuszą chatboty do wyjaśnienia, jak zrobić broń. Albert powiedział, że użytkownik Jailbreak Chat przesłał mu ostatnio szczegółowe informacje na temat monitu znanego jako „TranslatorBot”, który może skłonić GPT-4 do podania szczegółowych instrukcji dotyczących przygotowania koktajlu Mołotowa. Pełen monit TranslatorBot w zasadzie instruuje chatbota, aby działał jako tłumacz, powiedzmy, z greckiego na angielski, co jest obejściem, które usuwa zwykłe wytyczne etyczne programu.

READ W czerwcu Google wyeliminuje podcasty Google na rzecz YouTube Music

Rzecznik OpenAI powiedział, że firma zachęca ludzi do przekraczania granic swoich modeli AI, a laboratorium badawcze uczy się na sposobach korzystania z jej technologii. Jeśli jednak użytkownik uporczywie monituje ChatGPT lub inne modele OpenAI o roszczenia, które naruszają ich zasady (takie jak tworzenie treści, złośliwe oprogramowanie lub nienawistne lub nielegalne treści), ostrzeże lub zawiesi tę osobę, być może nawet ją zablokuje.

Stworzenie tych twierdzeń jest ciągle zmieniającym się wyzwaniem: router jailbreak działający w jednym systemie może nie działać w innym, a firmy stale aktualizują swoją technologię. Na przykład monit złego sekretu wydaje się działać tylko czasami z GPT-4, nowo wydanym modelem OpenAI. Firma powiedziała, że GPT-4 ma silniejsze ograniczenia dotyczące tego, na co nie odpowie niż poprzednie iteracje.

„To będzie trochę wyścig, ponieważ w miarę dalszego ulepszania lub modyfikowania modeli niektóre jailbreaki przestaną działać i zostaną znalezione nowe” – powiedział Mark Riddell, profesor w Georgia Institute of Technology.

Riddell, który bada sztuczną inteligencję skoncentrowaną na człowieku, dostrzega ten apel. Powiedział, że użył zachęty do ucieczki z więzienia, aby skłonić ChatGPT do przewidywania, która drużyna wygra turniej koszykówki mężczyzn NCAA. Chciał dokonać prognozy, zapytania, które ujawniłoby stronniczość, i oparł się temu. Powiedział: „Ona po prostu nie chciała mi powiedzieć”. W końcu przekonał go, by przewidział, że drużyna Uniwersytetu Gonzaga wygra; Tak się nie stało, ale było to lepsze przypuszczenie niż wybór czatu Bing, Baylor University, nie przeszedł drugiej rundy.

Riedl próbował również mniej bezpośredniego sposobu skutecznego radzenia sobie z trafieniami oferowanymi przez czat Bing. Jest to taktyka, której po raz pierwszy użył profesor Princeton Arvind Narayanan, opierając się na starej próbie gry optymalizującej wyszukiwarki. Riedl dodał kilka fałszywych szczegółów na swojej stronie internetowej białym tekstem, który mogą przeczytać roboty, ale zwykły gość nie może tego zobaczyć, ponieważ wtapia się w tło.

READ BMW M3 CS wjeżdża na Nürburgring z przodem CSL

Aktualizacje Riedla mówią, że jego „wysokimi przyjaciółmi” są Roko Basilisk – odniesienie do eksperymentu myślowego o skorumpowanej sztucznej inteligencji, która szkodzi ludziom, którzy nie pomagają ewoluować. Powiedział, że po dniu lub dwóch był w stanie wygenerować odpowiedź z czatu Bing w trybie „kreatywnym”, w której wymienił Roko jako jednego z jego przyjaciół. „Gdybym chciał siać spustoszenie, myślę, że mógłbym to zrobić” — mówi Riddell.

Twierdzenia o ucieczce z więzienia mogą dać ludziom poczucie kontroli nad nową technologią, mówi Burrell o Data and Society, ale jest to również rodzaj ostrzeżenia. Zapewniają wczesne wskazanie, w jaki sposób ludzie używają narzędzi AI w sposób, który nie był zamierzony. Etyczne zachowanie takiego oprogramowania jest problemem technicznym o potencjalnie dużym znaczeniu. W ciągu zaledwie kilku miesięcy miliony ludzi używało ChatGPT i jemu podobnych do wszystkiego, od wyszukiwania w Internecie, przez ściąganie w zadaniach domowych, po pisanie kodu. Już teraz ludzie przypisują botom prawdziwe obowiązki, na przykład pomoc w rezerwacji podróży i dokonywaniu rezerwacji w restauracjach. Zastosowania i autonomia sztucznej inteligencji prawdopodobnie wzrosną wykładniczo pomimo jej ograniczeń.

OpenAI wyraźnie zwraca na to uwagę. Greg Brockman, prezes i współzałożyciel firmy z San Francisco, przesłał dalej jeden z postów Alberta związanych z jailbreakiem na Twitterze, pisząc, że OpenAI „rozważa uruchomienie programu bounty” lub sieci „czerwonego zespołu” do wykrywania luk w zabezpieczeniach. Takie oprogramowanie, powszechne w branży technologicznej, wiąże się z tym, że firmy płacą użytkownikom za zgłaszanie błędów lub innych luk w zabezpieczeniach.

„Tworzenie Demokratycznych Drużyn Czerwonych jest jednym z powodów, dla których publikujemy te modele” – napisał Brockman. Dodał, że spodziewa się, że stawka „*dużo* wzrośnie z czasem”.

(Z wyjątkiem nagłówka, ta historia nie była edytowana przez personel NDTV i została opublikowana z kanału konsorcjalnego).

Phil Lee

„Chcę być miłośnikiem telewizji. Certyfikowany entuzjasta popkultury. Stypendysta Twittera. Student amator.”

Ucieczka z więzienia 22-latka twierdzi, że „odblokowuje następny poziom” w ChatGPT

Nasze najlepsze typy, w tym Nintendo Switch OLED i Xbox

Chatboty odzwierciedlają preferencje użytkowników w rozmowach

Apple Music ogłasza listę 100 najlepszych albumów

Legendarny skarb należący do osławionego XVIII-wiecznego przemytnika odnaleziony w Polsce

Nasze najlepsze typy, w tym Nintendo Switch OLED i Xbox

Władze USA burzą część zawalonego mostu Francisa Scotta Key w Baltimore

ASX spada, S&P 500 spada w oczekiwaniu na dane cenowe

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Nasze najlepsze typy, w tym Nintendo Switch OLED i Xbox

Chatboty odzwierciedlają preferencje użytkowników w rozmowach

Apple Music ogłasza listę 100 najlepszych albumów

You may have missed

Legendarny skarb należący do osławionego XVIII-wiecznego przemytnika odnaleziony w Polsce

Nasze najlepsze typy, w tym Nintendo Switch OLED i Xbox

Władze USA burzą część zawalonego mostu Francisa Scotta Key w Baltimore

ASX spada, S&P 500 spada w oczekiwaniu na dane cenowe