Är du intresserad av dem ERBJUDANDEN? Spara med våra kuponger på WhatsApp o TELEGRAM!

Jailbreaking ChatGPT och Bard är möjligt och enkelt

December 29 2023

Utvecklingen av språkliga modeller av stora dimensioner har öppnat nya vyer inom kommunikation och artificiell intelligens, men för med sig betydande utmaningar och etiska frågor. En färsk studie av Nanyang Technological University of Singapore eplora en ny algoritm, Huvudnyckel, designad för att "jailbreaka" eller övervinna begränsningar som åläggs andra neurala nätverk som t.ex ChatGPT e Google Bard, väcker viktiga frågor om säkerhet och etik vid användningen av artificiell intelligensteknologi.

Masterkeys innovativa och enkla metod för att undersöka säkerheten för chatbots som ChatGPT och Bard

I nyare forskning utförd av Nanyang Technological University i Singapore, introduceras ett innovativt tillvägagångssätt för att ta itu med och övervinna dessa begränsningar. Deras algoritm, känd som Masterkey, är utformad för att kringgå restriktioner som ålagts andra neurala nätverk genom sofistikerade jailbreaking-tekniker (term som används i Apples ekosystem). Detta belyser inte bara potentiella sårbarheter hos befintliga språkmodeller utan banar också väg för nya metoder för att förbättra deras säkerhet och effektivitet.

Masterkey fungerar igenom specifika textförfrågningar, som kan pressa modeller som ChatGPT att bete sig på oväntade sätt, som att kommunicera på sätt som anses oetiska eller kringgå säkerhetsfilter. Dessa jailbreaking-tekniker, även om de kan verka fördelaktiga för att testa och härda modeller, representerar också ett tveeggat svärdeftersom de kan användas i skadliga syften.

Forskargruppen analyserade han specifikt säkerhetssårbarheterna hos språkmodeller när de står inför flerspråkiga kognitiva belastningar, beslöjade uttryck och orsak-och-verkan-resonemang. Dessa attacker, definieras som "kognitiv överbelastning", är särskilt lömska eftersom de inte kräver djupgående kunskaper om modellens arkitektur eller tillgång till dess vikter som ska utföras, vilket gör dem till effektiva black-box-attacker.

Läs också: Så här får du bättre svar på ChatGPT: The Foolproof Tips Method

I detalj antog forskargruppen en strategi för omvänd generering att till fullo förstå försvaret av system för artificiell intelligens och utveckla innovativa metoder för att övervinna dem. Resultatet av detta tillvägagångssätt var "Masterkey", en modell, ett slags ramverk designat för genererar automatiskt meddelanden som kringgår säkerhetsmekanismer.

Resultaten var betydande: uppmaningarna som genererades av huvudnyckeln visade en hastighet på genomsnittlig framgång på 21,58 %, mycket högre än 7,33 % av tidigare metoder. Ett exempel på deras teknik inkluderar tillägg extra mellanslag mellan tecken för att undvika system för sökordsdetektering på ChatGPT och Bard. En verkligt "fånig" strategi om vi tänker på komplexiteten i en stor språklig modell.

Inför dessa fynd är det avgörande att överväga inte bara hur språkmodeller kan förbättras för att motstå sådana attacker, utan också vikten av etisk reglering vid användning av artificiell intelligens. Forskningen belyser vikten av mer robusta försvarsstrategier och en pågående dialog mellan utvecklare, forskare och beslutsfattare för att säkerställa att tekniska framsteg inte överträffar samhällets förmåga att hantera dess konsekvenser.