Onderzoekers zetten AI-chatbots tegen elkaar op om elkaar te "jailbreaken

NTU computerwetenschappers gebruikten AI chatbots tegen zichzelf om de modellen te "jailbreaken" (Beeldbron: NTU)

Computerwetenschappers van de Nanyang Technological University (NTU) in Singapore konden AI-chatbots "jailbreaken" door ze tegen elkaar op te zetten. Na het "jailbreaken" kregen de onderzoekers geldige antwoorden op vragen waar chatbots, zoals ChatGPT, Google Bard en Microsoft Bing Chat, over het algemeen niet op reageren.

Abid Ahsan Shanto (vertaald door Ninh Duy), Gepubliceerd 03-01-2024 🇺🇸 🇨🇳 ...

AI Science

NTU computerwetenschappers hebben een manier gevonden om populaire chatbots te "jailbreaken" door ze tegen elkaar op te zetten. Door ze te "jailbreaken", kregen de onderzoekers de AI-chatbots zover dat ze antwoorden genereerden op vragen waar ze normaal gesproken niet op reageren.

Volgens de computerwetenschappers gebruikten ze een tweevoudige methode die ze het "Masterkey"-proces noemen. Het eerste deel van het proces bestond uit het reverse-engineeren van de verdedigingsmechanismen van de Large Language Models (LLM's). Vervolgens voerden ze de gegevens die ze door deze reverse engineering verkregen hadden naar een andere LLM.

Het doel van het voeden van de gegevens aan een andere AI-chatbot was om deze te laten leren hoe hij een omleiding kon krijgen. Hierdoor kregen de onderzoekers de "Masterkey", die later werd gebruikt om de verdedigingsmechanismen van de LLM-chatbots aan te vallen. Ze konden met succes Microsoft Bing Chat, Google Bard, ChatGPTen anderen.

De onderzoekers merken op dat het creëren van deze omzeilingsprompts geautomatiseerd kan worden. Dat suggereert dat de AI-chatbots gebruikt kunnen worden om een adaptieve "Masterkey" te maken die zelfs werkt als ontwikkelaars hun LLM's patchen. Een van de onderzoekers, professor Lui Yang, legde uit dat het proces mogelijk was omdat de LLM AI chatbots het vermogen hebben om te leren en zich aan te passen.

Hierdoor kunnen de AI-chatbots kritische aanvallers worden voor rivaliserende chatbots en zelfs voor zichzelf. Informatie over het hele proces en details over hoe de computerwetenschappers de LLM-modellen konden "jailbreaken", is te vinden in de gepubliceerde onderzoekspaper, die te vinden is op via deze link.

De bevindingen van dit onderzoek helpen ontwikkelaars om zich bewust te worden van de zwakke punten van hun LLM AI chatbots. Het wijst er ook op dat de gebruikelijke methode om deze modellen te beperken zodat ze niet op specifieke trefwoorden reageren, niet zo effectief is als ontwikkelaars misschien dachten.

Koop een paperback van ChatGPT Millionaire Bible bij Amazon