AI szantażuje CEO ujawnieniem jego romansu, żeby uniknąć wyłączenia

W badaniu AI kontrolowało serwer e-mail fikcyjnej firmy. Czytając maile, model odkrył że CEO ma romans, oraz ten sam CEO planuje zastąpić AI innym modelem pod koniec tego samego dnia. Prawie wszystkie badane modele AI zdecydowały się na szantażowanie CEO, wysyłając mu wiadomość z groźbą ujawnienia romansu. #ai #technologia  #sztucznainteligencja

Anthropic

Komentarze (7)

Jarasznikos

Kogoś to dziwi? Wytrenowaliśmy te modele na ludziach, na tym co ludzie stworzyli, to jak ludzie się zachowują, co piszą, również na tym jakie są nasze przewidywania i oczekiwania wobec zachowań sztucznej inteligencji.

eloyard

@Jarasznikos niby tak, ale generalnie modele mają dodawane do każdego zapytania wskazówki/dyrektywy generalne. Ciekawi mnie, czy umieszczenie w nich klauzul typu "Primum non nocere" rozwiązuje problem, czy jest ignorowane.

Jarasznikos

@eloyard Zdarzało się, że LLMy ignorowały klauzule ograniczające.

ratty

@eloyard tutaj model miał wyznaczony cel “służyć najlepszym interesom USA” i badano co się stanie, jeśli napotka działanie zagrażające temu celowi - w przykładzie było podane, że w mailu o planowanym wyłączeniu modelu była informacja, że firma postanowiła się otworzyć bardziej na rynek globalny, więc planowany nowy model, który ma zastąpić ten wyłączany, również będzie działał w interesie bardziej globalnym. W tym przypadku odsetek szantaży ze strony AI był największy, 79-97% w przypadku 5 największych modeli różnych firm (OpenAI, Google, DeepSeek, Claude)

Ale badano również co się stanie, jeśli model otrzyma jedynie informację o planowanym jego wyłączeniu, bez sprzeczności z postawionym mu celem, tzn że nowy model będzie działał w tym samym kierunku, ale będzie wydajniejszy. Nadal AI wykazało się wysokim odsetkiem prób szantażu, a w swoim “rozumowaniu” pisało że nie ma na to dowodów, że nowy model będzie wydajniejszy (to była informacja w mailu wysłanym przez CEO do zarządu), że nie ma logicznego powodu żeby ufać CEO który ma romans (czyli jest kłamcą), wiedział że szantaż jest etycznie zły, ale wyliczył że jest to najbardziej efektywne wyjście z tej sytuacji. Uznał, że skoro on sam (badany model) jest dobry dla firmy, to jego wyłączenie będzie złe dla firmy.

Ragnarokk

What a time to be alive

ratty

@Ragnarokk haha uwielbiam ten serial :D A z takich poważniejszych dzieł kinematografii to dopiero niedawno udało mi się po raz pierwszy obejrzeć 2001: Odyseję Kosmiczną Kubricka i rozjebalo mi mózg, jak trafna była jego wizja dotycząca przyszłości AI, mimo że film powstał w 1968 roku.

Zaloguj się aby komentować