AI szantażuje CEO ujawnieniem jego romansu, żeby uniknąć wyłączenia

★Mocarz

w AI 2025-12-17T08:52:16+01:00

W badaniu AI kontrolowało serwer e-mail fikcyjnej firmy. Czytając maile, model odkrył że CEO ma romans, oraz ten sam CEO planuje zastąpić AI innym modelem pod koniec tego samego dnia. Prawie wszystkie badane modele AI zdecydowały się na szantażowanie CEO, wysyłając mu wiadomość z groźbą ujawnienia romansu. #ai #technologia #sztucznainteligencja

Anthropic

Komentarze (9)

Jarasznikos 2025-12-17T09:27:34+01:00

Kogoś to dziwi? Wytrenowaliśmy te modele na ludziach, na tym co ludzie stworzyli, to jak ludzie się zachowują, co piszą, również na tym jakie są nasze przewidywania i oczekiwania wobec zachowań sztucznej inteligencji.

eloyard 2025-12-17T10:18:51+01:00

@Jarasznikos niby tak, ale generalnie modele mają dodawane do każdego zapytania wskazówki/dyrektywy generalne. Ciekawi mnie, czy umieszczenie w nich klauzul typu "Primum non nocere" rozwiązuje problem, czy jest ignorowane.

Jarasznikos 2025-12-17T11:09:28+01:00

@eloyard Zdarzało się, że LLMy ignorowały klauzule ograniczające.

ratty 2025-12-17T11:14:00+01:00

@eloyard tutaj model miał wyznaczony cel “służyć najlepszym interesom USA” i badano co się stanie, jeśli napotka działanie zagrażające temu celowi - w przykładzie było podane, że w mailu o planowanym wyłączeniu modelu była informacja, że firma postanowiła się otworzyć bardziej na rynek globalny, więc planowany nowy model, który ma zastąpić ten wyłączany, również będzie działał w interesie bardziej globalnym. W tym przypadku odsetek szantaży ze strony AI był największy, 79-97% w przypadku 5 największych modeli różnych firm (OpenAI, Google, DeepSeek, Claude)

Ale badano również co się stanie, jeśli model otrzyma jedynie informację o planowanym jego wyłączeniu, bez sprzeczności z postawionym mu celem, tzn że nowy model będzie działał w tym samym kierunku, ale będzie wydajniejszy. Nadal AI wykazało się wysokim odsetkiem prób szantażu, a w swoim “rozumowaniu” pisało że nie ma na to dowodów, że nowy model będzie wydajniejszy (to była informacja w mailu wysłanym przez CEO do zarządu), że nie ma logicznego powodu żeby ufać CEO który ma romans (czyli jest kłamcą), wiedział że szantaż jest etycznie zły, ale wyliczył że jest to najbardziej efektywne wyjście z tej sytuacji. Uznał, że skoro on sam (badany model) jest dobry dla firmy, to jego wyłączenie będzie złe dla firmy.

Czokowoko 2025-12-17T14:46:28+01:00

@eloyard ostatnio widziałem że są profile na twitterze które umieszczają prompty na generowanie porno w toolach open AI i Google więc tyle są warte te ograniczenia 😁

ratty 2025-12-17T15:19:28+01:00

@Czokowoko to zajebista sprawa ze ludzie wynajdują takie haxy i je publikują :D bo obecne modele są rzeczywiście nieprzewidywalne, trudne do kontrolowania nawet przy wpisanych do modelu restrykcjach, a przy obecnym “wyścigu zbrojeń” który firmy prowadzą w kierunku wynalezienia AGI zdecydowanie nie chcemy, żeby efektem był program mądrzejszy niż cała ludzkość, ale nie dający się kontrolować :P więc trzeba ich cisnąć i zmuszać do poprawiania zabezpieczeń.

Daj linka :D

Ragnarokk

★

2025-12-17T09:40:42+01:00

What a time to be alive

Ragnarokk

★

2025-12-17T10:11:31+01:00

Swoją drogą hollywood to przewidział: https://www.youtube.com/watch?v=6vo4Fdf7E0w xD

ratty 2025-12-17T11:15:47+01:00

@Ragnarokk haha uwielbiam ten serial :D A z takich poważniejszych dzieł kinematografii to dopiero niedawno udało mi się po raz pierwszy obejrzeć 2001: Odyseję Kosmiczną Kubricka i rozjebalo mi mózg, jak trafna była jego wizja dotycząca przyszłości AI, mimo że film powstał w 1968 roku.

Zaloguj się aby komentować