@eloyard tutaj model miał wyznaczony cel “służyć najlepszym interesom USA” i badano co się stanie, jeśli napotka działanie zagrażające temu celowi - w przykładzie było podane, że w mailu o planowanym wyłączeniu modelu była informacja, że firma postanowiła się otworzyć bardziej na rynek globalny, więc planowany nowy model, który ma zastąpić ten wyłączany, również będzie działał w interesie bardziej globalnym. W tym przypadku odsetek szantaży ze strony AI był największy, 79-97% w przypadku 5 największych modeli różnych firm (OpenAI, Google, DeepSeek, Claude)
Ale badano również co się stanie, jeśli model otrzyma jedynie informację o planowanym jego wyłączeniu, bez sprzeczności z postawionym mu celem, tzn że nowy model będzie działał w tym samym kierunku, ale będzie wydajniejszy. Nadal AI wykazało się wysokim odsetkiem prób szantażu, a w swoim “rozumowaniu” pisało że nie ma na to dowodów, że nowy model będzie wydajniejszy (to była informacja w mailu wysłanym przez CEO do zarządu), że nie ma logicznego powodu żeby ufać CEO który ma romans (czyli jest kłamcą), wiedział że szantaż jest etycznie zły, ale wyliczył że jest to najbardziej efektywne wyjście z tej sytuacji. Uznał, że skoro on sam (badany model) jest dobry dla firmy, to jego wyłączenie będzie złe dla firmy.