Przypomniało mi się o Claude Plays Pokemon, gdzie system sterowany przez AI próbuje przejść Pokemon Red (1996) i streamuje rozgrywkę na Twitchu.
Stream cały czas działa. Jako że to inicjatywa pod patronatem Anthropic to w tym miesiącu model został zmieniony na Opus 4.6 i gra została zresetowana, jak zawsze, gdy wychodzi lepszy model. Obecnie Claude przechodzi grę szybciej niż kiedykolwiek wcześniej. Zupełnie inny poziom niż rok temu, kiedy Sonnet 3.7 tygodniami chodził w kółko bez żadnych poważniejszych postępów.
Mogliście słyszeć, że inne modele już dawno przeszły grę (Google się nawet chwaliło na jakiejś konferencji), ale inne tego typu inicjatywy mają znacznie więcej ułatwiaczy (Claude też ma jakieś, ale niewiele), więc jeszcze żaden LLM nie przeszedł gry w pełni uczciwie. Claude jest całkiem blisko, jak nie 4.6 to inny model, który wyjdzie w tym roku może dać radę.
Znalazłem na necie taki ładny wykres wszystkich rozgrywek.
#ai #pokemon
