#programowanie #programista15k


T.Czajka:

Obejrzałem głośny artykuł od Apple Research, "The Illusion of Thinking [...]".


Podobnie jak poprzedni tych samych (częściowo) autorów, "GSM-Symbolic [...]" wyciąga clickbaitowe, zupełnie nieuprawnione wnioski, które łechczą ego sceptyków umiejętności AI. Chyba dlatego jest tak głośny, bo sama merytoryczna treść w postaci benchmarków nie jest specjalnie rewolucyjna.


Artykuł zawiera benchmarki w postaci: dajemy prompta "wypisz optymalną sekwencję ruchów w dobrze znanej grze" (wieże Hanoi i inne). Czasem te sekwencje są bardzo długie. AI oceniane są na podstawie tego, jak długie sekwencje bot poprawnie wypisze w odpowiedzi na prompta.


No OK, jest to jakiś benchmark, ale niewiele to ma wspólnego z "rozumowaniem", bo algorytm do optymalnych ruchów w wieżach Hanoi jest prosty i znany, kwestia wykonania go dla bardzo długiej sekwencji ruchów. Testują pozycje w których trzeba wykonać nawet milion bardzo łatwych ruchów.


No więc AI mówi na przykład: "nie będę wypisywał wszystkich ruchów, tylko podam algorytm" i wypisuje np program w Pythonie na kilka linijek, który generuje te milion ruchów. I w ten sposób oblewa test, bo nie wypisał ruchów poprawnie.


Może inne gry są ciekawsze niż wieże Hanoi, nie wnikałem, ale wszystkie są znane, więc na pewno AI wie jak te rzeczy się rozwiązuje, bo po prostu to widział wielokrotnie w danych treningowych. Autorzy natomiast piszą, że jest zaskakujące, że gdy w prompcie podali algorytm, to AI nadal nie umiało wypisywać ruchów, jakby to miało być dowodem na ich głupotę.


Wniosek w paperze: one w ogóle nie potrafią myśleć, tylko piszą łatwe rozwiązania z pamięci. Jest to wniosek całkowicie absurdalny.


Po pierwsze: skąd wiadomo, że nie potrafią? Może potrafią, tylko im się nie chce? Może się buntują! Jest pełno możliwych wyjaśnień.


A tak naprawdę wyjaśnienie z tymi wieżami Hanoi jest dosyć proste: boty są specjalnie trenowane pod kątem tego, żeby nie pisały absurdalnie długich odpowiedzi na krótkiego prompta. Ba, nawet mają limit na długość odpowiedzi, który nie pozwala im wypisać miliona ruchów. I one o tym wiedzą, więc nawet nie próbują.


Po drugie: nie ma porównania z tym, jak odpowiadają ludzie. Jak odpowiedziałby "naprawdę myślący" człowiek na takiego prompta? Czy wypisałby całą sekwencję ruchów? A może by napisał "nie robię, nie chce mi się"! Albo "jaja sobie robisz, mam pisać milion ruchów?". A może próbowałby wypisywać, ale zrobiłby pełno pomyłek, i też oblałby test. Czy to oznaczałoby, że ludzie też nie potrafią rozumować? Nie, taki wniosek jest absurdalny.


-----

Zgadzam się. Strach i wyparcie ego-sceptyków jest nie do opisania. AI jest dobre, AI klepie już kod na poziomie juniora/mida, AI rozumuje a AGI jest naprawdę blisko, kwestia <5 lat. Pogódźcie się z tym zamiast wypierać fakty!

Komentarze (6)

koszotorobur

@pozytywny_gosc1 - ja czekam, analizuję, obserwuję - nie jestem ani hurra optymistyczny, że General AI jest już za rogiem, ani sceptyczny, że jeszcze długie dekady.

A za mniej niż 5 lat dowiemy się czy Ty miałeś rację

zomers

@pozytywny_gosc1 ot postęp. Przykładowo, na początkach kolei, przed pociągiem jechał facet na koniu, aby wszystkich ostrzec, że jedzie pociąg, na każdym przejeździe miałeś człowieka od rogatek, kilku operatorów lokomotywy, pełno ludzi obsługi. Dzisiaj większość rzeczy zautomatyzowana, ograniczenie obsługi do kilku wyspecjalizowanych osób. To samo będzie z programowaniem, a właściwie już się zaczęło. Junior/Mid, będzie pogrom, stanowisko zniknie, o ile jeszcze są, bo AI naprawdę już ich zastępuje za 10$ miesięcznie. Dobry Senior/Wdrożeniowiec, który po pierwsze będzie rozumiał całość i będzie w stanie porozumieć się z klientem, jeszcze ma wiele lat spokoju. Zobaczymy tylko, kiedy twórcy modelów i narzędzi, podniosą stawki za używanie na tyle, że okaże się, że człowiek będzie tańszy, i za AI będzie robił Hindus, czy jakiś Afrykanin, bo tez to pewnie się przesunie.

wombatDaiquiri

@pozytywny_gosc1 myślę, ze przede wszystkim nie rozumiesz, ale zaczynam też podejrzewać, ze możesz być świadomym trollem xD

m_h

Wiele razy słuchałem jakichś noname guru o zmianie dotychczasowego paradygmatu: bitcoin rewolucjonizujący bankowość, IoT łączące wszystko ze wszystkim, programowanie przy użyciu bloków widziałem w 2007r, autonomiczne samochody w 2017r.


Teraz AI... Tylko z AI jest inne.

LLMy przełamały status quo przetwarzając energię elektryczna na zdolności pseudokognitywne/kognitywne. Wcześniej wszystko musiało być systemem eksperckim (LISP machine) tak teraz AI jest uniwersalnym systemem eksperckim co było nie do pomyślenia przed 2010/2011.

Jakość wyjścia z LLMów jest zależna od jakości wejścia (prompta) do LLMu.

Z mojeje perspektywy: ogromnie przyspiesza kodowanie co nie zmienia faktu że znajduje babole w kodzie wygenerowanym przez Claude 4 Opus. Analizuje schematy elektroniczne i potrafi je testować. Dziwne że nie spotkałem jeszcze prób projektowania budynków przy ich użyciu.

Tempo rozwoju tych systemów jest niesamowite i patrząc na ich wyniki, ciężko kwestionować zdania o wpływie AI na ekonomie (robił to np zeszłoroczny laureat Nobla z ekonomii: Daron Acemoglu).

McKinsey w 2023 wydał raport prognozujący że w ~2040 większość pracy zostanie zautomatyzowana.


W 2019 AI ledwo było wstanie stworzyć obraz psa, teraz jest Veo3 (to jest tylko 6 lat).


Większość ludzi z tej działki spodziewa się AGI przed 2030 czy mają racje czas zweryfikuje.

koszotorobur

@m_h

Większość ludzi z tej działki spodziewa się AGI przed 2030 czy mają racje czas zweryfikuje

Obserwować, analizować, adaptować się.

pozytywny_gosc1

@m_h AGI na bank będzie patrząc na to jak AI wykładniczo się rozwija. Przecież teraz z Cursorem i Claude 4.0 można cuda robić i nie trzeba nawet umieć kodować

Zaloguj się aby komentować