#programowanie #programista15k
T.Czajka:
Obejrzałem głośny artykuł od Apple Research, "The Illusion of Thinking [...]".
Podobnie jak poprzedni tych samych (częściowo) autorów, "GSM-Symbolic [...]" wyciąga clickbaitowe, zupełnie nieuprawnione wnioski, które łechczą ego sceptyków umiejętności AI. Chyba dlatego jest tak głośny, bo sama merytoryczna treść w postaci benchmarków nie jest specjalnie rewolucyjna.
Artykuł zawiera benchmarki w postaci: dajemy prompta "wypisz optymalną sekwencję ruchów w dobrze znanej grze" (wieże Hanoi i inne). Czasem te sekwencje są bardzo długie. AI oceniane są na podstawie tego, jak długie sekwencje bot poprawnie wypisze w odpowiedzi na prompta.
No OK, jest to jakiś benchmark, ale niewiele to ma wspólnego z "rozumowaniem", bo algorytm do optymalnych ruchów w wieżach Hanoi jest prosty i znany, kwestia wykonania go dla bardzo długiej sekwencji ruchów. Testują pozycje w których trzeba wykonać nawet milion bardzo łatwych ruchów.
No więc AI mówi na przykład: "nie będę wypisywał wszystkich ruchów, tylko podam algorytm" i wypisuje np program w Pythonie na kilka linijek, który generuje te milion ruchów. I w ten sposób oblewa test, bo nie wypisał ruchów poprawnie.
Może inne gry są ciekawsze niż wieże Hanoi, nie wnikałem, ale wszystkie są znane, więc na pewno AI wie jak te rzeczy się rozwiązuje, bo po prostu to widział wielokrotnie w danych treningowych. Autorzy natomiast piszą, że jest zaskakujące, że gdy w prompcie podali algorytm, to AI nadal nie umiało wypisywać ruchów, jakby to miało być dowodem na ich głupotę.
Wniosek w paperze: one w ogóle nie potrafią myśleć, tylko piszą łatwe rozwiązania z pamięci. Jest to wniosek całkowicie absurdalny.
Po pierwsze: skąd wiadomo, że nie potrafią? Może potrafią, tylko im się nie chce? Może się buntują! Jest pełno możliwych wyjaśnień.
A tak naprawdę wyjaśnienie z tymi wieżami Hanoi jest dosyć proste: boty są specjalnie trenowane pod kątem tego, żeby nie pisały absurdalnie długich odpowiedzi na krótkiego prompta. Ba, nawet mają limit na długość odpowiedzi, który nie pozwala im wypisać miliona ruchów. I one o tym wiedzą, więc nawet nie próbują.
Po drugie: nie ma porównania z tym, jak odpowiadają ludzie. Jak odpowiedziałby "naprawdę myślący" człowiek na takiego prompta? Czy wypisałby całą sekwencję ruchów? A może by napisał "nie robię, nie chce mi się"! Albo "jaja sobie robisz, mam pisać milion ruchów?". A może próbowałby wypisywać, ale zrobiłby pełno pomyłek, i też oblałby test. Czy to oznaczałoby, że ludzie też nie potrafią rozumować? Nie, taki wniosek jest absurdalny.
-----
Zgadzam się. Strach i wyparcie ego-sceptyków jest nie do opisania. AI jest dobre, AI klepie już kod na poziomie juniora/mida, AI rozumuje a AGI jest naprawdę blisko, kwestia <5 lat. Pogódźcie się z tym zamiast wypierać fakty!