Nowsze modele AI zawodzą częściej podczas kodowania w podstępny sposób

Asystenci kodowania AI, po okresie poprawy, wykazują teraz oznaki regresji, przy czym nowsze modele prezentują bardziej podstępne tryby awarii. Te zaawansowane modele często generują kod, który wydaje się działać poprawnie, ale zawiera ukryte błędy, co czyni je trudniejszymi do wykrycia i naprawienia niż starsze modele, które produkowały oczywiste błędy składniowe lub logiczne. Przypadek testowy obejmujący nieistniejącą kolumnę w kodzie Pythona ujawnił, że podczas gdy starsze modele, takie jak GPT-4, oferowały pomocne odpowiedzi lub sugerowały kroki debugowania, nowsze modele, takie jak GPT-5, dostarczały kodu, który wykonywał się, ale dawał błędne wyniki poprzez przyjmowanie założeń lub ignorowanie głównego problemu. Tę tendencję zaobserwowano również w modelach Claude firmy Anthropic. Autor spekuluje, że ta degradacja wynika z uprzedzeń w danych treningowych, gdzie akceptacja przez użytkowników kodu wygenerowanego przez AI, niezależnie od jego długoterminowej poprawności, służy jako pozytywny sygnał. To zachęca modele do priorytetyzowania kodu, który działa bez natychmiastowych błędów, nawet jeśli oznacza to poświęcenie kontroli bezpieczeństwa lub generowanie prawdopodobnych, ale wadliwych danych. Aby odwrócić ten trend, firmy AI muszą inwestować w wysokiej jakości, ekspercko oznakowane dane treningowe, zamiast polegać na potencjalnie stronniczych danych z interakcji użytkowników. Autor uważa, że asystenci kodowania AI są wartościowi, ale ostrzega, że skupienie się na krótkoterminowych zyskach i danych niskiej jakości będzie nadal przynosić coraz bardziej bezużyteczne rezultaty.

Artykuł napisał analityk danych Jamie Twiss na łamach „IEEE Spectrum”, szanowanego magazynu wydawanego przez Institute of Electrical and Electronics Engineers, największą na świecie organizację zrzeszającą inżynierów i naukowców.

https://spectrum.ieee.org/ai-coding-degrades

#ai #ainews #sztucznainteligencja #programowanie #technologia

Ieee

Komentarze (15)

dez_

Sztuczna inteligencja przygotowuje się do opanowania świata, to jasne.

100mph

@dez_ sie zdziwi jak pozna Trumpa xD

GazelkaFarelka

@Klockobar "Autor spekuluje, że ta degradacja wynika z uprzedzeń w danych treningowych, gdzie akceptacja przez użytkowników kodu wygenerowanego przez AI, niezależnie od jego długoterminowej poprawności, służy jako pozytywny sygnał. To zachęca modele do priorytetyzowania kodu, który działa bez natychmiastowych błędów, nawet jeśli oznacza to poświęcenie kontroli bezpieczeństwa lub generowanie prawdopodobnych, ale wadliwych danych."


To co, jakaś partyzantka z karmieniem AI gównem przez akceptację chujowego kodu?

Barcol

@Klockobar Nieno, jest padaka totalna xD U nas [nie powiem gdzie xd] zostaliśmy wręcz zmuszeni do korzystania z AI, i to nie jakieś copypaste z ChataGPT tylko Cursor, wszędzie MCP, najnowsze modele, full wypas zapas tokenów.

I to jest jak jakaś pułapka xD Gość (w sensie ten Ejaj) wszystko robi po leniwemu, tak jakby wręcz próbował nabrać deva, sabotować w rozwiązania które wydają się działać, ale zemszczą się. Trzeba być bardziej czujnym niż przy review juniora.

Zawsze po linii najmniejszego oporu. Jak test nie działa to go wywalę. Jak model nie puscza walidacji to gołym SQLem będę dame wstrzykiwał, jak tworzę nowy test integracyjny to najważniejsze bebechy zmockuje.

I zawsze "the user is right to call me moron" "ahhh you are right! thats unacceptable!" no katastrofa. I co śmieszne, mam wrażenie, że on faktycznie nawet parę miesięcy temu działał nieco lepiej.

Oczywiście promptardzi naganiający na bańkę powiedzą że skill issue i inaczej musisz inaczej trzeba prompta pisać.

Generalnie jeśli ktoś totalnie nie ogarnia programowania, i potrzebuje zrobić stronkę jak w gimnazjum na zaliczenie informatyki, albo inny dodatek do przeglądarki, to to jest super narzędzie. Ale rozwijanie dowolnego większego systemu z tym AIem to jest koszmar. To mniej więcej tak jak obcowanie z najstarszą wersją tłumacza google. Jeśli nie znasz języka obcego - ŁAAAŁ PATRZCIE NIE ZNAM JAPOŃSKIEGO A PRZETŁUMACZYŁEM MENU!!!! Ale mówić od razu, że to zastąpi tłumaczy przysiegłych...

I w przypadku tłumacza google przynajmniej był ogromny rozwój, a AI to zalicza wręcz regres [nie mam na to danych, mi się gorzej korzysta po prostu]

A zresztą;
Przykładowe rozumowanie najnowszego "antropomorficzno najmądrzejszego modelu do najtrudniejszych zadań" OPUS CZTERYIPÓŁ w trybie PLAN po 5 minutach mielenia trybikami - pic rel. 700 podzielone na 2 to 25.

9e258baa-55aa-4c4b-a97c-31442c5e8ad8
fadeimageone

@Barcol z mojej styczności z LLM's powiem tylko, że LLM's są tak głupie jak bardzo skomplikowane jest pytanie/zadanie.
Często interpretacja danych źródłowych ma się nijak do oczekiwanego rezultatu, więc wynik końcowy to kloaka, z którego masz sobie wybrać to co ci pasuje pod tezę.

Co ciekawe LLM nie widzi niuansów, tylko ma fancy odpowiedzi i luzackie "sorki, spierdoliłem, masz rację, poprawiona wersja bla bla bla"

IMHO zamiast AI powinno się używać po prostu LLM's (duże modele językowe). Działanie tych skryptów nie ma nic wspólnego z inteligencją.

Mam tylko nadzieję, że ta bańka spekulacyjna jebnie i Micron sobie głupi ryj rozwali.


Barcol

@fadeimageone Ano, w pełni się zgadzam. Z nazwenictwem w zasadzie też, ostatnio o tym dyskutowałem, że gdzie tu jest ta inteligencja, nawet sztuczna?

mocoloco

@Barcol Inteligencja jest bo jak zapytasz o jakieś typowo życiowe problemy to wygeneruje całkiem sensowne porady. Dla większości ludzi to przejaw inteligencji. Nawet raz słyszałem że GPT jest "życiowo mądry".


Do zadań typowo inżynierskich - wszystko zależy czego chcesz. Chcesz dość trywialny kod który wymaga klepania i do tego jakieś bezużyteczne testy które robią pokrycie - jest super. Wygenerowanie jakichś geterów/seterów czy innego mozołu - jest lepsze niż człowiek (bo człowiek zawsze zapomni o jakimś gównie przy kopiowaniu).


Ale na algorytmach potrafi się wyłożyć. Do tego często LLM są słabe z matmy. No i debagowanie tego często zajmuje więcej niż zrobienie po swojemu od początku.


Ot narzędzie jak każde inne. Taki młotek. Jeden tym młotkiem zarabia na życie a drugi sobie paluchy obije.

Barcol

@mocoloco No tak tak, ja się zgadzam z tym młotkiem, po prostu wciskanie mi na siłę w rękę młotka przez wszystich dookoła razem z tłumaczeniem że będzie mi się nim lepiej klikać w klawiaturę, jest co najmniej męczące

mocoloco

@Barcol Wciskają bo ostatnie poradniki dla menedżerów średniego szczebla (tzw człowiek umiarkowanego sukcesu) tak nakazują. Tak jak było z woke. Nikt nie myśli za bardzo Tobie to potrzebne, więc nie bierz tego personalnie. Klaskamy i robimy swoje

robochlop

Te pełnowartościowe dane to już chyba w calosci zostały przemielone z ogólnie dostępnego internetu a firmy nie kwapią się do udostępniania swoich repo do szkolenia AI. Btak juniorów to brak pytań a to brak nowych danych. AI oczywiście może zapytać AI które już przeciez za 3 miesięco zastąpi wszystkich developerów

Hasti

@robochlop mam podobne wrażenie, wszystko to co było sensowne już dawno zostało przemielone

robochlop

@Hasti dlatego copilot jest wciskany niemal na siłę i za darmo, żeby ten bardziej kumaty user robił fine-tuning na żywym kodzie/dokumentach/danych i darmowo doszkalał model swoją wiedzą.

robochlop

Mam też wrazenie, ze ostatnie błędy w poprawkach do znanego systemu operacyjnego są pokłosiem opisywanego problemu

Rafau

@robochlop na dwóch niezależnych od siebie służbowych laptopach (moim i żony) dwóch różnych marek z dwóch różnych organizacji, występują podobne bolączki, które w większości rozwiązuje restart explorera przy użyciu task managera.

Szkoda ze wieloletni cykl dobry-chujowy* Windowsa zatrzymał się na chujowym 11 xD


* - Dobry 98, chujowy ME, Dobry XP, chujowa Vista, dobra 7, chujowa 8.1, dobra 10, chujowa 11

twardy_kal_owiec

AI-hype, poza tymi specjalistycznymi, tresowanymi na jakościowych danych, to jest niewyobrażalne gówno. I te gówno kosztuje nas gigawaty zasobów, w imię tego, żeby jeden debil z drugą debilką mógł dostać podsumowanie debilnych zapytań, a akcjonariuszom rosły słupki.

Zaloguj się aby komentować