
OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.
YouTubeBenchmark jest bardzo prosty dla ludzi (przykład na obrazie) albo bardzo trudny dla AI. 85% to granica jaką osiąga przeciętny człowiek. Benchmark nie opiera się na wiedzy encyklopedycznej, ale sprawdza umiejętność generalizacji - wnioskowania o rzeczach podobnych na podstawie innych rzeczy.
#openai #sztucznainteligencja #ai #agi #si #technologia #ciekawostki #nauka #uczeniemaszynowe #chatgpt
Warto też dodać, że o3 osiąga gigantyczny wręcz skok w jednym z najtrudniejszych (jeśli nie najtrudniejszym) benchmarku matematycznym. Benchmark ten zawiera prywatny zbiór zadań (przygotowane specjalnie dla niego i nie opublikowane = brak możliwości "nauczenia" się modelu odpowiedzi) które według twórców są na tyle skomplikowane, że ekspertom z danej dziedziny rozwiązanie jednego jednego zadania może zabrać kilka godzin pracy, a nawet więcej.