Popularne artykuły

Popularne dyskusje

Kategorie

Popularne tagi

OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy. - NrmvY - Hejto.pl

Hejto

>Wpisy

>OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

YouTube

NrmvY

★Osobistość

w e/acc 2024-12-20T19:49:49+01:00

OpenAI model o3 przebija barierę 85% (poziom ludzi) w bardzo trudnym benchmarku ARC-AGI.

Benchmark jest bardzo prosty dla ludzi (przykład na obrazie) albo bardzo trudny dla AI. 85% to granica jaką osiąga przeciętny człowiek. Benchmark nie opiera się na wiedzy encyklopedycznej, ale sprawdza umiejętność generalizacji - wnioskowania o rzeczach podobnych na podstawie innych rzeczy.

#openai #sztucznainteligencja #ai #agi #si #technologia #ciekawostki #nauka #uczeniemaszynowe #chatgpt

YouTube

Komentarze (9)

NrmvY 2024-12-20T19:56:03+01:00

Warto też dodać, że o3 osiąga gigantyczny wręcz skok w jednym z najtrudniejszych (jeśli nie najtrudniejszym) benchmarku matematycznym. Benchmark ten zawiera prywatny zbiór zadań (przygotowane specjalnie dla niego i nie opublikowane = brak możliwości "nauczenia" się modelu odpowiedzi) które według twórców są na tyle skomplikowane, że ekspertom z danej dziedziny rozwiązanie jednego jednego zadania może zabrać kilka godzin pracy, a nawet więcej.

NrmvY 2024-12-20T19:57:33+01:00

Tabela wyników na ten moment:

NrmvY 2024-12-20T20:06:17+01:00

Dla chętnych wpis na blogu ARC-AGI:

https://arcprize.org/blog/oai-o3-pub-breakthrough

Ważny fragment:

Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.

Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub

OpenAI o3 scores 75.7% on ARC-AGI public leaderboard.

ARC Prize

NrmvY 2024-12-20T20:14:01+01:00

Przykład pytania, z którym o3 nie poradził sobie nawet mimo "przepalenia" mocy obliczeniowej wartej kilka tysięcy dolarów.

https://x.com/fchollet/status/1870172872641261979

x.com

Twitter

Jarasznikos 2024-12-20T22:17:33+01:00

@NrmvY Zawsze w takich kwestiach zastanawia mnie, ile mocy obliczeniowej potrzeba do takich rezultatów? Oraz ile mocy/roboczogodzin potrzeba by dalej taki model rozwijać.

lat666 2024-12-20T22:20:33+01:00

@Jarasznikos elektrownia atomowa ledwo starczy... a najgorsze, że to nadal giga wyszukiwarka a nie sztuczna inteligencja

Jarasznikos 2024-12-21T11:21:21+01:00

@lat666 Jakby uprzeć się to nasz umysł też jest pewnego rodzaju wyszukiwarką, bo przecież wymyślamy rzeczy na podstawie innych rzeczy które już znamy (chociażby słów czy liczb). Natomiast fakt, to nie sztuczna inteligencja i modele językowe.

pluszowy_zergling 2024-12-20T22:39:53+01:00

Ciekawe, czy za jakiś czas te modele nie zaczną być używane do rozwiązywanie najtrudniejszych pytań w naukach ścisłych, żyjemy w niesamowitych czasach, świat może się bardzo zmienić przez kolejne 20-30 lat.

NrmvY 2024-12-20T22:51:20+01:00

@pluszowy_zergling już zaczynają. Nawet jeśli nie na poziomie bezpośredniego badania nieznanych rzeczy, to na poziomie wyszukiwania powiązań których nie znaleźli naukowcy, bo informacji jest więcej niż możemy jako ludzie przetworzyć. Polecam filmik w tym temacie

https://www.youtube.com/watch?v=Qgrl3JSWWDE

Zaloguj się aby komentować