Wklejam tekst mireczka, bo ciekawy.


https://wykop.pl/wpis/79949463/o-co-chodzi-z-deepseek-juz-tlumacze-najpierw-troch


O co chodzi z #deepseek ? Już tłumaczę!


Najpierw trochę kontekstu: Obecnie trenowanie najlepszych modeli AI jest NIEWYOBRAŻALNIE drogie. OpenAI, Anthropic i inne firmy wydają ponad 100 milionów dolarów tylko na moc obliczeniową. Potrzebują ogromnych centrów danych z tysiącami kart GPU wartych po 40 tysięcy dolarów każda. To jak posiadanie całej elektrowni tylko po to, aby zasilić fabrykę.

DeepSeek właśnie się pojawił i powiedział: „LOL, a co jeśli zrobimy to za 5 milionów dolarów zamiast tego?”. I nie tylko o tym mówili – oni to naprawdę ZROBILI. Ich modele dorównują GPT-4 i Claude'owi lub przewyższają je w wielu zadaniach

Jak? Przemyśleli wszystko od podstaw. Tradycyjne AI jest jak zapisywanie każdej liczby z dokładnością do 32 miejsc po przecinku. DeepSeek stwierdził: „A co, jeśli użyjemy tylko 8? Wciąż będzie wystarczająco dokładne!”. Bum – o 75% mniej pamięci potrzebne.

A potem jest ich system „multi-token”. Normalne AI czyta jak pierwszoklasista: „Kot... siedzi... na...”. DeepSeek czyta całe frazy naraz. Dwa razy szybciej, 90% tej samej dokładności. Przy przetwarzaniu miliardów słów to MA ZNACZENIE.

Rezultaty są oszałamiające:

- Koszt treningu: 100 mln $ → 5 mln $

- Liczba potrzebnych GPU: 100 000 → 2 000

- Koszty API: 95% taniej

- Może działać na gamingowych GPU zamiast sprzętu z centrów danych

„Ale zaraz,” możesz powiedzieć, „musi być jakiś haczyk!”. I tu jest ta niesamowita część – wszystko jest open source. Każdy może sprawdzić ich pracę. Kod jest publiczny. Dokumenty techniczne wyjaśniają wszystko. To nie magia, tylko niezwykle sprytna inżynieria.

Dlaczego to ma znaczenie? Bo łamie model, w którym „tylko wielkie firmy technologiczne mogą działać w AI”. Nie potrzebujesz już centrum danych wartego miliardy dolarów. Wystarczy kilka dobrych GPU.

Dla Nvidii to przerażające. Cały ich model biznesowy opiera się na sprzedaży superdrogich GPU z marżą na poziomie 90%. Jeśli nagle każdy będzie mógł robić AI na zwykłych gamingowych GPU... no cóż, widać, gdzie leży problem.

To klasyczna historia o disruptorach: obecni liderzy optymalizują istniejące procesy, podczas gdy disruptorzy przemyślają fundamentalne podejście. DeepSeek zadał pytanie: „A co, jeśli po prostu zrobimy to mądrzej, zamiast rzucać w to więcej sprzętu?”.

Konsekwencje są ogromne:

- Rozwój AI staje się bardziej dostępny

- Konkurencja rośnie dramatycznie

- „Fosy” dużych firm technologicznych zaczynają wyglądać jak kałuże

- Wymagania sprzętowe (i koszty) gwałtownie spadają


Ostatnia myśl: To wygląda na jeden z tych momentów, do których będziemy wracać jako punkt zwrotny. Jak wtedy, gdy komputery osobiste uczyniły mainframe'y mniej istotnymi, czy kiedy chmurowe obliczenia zmieniły wszystko.

AI zaraz stanie się o wiele bardziej dostępne i znacznie tańsze. Pytanie nie brzmi, czy to zakłóci rynek, ale jak szybko.


#technologia #chatgpt #chiny #nvidia #kartygraficzne #gielda #sztucznainteligencja #ai #informatyka

AlvaroSoler userbar

Komentarze (12)

serel

Mam wrażenie że to już czytałem, i to nie na wypoku

dez_

Czyli w sumie to że USA ma nas w 2 kategorii nie ma takiego znaczenia?

tosiu

@dez_ dziś zdaje się Tusk ogłaszał, że budujemy jakieś wielkie centrum AI, więc chyba nie

m_h

@dez_ Czekam na jakiś trick matematyczny który przyspieszy dramatycznie obliczenia w LLMach. Coś na wzór "fast inverse square root" z quake 3:

https://youtu.be/p8u_k2LIZyo?si=P5p0HacsgmkwR4E1

mordaJakZiemniaczek

@m_h Myślę, że podobnie jak z procesorami, jest duże pole do manewru dla kombinujących a już nie rzucania coraz większej mocy obliczeniowej. Kojarzy mi się to z wywiadem z Jimem Kellerem, projektantem procesorów. Pytany o prawo Moore`a (no bo przecież nie da się już zejść na mniejsze układy) ciekawe opowiada o tym, że jest masa innych potencjalnych usprawnień.

https://www.youtube.com/watch?v=Nb2tebYAaOA


EDIT: sorry za źródło, Lex to naiwny matołek i putinowski apologeta, ale w czasach jak go KGB lansowało udało mu się przepytać na prawdę ciekawe osoby

m_h

@mordaJakZiemniaczek dokładnie. Sam swego czasu zrobiłem współpracownikom szkolenie z wymuszania "branch less" kodu na kompilatorze. Byli wręcz zszokowani ile można tym osiągnąć.

Gamtaro2

@AlvaroSoler W tym tekście można się zgodzić tylko z jednym - maleje próg dostępu do tworzenia modeli językowych. Giganci ze stanów nadal będą inwestować miliardy w ich rozwój, bo ścigają się na benchmarki, który z modeli jest lepszy, a że śpią na kasie to nie przeszkadza im jej przepalanie

Zaloguj się aby komentować