DeepSeek – firma, która zrewolucjonizowała proces trenowania modeli AI, redukując koszty o ponad 95%, a jednocześnie osiągając wyniki porównywalne z najlepszymi modelami, takimi jak GPT-4 czy Claude.


Jak to zrobili? Przez całkowite przemyślenie dotychczasowych założeń i procesów.

Tradycyjne trenowanie modeli AI to koszmar pod względem kosztów. OpenAI czy Anthropic wydają ponad 100 milionów dolarów tylko na moc obliczeniową, wykorzystując ogromne centra danych z tysiącami drogich procesorów graficznych (GPU).

Tymczasem DeepSeek udowodnił, że można to zrobić za jedyne 5 milionów dolarów.


Kluczowe innowacje DeepSeek:

- Efektywne zarządzanie pamięcią:

   Tradycyjne modele AI przechowują dane na 32bitach, co wymaga ogromnych zasobów pamięci. DeepSeek zapytał: "Ale dlaczego 32? W zupełności wystarczy 8", pozwoliło to na zmniejszenie wymagań pamięci o 75%.

- System „multi-token”:

   Zamiast przetwarzać tekst słowo po słowie jak klasyczne LLM "Wróbel... siedział... na...", DeepSeek analizuje całe frazy na raz. To sprawia, że proces jest dwa razy szybszy przy zachowaniu 90% dokładności.

- System ekspertów (MoE - Mixture of Experts):

   Zamiast jednego ogromnego modelu uruchomionego CAŁY CZAS, DeepSeek wprowadził system wyspecjalizowanych modeli. Każdy z nich uruchamiany jest tylko wtedy, gdy jest potrzebny, co drastycznie zmniejsza ilość aktywnych parametrów (671 miliardów ale tylko 37 miliardów aktywnych na raz). Nie jest po pomysł nowy (używany wcześniej między innymi w modelach Mixtral) ale pierwszy raz zastosowany w tej skali


Rezultaty?

- Koszt trenowania spadł z 100 milionów do 5 milionów dolarów.

- Liczba potrzebnych GPU zmniejszyła się z 100 000 do 2 000.

- Koszty API są niższe o 95%.

- Modele mogą być uruchamiane na standardowych GPU dla graczy zamiast drogich GPU serwerowych.


Co ważne, DeepSeek postawił na otwartość. Kod i dokumentacja są publicznie dostępne, co otwiera drzwi dla mniejszych firm i indywidualnych innowatorów.


Dlaczego to ma znaczenie?

Demokratyzacja AI

   Dotychczas tylko najwięksi gracze z ogromnymi budżetami mogli trenować zaawansowane modele. Teraz proces ten staje się dostępny dla mniejszych podmiotów.


Zagrożenie dla dużych firm

Nvidia, dominujący dostawca GPU, może odczuć konsekwencje, gdyż ich model biznesowy opiera się na sprzedaży drogich procesorów z ogromną marżą.


Nowa fala innowacji

Mniejsze wymagania sprzętowe i finansowe oznaczają większą konkurencję, co może przyspieszyć rozwój całej branży.


Podsumowując, DeepSeek zadał pytanie: „Co, jeśli zamiast rzucać coraz więcej sprzętu, po prostu zoptymalizujemy proces?”

Odpowiedzią są przełomowe wyniki, spadek kursu NVIDIA na giełdzie i PANIKA w meta i OpenAI


#zajebaneztwittera #llm #sztucznainteligencja #nvidia

44b21698-808a-47e7-b141-99d03d3fc2f6

Komentarze (76)

@entropy_ - a co mówiłem nie tak dawno o tym, że właśnie wchodzimy w fazę optymalizacjami kosztów AI bo te są zbyt duże by się AI w obecnej formie opłacało ciągnąć?

@koszotorobur A mówiłeś, ale po prawdzie gdyby nie kińscy naukowcy to nikt by się nie wziął za obniżenie kosztów.

OpenAi i tak dostawał tyle kasy od inwestorów tyle ile chciał i nikomu absolutnie nie zależało na poprawie dopóki kasa płynie. Inwestorzy happy bo lider rynku, Nvidia happy bo zbyt, OpenAi happy bo wszyscy mogą tylko gonić ich ściśle tajną technologię.

@entropy_ - prędzej czy później fundusze oczekiwałyby zwrotu z inwestycji - nie da się pakować miliardów latami bo ludzie są niecierpliwi i łasi na kasę - ale wygląda na to, że chińczycy ten proces o kilka miesięcy przyśpieszyli.

@koszotorobur @sawa12721 Ja nie wierzę w to, że Chińczycy tak z dobrego serca ten model wypuścili. Zrobili to (według mnie) żeby zdestabilizować rynek i nie pozwolić USA na dominację na tym polu.

@koszotorobur @entropy_ taka delikatna ciekawostka — tego samego dnia, kiedy LLM Deepseeka ujrzał światło dzienne, to jego założyciel, pan Liang Wenfeng udał się na sympozjum premiera Li Qianga dotyczącym raportu z prac rządu i był tam jedynym przedstawicielem firm zajmujących się LLMami


Czy ciekawe czy nie, to już nie mi oceniać

@koszotorobur @entropy_ zresztą w ogóle miałem napisać coś więcej o DeepSeek, ale noż czasu nie mam, a tematów mnóstwo xD W każdym razie sporo źródełek się wysypało, mogę Wam coś podrzucić

@koszotorobur @bojowonastawionaowca według mnie nie tyle psują jakość co nie dopuszczają do objęcia totalnej dominacji.

Bardziej im się opłaca zrobić tornado w szalecie jak pozwolić żeby 90% opłaty za kibel trafało do usa.

Dali recptę wszystkim na takie obniżenie kosztów, że znam ludzi których stać to sfinansować samemu bez udziału nawet pożyczki z banku przy tych kosztach.

W meta i openai teraz to się wszyscy zesrali w gacie bo przy takiej redukcji kosztów orzenia i użytkowania ikt nie będzie ich potrzebował za 2 lata.

@bojowonastawionaowca zrób jak ja z tym postem. Wruciłem dwa wątki z tt do deepseeka i kazałem podsumować po polsku xD

Poprawiłem kilka zdań bo za bardzo uprościł (polski język się i tak średnio nadaje do technicznej dyskusji na ten temat), dodałem tagi i gotowe xD

@entropy_ ciekawy wpis. Z jednej strony fajnie, z innej jakoś tak średnio ufam Chińczykom, nawet w sferach open source.


Czyli obecnie mamy 90% normy z GPT4? Ciekawe jak tu wypada 1o, bo chyba ten odmienny model rozwoju nadal daje OpenAi bardziej "rozumne" Ai, choć kosztem niebotycznie wyższym.

@Dziwen o1 i R1 od deepseek działają na zasadzie CoT (Chain of Thought), R1 przed udzieleniem odpowiedzi w tagach <think> </think> rozważa różne możliwości i dopiero udziela odpowiedzi na Twoje zapytanie.

O1 robi to samo ale OpenAi chowa przed użytkownikiem tą część odpowiedzi (żeby jak najdłużej zostać liderem na rynku nie pokazują jak ich model pracuje)

@entropy_ Łe, jestem rozczarowany-myślałem, że zredukowali koszty o 95% poprzez zwolnienie pracowników, a tu takie zaskoczenie.

@Chrabonszcz otwartych zapytan i brak cenzury w odpowiedzi. A nie że dostaje odpowiedź w stylu że nie może pomóc w tej sprawie. Ale jak wpisujesz w wyszukiwarkę to samo to odpowiedź na pierwszym miejscu.

@Pstronk nie mam pojęcia. Tak naprawdę to chodziło mi o to, że spodziewam się problemów społecznych, w wyniku których wiele osób samodzielnie odłoży łyżkę.

@Pstronk w Indiach, Bangladeszu i w innych gówno krajach w Afryce, gdzie żyją w nędzy, zabijają się na lewo prawo i robią po kilkanaście dzieci.


Chociaż nie wiem jak AI w tym pomoże...

@Dzban3Waza praca daje jakiś tam sens życia. Dla jednych to będą tylko pieniądze, a dla innych potrzeba bycia potrzebnym, kreatywnym, dążenie do jakiegoś celu.


Jeśli zdarzyłoby się, że nagle większość zawodów stanie się zbędna i nie pojawi się nic sensownego w zamian, to co zostanie? Dochód podstawowy i marazm. Albo tylko marazm.

@rakokuc dlaczego od razu marazm? Ja naprzykład lubię pracować XD Jeśli dodatkowo mój byt nie byłby zależny od tego jak konkretnie pracuje to mógłbym się poświęcić pracy którą lubię i/lub hobby. Podejrzewam też, że nie jestem jedyny. Posiedź na L4 tak pół roku-rok to też docenisz pracę noe za pieniądze, a za samą właśnie pracę ¯\_( ͡° ͜ʖ ͡°)_/¯

@LaMo.zord o pracy dla (jakkolwiek dziwnie to nie brzmi) przyjemności też wspomniałem. I założyłem, że takiej pracy też nie będzie, bo po cholerę człowiek ma się wpieprzać maszynom, gdzie nawet jak robi za darmo, to trzeba go pilnować. Albo żeby niczego nie zepsuł, albo żeby sobie niczego nie zrobił - bo jednak ktoś będzie dalej za to odpowiadał.


A coś takiego jak dochód podstawowy nie będzie raczej wprowadzone (o ile w ogóle) po to, żeby wszyscy mieli raj i robili co im się podoba, tylko żeby się nie pozabijali. Także zarówno pod względem ekonomicznym jak i "rozrywkowym", brak pracy dla ludzi nie zapowiada się na życie w królestwie chrystusowym.


Może się mylę, może powinienem zacząć łykać Prozac, może pozwolą kiedyś Błaszczykowskiemu na powtórzenie tego pamiętnego karnego? Kto to wie.

@rakokuc @Chrabonszcz

Problem przeludnienia rozwiązuje się sam na naszych oczach. Nawet w Afryce czy Indiach, Bangladeszu współczynnik narodzin spada mocno.

@bartek555 szczerze, za chwilę amerykańskie korpo skopiują ten pomysł i to by było tyle ze spadków na giełdzie Zresztą, pewno dzisiejszego dnia pierdylion teamów w googlu i nvidi dostało tego taska do machnięcia asapem.

@bartek555 IMO to jest tylko chwilowy drop spekulantów. Na ten moment NVIDIA i tak ma praktycznie monopol na produkcję hardware, przecież deepseek był dosłownie na tym wytrenowany. Ja to bym się teraz zaladowal, ale to nie jest porada finansowa ( ͡° ͜ʖ ͡°)

@bartek555 tak łatwo tego drugiego rogala nie odrobisz ( ͡° ͜ʖ ͡°)


Tak zupełnie poważnie to naprawdę nie widzę podstaw do tego, żeby NVIDIA nie miała zaraz odbić, więc popatrzę jeszcze dzień dwa i chyba sam wejdę.

@bartek555 Noo i proszę państwa już frunie, a jeszcze pofrunie, Ja generalnie nie zamierzam łapać spadających noży, ale Amerykanie nie zamierzają dać się Chińczykom zrobić w taki sposób.


Co do "premiery" Nvidii to wyszło dość słabo, "Gaming Jesus" to ślicznie podsumował:

https://www.youtube.com/watch?v=wMd2WHKnceI

A co do tego, czy warto się przejmować serią 5000 to bardzo fajne filmy ma Pan Lipton:

ŁoBoże ŁoJezu 5080:

https://www.youtube.com/watch?v=nZn74CHG0mo

Czy 5090 wgl ma sens:

https://www.youtube.com/watch?v=4taX2n0f2tY

5080 po O/C, szału ni ma:

https://www.youtube.com/watch?v=tJR3yYOe0D8


Z mojej strony póki mój złom z gtx970 się nie rozleci gram nadal w Baldury, gdy regeneruję po biegach ^_^

https://pl.wikiquote.org/wiki/Baldur%27s_Gate#Minsc

"Przekroczyliście wszelkie granice! Zakosztujcie, jak smakuje sprawiedliwość chomika!"

87f9f90f-c723-49d9-9947-fbee55196fbc

Due to large-scale malicious attacks on DeepSeek's services, registration may be busy. Please wait and try again. Registered users can log in normally. Thank you for your understanding and support


Ciekawe kto ich tak atakuje :D

Albo to ściema, bo im serwery siadły.

@Iknifeburncat łatwo obejść cenzurę. Wystarczy zapytać co się działo pięć dni przed 9 czerwca 89, w kraju który jest sąsiadem zarówno Rosji jak i Indii

Tylko taka uwaga - to jest "open source" ale bez "open zbiór danych na których uczyliśmy sieć". A to samo w sobie też może być swojego rodzaju sekretnym sosem

@entropy_ nigdy nie jest tak że ma się cudowne dziecko. O wadach tu nic nie ma. Natomiast tak. Będzie dochodzić do optymalizacji kosztów.


Nie ma żadnej paniki. Bez przesady. Większość spółek na gieldzie jest przeszacownych i to mocno. Szczególnie aktualnie nvidia

Ciekawa alternatywa, rozmawia sensownie, pisze kody, ma dostęp do info do 2023 ale może przeszukać net w poszukiwaniu info

Tylko trochę muli i nie zapamiętuje informacji

Będę na pewno dalej testować

Zaloguj się aby komentować