Moje wczorajsze video o DeepSeek AI (to na którym model sam się ocenzurował po udzieleniu "niewygodnej" odpowiedzi) viraluje. Ale poprawność polityczna tej apki nie powinna Wam przysłaniać tego, że modele od DeepSeek mają wiele zalet i dosłownie wywróciły stolik na arenie AI. Dlatego, dla pełności obrazu, łapcie pigułę wiedzy na temat DeepSeeka, o którą nikt nie prosił:


DeepSeek namieszał przede wszystkim z 2 powodów:

Został opublikowany jako Open Sorce. Każdy może sprawdzić jak działa i użyć go "za darmo", także w celach komercyjnych. Tego nie oferuje ChataGPT/OpenAI, który ma zamknięty kod źródłowy.

Jest pod każdym względem tańszy niż konkurencja (ChatGPT, Gemini, Claude). 30x tańszy.


Niższe koszty szkolenia i działania zostały osiągnięte poprzez kilka sprytnych optymalizacji:


potrzebuje o 75% mniej pamięci, bo używa mniej precyzyjnego 8 bit floating point (co jednak nie powoduje istotnej straty w jakości),

korzysta z podejścia MoE (Mixture of Experts), czyli zadaniem nie zajmuje się jedno wielkie AI, a wyspecjalizowane "podsieci" neuronowe, których praca jest mniej zasobożerna (zamiast 671 miliardów parametrów aktywnych jest 37 miliardów),

jest multi-tokenowy, czyli przewiduje nie jeden token, a kilka.


Dzięki tym ulepszeniom, w zasadzie każdy może sobie na własnym laptopie pohostować lokalnie profesjonalny model, który aktualnie w testach przebija (!) lub dorównuje obecnym (byłym?) liderom. A koszt korzystania z API DeepSeek to pół dolara za milion tokenów na wejściu, czyli 30 (!) razy taniej niż u OpenAI.


I dlatego NVIDIA poleciała w dół. Czy NVIDIA przez to permanentnie straci? Odpowiem przewrotnie: moim zdaniem może nawet zyskać. Bo tańsze AI oznacza więcej osób bawiących się w AI, a więc i większe potrzeby na może nie tak drogi, ale wciąż, sprzęt od NVIDII.


Odnosząc się jeszcze do wątku cenzury. Ona jest obecna w aplikacji, którą wydała chińska firma musząca przestrzegać chińskiego prawa. Po API nie ma. Sam model też można pobrać i uruchomić w wersji bez cenzury.


I na koniec - nie ma pewności, czy ekipa DeepSeeka faktycznie na trening swojego modelu wydała tylko 5M dolarów (vs 100M jakie wydaje OpenAI i reszta). To może być ściema, mogą celowo umniejszać koszty i zakres pracy, żeby wjechać na jeszcze czerwieńszym smoku. Ale mimo to Chińczycy i tak udowodnili, że da się robić AI sprawniej i taniej. Zdecydowanie taniej. A na dodatek wrzucili wszystko jako Open Source. I to jest właśnie ten "disruption". I ja się z tego bardzo cieszę. I nie mogę się doczekać, co teraz z kodem modeli DeepSeeka zrobi społeczność. I jak szybko te optymalizacje ukradnie do siebie gang OpenAI/Antropic/Google. Bo na tym rynku każdy kradnie od każdego.

https://x.com/niebezpiecznik/status/1884217427841462351

#ai #deepseek #chatgpt

Komentarze (5)

MostlyRenegade

@paulusll Miałem podobne przemyślenia. Z jednej strony to chińszczyzna, a jestem takowej przeciwny z zasady. Widzę tu zagrożenie nadmiernej ekspansji na rynku, które kiedyś znów odbije się nam czkawką.

Jest jednak jedna dobra rzecz - pokazali, że w dalszym ciągu istnieje potencjał rozwojowy, że modele można skutecznie skalować w dół i że wcale nie trzeba do tego niebotycznych inwestycji. Uważam, że Polska powinna ukraść ten model i rozwijać go we własnym zakresie.

dolitd

Nvidia może zyskać, ale firmy zajmujące się zamkniętym oprogramowaniem LLM stracą. Napompowali bańkę, skosili miliardy "bo tyle potrzeba", a tu Chińczyk pokazał, że da się to zrobić za promil kosztów. Ups.

dahomej

czy jeśli, jak rozumiem, do poszczególnych zadań używa poszczególnych podsieci neuronowych z mniejszą liczbą parametrów, to nie jest przez to mniej wszechstronny? (nie znam się)

Fly_agaric

To teraz czekamy na Hindusów.

pizzalover

A czy można poprosić wpis szkolący jak na maczku zainstalować sobie lokalnie tego deep seeeka? :) jak coś proszę wołać!

Zaloguj się aby komentować