Używaj cudzych prac do trenowania swojego modelu językowego - gicik mordo XD

Chińczycy używają twojego modelu do szkolenia swojego - tak k⁎⁎wa nie wolno.


J⁎⁎ać Sama Altmana.


#chatgpt #ai

0028256d-6032-423f-8a37-45553b925e97

Komentarze (36)

maximilianan

@Rozpierpapierduchacz to nie jest uczciwe...

jajkosadzone

@maximilianan

Wiesz,pewnie po prostu nie zaplacili grubej kasy

A mentalnosc kalego w biznesie? Nic nowego

entropy_

@maximilianan przecież po tym jak się okazało że openai sobie po prostu wzięło dane z reddita i twittera to wprowadzili STRASZNE ceny za api xD

maximilianan

@entropy_ czekam na wersję ultra premium, która myli się tak samo jak darmowa, ale kosztuje 2000 euro za tydzień

lurker_z_internetu

Nazywaj się OpenAI. Zamknij dostęp do wszystkiego co tworzysz.

A_a

@maximilianan chinczycy kradną rozwiązania innych i sprzedają je taniej jako swoje? Stare, znałem

DEAFCON_ONE

@A_a rozwiązania innych? Masz jakieś dowody na poparcie tej tezy? Bo weighty, implementacja i whitepaper są dostępne, a deepseek robi coś co było poza zasięgiem amerykańskich korpo (pozwala wytrenować LLMa wydając o parę rzędów wielkości mniej kasy)

DEAFCON_ONE

@A_a fakt że cały ich produkt jest zbudowany/rozwinięty na fundamentach pracy kogoś innego… ale to samo można powiedzieć o OpenAPI, które korzystało z researchu google i scrapowało dane srając na copyright (bo nie ma zastosowania jeśli akurat oni to robią)

lurker_z_internetu

@A_a jeżeli korzystanie z publikacji naukowych nazywasz kradzieżą to każdy uniwersytet świata jest organizacją przestępczą, a każdy naukowiec złodziejem.

maximilianan

@lurker_z_internetu Chińczycy przecież kradną patenty xD

lurker_z_internetu

@maximilianan ale w przypadku LLMów coś ukradli? Czy cała matematyka jest w otwartym dostępie?

DEAFCON_ONE

@maximilianan tylko tutaj żadnego naruszenia patentów nie ma, OpenAI zarzuca że wykorzystywali ich narzędzia do budowania swoich własnych[1] >:]. Jak to powiedział pan Altman – dosłownie fair use.


[1] właściwie to coś co jest opisane tutaj: https://www.ibm.com/think/topics/knowledge-distillation

Pstronk

Najśmieszniejsze że to chińczyki robią to co miało robić OpenAI zanim wyczuli interes

AureliaNova

@Pstronk i to za co OpenAI chciało gruby hajs, a oni wrzucili za darmo :P

DEAFCON_ONE

counterpoint: Intellectual property thief i copyright nie liczą się jeśli akurat potrzebujesz dużej ilości danych (dosłownie fair use).

Training AI models using publicly available internet materials is fair use, as supported by long-standing and widely accepted precedents. We view this principle as fair to creators, necessary for innovators, and critical for US competitiveness (…) it has long been clear that the non-consumptive use of copyrighted material (like large language model training) is protected by fair use.


The amount of data needed was staggering. It was that ‘unprecedented scale’ that allowed the model to internalize not only a ‘map of human language,’ but achieve a level of adaptability—and ‘emergent’ intelligence—that ‘no one thought possible.


https://openai.com/index/openai-and-journalism

Iknifeburncat

@DEAFCON_ONE no oczywiście, że OpenAI tak to widzi, a co mieli innego napisać?


To się mieści w granicach fair use TYLKO i wyłącznie dlatego, że ustawodawstwo jak zwykle nie nadąża za postępem technologicznym. Big tech dosłownie wykorzystuje fakt, że zapierdala jak dyliżans i systemy prawne są zbyt ociężale, żeby to weryfikować.


To jest zwykle wykorzystywanie luk prawnych do bezczelnej kradzieży własności intelektualnej.

AureliaNova

@Iknifeburncat i to za co UE jest krytykowana, że chciala uregulować ("nie mamy własnego modelu ale grubą książkę regulacji"). Deepseek to taki piękny bolec w tylki korpo żerujących na pracy innych, piękny dzień dla wolności w internecie.

DEAFCON_ONE

@Iknifeburncat ja to wiem, ty to wiesz, jedyny problem to to, że nie mamy za sobą miliardów zielonych do lobbingu. Odpowiedzialne korzystanie z technologi też zostało spuszczone w kiblu, prawie każda publiczna przestrzeń jest zasrana albo SEOgównem generowanym przez boty, albo propagandą generowaną przez boty.

Iknifeburncat

@DEAFCON_ONE dosłownie wczoraj oglądałem materiał od google nt rozwoju ich projektów (głownie AI) i Pani prowadząca materiał przekonywała, że oni swoje produkty rozwijają w sposób ODPOWIEDZIALNY. No chyba nie kłamała, prawda?

boogie

@maximilianan i ciekawe co im zrobią....

Iknifeburncat

@maximilianan a na to wszystko jeszcze wczoraj czytałem o wycieku przetwarzanych danych użytkowników w samym deepseek.


We can't have nice things

Dzemik_Skrytozerca

@maximilianan


Zgadzam się, aczkolwiek sprawa prawie na pewno ma bardziej skomplikowany charakter.


1. Chińczycy ignorują prawo zachodnie.


2. Nie zdziwiłbym się, gdyby Deepseek używało płatnych dostępów do openai do wtórnej weryfikacji swoich odpowiedzi. Tak jak np. Bing był posądzany o strzelanie do Google z niektórymi zapytaniami.

Catharsis

@Dzemik_Skrytozerca Ale ludzie odpalają Deepseeka lokalnie (nawet największą 404GB wersje) i odpowiada tak samo i na pewno wtedy nie strzela do żadnego API. Jedynie gdzie mogli użyć API OpenAI to podczas trenowania tego modelu.

maximilianan

@Catharsis chyba właśnie o to chodzi, że używali go do trenowania i weryfikacji swojego modelu

EerieAlligator

@Dzemik_Skrytozerca Główny zarzut to destylacja podczas nauki modelu. Pomijając czy to równie niemoralne co scrapping podczas nauki chata gpt to podważa to tezę taniej nauki deepseeka.


https://youtu.be/hpwoGjpYygI?si=z7zArn0BiL-8FK9G

DEAFCON_ONE

@EerieAlligator nie podważa, chodzi o sam kosztu wytrenowania – koszt danych oraz koszta data-center z którego korzystali (mieli własne) został pominięty.


Oczywiście nie oznacza to, że jesteś 100% w błędzie - koszt pozyskania i obróbki tych danych był astronomiczny.

Dzemik_Skrytozerca

@Catharsis


Modele AI uczą się na bieżąco. Muszą, bo świat idzie do przodu, a tysiące ludzi robią nowe rzeczy.


Dlatego po tym jak Ty, człowiek, wykonasz zapytanie, Twój feedback może posłużyć do oceny pracy, a odpowiedź na Twoje pytanie może zostać dodana do zbioru wiedzy.


Ale równolegle odpowiedź może też gdzieś indziej zostać przedstawiona do kolejnej weryfikacji.


Bawię się o1 teraz, i czasem odpowiedź zajmuje mu ładnych parędziesiąt sekund.


Nie zdziwilbym się, gdyby niektóre zapytania szły do Google, lub do innych AI.

PanNiepoprawny

@maximilianan już banują chińskie AI

rain

@maximilianan nie rozumiem hajpu na ten deepseek. Przecież to chiński model i samo to już jest olbrzymią czerwoną flagą. Czytałam, że (co za niespodzianka) wszystkie wpisane do niego dane lądują w chińskich bazach, gromadzone są adresy IP, a nawet wzorce pisania na klawiaturze. Ludzie używający tego bota nawet nie zdają sobie sprawy jak dużo ze swojej prywatności oddają Chińczykom, których zamiary wcale nie są takie niewinne.

Druga sprawa - nie słyszałam by inny bot był przedmiotem masowego ataku hakerskiego, a to się dosłownie parę dni temu zdarzyło deepseekowi. Podobnie jak wyciek nie chronionych niczym danych. Ogólnie, to że wszyscy i wszędzie gadają o tym modelu i że to się rozkręciło w dosłownie parę dni jest wyjątkowo podejrzane.

M_B_A

@rain Jak dla mnie większość rzeczy które napisałaś można też powiedzieć o OpenAI i USA. Oddawanie prywatności chinczykom jest ble, ale oddać je amerykanom już nie ma problemu?

rain

@M_B_A wiesz, uważam, że są trzy cenne rzeczy w życiu: zdrowie, czas i prywatność. Oddawanie jej komukolwiek jest złe. Myślisz, że nie wkurza mnie, że wszędzie śledzi mnie google i inne ujowe firmy? Ale Chińczycy jakoś przerażają mnie bardziej.

mordaJakZiemniaczek

Komuchy coś zawłaszczyły, cóż za zdziwienie

Zaloguj się aby komentować