Używaj cudzych prac do trenowania swojego modelu językowego - gicik mordo XD

Chińczycy używają twojego modelu do szkolenia swojego - tak k⁎⁎wa nie wolno.


J⁎⁎ać Sama Altmana.


#chatgpt #ai

0028256d-6032-423f-8a37-45553b925e97

Komentarze (36)

@maximilianan przecież po tym jak się okazało że openai sobie po prostu wzięło dane z reddita i twittera to wprowadzili STRASZNE ceny za api xD

@A_a rozwiązania innych? Masz jakieś dowody na poparcie tej tezy? Bo weighty, implementacja i whitepaper są dostępne, a deepseek robi coś co było poza zasięgiem amerykańskich korpo (pozwala wytrenować LLMa wydając o parę rzędów wielkości mniej kasy)

@A_a fakt że cały ich produkt jest zbudowany/rozwinięty na fundamentach pracy kogoś innego… ale to samo można powiedzieć o OpenAPI, które korzystało z researchu google i scrapowało dane srając na copyright (bo nie ma zastosowania jeśli akurat oni to robią)

@maximilianan tylko tutaj żadnego naruszenia patentów nie ma, OpenAI zarzuca że wykorzystywali ich narzędzia do budowania swoich własnych[1] >:]. Jak to powiedział pan Altman – dosłownie fair use.


[1] właściwie to coś co jest opisane tutaj: https://www.ibm.com/think/topics/knowledge-distillation

counterpoint: Intellectual property thief i copyright nie liczą się jeśli akurat potrzebujesz dużej ilości danych (dosłownie fair use).

Training AI models using publicly available internet materials is fair use, as supported by long-standing and widely accepted precedents. We view this principle as fair to creators, necessary for innovators, and critical for US competitiveness (…) it has long been clear that the non-consumptive use of copyrighted material (like large language model training) is protected by fair use.


The amount of data needed was staggering. It was that ‘unprecedented scale’ that allowed the model to internalize not only a ‘map of human language,’ but achieve a level of adaptability—and ‘emergent’ intelligence—that ‘no one thought possible.


https://openai.com/index/openai-and-journalism

@DEAFCON_ONE no oczywiście, że OpenAI tak to widzi, a co mieli innego napisać?


To się mieści w granicach fair use TYLKO i wyłącznie dlatego, że ustawodawstwo jak zwykle nie nadąża za postępem technologicznym. Big tech dosłownie wykorzystuje fakt, że zapierdala jak dyliżans i systemy prawne są zbyt ociężale, żeby to weryfikować.


To jest zwykle wykorzystywanie luk prawnych do bezczelnej kradzieży własności intelektualnej.

@Iknifeburncat i to za co UE jest krytykowana, że chciala uregulować ("nie mamy własnego modelu ale grubą książkę regulacji"). Deepseek to taki piękny bolec w tylki korpo żerujących na pracy innych, piękny dzień dla wolności w internecie.

@Iknifeburncat ja to wiem, ty to wiesz, jedyny problem to to, że nie mamy za sobą miliardów zielonych do lobbingu. Odpowiedzialne korzystanie z technologi też zostało spuszczone w kiblu, prawie każda publiczna przestrzeń jest zasrana albo SEOgównem generowanym przez boty, albo propagandą generowaną przez boty.

@DEAFCON_ONE dosłownie wczoraj oglądałem materiał od google nt rozwoju ich projektów (głownie AI) i Pani prowadząca materiał przekonywała, że oni swoje produkty rozwijają w sposób ODPOWIEDZIALNY. No chyba nie kłamała, prawda?

@maximilianan


Zgadzam się, aczkolwiek sprawa prawie na pewno ma bardziej skomplikowany charakter.


1. Chińczycy ignorują prawo zachodnie.


2. Nie zdziwiłbym się, gdyby Deepseek używało płatnych dostępów do openai do wtórnej weryfikacji swoich odpowiedzi. Tak jak np. Bing był posądzany o strzelanie do Google z niektórymi zapytaniami.

@Dzemik_Skrytozerca Ale ludzie odpalają Deepseeka lokalnie (nawet największą 404GB wersje) i odpowiada tak samo i na pewno wtedy nie strzela do żadnego API. Jedynie gdzie mogli użyć API OpenAI to podczas trenowania tego modelu.

@EerieAlligator nie podważa, chodzi o sam kosztu wytrenowania – koszt danych oraz koszta data-center z którego korzystali (mieli własne) został pominięty.


Oczywiście nie oznacza to, że jesteś 100% w błędzie - koszt pozyskania i obróbki tych danych był astronomiczny.

@Catharsis


Modele AI uczą się na bieżąco. Muszą, bo świat idzie do przodu, a tysiące ludzi robią nowe rzeczy.


Dlatego po tym jak Ty, człowiek, wykonasz zapytanie, Twój feedback może posłużyć do oceny pracy, a odpowiedź na Twoje pytanie może zostać dodana do zbioru wiedzy.


Ale równolegle odpowiedź może też gdzieś indziej zostać przedstawiona do kolejnej weryfikacji.


Bawię się o1 teraz, i czasem odpowiedź zajmuje mu ładnych parędziesiąt sekund.


Nie zdziwilbym się, gdyby niektóre zapytania szły do Google, lub do innych AI.

@maximilianan nie rozumiem hajpu na ten deepseek. Przecież to chiński model i samo to już jest olbrzymią czerwoną flagą. Czytałam, że (co za niespodzianka) wszystkie wpisane do niego dane lądują w chińskich bazach, gromadzone są adresy IP, a nawet wzorce pisania na klawiaturze. Ludzie używający tego bota nawet nie zdają sobie sprawy jak dużo ze swojej prywatności oddają Chińczykom, których zamiary wcale nie są takie niewinne.

Druga sprawa - nie słyszałam by inny bot był przedmiotem masowego ataku hakerskiego, a to się dosłownie parę dni temu zdarzyło deepseekowi. Podobnie jak wyciek nie chronionych niczym danych. Ogólnie, to że wszyscy i wszędzie gadają o tym modelu i że to się rozkręciło w dosłownie parę dni jest wyjątkowo podejrzane.

@rain Jak dla mnie większość rzeczy które napisałaś można też powiedzieć o OpenAI i USA. Oddawanie prywatności chinczykom jest ble, ale oddać je amerykanom już nie ma problemu?

@M_B_A wiesz, uważam, że są trzy cenne rzeczy w życiu: zdrowie, czas i prywatność. Oddawanie jej komukolwiek jest złe. Myślisz, że nie wkurza mnie, że wszędzie śledzi mnie google i inne ujowe firmy? Ale Chińczycy jakoś przerażają mnie bardziej.

Zaloguj się aby komentować