Polski zbiór danych do wykrywania hejtu powstał przy współpracy z Wykop.pl
AI

Polski zbiór danych do wykrywania hejtu powstał przy współpracy z Wykop.pl

GitHub
Gdzie można znaleźć najbardziej krzywdzące i obrzydliwe komentarze w całym polskim internecie? W zbiorze danych przygotowanych przez naukowców z instytutu badawczego NASK we współpracy z Wykop.pl. Dataset może zostać wykorzystany do treningu modeli sztucznej inteligencji wykrywających hejt.
Bieżąca wersja zestawu danych składa się z 24 000 próbek anonimizowanej treści, 12 000 sztuk dla „szkodliwych” i 12 000 dla klasy „neutralnej”.

#sztucznainteligencja #datascience #programowanie #ai #technologia #nauka #naukawpolsce #wykop

Komentarze (18)

Zielczan

Bieżąca wersja zestawu danych składa się z 24 000 próbek anonimizowanej treści, 12 000 sztuk dla „szkodliwych” i 12 000 dla klasy „neutralnej”.

A to dopiero pierwsza strona gorących

ocokaman

Pewnie znowu wytrenują na lewacką modłę ze nie można obrażać wszystkich poza polskim heteroseksualnym białym mężczyzną, tzw dyskryminacja pozytywna

imie-nazwisko

@ocokaman Pogadaj z Chat GPT - nie ma problemu mówić, że mężczyźni popełniają wiecej przestępstw, ale zapytaj jakiej rasy mężczyźni dokonują 86% morderstw w USA, czy 100% gwałtów w Oslo "Nie ma dowodów, to nie nie prawda, to krzywdzące stereotypu a w ogóle to biali są be"

konrad1

@imie-nazwisko jakim huem Si zaprzecza faktom xD

ZygoteNeverborn

Andrzej Prałat

Przypadek? Nie sądzę.

Mikel

content banned from a web service Wykop.pl (often called the "Polish Reddit") by professional moderators

[...]

The human moderation dynamics of the platform let us assume that the remaining (not banned) content after this period can be considered non-harmful.


Patrząc na jakość i skuteczność pracy moderacji, śmiem wątpić nad jakością tego zbioru Musieliby zrobić selekcję i wyciąć tagi #blackpill i #patostreamy bo tam co chwila albo hejt albo wyzwiska. Zakładam więc że grupa kontrolna zawiera wcale niewiele mniej hejtu niż sama próbka.


Garbage in -> garbage out

sebie_juki

@Mikel równie dobrze mogli by zatrudnić do kolekcjonowania hejtu osoby upośledzone umysłowo .. ah, wait

sebie_juki

Ciekawe o kim to było, przed anonimizacją?


Pierwsza myśl - [pseudonym]. Kurwiszcze, które zrobiłoby wszystko za status [pseudonim] w serwisie.

Orzech

Wytrenować na tym LLMa i będzie śmiesznie

hellgihad

@rakieciara O qrwa, dobry se model znaleźli to tak jakby próbowali nauczyć AI uczciwości od polityka xD

imie-nazwisko

@rakieciara  100 razy więcej hejtu jest na forum Gazety Wyborczej - tyle, że tam wyzywają katolików i księży. Wystraczy byle tekst, że ulicami przeszła procesja z okazji bożego ciała. Gdyby te wpisy dotyczyły Murzynów, ich autorzy dostawaliby wyroki.

ujumaki

Komentarz usunięty przez moderatora

Opornik

rakieciara chyba nie wie jakim rakotwórczym gównem jest wykop, nawet nie chce mi się klikać....

Miedzyzdroje2005

@Opornik gówno można sprzedać

Opornik

@Miedzyzdroje2005 Hejto ma swoje wady, ale dzięki nim już zapomniałem o tym patologicznym gównie.

jerekp

@Miedzyzdroje2005 i dobrze

NiosePrawde

Wieść głosi że Michał Białek z Poznania osobiście tam dodał dziecięcą pornografię.

Zaloguj się aby komentować