Polski zbiór danych do wykrywania hejtu powstał przy współpracy z Wykop.pl

Gdzie można znaleźć najbardziej krzywdzące i obrzydliwe komentarze w całym polskim internecie? W zbiorze danych przygotowanych przez naukowców z instytutu badawczego NASK we współpracy z Wykop.pl. Dataset może zostać wykorzystany do treningu modeli sztucznej inteligencji wykrywających hejt.

Bieżąca wersja zestawu danych składa się z 24 000 próbek anonimizowanej treści, 12 000 sztuk dla „szkodliwych” i 12 000 dla klasy „neutralnej”.


#sztucznainteligencja #datascience #programowanie #ai #technologia #nauka #naukawpolsce #wykop

GitHub

Komentarze (18)

Bieżąca wersja zestawu danych składa się z 24 000 próbek anonimizowanej treści, 12 000 sztuk dla „szkodliwych” i 12 000 dla klasy „neutralnej”.

A to dopiero pierwsza strona gorących

Pewnie znowu wytrenują na lewacką modłę ze nie można obrażać wszystkich poza polskim heteroseksualnym białym mężczyzną, tzw dyskryminacja pozytywna

@ocokaman Pogadaj z Chat GPT - nie ma problemu mówić, że mężczyźni popełniają wiecej przestępstw, ale zapytaj jakiej rasy mężczyźni dokonują 86% morderstw w USA, czy 100% gwałtów w Oslo "Nie ma dowodów, to nie nie prawda, to krzywdzące stereotypu a w ogóle to biali są be"

content banned from a web service Wykop.pl (often called the "Polish Reddit") by professional moderators

[...]

The human moderation dynamics of the platform let us assume that the remaining (not banned) content after this period can be considered non-harmful.


Patrząc na jakość i skuteczność pracy moderacji, śmiem wątpić nad jakością tego zbioru Musieliby zrobić selekcję i wyciąć tagi #blackpill i #patostreamy bo tam co chwila albo hejt albo wyzwiska. Zakładam więc że grupa kontrolna zawiera wcale niewiele mniej hejtu niż sama próbka.


Garbage in -> garbage out

Ciekawe o kim to było, przed anonimizacją?


Pierwsza myśl - [pseudonym]. Ku⁎⁎⁎⁎zcze, które zrobiłoby wszystko za status [pseudonim] w serwisie.

@rakieciara  100 razy więcej hejtu jest na forum Gazety Wyborczej - tyle, że tam wyzywają katolików i księży. Wystraczy byle tekst, że ulicami przeszła procesja z okazji bożego ciała. Gdyby te wpisy dotyczyły Murzynów, ich autorzy dostawaliby wyroki.

Zaloguj się aby komentować