Cześć Wszystkim!
Prowadzimy firmę zajmującą się pisaniem scraperów i pobieraniem danych z internetu.
Chcielibyśmy Wam pokazać jak wygląda nasza praca na przykładzie scrapowania danych ze Steam'a!
Ostatnio zrobiliśmy mały zarys pracy oraz napisaliśmy scrapowanie tagów:
 https://letsscrape.com/posty/steam-store-scraper-wstep/
Dzisiaj zajmiemy się analizą i rozgryzaniem kodu Steam'a.
Brzmi fajnie, lecz post jest dosyć ciężki i skomplikowany.
Z drugiej jednak strony pokazujemy jak wygląda praca z namierzaniem danych i próbami ekstrakcji ich. Oczywiście można uprościć ten kod korzystając z np. Selenium, ale jak poprzednio pisaliśmy sęk w tym, aby scraper był szybki i zużywał jak najmniej zasobów. Dlatego zostajemy przy HttpClient mimo, że wymaga to więcej pracy od nas.
 https://letsscrape.com/posty/rozgryzamy-kod-steama/
Zapraszamy do lektury!
Komentarze, pytania, uwagi (krytyczne) oraz PIORUNY mile widziane!
#programowanie #selenium #webdriver #webscraping #scraping #datamining #csharp
7b53512d-6dd8-4f20-bbc0-42e10f67aa3e
rayros

Strona wam coś ucina na starcie napis

c1be4f2e-8bed-45ad-871b-d4df0a6a6ae1
letsscrape

@rayros ach te mobilki, dzieki za zwrócenie uwagi

szoz

Scrapowanie danych często wymaga takiej analizy i zabawy w detektywa ale daje to satysfakcję.

Czasami trzeba używać Selenium jak na stronie dużo danych doładowywanych jest dynamicznie albo są zabezpieczenia antybotowe.

letsscrape

@szoz świetnie to określiłes "w detektywa", dokładnie tak jest! najlepsza zabawa jest właśnie z zabezpieczeniami antybotowymi "pokonanie" jakiegoś rozwiązania, z którego duże sajty korzystają daje rzeczywiście satysfakcję!

nazwa_uzytkownika

Scrapowanie nie podchodzi czasami pod celowe bombardowanie serwerów zapytaniami? Jak to wygląda pod względem prawnym?

WolandWspanialy

@nazwa_uzytkownika


https://informatykzakladowy.pl/nieliczni-fani-portalu-albicla/#more-3975


wspomniany już LinkedIn koncertowo przewalił sprawę w sądzie. Scrapowanie publicznie dostępnych danych (w tym profili na Albicli) jest w pełni legalne i nie różni się niczym od ręcznego odwiedzania profili. Zupełnie inną sprawą byłoby gdyby scraping spowodował niedostępność usługi i to już mogłoby być potraktowane jako atak DoS i tutaj Albicla miałaby w sądzie pole do popisu.

letsscrape

@nazwa_uzytkownika zależy jak się zorganizuje scrapowanie. Zawsze można sie przyczepić ale generalnie jak to się robi z głową to jest wszystko OK

Zaloguj się aby komentować