Cześć. Wiem, że społeczność może nie na temat, lecz użytkownicy z tej społeczności pewnie będą znać odpowiedź. Pozwolę się tutaj zapytać.


  1. Mam kilkaset stron zapisanych w plikach html . Stamtąd chcę wyciągnąć z każdego pliku konkretnego diva, np. <div=teskt> wyciągnąć treść i ją zapisać do txt.

  2. Z tego tekstu, każdy kolejny... tekst, chciałbym oddzielić. Zaczyna się liczbą rzymską, potem jest opis jednosłowny i treść właściwa. Dokument ma budowę np.:


I. SŁOWO_KLUCZ,


teskt


II. SŁOWO_KLUCZ,


tekst


[...]


IX. SŁOWO_KLUCZ


tekst.


Chciałbym wrzucić każdy taki akapit do osobnego pliku txt.


I to chyba na razie tyle. Udałoby się to jakimś narzędziem ogarnąć?


#komputery

Komentarze (6)

Reminev

Zwykły skrypt w bashu albo pythonie, poproś chatgpt napiszę ci to w sekundę

Argony

@Reminev

poproś chatgpt napiszę ci to w sekundę


ehh, staro się poczułem

Odwrocuawiacz

@Filip jakby przekopiować do excel i zastosować formuły to może i by się dało, ale też może być jakieś inne narzędzie.


Ja jak coś chcę zrobić "na lenia" to ogarniam w excelu formułami i wspomagam się poradnikami z neta.

Filip

@Odwrocuawiacz @Reminev dziękuję za podpowiedzi!

moniuszko

@Filip Można w Pythonie wykorzystując beautifulsoup4 do wyciagnięcia tekstu z html i dalej wyekstrachowac akapity używając regexa

arczy

@Reminev @Argony Albo w powershellu ( ͡~ ͜ʖ ͡°)

Zaloguj się aby komentować