Zamiana audio na tekst lokalnie na komputerze - Whisper AI + GPU

Zamiana audio na tekst, wykorzystującą modele Whisper AI i obsługującą układy GPU, dzięki programowi na Windows o nazwie WhisperDesktop.


program: https://github.com/Const-me/Whisper/releases


model językowy: https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main


(im większy model to w teorii dokładniejszy - co nie zawsze się sprawdza, ale wolniejszy)(dla j. angielskiego wybrać model _en)


Na moim teście model medium (GPU 2GB) obrabiał 18 minutowe audio PL 13 minut.


Na modelu large -1 godzinę i 14 minut.


Oprócz zamiany audio z pliku, można też używać mikrofonu na żywo, a także tłumaczyć z innych języków.


Podobne programy:


Speech Translate: https://www.youtube.com/watch?v=JkCUVUfpg50


Subtitle Edit (z wbudowana obsługą Whisper) https://www.youtube.com/watch?v=timx-wIGRwk


Buzz: https://www.youtube.com/watch?v=2NDwOoV62-k


#ai #audio2text #rozpoznawaniemowy

YouTube

Komentarze (1)

ray7

jak ktoś działa w konsoli to wystarczy zainstalować Pythona w wersji przynajmniej 3.8 (na tej na pewno działa bo korzystam). Potem najlepiej stworzyć venva i odpalić "pip install openai-whisper". Ściąga co prawda trochę pakietów (katalog venva ma 3.5GB po instalacji) ale działa od strzała i przy venvie nie zaśmieca globalnej instalacji. Potem wystarczy "whisper nazwa_pliku" (może też być jakiś format video) i tyle. Można też podać jako parametr język albo model (tiny / base / medium itd - jest ściągany automatycznie) i jeszcze kilka zaawansowanych parametrów

Zaloguj się aby komentować