Powstaje aplikacja, która pozwala na dyktowanie tekstu na bieżąco na Linuxa (i wklejanie generowanego tekstu tam, gdzie trzeba)

hejto.pl

Właśnie mam wczesny dostęp do aplikacji, która pozwala dyktować tekst i go kopiować do konkretnej aplikacji – na bieżąco. Póki co działa z kontem w serwisie ElevenLabs. Program nazywa się „EDict”.

Niemniej trzy rzeczy mnie w szczególności zachwycają – po pierwsze, działa to na Linuxie, bez żadnych trików z Wine'em, po drugie, stworzył to członek redakcji Kontrabandy, i po trzecie, stworzyła to osoba chorująca na rdzeniowy zanik mięśni. Czapki z głów.

Niestety nie mogę jeszcze udostępnić aplikacji do pobrania, ale tak czy inaczej – wiadomość o tym, że ktoś w wolnym czasie zaczął tworzyć aplikację mającą na celu poprawić doświadczenia z korzystania z Linuxa osobom niepełnosprawnym ruchowo mnie dosłownie zwaliła z krzesła. W pozytywnym sensie, rzecz jasna. W końcu nie trzeba będzie konfigurować odpowiednich rzeczy ręcznie.

Powiedzieć, że jestem dumny, to nic nie powiedzieć.

PS: jeżeli jeszcze nie rozliczyliście swojego PIT-u, przemyślcie wsparcie fundacji, która pomaga Michałowi Stankiewiczowi. Numer KRS: 0000037904, cel szczegółowy: 4034 Stankiewicz Michał. Z góry dziękuję!

/OJ

#kontrabanda #sma #niepelnosprawnosc #linux

hejto.pl

Komentarze (10)

@kontrabanda Ok, zrobienie tego na ElevenLabs nie jest specjalnie skomplikowane. Mam podobny programing bazujący na lokalnym Whisper.

@ataxbras: przekazałem właśnie podobny feedback twórcy (żeby można było oprócz logowania się do ElevenLabs zrobić tak, żeby aplikacja pobrała i obsługiwała model Whisper od razu na komputerze + pomniejsze usprawnienia techniczne), jak testowałem tę aplikację. Niemniej sam fakt powstania takiej aplikacji moim zdaniem daje nadzieję, że można poprawić dostępność Linuxa.

@kontrabanda To już nie jest nowość - takich tooli było kilka. Mam swój jak wspomniałem, ale dla interakcji z kompem szybciej mi na klawiaturze. Może dlatego, że generalnie nie lubię gadać, czy to z ludźmi, czy z maszynami.

@ataxbras @kontrabanda Też widziałem kiedyś gdzieś działające demo z podobną funkcjonalnością używające Whispera, wtedy jest to 100% za darmo i nic nie opuszcza komputera. Polecam popatrzeć na inne implementacje Whispera takie jak Whisper.cpp oraz faster-whisper bo te zwyczajnie działają wydajniej niż ten zwykły.

@Catharsis @kontrabanda Wcześniej nie miałem czasu, ale teraz sprawdziłem ten, którego w tej chwili używam - vocalinux.
Whisperowe home-made też mam, ale chwilowo testuję vocalinux, chyba jednak nie polubię.

Byłem kiedyś trochę w temacie ai (trenowanie i ulepszanie modeli itp.) i już z dwa lata temu można było odpalić lokalnie full wersję zoptymalizowanego Whispera w wersji live jak ktoś chciał i potrafił. Wystarczyło mieć kompa z minimum 4-6GB vram i pobrać gotowca z githuba lub huggingface'a. Dało się też odpalić okrojoną wersję na gorszym sprzęcie.

A to że to chodzi na linuksie to się nie dziwię bo to natywne środowisko w którym tworzy się narzędzia ai.

Ogólnie samo stworzenie takiego narzedzia nie jest trudne. Trzeba tylko stworzyć aplikację do nagrywania i przetwarzania głosu na kilkusekundowe chunki które będą przekazywane potem do modelu Whispera który następnie wypluje wynik w postaci tekstu. Ogólnie dla kogoś zdolnego to robota na max tydzień.

A tak w ogóle to ten news to naprawdę nic nowego.

Konfiguracj@kontrabanda

W końcu nie trzeba będzie konfigurować odpowiednich rzeczy ręcznie.

Czarny humor widze dopisuje

Zaloguj się aby komentować