Ktoś jeszcze bawi się w RAG? Postawiłem sobie ollama + longchain + chroma. Napisałem parę prostych skryptów do indexiwania plików, które mnie interesują i konektor który bierze prompt i robi chain między vector db a ollamą i zwraca wynik. Robi to wszystko co chciałem i mam przeczucie, że to jest "za proste". Coś pominąłem? Czy to rozwiązanie jest w jakiś sposób upośledzone? Pomijając oczywiście fakt, że sporo rzeczy na ten moment mam zahardkodowane bo się tylko bawię. Rozumiem, że jest jeszcze cała otoczka typowej apliacji (security, interfejsy itp itd). Ale chodzi mi o samo uzyskiwanie wyników odnośnie tego co siedzi w plikach. Napisanie interfejsu do czatu jako takiego zajęło mi więcej czasu.

edit: żeby było jasne - jestem stosunkowo zielony w tej dziedzinie programowania

#programowanie #llm
htcone

@mortt próbowałem tutorial z Realpython.com ale mnie przerosło wchodzenie w szczegóły danych szpitalnych i nie potrafiłem tego przełożyć na swoje potrzeby, więc mi bardziej się przyda "za proste" podejście.

mortt

@htcone nie mam zbytnio przykładu w pytonie bo robiłem to w node. Prawda jest taka, że i tak najcięższe zadania dzieją się poza aplikacją.


Zależy co chcesz zrobić ale najbardziej bazowe rozwiązanie to indeksowanie całych plików bez analizowania ich. Wtedy to jest tylko kwestia zrobienia tego co opisałem. Vector z plików zapisać do chromy przy użyciu ollama embedings (longchain ma to wbudowane) a potem wyciągnąć z chromy kolekcję i zrobić chain longchainowy łączący vektor z ollamą i voila. Można czekać na pełny respons albo stresmować. Więcej roboty jest z tym, żeby uploadować pliki albo wskazać ścieżkę i zaindeksować albo żeby napisać klienta do tego niż samo gadanie llm z wektorami

Zaloguj się aby komentować