#datascience #programowanie
Póki co mam stanowisko data governence engineer, ale chciałem iść bardziej w stronę analizy danych.
Mam na studiach rachunek prawdopodobieństwa i statystykę, i myślałem nad jakimś projektem żeby dostać faktycznie pracę gdzie dostaję zestaw danych, i proszą mnie o informacje co robić.
Co uważacie o takim projekcie/serii "projektów":
Wszedłem na Kaggle, pobrałem losowy zestaw danych (tutaj informacje o osobach z ryzykiem zawału serca), i przez jakiś czas będę sobie z niego wyciągał różne informacje (korelacja zmiennych losowych, wartości oczekiwane etc.). Następnie zrobię prosty skrypt który z całego zestawu danych wylosuje mi kilka obiektów, i ukryje kilka wartości (jak np. wiek pacjenta etc.). Moim zadaniem jest na podstawie reszty danych wydedukować te zakryte wartości. Oceniane będzie to jak blisko będę prawdziwej wartości.
Całość dokumentuję w postaci notatek w latexu, z dodatkową konwersją do markdown i całość wrzucam na serwer gita, dzięki czemu można podejrzeć notatki online.
f1e4fb55-975d-4ad5-b713-b476b854508f
redve123

właśnie widze słabą dedukcje z tym że mogę porównać dane po kluczach, ale to już jutro poprawię bo zaspany jestem xd

Logiką sie kierowałem dobrą, ale źle to opisałem

redve123

poprawiłem na "Both datasets are the same length, and one is subset of another one, so they must have the same keys.".

Idę spać

dolitd

Naucz się R i Pythona, a także Juniper Notebooks.

FoxtrotLima

@redve123 a do tego PowerBI i DAX.

Sweet_acc_pr0sa

@FoxtrotLima dorzuc auto cada i prawojazdy na stara

JanPapiez2

@dolitd umiejętność żonglowania płonącymi kółkami też się przyda

FoxtrotLima

@Sweet_acc_pr0sa a co jest złego w PowerBI?

maximilianan

@Sweet_acc_pr0sa i koniecznie papiery na wózki widłowe

maximilianan

@FoxtrotLima nic, kolega tylko żartuje xd

maximilianan

@redve123 o panie, ale bym chciał coś takiego umieć jako inżynier. Już teraz prosta statystyka, napisanie jakiegoś querry czy kradzież kodu do pythona sprawia, że jestem półbogiem dla kolegów xD

GrindFaterAnona

@redve123 jesli chcesz w tym pracowac to dobry pomysl, zawsze to jakis wpis do cv. Zasugeruję jedynie model klasyfikacyjny zamiast regresyjny - pisales, ze chcesz przewidywac wartosc jakichs parametrow, przewiduj po prostu czy ktos zachoruje czy nie. Jak bys mial jakies pytania to pisz, 5 lat juz jako ds.

wombatDaiquiri

@redve123 


Oceniane będzie to jak blisko będę prawdziwej wartości.


Overfitting?

redve123

@wombatDaiquiri dla każdej zmiennej losowej liczę ile wyniesie: X / (|X-GX|)

Gdzie X to faktyczna wartość, a GX to moje przewidywanie (Guess)

Finalnie będę miał wektor z punktami które opisują, jak blisko byłem prawdziwej wartości

Roboczo mam taką formułę, ale już wiem że ostatnia linijka będzie do zmiany bo nie jest to dobry sposób zliczania sumy punktów (jeżeli na 10 strzałów 1 będzie prawie idealny, a reszta totalnie zła, to i tak uzyskam dużo punktów przez ten jeden strzał)

086327e4-c8df-4917-a6c5-fa87a6f73bca
dolitd

@redve123 I zmień attemt na attempt.

koszotorobur

@redve123 - ciągle narzekasz, że nic nie umiesz, że niepełnosprawność, że się już poddałeś... a tu taka pozytywa NIESPODZIANKA!

To co zaprezentowałeś to już są podstawowego umiejętności analizy danych!

Myślę, że masz problem z samooceną która nie przystoi do stanu faktycznego i jesteś dla siebie za surowy.

Jeśli chcesz kontynuować naukę to dobrze też znać narzędzia - najpopularniejsze obecnie są Python w połączeniu z Pandas lub Polars. Do tego Jupyter Notebooks oraz coś do rysowania wykresów jak Plotly czy robienia całych stron www prezentujących dane jak Dash.

Życzę Zaciętości i Powodzenia!

redve123

@koszotorobur nigdzie nie narzekam że nic nie umiem. W życiu jestem generalnie na całkiem niezłym etapie. A poddałem się dlatego, bo umiejętnościami czy pieniędzmi z pracy nie zasypię niektórych problemów. Praktycznie wszystko co osiągnąłem, osiągnąłem dlatego żeby odciągnąć uwagę od "nieco mniej optymistycznych" myśli.


Dzięki za rekomendacje tooli, próbuje właśnie sie przyzwyczaić do jupytera w neovimie

koszotorobur

@redve123 - teraz nawet jakbyś narzekał, że nic nie umiesz to Ci nie uwierzę

Ja, pomimo że nie lubię Micro$oftu, to lubię Visual Studio Code (a właściwie VSCodium) i jak się w nim pracuje w Pythonie i z Jupyter Notebooks - tu masz cały tutorial: https://code.visualstudio.com/docs/datascience/jupyter-notebooks

Zaloguj się aby komentować