
– poziom średniozaawansowany
Marek Młodożeniec, Sotrender
Szczegółowy zakres szkolenia:
Część 1: Instrumentarium Data Scientist- Tworzenie własnych funkcji
- składnia funkcji
- argumenty funkcji: wymagane i domyślne wartości
- zwracanie wartości w sposób jawny i ukryty
- obsługa błędów
- wczytywanie podręcznego zestawu funkcji z zewnętrznych skryptów
- Wykonywanie zadań w pętlach
- składnia pętli for i while
- funkcje z rodziny apply()
- Wczytywanie danych ze źródeł zewnętrznych
- wczytywanie danych wprost z arkuszy Excel
- zapis i odczyt danych w formacie RDS
- przykłady wczytywania danych ze źródeł zewnętrznych: Google Drive, bazy SQL, API zewnętrznych aplikacji, web scraping
- Łączenie baz danych wierszami (dołączanie przypadków)
- Przekształcanie struktury danych z formatu długiego w format szeroki i na odwrót
- Przygotowanie danych do dalszej analizy z wykorzystaniem operatora potoku (%>%)
- sortowanie zbioru
- usuwanie i podmiana braków danych
- filtrowanie obserwacji
- selekcja zmiennych i modyfikacja ich nazw
- tworzenie zmiennych będących funkcjami zmiennych istniejących
- grupowanie i wyliczanie parametrów w podgrupach
- łączenie baz danych kolumnami (dołączanie zmiennych)
- Analiza czynnikowa i analiza głównych składowych
- idea i zastosowania analizy czynnikowej
- dobór parametrów analizy: metoda rotacji
- sposób interpretacji wyników
- ocena jakości rozwiązania i sposoby jego poprawy
- tworzenie map percepcyjnych z wykorzystaniem analizy czynnikowej
- Modele regresyjne
- model regresji jako narzędzie opisu i przewidywania
- regresja liniowa: interpretacja współczynników równania i wartości R2
- szacowanie siły wpływu: indeks Pratta
- poprawa dopasowania modelu:
- minimalizacja wzajemnego skorelowania predyktorów
- nieliniowe przekształcenia zmiennych: rule of the bulge
- eliminacja przypadków odstających
- metody poprawy rozwiązania: selekcja predyktorów
- dodawanie interakcji międzyzmiennowych do modelu
- regresja nieliniowa: wielomianowa i logistyczna
- Analiza skupień (clustering)
- zastosowania analizy skupień: znaczenie biznesowe segmentacji rynku
- przygotowanie danych do analizy skupień: standaryzacja i ortogonalizacja zmiennych, eliminacja przypadków odstających
- clustering hierarchiczny i clustering k-średnich: wybór parametrów analizy
- interpretacja i wizualizacja wyników analizy skupień
- kryteria wyboru optymalnego rozwiązania
- Analiza korespondencji
- przygotowanie danych wejściowych do analizy
- interpretacja wyników
- generowanie mapy korespondencji i dostosowanie jej wyglądu
- wykorzystanie analizy korespondencji do wizualizacji wizerunku marki
Do kogo kierowane jest szkolenie:
Kurs średniozaawansowany został stworzony dla osób, które posiadają już podstawowe umiejętności analizy danych w języku R (np. wczytywanie pliku CSV, opis parametryczny jednej zmiennej, generowanie tabel itp.). Na szkolenie średniozaawansowane zapraszamy więc osoby, które znają już trochę język R, ale chciałyby nabrać w posługiwaniu się nim większej biegłości, lub opanować techniki analityczne stosowane w branży badań rynku. W podążaniu za programem kursu pomocna będzie podstawowa wiedza z zakresu statystyki oraz doświadczenie w stosowaniu omawianych metod, np. w pakiecie SPSS.Korzyści dla uczestników:
Po ukończeniu tego szkolenia uczestnik będzie potrafił:- Definiować własne funkcje statystyczne
- Uruchamiać skrypty bez otwierania ich w edytorze (wstęp do programowania modularnego)
- Wykonywać operacje w pętlach
- Wczytywać dane z wybranej zakładki w arkuszu Excel i z formatu RDS
- Łączyć bazy danych wierszami (dodawanie przypadków) i kolumnami (dodawanie zmiennych)
- Zmieniać format danych z formatu baz relacyjnych („długiego”) na częściej stosowany w badaniach format „szeroki”
- Posługiwać się funkcjami pakietów dplyr i tidyr do przetwarzania zbiorów danych, w celu przygotowania danych do dalszej analizy
- Wykonywać analizę czynnikową i interpretować jej wyniki
- Tworzyć mapy percepcyjne z wykorzystaniem czynników
- Przeprowadzać analizę regresji, interpretować jej wyniki i optymalizować dopasowanie modelu
- Szacować procentowy udział siły wpływu każdego z predyktorów na zmienną zależną
- Interpretować wyniki regresji liniowej z interakcją i bez, wielomianowej oraz logistycznej
- Przeprowadzać analizę skupień metodami hierarchicznymi i k-średnich
- Wybierać podział zbioru najbardziej obiecujący pod kątem segmentacji rynku
- Przeprowadzać analizę korespondencji
- Generować i interpretować mapę korespondencji zawierającą marki i cechy wizerunkowe
Kluczowe pojęcia i zagadnienia:
Pojęcia z zakresu programowania: wymagane i opcjonalne argumenty funkcji, domyślna wartość argumentu, wrapper, funkcja przeciążona, obsługa błędów, programowanie modularne, pętla, inkrementacja, warunek stopu, API, format JSON, długi i szeroki format danych, potok (pipeline)Pojęcia statystyczne: czynnik, standaryzacja, rotacja, wykres osypiska, ładunki czynnikowe, predykcja, zależność liniowa i nieliniowa, zmienna zależna i predyktory, moc predykcyjna modelu, współczynniki standaryzowane Beta, współczynnik Pratta, skorelowanie wzajemne, przypadki odstające, przekształcenie nieliniowe, logarytm, wielomian, logit, ortogonalność, segmentacja, skupienie (cluster), metryka, odległość Euklidesowa, metoda aglomeracji, profil wierszowy i kolumnowy, rozkład wg. wartości osobliwych macierzy (singular value decomposition, SVD), masa i moment punktu
Forma szkolenia:
Szkolenie będzie miało formę warsztatową. Zdecydowaną większość czasu spędzimy, pisząc i testując kod na własnych komputerach. Moduły tematyczne składające się z teorii i przykładów będą przedzielane ćwiczeniami indywidualnymi, służącymi utrwaleniu materiału.Stopień zaawansowania:
Kurs średniozaawansowany jest kontynuacją i rozwinięciem szkolenia „R dla badaczy – poziom podstawowy”, toteż opanowanie podstawowych umiejętności analizy danych w R (niekoniecznie w ramach szkolenia podstawowego) z powodzeniem wystarczy do podążania za programem kursu średniozaawansowanego. Podstawowa wiedza na temat omawianych metod analitycznych (analiza czynnikowa, analiza regresji, analiza skupień i analiza korespondencji) będzie pomocna, ale zagadnienia te w razie potrzeby zostaną objaśnione.


Młodożeniec
Sotrender
czas trwania: 16 godzin szkoleniowych w godz. 9.00-16.30
miejsce: PTBRiO, Szarotki 11, Warszawa
Uwaga! Ze względu na panującą pandemię organizator szkolenia zastrzega sobie prawo zmiany miejsca, terminu oraz formuły (stacjonarna/ online) szkolenia. O wszelkich ewentualnych zmianach uczestnicy szkolenia będą informowani na bieżąco.
w cenie: udział w szkoleniu, materiały, certyfikat, przerwy kawowe, lunch
Chcesz wiedzieć więcej?
więcej informacji udzieli Ci koordynator szkoleń
Anna Chodkiewicz