R osiąga to, łącząc w sobie elastyczność języka programowania (możliwość zmiany struktury danych, tworzenia własnych funkcji, wykonywania zadań w pętlach itp.) z zaletami oprogramowania
Business Intelligence (łatwość zastosowania metod analitycznych i wizualizacji odpowiadających na konkretne potrzeby biznesowe). Wprowadzone na kursie podstawowym i znane każdemu analitykowi główne metody statystyczne – tabele kontyngencji, porównania średnich w podgrupach i analiza korelacji – są zazwyczaj punktem wyjścia do dalszych dociekań. Dopiero metody wielowymiarowej analizy danych, takie jak modele regresji, analiza czynnikowa,
clustering i mapy percepcyjne dają wgląd w prawdziwe tajemnice ukryte w danych. Te właśnie zaawansowane techniki zamierzam przybliżyć na kursie średniozaawansowanym.
Szczegółowy zakres szkolenia:
Część 1: Instrumentarium
Data Scientist
- Tworzenie własnych funkcji
- składnia funkcji
- argumenty funkcji: wymagane i domyślne wartości
- zwracanie wartości w sposób jawny i ukryty
- obsługa błędów
- wczytywanie podręcznego zestawu funkcji z zewnętrznych skryptów
- Wykonywanie zadań w pętlach
- składnia pętli for i while
- funkcje z rodziny apply()
- Wczytywanie danych ze źródeł zewnętrznych
- wczytywanie danych wprost z arkuszy Excel
- zapis i odczyt danych w formacie RDS
- przykłady wczytywania danych ze źródeł zewnętrznych: Google Drive, bazy SQL, API zewnętrznych aplikacji, web scraping
- Łączenie baz danych wierszami (dołączanie przypadków)
- Przekształcanie struktury danych z formatu długiego w format szeroki i na odwrót
- Przygotowanie danych do dalszej analizy z wykorzystaniem operatora potoku (%>%)
- sortowanie zbioru
- usuwanie i podmiana braków danych
- filtrowanie obserwacji
- selekcja zmiennych i modyfikacja ich nazw
- tworzenie zmiennych będących funkcjami zmiennych istniejących
- grupowanie i wyliczanie parametrów w podgrupach
- łączenie baz danych kolumnami (dołączanie zmiennych)
Część 2: Zaawansowane metody statystyczne
- Analiza czynnikowa i analiza głównych składowych
- idea i zastosowania analizy czynnikowej
- dobór parametrów analizy: metoda rotacji
- sposób interpretacji wyników
- ocena jakości rozwiązania i sposoby jego poprawy
- tworzenie map percepcyjnych z wykorzystaniem analizy czynnikowej
- Modele regresyjne
- model regresji jako narzędzie opisu i przewidywania
- regresja liniowa: interpretacja współczynników równania i wartości R2
- szacowanie siły wpływu: indeks Pratta
- poprawa dopasowania modelu:
- minimalizacja wzajemnego skorelowania predyktorów
- nieliniowe przekształcenia zmiennych: rule of the bulge
- eliminacja przypadków odstających
- metody poprawy rozwiązania: selekcja predyktorów
- dodawanie interakcji międzyzmiennowych do modelu
- regresja nieliniowa: wielomianowa i logistyczna
- Analiza skupień (clustering)
- zastosowania analizy skupień: znaczenie biznesowe segmentacji rynku
- przygotowanie danych do analizy skupień: standaryzacja i ortogonalizacja zmiennych, eliminacja przypadków odstających
- clustering hierarchiczny i clustering k-średnich: wybór parametrów analizy
- interpretacja i wizualizacja wyników analizy skupień
- kryteria wyboru optymalnego rozwiązania
- Analiza korespondencji
- przygotowanie danych wejściowych do analizy
- interpretacja wyników
- generowanie mapy korespondencji i dostosowanie jej wyglądu
- wykorzystanie analizy korespondencji do wizualizacji wizerunku marki
Do kogo kierowane jest szkolenie:
Kurs średniozaawansowany został stworzony dla osób, które posiadają już podstawowe umiejętności analizy danych w języku R (np. wczytywanie pliku CSV, opis parametryczny jednej zmiennej, generowanie tabel itp.). Na szkolenie średniozaawansowane zapraszamy więc osoby, które znają już trochę język R, ale chciałyby nabrać w posługiwaniu się nim większej biegłości, lub opanować techniki analityczne stosowane w branży badań rynku. W podążaniu za programem kursu pomocna będzie podstawowa wiedza z zakresu statystyki oraz doświadczenie w stosowaniu omawianych metod, np. w pakiecie SPSS.
Korzyści dla uczestników:
Po ukończeniu tego szkolenia uczestnik będzie potrafił:
- Definiować własne funkcje statystyczne
- Uruchamiać skrypty bez otwierania ich w edytorze (wstęp do programowania modularnego)
- Wykonywać operacje w pętlach
- Wczytywać dane z wybranej zakładki w arkuszu Excel i z formatu RDS
- Łączyć bazy danych wierszami (dodawanie przypadków) i kolumnami (dodawanie zmiennych)
- Zmieniać format danych z formatu baz relacyjnych („długiego”) na częściej stosowany w badaniach format „szeroki”
- Posługiwać się funkcjami pakietów dplyr i tidyr do przetwarzania zbiorów danych, w celu przygotowania danych do dalszej analizy
- Wykonywać analizę czynnikową i interpretować jej wyniki
- Tworzyć mapy percepcyjne z wykorzystaniem czynników
- Przeprowadzać analizę regresji, interpretować jej wyniki i optymalizować dopasowanie modelu
- Szacować procentowy udział siły wpływu każdego z predyktorów na zmienną zależną
- Interpretować wyniki regresji liniowej z interakcją i bez, wielomianowej oraz logistycznej
- Przeprowadzać analizę skupień metodami hierarchicznymi i k-średnich
- Wybierać podział zbioru najbardziej obiecujący pod kątem segmentacji rynku
- Przeprowadzać analizę korespondencji
- Generować i interpretować mapę korespondencji zawierającą marki i cechy wizerunkowe
Kluczowe pojęcia i zagadnienia:
Pojęcia z zakresu programowania: wymagane i opcjonalne argumenty funkcji, domyślna wartość argumentu,
wrapper, funkcja przeciążona, obsługa błędów, programowanie modularne, pętla, inkrementacja, warunek stopu, API, format JSON, długi i szeroki format danych, potok (
pipeline)
Pojęcia statystyczne: czynnik, standaryzacja, rotacja, wykres osypiska, ładunki czynnikowe, predykcja, zależność liniowa i nieliniowa, zmienna zależna i predyktory, moc predykcyjna modelu, współczynniki standaryzowane Beta, współczynnik Pratta, skorelowanie wzajemne, przypadki odstające, przekształcenie nieliniowe, logarytm, wielomian, logit, ortogonalność, segmentacja, skupienie (
cluster), metryka, odległość Euklidesowa, metoda aglomeracji, profil wierszowy i kolumnowy, rozkład wg. wartości osobliwych macierzy (
singular value decomposition, SVD), masa i moment punktu
Forma szkolenia:
Szkolenie będzie miało formę warsztatową. Zdecydowaną większość czasu spędzimy, pisząc i testując kod na własnych komputerach. Moduły tematyczne składające się z teorii i przykładów będą przedzielane ćwiczeniami indywidualnymi, służącymi utrwaleniu materiału.
Stopień zaawansowania:
Kurs średniozaawansowany jest kontynuacją i rozwinięciem szkolenia „R dla badaczy – poziom podstawowy”, toteż opanowanie podstawowych umiejętności analizy danych w R (niekoniecznie w ramach szkolenia podstawowego) z powodzeniem wystarczy do podążania za programem kursu średniozaawansowanego. Podstawowa wiedza na temat omawianych metod analitycznych (analiza czynnikowa, analiza regresji, analiza skupień i analiza korespondencji) będzie pomocna, ale zagadnienia te w razie potrzeby zostaną objaśnione.