Podając swój adres e-mail i zapisując się na newsletter, wyraża Pan/Pani zgodę na otrzymywanie informacji o publikacjach Oficyny Wydawniczej SGH i przetwarzanie danych osobowych w tym celu. Zgodę można wycofać w dowolnym momencie, co nie wpływa na zgodność z prawem przetwarzania, którego dokonano przed jej cofnięciem.
Zapraszamy
do naszej siedziby:
budynek SGH
al. Niepodległości 162
Tel: 780 039 374
Do dnia 30/04/2021
Księgarnia stacjonarna będzie nieczynna.
Za utrudnienia przepraszamy
Oficyna Wydawnicza SGH al. Niepodległości 162, p. 023 bud. główny SGH 02-554 Warszawa |
|
|
Wstęp Celem niniejszej książki jest przedstawienie szeregu zastosowań technik analizy danych w problemach ekonomiczno-zarządczych wraz z implementacją rozwiązań w środowisku programowania statystycznego GNU R. Na polskim rynku dostępnych jest kilkanaście pozycji z zakresu zastosowania oprogramowania GNUR, jednak niewiele z nich jest tak silnie zorientowanych problemowo. Mamy nadzieję, że niniejszy tekst przyczyni się do popularyzacji darmowego oprogramowania GNU R w instytucjach publicznych i prywatnych, a także sprawi, że podejmowane decyzje będą silniej umocowane w danych w duchu koncepcji Evidence-Based Management. Podręcznik powstał jako wynik doświadczeń autorów w wykorzystaniu oprogramowania GNU R w badaniach naukowych z zakresu zarządzania ilościowego, a także prowadzonych przez nich zajęć dydaktycznych na poziomie licencjackim i magisterskim w Szkole Głównej Handlowej w Warszawie na kierunku Metody Ilościowe w Ekonomii i Systemy Informacyjne. Książka może również służyć jako materiał wspomagający do samodzielnego poznawania analizy danych z GNU R. Zakładamy, że Czytelnik:
Dodatkową wiedzę wprowadzającą na temat języka GNU R można także posiąść zapoznając się na przykład z następującymi pozycjami polskojęzycznymi: Biecek (2008), Kopczewska et al. (2009),Walesiak et al. (2009). Natomiast przegląd metod uczenia maszynowego i statystycznego dostępnych w GNU R można znaleźć na stronie CRAN Task View: Machine Learning & Statistical Learning. Książka podzielona jest na rozdziały zawierające przykłady. Każdy z przykładów ma następującą strukturę: 1. Zadanie - przedstawia opis problemu i wykorzystanych danych oraz oczekiwane wyniki analiz. 2. Rozwiązanie - omawia sposób podejścia do rozwiązania zadania i otrzymane wyniki działania procedur wraz z krótkim komentarzem objaśniającym wykorzystane techniki analityczne. 3. Implementacja - prezentuje kompletny kod GNU R stanowiący rozwiązanie zadania oraz dokładne omówienie sposobu jego działania. 4. Polecenia - zestaw dodatkowych zadań do samodzielnego wykonania. Zachęcamy Czytelnika do samodzielnych ćwiczeń, a także wykonywania podanych w każdym zadaniu dodatkowych poleceń na nowych zbiorach danych. W tym celu przydatne mogą być zbiory danych z pakietów: Ecdat, DAAG, UsingR, datasets, MASS dostępnych w systemie GNU R. Książkę rozpoczyna rozdział 1 przedstawiający podstawy języka GNU R, wykorzystane w książce konwencje nazewnictwa obiektów oraz przyjęte standardy kodowania. Dodatkowo zawiera on kompletne rozwiązanie jednego przykładu z zakresu tradycyjnej mikroekonometrii pokazujące sposób podejścia do prezentacji materiału wykorzystany w dalszej części podręcznika. Następnie przedstawione są przykłady w podziale na trzy części tematyczne. W pierwszej części Techniki programowania w systemie GNU R przedstawiamy wprowadzające zastosowania oprogramowania GNU R w zakresie: przetwarzania danych, ich wizualizacji oraz podstawowych narzędzi statystyczno-ekonometrycznych i symulacyjnych. W drugiej części Procedury budowy modeli predykcyjnych omawiamy sposoby budowy i oceny modeli predykcyjnych. Rozdział ten obejmuje techniki podziału zbioru danych, technikę walidacji krzyżowej, zagadnienia optymalizacji progu odcięcia i wizualizacji oceny modeli klasyfikacyjnych. W trzeciej części Algorytmy analizy danych prezentujemy popularne techniki statystycznego uczenia obejmujące: metody selekcji zmiennych i regularyzacji, uogólnione modele addytywne, drzewa klasyfikacyjne, sieci neuronowe, technikę bagging oraz metody analizy skupień i redukcji wymiaru. Wszystkie kody GNU R, stanowiące rozwiązanie przedstawionych problemów, zostały przetestowane w systemach opartych o Windows 7 i GNU R w wersji 2.13.0. W celu zapewnienia replikowalności wyników prezentowanych na wydrukach w każdym przykładzie w sposób jawny określamy ziarno generatora liczb pseudolosowych za pomocą funkcji set.seed, podając za argument wartość ziarna równą. Kod pozbawiony jest komentarzy, a jego opis znajduje się poniżej w sekcji Implementacja. W kodzie za każdym razem podajemy w komentarzach źródłowy adres internetowy, pod którym można pobrać odpowiedni zbiór danych. Ponadto wszystkie zbiory danych wraz z wykorzystywanymi kodami do ich przetwarzania znajdują się na stronie internetowej pod adresem http://bogumilkaminski.pl/index.php?id=4&lang=0. Pozwala to na uruchomianie kodów, wymagających wczytania danych, na dwa sposoby. Pierwszy polega na ściągnięciu zbioru danych i zapisaniu go na przestrzeni dyskowej. Wówczas kod jest gotowy do uruchomieniu po ustaleniu przy pomocy funkcji setwd ścieżki dostępu do pliku, np. setwd ("C:/"). Drugi sposób polega na zamienieniu w kodzie nazwy pliku jego pełną ścieżką dostępu lub źródłowym adresem internetowym. Kody źródłowe GNU R, które ładują dodatkowe pakiety przy pomocy funkcji library, wymagają ich wcześniejszej instalacji. Służy do tego funkcja install.packages, na przykład install.packages ("reshape"). Znajdujące się na stronie internetowej kody źródłowe są przygotowane w dwóch równoważnych wersjach: generującej wykresy czarno-białe i generującej wykresy kolorowe. W niniejszej książce zaprezentowano kod tworzący wykresy w odcieniach szarości. Wszystkie skrypty zostały tak przygotowane, że można je wykonać za pomocą polecenia source i otrzymać prawidłowo sformatowany wydruk wyników analiz. |