Bankowość
Biznes i handel
Ekonometria
Ekonomia
Filozofia
Finanse
Geografia gospodarcza
Gospodarka lokalna
Historia gospodarcza i społeczna
Informatory i poradniki
Informatyka
Literatura obcojęzyczna
Logistyka i transport
Marketing
Nauki matematyczne
Nauki o przedsiębiorstwie
Oferty specjalne
Pedagogika i psychologia
Periodyki
Prawo i administracja
Publikacje jubileuszowe
Rachunkowość i podatki
Rolnictwo
Socjologia
Statystyka
Stosunki międzynarodowe
Tania książka
Turystyka
Ubezpieczenia społeczne
Zarządzanie
Zapraszamy
do naszej nowej siedziby
na ulicę Rakowiecką 28,
paw. 2 (bud. SGGW)
(istnieje także możliwość wejścia
od strony al. Niepodległości -
przez bramę wjazdową SGGW).
Sprzedaż oraz realizacja zamówień
(od razu po złożeniu)
odbywa się
w godz. 9.00-17.00
od poniedziałku do piątku.
PRZYJMUJEMY WYŁĄCZNIE
ODLICZONE KWOTY DO ZAPŁATY!
|
Oficyna Wydawnicza SGH Rakowiecka 28 paw. 2 bud. SGGW 02-528 Warszawa |
|
|
|
Wstęp Celem niniejszej książki jest przedstawienie szeregu zastosowań technik analizy danych w problemach ekonomiczno-zarządczych wraz z implementacją rozwiązań w środowisku programowania statystycznego GNU R. Na polskim rynku dostępnych jest kilkanaście pozycji z zakresu zastosowania oprogramowania GNUR, jednak niewiele z nich jest tak silnie zorientowanych problemowo. Mamy nadzieję, że niniejszy tekst przyczyni się do popularyzacji darmowego oprogramowania GNU R w instytucjach publicznych i prywatnych, a także sprawi, że podejmowane decyzje będą silniej umocowane w danych w duchu koncepcji Evidence-Based Management. Podręcznik powstał jako wynik doświadczeń autorów w wykorzystaniu oprogramowania GNU R w badaniach naukowych z zakresu zarządzania ilościowego, a także prowadzonych przez nich zajęć dydaktycznych na poziomie licencjackim i magisterskim w Szkole Głównej Handlowej w Warszawie na kierunku Metody Ilościowe w Ekonomii i Systemy Informacyjne. Książka może również służyć jako materiał wspomagający do samodzielnego poznawania analizy danych z GNU R. Zakładamy, że Czytelnik:
w ramach standardowej dystrybucji GNU R: An Introduction to R. Dodatkową wiedzę wprowadzającą na temat języka GNU R można także posiąść zapoznając się na przykład z następującymi pozycjami polskojęzycznymi: Biecek (2008), Kopczewska et al. (2009),Walesiak et al. (2009). Natomiast przegląd metod uczenia maszynowego i statystycznego dostępnych w GNU R można znaleźć na stronie CRAN Task View: Machine Learning & Statistical Learning. Książka podzielona jest na rozdziały zawierające przykłady. Każdy z przykładów ma następującą strukturę: 1. Zadanie - przedstawia opis problemu i wykorzystanych danych oraz oczekiwane wyniki analiz. 2. Rozwiązanie - omawia sposób podejścia do rozwiązania zadania i otrzymane wyniki działania procedur wraz z krótkim komentarzem objaśniającym wykorzystane techniki analityczne. 3. Implementacja - prezentuje kompletny kod GNU R stanowiący rozwiązanie zadania oraz dokładne omówienie sposobu jego działania. 4. Polecenia - zestaw dodatkowych zadań do samodzielnego wykonania. Zachęcamy Czytelnika do samodzielnych ćwiczeń, a także wykonywania podanych w każdym zadaniu dodatkowych poleceń na nowych zbiorach danych. W tym celu przydatne mogą być zbiory danych z pakietów: Ecdat, DAAG, UsingR, datasets, MASS dostępnych w systemie GNU R. Książkę rozpoczyna rozdział 1 przedstawiający podstawy języka GNU R, wykorzystane w książce konwencje nazewnictwa obiektów oraz przyjęte standardy kodowania. Dodatkowo zawiera on kompletne rozwiązanie jednego przykładu z zakresu tradycyjnej mikroekonometrii pokazujące sposób podejścia do prezentacji materiału wykorzystany w dalszej części podręcznika. Następnie przedstawione są przykłady w podziale na trzy części tematyczne. W pierwszej części Techniki programowania w systemie GNU R przedstawiamy wprowadzające zastosowania oprogramowania GNU R w zakresie: przetwarzania danych, ich wizualizacji oraz podstawowych narzędzi statystyczno-ekonometrycznych i symulacyjnych. W drugiej części Procedury budowy modeli predykcyjnych omawiamy sposoby budowy i oceny modeli predykcyjnych. Rozdział ten obejmuje techniki podziału zbioru danych, technikę walidacji krzyżowej, zagadnienia optymalizacji progu odcięcia i wizualizacji oceny modeli klasyfikacyjnych. W trzeciej części Algorytmy analizy danych prezentujemy popularne techniki statystycznego uczenia obejmujące: metody selekcji zmiennych i regularyzacji, uogólnione modele addytywne, drzewa klasyfikacyjne, sieci neuronowe, technikę bagging oraz metody analizy skupień i redukcji wymiaru. Wszystkie kody GNU R, stanowiące rozwiązanie przedstawionych problemów, zostały przetestowane w systemach opartych o Windows 7 i GNU R w wersji 2.13.0. W celu zapewnienia replikowalności wyników prezentowanych na wydrukach w każdym przykładzie w sposób jawny określamy ziarno generatora liczb pseudolosowych za pomocą funkcji set.seed, podając za argument wartość ziarna równą. Kod pozbawiony jest komentarzy, a jego opis znajduje się poniżej w sekcji Implementacja. W kodzie za każdym razem podajemy w komentarzach źródłowy adres internetowy, pod którym można pobrać odpowiedni zbiór danych. Ponadto wszystkie zbiory danych wraz z wykorzystywanymi kodami do ich przetwarzania znajdują się na stronie internetowej pod adresem http://bogumilkaminski.pl/index.php?id=4&lang=0. Pozwala to na uruchomianie kodów, wymagających wczytania danych, na dwa sposoby. Pierwszy polega na ściągnięciu zbioru danych i zapisaniu go na przestrzeni dyskowej. Wówczas kod jest gotowy do uruchomieniu po ustaleniu przy pomocy funkcji setwd ścieżki dostępu do pliku, np. setwd ("C:/"). Drugi sposób polega na zamienieniu w kodzie nazwy pliku jego pełną ścieżką dostępu lub źródłowym adresem internetowym. Kody źródłowe GNU R, które ładują dodatkowe pakiety przy pomocy funkcji library, wymagają ich wcześniejszej instalacji. Służy do tego funkcja install.packages, na przykład install.packages ("reshape"). Znajdujące się na stronie internetowej kody źródłowe są przygotowane w dwóch równoważnych wersjach: generującej wykresy czarno-białe i generującej wykresy kolorowe. W niniejszej książce zaprezentowano kod tworzący wykresy w odcieniach szarości. Wszystkie skrypty zostały tak przygotowane, że można je wykonać za pomocą polecenia source i otrzymać prawidłowo sformatowany wydruk wyników analiz. |