Podając swój adres e-mail i zapisując się na newsletter, wyraża Pan/Pani zgodę na otrzymywanie informacji o publikacjach Oficyny Wydawniczej SGH i przetwarzanie danych osobowych w tym celu. Zgodę można wycofać w dowolnym momencie, co nie wpływa na zgodność z prawem przetwarzania, którego dokonano przed jej cofnięciem.
Zapraszamy
do naszej siedziby:
budynek SGH
al. Niepodległości 162
Tel: 780 039 374
Oficyna Wydawnicza SGH al. Niepodległości 162, p. 023 bud. główny SGH 02-554 Warszawa |
|
|
Wstęp
Oddajemy do rąk czytelników kolejną książkę z serii "Modelowanie dla biznesu". Rozpoczynając wydanie tej serii w 2019 roku, nikt z nas nie zdawał sobie sprawy, że rozpoczniemy wiele działań (w tym wydarzeń naukowo-biznesowych i publikacji) zmierzających do tworzenia pomostu pomiędzy biznesem a nauką.Z perspektywy czasu możemy teraz śmiało dzielić się radością gromadzenia i łączenia wielu ekspertów i sympatyków w jednym środowisku, które staje się inspiracją, fermentem analitycznym, nadającym właściwe trendy rozwoju i stosowania zaawansowanej analityki biznesowej w Polsce i na świecie.Rozpoczęliśmy przygotowania do tego wydania w czasach przed światową pandemią COVID-19. Nie wiedzieliśmy wtedy, że wybrane tematy naszych rozdziałów staną się istotnym wsparciem przemian analitycznego świata przed i po pandemii. Nikt dziś nie wie, jak potoczą się losy ludzkości i jak będzie wyglądał świat po zlikwidowaniu wpływu wirusa SARS. Jednocześnie w czasie jego działania obserwujemy dynamiczny rozwój w budowaniu nowej kultury pracy, komunikacji i biznesu. Śmiało możemy zakładać, że świat po pandemii będzie jeszcze bardziej potrzebował automatyzacji procesów, większej liczby modeli predykcyjnych i pełnej cyfryzacji. Ludzka ingerencja w podejmowanie decyzji będzie ogranicza-na. Zarządzanie procesami przesunie się prawdopodobnie z metod eksperckich w stronę analizowania szczegółowych raportów monitorujących kolejne automa-tyczne punkty decyzyjne procesu i ewentualne tworzenie hipotez weryfikowanych testami AB. Pandemia tylko tę przemianę przyspiesza i zmusza wszystkich rozwijających zaawansowaną analitykę do bardziej zdecydowanych kroków. Już przed pandemią pojawiły się wyzwania związane z rozwojem technik sztucznej inteligencji (ang. Artificial Intelligence - AI) i uczenia maszynowego (ang. Machine Learning - ML). Problem można sformułować następująco: co jest lepsze? Model predykcyjny bardziej złożony, z nieliniowymi zależnościami i trudniejszy w interpretacji, ale za to posiadający lepsze parametry zdolności do prognozy, czy też model z prostszą konstrukcją, lepiej interpretowany, ale z mniejszą mocą predykcyjną? Odpowiedź nie jest prosta, związana jest także z istnieniem wielu regulacji w środowiskach instytucji finansowych. W rozdziale 1 przywołane są nowe zaawansowane techniki budowy modeli w zastosowaniu do ryzyka kredytowego. Autorzy głównie koncentrują się na porównaniu klasycznego modelu regresji logistycznej z algorytmem XGBoosting i lasami losowymi. W tym miejscu należy podkreślić nową i szybko rozwijającą się teorię związaną z interpretacją modeli. Cieszy nas fakt, że równolegle w trakcie powstawania naszej książki pojawiła się publikacja autorów Przemysława Biecka i Tomasza Burzykowskiego, dostępna także on-line 2, która przybliża tematykę XAI (ang. eXplainable Artificial Intelligence) i IML (ang. Interpretable Machine Learning). Pojawiają się tu szczegółowo opisane metody SHAP (ang. SHapley Additive exPlanation) i LIME (ang. Local Interpretable model-agnostic explonation), a także poruszony jest już we wstępie problem struktur danych modelowych potrzebnych do budowy modeli. Obecnie zespoły analityczne potrafią budować dane z kilkoma tysiącami zmiennych opisujących zjawisko modelowe. Tak duża liczba zmiennych powoduje rozrastanie się zasobów informatycznych, służących do ich przechowywania. Ich koszt staje się powoli istotnym czynnikiem planowania projektu. Nowe techniki modelowe potrafią zmniejszyć złożoność danych na wejściu. Innymi słowy, poszukiwany jest jakiś kompromis pomiędzy złożonością danych wejściowych i prostotą modelu a prostotą danych wejściowych i złożonością modelu. Pod tym względem ma się wrażenie, że ludzkość czeka na jakąś rewolucję naukową, która powinna przekonać środowiska nadzorujące do większego otwarcia się na nowoczesne modelowanie, a jednocześnie by to modelowanie dało się ująć w jakieś ramy i metody weryfikacji, aby nie narazić się na duże straty finansowe. Ryzyko modelu jest już pojęciem wprowadzonym po światowym kryzysie w latach 2008-2009, ale ryzyko modeli ML i AI nie jest jeszcze dobrze zmierzone i to stanowi barierę ich stosowania w biznesie nadzorowanym. Z drugiej strony w licznych prezentacjach Przemysława Biecka pod wspólnym hasłem ang. XAI or DIE 3 (w tłumaczeniu: wyjaśnij model lub umieraj) pojawia się nowe wyzwanie formułowane przez nadzorcę o szczegółowym wyjaśnianiu klientom przyczyny odmowy udzielenia kredytu 4. Tego typu wezwanie wymaga nowszego spojrzenia na techniki modelowe, gdyż realizacja regulacji nie może ujawniać pełnej postaci stosowanego modelu. Może to podlegać innej regulacji związanej ujawnieniem tajemnicy bankowej, co w konsekwencji może prowadzić do nadużyć finansowych np. w procesie akceptacji kredytowej. Muszą zatem pojawić się nowe metody wskazujące istotne czynniki wpływające na ocenę modelu w ujęciu indywidualnym danego klienta, które jednak nie ujawnią pełnej informacji o modelu, ale będą wystarczające by uzasadnić przyczynę odmowy danego wniosku kredytowego. Warto zatem badać modele ML i AI oraz dokonywać różnego rodzaju porównań, głównie koncentrując się na selekcji zmiennych i tworzeniu kryteriów porównawczych. Nie istnieje jedno najlepsze kryterium i nie istnieje pojęcie dobrego modelu. Trud poszukiwania najlepszego modelu dla przykładowych danych przedstawiono w rozdziale 2.W pierwszych dwóch rozdziałach przedstawiono metody modelowania, prognozowania zjawiska binarnego (będzie / nie będzie), czyli estymacji prawdopodobieństwa zajścia zdarzenia modelowego w jakimś z góry ustalonym horyzoncie czasowym. Dwa kolejne rozdziały poruszają temat prognozowania czasu tego zdarzenia, który związany jest z modelami analizy historii zdarzeń. Szczególnie w rozdziale 3 zaprezentowano metodykę analizowania krzywych do życia i hazardu, łącznie z ich metodami estymacji. Dodatkowo przedstawiono zagadnienie modelowania zdarzeń rekurencyjnych w zastosowaniu biznesowym programu lojalnościowego. Niewątpliwie metody analizy historii zdarzeń będą coraz częściej stosowane w biznesie i obecne opracowanie jest ważnym drogowskazem ich rozwoju. W sposób uproszczony i jednocześnie dostosowany do ryzyka kredytowego w procesie akceptacji kredytowej zastosowanie modeli analizy historii ukazano w rozdziale 4. W tym wypadku prezentowana jest metoda dynamiczna reagowania na zmieniające się ryzyko kredytowe w czasie. Trzeba zdać sobie sprawę, że obecnie stosowane są metody prognozowania ryzyka kredytowego na podstawie wskaźników makroekonomicznych, czyli ogólnie prognozowanych zmian koniunktury. Problem tylko w tym, że ani kryzysu w latach 2008 - 2009 nie udało się przewidzieć, ani pandemii COVID-19 w 2020 roku. Być może zatem poszukiwanie metod wiążących zmianę koniunktury z ryzykiem kredytowym nie pomogą nam przewidzieć kolejnego kryzysu, ale dynamiczna metoda reagująca bezpośrednio na podstawie obserwowanych krótkookresowych wskaźników ryzyka być może pomoże nam szybciej zmienić parametry procesu akceptacji kredytowej i zaoszczędzić straty kredytowe. Jesteśmy przekonani, że zebrane tematy pomogą przybliżyć najważniejsze problemy dzisiejszej analityki oraz zainspirują czytelników do pogłębionych studiów oraz pomogą wspólnie rozwijać zastosowania zaawansowanej analizy danych w biznesie.
Karol Przanowski
Sebastian Zając
|