logo

Wykorzystanie metod Big Data w ocenie ryzyka kredytowego

QuantFin - Fundacja Rozwoju Zawodowego Quantitative Finance wraz z PKO Bankiem Polskim S.A. przeprowadziła Projekt Wykorzystanie metod Big Data w ocenie ryzyka kredytowego - podsumowanie projektu dostępne tutaj.

PKO BP

 

 

 

 

 

Zainteresowanych studentów/organizacje studenckie oraz firmy zapraszamy do kontaktu: bigdata|quantitativefinance.org.pl| |bigdata|quantitativefinance.org.pl

Chętnym do rozwoju w obszarze zaawansowanej analityki dużych zbiorów danych polecamy kurs:
https://www.coursera.org/learn/machine-learning

oraz dwie książki:
Elements of Statistical Learning
Introduction to Statistical Learning

Artykuł QuantFin w Gazecie Giełdy Parkiet

#Inwestycja w 160 znakach

16 grudnia 2016, 11:24

Rynkiem rządzą plotki. Długi język znajomego z branży, przypadkowa rozmowa w windzie zjeżdżającej z ostatniego piętra najwyższego wieżowca w mieście czy wpływowy partner do gry w tenisa. Od wielu lat są to źródła informacji o nastrojach panujących na rynku oraz samopoczuciu byków i niedźwiedzi. Dziś za sprawą rozwoju technologii informacyjnych, a także stale rosnącej popularności mediów społecznościowych do „podsłuchania” takich rozmów nie trzeba wydawać ani złotówki na 15-letnią whisky lub wizytę w elitarnym klubie. Wystarczy znajomość podstaw programowania i dostęp do sieci.

Statystyczna analiza tekstu charakteryzuje się specyficznym sposobem pozyskiwania danych

Na w pełni efektywnym rynku ceny akcji przedsiębiorstwa odzwierciedlają wszystkie informacje, które dotyczą jego sytuacji finansowej i długofalowej perspektywy wzrostu. Przyjmując, że powyższa hipoteza sformułowana przez Eugene’a Famę jest w istocie popartą dowodami teorią naukową, analitycy i inwestorzy działający na takim rynku nie powinni poszukiwać innych informacji niż te, których dostarczają ceny. Mimo to zarządzający funduszami inwestycyjnymi nieustannie poszukują nowych źródeł informacji, które mają okazać się pomocne w prognozowaniu przyszłych cen. Jednym ze sposobów, który w ostatnim czasie gwałtownie zyskuje na popularności, jest statystyczna analiza tekstu.

Kluczem do niej okazuje się sposób, w jaki użytkownicy mediów społecznościowych opisują różnorodne wydarzenia związane z giełdą. Śledzenie wypowiedzi i opinii publikowanych np. na Twitterze umożliwia swoiste podsłuchiwanie rozmów, prowadzonych przy wielu stolikach londyńskiego City bez wychodzenia z domu. Ciężko jednak wyobrazić sobie, by jedna osoba była w stanie nadążyć za pojawiającymi się masowo wypowiedziami. Gdy dodamy do tego komentarze pod każdą z nich, to nawet specjalnie powołana grupa nie będzie w stanie poradzić sobie z takim natłokiem informacji. W tym miejscu z pomocą przychodzą metody leżące na pograniczu statystyki i informatyki, takie jak data mining, którego istotną odnogą jest właśnie statystyczna analiza tekstu. Wykorzystując narzędzia dostarczane przez tę dziedzinę, możemy czerpać wiedzę z danych, które na pierwszy rzut oka jej nie zawierają.

Statystyczna analiza tekstu charakteryzuje się specyficznym sposobem pozyskiwania danych. Nie ma tutaj jasno zdefiniowanych zmiennych, jak np. podczas badania historii wyceny poszczególnych spółek, gdzie posiadamy dokładnie określone parametry, takie jak cena danej akcji czy wolumen transakcji. W tym przypadku należy wykazać się większą kreatywnością. W ciągu kilku ostatnich lat wiele osób, z lepszym lub gorszym skutkiem, próbowało zmierzyć się z tym problem. Najczęściej spotykany wniosek z poszukiwań najlepszego źródła informacji do tych analiz wskazuje na twitterowe hasztagi. Nie tylko jest to jeden z najczęściej wykorzystywanych sposobów publicznej komunikacji, ale również istnieje wiele możliwości pobrania danych na temat częstotliwości wykorzystywania hasztagów (pakiet „twitteR”). Przykładem na wykorzystanie tej metody jest śledzenie częstotliwości wykorzystywania hasztagów oznaczających silne emocje, takie jak #Happy, #Hope lub #Fear. Zauważono, iż występują one częściej, gdy znacząco poprawia lub pogarsza się sytuacja ekonomiczna. Poza tym występują zauważalne korelacje tychże z takimi indeksami giełdowymi, jak VIX, Dow Jones czy S&P500. Co ciekawe, są one zarówno dodatnie jak i ujemne, co daje jeszcze pole do popisu dla osób zajmujących się data science.

Badaniom poddawane były również artykuły z baz różnych dzienników, wpisy na blogach itd. Jednak trafność uzyskiwanych w ten sposób przewidywań nie była w stanie zbliżyć się do wyników, dla których głównym źródłem informacji był Twitter. W badaniach prognozy oparte wyłącznie na statystycznej analizie tweetów osiągały skuteczność na poziomie 80 proc. Jest to wynik istotnie lepszy niż ten uzyskiwany drogą inwestowania w sposób czysto losowy, gdzie szanse na podjęcie właściwej decyzji wynoszą 50 proc. Czy w takim wypadku już niedługo zawierane transakcje będą się kojarzyć z charakterystyczną dla Twittera długością tekstu? Całkiem prawdopodobne, lecz wciąż nieprzesądzone, gdyż analitycy danych nieustannie pracują nad kolejnymi algorytmami, które pozwolą na jeszcze lepsze ujarzmienie rynków finansowych.

Łukasz Ambroziak

QuantFin - Fundacja

Link do wersji elektronicznejd artykułu tutaj.