Eksploracja danych

Teoria i praktyka

Data Mining (eksploracja danych) to proces znajdowania wzorców, anomalii i korelacji w ogromnych zbiorach danych, aby na tej podstawie przewidywać wyniki. Przy użyciu szeregu różnych technik możesz dzięki uzyskanym informacjom zwiększać przychody, redukować koszty, poprawiać relacje z klientami, obniżać ryzyko i nie tylko.


Historia

Proces przeszukiwania danych na potrzeby znajdowania ukrytych zależności i przewidywania przyszłych trendów ma długą historię. Termin „eksploracja danych”, zastępowany czasem określeniem „odkrywanie wiedzy zawartej w bazach danych”, powstał dopiero w latach 90. XX wieku, natomiast u podstaw tego zjawiska leżą trzy powiązane ze sobą dyscypliny naukowe: statystyka (liczbowa analiza zależności między danymi), sztuczna inteligencja (podobna do ludzkiej inteligencja wykazywana przez oprogramowanie i/lub maszyny) i uczenie maszynowe (algorytmy potrafiące uczyć się na podstawie danych w celu formułowania prognoz). To, co było stare, staje się znów nowe – a to dlatego, że technologia eksploracji danych stale się rozwija, chcąc dotrzymać kroku nieograniczonym możliwościom danych big data i coraz dostępniejszej mocy obliczeniowej.

W ciągu ostatniej dekady postęp w dziedzinie mocy i szybkości przetwarzania danych pozwolił nam odejść od żmudnych i czasochłonnych metod ręcznych na rzecz szybkiej, prostej i zautomatyzowanej analizy danych. Im większa złożoność posiadanych zbiorów danych, tym większa szansa na odkrycie drzemiących w nich istotnych informacji. Firmy z różnych branż – od handlu detalicznego i bankowości po produkcję, telekomunikację i ubezpieczenia – wykorzystują eksplorację danych do odkrywania zależności między wieloma różnymi czynnikami, jak choćby optymalizacja cen, promocje czy dane demograficzne, oraz analizowania wpływu gospodarki, ryzyka, konkurencji i mediów społecznościowych na ich modele biznesowe, przychody, działalność operacyjną i relacje z klientami.

 

Dlaczego eksploracja danych jest ważna?

Dlaczego więc eksploracja danych jest ważna? Liczby mówią za siebie – ilość generowanych danych co dwa lata ulega podwojeniu, a same dane nieustrukturyzowane stanowią aż 90% całego cyfrowego świata. Większa ilość informacji nie przekłada się jednak automatycznie na większą wiedzę.

Eksploracja danych umożliwia:

  • odsianie chaosu i powtarzalnego szumu z posiadanych danych
  • zrozumienie, co jest istotne, a następnie właściwe wykorzystanie uzyskanych informacji do przewidywania prawdopodobnych wyników
  • szybsze podejmowanie świadomych decyzji
  • czerpanie nowych informacji z danych dzięki analizie predykcyjnej.

Eksploracja danych w dzisiejszym świecie

Eksploracja danych stanowi fundament analityki, umożliwiający tworzenie modeli zdolnych odkrywać zależności wśród milionów, a nawet miliardów różnych rekordów. Sprawdź, jak koncepcja ta kształtuje naszą codzienność.

Obszar uczenia maszynowego

Ten raport ekspercki przygotowany z myślą o początkujących i średnio zaawansowanych specjalistach data science zawiera analizę czterech głównych stylów uczenia maszynowego i sposobów korzystania z nich. Przeczytaj go, aby poznać różne metodologie, dowiedzieć się, jak uczenie maszynowe i eksploracja danych współtworzą modele, i ocenić, w jakich okolicznościach najlepiej sprawdzi się uczenie głębokie. Znajdziesz w nim również informacje na temat popularnych algorytmów oraz tego, na co warto zwrócić uwagę w kontekście interpretowalności i automatyzacji.

Decyzje oparte na danych sprzyjają dobrostanowi i wzrostowi gospodarczemu

Ze względu na przestarzały system rejestrów publicznych oraz ogromną liczbę przeszło 50 aplikacji wykorzystywanych w różnych działach Dżakarta musiała stawić czoła trudnemu wyzwaniu w zakresie obsługi danych. Zastosowanie rozwiązania opartego na eksploracji danych i innych technologiach analitycznych pozwoliło wdrożyć w mieście jednolitą cyfrową platformę oraz kompleksową aplikację zapewniającą obywatelom łatwy dostęp do szeregu usług publicznych. 

Czego możemy się dowiedzieć o przemianach od adiunktki zajmującej się eksploracją danych

Ponieważ studenci nie potrafią trwać w skupieniu przez dłuższy czas, trudno jest utrzymywać ich zainteresowanie tematem. Ucząc się tworzyć modele i rozwiązywać problemy przy użyciu SAS Viya, Cali M. Davis z Troy University postanowiła więc poeksperymentować. Pani adiunkt prowadziła dwa kursy: jeden poświęcony starszemu narzędziu służącemu do eksploracji danych, a drugi – oprogramowaniu wykorzystującemu pulpity nawigacyjne i wizualizacje. Czy zgadniesz, który z nich cieszył się większą popularnością?

Oprogramowanie data mining

SAS Model Studio pomaga rozwiązywać złożone problemy analityczne i umożliwia wszystkim pracę w tym samym, zintegrowanym środowisku. Zawiera też zautomatyzowane API do modelowania.

Kto z tego korzysta?

Eksploracja danych stanowi trzon procesów analitycznych realizowanych w wielu branżach i dziedzinach.

Telekomunikacja

Na przeładowanym rynku, na którym panuje silna konkurencja, odpowiedzi często kryją się w danych o konsumentach. Firmy z branży telekomunikacyjnej, mediowej i technologicznej mogą przy użyciu modeli analitycznych wydobywać sens z ogromnych ilości danych dotyczących klientów – to pomaga przewidywać ich zachowania oraz tworzyć precyzyjne kampanie dopasowane do potrzeb odbiorców.

Ubezpieczenia

Analityczny know-how pozwala firmom ubezpieczeniowym rozwiązywać złożone problemy w takich obszarach jak oszustwa, zgodność z przepisami, zarządzanie ryzykiem czy odpływ klientów. Przedsiębiorstwa korzystają z technik eksploracji danych, aby dokonywać bardziej efektywnej wyceny elementów swojej oferty w różnych liniach biznesowych oraz znajdować nowe sposoby oferowania konkurencyjnych produktów obecnym klientom.

Edukacja

Dysponując spójnym, opartym na danych obrazem postępów osiąganych przez ucznia, pedagog jest w stanie przewidzieć jego wyniki jeszcze zanim przekroczy on próg klasy – i na tej podstawie opracować właściwe strategie wsparcia, które pomogą podopiecznemu utrzymać właściwy kurs na ścieżce kształcenia. Eksploracja danych ułatwia nauczycielom dostęp do danych dotyczących uczniów, przewidywanie poziomu osiąganych przez nich wyników i rozpoznawanie jednostek lub grup wymagających dodatkowej uwagi.

Przemysł

Harmonizacja planów zaopatrzenia z prognozami popytu to rzecz niezbędna, podobnie jak wczesne wykrywanie problemów, kontrola jakości czy inwestowanie w kapitał marki. Producenci są w stanie przewidzieć zużycie zasobów produkcyjnych oraz z wyprzedzeniem zaplanować prace konserwacyjne, co pozwala maksymalizować czas pracy urządzeń i realizować produkcję zgodnie z harmonogramem.

Bankowość

Zautomatyzowane algorytmy pomagają bankom zrozumieć zarówno klientów, jak i miliardy transakcji stanowiących podstawę systemu finansowego. Dzięki eksploracji danych instytucje finansowe mogą uzyskać pełniejszy obraz ryzyka rynkowego, szybko wykrywać i zapobiegać oszustwom, skutecznie zarządzać kwestiami zgodności z obowiązującymi regulacjami oraz maksymalizować zwrot z inwestycji w marketing.

Handel detaliczny

W obszernych bazach danych klientów kryje się dotycząca ich wiedza, dzięki której może Ci być łatwiej doskonalić relacje, optymalizować kampanie marketingowe i prognozować sprzedaż. Korzystając z bardziej precyzyjnych modeli danych i analiz marketingowych, sprzedawcy detaliczni są w stanie prowadzić lepiej ukierunkowane kampanie i kształtować swoją ofertę w taki sposób, by jak najlepiej trafiała w gusta klientów.

Jak to działa

Eksploracja danych – jako dziedzina wieloelementowa – obejmuje całą gamę metod i technik, które wykorzystuje się w różnych obszarach analityki odpowiadających na szeroką gamę potrzeb organizacyjnych, stawiających różnego rodzaju pytania i podejmujących decyzje przy określonym udziale człowieka lub na podstawie ustalonych reguł.

 

Modelowanie opisowe rozpoznaje podobieństwa lub grupy w obrębie danych historycznych, aby na ich podstawie określać przyczyny sukcesów lub niepowodzeń. Przykładem takiego zastosowania jest kategoryzacja klientów według preferencji produktowych lub nastawienia. Lista wykorzystywanych technik obejmuje między innymi poniższe:

Klasteryzacja
Grupowanie podobnych rekordów danych.
Wykrywanie anomalii
Rozpoznawanie wielowymiarowych wartości odstających.
Uczenie reguł asocjacji
Wykrywanie zależności między rekordami.
Analiza składowych głównych
Wykrywanie zależności między zmiennymi.
Grupowanie według podobieństwa
Grupowanie osób o wspólnych zainteresowaniach lub podobnych celach (np. osoby, które kupują X, często kupują także Y, a czasem Z).

 

Modelowanie prognostyczne idzie o krok dalej i polega na klasyfikacji przyszłych zdarzeń lub szacowaniu nieznanych wyników. Do przykładów możemy zaliczyć scoring kredytowy, którego celem jest określenie prawdopodobieństwa, z jakim dana osoba spłaci zaciągniętą pożyczkę. Modelowanie prognostyczne pomaga również gromadzić spostrzeżenia dotyczące takich kwestii jak odchodzenie klientów, reakcja na kampanie czy ryzyko niewypłacalności. Lista wykorzystywanych technik obejmuje między innymi poniższe:

Regresja
Miara siły związku pomiędzy jedną zmienną zależną a szeregiem zmiennych niezależnych.
Sieci neuronowe
Programy komputerowe wykrywające wzorce, tworzące prognozy i uczące się.
Drzewa decyzyjne
Wykresy w kształcie drzew, których poszczególne gałęzie reprezentują prawdopodobne zdarzenia.
Maszyny wektorów nośnych
Modele uczenia nadzorowanego wraz z powiązanymi algorytmami uczenia.


Modelowanie prognostyczne
Wraz ze wzrostem ilości nieustrukturyzowanych danych pochodzących z internetu, pól komentarzy, książek, e-maili, plików PDF, nagrań audio i innych źródeł tekstowych znacząco wzrosła także popularność eksploracji tekstu jako dziedziny powiązanej z eksploracją danych. Ważne jest, by umieć skutecznie analizować składnię, filtrować i przekształcać dane nieustrukturyzowane z zamiarem wykorzystania ich w modelach prognostycznych w celu zwiększenia dokładności przewidywania.

Nie należy postrzegać eksploracji danych jako odrębnego, samodzielnego elementu, ponieważ zarówno wstępne przetwarzanie danych (przygotowanie danych, analiza eksploracyjna), jak i końcowe przetwarzanie (walidacja modeli, ocena punktowa, monitorowanie wydajności modeli) to etapy równie istotne. Modelowanie prognostyczne bierze pod uwagę wewnętrzne i zewnętrzne zmienne oraz ograniczenia, aby na tej podstawie zalecić jedno lub więcej działań – może to być na przykład określenie najlepszej oferty marketingowej dla poszczególnych klientów. Lista wykorzystywanych technik obejmuje między innymi poniższe:

Analiza predykcyjna z wykorzystaniem reguł
Formułowanie reguł „jeśli X, to Y” na podstawie wzorców oraz przewidywanie wyników.
Optymalizacja marketingowa
Symulowanie w czasie rzeczywistym najbardziej efektywnego mixu mediowego umożliwiającego uzyskanie maksymalnego zwrotu z inwestycji (ROI).