Big Data

What it is & why it matters

Big data“ neboli „velká data“ je oblíbený výraz pro skupinu strukturovaných i nestrukturovaných dat, která v současnosti zaznamenávají exponenciální nárůst objemu a dostupnosti. Tato data mohou být pro podnikání, potažmo celou společnost, stejně důležitá jako Internet.

Proč? Využití více dat může vést k přesnějším analýzám. Přesnější analýzy mohou vést k sebevědomějšímu rozhodování. A lepší rozhodnutí mohou znamenat vyšší provozní efektivitu, úsporu nákladů a snížení rizik.

Definice pojmu „velká data“

Již v roce 2001 formuloval průmyslový analytik Doug Laney (nyní u firmy Gartner) dnes všeobecně akceptovanou definici pojmu „big data“ na základě tzv. „tří véček“, tedy třech charakteristických vlastností, které v angličtině začínají písmenem „V“: Volume (objem), Velocity (rychlost) a Variety (různorodost).

  • Objem.Ke zvýšení objemu dat přispívá řada faktorů. Data o transakcích ukládaná po dlouhá léta. Nestrukturovaná data přicházející ze sociálních médií. Zvyšující se objem shromažďovaných údajů ze senzorů nebo pocházejících z komunikace mezi zařízeními. V minulosti byly velké objemy dat záležitostí úložného prostoru. Ale s klesajícími náklady na jejich ukládání vyvstávají další otázky – včetně té, jak ve velkých objemech dat určit relevantní údaje a jak z těchto relevantních údajů vytvořit pomocí analytických nástrojů hodnotu.
  • Rychlost.Tok přicházejících dat je bezprecedentně rychlý a musí být zpracován včas. Potřebu vyrovnat se s přívalem dat téměř v reálném čase vyvolávají RFID čipy, senzory a inteligentní měřidla. Pro většinu organizací představuje nutnost dostatečně pohotové reakce na rychlost dat skutečnou výzvu.
  • Různorodost.Data dnes existují v nejrůznějších formátech. Strukturovaná numerická data v tradičních databázích. Informace vytvořené v obchodních aplikacích. Nestrukturované textové dokumenty, e-maily, videa, audiozáznamy, inventurní data a finanční transakce. S řízením a slučováním různých druhů dat a prací s nimi stále ještě zápasí řada organizací.

SAS zavádí pro „velká data“ další dva aspekty:

  • Variabilita. Kromě vysoké rychlosti a různorodosti může být tok dat i velmi kolísavý, s periodickými špičkami. Děje se něco na sociálních sítích? Zvládat denní, sezónní nebo mimořádnou událostí vyvolané špičky toků dat může být obtížné. A jedná-li se o nestrukturovaná data, je to ještě obtížnější.
  • Složitost. Dnešní data pocházejí z mnoha zdrojů. Provázání, porovnání, sloučení, vyčištění a transformace dat ve všech systémech je stále náročnějším úkolem. Je velmi důležité spojit a korelovat vztahy, hierarchii a početné vazby mezi daty, jinak nad svými daty rychle ztratíte kontrolu.
Big Data Insights

Nahlédnutí do problematiky „velkých dat“

Získejte lepší přehled o problematice „velkých dat“ z článků, výzkumu a jiných žhavých témat.

Proč by vám na velkých datech mělo záležet?

Nejde o to, že shromažďujete velké objemy dat, jde o to, co s nimi uděláte. Optimistická vize vypadá tak, že organizace budou moci čerpat data z jakéhokoliv zdroje, vybrat z nich relevantní a ta dále analyzovat s cílem získat odpovědi umožňující (1) snížit náklady, (2) zkrátit čas, (3) vyvíjet nové produkty a optimalizovat nabídky a (4) přijímat chytřejší podnikatelská rozhodnutí. Spojením velkých dat a výkonných analytických nástrojů je například možné:

  • Stanovit klíčové příčiny selhání, problémů a vad téměř v reálném čase, což představuje potenciální úspory v řádech miliard dolarů ročně.
  • Optimalizovat trasy tisícovek dodávek rozvážejících zásilky, když se nacházejí na silnicích.
  • Analyzovat milióny skladových jednotek za účelem stanovení cen, které přinesou nejvyšší zisk a současně vyprázdní sklady.
  • Generovat slevové kupóny v místě nákupu na základě aktuálních a minulých nákupů daného zákazníka.
  • Zasílat na míru upravená doporučení na mobilní zařízení v okamžiku, kdy se zákazníci nacházejí na správném místě, kde mohou výhodných nabídek využít.
  • Přepočítat kompletní riziková portfolia v řádu minut.
  • Rychle identifikovat zákazníky, na nichž záleží nejvíce.
  • Použít clickstream analýzu a data mining pro odhalování podvodného jednání.

Výzvy, které je třeba uvážit

Řada organizací má obavy, že objem nashromážděných dat se zvětší tak, až v něm bude těžké nalézt nejcennější informace.

  • Co když se objem vašich dat natolik zvětší a budou natolik různorodá, že nebudete vědět, co s nimi?
  • Ukládáte všechna svá data?
  • Analyzujete všechna svá data?
  • Jak můžete zjistit, která z vašich dat jsou opravdu důležitá?
  • Jak je můžete co nejlépe využít ke svému prospěchu?

Až donedávna byly organizace omezeny pouze na používání podmnožin svých dat nebo na aplikaci jednoduchých analytických nástrojů, protože samotný objem dat byl nad síly jejich výpočetních platforem. Má však smysl shromažďovat a ukládat terabyty dat, pokud je nelze analyzovat v plném kontextu nebo se na výsledky musí čekat celé hodiny či dny? Zároveň platí, že velká data nejsou vždy nejlepší odpovědí na všechny otázky související s podnikáním. Máte na výběr dvě možnosti:

Zařadit do svých analýz velké objemy dat. Pokud na otázky, které kladete, odpoví lépe velká data, jděte do toho. Vysoce výkonné technologie, které dokáží z ohromných objemů dat extrahovat hodnoty, jsou dnes k dispozici. Možným přístupem je použít pro analýzu velkých objemů dat vysoce výkonné analytické nástroje využívající moderní technologie - například gridové výpočty, zpracování v databázi (in-database processing) či analýzy realizované v operační paměti (in-memory analytics).

Určit co nejdříve data, která jsou pro vás relevantní. Tradičně se ukládala všechna data (hovoří se o tzv. syslení dat), takže to, jaká data jsou relevantní, zjistíte až po zadání dotazu. V současné době jsme schopni nasadit analytické nástroje na vstupu, abychom na základě kontextu zjistili, jaká data jsou relevantní. Tento typ analýz určuje data, která by měla být zařazena do analytických procesů nebo která by měla být uložena nízkonákladovým způsobem pro případné budoucí použití.

Technologie umožňující práci s velkými daty

Řada technologií z nedávné doby umožňuje organizacím v maximální možné míře využít velká data a nástroje pro jejich analýzu:

  • Levné a vysokokapacitní uložení dat.
  • Rychlejší procesory.
  • Cenově dostupné, otevřené (open-source) distribuované platformy pro velká data, například Hadoop.
  • Paralelní zpracování, klastrování (clustering), MPP, virtualizace, rozsáhlá gridová prostředí, vysoká konektivita a vysoká kapacita.
  • Cloudové výpočty a další flexibilní způsoby přidělování zdrojů.

Velká data v akci

Perspektiva: UPS

Společnosti UPS nejsou velká data ničím cizím, neboť sleduje různé pohyby zásilek a transakce již od 80. let minulého století. V současné době monitoruje údaje o 16,3 mil. zásilek denně určených pro 8,8 mil. zákazníků, přičemž v průměru dostává od klientů 39,5 mil. dotazů na stav doručování zásilek denně. Má uloženo více jak 16 petabytů dat.

Much of its recently acquired big data, however, comes from telematics sensors in more than 46,000 vehicles. The data on UPS trucks, for example, includes their speed, direction, braking and drive train performance. The data in not only used to monitor daily performance, but to drive a major redesign of UPS drivers' route structures. This initiative, called ORION (On-Road Integration Optimization and Navigation), is arguably the world's largest operations research project. It also relies heavily on online map data, and will eventually reconfigure a driver's pickups and drop-offs in real time.

Úspory

Tento projekt přinesl již v roce 2011 úsporu více než 8,4 mil. galonů pohonných hmot, neboť dokázal zkrátit denní trasy o 85 miliónů mil. Společnost UPS odhaduje, že při zkrácení denní trasy jednoho vozidla o pouhou míli ušetří za rok 30 mil. USD. Tyto absolutní hodnoty jsou velmi významné. Společnost se rovněž pokouší využít data a analytické nástroje k optimalizaci efektivnosti svých 2.000 letů denně.

Where is big data coming from?

Before you begin to make sense of your data, it’s important to know its origins. The sources of big data are increasing every year, but they generally fall into one of three categories.

  • Streaming data. Also called the Internet of Things, this includes data that reaches your IT systems from a web of connected devices. Your organization can analyze this data as it arrives and make decisions on what data to keep, what not to keep and what requires further analysis. Read more about understanding data streams in this white paper.
  • Social media data. The data on social interactions is an increasingly attractive set of information, particularly for marketing, sales and support functions. This data is often in unstructured or semi-structured forms, so besides the sheer size of the data, it poses a unique challenge when consuming and analyzing this information. See how one company is marketing to mobile and social customers.
  • Publicly available sources. Massive amounts of data is available through open data sources like US government’s data.gov, the CIA World Factbook or the European Union Open Data Portal. Learn how SAS is helping people visualize 300+ million rows of global UN trade data.

 


Řešení velkých dat od společnosti SAS

Ještě více?

Fraud & Risk Insights

Rizika & podvody

Seznamte se s novými pohledy na rizika a podvody prezentovanými ve výzkumných zprávách, článcích a dalších pramenech.

Analytics Insights

Analytika

Získejte nejnovější přehled o analytice ze souvisejících článků a výzkumných zpráv.

Marketing Insights

Marketing

Prohlédněte si názory vedoucích představitelů marketingu na nejrůznější aktuální témata.

Back to Top