Produkte & Lösungen / Data Management

Was ist Big Data?

Big Data ist eine gängige Bezeichnung für den exponentiellen Zuwachs und die Verfügbarkeit von strukturierten und unstrukturierten Daten. Big Data könnte ebenso wichtig für die Wirtschaft – und die Gesellschaft – werden, wie es das Internet bereits ist. Warum? Mehr Daten können zu genaueren Analysen führen. Genauere Analysen können zu sichererer Entscheidungsfindung führen. Und bessere Entscheidungen können größere betriebliche Effizienz, Kostenreduzierungen und geringere Risiken bedeuten.

Der Branchenanalyst Doug Laney (derzeit bei Gartner) hat bereits 2001 die heute anerkannte Definition von Big Data als die drei Vs Volume, Velocity und Variety (Volumen, Geschwindigkeit und Vielfalt) formuliert1:

Scott Zucker, Family Dollar "Small Data ist Vergangenheit. Die Datenmengen werden einfach immer größer werden und man muss darüber nachdenken, wie man sie bewältigen will."

—Scott Zucker

Family Dollar

Mehr

  • Volume. Viele Faktoren tragen zum wachsenden Datenvolumen bei. Über die Jahre gespeicherte Transaktionsdaten. Unstrukturierte Datenströme aus sozialen Medien. Wachsende Mengen erfasster Sensor- und Machine-to-Machine-Daten. In der Vergangenheit waren übermäßige Datenmengen vor allem ein Speicherproblem. Mit sinkenden Speicherkosten treten andere Probleme in den Vordergrund, wie die Bestimmung der Relevanz in großen Datenmengen und die Nutzung von Analysen zur Wertschöpfung aus relevanten Daten.
  • Velocity. Die Datenströme bewegen sich in nie da gewesener Geschwindigkeit und müssen zeitnah verarbeitet werden. RFID-Tags, Sensoren und Smart Metering sorgen dafür, dass riesige Datenströme nahezu in Echtzeit verarbeitet werden müssen. Schnell genug reagieren zu können, um der Datengeschwindigkeit gerecht zu werden, stellt für die meisten Unternehmen eine Herausforderung dar.
  • Variety. Die Daten fallen heute in unterschiedlichsten Formaten an. Strukturierte, numerische Daten in traditionellen Datenbanken, aus Branchenanwendungen erstellte Daten, unstrukturierte Textdokumente, E-Mail, Video, Audio, Börsentickerdaten und Finanztransaktionen. Das Verwalten, Verbinden und Beherrschen der unterschiedlichen Daten stellt für viele Unternehmen noch immer ein Problem dar.

Bei SAS berücksichtigen wir zwei weitere Dimensionen, wenn wir über Big Data nachdenken:

  • Variabilität. Zusätzlich zu der wachsenden Geschwindigkeit und Vielfalt der Daten kann der Datenfluss sehr unbeständig sein und periodische Spitzen aufweisen. Gibt es einen Trend in den sozialen Medien? Tägliche, saisonale und durch Ereignisse ausgelöste Datenspitzen können schwierig zu verwalten sein. Umso mehr, wenn es sich um unstrukturierte Daten handelt.
  • Komplexität. Die Daten kommen heute aus einer Vielzahl von Quellen. Und es ist immer noch ein Unterfangen, Daten zwischen verschiedenen Systemen zu verknüpfen, anzupassen, zu bereinigen und zu übertragen. Es ist jedoch notwendig, sie zu verbinden und Beziehungen, Hierarchien und vielfache Datenverknüpfungen zu korrelieren, da Ihre Daten sonst schnell außer Kontrolle geraten würden.

Beispiele für Big Data

  • RFID (Radio Frequency Identification)-Systeme generieren bis zu 1.000-mal so viele Daten wie herkömmliche Barcodesysteme. Tweet
  • Walmart hat am „Black Friday“ 2012 in nur vier Stunden 10 Millionen Kassentransaktionen durchgeführt – fast 5.000 Posten pro Sekunde.2 Tweet
  • UPS erhält durchschnittlich 39,5 Millionen Kundenanfragen zur Sendungsverfolgung pro Tag.3 Tweet
  • VISA wickelt täglich über 172.800.000 Kartentransaktionen ab.4 Tweet
  • 500 Millionen Tweets werden täglich gesendet. Das sind über 5.700 Tweets pro Sekunde.5 Tweet
  • Facebook hat über 1,15 Milliarden aktive Nutzer, die soziale Interaktionsdaten erzeugen.6 Tweet
  • Mehr als 5 Milliarden Menschen nutzen Mobiltelefone zum Telefonieren, Texten, Tweeten und Browsen.7 Tweet

Die Bedeutung von Big Data und was Sie erreichen können

Das eigentliche Problem ist nicht, dass Sie sich große Datenmengen aneignen, sondern was Sie mit den Daten tun, auf die es ankommt. Vorausgesetzt, es gelingt den Unternehmen Daten aus sämtlichen Quellen zu erfassen und auf geeignete Weise schnell und lösungsorientiert zu analysieren, eröffnen sich große Chancen: 1. Kosteneinsparungen, 2. bessere und schnellere Produkt- und Angebotsentwicklung und 3. schnellere und klügere geschäftliche Entscheidungen. Die Kombination von Big Data und Hochleistungsanalyse kann beispielsweise Folgendes ermöglichen:

  • Potenzielle Einsparungen in Milliardenhöhe durch das Feststellen von Ursachen für Fehlfunktionen, Probleme und Defekte nahezu in Echtzeit.
  • Optimierung der Routen von Tausenden von Lieferfahrzeugen, während diese unterwegs sind.
  • Analyse von Millionen von Artikelpositionen, um Preise festzulegen, die den Gewinn maximieren und den Bestand bereinigen.
  • Erstellen von Einzelhandelsgutscheinen auf Basis der aktuellen und früheren Einkäufe der Kunden direkt am Point of Sale.
  • Senden von zugeschnittenen Empfehlungen an mobile Endgeräte, wenn Kunden sich in der richtigen Gegend befinden, um sie zu nutzen.
  • Neuberechnung ganzer Risikoportfolios in wenigen Minuten.
  • Schnelle Identifizierung der wichtigsten Kunden.
  • Nutzung von Clickstreamanalyse und Data Mining zur Erkennung von betrügerischem Verhalten.

Fallstudie: Big Data bei UPS

UPS sind große Datenmengen nicht fremd. Das Unternehmen erfasst bereits seit den 1980er-Jahren eine Vielzahl von Paketbewegungen und Transaktionen. Inzwischen verfolgt UPS täglich die Daten von 16,3 Millionen Sendungen für 8,8 Millionen Kunden, mit durchschnittlich 39,5 Millionen Kundenanfragen zur Sendungsverfolgung pro Tag. Das Unternehmen speichert über 16 Petabyte Daten.

Ein Großteil der in jüngster Zeit erfassten Daten stammt jedoch von den Telematiksystemen in über 46.000 Fahrzeugen. So werden beispielsweise Daten zu Geschwindigkeit, Fahrtrichtung und der Leistung von Bremsen und Antriebsstrang gespeichert. Die Daten werden nicht nur zur Überwachung der täglichen Leistung genutzt, sondern auch für eine umfassende Neugestaltung der Routenstrukturen von UPS. Diese Initiative mit dem Namen ORION (On-Road Integration Optimization and Navigation) ist das wohl größte Operations-Research-Projekt weltweit. Es greift auch stark auf Online-Kartendaten zurück und wird letztendlich die Routen der Fahrer in Echtzeit konfigurieren. Das Projekt hat 2011 bereits über 31,8 Millionen Liter Kraftstoff eingespart, indem es die täglichen Routen um gut 136 Millionen Kilometer verkürzt hat. UPS schätzt, dass durch die Einsparung von nur einer Meile pro Fahrer und Tag 30 Millionen US-Dollar gespart werden, die Gesamtersparnis ist also beträchtlich. Das Unternehmen ist außerdem bestrebt, mithilfe von Datenanalyse die Effizienz seiner 2.000 täglichen Flüge zu optimieren.3

Herausforderungen

Viele Unternehmen sehen vor allem die Schwierigkeiten, die ihnen die ständig wachsende Datenmengen zunächst bereiten.

  • Was ist, wenn die Datenmenge so groß und vielfältig wird, dass Sie nicht wissen, wie Sie diese handhaben sollen?
  • Speichern Sie alle Ihre Daten?
  • Analysieren Sie sie alle?
  • Wie können Sie herausfinden, welche Datenpunkte wirklich wichtig sind?
  • Wie können Sie sie zu Ihrem größten Vorteil nutzen?

Bis vor Kurzem waren Unternehmen darauf beschränkt, nur Teilmengen ihrer Daten zu nutzen, oder mussten sich auf einfache Analysen beschränken, weil das schiere Datenvolumen ihre Verarbeitungsplattformen überforderte. Aber welchen Sinn hat es, Terabytes von Daten zu erfassen und zu speichern, wenn man sie nicht im vollen Zusammenhang analysieren kann oder Stunden oder Tage auf Ergebnisse warten muss? Andererseits lassen sich nicht alle geschäftlichen Fragen durch Big Data besser beantworten. Sie haben jetzt zwei Möglichkeiten:

  • Analyse riesiger Datenvolumen. Wenn für die Antworten, die Sie suchen, eine Analyse aller Ihrer Daten erforderlich ist, dann lassen Sie sich nicht abhalten. Es gibt heute Hochleistungstechnologien, die Werte aus riesigen Datenmengen extrahieren. Ein Ansatz ist die Nutzung von Hochleistungsanalysen mit Technologien wie Grid Computing, In-Database Processing und In-Memory Analytics zur Analyse von großen Datenmengen.
  • Vorab bestimmen, welche Daten relevant sind. Traditionell neigte man dazu, alles zu speichern und erst bei der Abfrage der Daten festzustellen, was relevant ist. Heute haben wir die Möglichkeit, Analysen im Vorfeld durchzuführen, um die Relevanz anhand des Kontextes zu bestimmen. Diese Art der Analyse bestimmt, welche Daten in Analyseprozesse integriert werden sollten und welche gegebenenfalls zur späteren Verwendung auf günstigem Speicherplatz gespeichert werden sollten.

Kerem Tomak, Macys.com " Heute kann man auf Produktebene – auf der Ebene der Artikelpositionen – Hunderte und Tausende von Modellen führen, weil man über Big Data und Analytik verfügt, um diese Modelle auf dieser Ebene zu unterstützen." 

—Kerem Tomak

Macys.com

Mehr

Technologien

Eine Reihe aktueller technischer Fortschritte ermöglicht es Unternehmen, Big Data und Big Data-Analyse optimal zu nutzen:

  • günstiger, reichlicher Speicherplatz.
  • schnellere Prozessoren.
  • bezahlbare verteilte Big Data-Plattformen in Open Source, wie z.B. Hadoop.
  • Parallelverarbeitung, Clustering, MPP, Virtualisierung, große Grid-Umgebungen, hohe Konnektivität und hohe Durchsätze.
  • Cloudcomputing und andere Anordnungen mit flexibler Ressourcenzuteilung.

Das Ziel aller Unternehmen mit Zugriff auf große Datensammlungen sollte sein, die relevantesten Daten nutzbar zu machen und für eine bessere Entscheidungsfindung einzusetzen.

Lösungen von SAS

Wie können Sie all diese Daten jetzt und in Zukunft optimal nutzen? Sie können Ihren Erfolg nur optimieren, wenn Sie die Analyse in Ihre Lösungen integrieren. Sie brauchen aber auch Analysetechnik, um die Daten selbst zu verwalten. Es gibt eine Reihe von Schlüsseltechnologien, die Ihnen helfen können, Ihre Big Data in den Griff zu bekommen und sie vor allem sinnvoll zu nutzen.

  • Datenmanagement. Viele Anbieter betrachten Big Data als eine Diskussion in Verbindung mit Technologien wie Hadoop, NoSQL usw. SAS arbeitet mit einem umfassenderen Ansatz für Datenmanagement/Data Governance und bietet eine Strategie und Lösungen an, mit denen beliebige Datenmengen effektiv verwaltet und genutzt werden können.
  • High-Performance Analytics. Mit der Leistungsfähigkeit von Parallelverarbeitung macht die High-Performance Analytics Dinge möglich, die Sie bisher nicht für möglich gehalten haben, da die Datenmengen einfach zu groß waren, um effizient verarbeitet zu werden. Jetzt können Sie das.
  • High-Performance Datenvisualisierung. Mit Hochleistungsvisualisierungen können Sie riesige Datenmengen in Sekunden durchsuchen, um schnell Möglichkeiten für die weitere Analyse zu identifizieren.
  • Flexible Bereitstellungsoptionen für Big Data. Flexible Bereitstellungsmodelle bieten Wahlmöglichkeiten. Nutzen Sie High-Performance Analytics in der Cloud (von SAS oder einem anderen Anbieter) – in einer speziellen Anwendung oder im Rahmen Ihrer bestehenden IT-Infrastruktur, je nachdem, was Ihren Anforderungen besser gerecht wird.

1 Quelle: META Group. "3D Data Management: Controlling Data Volume, Velocity, and Variety." February 2001.
2 Quelle:
  http://news.walmart.com/news-archive/2012/11/23/walmart-us-reports-best-ever-black-friday-events
3 Quelle: Thomas H. Davenport and Jill Dyche, "Big Data in Big Companies," May 2013.
4 Quelle:
  https://en.bitcoin.it/wiki/Scalability
5 Quelle:  http://expandedramblings.com/index.php/by-the-numbers-17-amazing-facebook-stats/
6 Quelle:  http://www.complex.com/tech/2012/10/twitter-ceo-dick-costolo-reveals-staggering-number-of-tweets-per-day
7 Quelle:  http://www.itu.int/en/ITU-D/Statistics/Pages/stat/default.aspx

Wünschen Sie weitere Informationen?

Sie erreichen die SAS-Experten unter +49 6221 415-123 (Deutschland) oder per E-Mail an info@ger.sas.com.