hero background predictive analytics

Predictive Analytics

Was ist das und was man darüber wissen sollte

Predictive Analytics dient dazu, mithilfe von Daten, statistischen Algorithmen und maschinellem Lernen die Wahrscheinlichkeit zukünftiger Ergebnisse auf der Grundlage historischer Daten zu prognostizieren. Ziel ist es, anhand einer Analyse vergangener Ereignisse bestmöglich vorherzusagen, was in Zukunft geschehen wird.

Predictive Analytics – Geschichte und derzeitige Fortschritte

Zwar gibt es Predictive Analytics schon seit Jahrzehnten, aber die große Zeit dieser Technologie beginnt gerade erst. Immer mehr Unternehmen setzen auf Predictive Analytics, um ihre Bilanzen und ihren Wettbewerbsvorteil zu verbessern. Warum jetzt?

  • Wachsende Datenmengen, immer mehr Datentypen und ein gestiegenes Interesse an der Nutzung von Daten als Quelle wertvoller Erkenntnisse.
  • Schnellere, kostengünstigere Computer.
  • Benutzerfreundlichere Software.
  • Schwierigeres wirtschaftliches Umfeld und die Notwendigkeit, sich im Wettbewerb zu differenzieren.

Infolge der immer weiteren Verbreitung benutzerfreundlicher, interaktiver Software ist Predictive Analytics nicht mehr nur die Domäne von Mathematikern und Statistikern. Längst werden diese Technologien auch von Business-Analytikern und Branchenfachleuten eingesetzt.

 

 


Warum ist Predictive Analytics so wichtig?

Unternehmen nutzen Predictive Analytics bei der Lösung schwieriger Probleme und bei der Suche nach neuen Chancen. Hier einige übliche Einsatzbereiche:

Betrugserkennung. Durch die Kombination von mehreren Analytics-Methoden lassen sich Muster besser erkennen, was die Prävention von Straftaten erleichtert. Cyber-Sicherheit gewinnt immer mehr an Bedeutung. Umso wichtiger werden leistungsstarke Systeme zur Verhaltens-Analytics, mit deren Hilfe sich sämtliche Aktionen in einem Netzwerk in Echtzeit untersuchen lassen, um Anomalien zu erkennen, die auf Betrug, Zero-Day-Schwachstellen und ausgeklügelte anhaltende Bedrohungen hinweisen.

Optimierung von Marketingkampagnen. Mit Predictive Analytics wird versucht, Kundenreaktionen oder das Kaufverhalten vorherzusagen und Cross-Selling-Chancen zu nutzen. Unternehmen setzen prädiktive Modelle ein, um Kunden anzulocken, ihre lukrativsten Kunden an sich zu binden und mit ihnen höhere Umsätze zu erzielen. 

Operative Verbesserungen. Viele Unternehmen verwenden prädiktive Modelle für Bestandsprognosen und das Ressourcenmanagement. Fluggesellschaften legen ihre Ticketpreise mithilfe Predictive Analytics fest. Hotels nutzen sie, um die Zahl der Gäste pro Nacht zu prognostizieren und auf dieser Basis die Belegung zu optimieren, sprich ihre Umsätze zu steigern. Kurz, mit Predictive Analytics können Unternehmen effizienter agieren.

Risikominderung. Mithilfe von Kreditprüfungen wird die Zahlungswahrscheinlichkeit von Käufern bewertet – ein wohlbekanntes Beispiel für prädiktive Analytics. Bei einer Kreditprüfung wird mithilfe eines prädiktiven Modells ein Wert für die Kreditwürdigkeit einer Person generiert, wobei alle für die Kreditwürdigkeit relevanten Daten berücksichtigt werden. Auch Versicherungen nutzen solche Modelle zur Risikobewertung.

Predictive Analytics in der Welt von heute

Mit Predictive Analytics kann man mehr tun als zu untersuchen, was geschehen ist und warum. Mit Predictive Analytics kann man Erkenntnisse über die Zukunft gewinnen. Lesen Sie, wie Predictive Analytics unsere Welt prägt.

Training and Books icon blue

Ihnen fehlen Experten in Sachen Predictive Analytics?

SAS hat ein E-Book mit praxisrelevanten Tipps von Arbeitgebern und Fachleuten zum Finden, Binden und Motivieren von Spitzenanalytikern herausgegeben.

E-Book lesen

Best Practices für bessere Ergebnisse bei prädiktiver Modellierung

Verwaltung und Koordination aller Schritte im Analyseprozess können sehr komplex werden. Hier erfahren Sie, wie Sie Schritt für Schritt vorgehen und bessere, zuverlässigere Ergebnisse erzielen.

Weitere Informationen

 

Predictive Analytics

Die Data Mining-Software von SAS® hilft Ihnen mit bewährten, hochmodernen Algorithmen bei der Bewältigung Ihrer größten Herausforderungen.

Weitere Informationen über die Data Mining-Software von SAS

Wer nutzt diese Technologie?

In jeder Branche kann man mithilfe von Predictive Analytics Risiken reduzieren, operative Abläufe optimieren und den Umsatz steigern. Hier ein paar Beispiele.

Banken und Finanzdienstleister

In der Finanzbranche stehen gewaltige Geld- und Datenmengen auf dem Spiel und schon seit Langem wird Predictive Analytics eingesetzt, um Betrug zu erkennen und zu bekämpfen, das Kreditrisiko zu bewerten, Cross- und Upselling-Chancen zu maximieren und lukrative Kunden zu binden. Die Commonwealth Bank analysiert vor der Genehmigung einer Transaktion immer erst die Betrugswahrscheinlichkeit – innerhalb von 40 Millisekunden ab Transaktionsstart.

Einzelhandel

Seit einer mittlerweile berüchtigten Studie, nach der Männer, die Windeln kaufen, oftmals gleichzeitig auch Bier kaufen, nutzt der Einzelhandel weltweit predictive Analytics, um sein Produktangebot, die Wirksamkeit von Werbeaktionen und die am besten geeigneten Angebote für die Verbraucher zu ermitteln. Staples analysierte das Verbraucherverhalten, machte sich auf diese Weise ein Gesamtbild seiner Kunden und realisierte einen ROI von 137 %.

Öl-, Gas- und sonstige Versorgungsunternehmen

Ob zur Vorhersage drohender Anlagenausfälle, für die Prognose des künftigen Ressourcenbedarfs, zur Begrenzung von Risiken in Bezug auf Sicherheit oder Zuverlässigkeit oder zur Steigerung der Performance insgesamt – die Energieindustrie nutzt Predictive Analytics mit Nachdruck. Salt River Project ist der zweitgrößte öffentliche Energieversorger der USA und einer der größten Wasserversorger Arizonas. Das Unternehmen analysiert die Daten der Maschinensensoren und prognostiziert auf dieser Grundlage den Wartungsbedarf der stromerzeugenden Turbinen.

Behörden und der öffentliche Sektor

Staatliche Behörden spielen für den Fortschritt in der Computertechnologie seit jeher eine wesentliche Rolle. Die US-amerikanische Statistikbehörde nutzt Datenanalysen schon seit Jahrzehnten, um Trends bei der Bevölkerungsentwicklung zu erkennen. Heute verwenden staatliche Behörden Predictive Analytics genau wie viele andere Branchen auch – zur Verbesserung von Service und Leistung, zur Betrugserkennung und -prävention und zur Untersuchung des Verbraucherverhaltens. Und auch zur Verbesserung der Cyber-Sicherheit wird Predictive Analytics eingesetzt.

Health Insurance

Krankenkassen nutzen Predictive Analytics zur Prävention von Versicherungsbetrug, aber auch zur Identifikation von Patienten mit einem erhöhten Risiko für chronische Erkrankungen und zur Erkennung der bestmöglichen Behandlungsformen. Express Scripts, ein großes Pharmaunternehmen, identifiziert mithilfe von Predictive Analytics mangelnde Therapietreue bei Patienten und erzielt auf diese Weise Einsparungen von 1.500 bis 9.000 US-Dollar pro Patient.

Fertigung

Für Hersteller ist es sehr wichtig, Faktoren zu erkennen, die die Qualität beeinträchtigen oder gar zu Produktionsausfällen führen könnten, sowie andererseits Teile, Serviceressourcen und die Distribution zu optimieren. Lenovo ist nur ein Beispiel für Hersteller, die anhand von predictive Analytics Gewährleistungsfälle untersuchen – und diese Initiative senkte die Gewährleistungskosten um 10 bis 15 %.

Datenmagie bei Orlando Magic

Sports Analytics ist ein heißes Thema, teilweise aufgrund der Turnierprognosen des amerikanischen Statistikers Nate Silver. Orlando Magic, ein Basketball-Team der NBA (National Basketball Association der USA), steigert mithilfe von predictive Analytics von SAS seine Einnahmen und ermittelt erfolgsträchtige Mannschaftsaufstellungen. Business-Anwender von Orlando Magic haben sofortigen Zugriff auf relevante Informationen. So können brandneue Daten visuell untersucht werden, bis hinunter zum einzelnen Spiel oder Sitzplatz.

Fallbeispiel von Orlando Magic komplett lesen

Predictive Text-Analytics

Etwa 90 % aller Daten sind unstrukturiert. Nutzen Sie bereits predictive Analytics, um aus dieser Datenfülle Erkenntnisse zu generieren?

Weitere Informationen über Text-Analytics-Software von SAS

Wie funktioniert das?

Bei der prädiktiven Modellierung werden anhand bekannter Werte Modelle zur Prognose der Ergebnisse für andere oder neue Daten entwickelt (trainiert). Ein solches Modell generiert Ergebnisse in Form von Prognosen für die Wahrscheinlichkeit einer Zielvariablen (beispielsweise Einnahmen) basierend auf der geschätzten Signifikanz verschiedener Eingangsvariablen.

Dies ist ein entscheidender Unterschied zu deskriptiven Modellen für die Analyse vergangenen Geschehens oder zu diagnostischen Modellen für die Analyse von Zusammenhängen, aus denen hervorgeht, warum etwas geschehen ist. Ganze Bücher befassen sich mit Analysemethoden und ‑techniken. Ganze Universitätsstudiengänge widmen sich intensiv diesem Thema. Aber für den Anfang genügen ein paar Grundlagen.

Es gibt zwei Arten prädiktiver Modelle. Klassifikationsmodelle sagen die Zugehörigkeit zu einer Klasse voraus. Mithilfe solcher Modelle kann man beispielsweise Personen danach klassifizieren, ob sie als Kunden geneigt sind abzuwandern oder nicht, ob sie geneigt sind, einem Aufruf zu folgen oder nicht, ob sie ein Kreditrisiko darstellen oder nicht usw. Das Ergebnis lässt sich in der Regel als 0 oder 1 darstellen, wobei 1 bedeutet, dass die untersuchte Eigenschaft vorhanden ist. Regressionsmodelle sagen einen Zahlenwert vorher – beispielsweise wie viel Umsatz ein Kunde im Lauf des nächsten Jahres generieren wird oder wie viele Monate ein Maschinenbauteil hält, bis es ausfällt.

Zu den häufigsten Techniken prädiktiver Modellierung gehören Entscheidungsbäume, Regression und neuronale Netzwerke.

 

Regression (linear und logistisch) gehört zu den beliebtesten statistischen Methoden. Bei Regressionsanalysen geht es um die Schätzung der Zusammenhänge zwischen Variablen. Geeignet sind sie für kontinuierliche Daten, bei denen von einer Normalverteilung auszugehen ist. Mit Regressionsanalysen erkennt man relevante Muster in großen Datensets. Oft werden sie genutzt, um zu ermitteln, wie stark der Einfluss bestimmter Einzelfaktoren, beispielsweise des Preises, auf den Absatz einer Ware ist. Bei Regressionsanalysen sollen Zahlen vorhergesagt werden, Reaktions- oder Y-Variablen genannt. Bei einer linearen Regression wird das Ergebnis (die Y-Variable) mithilfe von nur einer unabhängigen Variablen erklärt und/oder vorhergesagt, bei der multiplen Regression anhand von zwei oder mehr unabhängigen Variablen. Bei der logistischen Regression geht es um die Modellierung der Verteilung abhängiger diskreter Variablen anhand bekannter Variablenwerte. Die Reaktionsvariable ist kategorisch, d. h., sie kann nur eine begrenzte Anzahl von Werten annehmen. Bei einer binären logistischen Regression ist die Reaktionsvariable auf zwei Werte (0 oder 1) beschränkt. Bei der multiplen logistischen Regression sind für die Reaktionsvariable mehrere Stufen möglich, beispielsweise niedrig, mittel und hoch, ausgedrückt als 1, 2 und 3.

Entscheidungsbäume sind Klassifikationsmodelle, die Daten basierend auf verschiedenen Eingangsvariablenkategorien in mehrere Gruppen einteilen und auf diese Weise Entscheidungswege darstellen. Ein Entscheidungsbaum ist eine Baumstruktur, bei der die Zweige den Alternativen bei einer Entscheidung und die Blätter einer Klassifikation bzw. Entscheidung entsprechen. Bei einem Entscheidungsbaum versucht man, diejenige Variable zu finden, anhand derer sich die Daten in möglichst deutlich unterscheidbare logische Gruppen einteilen lassen. Entscheidungsbäume sind beliebt, da sie leicht zu verstehen und zu interpretieren sind. Sie funktionieren auch bei fehlenden Werten gut und sind nützlich für eine vorläufige Variablenauswahl. Wenn also viele Werte fehlen oder man eine schnelle und leicht interpretierbare Antwort braucht, ist ein Entscheidungsbaum die richtige Wahl.

 

 

 

Neuronale Netzwerke sind ein sehr anspruchsvolles Verfahren zur Modellierung extrem komplexer Zusammenhänge. Das Verfahren ist leistungsstark und flexibel und wird daher gern angewendet. Seine Leistungsstärke liegt in der Fähigkeit, sowohl lineare als auch nicht lineare Zusammenhänge zwischen Daten abzubilden. Diese Möglichkeit wird angesichts der stetig wachsenden Datenmengen immer häufiger genutzt. Oft dient das Verfahren zur Bestätigung von Ergebnissen, die mit einfacheren Techniken wie Regression und Entscheidungsbäumen ermittelt wurden. Neuronale Netzwerke basieren auf Mustererkennung und einer Reihe von KI-Prozessen zur grafischen Modellierung von Parametern. Sie funktionieren gut, wenn keine mathematische Formel zur Berechnung des Zusammenhangs zwischen Eingangs- und Ausgangsgrößen bekannt ist, wenn es eher auf Vorhersage als auf Erklärung ankommt oder wenn zahlreiche Trainingsdaten vorliegen. Neuronale Netzwerke wurden erstmals von Forschern entwickelt, die damit die Neurophysiologie des menschlichen Gehirns nachzubilden versuchten.

Weitere beliebte Analysetechniken

Bayessche Analysen. Bei einer bayesschen Analyse werden die Parameter wie Zufallsvariablen behandelt und die Wahrscheinlichkeit wird als „Grad vernünftiger Glaubwürdigkeit“ definiert. Das heißt, die Wahrscheinlichkeit eines Ereignisses entspricht dem Grad seiner Glaubwürdigkeit. Bei einer bayesschen Analyse beginnt man mit einer vorgegebenen Annahme hinsichtlich der Wahrscheinlichkeitsverteilung eines unbekannten Parameters. Auf der Basis von Informationen, die man aus den vorliegenden Daten ableiten kann, ändert bzw. aktualisiert man die Annahmen über diesen unbekannten Parameter

Ensemble-Modellierung. Bei der Ensemble-Modellierung trainiert man mehrere ähnliche Modelle und kombiniert deren Ergebnisse. Auf diese Weise erhöht man die Genauigkeit, reduziert systematische Fehler und Varianzen und ermittelt das zur Anwendung auf neue Daten am besten geeignete Modell.

Gradient Boosting. Beim Gradient Boosting untersucht man das fragliche Datenset in mehreren Stufen und gelangt auf diese Weise zu einem gewichteten Durchschnitt. Wie bei einem Entscheidungsbaum gibt es auch beim Gradient Boosting keine Annahmen über die Datenverteilung. Gradient Boosting ist weniger anfällig für Overfitting (Überanpassung) als ein einzelner Entscheidungsbaum und wenn ein Entscheidungsbaum gut zu den Daten passt, dann wird diese Passung durch Gradient Boosting oftmals noch weiter untermauert. Overfitting (Überanpassung) bedeutet, dass man das Modell mit zu vielen Variablen überfrachtet, sodass es zu komplex wird. Underfitting (Unteranpassung) bedeutet das Gegenteil – es sind nicht genug Variablen vorhanden und das Modell wird zu stark vereinfacht. Beides senkt die Prognosegenauigkeit.

Uplift-Modelle (auch bekannt unter den englischen Bezeichnungen Incremental Models, True Lift Models oder Net Models). Diese Modelle bilden die Veränderung einer Wahrscheinlichkeit infolge einer Maßnahme ab. Sie werden oft eingesetzt, um einer Abwanderung von Kunden entgegenzuwirken oder um die Wirkung unterschiedlicher Marketingprogramme zu untersuchen.

Nächste-Nachbarn-Klassifikation (KNN). Dies ist eine parameterfreie Klassifikations- und Regressionsmethode. Dabei verwendet man den sogenannten k-Nearest-Neighbor-Algorithmus (KNN) zur Klassifikation eines Objekts unter Berücksichtigung seiner k nächsten Nachbarn.

Memory-based Reasoning (MBR). Memory-based Reasoning (MBR) ist eine KNN-Technik zur Kategorisierung oder Vorhersage von Beobachtungen.

Partielle kleinste Quadrate (PKQ). Dieses flexible statistische Verfahren lässt sich auf Daten aller Art anwenden. Es dient zu Modellierung der Zusammenhänge zwischen Ein- und Ausgangsgrößen und kann sogar angewendet werden, wenn die Eingangsgrößen miteinander korreliert sind, wenn sie durch Rauschen gestört sind, wenn es mehrere Ausgangsgrößen gibt oder wenn mehr Eingangsgrößen als Beobachtungen vorliegen. Beim PKQ-Verfahren wird nach Faktoren gesucht, die Variationen sowohl bei den Reaktionen als auch bei den Prädiktoren erklären.

Hauptkomponentenanalyse. Ziel der Hauptkomponentenanalyse ist es, aus einem Variablenset eine geringere Zahl unabhängiger Linearkombinationen (die sogenannten Hauptkomponenten) abzuleiten, in denen ein möglichst großer Teil der Informationen aus den Originalvariablen erhalten bleibt.

Support-Vektor-Maschine (SVM). SVM ist eine Technik des überwachten maschinellen Lernens zur Datenanalyse und Mustererkennung mithilfe assoziierter Lernalgorithmen. Sie kann zur Klassifikation und Regression eingesetzt werden.

Data Mining in Zeitreihendaten. Zeitreihendaten sind Daten, die in bestimmten Abständen über einen bestimmten Zeitraum hinweg erfasst werden (Umsätze pro Monat, Anrufe pro Tag, Aufrufe von Websites pro Stunde usw.) und mit einem Zeitstempel versehen werden. Beim Data Mining in solchen Zeitreihendaten werden herkömmliche Data Mining-Techniken mit Prognosetechniken kombiniert. Das heißt, Data Mining-Techniken wie Datenverprobung, Clustering und Entscheidungsbäume werden auf Daten angewendet, die eine gewisse Zeit lang erfasst wurden. Ziel ist die Verbesserung von Prognosen.

Welche Voraussetzungen sind nötig, um mit predictive Analytics zu beginnen?

Weitere Informationen über den nutzbringenden Einsatz des Analytics Life Cycles

step1

Die erste Voraussetzung für sinnvolle predictive Analytics ist die genaue Definition des Problems, das gelöst werden soll. Was möchten Sie, basierend auf den Daten aus der Vergangenheit, über die Zukunft wissen? Was möchten Sie verstehen und vorhersagen? Wie wollen Sie die Prognosen nutzen? Welche Entscheidungen sollen auf der Grundlage der gewonnenen Erkenntnisse getroffen werden? Welche Maßnahmen sollen umgesetzt werden?

step2

Die zweite Voraussetzung sind Daten, heutzutage Daten aus zahlreichen Quellen, beispielsweise Daten aus Transaktionssystemen, von Sensoren erfasste Daten, Informationen von Dritten, Notizen aus Callcentern, Weblogs usw. Des Weiteren brauchen Sie jemanden mit Erfahrung im Datenmanagement, der die Daten bereinigen und zur Analyse aufbereiten kann. Für die Aufbereitung der Daten vor der Erstellung eines prädiktiven Modells brauchen Sie jemanden, der nicht nur die Daten, sondern auch die geschäftliche Problemstellung versteht. Denn die Definition der Zielsetzung entscheidet letztlich über die Interpretierbarkeit der Ergebnisse. Die Datenaufbereitung gilt als einer der zeitaufwändigsten Aspekte bei der Analyse. Seien Sie also darauf vorbereitet.

step3

Nun kann die prädiktive Modellierung beginnen. Dank zunehmend benutzerfreundlicher Software können immer mehr Anwender Analysemodelle erstellen. Dennoch braucht man wahrscheinlich einen Datenanalytiker, der die Modelle verfeinert und die am besten funktionierenden auswählen kann. Anschließend braucht man jemanden aus der IT-Abteilung, der die Modelle bereitstellen kann, der die Modelle also auf die ausgewählten Daten anwenden kann. Erst alle diese Schritte zusammen führen letztlich zu Ergebnissen.

step4

Prädiktive Modellierung erfordert ein ganzes Team. Man braucht jemanden, der das geschäftliche Problem versteht, das gelöst werden soll. Jemanden, der weiß, wie man die Daten für die Analyse aufbereitet. Jemanden, der die Modelle erstellen und verfeinern kann. Jemanden in der IT-Abteilung, der für die nötige Infrastruktur für Modellerstellung, Modellbereitstellung und Analyse sorgt. Und als Unterstützung auch noch jemanden aus der Führungsebene, damit aus den Hoffnungen, die man in die Analyse setzt, am Ende Wirklichkeit werden kann.

Mehr zu diesem Thema