Machine Learning

Was versteht man darunter und warum ist es so wichtig?

 

Was versteht man unter Machine Learning?

Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz und basiert auf zwei wesentlichen Faktoren: mathematischen Algorithmen und Automatisierung. Ziel ist es, das Erstellen analytischer Modelle mit ihren Algorithmen zu automatisieren, um basierend auf Wiederholungen von Daten zu lernen. Die Maschine – in Wirklichkeit handelt es sich dabei um einen Algorithmus – lernt aus ihren Fehlern in den vorherigen Schritten, um so ohne menschliches Einwirken die besten Ergebnisse zu erzielen. Diese Modelle können dann verwendet werden, um zuverlässige, wiederholbare Entscheidungen zu treffen.

Wiederholungen sind ein wesentlicher Aspekt des maschinellen Lernens, denn Ihre Modelle werden nicht von alleine intelligenter. Sie müssen aus vorherigen Berechnungen lernen, um die besten Ergebnisse zu erzielen.

Es handelt sich zwar nicht um eine neue Wissenschaft, jedoch erlebt sie gerade einen neuen Aufschwung. Das hochumjubelte selbstfahrende Google-Auto? Basiert auf maschinellem Lernen. Empfehlungsangebote im Internet? Eine Anwendung für maschinelles Lernen für den Alltag. Betrugserkennung? Eines der eher offensichtlichen Verwendungsgebiete heute.

Warum ist es so wichtig?

Die meisten Unternehmen versuchen, wertvolle Informationen aus einer wachsenden Menge und immer größeren Vielfalt an Daten zu gewinnen. Elektronische ebenso wie andere Daten nehmen in einem nie da gewesenen Maß zu. Speicheroptionen für Big Data sind kostengünstiger als je zuvor – teilweise sogar kostenlos. Und auch die Bearbeitungsrechenleistung war nie günstiger und leistungsstärker als jetzt.

Das bedeutet, mit den richtigen Daten, Technologien und Analysen lassen sich schnell und automatisch Modelle erstellen, die größere und komplexere Daten erstellen können. Und diese Modelle können schneller genauere Ergebnisse liefern, ganz ohne menschliches Eingreifen. Sogar in sehr großem Umfang. Das Ergebnis: äußerst wertvolle Vorhersagen, die bessere Entscheidungen und Reaktionen in Echtzeit ermöglichen.

Ein wichtiger Aspekt dabei ist das automatische Erstellen von Modellen. Analytik-Vordenker Thomas H. Davenport schrieb kürzlich in einer Ausgabe von The Wall Street Journal, dass in Anbetracht der sich rapide verändernden, wachsenden Datenmengen „schnelle Modellierungssysteme erforderlich sind, um mithalten zu können. Menschen können in der Regel ein bis zwei Modelle pro Woche erstellen, maschinelles Lernen kann Tausende erstellen.“

 

Moderne Anwendungen

Haben Sie sich je gefragt, wie ein Online-Händler nahezu sofort Angebote für andere Produkte liefert, an denen Sie möglicherweise interessiert sind? Oder wie Kreditgeber fast in Echtzeit auf Ihre Kreditwünsche antworten? Viele alltägliche Aktivitäten basieren auf Algorithmen des maschinellen Lernens.

  • Betrugserkennung
  • Online-Empfehlungen
  • Veröffentlichungen in Echtzeit auf Webseiten und mobilen Geräten
  • Textbasierte Sentimentanalyse
  • Kreditprüfung und weitere Angebote
  • Vorhersage von Betriebsstörungen
  • Neue Preismodelle
  • Erkennung von Netzwerkintrusion
  • Handschriftliche Analysen
  • E-Mail-Spam-Filter


Nicht mehr mit früherem maschinellen Lernen vergleichbar

Maschinelles Lernen hat heute nichts mehr mit den Methoden von früher zu tun. Zwar existieren viele mathematische Algorithmen bereits schon sehr lange, die Möglichkeit, komplexe mathematische Berechnungen auf enorme Datenmengen anzuwenden – immer wieder und immer schneller –, ist jedoch eine neue Entwicklung. Günstigerer Datenspeicher, verteilte Verarbeitung, leistungsstärkere Computer und die Analysemöglichkeiten, die sich daraus ergeben – all diese Faktoren sind dafür verantwortlich, dass das Interesse an diesen Systemen neu geweckt wurde.

Methoden für Machine Learning im Detail

Zwei der am weitesten verbreiteten Methoden für maschinelles Lernen sind überwachtes und unüberwachtes Lernen.

  • Überwachtes Lernen bietet Ihnen die Möglichkeit, Muster in Daten zu erkennen, durch die sich Attribute Labels zuordnen lassen (oder das historische Ergebnis, das der Algorithmus lernt vorherzusagen). Beispielsweise könnten die Datenpunkte eines Geräteteils mit „F“ (fehlgeschlagen) oder „R“ (läuft) gekennzeichnet sein. Der Algorithmus verwendet historische Daten, um Muster von Attributen zu extrahieren, die mit Ergebnissen in Verbindung stehen, die mit „F“ gekennzeichnet sind. Das ist die Lernphase. Die Muster treffen dann Vorhersagen für das Vorkommen von Labels bei zukünftigen Daten. Modelle für maschinelles Lernen werden Klassifizierungsmodelle genannt, wenn das Label über bestimmte kategorische Werte verfügt, beispielsweise „F“ und „R“ oder „Niedrig“, „Mittel“ oder „Hoch“. Bei Vorhersagemodellen ist das Label ein numerischer Wert, zum Beispiel eine Bonitätspunktzahl oder der Betrag eines Versicherungsanspruchs.
  • Unüberwachtes Lernen wird bei Daten eingesetzt, die nicht über historische Labels verfügen. Dabei ist es das Ziel, die Daten zu untersuchen und Strukturen zu erkennen. Die Daten werden in Klassen oder Bereiche unterteilt, damit Sie Daten ermitteln können, die einander ähnlich oder nicht ähnlich sind. Diese Methode wird vor allem für Aufgaben wie Clustering oder Dimensionsreduktion verwendet. So lassen sich beispielsweise Segmente von Kunden mit ähnlichen Attributen erkennen, für die dann ähnliche Marketingkampagnen angewendet werden können. Oder Sie ermitteln die Hauptattribute, die Kundensegmente voneinander unterscheiden. Gängige Anwendungen sind selbstorganisierende Karten, Nearest-Neighbor Mapping und Singulärwertzerlegung. Diese Algorithmen werden auch eingesetzt, um Textthemen zu segmentieren, Empfehlungen auszugeben und Datenausreißer zu erkennen.

Ein weiteres häufig angesprochenes Thema ist der Unterschied zwischen maschinellem Lernen und anderen statistischen und mathematischen Ansätzen wie beispielsweise Data Mining. Vereinfacht lässt sich sagen, dass beim maschinellen Lernen zwar viele Algorithmen verwendet werden, die auch beim Data Mining zum Einsatz kommen, der Hauptunterschied jedoch in den Vorhersagen besteht, die die beiden Disziplinen liefern. Data Mining ermittelt zuvor nicht bekannte Muster und Informationen. Maschinelles Lernen wird eingesetzt, um bekannte Muster und Informationen zu reproduzieren, sie auf andere Daten anzuwenden und dann in die Entscheidungsfindung einfließen zu lassen.

 

Voraussetzungen für das Erstellen erfolgreicher Machine Learning Systeme

  1. Funktionen für die Datenaufbereitung
  2. Algorithmen, einfache und komplexe
  3. Prozesse für Automatisierung und Wiederholung
  4. Skalierbarkeit
  5. Ensemble-Modellierung

Wie SAS helfen kann

Algorithmen

Die grafischen Benutzeroberflächen von SAS unterstützen Sie bei der Erstellung von Modellen für maschinelles Lernen und der Implementierung eines Wiederholungsprozesses. Dazu müssen Sie kein Statistikexperte sein. Dank unserer umfassenden Auswahl an Algorithmen für maschinelles Lernen profitieren Sie schnell von Ihren Big Data. Die Algorithmen umfassen:
neurale Netzwerke

  • Entscheidungsbäume
  • Random Forests
  • Assoziations- und Sequenzanalysen
  • Gradient Boosting und Aggregation
  • Support Vector Machines
  • Nearest-Neighbor Mapping
  • k-Means Clustering
  • selbstorganisierende Karten
  • Optimierungstechniken für die lokale Suche, z. B. genetische Algorithmen
  • Expectation Maximization
  • Multivariate Adaptive Regression Splines
  • Bayes’sche Netze
  • Kerndichteschätzung
  • Hauptkomponentenanalyse
  • Singulärwertzerlegung
  • Gauß’sche Mischverteilungsmodelle
  • Erstellen von Regeln mit Sequential Covering

Wir bei SAS sind stets auf der Suche nach neuen Ansätzen und bewerten diese. Wir verfügen über umfangreiche Erfahrung bei der Implementierung statistischer Methoden, die sich am besten für Ihre individuellen Anforderungen eignen. Wir verbinden unsere besonders reiche Sachkenntnis in Statistik und Data Mining mit neuen Entwicklungen in der Architektur, um sicherzustellen, dass Ihre Modelle so schnell wie möglich ausgeführt werden – selbst in riesigen Unternehmensumgebungen.

Wir wissen, dass eine kurze Amortisierungszeit nicht nur durch eine schnelle, automatisierte Modell-Performance bedingt ist, sondern auch durch die Zeit, die NICHT mit dem Verschieben von Daten zwischen den Plattformen verbracht wird. Verteilte High-Performance Analytics-Technologien profitieren von umfassender parallelisierter Verarbeitung in Verbindung mit Hadoop sowie allen großen Datenbanken. Sie können alle Schritte des Modellierungsprozesses schnell durchlaufen, ohne Daten zu bewegen.

Diese Hochleistungsplattform für Big Data Analytics ermöglicht Unternehmen die Automatisierung des gesamten Analyselebenszyklus – nicht nur des Modellierungsprozesses.

Prozess

Wie wir nun wissen, geht es nicht nur um die Algorithmen. Die Kunst besteht letztendlich darin, durch die Kombination der am besten geeigneten Algorithmen eine optimale Nutzung Ihrer Big Data zu ermöglichen. Hierbei kommt es auf folgende Punkte an:

  • umfassende Datenqualität und umfassendes Datenmanagement
  • grafische Benutzeroberflächen für das Erstellen von Modellen und Prozessabläufen
  • Vergleichen verschiedener Modelle für maschinelles Lernen, um schnell das am besten geeignete zu ermitteln
  • interaktive Datenexploration und Visualisierung von Modellergebnissen
  • automatisierte Evaluierung des Ensemblemodells zur Identifikation der besten Leistung
  • Einfache Modellbereitstellung für wiederholbare, objektive Entscheidungen
  • Integrierte durchgängige Plattform für die Automatisierung des Prozesses von Daten zu Entscheidungen

Dokumente zum Download

SAS Lösungen für das Machine Learning

Das solten Sie kennen!

Big Data Insights

Big Data

Riesige Datenmengen sinnvoll nutzen: für mehr Effizienz und geringere Risiken. Erfahren Sie alles über Herausforderungen, Technologien und Vorgehensweisen.


Fraud & Risk Insights

Risk & Fraud

Risiken besser verstehen. Chancen schneller nutzen: Experten informieren über neueste Entwicklungen im Risikomanagement und in der Betrugserkennung.


Marketing Insights

Marketing

Marketing braucht ständig neue Strategien: Bleiben Sie auf dem Laufenden über moderne Kundenbeziehungen, neue Medien und innovative Kommunikation.


Back to Top