Maschinelles Lernen

Was es ist und was man darüber wissen sollte

Maschinelles Lernen ist eine Datenanalysemethode, die die automatische Erstellung von Analysemodellen ermöglicht. Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz und basiert auf dem Gedanken, dass Systeme aus Daten lernen, Muster erkennen und Entscheidungen treffen können – mit minimaler menschlicher Intervention.

Die Evolution des maschinellen Lernens

Aufgrund neuer Computertechnologien hat maschinelles Lernen heute nicht mehr viel Ähnlichkeit mit maschinellem Lernen in der Vergangenheit. Es entstand aus der Mustererkennung und der Theorie, dass Computer lernen können, bestimmte Aufgaben auszuführen, ohne dafür programmiert zu werden. Forscher, die sich für künstliche Intelligenz interessierten, stellten sich die Frage, ob Computer aus Daten lernen können. Wiederholungen sind ein wesentlicher Aspekt des maschinellen Lernens, denn dieses beruht darauf, dass Modelle sich selbstständig anpassen, wenn man sie mit immer neuen Daten füttert. Das heißt, sie lernen aus vorherigen Berechnungen und generieren auf dieser Grundlage zuverlässige, wiederholbare Entscheidungen und Ergebnisse. Es handelt sich zwar nicht um eine neue Wissenschaft, jedoch erlebt sie gerade einen neuen Aufschwung.

Zwar existieren viele mathematische Algorithmen für das maschinelle Lernen schon sehr lange. Aber die Möglichkeit, komplexe mathematische Berechnungen automatisch auf enorme Datenmengen anzuwenden – immer wieder und immer schneller –, ist neu. Hier ein paar Beispiele für die praktische Anwendung maschinellen Lernens, die ein großes Medienecho gefunden haben und daher inzwischen weithin bekannt sind:

  • das hochgejubelte, selbstfahrende Google-Auto? Basiert auf maschinellem Lernen.
  • Online-Empfehlungen wie bei Amazon oder Netflix? Eine praktische Anwendung für maschinelles Lernen im Alltag.
  • wissen, was die Kunden auf Twitter über jemanden sagen? Maschinelles Lernen in Verbindung mit der Erstellung von linguistischen Regeln.
  • Betrugserkennung? Heutzutage eins der eher offensichtlichen und wichtigen Anwendungsgebiete.

 

Maschinelles Lernen und künstliche Intelligenz:

Künstliche Intelligenz (KI) ist das große wissenschaftliche Forschungsgebiet der Simulation menschlicher Fähigkeiten und maschinelles Lernen ist ein Teilgebiet der KI mit dem Ziel, Maschinen so zu trainieren, dass sie selbstständig lernen können. Sehen Sie sich das Video an! Es erklärt die Zusammenhänge zwischen KI und maschinellem Lernen. Sie erfahren, wie diese beiden Technologien funktionieren – anhand von Beispielen und einigen unterhaltsamen Anmerkungen.

Warum ist maschinelles Lernen wichtig?

Das neu erwachte Interesse an maschinellem Lernen geht auf die gleichen Faktoren zurück, die schon dem Data Mining und der bayesschen Analyse zu einer Renaissance verholfen haben. Dazu gehören die wachsenden Mengen und Varietäten an verfügbaren Daten, immer mehr Rechenleistung für immer weniger Geld sowie erschwingliche Datenspeichersysteme.

Dank all dieser Faktoren ist es heute möglich, schnell und automatisch Modelle zur Analyse größerer Mengen komplexerer Daten zu erstellen und in kürzerer Zeit genauere Ergebnisse zu erzielen – auch in ganz großem Maßstab. Solche präzisen Modelle geben Unternehmen die Möglichkeit, Geschäftschancen zu erkennen – oder unbekannte Risiken zu vermeiden.

 

Was sind die Voraussetzungen zur Erstellung erfolgreicher Systeme für maschinelles Lernen?

  • Funktionen für die Datenaufbereitung
  • Algorithmen, einfache und komplexe
  • Prozesse für Automatisierung und Wiederholung
  • Skalierbarkeit
  • Ensemble-Modellierung
Infografik: maschinelles Lernen

Wussten Sie das?

  • Beim maschinellen Lernen bezeichnet man einen Zielwert als Label.
  • In der Statistik bezeichnet man einen Zielwert als abhängige Variable.
  • Was in der Statistik Variable genannt wird, bezeichnet man beim maschinellen Lernen als Feature.
  • Was in der Statistik Transformation heißt, nennt man beim maschinellen Lernen Feature-Erstellung.

Maschinelles Lernen in der Welt von heute

Mithilfe von Algorithmen zur Erkennung von Zusammenhängen erstellen Unternehmen heutzutage Modelle, anhand derer sie bessere Entscheidungen treffen können – ganz ohne menschliches Eingreifen. Hier erfahren Sie, wie diese Technologien unsere Welt prägen.

White Paper

Chancen und Herausforderungen für maschinelles Lernen in der Geschäftswelt

In diesem Whitepaper gibt O’Reilly eine praktische Anleitung für die Implementierung von Anwendungen des maschinellen Lernens in einem Unternehmen.

Whitepaper lesen

Maschinelles Lernen für die Kreditprüfung

Wie lassen sich Kreditprüfungen mit maschinellem Lernen effizienter abwickeln? Hier erfahren Sie, wie Wirtschaftsauskunfteien mithilfe des maschinellen Lernens das Verbraucherverhalten evaluieren und ihren Kunden damit fundiertere Auskünfte erteilen können. 

Artikel anzeigen

Wird maschinelles Lernen Ihr Unternehmen verändern?

In diesem Harvard Business Review Insight Center Report wird untersucht, welche Veränderungen maschinelles Lernen für Unternehmen mit sich bringen wird und wie sie sich bewältigen lassen.   

 Report herunterladen

Maschinelles Lernen und das IoT

Mit maschinellem Lernen lässt sich die Effizienz steigern, insbesondere wenn man die Technik auf das IoT (Internet of Things) anwendet. Dieser Artikel stellt die Thematik vor.

IoT-Artikel lesen

Advanced Analytics von SAS


Das maschinelle Lernen ist keine spezifische Technologie an sich; es umfasst Softwarelösungen wie Data Mining und fortschrittliche Analyseverfahren, um große Datenmengen erfassen und daraus Erkenntnisse gewinnen zu können. SAS® Lösungen sind mit innovativen Algorithmen ausgestattet, die die Arbeit vereinfachen.

Erfahren Sie mehr über die Analytics-Lösungen von SAS

Wer nutzt diese Technologie?

Die meisten Branchen, die mit großen Datenmengen arbeiten, haben den Wert des maschinellen Lernens erkannt. Sie können damit Erkenntnisse aus Daten ableiten – oftmals in Echtzeit – und dank dieser Erkenntnisse effizienter arbeiten oder sich Wettbewerbsvorteile verschaffen.

Finanzdienstleister

Banken und andere Finanzdienstleister nutzen maschinelles Lernen primär für zwei Zwecke: um aus Daten wichtige Erkenntnisse abzuleiten und für die Betrugsprävention. Anhand der gewonnenen Erkenntnisse lassen sich Investment-Chancen oder die besten Zeitpunkte für Börsengeschäfte erkennen. Darüber hinaus kann man mit Data Mining Risikokunden oder mit Cyber-Überwachung Warnzeichen für Betrug identifizieren.

Government

Bei staatlichen Behörden wie zum Beispiel Sicherheitsbehörden oder Energieversorgern ist der Bedarf im Bereich maschinelles Lernen besonders hoch, denn solchen Institutionen liegen in der Regel mehrere erkenntnisträchtige Datenquellen vor. Die Analyse von Sensordaten zum Beispiel kann Möglichkeiten zur Effizienzsteigerung sowie Einsparpotenziale aufzeigen. Auch gegen Betrug und Identitätsdiebstahl kann man mithilfe des maschinellen Lernens vorgehen.

Gesundheitswesen

Im Gesundheitswesen gehört maschinelles Lernen zu den rasch wachsenden Trends. Grund dafür sind die sogenannten Wearables und sonstigen Sensoren, die den Gesundheitszustand von Patienten in Echtzeit abfragen können. Darüber hinaus eignet sich die Technologie auch als Hilfsmittel für medizinische Fachleute, die es bei der Datenanalyse zur Identifikation von Trends oder Warnzeichen nutzen können, um Diagnostik und Behandlung zu verbessern. 

Marketing und Vertrieb

Auf vielen Websites findet man als Kunde mittlerweile Kaufempfehlungen bzw. Werbung für andere Artikel, an denen man eventuell interessiert sein könnte – abgeleitet aus vorhergehenden Käufen und analysiert mithilfe maschinellen Lernens. In Datenerfassung, Datenanalyse und darauf basierender Personalisierung des Einkaufserlebnisses (oder Durchführung von Marketingkampagnen) liegt die Zukunft des Einzelhandels.

Öl- und Gasindustrie

Suche nach neuen Energiequellen. Analyse von Mineralien im Boden. Vorhersage von Sensorausfällen in Raffinerien. Eine optimierte, sprich effizientere und kosteneffektivere Ölversorgung. Die Einsatzmöglichkeiten für maschinelles Lernen in dieser Industrie sind gewaltig – und täglich werden es mehr.

Transportwesen

Datenanalysen zur Erkennung von Mustern und Trends sind in der Transportbranche ein Schlüssel zum Erfolg, denn diese steigert ihre Rentabilität nicht zuletzt durch Routenoptimierung und die Vorhersage potenzieller Probleme. Daher sind die Datenanalyse- und Modellierungstechniken des maschinellen Lernens wichtige Hilfsmittel für Speditionen, den öffentlichen Nah- und Fernverkehr und andere Transportunternehmen.

Gängige Methoden des maschinellen Lernens

Die beiden am weitesten verbreiteten Methoden beim maschinellen Lernen sind überwachtes Lernen und unüberwachtes Lernen – aber daneben gibt es noch eine Reihe weiterer Methoden. Hier ein Überblick über die gängigsten Methoden.

Überwachtes Lernen (Supervised Learning) – der Algorithmus trainiert anhand von gegebenen Paaren von Ein- und Ausgaben (Labels). Beispielsweise könnten die Datenpunkte eines Geräteteils mit „F“ (ausgefallen) oder „R“ (läuft) gekennzeichnet sein. Der Lernalgorithmus erhält eine Reihe von Eingaben samt zugehörigen (korrekten) Ausgaben. Er vergleicht seine tatsächliche Ausgabe mit den korrekten Ausgaben, erkennt seine Fehler und lernt auf diese Weise. Dementsprechend modifiziert er anschließend das Modell. Mit Methoden wie Klassifikation, Regression, Prognosen und Gradient Boosting werden beim überwachten Lernen anhand von Mustern die Labels für weitere Daten vorhergesagt, die noch kein Label haben. Überwachtes Lernen kommt meist dann zum Einsatz, wenn sich aus historischen Daten wahrscheinliche künftige Ereignisse ableiten lassen. Beispielsweise kann auf diese Weise vorhergesagt werden, ob Kreditkartentransaktionen wahrscheinlich betrügerisch sind oder welche Versicherungskunden wahrscheinlich Versicherungsleistungen in Anspruch nehmen.

Unüberwachtes Lernen (Unsupervised Learning) wird bei Daten verwendet, für die keine historischen Labels vorliegen. Dem System wird also keine „richtige Antwort“ gegeben. Der Algorithmus muss sich selbst einen Reim auf die vorhandenen Daten machen. Dazu muss er die Daten untersuchen und eine Struktur darin erkennen. Unüberwachtes Lernen funktioniert besonders gut bei Transaktionsdaten. So lassen sich beispielsweise Segmente von Kunden mit ähnlichen Attributen erkennen, die dann im Rahmen von Marketingkampagnen in vergleichbarer Art und Weise angesprochen werden können. Oder der Algorithmus ermittelt die Hauptattribute, die Kundensegmente voneinander unterscheiden. Gängige Anwendungen sind selbstorganisierende Karten, Nearest-Neighbor-Mapping, k-Means-Clustering und Singulärwertzerlegung. Solche Algorithmen werden auch eingesetzt, um Textthemen zu segmentieren, Empfehlungen auszugeben und Ausreißer in Daten zu erkennen.

Teilüberwachtes Lernen (Semisupervised Learning) wird für die gleichen Zwecke eingesetzt wie überwachtes Lernen. Zum Training werden jedoch Daten mit und ohne Label genutzt – in der Regel ein kleiner Bestand an Daten mit Label und ein großer Bestand ohne, denn Daten ohne Label sind weniger kostenintensiv und mit weniger Aufwand zu bekommen. Diese Art des Lernens kann in Verbindung mit Methoden wie Klassifikation, Regression und Prognosen erfolgen. Teilüberwachtes Lernen bietet sich an, wenn die Kosten für das Labeling sämtlicher Daten zu hoch wären. Zu den frühesten Beispielen für diese Technik gehört die Identifikation von Gesichtern in Webcam-Aufnahmen.

Bestärkendes Lernen (Reinforcement Learning) kommt im Zusammenhang mit Robotik, Computerspielen und Navigation zum Einsatz. Beim bestärkenden Lernen erkennt der Algorithmus durch Versuch und Irrtum, welche Aktionen die höchste Belohnung erbringen. An dieser Art des Lernens sind drei Hauptkomponenten beteiligt: der Agent (der Lernende oder Entscheidungsträger), die Umgebung (alles, womit der Agent interagiert) und die Aktionen (das, was der Agent tun kann). Ziel des Agenten ist es, Aktionen zu wählen, die die erwartete Belohnung innerhalb eines bestimmten Zeitraums maximieren. Der Agent erreicht das Ziel viel schneller, wenn er eine geeignete Strategie anwendet. Ziel beim bestärkenden Lernen ist es also, die beste Strategie zu erlernen.

Menschen können in der Regel ein bis zwei gute Modelle pro Woche erstellen, maschinelles Lernen kann tausende Modelle pro Woche erstellen.

Thomas H. Davenport, Vordenker auf dem Gebiet der Analytik
Auszug aus dem Wall Street Journal

Was sind die Unterschiede zwischen Data Mining, maschinellem Lernen und Deep Learning?

Zwar haben alle diese Methoden das gleiche Ziel, nämlich aus Daten Erkenntnisse, Muster und Zusammenhänge abzuleiten, die zur Entscheidungsfindung genutzt werden können. Aber die Strategien und Fähigkeiten dieser Methoden sind unterschiedlich.


Data Mining

Data Mining ist ein Oberbegriff für viele unterschiedliche Methoden, um aus Daten Erkenntnisse abzuleiten, beispielsweise herkömmliche statistische Methoden sowie maschinelles Lernen. Beim Data Mining wird anhand von Methoden aus vielen unterschiedlichen Bereichen nach unbekannten Mustern in Daten gesucht. Solche Methoden sind unter anderem statistische Algorithmen, maschinelles Lernen, Textanalysen, Zeitreihenanalysen und sonstige analytische Verfahren. Zum Data Mining gehören auch Theorie und Praxis von Datenspeicherung und Datenmanipulation.

 


Maschinelles Lernen

Beim maschinellen Lernen liegt das Ziel wie bei statistischen Modellen darin, in Daten eine Struktur zu erkennen – also theoretische Verteilungen auf bekannte Daten zu übertragen. Hinter statistischen Modellen steckt eine mathematisch bewiesene Theorie, wobei die Daten gleichzeitig bestimmten wichtigen Annahmen entsprechen müssen. Im Gegensatz dazu hat sich das maschinelle Lernen aus der Möglichkeit entwickelt, Daten mithilfe von Computern auf Strukturen zu untersuchen, selbst wenn keine Theorie über die Art dieser Strukturen vorliegt. Der Test für Modelle maschinellen Lernens ist ein Validierungsfehler bei neuen Daten, nicht jedoch ein theoretischer Test, mit dem eine Nullhypothese bewiesen wird. Beim maschinellen Lernen aus Daten werden häufig iterative Techniken (wiederholte Durchläufe) eingesetzt. Daher lässt sich maschinelles Lernen problemlos automatisieren. Die Daten werden in wiederholten Durchläufen untersucht, bis ein verlässliches Muster gefunden ist.


Deep Learning

Deep Learning nutzt Fortschritte bei der Rechenleistung sowie spezielle Arten neuronaler Netzwerke, um in gewaltigen Datenmengen komplexe Muster zu erkennen. Deep Learning ist bei der Erkennung von Objekten in Bildern oder von Wörtern in Lautfolgen der neueste Stand der Technik. Derzeit arbeitet die Forschung daran, diese Erfolge in der Mustererkennung auf hochkomplexe Aufgaben zu übertragen, beispielsweise die automatische Übersetzung natürlicher Sprachen, die medizinische Diagnostik und zahlreiche weitere soziale und wirtschaftliche Fragen von großer Relevanz.

Wie funktioniert das?

Um größtmöglichen Nutzen aus maschinellem Lernen zu ziehen, muss man in der Lage sein, die besten Algorithmen mit den richtigen Tools und Prozessen zusammenzuführen. SAS verbindet umfangreiche Sachkenntnis in Statistik und Data Mining mit neuen Entwicklungen in der Architektur, sodass Modelle unübertroffen schnell ausgeführt werden – selbst in riesigen Unternehmensumgebungen.

Algorithmen: Die grafischen Benutzeroberflächen von SAS unterstützen Sie bei der Erstellung von Modellen für maschinelles Lernen und der Implementierung iterativer Prozesse. Dazu benötigen Sie keine umfangreichen Kenntnisse in Statistik. Dank unserer umfassenden Auswahl an Algorithmen für maschinelles Lernen, enthalten in zahlreichen Produkten von SAS, profitieren Sie schnell von Ihren Big Data. Zu den Algorithmen für maschinelles Lernen von SAS gehören unter anderem:

neuronale Netzwerke
 
Entscheidungsbäume
 
Random Forests
 
Assoziations- und Sequenzanalysen
 
Gradient Boosting und Aggregation
 
Support Vector Machines (SVMs)
 
Nearest-Neighbor-Mapping
 
k-Means-Clustering
 
selbstorganisierende Karten
 
Optimierungstechniken für die lokale Suche, z. B. genetische Algorithmen
 
Erwartungsmaximierung
 
Multivariate Adaptive Regression Splines
 
bayessche Netze
 
Kerndichteschätzung
 
Hauptkomponentenanalyse
 
Singulärwertzerlegung
 
gaußsche Mischverteilungsmodelle
 
Erstellen von Regeln mit Sequential Covering
 

 

Tools und Prozesse: Wie wir nun wissen, geht es nicht nur um die Algorithmen. Die Kunst besteht vielmehr darin, durch die Kombination der am besten geeigneten Algorithmen eine optimale Nutzung Ihrer Big Data zu ermöglichen. Hierbei kommt es auf folgende Punkte an:

umfassende Datenqualität und umfassendes Datenmanagement
 
grafische Benutzeroberflächen für das Erstellen von Modellen und Prozessabläufen
 
interaktive Datenexploration und Visualisierung von Modellergebnissen
 
Vergleichen verschiedener Modelle für maschinelles Lernen, um schnell das am besten geeignete zu ermitteln    
 
automatisierte Evaluierung des Ensemble-Modells zur Identifikation der besten Leistung
 
einfache Modellbereitstellung für schnell verfügbare, wiederholbare, zuverlässige Ergebnisse
 
integrierte durchgängige Plattform für die Automatisierung des Prozesses von Daten zu Entscheidungen
 

Sie benötigen eine einfache Anleitung zu den Einsatzmöglichkeiten der Algorithmen für maschinelles Lernen? Auf diesem Blog von Hui Li, Data Scientist bei SAS, finden Sie einen praktischen Spickzettel.