Mann tippt an einem Laptop

Natural Language Processing

Was es ist und was man darüber wissen sollte

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Teilbereich der Artificial Intelligence. Sie soll Computer in die Lage versetzen, menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren. NLP will die Lücke zwischen menschlicher Kommunikation und den Sprachverarbeitungsfähigkeiten von Computern schließen und greift dazu auf eine Vielzahl von Disziplinen zurück, unter anderem die Informatik und die Computerlinguistik.

Entwicklung von Natural Language Processing

Natural Language Processing ist keine neue wissenschaftliche Disziplin, aber die Technologie entwickelt sich gerade schnell weiter – angetrieben von einem verstärkten Interesse an der Kommunikation zwischen Mensch und Maschine sowie der Verfügbarkeit von Big Data, hoher Rechenleistung und verbesserten Algorithmen.

Menschen kommunizieren, ob mündlich oder schriftlich, in Sprachen wie Deutsch, Englisch, Spanisch oder Chinesisch. Die „Sprache“ eines Computers – der Maschinencode oder die Maschinensprache – ist für die meisten Menschen dagegen weitgehend unverständlich. Auf der untersten Ebene erfolgt die Kommunikation in einem Computer nicht in Form von Worten, sondern mit Millionen von Nullen und Einsen, die logische Aktionen hervorbringen.

Tatsächlich nutzten Programmierer:innen vor Jahrzehnten Lochkarten für die Kommunikation mit den ersten Computern. Mit diesem in mühsamer Handarbeit ausgeführten Prozess waren nur relativ wenige Menschen vertraut. Heutzutage können Sie generative AI-Modelle (GenAI) wie ChatGPT verwenden, um Code zu erstellen, neue Ideen zu brainstormen oder Forschungsthemen zusammenzufassen.

Diese Technologie ist nur dank großen Sprachmodellen (Large Language Model, LLM) möglich, die NLP zusammen mit anderen AI-Elementen wie maschinellem Lernen und Deep Learning verwenden.

Synthetische Daten und ihre vielfältigen Einsatzmöglichkeiten

Künstlich erzeugter Text wird oft mit NLP-Modellen verwendet. Möchten Sie mehr darüber erfahren, was synthetische Daten sind, warum sie so wertvoll sind und wie sie heute genutzt werden? Sehen Sie sich dieses Video mit Brett Wujek an, der bei SAS die Produktstrategie für AI-Technologien der nächsten Generation leitet, und erfahren Sie, warum synthetische Daten für die Zukunft so wichtig sind.

Artikel lesen Read about synthetic data, including how it works and how it relates to NLP

Video-Player wird geladen.

Aktueller Zeitpunkt 0:00

Dauer 0:00

Geladen: 0%

Streamtyp LIVE

Verbleibende Zeit 0:00

NLP in der Welt von heute

Frau mit Laptop am Schreibtisch im Home-Office

Datenqualität mit NLP und großen Sprachmodellen (LLM)

Bei textbezogenen Modellen wie LLMs sind mehr Daten nicht unbedingt besser aufgrund von potenziellem Rauschen, Duplikation oder Mehrdeutigkeit. Bei LLMs wirkt sich die Qualität der Daten direkt auf die generierten Ergebnisse aus. Erfahren Sie, wie semantische, regelbasierte NLP-Techniken helfen können.

Blogbeitrag lesen Read the first blog post in a series on LLMs and NLP

Mann hält ein Smartphone und sitzt an einem Schreibtisch

Natural Language Processing verbessert die Kommunikation mit Behörden

Um Tausende von öffentlichen Kommentaren sorgfältig zu beantworten, stehen die Behörden vor einem zermürbenden, manuellen Prozess. Mit NLP, Textanalyse und generativer AI können sie diese Aufgabe sowohl effektiv als auch präzise durchführen – und den Prozess von Expert:innen steuern lassen.

Blogbeitrag lesen Read a blog post about uses of NLP, GenAI and text analytics in the public sector

Mann sitzt in einem Büro und schaut konzentriert auf seinen Laptop

Erfahren Sie mehr über Chatbots und wie sie mit Analytics und AI arbeiten

Chatbots sind eine Art dialogfähige AI, die dazu konzipiert ist, menschliche Interaktionen mit Computern zu vereinfachen. Hochentwickelte Chatbots lernen daraus und sammeln Informationen, um sich an die Vorlieben der Benutzer:innen anzupassen und personalisierte Antworten und Empfehlungen zu geben. So fungieren sie als digitale AI-Assistenten.

Artikel lesen Learn more about how chatbots work in this explainer article

Mann mit Kopfhörern an einem Laptop

Verschaffen Sie mit NLP jeder Stimme Gehör

Entdecken Sie, wie Technologien lernen können, menschliche Sprache zu verstehen und ihre Nuancen zu interpretieren; wie AI, Natural Language Processing und menschliches Fachwissen zusammenarbeiten, um Menschen und Maschinen dabei zu helfen, miteinander zu kommunizieren und Daten zu verstehen; und wie NLP in verschiedenen Branchen eingesetzt wird.

E-Book herunterladen Download an e-book to learn more about natural language processing

Warum ist NLP so wichtig?

Große Mengen an Textdaten

Die Verarbeitung natürlicher Sprache versetzt Computer in die Lage, mit Menschen in deren Sprache zu kommunizieren und weitere sprachbezogene Aufgaben zu bewältigen. So können Computer mithilfe von NLP beispielsweise Texte lesen, gesprochene Sprache hören, diese interpretieren, die Tonalität erkennen und ermitteln, welche Teile wichtig sind.

Die heutigen Rechner können mehr sprachbasierte Daten analysieren, als Menschen könnten, und das ohne zu ermüden und kosistent. Angesichts der überwältigenden Menge an unstrukturierten Daten, die Tag für Tag generiert wird, – von Patient:innenakten bis zu Social Media-Beiträgen – ist eine effiziente Analyse von Text- und Sprachdaten nur mittels Automatisierung möglich.

Strukturieren einer hochgradig unstrukturierten Datenquelle

Menschliche Sprache ist erstaunlich komplex und vielfältig. Wir verfügen über unendlich viele Ausdrucksmöglichkeiten, sowohl verbal als auch schriftlich. Es gibt nicht nur Hunderte von Sprachen und Dialekten, sondern darüber hinaus innerhalb jeder Sprache einzigartige Grammatik- und Syntaxregeln, Fachbegriffe und Slang. Zudem schreiben wir Wörter häufig falsch, verwenden Abkürzungen oder lassen Satzzeichen aus. In der gesprochenen Sprache kommen Dialekte und individuelle Merkmale wie Nuscheln und Stottern sowie aus anderen Sprachen übernommene Lehnwörter hinzu.

Überwachtes und unüberwachtes Lernen sowie insbesondere Deep Learning werden heute häufig zur Modellierung menschlicher Sprache verwendet, aber die ebenfalls erforderlichen Syntax- und Semantikkenntnisse sowie fachspezifisches Know-how sind in diesen Verfahren für das maschinelle Lernen nicht unbedingt gegeben. NLP ist wichtig, denn damit lassen sich Mehrdeutigkeiten in der Sprache besser auflösen und die Daten erhalten eine nützliche numerische Struktur für viele nachgelagerte Anwendungen, wie Spracherkennung oder Textanalysen.

Kia nutzt AI und fortschrittliche Analytics, um Informationen aus Kundenfeedback zu extrahieren

Kia Motors America sammelt regelmäßig Feedback von Fahrzeugbesitzer:innen mithilfe von Fragebögen, um Qualitätsprobleme zu ermitteln und Produkte zu verbessern. Aber das Interpretieren und Kategorisieren von Kundenfeedback kann schwierig sein. Mit Natural Language Processing von SAS kann Kia das Feedback entschlüsseln. Ein NLP-Modell kategorisiert und erkennt automatisch die Art der Beschwerde in den Antworten, so dass Qualitätsprobleme im Entwicklungs- und Fertigungsprozess bestehender und zukünftiger Fahrzeuge berücksichtigt werden können.

Kia Optima fährt eine Straße entlang

Wie funktioniert NLP?

Aufschlüsseln von Sprache in ihre elementaren Bestandteile

Natural Language Processing umfasst verschiedenste Verfahren zur Interpretation menschlicher Sprache, von statistischen Ansätzen und Methoden für maschinelles Lernen bis zu regelbasierten und algorithmischen Ansätzen. Diese vielfältigen Ansätze sind unverzichtbar, denn text- und sprachbasierte Daten sind ebenso vielfältig wie ihre Verwendung in der Praxis.

Grundlegende NLP-Aufgaben sind Tokenisierung und Parsing, Lemmatisierung/Wortstammerkennung, Wortart-Tagging, die Spracherkennung und die Erkennung von Bedeutungszusammenhängen. Diese Aufgaben haben Sie höchstwahrscheinlich schon manuell bewältigt, und zwar bei der Satzbauanalyse im Schulunterricht.

Ganz allgemein ausgedrückt geht es bei den NLP-Aufgaben darum, Sprache in kürzere, elementare Bestandteile zu zerlegen, die Beziehungen zwischen diesen Teilen zu ermitteln und zu untersuchen, wie aus dem Zusammenspiel dieser Teile Bedeutung entsteht.

Diese zugrunde liegenden Aufgaben werden häufig bei NLP-Funktionen höherer Ebene eingesetzt.

Die Content-Kategorisierung ermöglicht eine linguistisch basierte Dokumentenzusammenfassung, einschließlich Suche und Indizierung, Inhaltswarnungen und Erkennung von Duplikaten.
Mit Klassifizierungen auf der Grundlage von großen Sprachmodellen (LLM), insbesondere BERT-basierten Klassifizierungen, wird der Kontext und die Bedeutung von Wörtern in einem Text erfasst, um die Genauigkeit im Vergleich zu traditionellen Modellen zu verbessern.
Die Korpusanalyse wird verwendet, um den Korpus und die Dokumentenstruktur anhand von Ausgabestatistiken zu verstehen, um z. B. ein effektives Sampling durchzuführen, Daten als Input für weitere Modelle vorzubereiten und Modellansätze zu entwickeln.
Die kontextuelle Extraktion zieht automatisch strukturierte Informationen aus textbasierten Quellen.
Die Tonalitätsanalyse erkennt die Stimmung oder die subjektiven Meinungen in einem Text (oder auch in großen Textmengen), einschließlich der durchschnittlichen Stimmung und des Meinungsbildes.
Speech-to-Text- und Text-to-Speech-Konvertierung wandelt Sprachbefehle in schriftlichen Text um und umgekehrt.
Bei der Dokumentenzusammenfassung werden automatisch Kurzfassungen großer Textmengen erstellt und die vertretenen Sprachen in mehrsprachigen Korpora (Dokumenten) erkannt.
Mit maschinellen Übersetzungen werden geschriebene oder gesprochene Texte von einer Sprache in eine andere übersetzt.

Vorrangiges Ziel ist es in jedem Fall, Sprachinput mit linguistischen Ansätzen und Algorithmen zu transformieren oder anzureichern und damit wertvoller zu machen.

NLP-Methoden und -Anwendungen

So erkennen Computer den Sinn in Textdaten

Natural Language Processing verleiht unstrukturierten Daten durch Textanalyse Struktur. Dabei werden Wörter gezählt, gruppiert und kategorisiert, um eine Struktur und Bedeutung aus großen Mengen von Inhalten zu extrahieren. Diese Technologie wird verwendet, um Textinhalte zu untersuchen und neue Variablen aus Rohdaten zu generieren, die dann visualisiert, gefiltert oder als Input für Vorhersagemodelle oder andere statistische Methoden genutzt werden können.

NLP und GenAI werden in Kombination für viele Anwendungsbereiche eingesetzt. Hier einige Beispiele:

Ermittlungen: Erkennung von Mustern und Hinweisen in E-Mails oder schriftlichen Berichten zur Aufdeckung und Aufklärung von Verbrechen.
Fachwissen Klassifizierung von Inhalten in aussagekräftige Themen, damit Maßnahmen ergriffen und Trends erkannt werden können.
Inhaltserstellung: Generieren Sie neue Inhalte zu bestimmten Themen und machen Sie wichtige Ideen verständlich.

Es gibt viele gängige und praktische Einsatzmöglichkeiten für NLP im Alltag. Neben der Arbeit mit Copiloten gibt es einige weitere Beispiele:

Haben Sie schon einmal einen Chatbot eingesetzt, um ein Problem im Kundenservice zu lösen? Dann haben Sie NLP-Tools für die Suche, Modellierung von Themen, Texterstellung, Eigennamen-Erkennung und die Kategorisierung von Inhalten verwendet.
Haben Sie je darauf geachtet, dass die E-Mails in Ihrem Spam-Folder Ähnlichkeiten in den Betreffzeilen aufweisen? Das ist das Ergebnis von Bayesschen Spam-Filtern, einem statistischen NLP-Verfahren, mit der die Wörter in Spam-Mails mit zulässigen E-Mails verglichen werden, um Junk-Mails ausfindig zu machen.
Haben Sie je einen Telefonanruf verpasst und dann die aus der Mailbox-Aufzeichnung automatisch erzeugte Textnachricht in Ihrem E-Mail-Postfach oder Ihrer Smartphone-App gelesen? Das ist das Ergebnis der Speech-to-Text-Konvertierung, einer NLP-Funktion.

Natural Language Understanding (NLU) ist ein Teilbereich von NLP, der kognitive und AI-Anwendungen umfasst. NLU geht über das Verständnis der Struktur von Sprache hinaus und zielt darauf ab, Absichten zu erkennen, Mehrdeutigkeiten in Kontext und Wörtern aufzulösen und sogar eigenständig wohlgeformte Sprachäußerungen zu generieren. NLU-Algorithmen befassen sich mit dem außerordentlich komplexen Problem der semantischen Interpretation, also damit, die beabsichtigte Bedeutung gesprochener oder geschriebener Sprache zu erkennen, und zwar mit allen Feinheiten, kontextabhängigen Interpretationen und Rückschlüssen, die wir Menschen verstehen können.

Die Entwicklung von NLP zu NLU bringt eine ganze Reihe erheblicher Auswirkungen für Unternehmen und Verbraucher:innen mit sich. Stellen Sie sich das Potenzial eines Algorithmus vor, der die Bedeutung und Nuancen menschlicher Sprache in vielen Kontexten – vom Operationsssaal, über den Gerichtssaal bis zum Klassenzimmer – verstehen kann. Die Menge unstrukturierter Informationen wächst exponentiell weiter, aber unermüdliche Computer unterstützen uns dabei, alle diese Daten zu verstehen.

SAS® Visual Text Analytics

Wie finden Sie Antworten in großen Mengen von Textdaten? Indem Sie maschinelles Lernen mit Natural Language Processing und Textanalysen kombinieren. Erfahren Sie, wie unstrukturierte Daten analysiert werden können, um Probleme zu identifizieren, Tonalitäten zu bewerten, aufkommende Trends zu erkennen und verborgene Chancen ausfindig zu machen.

Weitere Informationen

Screenshot von SAS Visual Text Analytics

Literaturempfehlungen