
Sprogteknologi (NLP)
Hvad det er, og hvorfor det er vigtigt
Sprogteknologi (Natural Language Processing, NLP) er en gren af kunstig intelligens, der hjælper computere med at forstå, fortolke og manipulere det menneskelige sprog. NLP trækker på mange discipliner, herunder datalogi og computerlingvistik, i sin stræben efter at udfylde kløften mellem menneskelig kommunikation og computerforståelse.
Udvikling af sprogteknologi
Sprogteknologi er ikke en ny videnskab, men teknologien udvikler sig hurtigt takket være en øget interesse for kommunikation mellem mennesker og maskiner samt tilgængeligheden af big data, , kraftfulde computere og forbedrede algoritmer.
Som menneske kan du tale og skrive på engelsk, spansk eller kinesisk. Men en computers modersmål - kendt som maskinkode eller maskinsprog - er stort set uforståeligt for de fleste mennesker. På din enheds laveste niveauer foregår kommunikationen ikke med ord, men gennem millioner af nuller og ettaller, der danner logiske handlinger.
Faktisk brugte programmører hulkort til at kommunikere med de første computere for 70 år siden. Denne manuelle og krævende proces blev forstået af et relativt lille antal mennesker. Nu kan du sige: »Alexa, jeg kan godt lide denne sang«, og en enhed, der afspiller musik i dit hjem, vil sænke lydstyrken og svare: »OK. Ratingen er gemt« med en menneskelignende stemme. Derefter tilpasser den sin algoritme, så den spiller den sang - og andre lignende sange - næste gang du lytter til den pågældende musikstation.
Lad os se nærmere på den interaktion. Din enhed blev aktiveret, da den hørte dig tale, den forstod den underforståede intention med kommentaren, udførte en handling og gav feedback i en velformuleret engelsk sætning, alt sammen i løbet af cirka fem sekunder. Den komplette interaktion blev muliggjort af NLP sammen med andre AI-elementer som machine learning og deep learning.
Hvorfor er NLP vigtigt?
Store mængder tekstdata
Sprogteknologi hjælper computere med at kommunikere med mennesker på deres eget sprog og med at løse andre sprogrelaterede opgaver. NLP gør det f.eks. muligt for computere at læse tekst, at høre tale, at fortolke den, at måle følelser og at afgøre, hvilke dele der er vigtige.
Nutidens maskiner kan analysere flere sprogbaserede data end mennesker, uden at blive trætte og på en konsekvent, upartisk måde. I betragtning af den svimlende mængde ustrukturerede data, der genereres hver dag, fra lægejournaler til sociale medier, vil automatisering være afgørende for fuldt ud at analysere tekst- og taledata effektivt.
Strukturering af en meget ustruktureret datakilde
Det menneskelige sprog er forbløffende komplekst og mangfoldigt. Vi udtrykker os på uendeligt mange måder, både mundtligt og skriftligt. Ikke alene findes der hundredvis af sprog og dialekter, men inden for hvert sprog er der et unikt sæt af grammatik- og syntaksregler, udtryk og slang. Når vi skriver, staver vi ofte forkert eller forkorter ord eller udelader tegnsætning. Når vi taler, har vi lokale accenter, og vi mumler, stammer og låner udtryk fra andre sprog.
Mens overvåget og ikke-overvåget læring, og især deep learning, nu bruges i vid udstrækning til modellering af menneskeligt sprog, er der også behov for syntaktisk og semantisk forståelse og domæneekspertise, som ikke nødvendigvis er til stede i disse maskinlæringsmetoder. NLP er vigtigt, fordi det hjælper med at løse tvetydigheder i sproget og tilføjer nyttig numerisk struktur til data til mange downstream-applikationer, som f.eks. talegenkendelse eller tekstanalyse.
Synthetic data and its many uses
Synthetically generated text is often used with NLP models. Want to learn more about what synthetic data is, why it’s so valuable, and how it’s being used today? Watch this explainer video with Brett Wujek, who leads product strategy for next-generation AI technologies at SAS, to hear why synthetic data is so important for the future.

NLP in today’s world
Why is NLP important?
Kia uses AI and advanced analytics to decipher meaning in customer feedback
Kia Motors America regularly collects feedback from vehicle owner questionnaires to uncover quality issues and improve products. But understanding and categorizing customer responses can be difficult. With natural language processing from SAS, KIA can make sense of the feedback. An NLP model automatically categorizes and extracts the complaint type in each response, so quality issues can be addressed in the design and manufacturing process for existing and future vehicles.
Hvordan fungerer NLP?
Nedbrydning af sprogets elementære dele
Sprogteknologi omfatter mange forskellige teknikker til fortolkning af det menneskelige sprog, lige fra statistiske og maskinelle læringsmetoder til regelbaserede og algoritmiske tilgange. Vi har brug for en bred vifte af tilgange, fordi de tekst- og stemmebaserede data varierer meget, og det samme gør de praktiske anvendelser.
De grundlæggende NLP-opgaver omfatter tokenisering og parsing, lemmatisering/stemming, part-of-speech tagging, sprogdetektering og identifikation af semantiske relationer. Hvis du nogensinde har analyseret sætningsled i folkeskolen, har du prøvet at udføre disse opgaver manuelt.
Generelt kan man sige, at NLP-opgaver nedbryder sproget i mindre, elementære dele, forsøger at forstå relationerne mellem de enkelte dele og undersøger, hvordan delene arbejder sammen for at skabe mening.
These underlying tasks are often used in higher-level NLP capabilities, such as:
- Content categorization provides a linguistic-based document summary, including search and indexing, content alerts and duplication detection.
- Large language model (LLM)-based classification, particularly BERT-based classification, is used to capture the context and meaning of words in a text to improve accuracy compared to traditional models.
- Corpus analysis is used to understand corpus and document structure through output statistics for tasks such as sampling effectively, preparing data as input for further models and strategizing modeling approaches.
- Contextual extraction automatically pulls structured information from text-based sources.
- Sentiment analysis identifies the mood or subjective opinions within a piece of text (as well as large amounts of text), including average sentiment and opinion mining.
- Speech-to-text and text-to-speech conversion transforms voice commands into written text, and vice versa.
- Document summarization automatically generates synopses of large bodies of text and detects represented languages in multi-lingual corpora (documents).
- Machine translation automatically translates text or speech from one language to another.
In all these cases, the overarching goal is to take language input and use linguistics and algorithms to transform or enrich the text in such a way that it delivers greater value.
Disse bagvedliggende opgaver bruges ofte i NLP-funktioner på højere niveau, som f.eks:
- ● Kategorisering af indhold. Et sprogbaseret sammendrag af dokumenter, herunder søgning og indeksering, indholdsvarsler og detektering af duplikering.
- Large Language Model (LLM)-baseret klassifikation. BERT-baseret klassifikation bruges til at indfange konteksten og betydningen af ord i en tekst for at øge nøjagtigheden sammenlignet med traditionelle modeller.
- Korpus-analyse. Forstå korpus- og dokumentstruktur gennem outputstatistikker til opgaver såsom effektiv prøveudtagning, forberedelse af data som input til yderligere modeller og strategi for modelleringsmetoder.
- Kontekstuel ekstrahering. Træk automatisk strukturerede oplysninger ud af tekstbaserede kilder.
- Sentimentanalyse. Identificering af stemningen eller subjektive meninger i store mængder tekst, herunder gennemsnitlig sentiment og meningsudvinding.
- Tale-til-tekst og tekst-til-tale-konvertering. Omdannelse af stemmekommandoer til skrevet tekst og omvendt.
- Sammenfatning af dokumenter. Automatisk generering af synopser af store tekstmængder og registrering af de repræsenterede sprog i flersprogede korpora (dokumenter).
- Maskinoversættelse . Automatisk oversættelse af tekst eller tale fra et sprog til et andet.
I alle disse tilfælde er det overordnede mål at tage rå sproginput og bruge lingvistik og algoritmer til at transformere eller berige teksten på en sådan måde, at den giver større værdi.
NLP methods and applications
How computers make sense of textual data
SAS® Visual Text Analytics
How can you find answers in large volumes of textual data? By combining machine learning with natural language processing and text analytics. Find out how your unstructured data can be analyzed to identify issues, evaluate sentiment, detect emerging trends and spot hidden opportunities.
Recommended reading
Anbefalet læsestof
-
Fishing for the freshest data: Leading the global seafood market with analyticsThe Norwegian Seafood Council uses SAS to give Norwegian seafood exporters a competitive advantage.
-
Manufacturing smarter, safer vehicles with analyticsKia Motors America relies on advanced analytics and artificial intelligence solutions from SAS to improve its products, services and customer satisfaction.
-
Your personal data scientistImagine pushing a button on your desk and asking for the latest sales forecasts the same way you might ask Siri for the weather forecast. Find out what else is possible with a combination of natural language processing and machine learning.