This page exists on your local site.

Go there now
Stay here
X
Man typing on a laptop

Naturlig språkbehandling (NLP)

Vad det är och varför det är viktigt

Naturlig språkbehandling (Natural Language Processing, NLP) är en gren inom artificiell intelligens som hjälper datorer att förstå, tolka och manipulera mänskligt språk. NLP är tvärvetenskapligt och använder sig bland annat av datorvetenskap och språkteknologi i syfte att överbrygga gapet mellan mänsklig kommunikation och datorers förmåga att förstå.

 

Utvecklingen av naturlig språkbehandling

Även om naturlig språkbehandling inte är en ny vetenskap gör teknologin snabba framsteg tack vare ett ökat intresse för kommunikation mellan människa och maskin samt tillgängligheten av big data, kraftfull dataanvändning och förbättrade algoritmer.

En människa kanske talar och skriver på engelska, spanska eller kinesiska. Men en dators modersmål – som kallas maskinkod eller binär kod – är för de flesta människor praktiskt taget omöjligt att förstå. Enheten kommunicerar inte med ord utan med miljontals ettor och nollor som leder till logiska handlingar.

Faktum är att programmerare använde hålkort för att kommunicera med de första datorerna för 70 år sedan. Denna manuella och mödosamma uppgift kunde bara utföras av relativt få personer. Nu för tiden kan du säga ”Alexa, jag gillar den här låten” och enheten som spelar musik i ditt hem sänker volymen och svarar ”Okej, omdömet har sparats”, med en människolik röst. Sedan anpassar den sin algoritm för att spela den låten och andra liknande låtar nästa gång du lyssnar på musik.

Låt oss ta en närmare titt på den här interaktionen. Din enhet aktiverades när den hörde din röst, den förstod avsikten i det du sa, utförde en handling och svarade dig med en korrekt svensk mening – allt på ungefär fem sekunder. Hela denna interaktion är möjlig tack vare NLP och andra aspekter av AI som maskininlärning och djup maskininlärning.

Varför är NLP viktigt?

Stora volymer av textdata

Naturlig språkbehandling hjälper datorer att kommunicera med människor på vårt språk och kan hantera olika språkbaserade uppgifter. Till exempel kan datorer tack vare NLP läsa text, lyssna på talat språk, tolka det, identifiera känslan i språket och avgöra vilka delar som är viktiga.

Dagens maskiner kan analysera större volymer av språkbaserad data än människor – utan att bli uttröttade och på ett konsekvent och opartiskt sätt. Med tanke på de enorma mängder ostrukturerade data som genereras varje dag, från vårdjournaler till sociala media, kommer automatisering att vara avgörande för att kunna analysera text- och taldata både fullständigt och effektivt.

Strukturerar ostrukturerade datakällor

Mänskligt språk är häpnadsväckande komplext och mångsidigt. Vi uttrycker oss på oräkneliga sätt både i tal och skrift. Det finns inte bara hundratals språk och dialekter utan varje språk har sin unika grammatik, sina syntaxregler, uttryck och slangord. När vi skriver händer det ofta att vi stavar fel, använder förkortningar eller missar att använda skiljetecken. När vi talar har vi regionala dialekter, vi mumlar, stammar och lånar ord från andra språk.

Även om övervakad och oövervakad inlärning, och i synnerhet djup maskininlärning, idag ofta används för att modellera mänskligt språk krävs också en syntaktisk och semantisk förståelse samt ämnesexpertis som inte nödvändigtvis finns i dessa maskininlärningsteknologier. NLP är viktigt för att det kan avlägsna tvetydigheter i språk och skapar en praktisk numerisk struktur i datan för många efterkommande applikationer som språkigenkänning och textanalys.

Synthetic data and its many uses

Synthetically generated text is often used with NLP models. Want to learn more about what synthetic data is, why it’s so valuable, and how it’s being used today? Watch this explainer video with Brett Wujek, who leads product strategy for next-generation AI technologies at SAS, to hear why synthetic data is so important for the future.

Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
  • Chapters
  • descriptions off, selected
  • subtitles off, selected

    NLP in today’s world

    Woman using laptop at desk in home office

    Data quality via NLP and large language models

    With text-related models like LLMs, more data isn't necessarily better – due to potential noise, duplication or ambiguity. When it comes to LLMs, the quality of data directly affects the generated results. Learn how semantic rules-based NLP techniques can help.

    A man holding a smart phone while sitting at a desk

    Natural language processing revamps regulatory responses

    To provide rigorous responses to thousands of public comments, government agencies face a grueling, manual sorting process. With NLP, text analytics and generative AI, they can manage this task both effectively and accurately – while keeping experts at the center of the process.

    Man sitting in office looking concentratedly at laptop

    Learn about chatbots and how they work with analytics and AI

    A chatbot is a form of conversational AI designed to simplify human interaction with computers. Sophisticated chatbots learn and gather information to adapt to user preferences and provide personalized responses and recommendations – serving as digital AI assistants.

    Man with headphones using laptop

    Make every voice heard with NLP

    Discover how machines can learn to understand human language and interpret its nuances; how AI, natural language processing and human expertise work together to help humans and machines communicate and find meaning in data; and how NLP is being used in multiple industries.

    Why is NLP important?

    Large volumes of textual data

    Natural language processing helps computers communicate with humans in their own language and scales other language-related tasks. For example, NLP makes it possible for computers to read text, hear speech, interpret it, measure sentiment and determine which parts are important. 

    Today’s machines can analyze more language-based data than humans, without fatigue and in a consistent way. Considering the staggering amount of unstructured data that’s generated every day, from medical records to social media posts, automation will be critical to fully analyze text and speech data efficiently.

    Structuring a highly unstructured data source

    Human language is astoundingly complex and diverse. We express ourselves in infinite ways, both verbally and in writing. Not only are there hundreds of languages and dialects, but within each language is a unique set of grammar and syntax rules, terms and slang. When we write, we often misspell or abbreviate words, or omit punctuation. When we speak, we have regional accents, and we mumble, stutter and borrow terms from other languages. 

    While supervised and unsupervised learning, and specifically deep learning, are now widely used for modeling human language, there’s also a need for syntactic and semantic understanding and domain expertise that are not necessarily present in these machine learning approaches. NLP is important because it helps resolve ambiguity in language and adds useful numeric structure to the data for many downstream applications, such as speech recognition or text analytics. 

    Kia uses AI and advanced analytics to decipher meaning in customer feedback 

    Kia Motors America regularly collects feedback from vehicle owner questionnaires to uncover quality issues and improve products. But understanding and categorizing customer responses can be difficult. With natural language processing from SAS, KIA can make sense of the feedback. An NLP model automatically categorizes and extracts the complaint type in each response, so quality issues can be addressed in the design and manufacturing process for existing and future vehicles.

    Kia Optima driving down road

    Hur fungerar NLP?

    Språkets grundläggande delar

    Processer inom naturlig språkbehandling omfattar många olika tekniker för att tolka mänskligt språk – från statistiska metoder och maskininlärning till regelbaserade och algoritmiska tillvägagångssätt. Vi behöver en bred uppsättning av metoder eftersom både text- och röstbaserade data och deras användningar är mångfaldiga och olikartade.

    Grundläggande NLP-uppgifter omfattar tokenisering och parsning, lemmatisering/stemming, ordklasstaggning, språkigenkänning och identifiering av semantiska relationer. Du har antagligen gjort dessa uppgifter manuellt i grundskolan.

    Generellt kan man säga att NLP-uppgifter delar upp språket i kortare, grundläggande delar, försöker förstå relationen mellan dessa bitar och utforskar hur bitarna kan sättas ihop för att skapa mening.

    These underlying tasks are often used in higher-level NLP capabilities, such as:

    • Content categorization provides a linguistic-based document summary, including search and indexing, content alerts and duplication detection.
    • Large language model (LLM)-based classification, particularly BERT-based classification, is used to capture the context and meaning of words in a text to improve accuracy compared to traditional models.
    • Corpus analysis is used to understand corpus and document structure through output statistics for tasks such as sampling effectively, preparing data as input for further models and strategizing modeling approaches.
    • Contextual extraction automatically pulls structured information from text-based sources.
    • Sentiment analysis identifies the mood or subjective opinions within a piece of text (as well as large amounts of text), including average sentiment and opinion mining. 
    • Speech-to-text and text-to-speech conversion transforms voice commands into written text, and vice versa.
    • Document summarization automatically generates synopses of large bodies of text and detects represented languages in multi-lingual corpora (documents).
    • Machine translation automatically translates text or speech from one language to another.

    In all these cases, the overarching goal is to take language input and use linguistics and algorithms to transform or enrich the text in such a way that it delivers greater value.

    Dessa uppgifter används ofta i mer avancerade NLP-funktioner såsom:

    • Innehållskategorisering.En lingvistikbaserad sammanfattning av dokument, inklusive sökning och indexering, innehållsvarningar och dubblettidentifiering.
    • Klassificering med stora språkmodeller. BERT-baserade klassificeringar används för att fånga kontexten och betydelsen av orden i en text för att förbättra träffsäkerheten jämfört med traditionella modeller.
    • Korpusanalys. Förstå dokuments korpus och struktur med statistiska utdata för uppgifter som effektiv stickprovsinsamling, förberedelse av data att använda som indata för ytterligare modeller och strategiskt utveckla modeller.
    • Kontextuell extrahering. Extrahera automatiskt strukturerad information från textbaserade källor.
    • Känsloanalys. Identifiera känslostämningen och subjektiva åsikter i stora mängder text.
    • Konvertering av tal-till-text och text-till-tal. Förvandla röstkommandon till skriven text och vice versa.
    • Dokumentsammanfattning.Få automatiskt genererade sammanfattningar av stora textmängder och upptäck vilka språk som används i flerspråkiga dokument.
    • Maskinöversättning. Översätt automatiskt text eller tal från ett språk till ett annat.


    I alla dessa användningsfall är det övergripande målet att ta rå språkindata och omvandla eller berika texten så att den ger mer värde med hjälp av lingvistik och algoritmer.

    NLP methods and applications

    How computers make sense of textual data

    SAS® Visual Text Analytics

    How can you find answers in large volumes of textual data? By combining machine learning with natural language processing and text analytics. Find out how your unstructured data can be analyzed to identify issues, evaluate sentiment, detect emerging trends and spot hidden opportunities.

    SAS® Visual Text Analytics screenshot