Mężczyzna piszący na laptopie

Przetwarzanie języka naturalnego (NLP)

Teoria i praktyka

Przetwarzanie języka naturalnego (NLP) to gałąź sztucznej inteligencji, która pomaga komputerom rozumieć ludzki język, interpretować go oraz nim operować. NLP czerpie z wielu dyscyplin, w tym z informatyki i lingwistyki obliczeniowej, aby z ich pomocą wypełnić lukę między komunikacją międzyludzką a interpretacją języka przez komputer.

Rozwój przetwarzania języka naturalnego

Przetwarzanie języka naturalnego nie jest co prawda nową dziedziną nauki, ale rozwój tej technologii nabrał szybkiego tempa ze względu na wzrost zainteresowania kwestią komunikacji między człowiekiem a maszyną oraz dzięki dostępności danych big data, potężnym mocom obliczeniowym i zaawansowanym algorytmom.

Człowiek może posługiwać się różnymi językami – angielskim, hiszpańskim czy chińskim – natomiast rodzimy język komputerów, zwany kodem lub językiem maszynowym, jest dla większości ludzi w dużej mierze niezrozumiały. Na najgłębszych poziomach operowania każdego z urządzeń komunikacja odbywa się nie przy użyciu słów, lecz milionów zer i jedynek, które tworzą logiczne ciągi działań.

Kilkadziesiąt lat temu programiści komunikowali się z pierwszymi komputerami przy użyciu kart dziurkowanych – ten żmudny, ręczny proces rozumiało stosunkowo niewielu ludzi. Dziś możemy korzystać z modeli generatywnej sztucznej inteligencji (GenAI), takich jak ChatGPT, aby tworzyć kody, szukać nowych pomysłów lub streszczać badania.

Stworzenie tej technologii było możliwe dzięki zastosowaniu dużych modeli językowych (LLM) wykorzystujących NLP, a także innych elementów AI, takich jak uczenie maszynowe czy uczenie głębokie.

Dane syntetyczne i ich różne zastosowania

W modelach NLP często wykorzystuje się syntetycznie generowany tekst. Chcesz dowiedzieć się więcej o tym, czym są dane syntetyczne, dlaczego są tak cenne i jak je dziś wykorzystujemy? Obejrzyj film, w którym Brett Wujek, szef działu rozwoju strategii produktowych technologii AI nowej generacji w SAS, wyjaśnia, dlaczego dane syntetyczne będą w przyszłości tak ważne.

Przeczytaj artykuł Read about synthetic data, including how it works and how it relates to NLP

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

NLP w dzisiejszym świecie

Kobieta korzystająca z laptopa przy biurku w domowym biurze

Jakość danych a NLP i duże modele językowe

W modelach tekstowych takich jak LLM więcej danych niekoniecznie znaczy lepiej. Dlaczego? Ze względu na możliwy szum, powielanie i niejasności. W LLM jakość danych wpływa bezpośrednio na generowane wyniki. Dowiedz się, jak mogą tu pomóc techniki NLP oparte na regułach semantycznych.

Przeczytaj artykuł na blogu Read the first blog post in a series on LLMs and NLP

Mężczyzna trzymający smartfon, siedzący przy biurku

Przetwarzanie języka naturalnego zmienia sposób, w jaki instytucje publiczne odpowiadają na zapytania

Konieczność udzielania trafnych odpowiedzi na tysiące zapytań od obywateli sprawia, że urzędy muszą dokonywać nużącego i czasochłonnego sortowania zapytań. Dzięki NLP, analizie tekstu i generatywnej AI można wykonywać to zadanie efektywnie i poprawnie, zachowując jednocześnie kluczową rolę ekspertów w całym procesie.

Więcej informacji można znaleźć we wpisie na blogu Read a blog post about uses of NLP, GenAI and text analytics in the public sector

Mężczyzna siedzący w biurze i patrzący w skupieniu na laptopa

Dowiedz się więcej o chatbotach i ich współpracy z analityką i AI

Chatbot to forma konwersacyjnej sztucznej inteligencji, której zadaniem jest upraszczanie interakcji ludzi z komputerami. Zaawansowane chatboty uczą się i zdobywają informacje, aby dostosowywać się do preferencji użytkowników i udzielać im spersonalizowanych odpowiedzi i porad – można powiedzieć, że pełnią rolę cyfrowych asystentów AI.

Przeczytaj artykuł na ten temat Learn more about how chatbots work in this explainer article

Mężczyzna w słuchawkach korzystający z laptopa

Dzięki NLP usłyszysz każdy głos

Sprawdź, jak maszyny uczą się rozumieć ludzki język i interpretować jego niuanse, w jaki sposób AI, przetwarzanie języka naturalnego i ludzka wiedza łączą siły, aby pomagać ludziom i maszynom porozumiewać się ze sobą i szukać sensu w danych, oraz jakie zastosowania NLP znajduje w różnych branżach.

Pobierz raport Download an e-book to learn more about natural language processing

Dlaczego NLP jest ważne?

Duże ilości danych tekstowych

Przetwarzanie języka naturalnego pomaga komputerom porozumiewać się z ludźmi w ich własnym języku i pozwala realizować inne zadania językowe na większą skalę. Dzięki NLP komputery mogą na przykład czytać tekst, słyszeć mowę, interpretować treści, rozpoznawać wydźwięk i określać, które elementy są istotne.

Dzisiejsze maszyny potrafią analizować większe ilości danych językowych niż ludzie, a w dodatku robią to w sposób spójny, nie męcząc się przy tym. Biorąc pod uwagę, jak ogromne ilości nieustrukturyzowanych danych – od dokumentacji medycznej po treści społecznościowe – generowane są każdego dnia, bez automatyzacji pełna i efektywna analiza tekstu i mowy byłaby niemożliwa.

Strukturyzowanie wysoce nieustrukturyzowanych danych

Ludzki język jest niezwykle złożony i różnorodny. Wyrażamy się na nieskończenie wiele sposobów, zarówno ustnie, jak i pisemnie. Na świecie istnieją setki języków i dialektów, a każdy język cechuje się niepowtarzalnym zbiorem zasad gramatycznych i składniowych, mnogością terminów i własnym slangiem. Pisząc, często popełniamy błędy ortograficzne, skracamy słowa lub pomijamy interpunkcję. Mówiąc, posługujemy się regionalnym akcentem, mamroczemy, jąkamy się i zapożyczamy słowa z innych języków.

Podczas gdy uczenie nadzorowane i nienadzorowane, a w szczególności uczenie głębokie, są w dzisiejszych czasach szeroko stosowane na potrzeby modelowania ludzkiego języka, ważne są również takie obszary jak zrozumienie kwestii syntaktycznych i semantycznych oraz wiedza z danej dziedziny – obecnie elementy te nie są raczej uwzględniane w stosowanych podejściach do uczenia maszynowego. NLP jest ważne, ponieważ pomaga wyeliminować dwuznaczność typową dla języka oraz nadaje danym przydatną strukturę liczbową, wykorzystywaną do szeregu zastosowań niższego szczebla, takich jak rozpoznawanie czy analiza tekstu.

Kia wykorzystuje AI i zaawansowane technologie analityczne, aby poznawać opinie klientów

Kia Motors America regularnie gromadzi opinie klientów pochodzące z ankiet wypełnianych przez właścicieli aut – to pozwala firmie dowiadywać się o ewentualnych problemach dotyczących jakości oraz doskonalić oferowane produkty. Zrozumienie i klasyfikacja odpowiedzi zawartych w otrzymanych ankietach to jednak trudne zadania. Dzięki dostarczanym przez SAS narzędziom do przetwarzania języka naturalnego KIA może lepiej zrozumieć, co klienci chcą przekazać. Model NLP automatycznie kategoryzuje i wyodrębnia z każdej odpowiedzi typ uwagi, dzięki czemu wszelkie problemy związane z jakością można wyeliminować na etapie projektowania i produkcji istniejących i przyszłych pojazdów.

Przeczytaj opis

Kia Optima jedzie po drodze

Jak działa NLP?

Rozkładanie języka na czynniki pierwsze

Przetwarzanie języka naturalnego obejmuje wiele różnych technik interpretowania ludzkiego języka, począwszy od metod statystycznych i uczenia maszynowego, a skończywszy na podejściu opartym na regułach i wykorzystującym algorytmy. Ponieważ dane tekstowe i głosowe potrafią ogromnie się różnić, podobnie jak ich praktyczne zastosowania, ważne jest, by stosować szeroki wachlarz podejść.

Podstawowe zadania wykorzystujące technologię NLP obejmują tokenizację i analizę składniową, lematyzację lub analizę fleksyjną, oznaczanie części mowy, wykrywanie języka i rozpoznawanie związków semantycznych. Pamiętasz szkołę podstawową i tworzenie wykresów zdań? W takim razie wiesz, o czym mowa.

Mówiąc ogólnie, zadania NLP polegają na rozbijaniu języka na krótsze, bardziej podstawowe elementy, podejmowaniu prób zrozumienia zależności pomiędzy poszczególnymi częściami składowymi oraz badaniu sposobu, w jaki łączą się one ze sobą, tworząc sens.

Zadania, o których mowa, często wykorzystuje się w ramach funkcji NLP wyższego szczebla. Są to:

Kategoryzacja treści pozwala uzyskać streszczenie dokumentu na podstawie jego warstwy językowej, w tym wyszukiwanie i indeksowanie, alarmy dotyczące treści oraz wykrywanie powieleń.
Klasyfikacja na podstawie dużych modeli językowych (LLM), zwłaszcza z wykorzystaniem modelu BERT, umożliwia rozpoznanie kontekstu i znaczenia słów zawartych w tekście w celu osiągnięcia dokładności przewyższającej tę, z którą mamy do czynienia w przypadku modeli tradycyjnych.
Analiza korpusowa służy zrozumieniu struktury korpusu i dokumentu poprzez wykorzystanie statystyki wartości wyjściowych w odniesieniu do zadań takich jak efektywne próbkowanie, przygotowywanie danych jako danych wejściowych dla dalszych modeli i opracowywanie strategii w zakresie podejścia do modelowania.
Wydobywanie kontekstowe polega na automatycznym pozyskiwaniu ustrukturyzowanych informacji ze źródeł tekstowych.
Analiza wydźwięku polega na rozpoznawaniu nastroju lub subiektywnych opinii w obrębie fragmentu (bądź dużych ilości) tekstu, w tym określaniu przeciętnego nastawienia i wyszukiwaniu opinii.
Zamiana mowy na tekst i tekstu na mowę polega na przekształcaniu poleceń głosowych w tekst pisany i na odwrót.
Podsumowywanie dokumentów to automatyczne generowanie streszczeń dużych fragmentów tekstu i wykrywanie określonych języków w wielojęzycznych korpusach (dokumentach).
Tłumaczenie maszynowe to automatyczne tłumaczenie tekstu lub mowy z jednego języka na drugi.

We wszystkich powyższych przypadkach celem nadrzędnym jest poddanie językowych danych wejściowych obróbce lingwistycznej i działaniu algorytmów w celu przekształcenia lub wzbogacenia tekstów w taki sposób, by stanowiły większą wartość.

Metody i zastosowania przetwarzania języka naturalnego

Jak komputery rozumieją dane tekstowe

Przetwarzanie języka naturalnego porządkuje nieustrukturyzowane dane dzięki analizie tekstu polegającej na liczeniu, grupowaniu i kategoryzowaniu słów w celu nadania struktury dużym ilościom treści i wydobycia ich znaczenia. Technologia ta służy poznaniu treści tekstu i wygenerowaniu nowych zmiennych na podstawie surowego tekstu z zamiarem ich wizualizacji, przefiltrowania lub użycia jako danych wejściowych zasilających modele predykcyjne lub inne metody statystyczne.

NLP i GenAI są wykorzystywane łącznie do wielu zastosowań, takich jak:

Zbieranie materiałów dowodowych do celów dochodzeniowych. Rozpoznawanie wzorców i odnajdywanie wskazówek w e-mailach i pisemnych raportach na potrzeby wsparcia w zakresie wykrywania i wyjaśniania przestępstw.
Specjalistyczna wiedza z danej dziedziny. Podział treści na odpowiednie tematy w celu późniejszego podjęcia działań i rozpoznania trendów.
Tworzenie treści. Generowanie nowych treści na konkretne tematy i wyjaśnianie głównych założeń.

Istnieje wiele popularnych i praktycznych zastosowań NLP w naszym codziennym życiu. I nie mamy tu na myśli jedynie pracy z asystentami, lecz także inne przykłady:

Czy kiedykolwiek zdarzyło Ci się użyć chatbota, aby rozwiązać problem związany z obsługą klienta? Taką opcję zawdzięczasz narzędziom NLP umożliwiającym wyszukiwanie, modelowanie tematyczne, generowanie tekstu, wyodrębnianie encji i kategoryzację treści.
Zwracasz czasem uwagę na e-maile znajdujące się w Twoim folderze ze spamem i zauważasz, że ich tematy są do siebie podobne. Tak działa bayesowski filtr spamu – statystyczna technika NLP, która porównuje treść niechcianych wiadomości z treścią tych chcianych i na tej podstawie rozpoznaje spam.
Zdarzyło Ci się nie odebrać telefonu, a potem przeczytać umieszczoną w Twojej skrzynce odbiorczej lub w aplikacji na smartfonie automatyczną transkrypcję wiadomości nagranej na pocztę głosową. To za sprawą jednej z funkcji NLP, a konkretnie zamianie mowy na tekst.

Poddziedzina NLP, jaką jest rozumienie języka naturalnego (NLU), znalazła wiele zastosowań kognitywnych i w obszarze AI. NLU wykracza poza strukturalne rozumienie języka i potrafi interpretować intencje, radzi sobie z wieloznacznością kontekstu i pojedynczych słów, a nawet samodzielnie generuje poprawne wypowiedzi w ludzkim języku. Algorytmy NLU mierzą się z niezwykle złożonym problemem interpretacji semantycznej, tzn. muszą zrozumieć zamierzone znaczenie języka mówionego lub pisanego ze wszystkimi jego subtelnościami, kontekstowością i sugestiami, które dla nas, ludzi, nie stanowią szczególnego wyzwania.

Rozwój NLP w kierunku NLU oznacza szereg ważnych konsekwencji zarówno dla firm, jak i dla konsumentów. Wyobraź sobie, jaką moc miałby algorytm umiejący zrozumieć znaczenie i niuanse ludzkiego języka w wielu różnych kontekstach, od medycznego przez prawny po edukacyjny. W obliczu gwałtownego wzrostu ilości nieustrukturyzowanych informacji, z jakimi mamy do czynienia, bez wątpienia zyskujemy dzięki wsparciu komputerów, które wytrwale starają się nam pomóc odnaleźć w tym wszystkim sens.

SAS^® Visual Text Analytics

Jak znaleźć odpowiedzi w dużych ilościach danych tekstowych? Łącząc uczenie maszynowe z przetwarzaniem języka naturalnego i analizą tekstu. Dowiedz się, jak analizować nieustrukturyzowane dane w celu rozpoznania problemów, dokonania oceny wydźwięku, wykrycia pojawiających się trendów i dostrzeżenia ukrytych szans.

Dowiedz się więcej

Zrzut ekranu przedstawiający środowisko SAS Visual Text Analytics

Polecane materiały