This page exists on your local site.

Go there now
Stay here
X
Mężczyzna piszący na laptopie

Przetwarzanie języka naturalnego (NLP)

Teoria i praktyka

Przetwarzanie języka naturalnego (NLP) to gałąź sztucznej inteligencji, która pomaga komputerom rozumieć ludzki język, interpretować go oraz nim operować. NLP czerpie z wielu dyscyplin, w tym z informatyki i lingwistyki obliczeniowej, aby z ich pomocą wypełnić lukę między komunikacją międzyludzką a interpretacją języka przez komputer.

Rozwój przetwarzania języka naturalnego

Przetwarzanie języka naturalnego nie jest co prawda nową dziedziną nauki, ale rozwój tej technologii nabrał szybkiego tempa ze względu na wzrost zainteresowania kwestią komunikacji między człowiekiem a maszyną oraz dzięki dostępności danych big data, potężnym mocom obliczeniowym i zaawansowanym algorytmom.

Człowiek może posługiwać się różnymi językami – angielskim, hiszpańskim czy chińskim – natomiast rodzimy język komputerów, zwany kodem lub językiem maszynowym, jest dla większości ludzi w dużej mierze niezrozumiały. Na najgłębszych poziomach operowania każdego z urządzeń komunikacja odbywa się nie przy użyciu słów, lecz milionów zer i jedynek, które tworzą logiczne ciągi działań.

Kilkadziesiąt lat temu programiści komunikowali się z pierwszymi komputerami przy użyciu kart dziurkowanych – ten żmudny, ręczny proces rozumiało stosunkowo niewielu ludzi. Dziś możemy korzystać z modeli generatywnej sztucznej inteligencji (GenAI), takich jak ChatGPT, aby tworzyć kody, szukać nowych pomysłów lub streszczać badania.

Stworzenie tej technologii było możliwe dzięki zastosowaniu dużych modeli językowych (LLM) wykorzystujących NLP, a także innych elementów AI, takich jak uczenie maszynowe czy uczenie głębokie.

Dane syntetyczne i ich różne zastosowania

W modelach NLP często wykorzystuje się syntetycznie generowany tekst. Chcesz dowiedzieć się więcej o tym, czym są dane syntetyczne, dlaczego są tak cenne i jak je dziś wykorzystujemy? Obejrzyj film, w którym Brett Wujek, szef działu rozwoju strategii produktowych technologii AI nowej generacji w SAS, wyjaśnia, dlaczego dane syntetyczne będą w przyszłości tak ważne.

Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
  • Chapters
  • descriptions off, selected
  • subtitles off, selected

    NLP w dzisiejszym świecie

    Kobieta korzystająca z laptopa przy biurku w domowym biurze

    Jakość danych a NLP i duże modele językowe

    W modelach tekstowych takich jak LLM więcej danych niekoniecznie znaczy lepiej. Dlaczego? Ze względu na możliwy szum, powielanie i niejasności. W LLM jakość danych wpływa bezpośrednio na generowane wyniki. Dowiedz się, jak mogą tu pomóc techniki NLP oparte na regułach semantycznych.

    Mężczyzna trzymający smartfon, siedzący przy biurku

    Przetwarzanie języka naturalnego zmienia sposób, w jaki instytucje publiczne odpowiadają na zapytania

    Konieczność udzielania trafnych odpowiedzi na tysiące zapytań od obywateli sprawia, że urzędy muszą dokonywać nużącego i czasochłonnego sortowania zapytań. Dzięki NLP, analizie tekstu i generatywnej AI można wykonywać to zadanie efektywnie i poprawnie, zachowując jednocześnie kluczową rolę ekspertów w całym procesie.

    Mężczyzna siedzący w biurze i patrzący w skupieniu na laptopa

    Dowiedz się więcej o chatbotach i ich współpracy z analityką i AI

    Chatbot to forma konwersacyjnej sztucznej inteligencji, której zadaniem jest upraszczanie interakcji ludzi z komputerami. Zaawansowane chatboty uczą się i zdobywają informacje, aby dostosowywać się do preferencji użytkowników i udzielać im spersonalizowanych odpowiedzi i porad – można powiedzieć, że pełnią rolę cyfrowych asystentów AI.

    Mężczyzna w słuchawkach korzystający z laptopa

    Dzięki NLP usłyszysz każdy głos

    Sprawdź, jak maszyny uczą się rozumieć ludzki język i interpretować jego niuanse, w jaki sposób AI, przetwarzanie języka naturalnego i ludzka wiedza łączą siły, aby pomagać ludziom i maszynom porozumiewać się ze sobą i szukać sensu w danych, oraz jakie zastosowania NLP znajduje w różnych branżach.

    Dlaczego NLP jest ważne?

    Duże ilości danych tekstowych

    Przetwarzanie języka naturalnego pomaga komputerom porozumiewać się z ludźmi w ich własnym języku i pozwala realizować inne zadania językowe na większą skalę. Dzięki NLP komputery mogą na przykład czytać tekst, słyszeć mowę, interpretować treści, rozpoznawać wydźwięk i określać, które elementy są istotne.

    Dzisiejsze maszyny potrafią analizować większe ilości danych językowych niż ludzie, a w dodatku robią to w sposób spójny, nie męcząc się przy tym. Biorąc pod uwagę, jak ogromne ilości nieustrukturyzowanych danych – od dokumentacji medycznej po treści społecznościowe – generowane są każdego dnia, bez automatyzacji pełna i efektywna analiza tekstu i mowy byłaby niemożliwa.

    Strukturyzowanie wysoce nieustrukturyzowanych danych

    Ludzki język jest niezwykle złożony i różnorodny. Wyrażamy się na nieskończenie wiele sposobów, zarówno ustnie, jak i pisemnie. Na świecie istnieją setki języków i dialektów, a każdy język cechuje się niepowtarzalnym zbiorem zasad gramatycznych i składniowych, mnogością terminów i własnym slangiem. Pisząc, często popełniamy błędy ortograficzne, skracamy słowa lub pomijamy interpunkcję. Mówiąc, posługujemy się regionalnym akcentem, mamroczemy, jąkamy się i zapożyczamy słowa z innych języków.

    Podczas gdy uczenie nadzorowane i nienadzorowane, a w szczególności uczenie głębokie, są w dzisiejszych czasach szeroko stosowane na potrzeby modelowania ludzkiego języka, ważne są również takie obszary jak zrozumienie kwestii syntaktycznych i semantycznych oraz wiedza z danej dziedziny – obecnie elementy te nie są raczej uwzględniane w stosowanych podejściach do uczenia maszynowego. NLP jest ważne, ponieważ pomaga wyeliminować dwuznaczność typową dla języka oraz nadaje danym przydatną strukturę liczbową, wykorzystywaną do szeregu zastosowań niższego szczebla, takich jak rozpoznawanie czy analiza tekstu.

    Kia wykorzystuje AI i zaawansowane technologie analityczne, aby poznawać opinie klientów

    Kia Motors America regularnie gromadzi opinie klientów pochodzące z ankiet wypełnianych przez właścicieli aut – to pozwala firmie dowiadywać się o ewentualnych problemach dotyczących jakości oraz doskonalić oferowane produkty. Zrozumienie i klasyfikacja odpowiedzi zawartych w otrzymanych ankietach to jednak trudne zadania. Dzięki dostarczanym przez SAS narzędziom do przetwarzania języka naturalnego KIA może lepiej zrozumieć, co klienci chcą przekazać. Model NLP automatycznie kategoryzuje i wyodrębnia z każdej odpowiedzi typ uwagi, dzięki czemu wszelkie problemy związane z jakością można wyeliminować na etapie projektowania i produkcji istniejących i przyszłych pojazdów.

    Kia Optima jedzie po drodze

    Jak działa NLP?

    Rozkładanie języka na czynniki pierwsze

    Przetwarzanie języka naturalnego obejmuje wiele różnych technik interpretowania ludzkiego języka, począwszy od metod statystycznych i uczenia maszynowego, a skończywszy na podejściu opartym na regułach i wykorzystującym algorytmy. Ponieważ dane tekstowe i głosowe potrafią ogromnie się różnić, podobnie jak ich praktyczne zastosowania, ważne jest, by stosować szeroki wachlarz podejść.

    Podstawowe zadania wykorzystujące technologię NLP obejmują tokenizację i analizę składniową, lematyzację lub analizę fleksyjną, oznaczanie części mowy, wykrywanie języka i rozpoznawanie związków semantycznych. Pamiętasz szkołę podstawową i tworzenie wykresów zdań? W takim razie wiesz, o czym mowa.

    Mówiąc ogólnie, zadania NLP polegają na rozbijaniu języka na krótsze, bardziej podstawowe elementy, podejmowaniu prób zrozumienia zależności pomiędzy poszczególnymi częściami składowymi oraz badaniu sposobu, w jaki łączą się one ze sobą, tworząc sens.

    Zadania, o których mowa, często wykorzystuje się w ramach funkcji NLP wyższego szczebla. Są to:

    • Kategoryzacja treści pozwala uzyskać streszczenie dokumentu na podstawie jego warstwy językowej, w tym wyszukiwanie i indeksowanie, alarmy dotyczące treści oraz wykrywanie powieleń.
    • Klasyfikacja na podstawie dużych modeli językowych (LLM), zwłaszcza z wykorzystaniem modelu BERT, umożliwia rozpoznanie kontekstu i znaczenia słów zawartych w tekście w celu osiągnięcia dokładności przewyższającej tę, z którą mamy do czynienia w przypadku modeli tradycyjnych.
    • Analiza korpusowa służy zrozumieniu struktury korpusu i dokumentu poprzez wykorzystanie statystyki wartości wyjściowych w odniesieniu do zadań takich jak efektywne próbkowanie, przygotowywanie danych jako danych wejściowych dla dalszych modeli i opracowywanie strategii w zakresie podejścia do modelowania.
    • Wydobywanie kontekstowe polega na automatycznym pozyskiwaniu ustrukturyzowanych informacji ze źródeł tekstowych.
    • Analiza wydźwięku polega na rozpoznawaniu nastroju lub subiektywnych opinii w obrębie fragmentu (bądź dużych ilości) tekstu, w tym określaniu przeciętnego nastawienia i wyszukiwaniu opinii.
    • Zamiana mowy na tekst i tekstu na mowę polega na przekształcaniu poleceń głosowych w tekst pisany i na odwrót.
    • Podsumowywanie dokumentów to automatyczne generowanie streszczeń dużych fragmentów tekstu i wykrywanie określonych języków w wielojęzycznych korpusach (dokumentach).
    • Tłumaczenie maszynowe to automatyczne tłumaczenie tekstu lub mowy z jednego języka na drugi.

    We wszystkich powyższych przypadkach celem nadrzędnym jest poddanie językowych danych wejściowych obróbce lingwistycznej i działaniu algorytmów w celu przekształcenia lub wzbogacenia tekstów w taki sposób, by stanowiły większą wartość.

    Metody i zastosowania przetwarzania języka naturalnego

    Jak komputery rozumieją dane tekstowe

    SAS® Visual Text Analytics

    Jak znaleźć odpowiedzi w dużych ilościach danych tekstowych? Łącząc uczenie maszynowe z przetwarzaniem języka naturalnego i analizą tekstu. Dowiedz się, jak analizować nieustrukturyzowane dane w celu rozpoznania problemów, dokonania oceny wydźwięku, wykrycia pojawiających się trendów i dostrzeżenia ukrytych szans.

    Zrzut ekranu przedstawiający środowisko SAS Visual Text Analytics