Processamento de linguagem natural (PLN)

O que é e porque é importante?

O processamento da linguagem natural é um ramo da inteligência artificial que ajuda os computadores a compreender, interpretar e manipular a linguagem humana. O PLN recorre a várias disciplinas, incluindo a informática e linguística computacional, para preencher as lacunas entre a comunicação humana e a compreensão dos computadores.

Evolução do processamento de linguagem natural

Embora o processamento de linguagem natural não seja uma ciência nova, a tecnologia que o acompanha avança rapidamente, por conta do interesse, cada vez maior, nas comunicações entre humanos e máquinas. Ademais, a disponibilidade de big data, computadores poderosos e algoritmos melhorados também é importante.

Uma pessoa pode eventualmente falar e escrever em inglês, espanhol ou chinês. Porém, a língua materna de um computador – conhecida por código das máquinas ou linguagem das máquinas – é bastante incompreensível pela grande maioria das pessoas. Nos níveis mais elementares do seu dispositivo a comunicação ocorre não só por palavras, mas também através de milhões de "0s" e "1s" que produzem as ações lógicas.

Aliás, os programadores usaram cartões perfurados para comunicar com os primeiros computadores há mais de 70 anos. Este processo manual e árduo foi compreendido por um grupo relativamente seleto de pessoas. Hoje em dia pode dizer "Alexa, gosto desta música," e o dispositivo que esteja a tocar música baixará o volume de som e responderá "Ok". Classificação guardada," numa voz humanoide. Depois adapta o algoritmo para que essa música seja tocada – e outras que lhe sejam semelhantes – para a próxima vez que queira ouvir aquela playlist.

Vamos analisar de perto esta interação. O dispositivo é ativado no momento em que ouve as suas palavras e compreende o intuito da frase dita. Em seguida, realiza uma ação e dá feedback, numa frase bem elaborada na respetiva língua, tudo num espaço de cerca de 5 segundos. Realizar esta interação tornou-se possível graças ao PLN e a outros elementos da IA, tais como, aprendizagem automática e deep learning.

Faça com que todas as vozes sejam ouvidas com o processamento de linguagem natural

Descubra como é que as máquinas podem aprender a compreender e interpretar as nuances da linguagem humana; como é que a IA, o processamento de linguagem natural e o conhecimento humano trabalham em conjunto para ajudar pessoas e máquinas a comunicar e a encontrar significado nos dados; e ainda como o PLN está a ser utilizado nas várias indústrias.

Obtenha o e-book

A Kia utiliza IA e análises avançadas para decifrar o significado no feedback dos clientes

A Kia Motors América recolhe regularmente o feedback de clientes por meio de questionários. Dessa forma, pode descobrir problemas relacionados com a qualidade e assim melhorar os produtos. Contudo, compreender e categorizar as respostas dos clientes pode ser complexo. Com o processamento de linguagem natural da SAS, a Kia consegue retirar conclusões do feedback. O modelo do PLN categoriza e extrai automaticamente o tipo de queixa, em cada resposta. Assim, é possível abordar os problemas de qualidade no processo de fabrico. Tanto para os veículos já existentes como para os que serão criados no futuro.

Leia a história

Porque é que o PLN é importante?

Grandes volumes de dados de texto

O processamento da linguagem natural ajuda os computadores a comunicar com as pessoas na sua própria língua e também noutras tarefas relacionadas com linguagem. Por exemplo, o PLN faz com que os computadores possam ler textos, ouvir discursos, fazer interpretações, quantificar o sentimento e determinar quais são as partes importantes.

As máquinas atuais têm capacidade para analisar mais dados baseados na linguagem do que os humanos. Tudo isto sem sentirem fadiga, e com consistência e de maneira imparcial. Considerando a impressionante quantidade de dados não estruturados que todos os dias é gerada, desde registos médicos a dados das redes sociais, a automatização vai ser crucial para uma eficiente analise de dados, de textos e de discursos.

Estruturar uma elevada quantidade de dados não estruturados

A linguagem humana é surpreendentemente complexa e diversa. Conseguimos expressar-nos de inúmeras formas, tanto a nível verbal como através da escrita. Não só existem centenas de línguas e dialetos, como dentro de cada idioma existem regras gramaticais e sintaxes específicas, termos e gírias absolutamente únicos. Quando escrevemos, é comum cometermos erros ortográficos, abreviar palavras, ou omitir pontuações. Já quando falamos, notam-se os nossos sotaques, murmuramos, gaguejamos e usamos palavras de empréstimo (de outras línguas).

A aprendizagem supervisionada e não supervisionada, mais especificamente o deep learning, são hoje em dia amplamente utilizadas na modelação da linguagem humana. Todavia, convém lembrar a necessidade da compreensão sintática e semântica, bem como o conhecimento da experiência do setor, que não estão necessariamente associados a estas abordagens da aprendizagem automática. O PLN é importante pois ajuda a resolver ambiguidades na linguagem e proporciona uma estrutura numérica útil aos dados, para que sejam utilizados em várias aplicações downstream, tais como, o reconhecimento do discurso , ou análise de texto.

O PLN no mundo atual

Aprenda como o processamento de linguagem natural é utilizado em diferentes indústrias

Curiosidades do ChatGPT: Aprenda mais sobre a IA na educação

Vá para além do alarido e burburinho. Compreenda o que o ChatGPT faz e quais os benefícios que se podem ser úteis na educação. Mary Osborne, professora e especialista em PLN da SAS, elabora mais sobre esta temática, através das suas experiências com os limites do ChatGPT em sala de aula – sem esquecer alguns dos seus méritos.

Leia a publicação no blog

Processamento de linguagem natural para a eficiência dos governos

As agências governamentais são bombardeadas com dados baseados em textos, tanto em papel como em formato digital. Ao fazer uso de tecnologias como o PLN, text analytics e aprendizagem automática, as agências podem reduzir a morosidade dos processos manuais. Tudo isto ao mesmo tempo que se responde às exigências dos cidadãos em matéria de transparência e capacidade de resposta. Resolvendo assim os desafios relativos aos recursos humanos e permitindo obter novas recomendações personalizadas a partir dos dados.

Saiba mais

O que é que as text analytics podem fazer pela sua organização?

A text analytics é um tipo de processamento de linguagem natural que transforma o texto em dados para análise. Aprenda como é que organizações bancárias, cuidados de saúde e ciências da vida, indústria transformadora e governo estão a utilizar text analytics para melhorar as experiências dos clientes, reduzir o número de fraudes e melhorar a sociedade no geral.

Aceda ao artigo

Como funciona o PLN?

Os elementos fundamentais da linguagem

O processamento de linguagem natural engloba várias técnicas diferentes para que se possa interpretar a linguagem humana. Estas incluem métodos estatísticos e aprendizagem automática, e abordagens baseadas em regras e algoritmos. Precisamos de uma vasta matriz de abordagens pois os dados baseados em texto e voz variam muito, tal como as suas aplicações práticas.

As tarefas básicas do PLN incluem a atomização e análise, lematização/stemming, etiquetagem de função gramatical, deteção de idioma e identificação de relações semânticas. Se já alguma vez esquematizou frases na escola primária, certamente já anteriormente fez estas tarefas manualmente.

Em termos gerais, as tarefas do PLN dividem a linguagem em partes mais curtas e elementares, tentam compreender as relações entre os elementos da frase e exploram a forma como estes funcionam em conjunto para lhes dar significado.

Estas tarefas subjacentes são normalmente utilizadas num nível superior de capacidades PLN, sendo estas:

Categorização do conteúdo. Um resumo dos documentos tendo por base a linguística, onde está incluído a pesquisa e indexação, alertas de conteúdo e deteção de duplicados.
Classificação baseada em Grandes Modelos de Linguagem (LLM). A classificação baseada no BERT é utilizada para captar o contexto e significado das palavras num texto, para melhorar a precisão em relação aos modelos tradicionais.
Análise de Corpus. Compreender o corpus e a estrutura de documentos através de resultados estatísticos, para tarefas como desenvolver-se eficientemente uma amostragem, preparação dos dados como input para modelos futuros, e planear abordagens de modelização.
Extração contextual. Retira automaticamente informação estruturada de fontes textuais.
Análise de sentimentos. Identificar estados de espírito ou opiniões subjetivas em grandes quantidades de texto, incluindo o reconhecimento do sentimento médio transmitido e de opiniões.
Voz falada para texto e texto para voz falada. Transformação de ordens faladas em texto escrito, e vice-versa.
Síntese de documentos. Gerar sinopses de forma automática, em grandes volumes de texto e detetar os idiomas representados em corpus multilingues (documentos).
Tradução computorizada.É a tradução automática de textos ou discursos de uma língua para a outra.

Em todos estes casos, o objetivo primordial é realizar uma abordagem crua à contribuição da língua, e usar tanto a linguística como os seus algoritmos para transformar, ou, enriquecer o texto de uma forma que aumente o seu valor.

SAS^® Visual Text Analytics

Como encontrar respostas em grandes volumes de dados textuais? Basta combinar aprendizagem automática com o processamento de linguagem natural e text analytics. Descubra como é que os seus dados não estruturados podem ser analisados de forma a identificar problemas, avaliar sentimentos, detetar tendências emergentes e encontrar oportunidades escondidas.

Métodos e aplicações do PLN

Como é que os computadores retiram conclusões dos dados textuais.

Text analytics e PLN

O processamento de linguagem natural anda de mãos dadas com a text analytics, que conta, agrupa e categoriza palavras para extrair estrutura e significado de grandes volumes de conteúdo. A text analytics é utilizada para explorar o conteúdo textual e derivar novas variáveis de textos "crus". Os quais podem ser visualizados, filtrados, ou utilizados como contributos para modelos de previsão ou outros métodos estatísticos.

O PLN e text analytics são utilizados em conjunto para várias aplicações, entre as quais:

Descobertas através de investigação. Identifica padrões e pistas em e-mails ou relatórios escritos para ajudar a detetar e resolver crimes.
Conhecimentos especializados na matéria. Classifica conteúdo em tópicos importantes para que se possa realizar ações e descobrir tendências.
Análise de redes sociais. Rastreia a consciencialização e sentimento relacionado com tópicos específicos e identifica influencers chave.

Exemplos de PLN no dia-a-dia

Existem várias aplicações práticas e comuns de PLN no nosso quotidiano. Para além das conversas com assistentes virtuais, como o Alexa ou o Siri, eis alguns exemplos:

Já alguma vez olhou para os e-mails no spam e notou similaridades nos assuntos das mensagens? Esse é o resultado do filtro de spam Bayesiano em ação, uma técnica estatística de PLN que compara as palavras no spam às dos e-mails válidos, desta forma é possível identificar correio indesejado.
Já alguma vez perdeu uma chamada telefónica e leu a transcrição automática da mensagem de voz na sua caixa de e-mail, ou na app do smartphone? Trata-se de conversão de voz falada para texto, uma capacidade do PLN.
Já navegou num website que possui a sua própria barra de pesquisa integrada ou que seleciona tópicos sugeridos, entidades ou categorias de identificação? Então já usou métodos de PLN para fazer pesquisas, modelagem de tópicos, extração de entidades e categorização de conteúdo.

Um sub-campo do PLN é a compreensão de linguagem natural (NLU). O qual tem vindo a ganhar popularidade devido ao seu potencial em aplicações de AI e cognitivas. A NLU vai além da compreensão estrutural da linguagem e interpreta o intuito, resolve a ambiguidade do contexto e das palavras. Além disso, até gera por si só uma linguagem humana bem redigida. Os algoritmos NLU têm de resolver os problemas extremamente complexos da interpretação semântica – ou seja, compreender a intenção por trás daquilo que está a ser dito ou escrito. Isto tendo em conta todas as subtilezas da linguagem, contexto e inferências que nós humanos conseguimos compreender.

A evolução do PLN para a NLU acarreta várias implicações importantes tanto para as empresas como para os consumidores. Imagine o poder de um algoritmo que consegue compreender o significado das nuances da linguagem humana em vários contextos, desde da área da medicina, a leis e ao funcionamento das salas de aula. À medida que o volume de informações estruturadas continua a crescer, iremos beneficiar das capacidades dos computadores, que nunca se cansam, para nos ajudar a retirar conclusões.