Machine Learning

O que é e porque é importante

Machine learning é um método de análise de dados que automatiza a construção de modelos analíticos. É um ramo da inteligência artificial baseado na ideia de que os sistemas podem aprender através dos dados, identificar padrões e tomar decisões com uma reduzida intervenção humana.

Evolução de machine learning

Com os novos avanços tecnológicos, a área de machine learning não é, nos dias de hoje, como era no passado. Esta área surgiu a partir do reconhecimento de padrões e da teoria de que os computadores podem aprender a desempenhar tarefas concretas, sem terem que ser programados; alguns investigadores interessados em inteligência artificial queriam perceber se os computadores podiam aprender a partir de dados. A interatividade que existe na área de machine learning é importante pois, como os modelos são expostos a novos dados, são capazes de se adaptar de forma independente. Aprendem com cálculos anteriores para poderem produzir decisões e resultados fiáveis e repetíveis. É uma ciência que, apesar de não ser nova, ganhou um impulso renovado.

Apesar de muitos algoritmos de machine learning existirem há já muito tempo, a capacidade de aplicar automaticamente cálculos matemáticos complexos a Big Data – repetitivamente e cada vez mais rápido – é um desenvolvimento recente. Estes são alguns exemplos de aplicação de machine learning com os quais pode já estar familiarizado:

  • O muito falado self-driving car da Google? A essência de machine learning.
  • Ofertas de recomendação online tais como as da Amazon e Netflix? Aplicações de Machine learning para a vida quotidiana.
  • Sabe o que os seus clientes estão a dizer da sua marca no Twitter? Machine learning integrado com criação de regras linguísticas.
  • Deteção de fraude? Uma das utilizações mais óbvias e importantes no nosso mundo, nos dias de hoje.

 

Machine Learning e Inteligência Artificial

Se por um lado a inteligência artificial é a ciência alargada de reproduzir as capacidades humanas, machine learning é um subconjunto específico de IA que treina uma máquina para poder aprender. Veja este vídeo para melhor compreender a relação entre IA e machine learning. Verá como estas duas tecnologias funcionam, com exemplos úteis e alguns detalhes engraçados.

Porque é importante o machine learning?

O interesse crescente em machine learning deve-se aos mesmos fatores que tornaram o data mining e a análise Bayesiana os mais populares de todos os tempos. Estamos a falar de aspetos como volumes crescentes e variedade de dados disponíveis, processamento informático que é mais barato e mais poderoso, e armazenamento de dados mais económico.

Tudo isto significa que é possível produzir rápida e automaticamente modelos que podem analisar dados maiores e mais complexos e fornecer resultados mais rápidos e precisos - mesmo a uma escala muito grande. E ao construir modelos precisos, uma organização tem mais hipóteses de identificar oportunidades lucrativas - ou evitar riscos desconhecidos.

 

O que é necessário para criar bons sistemas de machine learning?

  • Capacidade de preparação de dados.
  • Algoritmos – básicos e avançados.
  • Automação e processos interativos.
  • Escalabilidade.
  • Modelação de conjunto.
Machine learning infographic

Sabia que?

  • Em machine learning, a um alvo chamamos rótulo (etiqueta).
  • Em estatística, a um alvo dá-se o nome de variável dependente.
  • Uma variável, em estatística, é designada por funcionalidade (característica) em machine learning.
  • A uma transformação em estatística, dá-se o nome de criação de funcionalidade/função (característica) em machine learning.

Machine Learning no mundo de hoje

Ao usar algoritmos para construir modelos que desvendam conexões, as organizações podem tomar melhores decisões sem intervenção humana. Saiba mais sobre as tecnologias que estão a moldar o mundo em que vivemos atualmente.

White Paper

Oportunidades e desafios para machine learning nos negócios

Este relatório O’Reilly disponibiliza um guia prático para implementar aplicações de machine learning na sua organização.

Ler o relatório

Amplie as suas competências

Beneficie de ensino especializado e acesso gratuito ao Software SAS para desenvolver os seus conhecimentos em machine learning. Os cursos incluem: 14 horas de aprendizagem, 90 dias de acesso gratuito ao software na cloud, um formato e-learning flexível e sem necessidade de conhecimentos de programação. 

Cursos de Machine Learning

Qual será o impacto de machine learning na sua organização?

TEste relatório do Harvard Business Review Insight Center debruça-se sobre o tema de como o machine learning irá mudar as empresas e a forma como as gerimos.    

 Fazer download do relatório

Aplicar machine learning à IoT

Machine learning pode ser usada para alcançar níveis mais elevados de eficiência, particularmente quando aplicado à Internet das Coisas. Este artigo aborda este tópico.

Ler o artigo sobre Iot

Analítica Avançada da SAS


Machine learning não é uma tecnologia específica per se; envolve software como a mineração de dados e análise avançada para explorar grandes quantidades de dados e descobrir insights. As soluções SAS® estão imbuidas com algoritmos inovadores que facilmente atingem o objetivo.

Saiba mais sobre soluções analíticas da SAS

Quem está a usar?

A maioria das indústrias que habitualmente trabalham com grandes quantidades de dados, reconheceram o valor da tecnologia de machine learning. Através da recolha de informações destes dados – frequentemente em tempo real – as organizações estão aptas a trabalhar mais eficientemente ou a ganhar vantagem sobre os seus concorrentes.

Serviços financeiros

Os bancos e outros negócios na indústria financeira usam tecnologia de machine learning com dois objetivos chave: identificar informações importantes em dados e prevenir fraude. As informações podem identificar oportunidades de investimento, ou ajudar os investidores a saber quando negociar. A exploração de dados (data mining) pode também identificar clientes com perfis de alto risco, ou usar ciber-vigilância para detectar sinais de alerta de fraude.

Governo

Organismos governamentais tais como segurança pública e serviços públicos têm uma necessidade particular de machine learning, uma vez que têm múltiplas fontes de dados que podem ser exploradas para obtenção de informações. Analisar por exemplo dados de sensores, permite identificar formas de aumentar a eficiência e poupar dinheiro. O machine learning pode ainda ajudar a detectar fraude e minimizar roubos de identidade.

Cuidados de saúde

O machine learning é uma tendência em grande crescimento na indústria de cuidados de saúde, graças ao advento de dispositivos e sensores que podem usar dados para avaliar a saúde de um paciente em tempo real. A tecnologia pode ainda ajudar os profissionais de saúde a analisar dados para identificar tendências ou situações de alerta que podem levar a uma melhoria de diagnósticos e tratamento.  

Retalho

Os sites que recomendam artigos que poderá gostar com base em compras prévias, estão a usar machine learning para analisar o seu historial de compra. Os retalhistas apoiam-se no machine learning para recolher dados, analisá-los e depois usá-los para personalizar a experiência de compra em loja, implementar uma campanha de marketing, otimização de preço, planeamento de abastecimento de merchandise, e para obter informações dos clientes.   

Petróleo e gás

Encontrar novas fontes de energia. Analisar minerais na terra. Prever falhas de sensores de refinaria. Otimizar a distribuição de petróleo para o tornar mais eficiente e económico. O número de casos de uso de machine learning nesta indústria é vasto e ainda está em expansão.

Transportes

Analisar dados para identificar padrões e tendências é chave para a indústria dos transportes, que assenta numa lógica de tornar as rotas mais eficientes e prever potenciais problemas para melhor a rentabilidade. A análise de dados e aspetos de modulação de Machine Learning são ferramentas importantes para empresas de entregas, transportes públicos e outras organizações de transporte.

Quais são os métodos mais populares de aprendizagem automática (de máquina)?

Dois dos mais largamente adotados métodos de Machine Learning são a aprendizagem supervisionada e a aprendizagem não supervisionada – mas há ainda outros métodos de aprendizagem automática. Aqui fica uma noção geral dos mais populares.

Algoritmos de aprendizagem supervisionada são treinados para usar exemplos rotulados, tais como um “input” (uma entrada) onde o “output” (a saída/resultado) é conhecido. Por exemplo, uma peça de equipamento podia ter pontos de dados rotulados (etiquetados) como “F” (falha) ou “R” – “runs”. O algoritmo de aprendizagem recebe um conjunto de “inputs” (entradas) de acordo com os “outputs” (saídas/resultados) correspondentes, e o algoritmo aprende comparando o seu verdadeiro output (resultado) com outputs corretos para encontrar erros. E assim, modifica o modelo em conformidade. Através de métodos como classificação, regressão, predição e estímulo/impulso de gradiente, a aprendizagem supervisionada usa padrões para prever os valores do rótulo/etiqueta em dados adicionais ainda por rotular. A aprendizagem supervisionada é normalmente utilizada em aplicações onde dados históricos prevêem prováveis eventos futuros.. Por exemplo, pode antecipar quando transações de cartão de crédito são provavelmente fraudulentas ou que cliente de seguradora irá provavelmente arquivar uma reivindicação.

A aprendizagem não supervisionada é usada para dados que não têm etiquetas em histórico. O sistema não é informado da "resposta certa". O algoritmo tem de descobrir o que está a ser mostrado. O objetivo é explorar os dados e identificar alguma estrutura. A Aprendizagem não supervisionada funciona bem em dados de transações. Permite, por exemplo, identificar segmentos de clientes com atributos semelhantes que são depois tratados de forma semelhante em campanhas de marketing. Ou pode encontrar os principais atributos que separam segmentos de clientes uns dos outros.As técnicas populares incluem mapas de auto-organização, mapeamento de vizinhança próxima (vizinho mais próximo), aglomeração “k-means” (método de quantização vetorial) e decomposição de valores singulares. Estes algoritmos são também usados para segmentar tópicos de textos, recomendar itens e identificar discrepâncias (valores atípicos) em dados.

A Aprendizagem semi-supervisionada é utilizada para as mesmas áreas que a aprendizagem supervisionada. Mas utiliza quer dados rotulados (etiquetados) como dados não rotulados (não etiquetados) para formação – tipicamente uma pequena quantidade de dados etiquetados com uma grande quantidade de dados não etiquetados (porque estes dados são menos dispendiosos e mais fáceis de adquirir). Este tipo de aprendizagem pode ser usada com métodos como classificação, regressão e predição. A aprendizagem semi-supervisionada é útil quando o custo associado à rotulação é demasiado elevado para permitir um processo de formação totalmente etiquetado. Os primeiros exemplos disto incluem identificar o rosto de uma pessoa numa webcam (câmara de filmar de web/internet).

A aprendizagem de reforço é frequentemente usada para robótica, jogos de vídeo e navegação. Com a aprendizagem de reforço, o algoritmo descobre,por tentativa e erro, que ações geram as melhores recompensas. Este tipo de aprendizagem tem três componentes principais: o agente (o aprendiz ou o decisor), o ambiente/contexto (tudo aquilo com que o agente interage) e as ações (o que o agente pode fazer). O objetivo é permitir que o agente escolha as ações que maximizem as recompensas expectáveis durante um determinado período de tempo. O agente irá alcançar o objetivo muito mais rapidamente seguindo uma boa política /diretiva. Assim, o objetivo da aprendizagem de reforço é o de aprender a melhor política.

Os humanos podem normalmente criar um ou dois bons modelos numa semana;o Machine Learning pode criar milhares de modelos numa semana.

Thomas H. Davenport, líder de pensamento em Análise
(excerto do “The Wall Street Journal”)

Quais são as diferenças entre exploração de dados, aprendizagem automática (de máquina) e aprendizagem profunda?

Apesar de todos estes métodos terem o mesmo objetivo – extrair informações, padrões e relações que podem ser usadas para tomar decisões – têm diferentes abordagens e habilidades.

Exploração de Dados

Exploração de dados pode ser considerado um grande conjunto de diferentes métodos para extrair informações de dados. Poderá envolver métodos de estatística tradicional e Machine Learning. A exploração de dados aplica métodos de diferentes áreas para identificar padrões previamente desconhecidos de dados. Isto pode incluir algoritmos estatísticos, Machine Learning, análise de texto, análise de séries cronológicas e muitas outras áreas de analytics. A exploração de dados também inclui o estudo e a prática de armazenamento de dados e manipulação de dados.

 


Machine Learning

A grande diferença em relação ao Machine Learning é a de que, tal como nos modelos estatísticos, o objetivo é o de compreender a estrutura dos dados – ajustar distribuições teóricas aos dados que são bem compreendidos. Assim, com os modelos estatísticos há uma teoria matematicamente comprovada por detrás do modelo, que requer que os dados cumpram determinados pressupostos também. Aprendizagem de máquina tem-se desenvolvido baseando-se na capacidade de utilizar computadores para sondar a estrutura dos dados, mesmo que não tenhamos uma teoria de como a estrutura se pareça. O teste para um modelo de Machine Learning é um erro de validação em novos dados, não um teste teórico que prova uma hipótese nula. Precisamente porque o Machine Learning frequentemente utiliza uma abordagem interativa para aprender com os dados, a aprendizagem pode ser facilmente automatizada. As transições são efetuadas através dos dados (pelos dados) até se encontrar um padrão robusto.


Aprendizagem profunda

A aprendizagem profunda combina avanços no poder computacional e tipos especiais de redes de internet neurais para aprender padrões complicados em grandes quantidades de dados. As Técnicas de aprendizagem profunda são atualmente a tecnologia de ponta para identificar objetos em imagens e palavras em sons. Os investigadores procuram agora aplicar estes sucessos no reconhecimento de padrões a tarefas mais complexas, tais como tradução automática de línguas, diagnósticos médicos e outros numerosos problemas sociais e empresariais importantes.

Como funciona

Para obter o melhor aproveitamento de Machine Learning, é importante saber como emparelhar os melhores algoritmos com as ferramentas e processos certos. O SAS combina tradição rica e sofisticada em estatística e exploração de dados com novos avanços arquiteturais para assegurar que os seus modelos funcionem o mais rápido possível – mesmo nos contextos/ambientes de grandes empresas.

Algoritmos: Os interfaces gráficos de utilizador do SAS ajudam-no a desenvolver modelos de Machine Learning e a implementar um processo interativo. Não precisa de ser um estatístico avançado. A nossa abrangente seleção de algoritmos de aprendizagem automática pode ajudá-lo a rapidamente tirar proveito dos seus grandes dados e estão incluídos em muitos produtos SAS. Algoritmos de Machine Learning do SAS incluem:

Redes neurais
 
“Decision trees” - Árvores de decisão
 
“Random forests” – Florestas aleatórias
 
Descoberta de sequências e associações
 
Estímulo/Impulso de gradiente e empacotamento
 
Máquinas vetoriais de suporte
 
Mapeamento de vizinho mais próximo
 
Aglomeração “k-means” (quantização de vetores)
 
Mapas de auto-organização
 
Técnicas de otimização de procura local (por exemplo, algoritmos de genética)
 
Maximização de expectativa
 
Estrias de regressão adaptativas multivariadas
 
Redes Bayesian
 
Estimativa de densidade Kernel
 
Análise de componente principal
 
Decomposição de valor singular /h5>
 
Modelos de mistura Gaussian
 
Desenvolvimento de regra de cobertura sequencial
 

 

Ferramentas e processos: Como agora sabemos, não são apenas os algoritmos. No fim de contas, o segredo para tirar o maior proveito dos seus grandes dados, está em emparelhar os melhores algoritmos para a tarefa em mãos com:

Gestão e qualidade global de dados
 
“GUIs” – interfaces gráficos para utilizadores – para desenvolver modelos e fluxos de processos
 
Exploração de dados interativa e visualização de resultados dos modelos
 
Comparações de diferentes modelos de Machine Learning para rapidamente identificar o melhor modelo    
 
Avaliação automatizada do modelo de conjunto para identificar os melhores desempenhos
 
Implementação fácil de modelo para que possa ter resultados reproduzíveis e confiáveis rapidamente
 
Uma plataforma integrada, de ponta-a-ponta, para a automação do processo de decisão com base nos dados
 

Precisa de informações ou orientações sobre qual o algoritmo de aprendizagem automática (de máquina) a utilizar e com que finalidade? Este blog de Hui Li, uma cientista de dados do SAS, fornece-lhe toda a informação de que precisa.

Ler mais sobre este tópico