You are on page 1of 16

Análise Inteligente de Dados

1. Introdução

Dados e informação

 A sociedade em que vivemos produz grandes


quantidades de dados
 Fontes: negócios, ciência, medicina, economia,
geografia, ambiente, desporto, …
 Recursos potencialmente valiosos
 Os dados em bruto são inúteis
 são necessárias técnicas que permitam a extracção
automática da informação neles contida
 Dados são
 factos armazenados
 Informação consiste
 nos padrões subjacentes aos dados

Análise Inteligente de Dados

1
A informação é crucial

 Exemplo 1: Fertilização in vitro


 Fornecido: embriões descritos por 60 características
 Problema: selecção dos embriões que sobreviverão
 Dados: registros históricos dos embriões e resultados
finais

 Exemplo 2: Abate de Vacas


 Fornecido: vacas descritas por 700 características
 Problema: selecção das vacas a abater
 Dados: registros históricos e decisões dos agricultores

Análise Inteligente de Dados

Análise inteligente de dados

 Ou Data Mining
 Metáfora do processo de pesquisar os dados
em busca de algo precioso
 Ou Knowledge Discovery in Databases
 Mais descritivo, procura de conhecimento no
meio dos dados
 Extracção de informação
 implícita,
 previamente desconhecido e
 potencialmente útil
 a partir de dados pré-existentes
Análise Inteligente de Dados

2
Análise inteligente de dados

 Necessário:
 Programas capazes de detectar regularidades
e padrões nos dados

 Padrões suficientemente fortes podem


ser utilizados para fazer previsões
 Problema 1: a maior parte dos padrões
descobertos não têm interesse
 Problema 2: os padrões podem ser inexactos
(ou mesmo errados) caso os dados sejam
ruidosos ou incompletos
Análise Inteligente de Dados

Técnicas de aprendizagem
 Base técnica para a análise inteligente de dados
 Algoritmos para aquisição de descrições estruturais
a partir de exemplos

 As descrições estruturais representam os


padrões explicitamente
 Podem ser utilizadas para
 prever o resultado numa nova situação,
 compreender e explicar como é que a predição foi feita.
 Este último factor é talvez o mais significativo…
 Métodos originários da Inteligência Artificial,
Estatística e investigação em Bases de Dados

Análise Inteligente de Dados

3
Descrições estruturais

 Por exemplo: regras if-then

Análise Inteligente de Dados

Podem as máquinas aprender?

 Definições de “aprendizagem” a partir do


dicionário:
 Obter conhecimento de algo através de estudo,
experiência ou ensinamento – difícil de medir
 Tomar consciência de algo a partir de informação ou
observação – difícil de medir
 Guardar em memória – trivial para um computador
 Ser informado ou instruído sobre algo – trivial para
um computador
 Definição operacional
 Uma entidade aprende quando modifica o seu
comportamento de maneira a melhorar o desempenho
futuro

Análise Inteligente de Dados

4
O problema do clima

 Condições climáticas para a prática de


um desporto

Análise Inteligente de Dados

Regras de classificação/associação

 Regra de classificação
 prediz o valor de um determinado atributo
(classifica um exemplo)

 Regra de associação
 prediz o valor de um atributo arbitrário ou de
uma combinação de atributos

Análise Inteligente de Dados

5
Atributos mistos

 Dois atributos com valores numéricos:

Análise Inteligente de Dados

Problema das lentes de contacto

Análise Inteligente de Dados

6
Problema das lentes de contacto
 Um conjunto de regras completo e correcto:

Análise Inteligente de Dados

Problema das lentes de contacto


 Uma árvore de decisão para o mesmo
problema

Análise Inteligente de Dados

7
Classificação de Iris (flores)

Análise Inteligente de Dados

Predição do desempenho de um CPU

 Exemplos: 209 configurações diferentes

Análise Inteligente de Dados

8
Negociações laborais

Análise Inteligente de Dados

Negociações laborais

Análise Inteligente de Dados

9
Problemas reais

 Quando os resultados da aprendizagem


ou o próprio método de aprendizagem
são integrados numa aplicação prática

 Avaliação de Pedidos de Empréstimo


 Dados
 Questionário com informação financeira e pessoal
 Problema
 Devemos ou não conceder o empréstimo?

Análise Inteligente de Dados

Avaliação de pedidos de empréstimo

 Uma mera avaliação estatística cobre


90% dos casos
 Os casos fronteira são decididos por
pessoal especializado
 No entanto verificou-se que 50% dos casos
fronteira aceites não pagaram o empréstimo!
 Solução (?)
 Rejeitar todos os casos fronteira
 Não é uma boa ideia: verifica-se que os casos
fronteira são os melhores clientes do banco
(precisam sempre de mais dinheiro :) )
Análise Inteligente de Dados

10
Avaliação de pedidos de empréstimo

 Abordagem com AID


 Escolheram-se 1000 exemplos de treino de casos
fronteira
 20 atributos:
 idade,
 anos no emprego actual,
 anos na morada actual,
 anos como cliente do banco,
 outros cartões de crédito…
 As regras obtidas classificaram correctamente
2/3 dos casos fronteira!
 O banco gostou das regras já que estas podiam
ser utilizadas para explicar as decisões aos
clientes
Análise Inteligente de Dados

Análise de imagens

 Dados
 Imagens de radar de águas costeiras obtidas por
satélite
 Problema
 Detecção de manchas de petróleo nas imagens
 As manchas de óleo aparecem como regiões
escuras de tamanho e forma variável
 Trata-se de um problema difícil
 regiões semelhantes podem ser causadas
simplesmente pelas condições atmosféricas (e.g. vento
forte)
 É um processo dispendioso que requer pessoal
altamente treinado
Análise Inteligente de Dados

11
Análise de imagens

 Abordagem com AID


 As manchas escuras são extraídas de uma imagem
normalizada
 Atributos:
 tamanho da região, forma área, intensidade, forma da
fronteira, proximidade de outras manchas, informação
sobre o ambiente
 Restrições ao processo de aprendizagem
 Escassez de exemplos (as manchas de óleo são raras)
 Dados mal balanceados: a maior parte das manchas
não são de óleo
 Exemplos vindos de uma mesma imagem agrupam-se
naturalmente
 Requisito da aplicação: deve servir como um filtro e o
utilizador deve poder alterar o nível de falsos alarmes
Análise Inteligente de Dados

Procura de energia eléctrica

 As companhias que fornecem


electricidade necessitam de uma previsão
das necessidades futuras
 Previsões precisas da procura máxima e
mínima por hora podem resultar em
poupanças significativas
 Dados:
 modelo estático da potência construído
manualmente e assumindo condições
climatéricas normais
 Problema:
 adicionar variações climáticas ao modelo
Análise Inteligente de Dados

12
Procura de energia eléctrica

 O modelo estático consistia em


 potência base para o ano,
 periodicidade da potência ao longo do ano,
 efeito das férias e feriados

 Abordagem com AID


 A previsão original é corrigida utilizando os 8
dias mais “parecidos”

Análise Inteligente de Dados

Procura de energia eléctrica

 Atributos
 temperatura, humidade, velocidade do vento,
nebulosidade
 diferença entre a potência prevista e a
realmente necessária
 A diferença média entre os três dias mais
parecidos é adicionada ao modelo
estático
 Coeficientes obtidos por regressão linear
são utilizados como pesos na função de
similaridade
Análise Inteligente de Dados

13
Marketing e vendas

 As empresas guardam quantidades


enormes de informação sobre o
marketing e vendas
 Possíveis aplicações
 Lealdade do cliente: identificação de clientes
passíveis de deixar de o ser identificando
comportamentos de risco
 Ofertas especiais: identificação de clientes
lucrativos

Análise Inteligente de Dados

Marketing e vendas

 Análise do “cesto de compras”


 Técnicas de associação que permitem
encontrar grupos de produtos que tendem a
aparecer juntos numa transacção

 Análise histórica de padrões de compra

 Identificação de potenciais clientes


 Centrar mailings promocionais apenas em
clientes prováveis é muito mais barato

Análise Inteligente de Dados

14
Questões éticas

 Quando tratamos de aplicações práticas


começam a surgir questões éticas
 A análise inteligente de dados é utilizada
frequentemente para descriminar
 E.g., no caso da avaliação de pedidos de
empréstimo, a utilização de atributos com a
raça, sexo ou religião não seria ética
 A avaliação ética depende das aplicações
 E.g. os atributos mencionados atrás poderiam
ser utilizados numa aplicação médica

Análise Inteligente de Dados

Questões éticas

 Os atributos podem conter


indirectamente informação problemática:
 E.g. o código postal pode estar correlacionado
com a raça

 Algumas questões importante em


aplicações práticas
 Quem tem acesso aos dados?
 Para que objectivo são os dados recolhidos?
 Que tipo de conclusões podem ser
legitimamente retiradas dos dados?
Análise Inteligente de Dados

15
Questões éticas

 Deve-se sempre analisar os resultados


com prudência

 Argumentos puramente estatísticos


nunca são suficientes

 Estarão os nossos recursos a serem


utilizados de forma satisfatória?

Análise Inteligente de Dados

16