You are on page 1of 34

Motivações
 Grande disponibilidade de dados armazenados eletronicamente  Existem informações úteis, invisíveis, nesses grandes volumes de dados

 Aproveitar para prever um conhecimento futuro (ir além do

armazenamento explícito de dados).

[01] Queens University - Belfast

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

2

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

3

Relacionado com tendência de buscar correlações escondidas em altos volumes de dados, nem sempre evidentes.

 

Interpretação dos dados existentes. Realiza inferências, tentando “adivinhar” possíveis fatos e correlações não explicadas nos dados.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

4

Exemplo:

Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Médio Johnson CA Los Angeles Vermelho Médio

•Conclusões: •Produtos azuis são de alto lucro ou •Arizona é um lucro baixo
Sistema de Apoio a Decisão - Joelma de Moura Ferreira 5

Uma ferramenta de OLAP responderia:
 Qual o valor médio de pagamento de seguros de vida, para fumantes na

região sul do estado, em agosto de 1999?
FERRAMENTAS DE DATA MINING Definir os melhores atributos de clientes, capazes de ajudar como previsores possíveis de acidentes de automóvel.
 Qual é o valor médio de faturamento de clientes do tipo industrial, da área

de alumínio, nas regiões da Mantiqueira, comparando-se os anos 1998 e 1999?
FERRAMENTAS DE DATA MINING Indicar quais atributos de clientes seriam importantes para ser considerados numa possível e indesejável quebra de fidelização.
Sistema de Apoio a Decisão - Joelma de Moura Ferreira 6

Uma ferramenta de OLAP responderia:
 Produziriam gráficos mostrando os percentuais comparativos de compras

com cartões de créditos roubados e válidos?
FERRAMENTAS DE DATA MINING Indicariam padrões associados a certo comportamento fraudulento com cartões de crédito.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

7

Fraldas e cervejas
 homens casados, entre 25 e 30 anos  compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do

trabalho para casa  Wal-Mart otimizou as gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas  Resultado: o consumo cresceu 30%

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

8

Bank of America
 Selecionou entre seus 36 milhões de clientes

▪ Aqueles com menor risco de dar calotes ▪ Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

9

Banco Itaú
 Enviava mais de 1 milhão de malas diretas, para todos os correntistas.

Apenas 2% respondiam às promoções ▪ Passaram a enviar apenas a quem tem maior chance de responder ▪ Resultado: a taxa de retorno subiu para 30%, a conta de correio foi reduzida a um quinto.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

10

Lojas Brasileiras
 Aplicou 1 milhão de dólares em técnicas de data mining  Resultado: Reduziu de 51000 produtos para 14000 produtos oferecidos

em suas lojas.  Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente é 220v

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

11

knowledge discovery from data

Use of models: • classification • clustering

Data Mining
data
modeling

model

• evaluation • analysis

• visualization
• explanation

Decision Support
decision makers+ experts+ decision analysts

• ...

model

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

12

Entendimento do negócio, objetivos e metas  O que necessita: análises complexas, tendências, inferências, detecções, perfil, verificação de hipóteses…  Conhece o problema em detalhes  Possui os dados necessários  Possui patrocinador  Detém, técnicas necessárias  Precisa de uam arquitetura de tecnologia robusta  É um projeto contínuo de busca de inteligência

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

13

Data Mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database . KDD consiste, fundamentalmente;
 na estruturação do banco de dados;
 na seleção, preparação e pré-processamento dos dados;

 na transformação, adequação e redução da dimensionalidade dos dados;
 no processo de Data Mining; e  nas análises, assimilações, interpretações e uso do conhecimento extraído

do banco de dados, através do processo de Data Mining.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

14

  

Interativo (necessita intervenção humana) Cíclico/iterativo (deve ser feito várias vezes) 80% do trabalho/esforço está na Preparação e Análise

Dado Preparado

Preparação

Mineração

Análise

Aplicação
15

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

Porque: não se pode minerar todos os dados
 Exemplo: Dados de vendas numa loja, durante 20 anos produtos que saíram de

linha, anos atípicos, mudança de comportamento dos consumidores

Inclui
   

ETL (extração, transformação, carga) Cleansing (limpeza) Qualificação Enriquecimento Banco de dados separado Coletar dados Selecionar o subconjunto de dados que será aplicado no projeto de mining Atentar para a qualidade dos dados Definir para os campos consolidados os critérios de reconciliação Carregar o banco para o processo de mining
Sistema de Apoio a Decisão - Joelma de Moura Ferreira 16

Processo:
     

Seleção
 Selecionar ou segmentar dados de acordo com critérios definidos: ▪ Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado.

Pré-processamento
 Estágio de limpeza dos dados, onde informações julgadas desnecessárias

são removidas.
▪ Ex. :O sexo de um paciente gestante
 Reconfiguração dos dados para assegurar formatos consistentes

(identificação)
▪ Ex. : sexo = “F” ou “M” sexo = “M” ou “H”

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

17

Transformação

Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada.

 Ex: rede neural  converter valor literal em valor numérico
 Disponibilizar os dados de maneira usável e navegável.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

18

Data Mining é um processo que extrai informações válida e previamente desconhecidas a partir de um banco de dados.

Ou seja, é a extração dos padrões de comportamento dos dados, utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles.
O processo é decorrente:
 Estatística  Inteligência artificial  Tecnologia

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

19

Tipos de Padrões
 Padrões preditivos são encontrados para resolver o problema de predizer

o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos.  Padrões descritivos, ou informativos, têm por objetivo encontrar padrões interessantes, de forma interpretável pelo homem, que descrevam os dados.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

20

Compreende:
 Criar modelos de mining  Definir amostras e população

 Selecionar dados para treinar o modelo
 Definir formatação requerida pelas ferramentas

 Criar os previsores ou atributos-chave para a análise do negócio

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

21

ABCXYABCZKABDKCABCTUABEWLABCWO

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

22

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 1: A primeira etapa é perceber que existe uma sequência de letras que se repete bastante. Encontramos as sequências "AB" e "ABC" e observamos que elas ocorrem com frequência superior à das outras sequências.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

23

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO"

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

24

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades:
"ABC??" "ABD??" "ABE??" e "AB???", onde '?' representa qualquer letra

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

25

Contudo, mais importante do que simplesmente obter essa redução (compressão) de informação, esse processo nos permite gerar formas de predizer futuras ocorrências de padrões. Este é exatamente o ponto onde este processo começa a mostrar o seu valor.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

26

"ABC??"  "ABD??"  "ABE??”  "AB???”

• A letra 'A' poderia significar "aquisição de pão" em uma transação de supermercado. • A letra 'B' poderia, por exemplo, significar "aquisição de leite” • A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado

Regra com as letras "AB" quer dizer, na prática, que toda vez que alguém comprou pão, também comprou leite. Esses dois atributos estão associados.
Sistema de Apoio a Decisão - Joelma de Moura Ferreira 27

Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas  Ex.: Tarefas de previsões e classificações

Porque: gerar conhecimento a partir dos padrões identificados
 Como validar ?  Que fazer depois ?

Visualização de resultados
 Milhares de conhecimentos descobertos  Separa o que é novo e útil  Focar em certos dados (linhas ou colunas)

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

28

Técnicas
 Associação  Padrões sequênciais Descritivo

 Agregação (clustering)
 Classificação

 Análise de regressão
 Análise de Distribuição  Árvores de Decisão  Redes neurais  Modelos de Predição  Detecção de Desvios

Preditivo

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

29

Depois de definido e testado o modelo, a aplicação se dá pela utilização daqueles algoritmos ajustados em situações reais de sistemas.

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

30

Analista de Data Mining ou BI
 Conhece as técnicas e ferramentas

Analista de Negócios ou Gestor ou Analista da Organização
 Conhece o negócio

 Interpreta os resultados

Cientista Social ou Estatístico
 Definição de amostras e técnicas estatísticas

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

31

Vendas e Marketing
 Identificar padrões de comportamento de consumidores  Associar comportamentos à características demográficas de consumidores

 Campanhas de marketing direto (mailing campaigns)
 Identificar consumidores “leais”

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

32

Bancos
 Identificar padrões de fraudes (cartões de crédito)  Identificar características de correntistas  Mercado Financeiro  Minimizar prejuízos através de crédito a clientes de “confiança”

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

33

Médica
 Comportamento de pacientes  Identificar terapias de sucessos para diferentes tratamentos  Fraudes em planos de saúdes  Comportamento de usuários de planos de saúde  Planos diferenciados por perfil

Sistema de Apoio a Decisão - Joelma de Moura Ferreira

34