SCC5871 – Introdução ao Aprendizado de Máquina

Aula 2 – Preparação e Pré-Processamento de Dados: Parte A
Prof. Ricardo J. G. B. Campello
PPG-CCMC / ICMC / USP
1

Créditos
O material a seguir consiste de adaptações e extensões:
dos originais gentilmente cedidos pelo professor André C. P. L. F. de Carvalho dos originais de (Tan et al., 2006)
01 11 01 10 1 0 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0 1 0 0 1 1 0

2

1

Tópicos – Parte I
Introdução Instâncias e Atributos Tipos de Atributos Qualidade de Dados Preparação de Dados
Ruído Valores inconsistentes, duplicados e ausentes Outliers
3

Introdução
Dados:
coleção de instâncias com seus atributos

Instâncias
padrões, exemplos, objetos, registros, pontos, amostras*, casos, entidades
Ex.: clientes de um banco, pacientes de um hospital

cada instância é formada por um conjunto de atributos
4

2

Introdução
Atributo
variável, campo, característica
Ex.: altura, sintoma, renda

cada atributo representa uma propriedade ou característica específica das instâncias coleção de valores específicos dos atributos descreve uma instância particular seus valores podem ser números ou símbolos
5

Exemplo
Seja uma aplicação de AM em medicina
Descoberta de conhecimento a partir de um conjunto de dados de pacientes Conjunto possui o cadastro de vários pacientes de um hospital
Diagnosticados de acordo com uma dada patologia em:
Saudáveis Doentes

6

3

Exemplo
Atributos
Nome Febre Enjôo João Pedro Maria José Ana Leila sim não sim sim sim não sim não sim não não não Mancha pequena pequena grande pequena grande grande Diagnóstico doente saudável saudável doente saudável doente

valor de um atributo
7

Conjunto de Dados
Criados a partir de Bases/Bancos de Dados Podem se tornar mais adequados ao uso de AM por meio de:
Integração de bases distribuídas Descarte de atributos obviamente irrelevantes ...

8

4

Integração
Dados podem ser oriundos de diferentes fontes
Nesse caso, faz-se necessário combinar esses dados (AM centralizado) ou o conhecimento aprendido desses dados (AM distribuído)
De qualquer forma, dados precisam ser consistentes Por exemplo, é preciso gerenciar instâncias duplicadas
Atributos comuns devem ter valor único para cada instância Atributos correspondentes podem ter nomes diferentes... Metadados podem ser úteis Descrição dos dados (dados sobre dados)
9

Descarte de Atributos
Exemplo (dados originais):
Nome Febre Enjôo João Pedro Maria José Ana Leila sim não sim sim sim não sim não sim não não não Mancha pequena pequena grande pequena grande grande Dor sim não não sim sim sim Salário Diagnóstico 1000 1100 600 2000 1800 900 doente saudável saudável doente saudável doente
10

5

é necessário uma escala de medição Regra ou função que associa um valor numérico ou simbólico a um atributo Mapeia grandeza física em valor do atributo Exemplo: Associa-se peso a um valor numérico Associa-se sexo aos símbolos Masculino e Feminino 12 6 .Descarte de Atributos Exemplo (dados preparados): Febre Enjôo Mancha sim não sim sim sim não sim não sim não não não pequena pequena grande pequena grande grande Dor sim não não sim sim sim Diagnóstico doente saudável saudável doente saudável doente 11 Valores de Atributos Para atribuir valores a atributos.

Massa. Ordinal gosto (ruim. i.) Atributos para os quais não apenas a diferença entre valores faz sentido..e.. . anteriores e ainda (*. 7 .Tipos de Atributos Nominal cor. profissão.: (=. … Numérico (Quantitativo) Intervalo Atributos para os quais a diferença entre valores faz sentido. dias da semana. identificação. bom). Temperatura em Fahrenheit. Intervalar temperatura em Celsius. ≠) Os valores de atributos ordinais provêm informação suficiente para distinguir e ordenar instâncias. Largura. Razão Contagens..e. . .. i.. 13 Tipos de Atributos Categórico (Qualitativo) Tipo de Atributo Nominal Descrição Valores são simplesmente nomes (símbolos) diferentes. médio. . .. Racional peso... atributos nominais provêm apenas informação suficiente para distinguir uma instância de outra: (=. /) Datas.. existe uma unidade de medida com referência (zero) arbitrário. .e. ≠) e (<. tamanho. … Ordinal Grau de Educação. . mas também a razão entre valores (zero é absoluto).. Números de Endereço.. idade.. Suporta as ops. Estado Civil. >) Exemplos Sexo. CEP. Quantidades Monetárias. Suporta as operações anteriores e ainda (+... Corrente Elétrica. i. temperatura em Kelvin.

9 sim não sim não não não pequena pequena grande pequena grande grande Dor sim não não sim sim sim Salário Diagnóstico 1000 1100 600 2000 1800 900 doente saudável saudável doente saudável doente 15 Exemplo Nome Temp Enjôo João Pedro Maria José Ana Leila 37.7 37 38.7 37 38.3 37.3 36.7 sim não sim não não não Mancha pequena pequena grande pequena grande grande Dor sim não não sim sim sim Salário Diagnóstico 1000 1100 600 2000 1800 900 doente saudável saudável doente saudável doente 16 8 .2 39 37.2 39 37.Exemplo Identificar tipo de cada atributo no cadastro de pacientes abaixo: Nome Temp. Enjôo Mancha João Pedro Maria José Ana Leila 37.

Exercício Definir o tipo dos seguintes atributos: Renda mensal Número de palavras de um texto Endereço de E-mail Número de matrícula Data de nascimento Código postal Posição em uma corrida 17 Tipos de Atributos Uma taxonomia independente para atributos pode ser estabelecida pelo número de valores Discretos assumem um número contável de valores no. finito ou infinito Contínuos assumem uma quantidade incontável de valores 18 9 .

. estrelas no universo. Caso especial: Atributos Binários 0 ou 1 V ou F . cores elementares. .. de anos. ..Atributos Contínuos Assumem valores que são números reais Temperatura Peso Distância . 20 10 .. no... finito ou infinito e enumerável de valores estações do ano.. de filhos. no. no.. 19 Atributos Discretos No.

Atributos Assimétricos Um caso ainda mais particular de atributo discreto são os atributos binários assimétricos Embora assuma dois valores como qualquer atributo binário. ex. de disciplinas disponíveis for grande. apenas a presença de um deles é relevante indica que a instância possui uma determinada característica p. uma alternativa é o projeto de algoritmos robustos 22 11 . Identificar um atributo binário como assimétrico é importante para o projeto de sistemas de AM p.. text mining 21 Qualidade de Dados Maioria dos dados utilizados não foram gerados especificamente para uso em AM em geral apresentam problemas de diversos tipos Algoritmos de AM precisam geralmente de dados “limpos” Problemas nos dados precisam ser detectados e corrigidos Quando isso não é possível.. aluno matriculado ou não em cada disciplina Se no. alunos são todos similares com relação às disciplinas que não cursam.. ex.

inconsistentes ou fora de faixa pessoa com 2m pesando 10 Kg temperatura ambiente 200 graus Celsius Valores faltantes p. ex. diferentes registros para mesma pessoa que morou em endereços diferentes 24 12 .Qualidade de Dados Dados quase nunca serão ideais Problemas podem ocorrer nas medições e coleta de dados Causas: Erros humanos Falhas ou limitações do dispositivo de medição Problemas no procedimento de coleta de dados 23 Qualidade de Dados Algumas Conseqüências: Valores errados p. ex. não mensurados ou perdidos valor de temperatura indisponível em determinado intervalo Instâncias espúrias ou duplicadas p. ex.

perguntas sobre salário. ex. . Erro de digitação Por exemplo. sexualidade..Causas de Erros Erros de medição Diferença entre valor medido e valor real p. ex.. ou inverter os valores de idade e número de filhos ao cadastrar uma dada instância Ambos podem ser sistemáticos ou aleatórios 25 Qualidade do Processo de Medição Bias* Variação sistemática das medidas do valor real da grandeza sendo medida Diferença entre a média dos valores medidos e valor correto Valor correto deve ser conhecido Precisão Proximidade entre diferentes medidas repetidas de uma dada grandeza Usualmente calculada pelo desvio padrão dos valores 26 13 . ruído ou erro humano de leitura em sensor Erros de coleta de dados Omissão (ou distorção) de valores de atributos p. incluir dados de jogador de cartas em um conjunto de dados de halterofilistas.

conceito depende do bias e precisão Mas não existe uma fórmula universal 28 14 .013 Kg.986 Kg Média das pesagens = 1. 0.001 Precisão = 0.012 (desvio padrão) 27 Qualidade do Processo de Medição Acurácia Diz-se que um processo de medida possui maior acurácia quanto menor os valores para bias e precisão Logo.015 Kg.001 Kg e 0. o peso de uma peça de 1Kg medido 5 vezes produziu os valores: 1.Exemplo Usando uma balança. 1.001 Bias = 1. 1.990 Kg.001 – 1 = 0.

Limpeza de Dados Correção ou atenuação de erros detectados nos dados Principais problemas: Dados com artefatos ou ruído Dados inconsistentes Dados incompletos ou ausentes Dados duplicados Dados anômalos (outliers)* 29 Artefatos x Ruído Artefatos Distorções determinísticas Por exemplo. problema que ocorre em uma mesma região de um conjunto de fotografias Ruído Componente aleatório de uma medida de erro Erro randômico introduzido nos dados Formas Distorção dos valores de atributos Adição de instâncias espúrias 30 15 .

que são geralmente fáceis de detectar e freqüentemente passíveis de correção.Ruído Diferente dos artefatos. pode-se ter apenas indícios Modelo gerado a partir de dados com ruído estão muito mais sujeitos a super-ajuste (overfitting) 31 Ruído (Exemplo 1) Distorção da voz de uma pessoa falando em um rádio de má qualidade Duas senóides Duas senóides com ruído 32 16 . ruído é normalmente um problema mais sério: Nem sempre é possível ter certeza de que os dados apresentam ruído Dependendo da aplicação.

ex. .Ruído (Exemplo 2) Dados sem ruído Dados com ruído Ruído Doente Saudável 33 Tratamento de Ruído Em geral. Similarmente. de série temporal.. o tratamento de ruído é dependente de contexto ruído em variáveis temporais muitas vezes podem ser eliminados ou atenuados por ferramentas de processamento de sinais p. de entrada ou saída de sistema dinâmico.. filtragem de sinal de voz. muitos tipos de ruído em imagens podem ser eliminados ou atenuados por ferramentas de processamento de imagens 34 17 .

não é possível separar o ruído dos valores e instâncias legítimos Problema comum em aplicações como classificação e mineração de dados descritiva Alternativa é conviver com o ruído algoritmos robustos ! 35 Valores Inconsistentes Dados podem conter valores inconsistentes Exemplos: pessoa com altura negativa código postal invalido para o nome de rua especificado erro / engano proposital (fraude) Se a inconsistência é gerada ao acaso. no entanto.Tratamento de Ruído Em muitos casos. pode ser vista como um determinado tipo de ruído 36 18 . dadas as características dos dados.

. via obtenção do dado em outra fonte (se existente) redundância de sensores e bases de dados.: Valor de atributo A sempre menor que valor de B Valor inválido para o atributo Ex.: atributo B sempre deve ser positivo Uma vez detectadas. cliente..... muitas vezes podem ser corrigidas via nova coleta do dado (quando possível) requerimento ao funcionário.. . 38 19 . 37 Valores Ausentes Não é raro uma instância não ter o valor de um ou mais atributos Possíveis causas: – Atributo não foi considerado quando os primeiros dados foram coletados – Desconhecimento do valor do atributo ou recusa em fornecê-lo na ocasião do preenchimento – Distração na ocasião do preenchimento – Inexistência de valor para o atributo em algumas instâncias – Problema com dispositivo / processo de coleta – . paciente .Valores Inconsistentes Algumas inconsistências são de fácil detecção Violação de relações conhecidas entre atributos Ex.

Tratamento de Valores Ausentes Alternativas: 1. ou Redundantes a outros que não possuem valores ausentes Proibitivo caso contrário 40 20 . Descartar instâncias com atributos que apresentem valores ausentes Simples e eficiente se as instâncias remanescentes ainda forem representativas Proibitivo se parte significativa das instâncias possuírem ausentes 39 Tratamento de Valores Ausentes Alternativas: 2. Descartar atributos com valores ausentes Simples e eficiente se esses atributos não forem fundamentais para a solução do problema Irrelevantes.

Modificar algoritmo para lidar com ausentes Vários algoritmos de AM podem ser adaptados para lidar com valores ausentes. Distância Euclidiana Normalizada vários algoritmos de classificação podem ser adaptados para lidar com valores ausentes (e.Tratamento de Valores Ausentes Alternativas: 3. árvores de decisão) 41 Tratamento de Valores Ausentes Alternativas: 4. Por exemplo: algoritmos baseados em distância entre instâncias (clustering.. Por exemplo: interpolação (variáveis temporais) média. mediana.g. medóide ou moda dos valores do atributo pode ser estratificada por classe em problemas de classificação usualmente limitada às instâncias vizinhas mais próximas K-NN segundo os demais atributos 42 21 . Estimar (imputar) valores ausentes Alternativa se outras não forem aplicáveis / eficazes Existem várias técnicas. ex.. K-NN. .) podem estimar essa distância com base somente naqueles atributos conhecidos p.

Por exemplo: atributo número de partos para paciente do sexo masculino nesse caso. os dados são denominados assimétricos são mais difíceis de tratar de forma automática 44 22 .Valores Ausentes Exemplo: Febre Enjôo Mancha sim não sim sim sim não sim não sim não não não pequena pequena grande pequena grande grande Dor sim não não sim sim ??? Diagnóstico doente saudável saudável doente saudável doente 43 Valores Ausentes Observação: Existem situações em que o valor precisa estar ausente.

são o resultado de algum dos tipos de ruído discutidos anteriormente 46 23 .Outliers Outliers 45 Outliers Existem várias definições Basicamente. são instâncias “anômalas” Instâncias que possuem características (valor de um ou mais atributos) diferentes da maioria dos demais Definição de “diferente” usualmente é estatística Podem ser instâncias legitimas ou não Se não forem legítimos.

em detecção de anomalias essas instâncias são exatamente aquilo que se procura Em outras aplicações. Por exemplo.Outlier: Friend or Toe? Mesmo quando outliers são legítimos. podem não ser o objetivo central. genes diferenciados em bioinformática Já em outros casos. mas podem ser de interesse se detectados p. podem ou não trazer informação nova: não trazem informação nova sob o ponto de vista de classificação trazem informação nova sob o ponto de vista de clustering (densidade) Deduplicação Detectar e eliminar (ou combinar) duplicações Ilegítimas ou para uso em algoritmos de AM que não suportam duplicatas 48 24 ... como em segmentação de mercado interesse por categorias representativas de consumidores 47 Instâncias Duplicadas São instâncias idênticas ou que diferem de maneira não significativa para o problema em questão Podem ser legítimas ou ilegítimas. Por exemplo: cadastro duplicado de um cliente devido a pequenas diferenças na representação do nome (ilegítima) dois pacientes com as mesmas características (legítima) Mesmo quando são legítimas. podem ou não serem desejados. ex. são indesejados.

77 Superior 100 Altura Salário 1.88 1800 -6 2000 Situação adimplente inadimplente adimplente inadimplente inadimplente adimplente inadimplente 50 25 .80 600 -6 2000 1.74 7000 1.78 5000 1.80 3000 1.Exemplo Dados Duplicados Nome Febre Enjôo João Pedro Maria José Ana Zé Leila sim não sim sim sim sim não sim não sim não não não não Mancha pequena pequena grande pequena grande pequena grande Dor sim não não sim sim sim sim Salário 1000 1100 600 2000 1800 2000 900 Diagnóstico doente saudável saudável doente saudável doente doente 49 Exercício Definir problemas existentes na tabela abaixo: Nome João Lia Maria José Sérgio Ana Luísa Profissão Encanador Médica Senadora Médica Bancário Professora Médica Nível Peso Médio 70 Superior 200 Médio 90 Superior 100 Superior 82 Fundam.

.Observações Dependendo da aplicação. em séries temporais: medir similaridade pode requer uso de correlação com tratamento de delays valores ausentes tipicamente requerem uso de interpolação tratamento de ruído tipicamente requer filtragem . 52 26 . 51 Conheça seus Dados! Conhecer bem a natureza dos dados é algo fundamental antes de querer aprender automaticamente qualquer coisa a partir deles Por exemplo... outros problemas podem aparecer: Validade temporal dos dados Com o tempo. conhecimento de domínio. completamente distintas de outros domínios ! Por exemplo. . saber de antemão que dois atributos como salário e imposto retido na fonte são equivalentes (redundantes) é muito útil ! Domínios específicos podem requer ferramentas específicas.. metadados. alguns dados podem perder utilidade Representatividade dos dados Dados coletados devem representar os dados originais Atributos descritivos Distribuição dos dados (bias de amostragem) Conhecer os dados é fundamental: Documentação.

Tópicos – Parte II Pré-Processamento de Dados Agregação Amostragem (sampling) Maldição da dimensionalidade Redução de dimensionalidade 53 Pré-Processamento Área de pesquisa que engloba várias estratégias e técnicas para melhorar o desempenho de algoritmos de AM Tempo de Solução Qualidade da Solução Custo da Solução 54 27 .

. vendas) em uma média diária /mensal stemming em text mining.g.g.. 56 28 . ações) ou transações unitárias (e.Pré-Processamento Além dos tópicos de preparação de dados já vistos anteriormente. o pré-processamento envolve também: Agregação Amostragem Extração de características Seleção de atributos Discretização de variáveis Transformação e conversão de variáveis 55 Agregação Combinar múltiplas instâncias ou atributos Propósito Redução de dados Reduz memória e tempo de processamento Permite uso de algoritmos mais sofisticados Dados mais estáveis Dados agregados tendem a ter menos variabilidade Exemplos Resumir preços horários (e.

o tamanho da amostra passa a representar um compromisso eficiência × acurácia 58 29 .Amostragem dos Dados Seleção de um subconjunto de instâncias (amostra) Técnica fundamental em Estatística e também em Aprendizado de Máquina tanto para investigações preliminares como definitivas Estatística: Obtenção dos Dados completos AM: Processamento dos Dados completos Muito caro ou Consumo elevado de tempo 57 Amostragem dos Dados Geralmente leva à mesma acurácia (ou similar) com um esforço computacional muito menor Algoritmo de AM só processa parte das instâncias Amostra deve ser representativa Se não for suficientemente representativa.

clustering) Para aumentar as chances. existem diferentes técnicas de amostragem já bem investigadas 60 30 .: médiapop-original = médiaamostra Deve fornecer uma estimativa da informação desejada contida na população original Assim.Amostragem dos Dados Amostra representativa Aproximadamente as mesmas propriedades de interesse do conjunto de dados original Ex. ex. uso da amostra tem efeito semelhante ao uso de toda a população 59 Amostragem dos Dados Amostra representativa Deve permitir tirar conclusões de um todo a partir de uma parte Não é possível garantir que isso ocorra É particularmente difícil em tarefas não supervisionadas (p.

pois probabilidade de escolher qualquer objeto se mantém constante Porém permite inserção de duplicatas 62 31 .Amostragem dos Dados Tipos clássicos de amostragem: Amostragem aleatória simples Amostragem progressiva Amostragem estratificada 61 Amostragem dos Dados Amostragem Aleatória Simples Duas variações Sem reposição Com reposição Mais simples de analisar.

.Amostragem dos Dados Influência do tamanho: 8000 pontos 2000 Pontos 500 Pontos 63 Amostragem dos Dados Exemplo de estimação de um bom tamanho: Que tamanho seria necessário para obter pelo menos 1 instância de cada um dentre 10 grupos ? por amostragem simples Bernoulli trials .. Tamanho da amostra 64 32 .

na acurácia de um modelo preditivo Valida modelo obtido com outras amostras de tamanho semelhante à escolhida 66 33 .Amostragem dos Dados Qual o melhor tamanho? Difícil responder Grande: Aumenta chance da amostra ser representativa Reduz vantagens da amostragem Pequeno: Reduz custo computacional Aumenta chance de perda de informação 65 Amostragem dos Dados Amostragem progressiva Começa com pequenas amostras Progressivamente aumenta tamanho da amostra enquanto houver variabilidade significativa nos modelos obtidos Por exemplo.

Amostragem dos Dados Amostragem Estratificada Usada em problemas de classificação para garantir amostragem (representatividade) de todas as classes Algumas variações No.. só vale a pena quando algoritmo de AM a ser aplicado na amostra é muito mais custoso computacionalmente 68 34 . que tendem a comprometer o desempenho de classificadores balanceia classes. mas altera propriedades dos dados originais 67 Amostragem dos Dados Amostragem Estratificada Pode ser adaptada para tarefas não supervisionadas envolvendo instâncias descritas apenas por atributos numéricos Como não se dispõe de classes. estima-se regiões de densidade estruturando as instâncias de acordo com a distribuição espacial instâncias são organizadas em algum tipo de árvore (KD ou Quad) e as amostras estratificadas são retiradas dos nós A organização em árvore demanda processar todos os dados. de objetos proporcional ao no.. de objetos de cada classe usual em problemas com classes balanceadas Mesmo número de objetos para cada classe (undersampling) usual em problemas com classes desbalanceadas.

relativa de palavras que aparecem em um texto no. de dimensões Redução de dimensionalidade pode trazer vários benefícios ! 69 Redução de Dimensionalidade Principais Benefícios Melhora eficácia de algoritmos de AM ao eliminar atributos irrelevantes ou redundantes Reduz o tamanho necessário da amostra ao lidar com a maldição da dimensionalidade Melhora a eficiência computacional dos algoritmos pelas razões acima Simplifica modelo gerado e facilita interpretação Facilita visualização dos dados 70 35 .Redução de Dimensionalidade Alguns conjuntos de dados podem ter um número muito grande de atributos p. ex. text mining: instância é um vetor com freq. de atributos = no.

Maldição da Dimensionalidade Hiper-volume cresce exponencialmente com a adição de novos atributos Instâncias formadas por 1 atributo com 10 possíveis valores: 10 possíveis objetos Instâncias formadas por 5 atributos com 10 possíveis valores: 105 possíveis objetos Obstáculo em problemas com poucos exemplos e muitos atributos Dados se tornam muito esparsos 71 Maldição da Dimensionalidade Problemas críticos com dados esparsos Instâncias disponíveis podem não estar presentes em regiões do espaço de objetos é muito provável que o modelo aprendido não represente bem (generalize) essas regiões overfitting (e portanto efeito de ruído nos dados) é potencializado Instâncias parecem eqüidistantes Prejudica o desempenho de algoritmos que medem similaridade de dados por distância Ex.: algoritmos de clustering e detecção de outliers 72 36 .

4 0.7 0.3 0.7 0.1 0.3 0.1 0 Exemplos positivos Exemplos negativos 0 0.1 0 x2 0 0.9 1 74 37 .3 0.8 0.8 0.Maldição da Dimensionalidade 1 0.2 0.6 x2 0.5 x1 0.7 0.3 0.2 0.8 0.7 0.5 0.4 0.8 0.3 0.4 0.9 0.8 0.2 0.1 0.6 0.6 Exemplos negativos x3 0.6 0.6 0.5 0.2 0.9 0.2 0.7 0.9 1 73 Maldição da Dimensionalidade Exemplos positivos 1 0.1 0 1 0.9 0.4 0.5 0.4 0.5 x1 0.

usualmente o número de instâncias de treinamento é fixo Não se pode obter exemplos à vontade Logo. de atributos mesmo que sejam atributos úteis 75 Maldição da Dimensionalidade Desempenho do classificador Número de atributos 76 38 .Maldição da Dimensionalidade Número de instâncias necessárias para manter desempenho cresce exponencialmente com o número de atributos Na prática. o desempenho do algoritmo de AM tende a se degradar a partir de um determinado no.

uma forma elementar de reduzir complexidade dos dados é agregar atributos por exemplo. dois atributos “massa” e “volume” poderiam ser agregados em um único atributo “densidade = massa / volume” sem perda de informação relevante a um dado problema de interesse em particular 78 39 .Redução de Dimensionalidade Pode-se reduzir a dimensionalidade essencialmente através de: Criação de outros atributos Agregação de atributos Extração de características Seleção de atributos 77 Redução de Dimensionalidade Conforme já vimos anteriormente.

trata-se de extrair. indispensável em determinadas áreas de aplicação. ex. sombras e formas geométricas em fotografias. informações sobre bordas. a partir dos dados brutos. ex.Redução de Dimensionalidade Uma outra abordagem. PCA (linear) ou Kernel PCA (não linear) Atributos são ortogonais e ordenados segundo a parcela de informação que conduzem Descarte dos atributos menos representativos permite obter um novo espaço de dimensão menor que o original retendo a maior parte possível da informação 80 40 . características de alto nível com grande riqueza de informação relevante sobre os dados p. é a extração de características ou feature extraction em inglês Como sugere o nome. assim como o áudio bruto não é apropriado para reconhecer voz 79 Redução de Dimensionalidade Um tipo particular de extração de características é a Transformação do Espaço de Atributos Gera um novo conjunto de atributos a partir da combinação de projeções dos atributos originais p. ou sobre componentes harmônicas de freqüência em sinais de áudio pixels não são bons atributos para reconhecimento de face. contornos.

1999) Desvantagens: Limitada a atributos numéricos Interpretabilidade dos atributos originais é perdida o que é proibitivo em determinados cenários de aplicação 81 Dimensionality Reduction: PCA Dimensions = 120 Dimensions =160 206 80 40 10 © Tan.Steinbach. Kumar Introduction to Data Mining 4/18/2004 82 41 .Redução de Dimensionalidade Transformação do Espaço de Atributos Vantagens: Muito simples e computacionalmente rápida em especial PCA linear – vide (Haykin.

por ex.Seleção de Atributos Diferente das abordagens anteriores.. “salário” e “IR retido na fonte” p/ análise de crédito Caso extremo: valores iguais ou proporcionais 84 42 . “nome” de uma ação para previsão do seu valor Caso extremo: valor constante para todas as instâncias Redundantes Possuem a mesma informação útil para a tarefa em questão Por ex. é comum que centenas a milhares de atributos sejam desnecessários 83 Seleção de Atributos Atributos irrelevantes × redundantes Irrelevantes Não possuem informação útil para a tarefa em questão Por exemplo. a seleção de atributos assume que os atributos existentes já estão em uma forma apropriada.. porém: parte deles pode ser irrelevante parte deles pode ser redundante Essa parte pode ser significativa e comprometer a qualidade de AM (maldição da dimensionalidade) em áreas como text mining e bioinformática.

Seleção de Atributos Pode ser feita por: Ordenação Ordena os atributos de acordo com sua relevância e seleciona um subconjunto dos mais relevantes segundo alguma medida relevante para discriminar classes individualmente (classificação) relevante para prever a saída individualmente (regressão) Relevância: Estatística ou Teoria da Informação depende da natureza do problema e dos atributos envolvidos Seleção de subconjunto Seleciona subconjunto de atributos mutuamente relevantes 85 Seleção de Atributos Atributos originais 1 4 1 Atributos originais 1 2 3 4 5 6 7 8 9 10 2 7 2 3 2 3 4 6 4 5 9 5 6 7 8 5 8 9 10 8 3 Seleção por Ordenação Atributos ordenados 1 10 6 7 9 10 Subconjunto de atributos Seleção de Subconjunto 86 1 2 3 4 5 6 7 8 9 10 43 .

Dores 88 44 .Enjôo 2.Manchas 3.Febre 4.Exemplo Simples Ordenar os atributos mais importantes para o diagnóstico de pacientes Febre 1 0 1 1 1 0 Enjôo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnóstico 0 1 1 0 1 0 87 Exemplo Simples Dado que temos apenas atributos binários podemos estimar a relevância segundo uma abordagem muito simples: Febre 1 0 1 1 1 0 Enjôo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnóstico 0 1 1 0 1 0 Escores: Febre: 3/6 Enjôo: 4/6 Manchas: 4/6 Dores: 1/6 Ranking: 1.

Nota A estimativa de relevância anterior possui apenas um caráter pedagógico.. pois: Não considera que um atributo discriminante dado pela negação do atributo meta seria tão exato quanto o próprio atributo meta Não considera que os atributos são assimétricos não existe sintoma que discrimine pacientes saudáveis não apresentam sintomas ou apresentam sintomas devido a outras patologias distintas daquela que se quer discriminar 89 Exercício Ordenar os atributos mais importantes (A1..A5) para o diagnóstico correto A1 0 1 0 1 0 1 A2 0 1 0 0 1 0 A3 1 1 1 0 0 0 A4 1 1 0 0 1 0 A5 1 0 0 0 0 0 Diagnóstico 0 1 1 0 1 1 90 45 .

ortogonais – PCA) O melhor subconjunto é aquele mais complementar ! 92 46 .. N de atributos Note que o número de possíveis combinações de n dentre N atributos é.Seleção de Atributos Vantagem da ordenação Complexidade linear com o no.. N N!  =  n  ( N − n)!n!   91 Seleção de Atributos Deficiência da ordenação Despreza correlação e redundância entre atributos atributos podem ser inúteis sozinhos porém úteis em conjunto ou podem ser tão úteis sozinhos quanto em conjunto Melhores n atributos dificilmente constituem o melhor subconjunto de n atributos só se forem descorrelacionados (p. ex.

medidas de correlação / informação mútua entre atributos medidas de relevância e redundância privilegiam conjuntos de atributos muito relacionados com a saída desejada e pouco relacionados entre si 94 47 . por exemplo. que é usado para guiar o processo de seleção Embarcados (Embedded) seleção de atributos ocorre naturalmente e internamente como parte do algoritmo de AM 93 Filtros Utilizam alguma heurística para executar uma busca.Seleção de Atributos Taxonomia independente: Filtros seleção de atributos é realizada a priori e não envolve o algoritmo de AM a ser aplicado depois (algoritmo alvo) Wrappers seleção de atributos envolve o algoritmo de AM alvo. no espaço de subconjuntos de atributos. guiada apenas por propriedades intrínsecas aos próprios dados Não envolve o algoritmo de AM alvo Critérios de busca podem ser.

o que pode levar a resultados inferiores 96 48 .Filtros Têm como vantagem a rapidez de processamento Veja o exemplo simples de seleção por ordenação ilustrado anteriormente! Trata-se de um filtro! 95 Filtros Têm como desvantagem guiar a seleção de forma indireta.

baseado no classificador Naive Bayes ! 97 Wrappers 98 49 . guiada pelo algoritmo de AM alvo O uso do algoritmo alvo implica guiar a busca diretamente em direção aos atributos que maximizam o seu desempenho No entanto. em geral implica tornar o método muito custoso (possivelmente proibitivo) em termos computacionais Veremos posteriormente no curso um exemplo viável computacionalmente. no espaço de subconjuntos de atributos.Wrappers Utilizam alguma heurística para executar uma busca.

2006) Seções 2.Abordagens Embarcadas Seleção de atributos faz parte da estratégia de aprendizado do modelo ocorre naturalmente e internamente como parte do algoritmo de AM Estudaremos um exemplo clássico de abordagem embarcada posteriormente no curso Classificadores baseados em Árvores de Decisão ! 99 Leitura e Outros Exercícios Capítulo 2 (Tan et al.3.5 100 50 ..1 a 2.

Steinbach. 101 51 . and Kumar. 1999. M. Neural Networks: A Comprehensive Foundation. V. Addison-Wesley. 2006 Haykin. S. Tan.. 2nd Edition... Introduction to Data Mining.Bibliografia P.-N.