You are on page 1of 22

Valores Ausentes

Algoritmos e estratégias para tratamento
Disciplina: Mineração de Dados (PPGEE 0138) - 2º Semestre/2014

G4: Edinaldo de Alencar / Igor Freire / Ramon Araújo / Ricardo Ribeiro

Agenda





Introdução
Mecanismos de valores ausentes
O que fazer com VA’s
Técnicas de Imputação
Imputação por Média e Moda
Imputação Local
○ kNN - Vizinhos mais próximos

● Imputação por Maximização da Esperança
● Aplicações

R
Weka

Introdução ● Valores ausentes: ○ Omissão de dados pela própria fonte de informação ○ Atributo não aplicável ○ Evento não aconteceu ○ Dados indisponíveis ou muito difíceis de serem obtidos Exemplo: Questionário .

Mecanismos de Valores Ausentes ● Completamente Aleatórios (MCAR .Missing Not at Random) ○ Probabilidade de uma amostra (instância) ter um VA depende do próprio valor ausente.Missing Completely at Random) ○ Probabilidade de uma amostra (instância) ter um VA independente dos valores na base de dados. ● Aleatórios (MAR .Missing at Random) ○ Probabilidade de uma amostra (instância) ter um VA depende dos valores observáveis (coletados) na base. . ● Não aleatórios (MNAR .

Mecanismos de Valores Ausentes Exemplo: .

Mecanismos de Valores Ausentes Observações: ● A maioria dos métodos de imputação assume valores ausentes completamente aleatórios (MCAR). . principalmente os VA’s do tipo NMAR. A maioria dos algoritmos supõe VA’s MCAR ou MAR. ● Poucos algoritmos de imputação supõem valores ausentes NMAR. ● É dificil identificar a distribuição de probabilidade dos valores ausentes.

Ignorar instâncias contendo VA’s (listwise deletion) ○ Técnica conservadora. Substituição de valores ausentes (imputação) ○ Substituição de VA’s por valores prováveis ○ Estimação dos valores utilizando o conjunto de dados ○ Método utilizado para imputação é independente do algoritmo de aprendizagem de máquina utilizado .O que fazer com valores ausentes? Alternativas: 1. não “cria” dados ○ Problema: pode ocasionar perda de informações relevantes 2.

Clusterização das amostras da base de dados ii.Técnicas de Imputação ● Imputação pela média ou moda (Mean-mode Imputation .MMImpute) ○ ○ ○ Média para atributos numéricos Moda para atributos categóricos Problema: variância pode tornar-se subestimada ● Imputação local: por “Hot-deck” ou “Cold-deck” ○ ○ Em contraste ao MMImpute. substitui valores diferentes para cada valor ausente Passos do Algoritmo: i. Associação das instâncias com VA’s aos clusters mais próximos iii. Substituição dos VA’s por valores baseados nas instâncias completas (sem VA’s) do cluster a que pertencem .

Técnicas de Imputação ● Métodos Preditivos: ○ ○ ○ Atributo que contém os VA’s é definido como atributo classe e os demais atributos são utilizados para computação de um modelo Baseado no modelo. faz-se a predição dos VA’s Exemplos: ■ Árvores de Decisão (para atributos categóricos) ■ Naïve Bayes ■ Regressão .

contínuos ou discretos.Imputação pela Média ou Moda (MMImpute) ● A média é uma estimativa razoável para variáveis com distribuição de probabilidades normal. ● É aconselhável a utilização para uma base de dados com poucos valores ausentes do tipo MCAR. . ● Aplicável tanto para valores categóricos (moda) quanto numéricos (média).

Imputação pela Média ou Moda (MMImpute) .

Imputação pela Média ou Moda (MMImpute) .

Imputação pela Média ou Moda (MMImpute) .

00 Instância com VA: Superior 2 Sim NA .500.000.500.200.00 Superior 0 Sim R$4.00 Superior 2 Sim R$7.00 Médio 2 Não R$1.500.Imputação local ● Imputação “Hot-deck” ou “Cold-deck” ○ “Hot” e “Cold” diferem quanto ao processo de agrupamento .kNNImpute) Exemplo: Escolaridade Filhos Carro Renda Mensal Superior 2 Sim R$6.00 Médio 1 Não R$1.00 Superior 1 Sim R$5.500.“Cold” ○ utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais próximos (K-Nearest Neighbors .

200.00 Médio 1 Não R$1.500.00 Superior 2 Sim R$8.Imputação local ● Imputação “Hot-deck” ou “Cold-deck” ○ “Hot” e “Cold” diferem quanto ao processo de agrupamento .00 .500.750.“Cold” ○ utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais próximos (K-Nearest Neighbors .500.500.kNNImpute) Exemplo: Escolaridade Filhos Carro Renda Mensal Superior 2 Sim R$7.000.00 Superior 0 Sim R$4.00 Instância com VA: Cluster Superior 2 Sim NA Valor substituído: média entre as rendas das instâncias do cluster NA Substituído por R$7.00 Médio 2 Não R$1.00 Superior 1 Sim R$5.

Vizinhos mais próximos ● Exemplo ilustrativo: .Imputação kNN .

.Vizinhos mais próximos Vantagens: ● ● ● Pode lidar com atributos numéricos e nominais.Imputação kNN . Não necessita do treinamento de um modelo para cada atributo com valores ausentes (lazy learner). Pode lidar com instâncias com vários valores ausentes. Desvantagem: ● Necessidade de percorrer toda a base para encontrar os vizinhos mais próximos para cada instância com valor ausente.

Imputação kNN .Vizinhos mais próximos ● Algoritmo: .

Vizinhos mais próximos Escolha do número de vizinhos (k): ● Relação de compromisso entre viés e variância.Imputação kNN . ● Tendência com a diminuição de k: ○ Aumento da variância ○ Diminuição do viés ● Tendência com o aumento de k: ○ Diminuição da variância ○ Aumento do viés .

” O modelo estatístico dos dados é estimado por meio da maximização da função log-verossimilhança. ○ Sistema de equações complexo 1º: Etapa de Expectativa (Passo E) 2º: Etapa de Maximização (Passo M) Solução Iterativa .Imputação EM (Expectation Maximization) ● ● Schafer: “Se soubéssemos os parâmetros do modelo dos dados. seria possível obtermos predições não-tendenciosas (unbiased) dos valores ausentes.

. real/discreta. e MAR com mais do que 20% de dados ausentes. ● Opera com base de dados numérica. ● Algoritmo preliminar em técnicas mais complexas (imputação múltipla). ● Problemático para ausências de dados MNAR.Imputação EM (Expectation Maximization) ● Supera as deficiências do MMImpute e substituição por regressão.

Dissertação ICMC-USP. W. 2012 Fourth International Conference on Advanced Computing (ICoAC). Dec. A.2 (2002): 147. Missing Value Imputation Techniques Depth Survey And an Imputation Algorithm To Improve The Efficiency Of Imputation. A.4(2005). Joseph L. J.Referências ● SILVA. S. Missing data: Our View of the State of the Art. Alan C. Abr. SUMATHI. ● THIRUKUMARAN.. ● SCHAFER.. Journal of Marriage and Family 67. 2010. ● ACOCK. Working with Missing Values. Psychological methods 7. . GRAHAM. Substituição de valores ausentes: uma abordagem baseada em um algoritmo evolutivo para agrupamento de dados. J. 2012.