• Nenhum resultado encontrado

Preparação dos Dados 1

N/A
N/A
Protected

Academic year: 2021

Share "Preparação dos Dados 1"

Copied!
38
0
0

Texto

(1)

1

(2)

Preparação dos Dados

 

Compreensão dos dados

 

Limpeza

 

Metadado

 

Valores Perdidos

 

Formato de data unificado

 

Nominal para numérico

 

Discretização

 

Seleção de atributos e “falsos preditores”

 

Distribuição desbalanceada de classes

(3)

3

Processo de Descoberta de Conhecimento

Estima-se que a

Preparação dos Dados

consume 70-80% do

tempo e esforço

(4)

Entendimento dos Dados: Relevância

 

Que dados estão disponíveis para a tarefa?

 

Os dados são relevantes?

 

Há dados relevantes adicionais?

 

Qual a quantidade de dados históricos

disponível?

(5)

5

Entendimento dos Dados: Quantidade

  Número de instâncias (registros)

  Heurística: 5000 ou mais é desejável

  Se menos, os resultados são menos confiáveis; use métodos especiais

(cross-validation, boostrap, ...)

  Caso o conjunto seja muito grande, use métodos de seleção de instâncias

  Número de atributos (campos)

  Caso o número de atributos seja muito “alto”, use seleção ou redução de

atributos

  “Alto” vai depender, entre outras coisas, do número de instâncias disponível   5000 instâncias em que cada instância possui 600 atributos X 200

instâncias em que cada instância possui 600 atributos

  Número de instâncias por classe

  Para conjuntos desbalanceados (número de instâncias por classe

(6)

Limpeza do Dados: Passos

 

Aquisição de dados e metadados

 

Valores perdidos

 

Formato de data unificado

 

Conversão de dados nominal para numérico

 

Discretização de dados numéricos

(7)

7

Limpeza dos Dados: Aquisição

  Os dados podem estar em SGBD   ODBC, JDBC

  Dados em flat file (tabela de dados)   Formato largura fixa

  Formato delimitado: TAB, ponto-e-vírgula, ...

  O formato ARFF do WEKA usa vírgula como delimitador

  Atenção: converte também “delimitadores” dentro de

valores de atributos do tipo string

(8)

Limpeza dos Dados: Metadados

  Tipos de atributos

  Nominal, ordinal, numérico (escalar e razão)

  Para atributos nominais, definir tabelas que traduzam a codificação para as descrições completas

  Papel do atributo

  Entrada: instâncias para a modelagem (e.g., criação de uma árvore de decisão)

  Objetivo: saída

  Identificação da Instância: mantenha-o, mas não o use para a modelagem

  Ignore: não o use para a modelagem   Peso: peso da instância

  ....

(9)

9

Limpeza dos Dados: Reformatação

  Conversão dos dados para um formato padrão (e.g.,

ARFF ou CSV)

  Valores perdidos

  Formato unificado para data

  Discretização de dados numéricos

  Correção de erros e observações atípicas (outliers)

  Conversão de atributos ordinais para numérico (caso a

implementação do método a ser utilizado não trabalhe diretamente com esse tipo de atributo)

 

Por quê? Para ser capaz de utilizar comparações

(10)

10

Limpeza dos Dados: Valores Perdidos (1/4)

  Dados perdidos

  Valor de atributo não disponível de uma instância sobre a qual outros

valores de atributos estão disponíveis

  Processo de dados perdidos

  Qualquer evento sistemático externo ao respondente (como erros na

entrada de dados ou problemas na coleta de dados) ou ação por parte do respondente (como recusa a responder) que conduz a valores

perdidos

  Alguns processos de dados perdidos são fáceis de identificar e resolver   Por exemplo, o valor de um atributo “anos-de-casado” seria

inexistente (não aplicável) no caso de instâncias que representem adultos que nunca foram casados

  Outros processos de dados perdidos não são tão fáceis de identificar e

acomodar

  Por exemplo, em certos contextos, o valor de um atributo “renda”

(11)

11

Limpeza dos Dados: Valores Perdidos (2/4)

  Identificação do processo de dados perdidos

  Os dados perdidos estão distribuídos ao acaso pelas instâncias ou são

padrões distintos identificáveis?

  Qual é a freqüência dos dados perdidos?

  O impacto dos dados perdidos é prejudicial:

  Tendências “ocultas” potenciais sobre o resultado

  Impacto prático no tamanho do conjunto de dados (amostra)

disponível

  Se atitudes corretivas sobre dados perdidos não são aplicadas, qualquer

instância com atributos com valores perdidos será excluída da base de dados

(12)

Limpeza dos Dados: Valores Perdidos (3/4)

  Dados perdidos ao acaso

  Considere, para fins de ilustração, dois atributos X (e.g., “sexo”) e Y (e.g., “renda”) de um

conjunto de instâncias m (e.g., clientes de um banco). X não apresenta dados perdidos para as m

instâncias, mas Y tem alguns. Se um processo de dados perdidos é identificado entre X e Y, em que há diferenças significastes nos valores de X que entre os casos para Y com dados válidos e

perdidos, então os dados perdidos não aleatórios.

  Qualquer análise deve acomodar explicitamente o processo de dados perdidos entre X e Y, sob

pena de serem introduzidas tendências nos resultados

  Exemplo:

  Atributos “sexo” e “renda”

  Primeiro, formaríamos dois grupos de instâncias, aquelas com dados perdidos para renda familiar e e aquelas que possuem este valor

  Compararíamos então os percentuais de “sexo” para cada grupo

  Se um sexo (e.g., masculino) fosse encontrado em maior proporção no grupo de dados perdidos, suspeitaríamos de um processo de dados perdidos não-aleatório

  Teste t-student para valores numéricos

  Deve-se analisar vários atributos para ver se um padrão consistente aparece

  Um segundo tratamento, uso correlações dicotomizadas para avaliar dados perdidos para qualquer par de atributos

(13)

13

Limpeza dos Dados: Valores Perdidos (4/4)

  Dados completamente perdidos ao acaso

  Nesses casos, os valores observados de Y (e.g., “renda”) são

verdadeiramente uma amostra aleatória de todos os valores de Y, sem qualquer processo inerente que conduza a tendências para os dados observados

  No exemplo anterior, isso seria mostrado pelo fato de que dados perdidos

para renda familiar seriam perdidos ao acaso em iguais proporções tanto para o sexo masculino quanto para o feminino

  Se essa é a forma do processo de dados perdidos, quaisquer atitudes

corretivas podem ser aplicadas sem levar em consideração o impacto de qualquer outra variável ou do processo de dados perdidos

(14)

Dados Completamente Perdidos ao Acaso (1/2)

  Tratamento

  Abordagem de caso completo

  Incluir na base de dados apenas aquelas instâncias com dados completos

  Mais apropriada a casos nos quais a quantidade de dados perdidos é pequena,

o conjunto de dados (amostra) é suficientemente grande para permitir a exclusão das instâncias com dados perdidos

  Desconsidere instância(s) e/ou atributo(s)

  Determina-se a extensão dos dados perdidos em cada instância e atributo. Baseado nisto, são excluídos as instâncias e/ou atributos com níveis excessivos

  De fato, pode-se descobrir que os dados perdidos estão concentrados em um pequeno subconjunto de instâncias e/ou atributos, sendo que sua exclusão reduz substancialmente a extensão dos dados perdidos

  Não existem orientações seguras sobre o nível necessário para a exclusão, mas qualquer decisão deve ser baseada em considerações empíricas e teóricas

  Se são descobertos valores perdidos no atributo que representa a “classe” (saída

desejada), também chamada de variável dependente, a referida instância é excluída do conjunto de dados

  Se um atributo é eliminado, é recomendável que existam atributos alternativos que sejam altamente correlacionados com este, tal que possa representa sua influência

(15)

15

Dados Completamente Perdidos ao Acaso (2/2)

  Tratamento

  Método de atribuição

  Atribuição é o processo de estimação de valores perdidos com base em valores

válidos de outros atributos ou instâncias na base de dados

  Substituição pela média (ou moda): troca os valores perdidos de um dado

atributo pelo valor médio do atributo para todo o conjunto (ou para o valor médio do atributo apenas para as instâncias na mesma classe)

  Atribuição por carta marcada: similar ao anterior, apenas o valor é definido é

definido por fontes externas

  Atribuição por regressão: análise de regressão é usada para prever os

valores perdidos de um atributo com base em sua relação com outros atributos no conjunto de dados

  Atribuição múltipla: dois os mais métodos de atribuição são usados para

derivar uma estimativa composta para o valor perdido

  Válido apenas para atributos com valores métricos

  Por exemplo, como substituir o valor perdido para um atributo nominal como

(16)

Limpeza dos Dados: Formato de Data

Unificado

  Todas as datas devem ser transformadas para o mesmo

formato interno

  Alguns sistemas aceitam datas em vários formatos

  “Sep 24, 2004”, 9/24/03, 24.09.2003, entre outros

  Datas são transformadas internamente para um valor

padrão

  Representação de datas como AAAAMM ou AAAAMMDD

pode ser OK, mas tem problemas:

 

AAAAMMDD não preserva intervalos:

(17)

17

Opções de Formato de Data Unificado

  A fim de se preservar intervalo, podemos usar

  Sistema de data do Unix: número de segundos desde

1970

  Número de dias desde 01/Jan/1960 (SAS)

  Problemas

 

Valores não são óbvios

 

Não ajuda a intuição e descoberta de

conhecimento

 

Mais difícil de verificar, mas fácil de cometer um

(18)

Formato de Data KSP

dias_iniciando_Jan_1 - 0.5

  Data KSP = AAAA + ---

365 + 1_se_ano_bissexto

  Preserva intervalo (quase)

  O ano, como também suas subdivisões (semestres,

trimestres, etc.) são óbvios

  01/01/2005 é: 2005 + (1 - 0.5)/365 = 2005.0014

  31/03/2005 é: 2005 + (90 - 0.5)/365 = 2005.2452

  30/06/2005 é: 2005 + (181 - 0.5)/356 = 2005.4945

(19)

19

Conversão: Nominal para Numérico

  Algumas técnicas de AM manipulam internamente apenas

com valores nominais

  Outras (redes neurais, regressão, k-NN) só trabalham com

entradas numéricas

  Os valores de atributos nominais precisam ser

transformados em valores numéricos

  Existem estratégias diferentes para atributos com valor

(20)

Conversão: Binário para Numérico

  Atributos binários

  Exemplo: Sexo = (M)asculino ,(F)eminino

  Converta para o Atributo_0_1 com os valores 0,1

  Sexo = M ⇒ Sexo_0_1 = 0

(21)

21

Conversão: Ordinal para Numérico

  Atributos ordinais (e.g., grau_de_satisfação com um

produto) podem ser convertidos para números preservando a ordem natural

  Muito Satisfeito ⇒ 0.8

  Satisfeito ⇒ 0.6

  Pouco Satisfeito ⇒ 0.4

  Insatisfeito ⇒ 0.2

  Por que é importante preservar a ordem natural?

  Para permitir comparações que façam sentido:

(22)

Conversão: Nominal - Poucos Valores

  Atributos nominais multi-valorados um número pequeno

de possíveis valores (e.g., < 20)

  Religião = Católica, Protestante, Budista, ..., Outras

  Para cada valor v de Religião, crie um um atributo binário

(23)

23

Conversão: Nominal - Muitos Valores

  Exemplos

  Código Postal (CEP) de uma cidade

  Profissão (7000 valores, apenas algumas são mais

freqüentes)

  Ignore atributos cujos valores são únicos para cada instância:

RG, CPF, matrícula SIAPE, ...

  Para outros atributos, agrupe valores “naturalmente”

  150 bairros (CEP) de Recife ⇒ 3 ou 5 regiões

  Profissões - selecione a mais freqüentes, agrupe o resto

(24)

Limpeza dos Dados: Discretização

  Alguns algoritmos de AM manipulam apenas com atributos

com valores nominais

  Algumas implementações do Naive, CHAID, ...

  Para usá-los com bases de dados gerais, os atributos

numéricos têm que ser, primeiro, “discretizados” em um pequeno número de intervalos distintos

  Além disso, embora a maioria dos algoritmos de indução de

árvore de decisão ou regras possam lidar com atributos com valores numéricos, algumas implementações tornam-se

muito lentas quando este tipo de atributo está presente

  No processo de indução, os valores desses atributos são

(25)

25

Discretização: Intervalos com Largura Fixa

Low <= valor < High = Caixa Largura Fixa

[64,67) [67,70) [70,73) [73,76) [76,79) [79,82) [82,85

]

Temperatura:

64 65 68 69 70 71 72 72 75 75 80 81

83 85

2

2

Contador

4

2

0

2

2

(26)

Discretização: Intervalos com Largura Fixa

  Não leva em consideração as classes no conjunto de dados -

discretização não-supervisionada

  Pode destruir distinções que poderiam ser útil para o

algoritmo de aprendizado

  Tamanho do intervalo muito pequeno ou grande que

termina por colocar, para o atributo, muitas instâncias de classes diferentes juntas

(27)

27

Discretização: Entropia

  Mesmo critério usado para a divisão de um atributo numérico

em árvores de decisão

  Ganho de Informação (Intervalo) = Entropia-Atual -

Entropia-Depois-Divisao-do-Intervalo

  A cada passo, escolha o Intervalo para o qual o Ganho de

Informação é máximo

  Leva em consideração as classes no conjunto de dados -

discretização supervisionada

  Exemplo - Temperatura

  64 65 68 69 70 71 72 75 80 81 83 85

  Y N Y Y Y N N Y N Y Y N

(28)

Limpeza dos Dados: Observações Atípicas

(Outliers)

  Uma instância com uma combinação única de valores de

atributos identificáveis como sendo notadamente diferente das outras instâncias

  As instâncias atípicas não podem ser categoricamente

caracterizadas como benéficas ou problemáticas

  Devem ser vistas no contexto da análise e avaliadas pelos

tipos de informação que possam fornecer

  Benéficas: podem ser indicativas de características da

população que não seriam descobertas no curso normal da análise

  Problemáticas: não são representativas da população, são

contrárias aos objetivos da análise e podem confundir os algoritmos de aprendizado

(29)

29

Por que ocorrem observações atípicas?

  Erro na entrada de dados ou codificação

  Essas observações devem ser eliminadas da amostra - ou

os valores atípicos devem ser considerados como dados perdidos

  Resultado de um evento extraordinário, o que explica a

peculiaridade da observação

  Deve-se decidir se essa observação deve fazer parte da

amostra (conjunto de dados)

  Resultado de em evento extraordinário, mas que não há

explicação

  Em geral, são descartadas da amostra

  Observações que estão no intervalo usual de valores para

cada atributo, mas são únicas em suas combinações de valores entre atributos

(30)

30

Identificação de observações atípicas

  Detecção univariada

  Padronizar os valores dos atributos: média de 0 e desvio-padrão de 1   Considerar como observações atípicas aquelas instâncias que possuam

valores de atributos com escore padrão 2.5 (4.0 para amostras como mais de 80 instâncias) ou mais

  Detecção bivariada

  Pares de atributos podem ser analisados conjuntamente por meio de

um diagrama de dispersão (gráficos bidimensionais)

  Instâncias que notoriamente estão fora do intervalo das outras

observações podem ser percebidos como pontos isolados no diagrama de dispersão

  Detecção multivariada

  A posição multidimensional de cada instância é medida em relação a

um ponto comum

  A medida D2 de Mahalanobis pode ser usada para esse propósito   Ela é uma medida da distância, em um espaço multidimensional,

de cada instância em relação ao centro médio das instâncias Testes estatísticos de signifîcância

(31)

31

Limpeza dos Dados: Transformações de Dados (1/4)

  Um atributo pode ter uma característica indesejável, como

não normalidade

  Por exemplo, muitos implementações do Naive assumem

que a ocorrência dos valores de atributos numéricos obedecem a uma distribuição normal

  Atributos medidos em escalas com grau de magnitude muito

diferente apresentam características indesejáveis:

  Quando medidas de distâncias são usadas (k-NN,

métodos de agrupamento)

(32)

Limpeza dos Dados: Transformações de Dados (2/4)

  Transformações para atingir normalidade (para um atributo X)

  Distribuições “achatadas”   Distribuições negativas   Distribuições positivas

1/X

SQRT(X)

Log X

(33)

33

Limpeza dos Dados: Transformações de Dados (3/4)

  Transformações para conseguir linearidade (par de atributos X e

Y) Y X Y2 X2 Y X

Log Y; -1/Y; SQRT(Y)

Y X X2 Y X Y2 Log X; -1/X; SQRT(X)

Log Y; -1/Y; SQRT(Y)

(34)

Limpeza dos Dados: Transformações de Dados (4/4)

  Transformação por causa de unidades diferentes ou

dispersões muito heterogêneas

  Escalonamento para [0,1] dos valores de um atributo X

 

Valor-Escalonado = (x - min_X)/(max_X - min_X)

  Padronização dos valores de um atributo X (média de

zero e desvio padrão de 1)

(35)

35

PCA - Todas as Componentes

D_PCA = A'*D' 0,7071 0,7071 0,88 -1,67 ... -0,99

(36)

PCA - Apenas 1a. PC

(37)

37

Análise de Componentes Principais

 

Principais Limitações

 

Assume apenas relações lineares entre os atributos

 

A interpretação dos resultados (e.g., classificador

gerado) em termos dos atributos originais pode ficar

mais difícil

(38)

Bibliografia

  Witten, I. H. and Frank, E. (2005). Data Mining: practical

machine learning tools and techniques with Java

implementations. Chapter 7 - Transformations: Engineering

the input and output. pp. 288-343. Morgan Kaufmann.

  Hair-Jr., J. F. et al (2005). Análise multivariada de dados.

Capítulo 3 - Introdução. pp. 23-45. Bookman.

  Smith, L. I. (2002). A tutorial on principal component

Referências

Documentos relacionados

O objetivo desta pesquisa foi investigar o papel da Educação Física na Educação Infantil, considerando-se os objetivos gerais, objetivos específicos, os conteúdos da

98: “En- quanto não permitir o fundo de custeio dos serviços de inspeção, a designação de inspetores especializados para orientação do en- sino da Musica e dos exercícios

sem discriminação”; “...o ensino inclusivo será uma oportunidade das pessoas portadoras de necessidades especiais de mostrar suas potencialidades”; “espero que esta

Aprendizado geral dos jogos esportivos de forma implícita - lúdica Escola da Bola - O ABC da Aprendizagem do Jogo Implícito / Lúdico. O Problema / As causas A solução:

Savants são pessoas que demonstram capacidades superiores em uma inteligência, enquanto suas outras inteligências funcionam num baixo ritmo.. Ex.: Rain Man (baseado numa

Mediação significa que o t rabalho do professor é viabilizar a relação at iva do aluno com a mat éria de est udo, at ravés de obj et ivos, cont eúdos, mét odos e formas

Anche dopo il rilascio bisogna restare nella posizione precedentemente assunta fino al momento dell'impatto della freccia sul bersaglio ed evitare bruschi cali di tensione

1 - Entrada da mão muito próxima da cabeça. 2 - Entrada da mão fora da largura do ombro.. 3 -Tração com o braço fora do alinhamento do corpo.. 4 - Batida com elevação excessiva