aula03 cap2(cont) preprocessamento

(1)

Tópicos Especiais em Computação: Aprendizado de Máquina

Cap 2: Análise e Pré-processamento de dados

Prof. Jefferson Morais Email: jmorais@ufpa.br

UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS

(2)

Pré-processamento

 _{Desempenho dos algoritmos de AM} _{é geralmente afetado pelo}

estado dos dados

 _{Conjunto de dados podem apresentar diferentes características, dimensões ou}

formatos

 _{Atributos numéricos ou simbólicos}  _{Limpos ou com ruídos e imperfeições}

 _{Valores incorretos, inconsistentes, duplicados ou ausentes (missing)}  _{Atributos independentes ou relacionados}

 _{Poucos ou muitos dados e/ou atributos}

 _{Técnicas de pré-processamento são úteis: minimizar/eliminar problemas}

nos dados; tornar os dados mais adequados para uso por um algoritmo de AM

(3)

Pré-processamento

 _{Grupo de operações de pré-processamento}

 _{Eliminação manual de atributos}  _{Integração de dados}  _{Amostragem de dados}  _{Redução de dimensionalidade}  _{Balanceamento de dados}  _{Limpeza de dados}  _{Transformação de dados}

 _{Observação: não existe uma ordem fixa para aplicação das}

(4)

Eliminação Manual de Atributos



_{Alguns atributos não possuem relação com o}

problema a ser solucionado e por isso podem

ser descartados

_{Há atributos que claramente não contribuem para}

o aprendizado

_{Ex: Os atribituos ID e Nome no conjunto de dados}

hospital não contribuem para estimar se um paciente tem doença ou não

(5)

Eliminação Manual de Atributos



_{Normalmente, o conjunto de atributos é}

definido de acordo com a experiência do

especialista

_{Ex: o especialista (médico) pode decidir que}

atributos associados à identificação do paciente, nome do paciente e ao estado de origem do

paciente não são relevantes para o seu diagnóstico clínico

(6)

Eliminação Manual de Atributos



_{Conjunto de dados hospital sem atributos}

considerados irrelevantes

(7)

Eliminação Manual de Atributos

 _{Outro atributo irrelevante facilmente detectado:}

 _{Atributo que possui o mesmo valor para todos os dados}  _{Não carregar informação suficiente para ajudar a distingui-los}

 _{Há ainda atributos irrelevantes de identificação não}

tão clara

 _{Técnicas de seleção de atributos (feature selection) podem} ajudar a descobrir

(8)

Integração de dados

 _{Dados podem vir de diferentes fontes}

 _{ Integração de diferentes conjuntos de dados}

 _{Cada um pode ter atributos diferentes para os mesmos dados}

 _{Assim, é necessário identificar quais são os dados que estão}

presentes nos diferentes conjuntos de dados a serem combinados

 _{Problema da identificação de entidade}

 _{Normalmente realizada por meio da busca por atributos comuns nos}

conjuntos a serem combinados que tenham valor único para cada dado

(9)

Integração de dados

 _{Alguns aspectos podem dificultar a integração}

 _{Atributos correspondentes podem ter nomes diferentes em diferentes bases}

de dados

 _{Dados podem ter sido atualizados em momentos diferentes}

 _{Para minimizar esses problemas usa-se metadados}

 _{Metadados: dados sobre dados que descrevem suas principais características}

 _{O processo de integração origina um depósito ou repositório de dado}

(10)

Amostragem de dados

 _{Algoritmos de AM podem ter dificuldades em lidar}

com um número grande de dados

 _{Saturação da memória}

 _{Aumento do tempo computacional para ajustar os}

parâmetros do modelo

 _{Por outro lado, quanto mais dados, maior tende a ser}

a acurácia do modelo

 _{Busca-se balanço entre eficiência computacional e acurácia}

(11)

Amostragem de dados

 _{Amostra ou subconjunto de dados}

 _{Pode levar ao mesmo desempenho do conjunto completo, a}

menor custo computacional  _{Deve ser representativa}

 _{A amostra deve representar aproximadamente as mesmas}

propriedades do conjunto de dados original

 _{Fornecer uma estimativa da informação contida na população}

original

 _{Uso deve ter efeito semelhante ao de toda a população}  _{Permitir conclusão do todo a partir de uma parte}

(12)

Amostragem de dados



_{Existem basicamente três abordagens para}

amostragem

_{Amostragem aleatória simples} _{Amostragem estratificada}

(13)

Amostragem de dados

 _{Amostragem aleatória simples}

 _{Possui duas variações}

 _{Sem reposição de exemplos: exemplos são extraídos do conjunto} original e cada exemplo pode ser selecionado uma vez

 _{Com reposição: quando uma cópia dos exemplos selecionados é} mantida no conjunto de dados original

 _{As duas formas são semelhantes quando tamanho da amostra é bem} menor que o conjunto original

(14)

Amostragem de dados

 _{Amostragem estratificada}

 _{Usada quando as classes apresentam propriedades}

diferentes (ex. Número de dados diferentes)

 _{Na classificação cuidado na amostragem diz respeito à}

distribuição dos dados nas diferentes classes

 _{A existência de classes como uma quantidade significativamente}

maior de exemplos pode levar o algoritmo de AM a induzir as classes majoritárias

 _{Variações: manter o mesmo número de objetos para cada}

(15)

Amostragem de dados

 _{Amostragem progressiva}

 _{Começa com amostra pequena e vai aumentando} enquanto acurácia preditiva continuar a melhorar

 _{Resultado: é possível definir a menor quantidade de dados} necessária, reduzindo ou eliminando a perda de acurácia  _{O tamanho pode ser confirmado com outras amostras de}

tamanho semelhante

(16)

Amostragem de dados

(17)

Amostragem de dados



_{Especialista do domínio também pode auxiliar}

a decidir subconjuntos de dados a serem

usados

_{Ex: em uma análise de pacientes em um hospital,}

podem ser utilizados apenas os dados referentes ao sexo feminino

(18)

Dados Desbalanceados

 _{Tópico da área de classificação de dados}

 _{Em vários conjuntos de dados reais, o número de dados varia}

paras as diferentes classes

 _{Típico da aplicação}

 _{Ex. 80% dos pacientes que vão a um hospital estão doentes}

 _{Problema na geração/coleta dos dados}

 _{Classe majoritária}

 _{Contém a maior parte dos exemplos}

 _{Classe minoritária}

(19)

Dados Desbalanceados

 _{Acurácia preditiva de classificador deve ser maior que a obtida} atribuindo um novo objeto à classe majoritária

 _{Vários algoritmos de AM têm o desempenho prejudicado para dados muito} desbalanceados

 _{Tendem a favorecer a classificação na classe majoritária}  _{Alternativas para lidar com dados desbalanceados}

 _{Obter novos dados para a classe minoritária}

 _{Na maioria dos casos não é possível}

 _{Balancear artificialmente o conjunto de dados}

 _{Redefinir o tamanho do conjunto de dados; Usar diferentes custos de} classificação para as classes; induzir um modelo para uma classes

(20)

Dados Desbalanceados



_{Técnicas de rebalanceamento}

_{Redefinir o tamanho do conjunto de dados}

 _{Acréscimo/eliminação de exemplos na classe}

minoritária/majoritária

 _{Acréscimo: risco de objetos que não representam}

situações reais e overfitting

 _{Eliminação: risco de perda de objetos importantes e}

(21)

Dados Desbalanceados



_{Técnicas de rebalanceamento}

_{Usar custos de classificação diferentes para as}

classes

_{Dificuldades: definição dos custos, incorporar}

custos em alguns algoritmos de AM

_{Pode apresentar baixo desempenho quando}

muitos objetos da classe majoritária são semelhantes

(22)

Dados Desbalanceados

 _{Técnicas de rebalanceamento}

 _{Induzir modelo para uma única classe}

 _{Técnicas de classificação para uma classe, treinadas usando}

somente exemplos de uma classe

 _{Aprendem classe(s) separadamente}  _{Outros uso de one-class classification}

 _{Detecção de novidades (ex. falhas em máquinas)}  _{Detecção de outliers}

 _{Comparação de conjuntos de dados (evitar retrinar classificadores} para dados semelhantes)

(23)

Limpeza de dados

 _{Qualidade dos Dados}

 _{Em geral, dados não foram produzidos para uso em AM}  _{Exemplos de problemas}

 _{Ruídos: erros ou valores diferentes do esperado}

 _{Incosistências: não combinam/contradizem valores de outros}

atributos no mesmo dado

 _{Redudâncias: dados/atributos com mesmo valores}  _{Dados incompletos: ausência de valores de atributos}  _{Principal dificuldade: detecção de dados ruidosos}

(24)

Limpeza de dados



_{Exemplos de causas de erros}

_{Falha humana}

_{Falha no processo de coleta de dados} _{Limitações do dispositivo de medição} _{Valor do atributo com o tempo}

_{Alguns erros são sistemáticos e mais fáceis de}

(25)

Limpeza de dados



_{Consequências}

_{Valores ou objetos inteiros podem ser perdidos}

_{Objetos espúrios ou duplicados podem ser obtidos}

 _{Ex: diferentes registros para mesma pessoa que morou}

em endereços diferentes

_{Incosistências}

(26)

Limpeza de Dados

 _{Algumas técnicas de AM conseguem lidar com}

algumas imperfeições nos dados

 _{Outras não conseguem ou apresentam dificuldades}

 _{Porém de forma geral, qualidade das análises pode}

ser deteriorada

 _{Todas as técnicas se beneficiam de melhora na}

qualidade dos dados, que pode ser obtida por meio de etapa de limpeza

(27)

Dados incompletos

 _{Ausência de valores para alguns atributos de alguns}

dados

(28)

Dados incompletos

 _{Possíveis causas:}

 _{Atributo não era importante quando primeiros dados foram coletados}

 _{Ex: e-mail do paciente que não era comum na década de 90}

 _{Desconhecimento do valor do atributo}

 _{Ex. não saber tipo sanguíneo de paciente em seu cadastro}

 _{Falta de necessidade/obrigação de apresentar valor}

 _{Ex. Renda de um paciente}

 _{Inexistência de valor para o atributo}

 _{Ex. número de partos para pacientes do sexo masculino}

(29)

Dados incompletos

 _{Algumas técnicas de AM são incapazes de lidar com} valores ausentes

 _{Geram erro de execução}

 _{Alternativas para lidar com valores ausentes:}  _{Eliminar os objetos com valores ausentes}

 _{Definir e preencher manualmente os valores ausentes}

 _{Utilizar método/heurística para definir valores automaticamente}  _{Empregar algoritmos de AM que lidam internamente com}

(30)

Dados incompletos

 _Técnicas

 _{Eliminar objetos}

 _{Mais empregada quando classe está ausente}

 _{Não indicada quando número de atributos com valores ausentes}

varia muito entre os objetos ou quando muitos objetos têm valores ausentes

 _{Definir/preencher manualmente}

 _{Não é factível para muitosvalores ausentes}  _{Usar heurística}

(31)

Dados incompletos

 _{Técnicas para definição automática de valores}

 _{Criar valor “desconhecido”}

 _{Comum a todos ou diferente para cada atributo}

 _{Utilizar média/moda/ mediana dos valores conhecidos}  _{Usando todos os objetos ou somente aqueles da mesma classe}

 _{Variação: usar valor mais frequente entre k vizinhos mais próximos}

 _{Usar indutor para estimar o valor}

 _{Valor a ser definido passa a ser o atributo alvo}

(32)

Dados incompletos

 _{Usando a média/moda}

 _{Ex: conjunto de dados hospital}

(33)

Dados inconsistentes

 _{Possuem valores conflitantes em seus atributos}

 _{Nos atributos de entrada}  _{Ex: 3 anos de idade e 100 Kg}

 _{Entre entradas iguais e saída diferente}  _{Ex: conjunto de dados hospital}

(34)

Dados inconsistentes



_{Possíveis causas:}

_Erro/engano

 _{Presença de ruídos nos dados}

_{Proposital (fraude)}

_{Problemas na integração dos dados}

 _{Ex. conjuntos de dados com escalas diferentes para}

(35)

Dados inconsistentes



_{Algumas inconsistências são de fácil detecção:}

_{Violação de relações conhecidas entre atributos}

 _{Ex.: Valor de atributo A é sempre menor que valor de}

atributo B

_{Valor inválido para o atributo}

 _{Ex.: altura com valor negativo}

_{Em outros casos, informações adicionais precisam}

(36)

Dados redundantes

 _{Valores que não trazem informação nova}  _{Objetos redundantes}

 _{Muito semelhante a outro(s) no conjunto de dados}

 _{Ex.: Pessoas em diferentes BDs com mesmo endereço e pequenas}

diferenças nos nomes

 _{Atributos redundantes}

 _{Valor pode ser deduzido a partir do valor de um ou mais atributos}

 _{Possíveis causas:}

 _{Problemas na coleta, entrada, armazenamento, integração ou}

(37)

Dados reduntantes

(38)

Dados reduntantes

 _{Objetos redundantes participam mais de uma vez do}

ajuste do modelo

 _{Pode assim ser considerado um perfil mais importante que o}

dos outros

 _{Pode também aumentar custo computacional}

 _{Passos para eliminar objetos redundantes:}

 _{Identificar as redundâncias}  _{Eliminar as redundâncias}

(39)

Dados redundantes

 _{Atributo redundante: valor pode ser estimado a partir de pelo}

menos um dos demais atributos

 _{Atributos com a mesma informação preditiva}  _{Ex. atributos idade e data de nascimento}

 _{Ex. atributos quantidade de vendas, valor por venda e venda total}

 _{Atributo redundante pode supervalorizar um dado aspecto dos}

dados

 _{Pode também tornar mais lento o processo de indução}

 _{Atributos redundantes são geralmente eliminados por técnicas}

(40)

Dados redundantes

 _{Redundância de atributo está relacionada à sua}

correlação com um ou mais dos demais atributos

 _{Dois atributos estão correlacionados quando têm perfil de} variação semelhante para diferentes objetos

(41)

Ruídos

 _{Objetos que aparentemente não pertencem à} distribuição que gerou os dados

 _{Várias causas possíveis}

 _{Podem levar a superajuste do modelo}

 _{Algoritmo pode se ater às especificidades dos ruídos}  _{Mas eliminação pode levar à perda de informação}

importante

 _{Algumas regiões do espaço de atributos podem não ser}

(42)

Outliers



_{Valores que estão além dos limites aceitáveis}

ou são muito diferentes dos demais (exceções)

(43)

Ruídos



_{Algumas técnicas de pré-processamento para}

detecção e romoção de ruídos

_{Técnicas baseadas em distribuição} _{Técnicas de encestamento}

_{Técnicas baseadas em agrupamento dos dados} _{Técnicas baseadas em distância}

(44)

Ruídos

 _Técnicas

 _{Baseadas em distribuição}

 _{Ruídos identificados como observações que diferem de uma distribuição}

usada na modelagem dos dados

 _{Problema: distribuição dos dados normalmente não é conhecida a priori}

 _Encestamento

 _{Suavizam valor de atributo} 1. Ordena valores de atributo;

2. Divide em cestas (faixas), cada uma com o mesmo número de valores 3. Substitui valores em uma mesma cesta, por ex., por média/moda

(45)

Ruídos

 _Técnicas

 _Agrupamento

 _{Agrupa objetos/atributos de acordo com semelhança}

 _{Atributos/objetos que não formam grupo são ruídos ou outliers}

 _{Objetos colocados em um grupo que pertence a outra classe também são}

considerados ruídos

 _{Baseadas em distâncias}

 _{Presença de ruído em atributo frequentemente faz com que ele se distancie dos}

demais objetos de sua classe

  verificar a que classe pertencem os vizinhos mais próximos de x

 _{Se são de classe diferente, x pode ser ruído ou borderline (próximo à fronteira}

(46)

Ruídos



_Técnicas

_{Baseadas em regressão/classificação}

 _{Usam função de regressão ou classificação para, dado}

um valor com ruído, estimar seu valor verdadeiro

(regressão para atributo contínuo e classificação para simbólico)

(47)

Transformação de Dados



_{Várias técnicas de AM estão limitadas à}

manipulação de valores de determinados

tipos

_{Apenas numéricos ou simbólicos}



_{Algumas técnicas de AM têm seu desempenho}

influenciado pelo intervalo de variação dos

(48)

Conversão Simbólico-Numérico



_{Técnicas com SVM e ANN lidam apenas com dados}

numéricos



_{Atributo nominal com dois valores}

_{Ex: presença/ausência = 1/0}

_{Se ordinal, 0 indica o menor valor e 1 o maior valor} 

_{Atributo nominal com mais valores}

(49)

Conversão Simbólico-Numérico

 _{Atributo simbólico com mais de dois valores}

 _{Inexistência de relação de ordem deve ser mantida}

 _{A diferença entre quaisquer dois valores numéricos deve ser a}

mesma

 _{Codificação canônica (ou topológica): uso de c bits para c} valores

 _{Cada posição na sequência binária corresponde a um valor}

possível do atributo nominal

 _{Cada sequência possui apenas um bit com valor 1}

(50)

Conversão simbólico-numérico

 _{Ex: conjunto de dados hospital}

(51)

Conversão simbólico-numérico

 _{Atributo nominal com mais de dois valores}

 _{Ex: codificação canônica (1-para-c ou topológica)}

(52)

Conversão simbólico-numérico



_{Atributo ordinal com mais que dois valores}

_{Relação de ordem deve ser preservada}

_{Ordenar valores ordinais e codificar cada um de}

acordo com sua posição na ordem com inteiro ou real

(53)

Conversão simbólico-numérico

 _{Conversão atributos ordinal Manchas (Grandes=3,} Médias=2 e Pequenas =1)

(54)

Conversão numérico-simbólico

 _{Algumas técnicas de AM trabalham apenas com valores}

qualitativos. Ex: algoritmos de associação

 _{Atributo discreto e binário  conversão é trivial}  _{Associa um nome a cada valor}

 _{Também se são sequências binárias sem relação de ordem}  _{Demais casos: discretização}

 _{Transforma valores numéricos em intervalos (categorias)}  _{Existem vários métodos diferentes para discretização}

 _{Paramétricos: usuário pode influenciar definição dos intervalos}

 _{Não paramétricos: usam apenas informações presentes nos valores dos}

(55)

Conversão numérico-simbólico

 _{Métodos de discretização podem ser:}  _{Supervisionados: usa informação da classe}

 _{Melhor resultado, não leva a mistura de classes}

 _{Ex. escolher pontos de corte que maximizam pureza dos intervalos (entropia)}  _{Não supervisionados}

 _{Método de discretização deve definir:}

 _{Como mapear valores quantitativos para qualitativos}  _{Tamanho dos intervalos}

(56)

Conversão numérico-simbólico

 _{Algumas estratégias}

 _{Larguras iguais}

 _{Dividir valores em sub-intervalos com mesma largura}

 _{Problema: desempenho afetado pela presença de outiliers}  _{Frequências iguais}

 _{Mesmo número de objetos em cada intervalo}

 _{Problema: pode gerar intervalos de tamanhos muito diferentes}  _{Inspeção visual}

(57)

Conversão numérico-simbólico

(58)

Conversão numérico-simbólico

(59)

Dealing with

numeric attributes

 _{Discretize numeric attributes}

 _{Divide each attribute’s range into intervals}

 _{Sort instances according to attribute’s values}  _{Place breakpoints where the class changes}

(the majority class)

 _{This minimizes the total error}

 _{Example: temperature from weather data}

Outlook Temperature Humidity Windy Play

Sunny 85 85 False No

Sunny 80 90 True No

Overcast 83 86 False Yes

Rainy 75 80 False Yes

(60)

Transformação de Atributos

numéricos

 _{Algumas vezes é necessário transformar o valor de}

um atributo numérico em outro valor numérico  _{Quando o intervalo de valores são muito diferentes,}

levando a grande variação

 _{Quando vários atributos estão em escalas diferentes}  _{Para evitar que um atributo predomine sobre outro}

 _{Porém, em alguns casos pode ser importante}

(61)

Transformação de Atributos

numéricos

 _{Transformação é aplicada a todos os objetos de um}

dado atributo

 _{Uma transformação muito usada: normalização}

 _{Faz com que conjunto de valores de um atributo tenha} uma determinada propriedade

 _{Quando escalas de valores de atributos distintos são muito} diferentes

 _{Evita que um atributo predomine sobre o outro}  _{A menos que isso seja importante}

(62)

Normalização

 _{Deve ser aplicada a cada atributo individualmente}  _{Duas formas}

 _{Por amplitude}

 _{Por reescala: define nova escala (máximo e mínimo) de valores para} atributos

 _{Por padronização: define um valor central e de espalhamento comuns para} todos os atributos

 _{Por distribuição}

 _{Muda a escala de valores}

 _{Ex: Ordena valore dos atributos e substitui cada valor por sua posição no}

ranking (valores 1, 5, 9 e 3 viram 1, 3, 4 e 2)

(63)

Normalização por reescala



_Reescalar:

adicionar/subtrair/multiplicar/dividir por uma

constante



_{Normalização min-max}

_{São definidos inicialmente mínimo e máximo para}

os novos valores

(64)

Normalização por reescala

 _{Normalização da Idade entre 0 (min) e 1 (max). Maior = 49 e Menor =}

(65)

Normalização por reescala

 _{Normalização da Idade entre 0 (min) e 1 (max). Maior = 49 e Menor =}

(66)

Normalização por reescala

(67)

Normalização por reescala

(68)

Normalização por reescala

(69)

Normalização por reescala

(70)

Normalização por reescala

(71)

Normalização por padronização

 _{Para padronizar valores de atributos basta:}

 _{Adicionar/subtrair por uma medida de localização}  _{Multiplicar/dividir por uma medida de escala}

 _{Lida melhor com outliers}

 _{Ex. atributos com média 0 e variância 1:}

 _{Observação: Diferentes atributos podem ter limites superiores e inferiores}

diferentes, mas terão os mesmos valores para as medidas de escala e espalhamento

(72)

Normalização por padronização

 _{Ex: Conjunto de dados hospital}

(73)

Normalização por padronização

(74)

Normalização por padronização

(75)

Normalização por padronização

(76)

Normalização por padronização

(77)

Normalização por padronização

(78)

Normalização por padronização

(79)

Normalização por padronização

(80)

Transformação de atributos

numéricos



_{Outro tipo de transformação: tradução}

_{Valor de um atributo é traduzido por um mais}

facilmente manipulável

 _{Ex: converter data de nascimento para idade}  _{Ex: converter temperatura de F para C}

(81)

Transformação de atributos

numéricos

 _{Outro tipo de transformação: aplicação de função simples}  _{Aplicação a cada valor do atributo}

 _{Ex. log, exp, raiz, seno, 1/x, abs}

 _{Ex. apenas magnitude dos valores é importante fi converter para valor}

absoluto

 _{Funções raiz, log e 1/x: aproximam uma distribuição} Gaussiana

 _{Função log: comprimir dados com grande intervalo de} valores

(82)

Redução de dimensionalidade

 _{Muitos problemas tratados por técnicas de AM}

apresentam um número elevado de atributos

 _{Ex: reconhecimento de imagens e dados de expressão} gênica

 _{Cada pixel ou cada gene for considerado um atributo}

 _{Problema da maldição da dimensionalidade (curse of}

dimensionality)

 _{À medida que cresce o número de parâmetros (atributos)} diminui a capacidade de generalização do classificador

(83)

Maldição da dimensionalidade



_{Supor que os dados são representados por}

pontos em um hipervolume

(84)

Maldição da dimensionalidade

 _{Hipervolume cresce exponencialmente com a adição de}

novos atributos

 _{1 atributo com 10 possíveis valores => 10 possíveis objetos}  _{5 atributos com 10 possíveis valores => 105 possíveis objetos}  _{ problemas com poucos exemplos e muitos atributos:}

 _{Dados se tornam muito esparsos}

_{Sem exemplos em várias das regiões do espaço de}

objetos instâncias parecem equidistantes (dificultando encontrar padrões)

(85)

Maldição da dimensionalidade



_{Número de exemplos necessários para manter}

o desempenho cresce exponencialmente com

o número de atributos

_{Na prática, o número de exemplos de treinamento}

é fixo

(86)

Redução da dimensionalidade

 _Vantagens_:

 _{Alguns algoritmos de AM que têm dificuldades em lidar com número elevado de parâmetros}  _{Melhorar desempenho do modelo induzido}

 _{Identificacão e eliminação de ruídos nos atributos}  _{Reduzir o custo computacional do modelo}

 _{Resultados mais compreensíveis}

 _{Duas abordagens para reduzir a dimensionalidade}

 _{Extração de parâmetros (Feature Extraction)}

 _{Faz um mapeamento do espaço original um espaco de menor dimensão}

 _{Ex: PCA (Principal Component Analysis), que elimina redundâncias por correlação}  _{Seleção de parâmetros (Feature Selection)}

 _{Consiste em identificar e reter apenas os parâmetros que mais contribuem para exucução de uma tarefa}  _{Não modifica os parâmetros apenas escolhe um subconjunto dentre o total de subconjunos possóvies}

(87)

PCA

 _{Conjunto de d atributos (x}1, x2,…, xd)

 _{Transformação linear para um novo conjunto de d atributos pode}

ser calculado como:

 _{Componentes principais (PCs) são tipos especificos de combinação}

(88)

PCA

 _{Propriedades das componentes principais:}

 _{As d componentes principais não são correlacionadas (independentes)}  _{As PCs são ordenadas de acordo com a quantidade de variância dos}

dados originais que elas contêm

 _{Primeira componente “explica” (contém) a maior variabilidade do conjunto de} dados

 _{Segunda componente define próxima parte, e assim por diante}

 _{Em geral apenas algumas das primeiras PCs são responsáveis pela maior}

parte da variabilidade nos dados

(89)

PCA

(90)

Seleção de Atributos

 _Permite

 _{Identificar atributos importantes}

 _{Melhorar o desempenho de várias técnicas de AM}

 _{Reduzir necessidade de memória e tempo de processamento}  _{Eliminar atributos irrelevante e reduzir ruído}

 _{Lidar com maldição da dimensionalidade}  _{Simplificar o modelo gerado}

 _{Tornando mais fácil sua compreensão}  _{Facilitar a visualização dos dados}

(91)

Seleção de Atributos

 _{Na prática, é difícil identificar atributos passíveis de}

eliminação

 _Redundantes

 _Irrelevantes

 _{Algumas razões}

 _{Número grande de exemplos}  _{Número grande de atributos}

 _{Relações complexas entre atributos}

 _{Neste caso necessidade de técnicas automáticas para seleção de}

(92)

Seleção de Atributos

 _{Objetivo: encontrar subconjunto ótimo de atributos de acordo}

com algum critério

 _{Técnicas podem ser classificadas de diferentes formas:}

 _{Quanto à maneira de avaliar os atributos selecionados}  _{Interação com o algoritmo de AM}

 _{Quanto considerar cada atributo individualmente ou em subconjuntos}  _{Quanto à medida de importância usada}

 _{Quanto ao uso ou não da classe}

(93)

Seleção de Atributos

 _{Quanto à avaliação dos atributos:}

 _{Técnicas podem estar integradas a um algoritmo de indução}

(94)

Seleção de atributos

(95)

Seleção de atributos:filtro

 _{Seleção de atributos independente do algoritmo AM}

(96)

Seleção de atributos: filtro

 _Vantagens:

 _{Geralmente mais rápida}

 _{Heurísticas para avaliar os subconjuntos são pouco custosas}  _{Características selecionadas podem ser usadas por diferentes}

algoritmos de AM

 _{Conseguem lidar com uma grande quantidade de dados}

 _Desvantagens

 _{Independência do algoritmo de AM}

 _{Não considerar o viés do algoritmo de AM pode levar a modelos}

(97)

Seleção de atributos: wrapper

 _{Usa algoritmo de AM para avaliar os atributos}

(98)

Seleção de atributos: wrapper

 _Vantagens:

 _{Melhor subconjunto para cada algoritmo de AM}  _{Pode selecionar menos atributos também}

 _{Geralmente leva a modelos com melhor desempenho preditivo/}

descritivo

 _{Desvantagens:}

 _{Risco de overfitting}

 _{Subconjunto depende do algoritmo de AM}  _{Para cada novo algoritmo, deve ser repetido}  _{Custo computacional elevado}

(99)

Seleção de atributos

 _{Quanto a seleção ser individual ou coletiva:}  _Ordenação

 _{Seleção é individual}

 _{Atributos são ordenados de acordo com relevância segundo algum critério e} atributos no topo são selecionados (ranking)

 _{Tende a selecionar atributos correlacionados}  _{Necessidade de definir limiar de seleção}  _{Seleção de subconjunto}

 _{Seleciona subconjunto dos atributos originais que melhor represente}  _{Verifica como atributos atuam de forma coletiva, em conjunto}

 _{É computacionalmente mais cara}

(100)

Seleção de subconjuntos de

atributos

 _Busca:

 _{Cada ponto no espaço de busca pode ser visto como um possível}

(101)

Seleção de subconjuntos de

atributos

 _{Deve-se definir na busca:}

 _{Ponto(s) de partida ou direção da busca}  _{Estratégia de busca}

 _{Critério usado na avaliação dos subconjuntos}  _{Abordagens filtro, wrapper ou embutida}

(102)

Seleção de subconjuntos de

atributos

(103)

Seleção de subconjuntos de

atributos

(104)

Seleção de subconjuntos de

atributos

(105)

Seleção de subconjuntos de

atributos

(106)

Seleção de subconjuntos de

atributos



_{Critérios de parada possíveis:}

_{Quando todos os subconjuntos forem testados}

(exaustiva)

_{Quando um número máximo de alternativas é}

testado

_{Quando atinge um número de atributos desejado} _{Enquanto adição/remoção de atributos não}

(107)

Seleção de atributos



_{Tipos de critérios para avaliação da}

importância dos atributos

(108)

Seleção de atributos



_{Tipos de critérios para avaliação da}

importância dos atributos

(109)

Seleção de atributos

(110)

Considerações Finais



_{Pré-processamento}

_{Integração de dados} _Amostragem _{Dados desbalanceados} _{Limpeza de dados} _{Transformação de dados}

(111)

Referências



_{Softwares utilizados}

_Weka



_{Material de aul profa. Ana Carolina Lorena}



_Livro:

_{Inteligência Artificial: Uma Abordagem de}