• Nenhum resultado encontrado

Seleção de Atributos Utilizando o Coeficiente de Correlação de Pearson

CAPÍTULO 4 – DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais

4.2.1 Seleção de Atributos Utilizando o Coeficiente de Correlação de Pearson

Conforme já descrito no Capítulo 2, a utilização de atributos obtidos com qualidade em campo, capazes de retratar da maneira mais fiel possível as caraterísticas do solo e da lavoura, são muito importantes para que sejam obtidos mapas de UGDs confiáveis e consistentes ao longo do tempo. Nesse contexto, além da seleção natural de atributos que não são influenciados pela ação humana, técnicas capazes de verificar a correlação existente entre variáveis podem auxiliar o usuário final em selecionar atributos relevantes para a resolução do seu problema, com o intuito de proporcionar agrupamentos de qualidade e úteis para a aplicação.

Uma das técnicas mais conhecidas e utilizadas para verificar a correlação existente entre dois atributos é o coeficiente de correlação de Pearson (PEARSON, 1895;BENESTY, 2009). Esse

coeficiente verifica a compatibilidade linear entre dois vetores de dados representando dois atributos distintos, tentando identificar tendências sem considerar os fatores de dimensão ou escala, desprezando-se a média e a variância (Equação 4.1).

ρ(p,q) = p0•q0 (4.1a)

p0

k= (pk− µp)/σp (4.1b)

q0

k= (qk− µq)/σq (4.1c)

A Equação 4.1a define a correlação de Pearson (ρ) entre dois atributos p e q como sendo o produto vetorial entre os seus respectivos vetores de amostras p0e q0. Em ambos, para cada

amostra k, devem ser desprezados os valores da média (µ) e variância (σ), conforme exibido nas equações 4.1b e 4.1c. A correlação de Pearson fornece valores entre -1 e 1 que indicam o grau

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 66

de correlação entre dois atributos, interpretados da seguinte maneira: valores de ρ próximos de 0 indicam uma correlação neutra ou não existente; valores de ρ próximos de 1 indicam alta correlação linear; e valores de ρ próximos de -1 também indicam alta correlação linear, porém em sentidos opostos.

No contexto do delineamento de UGDs em AP, diversos atributos capazes de identificar di- ferentes características do solo e da cultura podem estar disponíveis ao usuário final, conforme já exemplificado no Capítulo 2. Entretanto, em diversas situações, é desejável que apenas al- guns deles sejam selecionados para essa tarefa, por conta de diversos motivos, tais como: a redução do custo computacional para execução das abordagens de agrupamento; a exclusão de atributos que não são relevantes com relação à variabilidade espacial; e até mesmo a ausência de qualidade por conta de medidas não confiáveis obtidas em campo. Nesses casos, o coeficiente de correlação de Pearson pode ajudar a privilegiar a seleção de atributos que se correlacionam bem com a maioria dos outros atributos do conjunto de dados.

Se considerarmos uma matriz de correlações C com dimensões n×n, onde n é a quantidade total de atributos, cada célula dessa matriz deve conter o valor de ρ calculado entre cada par atri- butos, segundo a equação 4.1a. A Tabela 4.1 mostra um exemplo de uma matriz de correlações C, em formato de tabela, para um conjunto hipotético de 4 atributos.

Tabela 4.1: Exemplo de matriz de correlações C para 4 atributos hipotéticos.

- a1 a2 a3 a4

a1 1 0,8 0,3 -0,6

a2 0,8 1 -0,1 0,9

a3 0,3 -0,1 1 0,1

a4 -0,6 0,9 0,1 1

De acordo com a Tabela 4.1, células contendo valores próximos a 1 e -1 mostram que o par de atributos correspondente a esse valor possui boa correlação linear considerando, respectiva- mente, o mesmo sentido ou sentidos opostos. Desse modo, pode-se considerar, por exemplo, que valores acima de 0,5 e abaixo de -0,5 indicam atributos bem correlacionados. Levando-se em consideração essas definições, no caso do exemplo da Tabela 4.1, é fácil verificar que os atri- butos hipotéticos a1, a2e a4se correlacionam bem entre si; e o atributo a3não se correlaciona

bem com nenhum dos outros atributos. Desse modo, para esse exemplo, em uma necessidade de seleção de um conjunto reduzido de atributos, o atributo a3poderia ser desconsiderado. Ainda

vale ressaltar que na matriz C representada pela Tabela 4.1, os valores da diagonal principal são sempre 1, pois consideram a correlação de um atributo com ele mesmo. Além disso, essa

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 67

mesma matriz poderia ser escrita em formato triangular superior ou inferior, pois a ordem dos fatores não altera os valores obtidos no cálculo de ρ entre dois atributos.

Uma metodologia similar à descrita no exemplo citado acima foi utilizada para a seleção de atributos para conjuntos de dados utilizados nos experimentos desta tese. Entretanto, se o conjunto de dados possuir uma quantidade muito grande de atributos bem correlacionados entre si, pode-se optar por utilizar critérios mais rígidos para seleção dos atributos, permitindo, por exemplo, a utilização de atributos que se correlacionam com a maioria dos outros atributos do conjunto de dados com valores de ρ acima de 0,8 ou abaixo de -0,8.

4.2.2 Redução de Dimensionalidade Utilizando a Análise de Componen-

tes Principais (PCA)

Além da seleção de atributos utilizando o coeficiente de correlação de Pearson, outra ma- neira de reduzir a quantidade de atributos na etapa de pré-processamento de um processo de KDD é por meio de técnicas que proporcionam a redução da dimensionalidade. Uma técnica estatística bastante conhecida e utilizada para esse fim é a PCA (Principal Component Analysis) (HOTELLING, 1933). Essa técnica utiliza transformações ortogonais para converter conjuntos de

amostras de atributos que são potencialmente correlacionados em um novo conjunto de atri- butos que não são linearmente correlacionados, chamados de componentes principais. Nesse contexto, o primeiro componente principal está associado ao maior sinal de variabilidade con- siderando o conjunto de dados completo e o último componente em geral indica ruídos ou variabilidade falsa. A quantidade de componentes principais é geralmente menor do que a quantidade de atributos do conjunto de dados original, o que proporciona uma real redução de dimensionalidade.

Porém, a redução de dimensionalidade geralmente proporciona uma perda da qualidade da informação. Neste sentido, a técnica da PCA procura diminuir os efeitos dessa perda, separando informações realmente relevantes e que contribuem para a variabilidade do conjunto de dados das informações que podem ser consideradas ruidosas. Apesar de a PCA ser muito utilizada em AP, questões relacionadas com a diferenciação entre os espaços de atributos e coordenadas presentes nos conjuntos de dados espaciais precisam ser tratadas, para que a redução de dimen- sionalidade não prejudique a visualização desses dados em forma de mapa, como é o caso do delineamento de UGDs. Desse modo, trabalhos como os desenvolvidos por Córdoba (2013) e Peeters (2015), que se utilizam, respectivamente, de técnicas como a MULTISPATI-PCA e a estatística espacial Gi* (ORD; GETIS, 1995), realizam etapas de pré-processamento, como a

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 68