• Nenhum resultado encontrado

4.5 Aquisição e Tratamento dos Dados

4.5.2 Análise Multivariada

A análise multivariada, se um modo geral, refere-se a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto sob investigação. Qualquer análise simultânea de mais de duas variáveis de certo modo pode ser considerada análise multivariada (HAIR et.al., 2005).

Esses métodos possibilitam levantar questões específicas e precisas de considerável complexidade em cenários naturais. Isso torne viável a condução de pesquisas teoricamente importantes e a investigação de efeitos de variações de parâmetros que naturalmente ocorrem no contexto em que elas normalmente ocorrem.

Dentre as técnicas mais conhecidas foram aqui elencadas àquelas utilizadas na metodologia desta pesquisa, descritas a saber:

1) Análise de Agrupamento (AA)

De acordo com Hair et al., (2005) a análise de agrupamento é definida como um conjunto de técnicas multivariadas cuja finalidade primária é agregar objetos com base nas características que eles possuem.

Neste sentido, os objetos em cada agrupamento tendem a ser semelhantes entre si, mas diferentes dos objetos em outros agrupamentos.

Três questões são fundamentais, a princípio, devem ser considerados na análise de agrupamento ou análise de clusters: primeira, como será medida a similaridade dos dados; segunda, como formar os grupos e, terceira, como decidir quantos grupos formar.

Levando em consideração as questões acima levantadas, neste estudo, optou-se pelo método da distância euclidiana, como medida de similaridade; o procedimento hierárquico aglomerativo, através do método de Ward, como determinante do número de agrupamentos. A decisão sobre o número total de conglomerados, a constarem na análise, cabe ao pesquisador, pois depende dos objetivos da pesquisa.

Como o objetivo da análise de agrupamentos é agrupar objetos semelhantes e geralmente essa semelhança é avaliada em termos de distância entre os objetos, a distância euclidiana é o método mais aplicado para esta análise.

A distância euclidiana é utilizada para calcular medidas específicas, assim como a medida euclidiana simples e a medida euclidiana quadrática ou absoluta, que consiste na soma dos quadrados das diferenças, sem calcular a raiz quadrada. Considerando dois indivíduos i e i’, a distância entre eles é dada pela equação (28) (HAIR et.al., 2005).

(28)

Onde:

é a j-ésima característica do i-ésimo indivíduo; é a j-ésima característica do i’-ésimo indivíduo.

Quanto mais próximo de zero for a distância euclidiana, mais similares são os objetos comparados. A aglomeração hierárquica se caracteriza pelo estabelecimento de uma hierarquia em forma de árvore, também chamado de Dendograma. Há duas formas de representar o dendograma: vertical e horizontal, esse gráfico é de grande utilidade para classificação, comparação e discussão de agrupamentos.

Nos procedimentos de aglomeração há a necessidade de se optar por um método específico, nesta pesquisa aplicou-se o método Ward. O método de Ward consiste em um procedimento de agrupamento hierárquico no qual a medida de similaridade usada para juntar agrupamentos é calculada como a soma de quadrados entre os dois agrupamentos feita sobre todas as variáveis (HAIR et al., 2005).

Sua vantagem consiste na minimização de variação interna resultando em agrupamentos de tamanhos aproximadamente iguais.

2) Análise de Componentes Principais (PCA)

Tem por objetivo encontrar um meio de condensar a informação contida em um número de varáveis originais em um conjunto menor de variáveis estatísticas (fatores) com uma perda mínima de informação. A análise de componentes principais também pode ser considerada um método fatorial por construir novas variáveis sintéticas a partir da combinação linear das variáveis iniciais.

A análise de componentes principais é uma técnica matemática de análise multivariada, que possibilita investigações com muitos dados possíveis.

Para a determinação dos componentes principais necessário calcular a matriz de variância-covariância ( Ʃ ), ou a matriz de correlação (R), encontrar os autovalores e os autovetores e, por fim, escrever as combinações lineares, que serão as novas variáveis, denominadas de componentes principais, sendo que cada componente principal é uma combinação linear de todas as variáveis originais, independentes entre si e estimadas com o propósito de reter, em ordem de estimação e em termos da variação total, contida nos dados iniciais, (REGAZZI, 2001).

Os fatores são extraídos através da análise de componentes principais, estes explicam a variância das variáveis observadas, tal como se revelam pelas correlações entre as variáveis que estão sendo analisadas.

Na interpretação desses fatores a rotação fatorial é fundamental, uma vez que, redistribui a variância dos primeiros fatores para os últimos com o objetivo de atingir um padrão fatorial mais simples e teoricamente mais significativo.

O Varimax é uma rotação fatorial que busca minimizar o número de variáveis com altas cargas num fator, ou seja, maximiza a variância da carga e é, também, o mais utilizado. Conforme Hair (2005) a rotação Varimax fornece uma separação mais clara dos fatores, é invariante, muito bem-sucedida com uma abordagem analítica para a obtenção de uma rotação ortogonal de fatores.

O método de Kaiser (1958), é muito utilizado para selecionar os componentes principais, este critério obtém componentes principais com valores próprios maiores do que a unidade (𝜆𝑖 > 1), isto é, os principais componentes que explicam a maior parte da variação no conjunto de dados.

Este método consiste em incluir somente aquelas componentes cujos valores próprios sejam superiores a 1. Este critério tende a incluir poucas componentes quando o número de variáveis originais é inferior a vinte e, em geral, utiliza-se aquelas componentes que conseguem sintetizar uma variância acumulada em torno de 70%.

3) Correlação

O método de Correlação é amplamente utilizado em estudos e objetiva verificar se existe relação entre duas ou mais variáveis, ou seja, saber se as alterações sofridas por uma das variáveis são acompanhadas por alterações nas outras. Mede a intensidade e a direção da relação linear ou não-linear entre duas variáveis. A relação entre duas variáveis pode ser uma de dependência funcional de uma sobre a outra. Isto é, a magnitude de uma das variáveis (a variável dependente) é assumida como sendo determinada por - ou seja, é uma função da magnitude da segunda variável (a variável independente) (ZAR, 2010).

As medidas comuns de correlação, frequentemente são designadas por ρ, são adimensionais e variam entre -1 e +1. No caso de ρ = 0, não existe correlação entre as duas variáveis. Quando ρ > 0, a correlação é positiva e uma variável aumenta quando a outra cresce. A correlação é negativa, ρ < 0, quando as variáveis variam em direções opostas. Cabe enfatizar que, variáveis altamente correlacionadas não apresentam necessariamente qualquer relação de causa e efeito.

Diferentes formas de correlação podem existir entre as variáveis. O caso mais simples e mais conhecido é a correlação simples, envolvendo duas variáveis, X e Y. A relação entre duas variáveis será linear quando o valor de uma pode ser obtido aproximadamente por meio da equação da reta. Assim, é possível ajustar uma reta da forma Y = α + βX aos dados. Neste caso, a correlação é linear simples (LIRA,2004).

Uma forma simples de verificar o tipo de correlação existente entre duas variáveis é através do gráfico chamado “diagrama de dispersão”. Trata-se de um gráfico (Figura 15) onde são representados os pares (Xi,Yi ) , i = 1, 2,...n, onde n = número total de observações. (LIRA, op.cit.).

O coeficiente de correlação linear, também chamado de covariância normalizada e representado por ρ, é expresso pela equação 29 (Naghettini e Pinto, 2007):

(29)

Onde,

σ

x,y é a covariância entre as variáveis X e Y;

σ

X e

σ

Y são os desvios- padrão das variáveis X e Y, respectivamente.

Quando duas variáveis, X e Y, são estatisticamente independentes, o coeficiente de correlação linear é igual a zero, ρ = 0. Entretanto a recíproca não é verdadeira, ou seja, se o coeficiente de correlação linear é igual a zero, ρ = 0, isso não significa que as variáveis são independentes. Trata-se de uma decorrência do fato de que o coeficiente de correlação linear, ρ, é uma medida da dependência linear entre as variáveis X e Y, e, em algumas situações, X e Y podem apresentar dependência funcional não linear (NAGHETTINI e PINTO, op.cit.).

As medidas comuns de correlação, frequentemente são designadas por ρ, são adimensionais e variam entre -1 e +1. No caso de ρ = 0, não existe correlação entre as duas variáveis. Quando ρ > 0, a correlação é positiva e uma variável aumenta quando a outra cresce. A correlação é negativa, ρ < 0, quando as variáveis variam em direções opostas.

Cabe enfatizar que, variáveis altamente correlacionadas não apresentam necessariamente qualquer relação de causa e efeito.

Documentos relacionados