C´alculo da PCA - Análise do contexto e dos resultados da aprendizagem da avaliação educacional

2.1.3.1 Matriz de Covariˆancia

As matrizes de covariância são ferramentas necessárias na análise multivariada de dados. Se uma observa¸cão multivariada é tomada, um total de n observa¸cões podem criar uma nuvem de dados nesse espa¸co. O objetivo da análise multivariada de dados é encontrar e descrever a estrutura da nuvem desses dados. Dessa forma, os arranjos da matriz de covariância são um requisito básico para a análise da confiabilidade, dispersão ou associa¸cão desse conjunto de dados [37].

A medida retornada pelo cálculo da covariância entre duas variáveis aleatórias nos informa quantitativamente o grau de relacionamento linear entre as mesmas variáveis. Contudo, na medida de covariância não existem valores de referência de máximos e m´ınimos que indiquem a for¸ca da rela¸cão de associa¸cão entre as variáveis em investiga¸cão. A expressão matemática (2.1) que define o cálculo da covariância entre os valores da i-ésima e j-ésima variáveis de um vetor aleatório x é Cov (xi,xj) = 1 n n X k=1 (xik− xi)(xjk − xj), ∀k = 1, 2, 3, . . . , n (2.1) ´

interessante armazená-las em uma matriz, a fim de se poder vislumbrar todas as associa¸cões de covariâncias poss´ıveis entre as variáveis. A essa matriz de valores chamamos matriz de covariância. Representamos a seguir em forma de matriz, as covariâncias do vetor aleatório x, em que X = x · xt

Cov (X) = V (X) = Σp×p =      σ11 σ12 . . . σ1p σ₂₁ σ₂₂ . . . σ_2p ... ... ... ... σ_p1 σ_p2 . . . σpp     

A matriz de covariância é simétrica, ou seja, o elemento σij = σji, i, j = 1, . . . , p.

2.1.3.2 Matriz de Correla¸c˜ao

Frequentemente é comum, em pesquisas que analisam dados, que surjam problemas que envolvem uma série de variáveis. Dessa forma, torna-se de grande utilidade para a solu¸cão dos mesmos a determina¸cão de uma rela¸cão entre essas variáveis. Logo, deve-se procurar a melhor compreensão para essa rela¸cão. Essa melhor rela¸cão pode, em alguns casos, ser alcan¸cada através da utiliza¸cão de uma estrutura de correla¸cão. Segundo [37], existe uma correla¸cão entre duas variáveis quando uma delas está, de alguma forma, relacionada à outra.

A correla¸cão cuja expressão matemática apresenta-se de modo mais comum para se trabalhar com dados em pesquisas quantitativas é a correla¸cão linear (2.2). Para se obter tal correla¸cão, usa-se o coeficiente de correla¸cão linear de Pearson (ρij), o qual recebe tal denomina¸cão em homenagem ao seu desenvolvedor, Karl Pearson (1857-1936), dado por [37] ρij = Pn k=1(xik− xi)(xjk− xj) pPn k=1(xik− xi)2 pPn k=1(xjk − xj)2 (2.2) ´

E importante destacar também que, assim como é poss´ıvel nas estruturas de co- variância organizar uma série de dados em uma matriz, nas estruturas de correla¸cões isso também é poss´ıvel. A esse arranjo de valores chamamos de matriz de correla¸cão. Representamos a seguir, em forma de matriz, as correla¸cões do vetor

aleat´orio x [37]: Σp×p=        1 ρ12 ρ13 . . . ρ1p ρ₂₁ 1 ρ₂₃ . . . ρ_2p ρ31 ρ32 1 . . . ρ3p ... ... ... ... ... ρp1 ρp2 ρp3 . . . 1       

A matriz de correla¸cão é uma ferramenta estat´ıstica extremamente necessária para o tratamento de dados de medi¸cão dos mais variados processos. Sua técnica fornece uma visão em medi¸cões do processo e produz sa´ıdas úteis que podem ser usadas em outras análises de dados, tais como em outros métodos de análises de processos, como é o caso da análise de componentes principais. Nas se¸cões a seguir veremos como se dá o cálculo da extra¸cão de componentes principais para um conjunto de dados qualquer.

Porém, ainda sobre o coeficiente de correla¸cão linear de Pearson, verifica-se que ele pode ser uma ferramenta importante para estabelecer as rela¸cões entres as variáveis avaliadas em um conjunto de dados, o qual é caracterizado por [37] pelos seguintes n´ıveis de correla¸cão:

i) |ρ| > 0, 70 - Correla¸c˜ao Forte;

ii) 0, 30 > |ρ| > 0, 70 - Correla¸c˜ao Moderada; iii) 0 > |ρ| > 0, 30 - Correla¸c˜ao Fraca.

O coeficiente de correla¸cão Pearson varia de -1 a 1. O sinal indica dire¸cão positiva ou negativa do relacionamento e o valor sugere a for¸ca da rela¸cão entre as variáveis. Uma correla¸cão perfeita (-1 ou 1) indica que o escore de uma variável pode ser determinado exatamente ao se saber o escore da outra [37].

A matriz de correla¸cão pode ser analisada por decomposi¸cão em fatores ou parcelas, buscando a extra¸cão de caracter´ısticas fundamentais dos conjuntos cujos dados estão sob análise. Estes assuntos, bem como a qualidade dos dados, estão tratados nas se¸cões seguintes deste cap´ıtulo.

2.1.3.3 Testes de dados para a An´alise Fatorial

A qualidade dos dados é importante no sucesso da análise da matriz de dados. Para isso, é necessário, antes de se iniciar a sua decomposi¸cão para uma análise fatorial,

que seja feito alguns testes na matriz do conjunto de dados, a fim de se investigar a eficácia e a viabilidade da utiliza¸cão do método. Dois testes poss´ıveis se destacam na literatura, são eles, o de Esfericidade de Bartlett e a Medida de Adequacão da Amostra de Kaiser-Meyer-Olkin (KMO) para analisar a estrutura de correla¸cão dos dados quanto à sua adequa¸cão ou não à aplica¸cão da análise por fatores ou parcelas [37]. De acordo com [39] e [36] esses testes, por conseguinte, também validam a aplica¸cão da análise de componentes principais, indicando dessa forma o grau de correla¸cão entre os dados estudados. De acordo com [37], o objetivo desses dois testes são:

i) Teste Kaiser-Meyer-Olkin (KMO) - indica a propor¸cão da variância dos dados que pode ser considerada comum a todas as variáveis, ou seja, que pode ser atribu´ıda a um fator comum, então: quanto mais próximo de 1 (unidade) melhor o resultado, ou seja, mais adequada é a amostra à aplica¸cão da análise fatorial.

ii) Teste de esfericidade de Bartlett - testa se a matriz de correla¸cão é uma matriz identidade, o que indicaria que não há correla¸cão entre os dados. Dessa forma, procura-se para um n´ıvel de significância assumido em 5% rejeitar a hipótese nula de matriz de correla¸cão ser uma matriz identidade.

No documento Análise do contexto e dos resultados da aprendizagem da avaliação educacional em um curso de graduação em engenharia (páginas 42-45)