ANÁLISE FATORIAL PARA DADOS QUALITATIVOS ORDINAIS

Texto

(1)

Universidade Federal de S˜ ao Carlos Centro de Ciˆ encias Exatas e de tecnologia

Departamento de Estat´ıstica

AN ´ ALISE FATORIAL PARA DADOS QUALITATIVOS ORDINAIS

Ching Yu Lu

Trabalho de Conclus˜ ao de Curso

(2)
(3)

Ching Yu Lu

An´ alise fatorial para dados qualitativos ordinais Trabalho de Conclus˜ ao de Curso

Este exemplar corresponde ` a reda¸c˜ ao final do trabalho de conclus˜ ao de curso devidamente corrigido e defendido por Ching Yu Lu e aprovado pela banca examinadora.

S˜ ao Carlos, 11 de julho de 2021.

Banca Examinadora

• Prof. Dr. M´ arcio Luis Lanfredi Viola

• Prof. Dra. Estela Maris Pereira Bereta

• Prof. Ma. Karin Storani

(4)
(5)

Dedicat´ oria

Dedico este trabalho para os meus pais e a minha irm˜ a, que sempre estiveram do meu

lado e nunca deixaram de acreditar no meu potencial.

(6)
(7)

Agradecimentos

Agrade¸co primeiramente a minha fam´ılia, pelo apoio e incentivo em todos os momentos da minha vida.

Agrade¸co ao meu orientador, Dr. M´ arcio Lu´ıs, por me aceitar como orientando em um dos momentos mais cr´ıticos da minha gradua¸c˜ ao, e por sempre ter respeitado minhas opini˜ oes.

Aos professores, grupos e projetos de extens˜ oes, que contribu´ıram para o meu desen- volvimento acadˆ emico e profissional.

Aos meus amigos do vˆ olei, por me proporcionarem grandes momentos.

A universidade, pelo suporte e pela oportunidade de poder estudar em uma universi- dade p´ ublica.

Por fim, gostaria de agradecer a todas as pessoas que contribu´ıram diretamente ou

indiretamente com a minha forma¸c˜ ao acadˆ emica e minha sa´ ude mental, principalmente

as minhas amigas Thain´ a, Lais e Rafaela.

(8)
(9)

Resumo

A aplica¸c˜ ao da an´ alise fatorial ´ e adequada em dados quantitativos. No entanto, h´ a si- tua¸c˜ oes em que os dados s˜ ao qualitativos ordinais. Assim, deve-se considerar alternativas da an´ alise fatorial explorat´ oria para dados qualitativos ordinais, pois, frequentemente, a an´ alise usual, para dados quantitativos, ´ e aplicada e analisada de forma inadequada para dados qualitativos. Desta forma, no presente trabalho, ´ e descrita a t´ ecnica de An´ alise Fatorial Explorat´ oria, as alternativas para o seu uso em dados de natureza qualitativa ordinal, especificamente m´ etodos de quantifica¸c˜ ao e correla¸c˜ oes especiais como a de Spe- arman e a polic´ orica, e uma aplica¸c˜ ao num conjunto de dados fornecido pela Comiss˜ ao Pr´ opria de Avalia¸c˜ ao (CPA) da Universidade Federal de S˜ ao Carlos (UFSCar), que ´ e a comiss˜ ao respons´ avel por coordenar os processos internos de autoavalia¸c˜ ao. O banco de dados prov´ em da aplica¸c˜ ao de um question´ ario cuja escala de resposta das quest˜ oes ´ e do tipo Likert.

Palavras-chave: An´ alise Fatorial, An´ alise Fatorial Explorat´ oria, An´ alise Fatorial para

Dados Qualitativos, Correla¸ c˜ ao de Spearman, Correla¸ c˜ ao Polic´ orica, M´ etodos de Quan-

tifica¸ c˜ ao.

(10)
(11)

Sum´ ario

1 Introdu¸ c˜ ao 1

2 An´ alise Fatorial Explorat´ oria 3

2.1 Modelo Fatorial . . . . 3

2.2 Adequabilidade do modelo . . . . 6

2.2.1 Teste de esfericidade de Bartlett . . . . 6

2.2.2 KMO . . . . 7

2.2.3 Estat´ıstica MSA . . . . 7

2.3 M´ etodo de estima¸c˜ ao . . . . 8

2.3.1 M´ etodo dos componentes principais . . . . 8

2.3.2 M´ etodo da m´ axima verossimilhan¸ca . . . . 9

2.3.3 Crit´ erios para determinar o n´ umero de fatores . . . . 10

2.4 Rota¸c˜ ao de Fatores . . . . 10

2.5 Escores Fatoriais . . . . 11

3 An´ alise Fatorial para dados qualitativos 13 3.1 M´ etodos de Quantifica¸c˜ ao . . . . 13

3.2 Correla¸c˜ ao de Spearman . . . . 15

3.3 Correla¸c˜ ao Polic´ orica . . . . 16

4 Aplica¸ c˜ ao em dados quantitativos 19 4.1 An´ alise Fatorial Explorat´ oria . . . . 19

5 Aplica¸ c˜ ao em dados ordinais 25 5.1 Banco de dados . . . . 25

5.2 An´ alise descritiva . . . . 26

5.3 An´ alise Fatorial via quantifica¸c˜ oes das vari´ aveis . . . . 27

i

(12)

5.4 An´ alise Fatorial via correla¸c˜ ao de Spearman . . . . 35 5.5 An´ alise Fatorial via correla¸c˜ ao de Polic´ orica . . . . 40

6 Considera¸ c˜ oes finais 49

A Gr´ aficos descritivos 53

B Tabelas das quantifica¸ c˜ oes 63

C Scree Plot 67

D An´ alise Fatorial 71

E C´ odigos utilizados 127

(13)

Cap´ıtulo 1 Introdu¸ c˜ ao

A Comiss˜ ao Pr´ opria de Avalia¸c˜ ao (CPA) ´ e a comiss˜ ao respons´ avel por coordenar os processos internos de autoavalia¸c˜ ao, fazendo o levantamento e a an´ alise dos dados para subsidiar o planejamento e a tomada de decis˜ ao, ou seja, a CPA possui um car´ ater educativo colocando ` a disposi¸c˜ ao da comunidade elementos relevantes para a formula¸c˜ ao e implementa¸c˜ ao da pol´ıtica de desenvolvimento institucional para a tomada de decis˜ oes, visando promover a qualidade acadˆ emica da UFSCar em todos os seus n´ıveis.

Atualmente, a CPA realiza a avalia¸c˜ ao dos cursos de gradua¸c˜ ao e da infraestrutura universit´ aria na vis˜ ao de discentes e docentes, al´ em de aferir a percep¸c˜ ao dos servidores t´ ecnico-administrativos em rela¸c˜ ao ` a UFSCar.

Para a realiza¸c˜ ao de estudos, a CPA coleta os dados atrav´ es de formul´ arios, utilizando quest˜ oes de natureza qualitativa ordin´ aria e empregando escalas do tipo Likert, escalas de respostas psicom´ etricas, na qual os respondentes especificam o n´ıvel de concordˆ ancia com uma afirma¸c˜ ao. Mas ´ e importante salientar que existem diversos tipos de vari´ aveis que devem ser tratados de forma distintas dependendo da natureza dos dados que, por sua vez, s˜ ao classificadas como quantitativas ou qualitativas. Segundo Magalh˜ aes e Lima (2004):

• Vari´ aveis qualitativas: S˜ ao vari´ aveis que podem ser expressas como sendo um atri-

buto ou qualidades. Se a vari´ avel possuir uma ordena¸c˜ ao, ent˜ ao ela ´ e considerada

uma vari´ avel qualitativa ordinal. Mas caso contr´ ario, se n˜ ao for poss´ıvel estabele-

cer uma ordem natural entre os seus valores, ent˜ ao ela ´ e classificada como vari´ avel

qualitativa nominal. Vari´ aveis como classe social (baixa, m´ edia e alta) e grau de

preferˆ encia (pouco, m´ edio e muito) s˜ ao vari´ aveis qualitativas ordinais. Por outro

(14)

lado, vari´ aveis como cor da pele (branca, preta e amarela) e estado civil (solteiro, casado e vi´ uvo) s˜ ao vari´ aveis qualitativas nominais.

• Vari´ aveis quantitativas: s˜ ao vari´ aveis de natureza num´ erica e podem ser discretas e cont´ınuas. Vari´ aveis quantitativas podem ser vistas como sendo contagens, assu- mindo valores inteiros. J´ a as vari´ aveis quantitativas cont´ınuas podem ser expressas pelo conjunto de n´ umeros reais. Por exemplo, n´ umero de filhos (0,1,2,...) e n´ umero de defeitos (0,1,2,...) s˜ ao vari´ aveis quantitativas discretas, enquanto altura e peso s˜ ao vari´ aveis quantitativas cont´ınuas.

As vari´ aveis de natureza qualitativas ordinais medem atributos que distinguem em grau ou intensidade e indicam rela¸c˜ oes de hierarquia entre as categorias e que n˜ ao podem ser apenas consideradas e tratadas como sendo vari´ aveis quantitativas, pois muitas t´ ecnicas s˜ ao desenvolvidas apenas para dados quantitativos e ´ e necess´ ario muita cautela para n˜ ao aplica-los de em dados incompat´ıveis de forma imprudente e produzir interpreta¸c˜ oes equivocadas, comprometendo assim a pesquisa.

Usualmente, a An´ alise Fatorial (AF) se enquadra no problema supracitado, pois ´ e comum que os r´ otulos num´ ericos das categorias das vari´ aveis qualitativas ordinais sejam considerados n´ umeros, o que n˜ ao ´ e adequado, pois, originalmente, a t´ ecnica foi desenvol- vida apenas para dados quantitativos.

Desta forma, ´ e necess´ ario procurar por alternativas para a AF quando a t´ ecnica ´ e aplicada para vari´ aveis de natureza ordinal. Uma das estrat´ egias (que ser˜ ao abordadas no presente trabalho) ´ e a quantifica¸c˜ ao das vari´ aveis ordinais, enquanto a outra ´ e a utiliza¸c˜ ao da matriz da correla¸c˜ ao de Spearman (Marˆ oco, 2011) ou da correla¸c˜ ao polic´ orica em vez da correla¸c˜ ao de Pearson, que ´ e usualmente utilizada como default em diversos softwares.

Portanto, objetivo deste trabalho ´ e obter as dimens˜ oes (fatores ou vari´ aveis latentes) atrav´ es do banco de dados coletado e fornecido pela CPA. Em que para tal finalidade ser˜ ao utilizadas algumas alternativas da an´ alise fatorial explorat´ oria, j´ a que a escala das respostas das quest˜ oes ´ e a Likert. E para o desenvolvimento do estudo e das an´ alises, utilizaremos os pacotes e as ferramentas do software livre R (R Core Team, 2020).

Vale destacar que dados da CPA foram utilizados no Trabalho de Conclus˜ ao de Curso

(TCC) do ex-aluno do Curso de Bacharelado em Estat´ıstica da UFSCar, Guilherme Poppi,

cujo o objetivo consistiu na aplica¸c˜ ao da An´ alise Fatorial Confirmat´ oria (AFC) para dados

qualitativos ordinais (Poppi, 2020).

(15)

Cap´ıtulo 2

An´ alise Fatorial Explorat´ oria

A An´ alise Fatorial Explorat´ oria (AFE) ´ e uma t´ ecnica estat´ıstica multivariada que originou-se a partir dos trabalhos de Spearman no in´ıcio do s´ eculo XX. Esta tem por objetivo explicar as rela¸c˜ oes de covariˆ ancias entre muitas vari´ aveis por meio de umas poucas vari´ aveis n˜ ao observ´ aveis, conhecidas como fatores ou vari´ aveis latentes.

Reis (1997) define a An´ alise Fatorial (AF) como “um conjunto de t´ ecnicas estat´ısticas cujo objetivo ´ e representar ou descrever um n´ umero de vari´ aveis iniciais a partir de um me- nor n´ umero de vari´ aveis hipot´ eticas”. Em outras palavras, a AF permite que agrupemos as vari´ aveis de acordo com as suas correla¸c˜ oes, de forma que um ´ unico grupo seja formado por vari´ aveis altamente correlacionadas entre si, mas que tenham pouca correla¸c˜ ao com as vari´ aveis dos demais grupos. Assim, ´ e admiss´ıvel que cada grupo de vari´ aveis represente um ´ unico fator, que ´ e respons´ avel pelas correla¸c˜ oes observadas.

Al´ em disso, ´ e poss´ıvel saber o quanto cada fator est´ a associado a cada vari´ avel e o quanto o conjunto de fatores explicam a variabilidade geral dos dados originais.

2.1 Modelo Fatorial

Seja X um vetor aleat´ orio observ´ avel de dimens˜ ao p × 1, com m´ edia µ = E(X) e matriz de covariˆ ancia Σ = V ar(X). O modelo fatorial (MF) postula que X ´ e linearmente dependente das vari´ aveis aleat´ orias n˜ ao observ´ aveis F

1

, F

2

, ..., F

m

, denominadas fatores comuns, e p fontes de varia¸c˜ oes adicionais

1

,

2

, ...,

p

, chamadas erro ou fatores espec´ıficos.

O modelo ´ e expresso da seguinte forma:

(16)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

1

− µ

1

= l

11

F

1

+ l

12

F

2

+ ... + l

1m

F

m

+

1

, X

2

− µ

2

= l

21

F

1

+ l

22

F

2

+ ... + l

2m

F

m

+

2

,

.. .

X

p

− µ

p

= l

p1

F

1

+ l

p2

F

2

+ ... + l

pm

F

m

+

p

,

sendo que l

ij

´ e denominado carga fatorial da i-´ esima vari´ avel no j-´ esimo fator, a qual mede a contribui¸c˜ ao do fator comum j na vari´ avel i. Sem perda de generalidade, e por conveniˆ encia, podemos rescrever o modelo como sendo

X

i

= l

i1

F

1

+ l

i2

F

2

+ ... + l

im

F

m

+

i

, i = 1, 2, 3, . . . , p (2.1) Em termos matriciais, o modelo ´ e escrito como

X

|{z}

p×1

= L

|{z}

p×m

F

|{z}

m×1

+

|{z}

p×1

(2.2)

em que:

• X ´ e o vetor das vari´ aveis centralizadas;

• F ´ e o vetor de fatores comuns;

• L ´ e a matriz de cargas fatoriais;

• ´ e o vetor dos fatores espec´ıficos.

No entanto, para uma verifica¸c˜ ao direta do MF, precisamos fazer algumas suposi¸c˜ oes adicionais (Johnson et al., 2002):

• E(F) = 0 e V ar(F) = E(FF

0

) = I

m

(variˆ ancias unit´ arias e n˜ ao correlacionadas);

• E() = 0 e V ar() = Ψ = diag{ψ

1

, ψ

2

, ..., ψ

p

};

• F e s˜ ao independentes de modo que Cov(, F) = E(F

0

) = 0

m×p

.

Se as suposi¸c˜ oes supra-citadas forem atendidas, teremos um Modelo Fatorial Ortogonal

(MFO), mas ´ e poss´ıvel que F e sejam correlacionadas e, nesse caso, teremos um modelo

obl´ıquo.

(17)

5

Usando (2.1) e a suposi¸c˜ ao envolvendo V ar(F), obtemos V ar(X

i

) = V (l

i1

F

1

+ l

i2

F

2

+ ... + l

im

F

m

+

i

)

= l

i12

V (F

1

) + l

2i2

V (F

2

) + ... + l

2im

V (F

m

) + V (

i

)

= l

i12

+ l

2i2

+ ... + l

im2

+ ψ

i

.

Deste modo a variˆ ancia de X

i

´ e dividida em duas componentes aditivas: variˆ ancia da i-´ esima vari´ avel contribu´ıda pelos m fatores, chamada i-´ esima comunalidade (denotada por h

2i

), e a variˆ ancia espec´ıfica (ψ

i

) que ´ e por¸c˜ ao devida ao fator espec´ıfico

i

.

Deste modo,

σ

ii

|{z}

V ar(Xi)

= l

i12

+ l

2i2

+ ... + l

im2

| {z }

comunalidade

+ ψ

i

|{z}

var. especif ica

,

ou

σ

ii

= h

2i

+ ψ

i

, h

2i

= P

m j=1

l

2ij

.

Segundo Johnson et al. (2002), o MFO implica uma estrutura de covariˆ ancia para X.

A partir do Modelo (2.2), obtemos

(X − µ)(X − µ)

0

= (LF + )(LF + )

0

= (LF + )((LF)

0

+

0

)

= LF(LF)

0

+ (LF)

0

+ LF

0

+

0

, de modo que,

Σ = Cov(X) = E(X − µ)(X − µ)

0

= LE(FF

0

)L

0

+ E (F

0

)L

0

+ LE(F

0

) + E(

0

)

= LL

0

+ Ψ.

Segundo Marˆ oco (2011), a modelagem das rela¸c˜ oes estruturais entre as vari´ aveis ori- ginais pode ser feita a partir da matriz de correla¸c˜ oes (ou variˆ ancia-covariˆ ancias). Assim,

´ e necess´ ario encontrarmos L e Ψ tal que Σ = LL

0

+ Ψ.

(18)

2.2 Adequabilidade do modelo

Segundo Marˆ oco (2011), dadas as p vari´ aveis X

1

, X

2

, ..., X

p

, a AFE procura estimar m fatores comuns, m < p, e p fatores espec´ıficos de modo que os dados sejam adequadamente representados por X = LF + . Na pr´ atica, a maneira mais simples de resolver este problema ´ e determinando L e , em que Σ = LL

0

+ Ψ. Por´ em, a AFE ´ e realmente ´ util quando a correla¸c˜ ao entre as vari´ aveis seja razoavelmente significativa (alguns autores sugerem que seja acima de 0,3), pois caso as vari´ aveis sejam pouco inter-relacionadas, os fatores espec´ıficos explicar˜ ao maior propor¸c˜ ao da variˆ ancia e os fatores comuns ser˜ ao pouco importantes.

Antes de abordarmos sobre a estima¸c˜ ao dos pesos dos fatores comuns e dos fatores espec´ıficos, ´ e importante verificarmos outras medidas de ajuste do modelo fatorial, como o teste de esfericidade de Bartlett e o teste de Kaiser-Meyer-Olkin (KMO) proposta por Kaiser (1970) e Kaiser e Rice (1974).

2.2.1 Teste de esfericidade de Bartlett

O teste de esfericidade de Bartlett consiste em testar a hip´ otese de que a matriz de correla¸c˜ oes das vari´ aveis populacionais (Π) n˜ ao s˜ ao inter-correlacionadas, ou seja, diferente da matriz identidade (I), a qual possui 1’s em sua diagonal e 0 em todo restante, indicando que as vari´ aveis n˜ ao possuem nenhum tipo de correla¸c˜ ao. Deste modo podemos escrever as hip´ oteses como:

H

0

: Π = I vs. H

1

: Π 6= I.

A estat´ıstica de teste ´ e dado por (Dziuban e Shirkey, 1974) χ

2

= −

N − 2 − 2p + 5 6

log|R|,

em que N ´ e o tamanho da amostra, p o n´ umero de vari´ aveis e |R| o determinante da matriz de correla¸c˜ ao.

Sob H

0

, a estat´ıstica do teste tem distribui¸c˜ ao Qui-quadrado com p(p − 1)/2 graus de liberdade.

Por´ em, segundo Marˆ oco (2011), este teste ´ e pouco utilizado por ser muito sens´ıvel ` a

dimens˜ ao da amostra. Quando temos uma amosta de grande dimens˜ ao, rejeitamos H

0

(19)

7

mesmo quando as correla¸c˜ oes s˜ ao muito pequenas, al´ em de exigir que as vari´ aveis tenham distribui¸c˜ ao normal multivariada.

2.2.2 KMO

A medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO) ´ e uma me- dida de homogeneidade das vari´ aveis, que compara a correla¸c˜ ao simples com as parciais observadas entre as vari´ aveis. Esta medida ´ e definida como

KM O =

P P

i6=j

r

jk2

P P

i6=j

r

jk2

+ P P

i6=j

q

jk2

, (2.3)

em que:

• r

jk2

´ e o quadrado da correla¸c˜ ao de Pearson entre as vari´ aveis fora da diagonal;

• q

jk2

´ e o quadrado da correla¸c˜ ao parcial entre as vari´ aveis.

A correla¸c˜ ao parcial entre X

1

e X

2

, controlando o efeito de X

3

sobre X

1

e X

2

, ´ e calculada por

r

212,3

= r

12

− r

13

∗ r

23

p 1 − r

213

∗ p

1 − r

223

.

Embora n˜ ao exista nenhum teste rigoroso em rela¸c˜ ao aos valores KMO, alguns autores consideram que este deve ser maior que 0, 5, enquanto outros sugerem que seja acima de 0, 8.

2.2.3 Estat´ıstica MSA

A matriz de correla¸c˜ ao anti-imagem ´ e uma matriz que cont´ em os valores negativos das correla¸c˜ oes parciais, dando ind´ıcio de quais vari´ aveis podem ser removidas do modelo.

Deste modo, a medida de adequa¸c˜ ao da amostra ou Measure of Sampling Adequacy (MSA)

´ e calculada, de forma similar a KMO, pela seguinte express˜ ao:

M SA =

P

i6=j

r

2jk

P

i6=j

r

2jk

+ P

i6=j

q

jk2

. (2.4)

Deste modo, deve-se analisar os valores das vari´ aveis individuais, os quais s˜ ao de-

sej´ aveis que sejam altos, indicando que a vari´ avel ´ e aceit´ avel, ou seja, ´ e adequada para a

utiliza¸c˜ ao da AF.

(20)

Vale ressaltar que a vari´ avel que possui baixa rela¸c˜ ao com as demais vari´ aveis n˜ ao necessariamente deve ser exclu´ıda, pois pode ser representada por um ´ unico fator comum isoladamente.

2.3 M´ etodo de estima¸ c˜ ao

Conforme visto na se¸c˜ ao anterior, caso a matriz de variˆ ancia-covariˆ ancias Σ seja dife- rente da matriz diagonal ou a matriz de correla¸c˜ ao R seja diferente da matriz identidade, o MFO pode ser utilizado e o problema seria estimar as cargas fatoriais l

ij

e as variˆ ancias espec´ıficas ψ

i

. Para este fim, existem dois m´ etodos populares que s˜ ao o m´ etodo dos componentes principais e o m´ etodo da m´ axima verossimilhan¸ca.

2.3.1 M´ etodo dos componentes principais

Segundo Johnson et al. (2002), a an´ alise fatorial por componentes principais da matriz de covariˆ ancias amostrais S ´ e especificada em termo dos pares autovalor-autovetor (λ

i

, e

i

) e λ

1

≥ λ

2

≥ ... ≥ λ

p

≥ 0.

Considere m < p, o n´ umero de fatores comuns. A matriz de cargas fatoriais ´ e dada por

L b =

"

q b λ

1

b e

1

,

q

λ b

2

b e

2

, · · · , q

λ b

p

b e

p

#

. (2.5)

As estimativas das variˆ ancias especificas correspondem aos elementos da diagonal da matriz S − Lb b L

0

tal que

Ψ b = diag( ψ b

1

, ψ b

2

, .., ψ b

p

), com ψ b

i

= s

ii

m

X

j=1

b l

2ij

.

As comunalidades s˜ ao estimadas como

b h

2i

= b l

i12

+ b l

2i2

+ ... + b l

2im

. (2.6)

Por fim, para a obten¸c˜ ao da AF por componentes principais, utilizando correla¸c˜ oes

amostrais (R), basta substituirmos S por R nos resultados acima.

(21)

9

2.3.2 M´ etodo da m´ axima verossimilhan¸ ca

Suponha que os fatores comuns F e os erros espec´ıficos sejam normalmente dis- tribu´ıdos, al´ em de que as observa¸c˜ oes X tamb´ em sejam normais. Deste modo, obtemos (Johnson et al., 2002)

L(µ, Σ) = (2π)

−(n−1)p/2

−1

|

−(n−1)/2

× exp (

− 1 2 tr

"

Σ

−1

n

X

i=1

(x

i

− x)(x

i

− x)

0

!#)

× (2π)

−p/2

−1

|

−1/2

exp n

− n

2 (x − µ)Σ

−1

(x − µ) o

,

que depende de L e Ψ em fun¸c˜ ao de LL

0

+ Ψ.

Este modelo ainda n˜ ao est´ a bem definido devido ` a multiplicidade de escolhas para L que n˜ ao poss´ıveis pelas transforma¸c˜ oes ortogonais da solu¸c˜ ao.

Para que L esteja bem definido e garanta unicidade, ´ e imposta a condi¸c˜ ao L

0

Ψ

−1

L = ∆, sendo∆ uma matriz diagonal.

Ent˜ ao, as estimativas de m´ axima verossimilhan¸ca das comunalidades e as variˆ ancias espec´ıficas s˜ ao obtidas por maximiza¸c˜ ao num´ erica da fun¸c˜ ao de verossimilhan¸ca.

Desta forma, considerando X

1

, ..., X

n

uma amostra aleat´ oria com distribui¸c˜ ao N

p

(µ, Σ), Σ = LL

0

+Ψ para MFO com m fatores comuns, e L e e Ψ e as estimativas de m´ axima verossi- milhan¸ca de L e Ψ sob a condi¸c˜ ao L

0

Ψ

−1

L = ∆, a estimativa de m´ axima verossimilhan¸ca das comunalidades s˜ ao dadas por

b h

2i

= b l

i12

+ b l

2i1

+ ... + b l

im2

, para i = 1, 2, . . . , p.

E a propor¸c˜ ao do total das variˆ ancias amostrais devida ao j -´ esimo fator ´ e igual a b l

1j2

+ b l

2j2

+ ... + b l

pj2

s

11

+ s

22

+ ... + s

pp

.

Ressalta-se que o resultado acima ´ e an´ alogo caso as vari´ aveis estejam padronizadas.

(22)

2.3.3 Crit´ erios para determinar o n´ umero de fatores

Ap´ os obtermos uma solu¸c˜ ao fatorial, ou seja, ap´ os estimarmos os fatores que explicam o comportamento correlacional das vari´ aveis, nosso interesse ´ e determinar qual o n´ umero m´ınimo de fatores que se deve reter de forma a representar e resumir apropriadamente a informa¸c˜ ao presente nas vari´ aveis originais, j´ a que o principal objetivo da AF ´ e encon- trar um n´ umero reduzido de fatores latentes que expliquem a estrutura correlacional das vari´ aveis. Assim, devemos reter apenas o n´ umero m´ınimo de fatores.

Existem diversas t´ ecnicas que nos permitem investigar e decidir qual seria este n´ umero apropriado de fatores (Marˆ oco, 2011):

1. Crit´ erio de Kaiser : Devemos reter os fatores em que o autovalor seja igual a 1.

Ou seja, apenas os fatores que possuem autovalores maiores que 1 s˜ ao considerados significantes e todos os demais s˜ ao considerados insignificantes ou descartados;

2. Crit´ erio do Scree plot: Representamos graficamente a contribui¸c˜ ao e a importˆ ancia de cada fator na explica¸c˜ ao da variˆ ancia total das vari´ aveis originais. Os fatores encontram-se nos eixo x e os respectivos autovalores no eixo y. Deste modo, ob- servamos a partir de quantos fatores o ganho da variˆ ancia total explicada j´ a n˜ ao ´ e mais consider´ avel, ou seja, um ponto de inflex˜ ao da curva (ou cotovelo);

3. Crit´ erio a Priori : ´ E um crit´ erio em que o pesquisador j´ a sabe quantos fatores ser˜ ao extra´ıdos antes de realizar a an´ alise fatorial. Sendo assim, o pesquisador simplesmente instrui o computador a parar a an´ alise quando o n´ umero de fatores for extra´ıdo;

4. Crit´ erio da Porcentagem da Variˆ ancia: O crit´ erio ´ e bem similar ao crit´ erio a priori, por´ em, ao inv´ es de definirmos o n´ umero de fatores de interesse, escolhemos uma quantidade m´ınima da variˆ ancia a ser explicada. Deste modo, o processo compu- tacional terminar´ a ao determinar os fatores que expliquem a montante especificado de variˆ ancia.

2.4 Rota¸ c˜ ao de Fatores

Segundo Marˆ oco (2011), as solu¸c˜ oes fatoriais encontradas nem sempre s˜ ao inter-

pret´ aveis, ou seja, n˜ ao ´ e poss´ıvel atribuir um significado aos fatores extra´ıdos, princi-

(23)

11

palmente quando temos uma grande quantidade de fatores na qual a contribui¸c˜ ao das vari´ aveis para cada um deles n˜ ao ´ e clara.

Sendo assim, recorremos ` a transforma¸c˜ ao ortogonal que corresponde a uma rota¸c˜ ao dos eixos ordenados em rela¸c˜ ao ` a origem. Esta t´ ecnica realiza uma transforma¸c˜ ao ortogonal nas cargas para obter cargas rotacionadas e ´ e chamada rota¸c˜ ao de fatores. O efeito final seria redistribuir a variˆ ancia dos primeiros fatores para os demais, obtendo um padr˜ ao mais simples e mais significativo.

Existem diversos m´ etodos para a rota¸c˜ ao de fatores como, por exemplo: M´ etodo Varimax, Quartimax e Equimax. Apresentamos, resumidamente, apenas os m´ etodos Va- rimax, Quartimax, pois Equimax ´ e um m´ etodo pouco utilizado e e n˜ ao possui uma ampla aceita¸c˜ ao.

• M´ etodo Quartimax : Rotaciona o fator inicial de modo que uma vari´ avel tenha carga alta em um fator e cargas baixas em todos os outros fatores;

• M´ etodo Varimax : Minimiza o n´ umero de vari´ aveis que apresentam altas cargas em cada fator. Este m´ etodo ´ e o mais popular e utilizado.

2.5 Escores Fatoriais

Segundo Johnson et al. (2002), o interesse da an´ alise fatorial est´ a comumente centrado nos parˆ ametros do modelo fatorial. Por´ em, os valores estimados dos fatores comuns, chamados scores dos fatores, podem ser necess´ arios para as an´ alises. Estas quantidades, em geral, s˜ ao utilizadas para constru¸c˜ ao de ´ındices ou para prop´ ositos de diagn´ osticos, bem como entradas para analises subsequentes.

Existem diversos m´ etodos para a obten¸c˜ ao do escore fatorial. Apresentamos apenas o m´ etodo dos m´ınimos quadrados ponderados.

Considere as estimativas L, e Ψ e e µ e = x. Assim, a equa¸c˜ ao ´ e dada por

F

j

= ( L e

0

Ψ e

−1

L) e

−1

L e

0

Ψ e

−1

(x

j

− x) = ∆

−1

L e

0

Ψ e

−1

(x

j

− x) , j = 1, ..., n.

(24)
(25)

Cap´ıtulo 3

An´ alise Fatorial para dados qualitativos

A AFE descrita no cap´ıtulo anterior assume que as vari´ aveis s˜ ao quantitativas e, desta forma, a matriz de variˆ ancias-covariˆ ancias ou de correla¸c˜ oes de Pearson s˜ ao usadas para estimar os fatores e as estimativas associadas ao modelo fatorial explorat´ orio. Por´ em, di- versas situa¸c˜ oes envolvem vari´ aveis qualitativas como, por exemplo, estudos que envolvem a aplica¸c˜ ao de um question´ ario formado por quest˜ oes cujas respostas s˜ ao itens da escala do tipo Likert com 5 ou 7 possibilidades ordinais.

Deste modo, neste cap´ıtulo, abordaremos diferentes tratamentos para os dados qua- litativos ordinais de forma que possamos trabalhar com a AFE usual. Especificamente, abordaremos desde formas de quantifica¸c˜ ao de suas categorias at´ e a aplica¸c˜ ao de cor- rela¸c˜ oes especiais como, por exemplo, correla¸c˜ ao de Spearman e a Polic´ orica (Pearson, 1900).

3.1 M´ etodos de Quantifica¸ c˜ ao

Os m´ etodos de quantifica¸c˜ ao quantificam as categorias dos dados qualitativos ordinais, ou seja, atribui valores num´ ericos a estas, permitindo, assim, a aplica¸c˜ ao dos m´ etodos desenvolvidos para vari´ aveis de natureza quantitativa. Por´ em, ´ e importante salientar que nem todas as t´ ecnicas de quantifica¸c˜ ao de categorias de vari´ aveis qualitativas devem ser utilizadas, pois a natureza ordinal das vari´ aveis precisam ser levados em conta, ou seja, a ordena¸c˜ ao das categoriais precisa ser refletida em sua quantifica¸c˜ ao.

Considere a matriz de dados X, n × p, em que n e p representam, respectivamente, o

(26)

n´ umero de unidades amostrais e o n´ umero de vari´ aveis qualitativas ordinais. Adicional- mente, considere que a vari´ avel X

j

possui c

j

categorias, j = 1, 2, .., p. Assim, os principais tipos de quantifica¸c˜ oes para categorias ordinais s˜ ao:

• N´ umeros inteiros ordenados (Agresti, 2010; Marˆ oco, 2011):Conforme o nome j´ a diz, atribu´ımos valores inteiros ordenando as categorias. Por´ em, este m´ etodo assume que conhecemos a distˆ ancia entre as categorias, o que n˜ ao necessariamente ´ e verdade.

Por exemplo, ao quantificarmos 3 categorias como sendo (1, 2, 3), admitimos que a distˆ ancia entre elas s˜ ao iguais, mas, muitas vezes, isso pode n˜ ao ser um fato ou que nem seja poss´ıvel determinar essas distˆ ancias.

Outro modo, frequentemente utilizado, ´ e determinarmos uma categoria neutra (atri- buindo um valor 0), em que as demais categorias se distribuem em torno dela. Por exemplo, (−2, −1, 0, 1, 2), que s˜ ao, usualmente, aplicadas em categorias do tipo Li- kert e que s˜ ao, frequentemente, substitu´ıda por (1, 2, 3, 4, 5);

• ´Indice (Leal e Maroco, 2010): Consiste em atribuir n´umeros naturais b

kj

, come¸cando em 0, para as categorias da vari´ avel X

j

. Assim, teremos um ´ındice v

Ikj

variando entre 0 e 100, dado por

v

Ikj

= b

kj

max(b

kj

) × 100, b

kj

= 0, ..., c

j

; (3.1)

• Ridits (Bross, 1958): Corresponde ` a propor¸c˜ ao dos indiv´ıduos nas categorias an- teriores ` a k

j

mais metade da propor¸c˜ ao da categoria k

j

, em que p

jk

representa a propor¸c˜ ao da categoria k

j

. Assim,

v

rkj

=

kj−1

X

s=1

p

s

+ 1

2 p

kj

, b

kj

= 1, ..., c

j

; (3.2)

• Quantis da distribui¸c˜ ao normal (Agresti, 2010): Suponhamos que as categorias das vari´ aveis s˜ ao constru´ıdas a partir de uma parti¸c˜ ao, cujos intervalos est˜ ao associados a poss´ıveis valores de uma vari´ avel cont´ınua n˜ ao observ´ avel, a qual possui distribui¸c˜ ao normal padr˜ ao. Deste modo, as quantifica¸c˜ oes s˜ ao expressas por

v

N(r)

kj

= Φ

−1

(v

rkj

), (3.3)

(27)

15

em que v

rkj

corresponde ao ridit da categoria k

j

, Φ ´ e a fun¸c˜ ao de distribui¸c˜ ao acumulada da normal padr˜ ao e Φ

−1

representa fun¸c˜ ao quantil da distribui¸c˜ ao.

Nota-se que os primeiros m´ etodos (n´ umeros inteiros ordenados e ´ındice) atribuem a mesma distˆ ancia para quaisquer duas categorias consecutivas, independente das ob- serva¸c˜ oes. Deste modo, ´ e necess´ ario ter cautela na interpreta¸c˜ ao dos resultados. J´ a para as demais t´ ecnicas, obtemos quantifica¸c˜ oes que seguem a ordena¸c˜ ao das categorias da vari´ avel ordinal, cumprindo assim o requisito exig´ıvel a qualquer m´ etodo.

3.2 Correla¸ c˜ ao de Spearman

Informalmente, um par de vari´ aveis ´ e considerada concordante se valores “grandes”

de uma vari´ avel est˜ ao associados a valores “grandes” da outra vari´ avel ou quando valores

“pequenos” de uma vari´ avel est˜ ao associados a valores “pequenos” da outra vari´ avel.

Adicionalmente, um par de vari´ aveis ´ e considerada discordante se valores “grandes”

de uma vari´ avel est˜ ao associados a valores “pequenos” da outra vari´ avel e vice-versa.

Sejam (x, y) e ( e x, y) observa¸c˜ e oes do vetor de vari´ aveis aleat´ orias cont´ınuas (X, Y ).

Dizemos que estas observa¸c˜ oes s˜ ao:

concordantes se (x − e x) (y − e y) > 0, ou

discordantes se (x − x) e (y − y) e < 0.

A correla¸c˜ ao de Spearman (ou rho de Spearman) ´ e uma medida de associa¸c˜ ao definida em termos do conceito de concordˆ ancia e discordˆ ancia.

Seja (X, Y ), (X

0

, Y

0

) e (X

00

, Y

00

) vetores aleat´ orios independentes e ideticamente dis- tribu´ıdos. A medida de Spearman ´ e definida como

ρ = ρ(X, Y ) = 3(P [(X − X

0

)(Y − Y

00

) > 0] − P [(X − X

0

)(Y − Y

00

) < 0]).

Em outras palavras, a medida de Spearman ´ e proporcional ` a probabilidade de con- cordˆ ancia menos a probabilidade de discordˆ ancia entre os vetores (X, Y ) e (X

0

, Y

00

).

O coeficiente de correla¸c˜ ao de Spearman ´ e interpretado como:

(28)

• ρ=1: Dependˆ encia perfeitamente positiva entre as vari´ aveis X e Y ;

• ρ=-1: Dependˆ encia perfeitamente negativa entre as vari´ aveis X e Y .

Uma propriedade da medida de associa¸c˜ ao de Spearman ´ e que ela ´ e o coeficiente de correla¸c˜ ao linear entre os postos populacionais, isto ´ e, para pares de vari´ aveis aleat´ orias cont´ınuas X e Y , ela ´ e o coeficiente de correla¸c˜ ao linear entre as vari´ aveis aleat´ orias U = F (X) e V = G(Y ), ou seja,

ρ(X, Y ) = E(U V ) − E(U )E(V )

p V ar(U)V ar(V ) , (3.4)

sendo F (·) e G(·) as fun¸c˜ oes de distribui¸c˜ ao de X e Y , respectivamente. Assim, U e V s˜ ao vari´ aveis aleat´ orias uniformes no intervalo (0, 1).

Considerando a amostra aleat´ oria (x

1

, y

1

), . . . , (x

n

, y

n

) do vetor (X, Y ) de vari´ aveis aleat´ orias, a vers˜ ao amostral do coeficiente de Spearman, Express˜ ao 3.4, ´ e dada por

r

s

=

P

n

i=1

(r

i

− ¯ r)(s

i

− s) ¯ pP

n

i=1

(r

i

− r) ¯

2

P

n

i=1

(s

i

− ¯ s)

2

,

sendo r

i

e s

i

os postos amostrais das observa¸c˜ oes x

i

e y

i

, respectivamente, em que ¯ r =

1 n

P

n

i=1

r

i

e ¯ s =

1n

P

n i=1

s

i

.

3.3 Correla¸ c˜ ao Polic´ orica

A correla¸c˜ ao polic´ orica ´ e uma medida de associa¸c˜ ao bivariada para dados qualitativos ordinais.

Suponha que C e D sejam duas vari´ aveis qualitativas ordinais relacionadas com as vari´ aveis latentes cont´ınuas X e Y por meio de

C = c

i

, se γ

i−1

6 X < γ

i

, i = 1, ..., r;

D = d

i

, se τ

j−1

6 Y < τ

j

, j = 1, ..., s, em que:

• γ

i

e τ

j

s˜ ao os limiares;

• γ

0

= τ

0

= −∞;

• γ

r

= τ

s

= +∞.

(29)

17

Assumimos que a distribui¸c˜ ao conjunta das vari´ aveis latentes cont´ınuas X e Y seja a normal padr˜ ao bivariada com coeficiente de correla¸c˜ ao ρ, cuja fun¸c˜ ao de densidade conjunta ´ e

φ(x, y, ρ) = 1

2π(1 − p

2

)

1/2

exp

1

2π(1 − ρ

2

) x

2

− 2ρxy + y

2

,

para x, y ∈ R .

Seja p

ij

= P (C = c

i

, D = d

j

) a probabilidade de uma unidade amostral ser classificada na categoria c

i

de C e d

j

de D. Ent˜ ao,

p

ij

= P (γ

i−1

6 X < γ

i

, τ

j−1

6 Y < τ

j

) = Z

γi

γi−1

Z

τj

τj−1

φ(x, y, ρ)dydx.

Dada uma amostra das vari´ aveis qualitativas ordinais C e D, tais observa¸c˜ oes s˜ ao classificadas em uma das categorias definidas por [γ

i−1

, γ

i

) × [τ

j−1

, τ

j

), i = 1, . . . , r e j = 1, . . . , s, cujas categorias (combina¸c˜ oes das parti¸c˜ oes de X e Y ) determinam uma tabela de contingˆ encia.

Ent˜ ao, considerando o vetor de vari´ aveis aleat´ orias (N

11

, N

12

, . . . , N

rs

)

t

, em que N

ij

, i = 1, . . . , r e j = 1, . . . , s, indica o n´ umero de vezes que uma observa¸c˜ ao ´ e classificada na casela (i, j) da tabela de contingˆ encia, explicada anteriormente, com probabilidade p

ij

, (N

11

, N

12

, . . . , N

rs

)

t

possui distribui¸c˜ ao multinomial com parˆ ametros n, p

11

, p

12

, . . . , p

rs

, cujo tamanho amostral ´ e n =

r

X

i=1 s

X

j=1

n

ij

e n

ij

´ e o n´ umero de observa¸c˜ oes pertencentes ` as categorias c

i

e d

j

, respectivamente, das vari´ aveis C e D.

Logo, dada uma amostra de tamanho n de (C, D), a fun¸c˜ ao de verossimilhan¸ca ´ e dada por:

L = n!

Q

r i=1

Q

s j=1

n

ij

!

r

Y

i=1 s

Y

j=1

p

nijij

, (3.5)

Para encontrarmos o estimador de m´ axima verossimilhan¸ca de ρ, precisamos maxi- mizar o logaritmo da fun¸c˜ ao de verossimilhan¸ca (3.5), denotado por l, em rela¸c˜ ao aos parˆ ametros do modelo. Cox (1974) e Olsson et al. (1982) apresentam as derivadas de l em fun¸c˜ ao de todos os parˆ ametros do modelo.

Derivando (3.5) em rela¸c˜ ao a ρ e igualando a zero, obtemos

∂l

∂ρ =

r

X

i=1 s

X

j=1

n

ij

p

ij

φ(ˆ γ

i

, τ ˆ

j

; ρ) − φ(ˆ γ

i−1

, τ ˆ

j

; ρ) − φ(ˆ γ

i

, τ ˆ

j−1

; ρ) + φ(ˆ γ

i−1

, τ ˆ

j−1

; ρ)

= 0. (3.6)

(30)

A raiz da Equa¸c˜ ao (3.6), que ´ e a estimativa da correla¸c˜ ao polic´ orica, ´ e obtida via m´ etodos num´ ericos.

Um dos m´ etodos utilizados para maximizarmos L ´ e o denominado estimativa de 2 pas- sos (Martinson e Hamdan, 1972), que consiste em encontrarmos os limiares no primeiro passo para, posteriormente, obtermos ρ que maximize o logaritmo da fun¸c˜ ao de verossi- milhan¸ca (3.5). O valor de ρ que maximiza a fun¸c˜ ao de verossimilhan¸ca ´ e a estimativa da correla¸c˜ ao polic´ orica.

O primeiro passo consiste em obtermos os limiares γ

i

e τ

j

da seguinte forma:

ˆ

γ

i

= Φ

−11

(P

?

), e

ˆ

τ

j

= Φ

−11

(P

·j?

),

em que Φ

1

(·) ´ e a fun¸c˜ ao de distribui¸c˜ ao acumulada da distribui¸c˜ ao normal padr˜ ao, P

?

e P

·j?

s˜ ao as propor¸c˜ oes marginais acumuladas, perfil linha e perfil coluna, dadas, respecti- vamente, por

P

?

=

i

X

k=1

p

e

P

·j?

=

j

X

k=1

p

·k

.

(31)

Cap´ıtulo 4

Aplica¸ c˜ ao em dados quantitativos

4.1 An´ alise Fatorial Explorat´ oria

Como descrito nos cap´ıtulos anteriores, a An´ alise Fatorial Explorat´ oria (AFE) ´ e uma t´ ecnica estat´ıstica multivariada proposta, inicialmente, para dados quantitativos. Assim, neste cap´ıtulo, faremos uma breve ilustra¸c˜ ao da aplica¸c˜ ao da t´ ecnica usual, que servir´ a como base para a aplica¸c˜ ao em dados ordinais, apresentada no pr´ oximo cap´ıtulo.

Para exemplificar, utilizaremos dados referentes a recordes femininos em 54 pa´ıses, apresentados em Richard (2007). As vari´ aveis V 2 a V 8 dizem respeito ao tempo de conclus˜ ao das provas realizadas, respectivamente: 100 metros (medido em segundos), 200 metros (medido em segundos), 400 metros (medido em segundos), 800 metros (medido em minutos), 1500 metros (medido em minutos), 3000 metros (medido em minutos) e maratona (medido em minutos).

O objetivo ´ e reduzir a dimensionalidade das vari´ aveis atrav´ es de um n´ umero reduzido de fatores comuns, obtendo o m´ aximo de informa¸c˜ ao. Deste modo, nosso interesse ´ e inferir, atrav´ es do nosso conjunto de dados, um n´ umero apropriado de fatores e os valores dos coeficientes nas equa¸c˜ oes do modelo de fator comum.

Vale ressaltar que todos os resultados para as an´ alises foram obtidos por meio do software R.

Inicialmente, na Tabela 4.1, calculamos a matriz de correla¸c˜ oes de Pearson.

(32)

Tabela 4.1: Matriz de correla¸c˜ ao de Pearson.

V2 V3 V4 V5 V6 V7 V8 V2 1.00 0,94 0,87 0,81 0,78 0,73 0,67 V3 0,94 1.00 0,91 0,82 0,80 0,73 0,68 V4 0,87 0,91 1.00 0,81 0,72 0,67 0,68 V5 0,81 0,82 0,81 1.00 0,91 0,87 0,85 V6 0,78 0,80 0,72 0,91 1.00 0,97 0,79 V7 0,73 0,73 0,67 0,87 0,97 1.00 0,80 V8 0,67 0,68 0,68 0,85 0,79 0,80 1.00

Podemos observar que as vari´ aveis que possuem os maiores valores da correla¸c˜ ao de Pearson s˜ ao: V 2 e V 3; V 3 e V 4; V 5 e V 6; V 6 e V 7. Al´ em disso, as correla¸c˜ oes entre as vari´ aveis s˜ ao todas positivas e variam entre 0, 63 e 0, 97, ou seja, todas as correla¸c˜ oes s˜ ao maiores que 0, 3, indicando que a AF ´ e uma t´ ecnica adequada aos dados.

Para verificarmos se a AF ´ e realmente adequada, conduziremos dois testes: KMO (Equa¸c˜ ao 2.3) e MSA (Equa¸c˜ ao 2.4). Os resultados obtidos est˜ ao dispon´ıveis na Tabela 4.2.

Tabela 4.2: Teste de adequacidade: KMO e estat´ıstica MSA.

KMO = 0,82

V2 V3 V4 V5 V6 V7 V8

0,89 0,78 0,86 0,85 0,74 0,76 0,88

Nota-se que o valor do KMO ´ e 0,82, superior a 0,8, indicando que a an´ alise fatorial ´ e

adequada aos dados. Al´ em disso, nota-se que a estat´ıstica MSA, para todas as vari´ aveis,

s˜ ao superiores a 0,5, indicando que todas elas contribuem para o m´ etodo abordado, ou

seja, que este modelo ´ e adequado.

(33)

21

Deste modo, as cargas fatoriais e as variˆ ancias espec´ıficas podem ser estimadas atrav´ es dos componentes principais, decompondo a matriz de correla¸c˜ oes.

Tabela 4.3: Autovalores e propor¸c˜ ao da variˆ ancia total explicada.

Fatores Autovalores Propor¸c˜ ao da variabilidade Propor¸c˜ ao acumulada

1 5,808 0,830 0,830

2 0,629 0,090 0,919

3 0,279 0,040 0,959

4 0,125 0,018 0,977

5 0,091 0,013 0,990

6 0,055 0,008 0,998

7 0,014 0,002 1,000

Figura 4.1: Scree Plot.

(34)

Observa-se, pela Figura 4.1 e pela Tabela 4.3, que o n´ umero ideal de fatores ´ e dois, que s˜ ao respons´ aveis por explicar 91,9% da variabilidade total dos dados. Al´ em disso, nota-se que n˜ ao h´ a um aumento muito significativo na variabilidade explicada ao acrescentarmos um terceiro fator. Sendo assim, conduziremos a an´ alise considerando apenas 2 fatores.

Obtendo-se os autovalores e autovetores por meio da decomposi¸c˜ ao espectral da matriz de correla¸c˜ oes, as cargas fatoriais s˜ ao estimadas, conforme a Equa¸c˜ ao (2.5). Na Tabela 4.4 s˜ ao mostradas as estimativas das cargas fatoriais ainda n˜ ao rotacionadas, as quais representam a correla¸c˜ ao entre as vari´ aveis e os fatores. Nesta aplica¸c˜ ao, especificamente, todas as vari´ aveis s˜ ao altamente correlacionadas com o primeiro fator, dificultando a interpreta¸c˜ ao do segundo.

Deste modo, visando a interpreta¸c˜ ao, precisaremos fazer uma rota¸c˜ ao dos nossos fa- tores, com objetivo de redistribuir a variˆ ancia do primeiro fator comum para o segundo.

Tabela 4.4: Cargas fatoriais n˜ ao rotacionadas.

Vari´ aveis Fator 1 Fator 2

V2 -0,91 -0,32

V3 -0,92 -0,33

V4 -0,89 -0,36

V5 -0,95 0,13

V6 -0,94 0,25

V7 -0,91 0,34

V8 -0,86 0,31

Por´ em, antes de rotacionarmos os fatores, estimamos as comunalidades, conforme des-

crito pela Equa¸c˜ ao (2.6). A Tabela 4.5 apresenta tais valores, observando que, com o

modelo fatorial com dois fatores comuns, conseguimos explicar mais de 80% da variabili-

dade de cada uma das vari´ aveis.

(35)

23 Tabela 4.5: Comunalidades.

V2 V3 V4 V5 V6 V7 V8

0,93 0,96 0,92 0,92 0,94 0,93 0,83

No Cap´ıtulo 2 abordamos alguns m´ etodos para a rota¸c˜ ao dos fatores, mas para esta an´ alise, utilizamos a rota¸c˜ ao VARIMAX, obtendo os resultados mostrados na Tabela 4.6.

Tabela 4.6: Cargas fatoriais rotacionadas.

Vari´ aveis Fator 1 Fator 2

V2 -0,43 -0,86

V3 -0,44 -0,88

V4 -0,39 -0,88

V5 -0,77 -0,57

V6 -0,85 -0,48

V7 -0,89 -0,39

V8 -0,83 -0,37

Note que, ap´ os a rota¸c˜ ao dos fatores, as cargas fatoriais foram “redistribu´ıdas” entre os fatores comuns, ou seja, h´ a uma separa¸c˜ ao mais n´ıtida entre as vari´ aveis com rela¸c˜ ao aos fatores.

Portanto, podemos atribuir nomes aos nosso fatores de acordo com as vari´ aveis que

est˜ ao relacionadas a elas. Consultando os nomes das vari´ aveis, podemos denotar o pri-

meiro fator comum como sendo desempenho em provas de distˆ ancias mais longas,

englobando as vari´ aveis: V 5, V 6, V 7 e V 8. Em contra partida, podemos denotar o se-

gundo fator comum como sendo desempenho em provas de distˆ ancias mais curtas,

englobando as vari´ aveis: V 1, V 2 e V 3.

(36)
(37)

Cap´ıtulo 5

Aplica¸ c˜ ao em dados ordinais

A Comiss˜ ao Pr´ opria de Avalia¸c˜ ao (CPA) da Universidade Federal de S˜ ao Carlos (UFS- Car) atua coordenando os processos internos de autoavalia¸c˜ ao, atendendo a Lei n º 10.861, de 14 de abril de 2004, que instituiu a Avalia¸c˜ ao da Educa¸c˜ ao Superior (SINAES), cujo ob- jetivo ´ e avaliar as institui¸c˜ oes e cursos, envolvendo o corpo docente, discentes e servidores t´ ecnico-administrativos da universidade.

Cada institui¸c˜ ao de ensino possui a sua Comiss˜ ao Pr´ opria de Avalia¸c˜ ao para coordenar os processos avaliativos.

A CPA faz levantamentos de dados e informa¸c˜ oes relevantes para auxiliar o aprimo- ramento das quest˜ oes relacionadas ao processo de planejamento e gest˜ ao, produ¸c˜ ao de conhecimento e da extens˜ ao, identificando potencialidades e fragilidades, auxiliando na tomada de decis˜ ao.

Neste cap´ıtulo ser˜ ao aplicadas as alternativas da an´ alise fatorial para dados qualitati- vos, conforme apresentadas no Cap´ıtulo 3. A aplica¸c˜ ao ser´ a feita no conjunto de dados da Comiss˜ ao Pr´ opria de Avalia¸c˜ ao (CPA), na qual os dados s˜ ao de natureza qualitativa ordinal.

Para o c´ alculo das estimativas das cargas fatoriais e comunalidades, utilizaremos o m´ etodo dos componentes principais e, para facilitar a interpreta¸c˜ ao das cargas fatoriais, utilizaremos o m´ etodo de rota¸c˜ ao Varimax nos fatores.

5.1 Banco de dados

Os dados utilizados foi fornecido pela pela CPA, cuja coleta foi realizada atrav´ es de

formul´ arios contendo, em sua maioria, quest˜ oes em escala Likert, variando nas pontua¸c˜ oes

(38)

de 1 a 5. O intuito ´ e medir o grau da intensidade associada a cada quest˜ ao, sendo que, quanto ´ e maior o valor do r´ otulo, maior a concordˆ ancia. Al´ em disso, em algumas quest˜ oes, a escala cont´ em o n´ umero 6 a fim de indicar que o respondente n˜ ao possui conhecimento sobre a quest˜ ao ou condi¸c˜ oes necess´ arias para responder.

A pesquisa aplicada em 2019 possui 14 quest˜ oes contendo v´ arios itens (contabilizando 150 no total), na qual foram coletadas 1326 observa¸c˜ oes.

Selecionamos algumas vari´ aveis, especificamente 64 dos 150 itens originais, seguindo dois principais crit´ erios: as vari´ aveis precisavam ser de natureza qualitativa ordinal (ou seja, medida em escala do tipo Likert ) e conter menos de 50% de respostas no r´ otulo 6 (presente na escala).

Deste modo, as vari´ aveis selecionadas s˜ ao denotadas por: dis q1a, dis q1b, dis q1c, dis q1d, dis q1e, dis q1f, dis q1g, dis q1h, dis q4a, dis q4b, dis q4c, dis q4d, dis q4e, dis q4f, dis q4g, dis q4h, dis q4i, dis q8a, dis q8b, dis q8c, dis q8d, dis q8e, dis q8f, dis q9a, dis q9b, dis q9c, dis q9d, dis q9e, dis q9f, dis q9g, dis q10a, dis q10b, dis q10c, dis q10d, dis q10e, dis q10f, dis q10g, dis q10h, dis q10i, dis q10j, dis q10k, dis q10l, dis q10m, dis q10n, dis q10o, dis q10p, dis q10q, dis q10r, dis q13a, dis q13b, dis q13c, dis q13e, dis q14a, dis q14b, dis q14c, dis q14d, dis q14e, dis q14f, dis q14g, dis q14h, dis q14i, dis q14j, dis q14k, dis q14l.

O formul´ ario aplicado e, consequentemente, a descri¸c˜ ao de cada uma das quest˜ oes encontram-se na p´ agina oficial da CPA - UFSCar em:

https://www.cpa.ufscar.br/arquivos/instrumentos-de-autoavaliacao/questionario- discente-revisado-2018.pdf.

Note que, por exemplo, as vari´ aveis dis q1a e dis q1b referem-se ao item a e b da Quest˜ ao 1, respectivamente.

5.2 An´ alise descritiva

Na an´ alise explorat´ oria dos dados, foi constru´ıdo um gr´ afico de barras para cada item relacionado a cada quest˜ ao a fim de conhecer a distribui¸c˜ ao do n´ umero de respostas em cada ponto da escala do tipo Likert.

Por´ em, devido a uma grande quantidade de quest˜ oes e diversos itens relacionados a elas, decidimos por apresentar nesta se¸c˜ ao apenas o gr´ afico associado a um ´ unico item.

Os demais gr´ aficos s˜ ao apresentados no Apˆ endice A.

(39)

27

Figura 5.1: Distribui¸c˜ ao das categorias - “Oportunidades de desenvolver capacidade de questionar foram diversificadas” (dis q4b).

Na Figura 5.1 observamos que o item b da Quest˜ ao 4, “oportunidades de desenvolver capacidade de questionar foram diversificadas”, teve apenas 1% de respondentes que as- sinalaram a op¸c˜ ao 6 (sem informa¸c˜ ao/condi¸c˜ oes de responder). Por outro lado, mais de 80% assinalaram as op¸c˜ oes 3, 4 e 5, ou seja, concordam com essa informa¸c˜ ao mesmo que seja parcialmente (item 3 da escala).

5.3 An´ alise Fatorial via quantifica¸ c˜ oes das vari´ aveis

Ap´ os a descri¸c˜ ao dos quatro m´ etodos de quantifica¸c˜ oes das vari´ aveis qualitativas no

Cap´ıtulo 3, procede-se agora ` a aplica¸c˜ ao no conjunto de dados comentado na se¸c˜ ao an-

terior. Os M´ etodos 1, 2, 3 e 4 s˜ ao descritos, respectivamente, por: n´ umeros inteiros

ordenados, ´ındice, ridits e quantil da distribui¸c˜ ao normal ridits. Deste modo, como n˜ ao

temos mais restri¸c˜ oes em rela¸c˜ ao ` a natureza dos dados, ou seja, nossos dados passam a

ser quantitativos, poderemos aplicar a AF sobre a matriz de correla¸c˜ oes de Pearson. Em

(40)

outras palavras, teremos uma AF usual aplicado no conjunto de dados quantificado.

Os resultados completos podem ser encontradas nos apˆ endices que, por sua vez, s˜ ao destrinchados em: gr´ aficos de barras da an´ alise descritiva (Apˆ endice A), tabelas das quantifica¸c˜ oes realizadas (Apˆ endice B), gr´ aficos de scree plot (Apˆ endice C) e os resultados da AF para cada uma das t´ ecnicas apesentadas (Apˆ endice D).

Notamos que os resultados obtidos independente dos quatro m´ etodos de quantifica¸c˜ ao s˜ ao coincidentes. Os autovalores e as respectivas propor¸c˜ oes da variabilidade explicada pelos fatores s˜ ao bem semelhantes, assim como a rela¸c˜ ao entre os itens e cada um dos fatores. Consequentemente, os resultados ser˜ ao similares. Desta forma, os resultados ser˜ ao apresentados uma ´ unica vez, de forma conjunta, e n˜ ao separado por cada m´ etodo.

Um caso particular ´ e que nos m´ etodos 1 e 2 (t´ ecnicas de quantifica¸c˜ ao por n´ umeros in- teiros ordenados e de quantifica¸c˜ ao por ´ındice) produziram os mesmos resultados (ou seja, idˆ enticos). Isto pode ser explicado por conta da segunda quantifica¸c˜ ao ser a transforma¸c˜ ao linear da primeira.

Inicialmente, quantificamos as vari´ aveis qualitativas (Tabelas B.1, B.2, B.3 e B.4 do Apˆ endice B) e constru´ımos a matriz de correla¸c˜ oes de Pearson associado a cada m´ etodo (Tabelas D.1, D.5 e D.9 do Apˆ endice D). Observamos a existˆ encia de muitas correla¸c˜ oes moderadas, sendo que os maiores valores est˜ ao entre os itens de uma mesma quest˜ ao, ou seja, indicando que os fatores selecionados podem estar explicando grupos de itens das mesmas quest˜ oes, indicando que ´ e plaus´ıvel realizar a AF para esses dados, pois as correla¸c˜ oes observadas s˜ ao superiores a 0,3.

Entretanto, para confirma¸c˜ ao da adequabilidade do modelo, realizamos o teste de KMO (Equa¸c˜ ao 2.3) e o teste de Bartlet, conforme apresentado no Cap´ıtulo 2. Notamos os mesmos valores para todos os m´ etodos utilizados: KMO de 0, 94 e um p-valor no teste de Bartlet de aproximadamente 0 (rejeitando H

0

, ou seja, a matriz de correla¸c˜ ao ´ e diferente da identidade), indicando que AF ´ e adequada para esses dados.

Para definirmos o n´ umeros de fatores a serem extra´ıdos foi utilizado o crit´ erio de Kaiser e o crit´ erio da porcentagem da variˆ ancia, na qual seria interessante extrairmos fatores que expliquem no m´ınimo 60% da variˆ ancia total dos dados. O crit´ erio baseado no Scree plot (Figuras C.1, C.2, C.3, C.4 e C.5 do Apˆ endice C) nos induz a selecionar apenas 2 fatores, explicando menos de 35% da variabilidade total dos dados, o que n˜ ao seria o ideal para o nosso estudo.

Pelas Tabelas D.2, D.6 e D.10 (Apˆ endice D), o Crit´ erio de Kaiser indica a escolha de

(41)

29

13 fatores para todas as quantifica¸c˜ oes menos para a de ridits que, por sua vez, seleciona 14 fatores. Por´ em, se analisarmos a diferen¸ca da propor¸c˜ ao acumulada da variˆ ancia expli- cada, por cada um dos fatores, n˜ ao notamos um ganho muito significativo ao passarmos de 13 para 14 fatores. Sendo assim, extrairemos apenas 13 fatores, que s˜ ao suficientes para explicar mais de 60% da variabilidade total dos dados. A Tabela 5.1 resume a porcentagem acumulada da variˆ ancia explicada para cada um dos m´ etodos.

Tabela 5.1: Propor¸c˜ ao da variˆ ancia total explicada pelas 2 solu¸c˜ oes.

13 Fatores 14 Fatores

M´ etodo 1 e 2 62% 64%

M´ etodo 3 62% 63%

M´ etodo 4 63% 64%

Ap´ os a extra¸c˜ ao dos fatores, notamos, atrav´ es da Tabela D.19 (Apˆ endice D), que as comunalidades contidas s˜ ao todas maiores que 0,4, ou seja, os fatores conseguem explicar mais de 40% da variabilidade de todas as vari´ aveis.

Por´ em, para melhorar a interpreta¸c˜ ao das cargas fatoriais, foi necess´ ario fazer uma

rota¸c˜ ao nos fatores. Assim, as vari´ aveis selecionadas pelos 13 fatores (rotacionados pelo

m´ etodo Varimax ) s˜ ao apresentadas nas Tabelas 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 5.10,

5.13, 5.12, 5.13, 5.14, extra´ıdas das Tabelas D.4, D.8 e D.12 do Apˆ endice D, nas quais

os valores contidos s˜ ao as cargas fatoriais, ou seja, s˜ ao as correla¸c˜ oes entre as vari´ aveis

originais e os fatores, sendo que, quanto maior a carga fatorial maior ´ e a correla¸c˜ ao

entre essas vari´ aveis e o fator. Para o nosso estudo, ´ e desej´ avel que as cargas fatoriais

consideradas relevantes sejam, aproximadamente, iguais ou superiores a 0,5.

(42)

Tabela 5.2: Cargas fatoriais do primeiro fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q4b -0,52 -0,57 -0,54

dis q4d -0,59 -0,63 -0,61

dis q4e -0,47 -0,48 -0,48

dis q4f -0,67 -0,71 -0,68

dis q4g -0,71 -0,73 -0,71

dis q4h -0,51 -0,53 -0,49

Deste modo, pela Tabela 5.2, o primeiro fator ´ e composto pelos itens b, d, e, f, g, h da Quest˜ ao 4, que pode ser interpretado como os aspectos relacionados ` a avalia¸c˜ ao dos temas transversais e desenvolvimento do pensamento cr´ıtico nas atividades curriculares.

Tabela 5.3: Cargas fatoriais do segundo fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q10e -0,47 0,49 -0,49

dis q10f -0,68 0,68 -0,68

dis q10g -0,79 0,77 -0,78

O segundo fator (Tabela 5.3) selecionou os itens e, f, g da Quest˜ ao 10, cuja a dimens˜ ao pode ser compreendida como a satisfa¸c˜ ao relacionada ao atendimento e aos acervos da biblioteca.

Tabela 5.4: Cargas fatoriais do terceiro fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q14f 0,51 0,52 0,52

dis q14g 0,76 0,76 0,76

dis q14h 0,78 0,77 0,77

dis q14i 0,76 0,76 0,76

dis q14j 0,71 0,72 0,71

(43)

31

Na Tabela 5.4, note que terceiro fator cont´ em os itens f , g, h, i, j da Quest˜ ao 14, o qual pode ser pensado como a satisfa¸c˜ ao relacionada as condi¸c˜ oes da infra-estrutura da universidade.

Tabela 5.5: Cargas fatoriais do quarto fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q9a 0,68 0,69 0,67

dis q9b 0,65 0,67 0,64

dis q9c 0,72 0,73 0,71

dis q9d 0,71 0,72 0,71

dis q9e 0,76 0,75 0,76

Pela Tabela 5.5, o quarto fator possui alta correla¸c˜ ao com os itens a, b, c, d da Quest˜ ao 9, o qual pode ser interpretado como a satisfa¸c˜ ao relacionada ao trabalho da coordena¸c˜ ao do curso.

Tabela 5.6: Cargas fatoriais do quinto fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q10h -0,76 0,75 -0,76

dis q10i -0,73 0,73 -0,73

dis q10j -0,78 0,76 -0,77

dis q10k -0,75 0,72 -0,74

O quinto fator (Tabela 5.6) que possui os itens h, i, j, k da Quest˜ ao 10, pode ser

entendido como a satisfa¸c˜ ao relacionada aos recursos computacionais.

(44)

Tabela 5.7: Cargas fatoriais do sexto fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q4a 0.51 -0.59 0,52

dis q8b -0,56 0,55 -0,56

dis q8c -0,51 0,47 -0,50

dis q8d -0,52 0,45 -0,52

dis q8e -0,59 0,54 -0,59

dis q8f -0,59 0,55 -0,59

Pela Tabela 5.7, o sexto fator selecionou o item a da Quest˜ ao 4 e os itens b, c, d, e, f da Quest˜ ao 8, cuja dimens˜ ao pode ser entendida como as avalia¸c˜ oes das condi¸c˜ oes did´ atica-pedag´ ogicas.

Tabela 5.8: Cargas fatoriais do s´ etimo fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q14a 0,64 0,63 0,64

dis q14b 0,75 0,75 0,75

dis q14c 0,75 0,75 0,75

dis q14d 0,62 0,61 0,62

Note pela Tabela 5.8, que o s´ etimo fator selecionou os itens a, b, c, d da Quest˜ ao 14, na qual a dimens˜ ao pode ser pensada ou entendida como a satisfa¸c˜ ao do indiv´ıduo com o curso escolhido.

Tabela 5.9: Cargas fatoriais do oitavo fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q13a 0,77 0,77 0,77

dis q13b 0,71 0,71 0,71

dis q13c 0,83 0,82 0,82

dis q13e 0,49 0,49 0,50

(45)

33

No oitavo fator, Tabela 5.9, cont´ em os itens a, b, c, e da Quest˜ ao 13 e pode ser interpretado como a satisfa¸c˜ ao relacionada aos programas acadˆ emicos (Monitoria, tutoria, extens˜ ao e inicia¸c˜ ao cient´ıfica).

Tabela 5.10: Cargas fatoriais do nono fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q1a -0,58 -0,54 -0,57

dis q1b -0,71 -0,71 -0,72

dis q1c -0,73 -0,73 -0,73

dis q1d -0,68 -0,67 -0,68

dis q1e -0,64 -0,62 -0,64

dis q1f -0,72 -0,71 -0,72

dis q1g -0,72 -0,71 -0,72

dis q1h -0,73 -0,73 -0,73

O nono fator (Tabela 5.10) compreende a todos os itens da Quest˜ ao 1, o qual pode ser definido como a avalia¸c˜ ao do perfil profissional/cidad˜ ao a ser formado nos cursos de gradua¸c˜ ao da UFSCar.

Tabela 5.11: Cargas fatoriais do d´ ecimo fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q4c -0,66 -0,5 -0,65

Pela Tabela 5.11, o d´ ecimo fator possui correla¸c˜ ao com apenas uma ´ unica vari´ avel (item c da Quest˜ ao 4) e pode ser entendido como a avalia¸c˜ ao em rela¸c˜ ao a preocupa¸c˜ ao constante com o rigor empregado nas atividades curriculares.

Tabela 5.12: Cargas fatoriais do d´ ecimo primeiro fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q9f -0,77 0,75 0,76

dis q9g -0,80 0,77 0,79

(46)

O d´ ecimo primeiro fator, Tabela 5.12, que se relaciona com os itens item f , g, da Quest˜ ao 9, pode ser compreendido como a satisfa¸c˜ ao relacionada ao atendimento da se- cretaria de coordena¸c˜ ao de curso.

Tabela 5.13: Cargas fatoriais do d´ ecimo segundo fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q10a 0,49 0,49 -0,49

dis q10b 0,79 0,78 -0,79

dis q10c 0,61 0,59 -0,60

dis q10d 0,78 0,79 -0,78

Na Tabela 5.13, o d´ ecimo segundo fator, relacionado com os itens a, b, c, d da Quest˜ ao 10, pode ser pensado como a satisfa¸c˜ ao da adequa¸c˜ ao da infraestrutura necess´ aria para a realiza¸c˜ ao das aulas te´ oricas/pr´ aticas.

Tabela 5.14: Cargas fatoriais do d´ ecimo terceiro fator.

Quest˜ oes M´ etodo 1 e 2 M´ etodo 3 M´ etodo 4

dis q10n -0,77 0,77 -0,77

dis q10o -0,54 0,57 -0,56

dis q10p -0,73 0,72 -0,73

Por fim, o d´ ecimo terceiro fator, Tabela 5.14, cont´ em os itens n, o, p, q da Quest˜ ao 10, e pode ser interpretado como sendo a satisfa¸c˜ ao relacionada ao restaurante universit´ ario.

Portanto, nossas vari´ aveis podem ser agrupadas em 13 dimens˜ oes (fatores) e s˜ ao elas descritas por:

• Dimens˜ ao 1: Avalia¸c˜ ao dos temas transversais e desenvolvimento do pensamento cr´ıtico nas atividades atividades curriculares;

• Dimens˜ ao 2: Satisfa¸c˜ ao relacionada ao atendimento e ao acervos da biblioteca;

• Dimens˜ ao 3: Satisfa¸c˜ ao com as condi¸c˜ oes da infra-estrutura da universidade;

• Dimens˜ ao 4: Satisfa¸c˜ ao em rela¸c˜ ao ao trabalho da coordena¸c˜ ao do curso;

Imagem

temas relacionados :