• Nenhum resultado encontrado

Aplicação de técnicas multivariadas e de validação de teste de diagnóstico em Psicologia

N/A
N/A
Protected

Academic year: 2021

Share "Aplicação de técnicas multivariadas e de validação de teste de diagnóstico em Psicologia"

Copied!
84
0
0

Texto

(1)

Aplicação de Técnicas Multivariadas e de

Validação de Teste de Diagnóstico em

Psicologia

Niterói - RJ, Brasil 10 de julho de 2017

(2)

Filipe Barrientos Batista

Aplicação de Técnicas Multivariadas e

de Validação de Teste de Diagnóstico

em Psicologia

Trabalho de Conclusão de Curso Monograa apresentada para obtenção do grau de Bacharel em Estatística pela Universidade Federal Fluminense.

Orientador: Prof. Dr. Hugo Henrique Kegler dos Santos

Niterói - RJ, Brasil 10 de julho de 2017

(3)

Filipe Barrientos Batista

Aplicação de Técnicas Multivariadas e de Validação de Teste de

Diagnóstico em Psicologia

Monograa de Projeto Final de Graduação sob o título Aplicação de Técnicas Multivariadas e de Validação de Teste de Diagnóstico em Psicologia, defendida por Filipe Barrientos Batista e aprovada em 10 de julho de 2017, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constituída pelos professores:

Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estatística  UFF

Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estatística  UFF

Prof. Dr. Jony Arrais Pinto Junior Departamento de Estatística  UFF

(4)

[s.n.], 2017. 87 f.

Orientador: Prof. Dr. Prof. Hugo Henrique Kegler dos Santos TCC (Graduação de Bacharelado em Estatística) – Universidade Federal Fluminense, 2017.

1.Psicologia. 2. Análise fatorial. 3. Testes psicológicos. I. Título. CDD 519.5354

(5)

Resumo

A psicologia vem cada vez mais utilizando de técnicas estatísticas, principalmente quando se trata da elaboração, validação e interpretação de testes psicológicos. Estes tes-tes muitas vezes tratam com variáveis muito subjetivas de difícil medição, onde utilizamos a análise fatorial para entender quais variáveis originais explicam essas outras. Por lida-rem com diagnóstico de doença também é importante que possuam uma chance de errar o resultado mínima e controlada, para tal é utilizada as medidas de validação de teste de diagnóstico juntamente com a curva ROC para denir a sensibilidade, especicidade, ponto de corte entre outras coisas que aumentarão a precisão e conança no resultado. Já na interpretação dos resultados uma técnica que se destaca é a de análise de cluster, por conseguir agrupar os indivíduos avaliados por suas características, esta técnica facilita na identicação das características mais inuentes no comportamentos de cada grupo. O presente trabalho pretende demonstrar o processo de elaboração de elaboração, valida-ção e interpretavalida-ção dos testes psicológicos utilizando exatamente as técnicas de análise fatorial, análise de cluster e validação de testes de diagnóstico, utilizando o software R e pacotes como stats, ROCR e psych.

Palavras-chaves: Psicologia, análise fatorial, análise de cluster, validação de teste de di-agnóstico, multivariada, testes psicológicos

(6)

Sumário

Lista de Figuras Lista de Tabelas 1 Introdução p. 10 1.1 Justicativa . . . p. 12 2 Objetivos p. 13 2.1 Objetivos Gerais . . . p. 13 2.2 Objetivos Especícos . . . p. 13 3 Materiais e Métodos p. 14 3.1 Dados . . . p. 14 3.2 Teste . . . p. 14 3.3 Análise Fatorial . . . p. 16 3.3.1 Análise Fatorial Exploratória . . . p. 17 Suposições Principais: . . . p. 18 Vericação de Fatorabilidade: . . . p. 20 Estimação de Número de Fatores: . . . p. 22 Estimação de Lk×p e Ψk×k: . . . p. 23

(7)

Estimação dos Escores dos Fatores: . . . p. 27 3.4 Análise de Clusters . . . p. 28 3.4.1 Medidas de Similaridade . . . p. 29 3.4.2 Agrupamento Hierárquico . . . p. 30 3.4.3 Método de Agrupamento por Partição . . . p. 34 3.5 Teste de diagnóstico . . . p. 35 3.5.1 Conceitos Iniciais . . . p. 36 3.5.2 Sensibilidade . . . p. 37 3.5.3 Especicidade . . . p. 38 3.5.4 Valor Preditivo Positivo . . . p. 39 3.5.5 Valor Preditivo Negativo . . . p. 40 3.5.6 Eciência e Zona de Prevalência de Máxima Eciência . . . p. 41 3.5.7 Acurácia . . . p. 42 3.5.8 Curva ROC . . . p. 43

4 Análise de Resultados p. 45

4.1 Análise Descritiva e Gráca . . . p. 45 4.2 Análise Fatorial . . . p. 49 4.3 Teste de Diagnóstico e Curva ROC . . . p. 56 4.4 Análise de Cluster . . . p. 61

(8)

Anexo A -- Análise Fatorial Exploratória p. 70

Anexo B -- Curva ROC p. 73

(9)

Lista de Figuras

1 Exemplo de Scree-Plot. . . p. 23 2 Exemplo de Encadeamento. . . p. 32 3 Exemplos de funcionamento do método aglomerativo. . . p. 34 4 Exemplo da Curva dos Valores Preditivos Positivos . . . p. 39 5 Exemplo da Curva dos Valores Preditivos Negativos . . . p. 40 6 Exemplo Curva de Eciência . . . p. 41 7 Exemplo Zona de Prevalência . . . p. 42 8 Exemplo Curva ROC teorica . . . p. 44 9 Quantidade de respondentes por país de origem . . . p. 46 10 Quantidade de respondentes por meio utilizado para chegar ao teste . . p. 46 11 Proporção de doentes e saudáveis por transtorno . . . p. 47 12 Proporção de indivíduos por cada condição . . . p. 48 13 Distribuição das Patologias. . . p. 49 14 Screeplot . . . p. 53 15 Curvas ROCs . . . p. 59

(10)

Lista de Tabelas

1 Escala Likert de 5 níveis . . . p. 14 2 Tabela das Expressões de Distâncias . . . p. 30 3 Tabela de Contingência do Resultado do Teste e a Condição do Paciente p. 37 4 Matriz de Correlação . . . p. 50 5 Valores MSA . . . p. 51 6 Autovalores e proporção de variância . . . p. 52 7 Autovalores e proporção de variância . . . p. 54 8 Pontos de Corte e Respectivas Medidas de Precisão . . . p. 58 9 Medidas de Precisão dos Transtornos . . . p. 60 10 Tabela de contingência . . . p. 60 11 Medidas de Predição . . . p. 60 12 Alfa de Cronbach . . . p. 61 13 Estatísticas dos Clusters método Aglomerativo . . . p. 62 14 Agrupagento dos Clusters método Aglomerativo . . . p. 62 15 Estatísticas dos Clusters método K-médias . . . p. 63 16 Agrupagento dos Clusters método K-médias . . . p. 63

(11)

1 Introdução

A estatística é a área de estudos focada na coleção, organização, análise, interpre-tação e apreseninterpre-tação de dados, o que signica que ela possui grande importância desde a elaboração e validação de questionários até a interpretação nal dos resultados coletados. Por conta de sua natureza, a estatística se tornou uma poderosa ferramenta utilizada em diversas áreas de conhecimento, sendo a psicologia uma das que mais a utiliza.

Na psicologia o campo que estuda as teorias e técnicas para medições psicológicas através de conhecimentos estatísticos é a psicometria, sendo o engenheiro e psicólogo Louis Leon Thurstone um dos mais importantes nomes dessa área. Junto com Charles Edward Spearman zeram grandes contribuições para a teoria e aplicação da análise fatorial, método este que possibilitou Thurstone desenvolver um modelo de centro de inteligência sobre "Habilidades Mentais Primárias"(PMAs) [1], onde foram considerados fatores independentes, cada um representando um tipo de habilidade subjetiva diferente, mudando o teste de Alfred Binet que considerava uma inteligência geral(1905) [2].

Apesar de Thurstone ter tido grande inuência posterior, os testes psicológicos e a psicometria surgem bem antes através de Sir Francis Galton, sendo este referenci-ado como "o pai da psicometria". Inspirreferenci-ado pelo trabalho de Darwin em "Origem das Espécies"(1859), Galton escreveu o livro "Genius Hereditary"(1869), que fala sobre as diversas e diferentes características de cada indivíduo, levando grande parte dos traba-lhos inicias da psicometria serem voltados para medição da inteligência. Seus estudos levaram a invenção de diversos testes mentais, porém, James McKeen Cattell(1860-1944) foi o responsável por ampliar o trabalho de Galton e por pesquisas que possibilitaram o

(12)

desenvolvimento dos testes modernos (Kaplan Saccuzzo, 2010).

Com a evolução da psicologia ao longo dos anos, cada vez mais notou-se que a saúde psicológica deve ser tratada com mesma atenção e precisão que a saúde física. Uma vez que uma alteração psicológica é mais subjetiva e difícil de se perceber que um vírus ou bactéria, e que esses tipos de doenças possuem sintomas mais sutis, a elaboração de testes psicológicos precisos que ajudem na decisão de tratamento foi necessária.

Atualmente, os teste psicológicos se valem dos avanços da estatística para desde classicarem a personalidade até vericarem uma alteração na psiquê do indivíduo, com o máximo de eciência possível. Por conta das técnicas estatísticas que possibilitaram a construção de testes cada vez mais conáveis, seu uso se expandiu para além do diagnósti-cos de doenças, hoje também sendo utilizados na contratação de funcionários, vericando se o perl do candidato se encaixa com a função ofertada.

A análise fatorial é uma das técnicas estatísticas que mais se destaca na psicologia, pois é muito útil quando queremos reduzir a dimensão de variáveis de um teste e atribuir medidas a conceitos subjetivos como depressão, stress, amor, entre outras, sendo assim uma ótima ferramenta no desenvolvimento, renamento e avaliação dos testes (Floyd e Widaman, 1995). Além disso, ela possui implementação em diversos softwares estatísticos, como R, SAS e SPSS, o que populariza seu uso.

Outra técnica muito utilizada para interpretar os resultados dos testes é a análise de clusters. A análise de clusters se tornou importante na interpretação dos resultados por agrupar os indivíduos com características mais parecidas em grupos, deste modo tornando mais fácil para o pesquisador vericar quais grupos costumam desenvolver quais tipos de personalidades ou transtornos.

A validação do teste de diagnóstico envolvem medidas e métodos para elaboração e validação de um teste com a maior eciência possível. A Sensibilidade e Especicidade, por exemplo, possibilitam saber a precisão do teste, indicando ao pesquisador o quão conável é o resultado. Outra ferramenta importante na elaboração e validação dos testes é a curva ROC (Receiver Operating Characteristic), utilizada quando os resultados não

(13)

são binários, mas sim uma pontuação. Ela estabelece um ponto de corte que categoriza os indivíduos como positivos ou negativos através da combinação ótima entre Sensibilidade e Especicidade.

1.1 Justicativa

Por razão da tamanha importância da estatística na psicologia atualmente, princi-palmente quando se trata sobre a elaboração de teste de perl psicológico, e da necessidade cada vez mais crescente da melhora na precisão e interpretação dos mesmos, este trabalho propõe apresentar alguns métodos utilizados. São apresentadas três técnicas, sendo duas focadas na construção do teste: Análise Fatorial e Validação de Teste de Diagnóstico, e uma na interpretação de seus resultados: Análise de Clusters.

(14)

2 Objetivos

2.1 Objetivos Gerais

Aplicar as técnicas de estatística multivariada e de validação de testes de diag-nóstico na validação e avaliação dos resultados de um teste psicológico

2.2 Objetivos Especícos

• Vericar as estruturas subjacentes existentes no questionário, e quais variáveis ori-ginais podem ser retiradas;

• Vericar diferentes pontos de corte e sua inuência no resultado;

• Avaliar as características dos grupos formados e resultados através da análise de clusters.

(15)

3 Materiais e Métodos

3.1 Dados

Para a aplicação das técnicas proposta neste trabalho foi utilizado um banco de dados que possui respostas de 18192 indivíduos, sendo distribuídos por 142 países onde 9252(50, 86%) são dos Estados Unidos, 2810(15, 45%) do Reino Unido, 1213(6, 67%) do Canadá e 4917(27, 02%) de outros países. O teste foi respondido online através do site [3], sendo possível chegar por 3 fontes diferentes.

O teste possui 27 itens e utiliza a escala Likert com 5 níveis, onde 5 destes itens são reversos, isto é, a relação da resposta é inversa ao resultado. O teste é dividido em 3 sub-testes(Maquiavelismo,Psicopatia e Narcisismo) com 9 itens cada.

Tabela 1: Escala Likert de 5 níveis

1 2 3 4 5

Discorda Totalmente Discorda Indiferente Concorda Concorda Totalmente

3.2 Teste

Os dados foram obtidos do teste Short Dark Triad(SD3) [4], que é realizado em indivíduos para vericar se possuem traços de três tipos de personalidade: Maquiavelismo, Narcisismo ou Psicopatia, sendo este conjunto de personalidades denominadas Dark Triad por Delroy L. Paulhus e Kevin M. Williams, que encontraram diferenças sucientes para

(16)

mostrar que eram construções diferentes, apesar de testes empíricos mostrarem sobrepo-sição entre as três [5].

A Dark Triad quando traduzida seria "Tríade Sombria", o nome é justicado por abranger personalidades que possuem traços malécos [5]. Esses traços de personalidades se tornaram tão importantes para a psicologia, por conta de indivíduos com essas persona-lidades serem mais propensos a cometerem crimes e causarem sofrimento, principalmente quando se encontram em posições de liderança. As três possuem descrição conceitual diferentes entre si, sendo a falta de empatia comum a todos:

• Maquiavelismo: Caracteriza-se pela manipulação e exploração alheia, desprezo cínico pela moral com foco no interesse próprio e em causar decepção. Pessoas maquiavélicas são estratégicas, e não impulsivas como psicopatas, planejam a frente, formam alianças e prezam por suas reputações, evitando assim manipular familiares e ngirem fraqueza como tática comportamental [5].

• Psicopatia: Caracteriza-se pelo contínuo comportamento anti-social, impulsivi-dade, egoísmo e falta de remorso. Psicopatas costumam ser impulsivos, caracterís-tica chave na diferenciação de alguém maquiavélico, e desta forma buscam recom-pensas imediatas não pensando em consequências futuras [5][6].

• Narcisismo: Caracteriza-se pelo egoísmo, orgulho, noção de grandiosidade, se colo-cando como mais importante que todos. Narcisistas, diferente dos outros dois, têm comportamento mais focado em auto-engano ao invés da manipulação, acreditando serem muito mais do que realmente são, mesmo quando possível vericar os exage-ros. Também possuem uma sensação de direito, merecimento, sendo agressivos com qualquer coisa que ameace sua sensação de grandiosidade [5][7].

O Short Dark Triad(SD3) foi elaborado com a intenção de tornar mais prático o estudo sobre a ( Dark Triad), e desta forma motivar mais pesquisadores a estudarem as diferenças entre as personalidades, sendo uma alternativa reduzida e conável dos testes padrões que existem para cada uma individualmente, pois estes possuem por volta de 50 itens cada e o SD3 possui 27 no total, poupando muitos recursos na sua aplicação.

(17)

3.3 Análise Fatorial

Ao utilizar técnicas multivariadas, lidamos com uma quantidade de variáveis que pode complicar a análise dos dados. Desta forma, dado um vetor X = [X1, X2, ..., Xk]

de variáveis originais, buscamos uma estrutura subjacente formada por um conjunto de tamanho p de variáveis , 1 < p < k, chamados de fatores, que explique a variabilidade de X. Além disso, de acordo com Sueli Aparecida Mingoti[8], esses fatores devem ter relação linear com X e serem Ortogonais.

Nesse contexto a análise fatorial, é aplicada de duas formas: a Análise Fatorial Exploratória (AFE) e a Análise Fatorial Conrmatória (AFC). A diferença entre a AFE e AFC é dada por termos na AFE primeiramente um conjunto de variáveis explicativas que representam as características de um elemento da população; após, realizar a reunião dessas variáveis nos fatores, e então analisar o que cada fator representa. Já na AFC, a ideia é partir dos construtos, conceitos abstratos que não podem ser medidos direta-mente, como autoestima, depressão ou felicidade conjugal. Assim, criamos as variáveis que, reunidas, ajudam a medir esses conceitos [9].Para isso é preciso seguir as seguintes suposições [10]:

Tipo de Variáveis: para a realização de uma boa análise fatorial, como já mencionado, é preciso atenção ao escolher as variáveis que fazem parte de sua pesquisa, princi-palmente no tipo dela. Recomenda-se que as variáveis utilizadas na análise fatorial sejam métricas, não sendo uma condição restritiva, mas sim uma forma de simpli-car os cálculos das medidas de correlação entre todas as variáveis, algo necessário para a análise.

Número de variáveis: ao escolher quantas variáveis o trabalho terá, deve-se tomar o cuidado de não adicioná-las indiscriminadamente, pois isso ocasiona um efeito no-meado "lixo dentro, lixo fora", uma vez que a análise fatorial sempre produz fatores a escolha de variáveis pobres resultam em resultados pobres e de difícil interpreta-ção, porém ainda é necessária uma quantidade razoável que atenda a estrutura e

(18)

fatores propostos como hipótese para o estudo. Na literatura é recorrente a suges-tão de colocar 5 ou mais variáveis para cada fator proposto, e sempre que possível deve se identicar algumas variáveis-chaves, ou variáveis de marcação, que possuem uma forte ligação com os fatores previstos em hipótese, desta forma facilitando a denição conceitual de cada.

Tamanho de Amostra: quanto ao número de indivíduos que devem estar na pesquisa, existem diversos pontos de vistas e sugestões em diferentes literaturas, porém como regra geral a quantidade de observações é no mínimo 5 vezes sendo o recomendado, e mais aceitável, ser 10 indivíduos por cada uma das variáveis analisadas.

3.3.1 Análise Fatorial Exploratória

Pela perspectiva da AFE, os fatores assumem dois papéis dependendo do interesse do pesquisador sobre os dados [10]:

(i) Redução da quantidade de variáveis: identicando um número menor de novas variáveis que nos entregue as informações principais e substituam as originais, sem que tenham alta correlação entre si.

(ii) Resumo de dados: trata de denir uma estrutura para os dados, de modo que o pesquisador consiga analisar as variáveis, não pelo que elas representam de forma individual mas sim pelo conceito representado coletivamente, em forma de fatores.

Sendo o resumo de dados o principal uso, formando principalmente os construtos abstratos de difícil medição.

Apesar de podermos aplicar a análise fatorial no vetor X das variáveis originais, é preferível que se utilize sua forma padronizada pela média e desvio padrão, de forma que pretenda facilitar as contas. Logo, denindo o vetor de médias de X como µ =

(19)

[µ1, µ2, ..., µk], e Dk×k como a matriz de desvio padrões, Dk×k = 1 σ1 0 0 ... 0 0 σ1 2 0 ... 0 0 0 σ1 3 ... 0 ... ... ... ... ... 0 0 0 ... σ1 k ,

temos o vetor Z = Dk×k(X − µ) representando o vetor das variáveis padronizadas. Neste

caso, a matriz de correlação e a de covariância podem ser representadas por Pk×k, também

chamada matriz de correlação teórica [8].

Denida a matriz de correlação teórica, Pk×k, é possível denir o Modelo de

AFE via Matriz de Correlação como um modelo que relaciona linearmente as variáveis padronizadas e os fatores, esses desconhecidos inicialmente. A equação do modelo é dada, através de notação matricial, por:

Z = Lk×pFp×1+ εk×1

Estabelecido que k é o número de variáveis originais e p o de fatores existentes, pode-se denir F = [F1, F2, ..., Fp] como o vetor aleatório que contêm p fatores, ε =

[ε1, ε2, ..., εk] o vetor de erros aleatórios correspondentes a variação não explicada pelos

fatores comuns e Lk×p a matriz onde estão os coecientes lij, i = 1, 2, ..., k e i = 1, 2, ..., p,

denominadas de cargas fatoriais, que são os coecientes do j -ésimo fator Fj na i-ésima

variável Zi, representando o grau de relação linear da variável i com o fator j.

Suposições Principais:

As suposições estatísticas de normalidade, homocedasticidade e linearidade exis-tem apenas por aumentarem as correlações observadas, apesar de ainda ser desejada uma porção de multicolinearidade, uma vez que queremos identicar conjuntos de variáveis inter-relacionadas. Dado um modelo fatorial ortogonal, ele deve seguir os seguintes

(20)

pres-supostos, de acordo com Sueli Mingoti(2013) [8], para estimá-lo: (i) E[Fp×1] = 0, ou seja, os fatores possuem média igual a zero;

(ii) V ar[Fp×1] = Ip×p, ou seja, os fatores são não correlacionados com variância igual a

1;

(iii) E[εk×1] = 0, ou seja, os erros possuem média igual a zero;

(iv) V ar[εk×1] = Ψk×k, onde,

Ψk×k = Ψ1 0 0 ... 0 0 Ψ2 0 ... 0 0 0 Ψ3 ... 0 ... ... ... ... ... 0 0 0 ... Ψk

signicando que os erros são não-correlacionados entre si e não necessariamente com variâncias iguais;

(v) Cov(εk×1,Fp×1) = E(εF0) = 0, ou seja, os vetores dos erros e fatores são

independen-tes e representam fonindependen-tes de variação distintas com relação as variáveis padronizadas do vetor Zk×1.

Uma consequência ao assumir o modelo ortogonal, seguindo seus pressupostos, é podermos reparametrizar a matriz de correlação teórica Pk×k na forma:

Pk×k =LL>+ Ψ

deste modo, o objetivo da análise se torna encontrar os valores para as matrizes Lk×p e

(21)

A decomposição da matriz Pk×k, da forma como foi mostrada acima, resulta em: V ar(Zi) = p X j=1 l2ij + Ψi = h2i + Ψi onde h2 i = Pp j=1l 2

ij e i = 1, 2, ..., k, deixando claro que a variância das variáveis de Zk×1

pode ser colocada de forma a ser explicada por duas partes, sendo h2

i a variância comum,

também chamada comunalidade, é denida em Hair et al.(2009)[10] como a variância em uma variável que é compartilhada com todas as outras variáveis na análise, isto quer dizer que são os valores das variâncias de cada variável explicada pelos fatores, assim quanto maior a comunalidade mais explicada pelo fator é a variável. A parte da variância relacionada a Ψié a chamada de variância especíca, pois, ela é associada especicamente

a uma única variável, não podendo ser explicada pelas correlações com outras variáveis. A representatividade de um fator se dá pela proporção da variância total que ele consegue explicar chamada P V T EFj, calculada por:

P V T EFj = Pk i=1l 2 ij k

lembrando que quanto maior o valor de P V T EFj mais representativo é o fator.

Uma vez que:

Cov(Zk×1,Fp×1) = Lk×p,

sendo esta a razão da matriz de cargas fatoriais Lk×p ser utilizada para interpretar os

fatores e agrupar as variáveis originais. Vericação de Fatorabilidade:

Uma vez vericadas as suposições iniciais e estabelecido o modelo ortogonal, é possível aplicarmos medidas de intercorrelação sobre Pk×k, que ajudam no diagnóstico da

fatorabilidade da matriz de correlação, garantindo que a mesma não tenha somente corre-lações baixas ou não possui uma estrutura para agrupar as variáveis, isto é, as correcorre-lações são todas iguais.

(22)

Entre as diversas abordagens para conrmar a aplicabilidade da AFE, existe a inspeção visual da matriz de correlação, que no caso de Pk×k não revelar uma

quanti-dade substancial de correlações maiores de 0,30, indica que a análise será inapropriada. Também é possível analisar as correlações parciais, através de uma inspeção de matriz anti-imagem, onde a correlação parcial é denida como a correlação entre duas variáveis aleatórias considerando as demais como constantes, logo, caso existam fatores intrínseco, as correlações parciais serão pequenas, pois dependem das variáveis excluídas para explicar o resto do fator [10].

Ainda sobre as abordagens para vericar a fatorabilidade, temos duas outras medidas menos visuais e mais empíricas: Teste de Esfericidade de Bartlett e o Critério de Kaiser-Meyer-Olkin(KMO). O primeiro, partindo do pressuposto que as variáveis vêm de uma distribuição Normal p-variada, realiza um teste de hipótese para vericar se há igualdade entre as matrizes de correlação populacional e a identidade, podendo ser representada por [8]:

H0 : Pk×k =Ik×k

H1 : Pk×k 6=Ik×k,

sendo Ik×k é a matriz identidade. A estatística de teste T é denida por:

T = −[n − 1 6(2k + 11)][ p X j=1 ln(bλi)]

em que bλ, i = 1, 2, ..., k, são os autovalores da matriz de correlação amostral. Quando n tende ao innito, a distribuição da estatística de teste T tende a uma qui-quadrado com 1

2k(k − 1) graus de liberdade. No teste de esfericidade de Bartlett, é considerada

apropriada a aplicação da análise quando H0 é rejeitada.

Em relação a segunda, KMO, o coeciente é denido por: KMO = P i6=jR 2 ij P i6=jR 2 ij + P i6=jQ 2 ij

(23)

onde Rij representa a correlação amostral entre as variáveis Xi e Xj e Qij representa

a correlação parcial entre as variáveis. O índice KMO varia entre 0 e 1, sendo que quanto mais próximo de 1 mais a variável é prevista sem erro pelas outras. A mesma segue as seguintes faixas: 0,80 ou mais é ótima; entre 0,80 e 0,70 mediano; entre 0,70 e 0,60 medíocre; entre 0,60 e 0,50 ruim; menor que 0,50 inaceitável, dessa forma no exame individual de cada variável devem ser retiradas as que estejam inaceitáveis, isto é, possuem valor menor que 0,50, para tal deve-se primeiro eliminar a variável com o menor valor de KMO e então recalcular, repetindo o processo até todas as variáveis estejam com um valor aceitável, acima de 0,50 [10].

Estimação de Número de Fatores:

Ao garantir a aplicabilidade da AFE, deve-se estimar a a quantidade p de fatores, através dos autovalores da matriz de correlação amostral Rk×k ordenados de forma

cres-cente, feito isso observa-se os autovalores mais importantes, através dos seguintes critérios [8]:

Critério 1: fazer a análise da proporção da variância total relacionada com cada auto-valor bλi, denida por bλki, i = 1, 2, ..., k. Mantêm aqueles que representam as maiores

proporções da variância total, sendo a quantidade de autovalores mantidos a mesma de p de fatores.

Critério 2: comparar os valores numéricos dos autovalores com 1. A quantidade p de fatores, é dada pelo número de autovalores maiores ou iguais a 1, desta forma são mantidas somente fatores que representem a informação de pelo menos uma variável original, também conhecido por critério da raiz latente.

Critério 3: observação do gráco scree-plot, ordenando os autovalores de forma de-crescente. Procura-se no gráco um "ponto de salto"que representa um decréscimo de importância considerando a variância total, sendo o número p de fatores igual a quantidade de autovalores anteriores ao "ponto de salto", sendo equivalente ao Critério 1

(24)

Os critérios supracitados somente consideram a grandeza numérica dos autovalo-res, o que pode levar a formação de estruturas subjacentes incoerentes. Por tal razão o aconselhável é que se leve em consideração ao denir o número de fatores, a interpretabi-lidade e o princípio da parcimônia, isto é, manter um número pequeno de fatores.

Figura 1: Exemplo de Scree-Plot.

Existe um outro critério que ganhou destaque na literatura que é o método das análises paralelas (AP)(Horn, 1965)[11], este vem demonstrando ter uma melhor acurácia na retenção dos fatores, porém somente mais recentemente começou a ser mais utilizado, por conta de não existir a implementação dela nos softwares até pouco tempo atrás. Este método utiliza simulação de Monte-Carlo para gerar matrizes de correlações aleatórias com mesma dimensão da matriz real que está sendo trabalhada, as matrizes são então fatoradas uma quantidade de vezes que o estudo requerer, para então utilizar as médias dos autovalores das simulações e compará-los com os autovalores da matriz real, desta forma utilizando ao mesmo tempo o critério de autovalores maiores que 1, também é necessário que o autovalor real seja maior que o do simulado pareado a ele. Este método possui a vantagem de ser pouco afetado por conta do tamanho da amostra, diferentemente do que acontecerá ao utilizarmos o critério de raiz latente

Estimação de Lk×p e Ψk×k:

(25)

Ψk×k. Para tal, existem três métodos: Componentes Principais, Fatores Principais e

Máxima Verossimilhança, porém, neste trabalho nos aprofundaremos somente no método de Componentes Principais, pois este não exige nenhuma informação ou suposição sobre a distribuição de probabilidade de Z.

O método das Componentes Principais consiste em encontrar para cada um dos autovalores denidos, após a estimação do número de fatores, os seus respectivos autove-tores normalizadosbei, sendo bei = (ebi1,bei2, ...,beik)

>.

A matriz Lk×p é estimada por [8]:

b Lk×p = [ q b λ1be1 q b λ2be2 ... q b λmbem],

enquanto para estimar Ψk×k, precisamos aplicar o teorema de decomposição espectral

na matriz Rk×k. Através deste teorema é possível decompormos a matriz de correlação

amostral, Rk×k, como uma soma de k matrizes, cada uma relacionada com um autovalor

de Rk×k. Assim sendo, para um valor xo de p fatores, temos:

Rk×k = k X i=1 b λibeibe > i = p X i=1 b λibeibe > i + k X i=p+1 b λibeibe > i .

Na decomposição acima, a primeira parcela da soma é transformada da seguinte forma: p X i=1 b λibeibe > i = [ q b λ1be1 q b λ2be2 ... q b λmebm][ q b λ1be1 q b λ2be2 ... q b λmbem] > = bLk×pLb > p×k

e como Pk×k =LL0+ Ψk×k, utilizamos a segunda parcela da decomposição de Rk×k para

construirmos a matrizΨbk×k. Desta forma a equação é dada por:

p X i=1 b λibeibe > i =Rk×k − bLk×pLb > p×k.

Porém, como a matriz Pp

i=1bλibeibe

>

(26)

Ψk×k, é necessário tomarmos somente sua diagonal principal. Deste modo, estimamos a matriz Ψk×k por: b Ψk×k = diag(Rk×k− bLk×pLb > p×k),

sendo diag() a matriz diagonal. Assim, a matriz estimada da variância dos erros, Ψbk×k, tem diagonal principal igual a diagonal principal de Rk×k − bLk×pLb

> p×k.

Ao considerarmos esta forma de estimação para as matrizes de cargas fatoriais e variância e covariância dos erros, a matriz de correlação amostral original, Rk×k, é dada

de forma aproximada por:

Rk×k ≈ (bLk×pLb

>

p×k) + bΨk×k,

e a matriz residual, que surge do ajuste do modelo fatorial, é dada por: M RESk×k =Rk×k − (bLk×pLb

>

p×k) + bΨk×k).

A matriz residual serve como um critério de avaliação da qualidade de ajuste do modelo fatorial. Os valores do MRESk×k, para que indiquem um bom ajuste devem ser

próximos de zero, sendo que ela somente é nula quando temos p = k, algo que não é desejado na análise fatorial.

Ao utilizarmos o método das componentes principais para estimação das matri-zes Lk×p e Ψk×k, a proporção de variância explicada pelo fator Fi, P V T EFi, pode ser

representada por bλi

k, onde o valor representa o quanto cada fator capta da variabilidade

das variáveis originais [8].

(27)

Em algumas situações, podemos ter certa diculdade em interpretar os fatores originais porque podem ocorrer variáveis com cargas fatoriais, blij, parecidas e não

despre-zíveis em diversos fatores. Quando isto ocorre, a suposição de ortogonalidade nos fatores é violada, tornando a atribuição das variáveis originais em fatores confusa. Para casos como estes devemos utilizar o recurso da transformação ortogonal dos fatores originais.

A rotação ortogonal é uma técnica para encontrarmos uma estrutura mais simples de interpretar, preservando a perpendicularidade entre os fatores após a rotação. Sabendo que a matriz de correlação teórica é expressa por Pk×k = (Lk×pL>p×k) + Ψk×k e sua versão

amostral é Rk×k ≈ (bLk×pLb

>

p×k) + bΨk×k, e sendo Tp×p uma matriz ortogonal qualquer, isto

é:

Tp×pT>p×p=T >

p×pTp×p =Ip×p,

podemos transformar a matriz estimada Lbk×p através da rotação ortogonal em Lb

∗ k×p =

b

Lk×pTp×p e ainda mantermos uma solução para o modelo, pois:

b L∗k×pLb ∗> p×k = (bLk×pTp×p)(bLk×pTp×p)>= bLk×pTp×pT>p×pLb > p×k = bLk×pLb > p×k.

Isto mostra que a solução do modelo ortogonal não é única, possuindo diversas outras soluções dependendo da matriz ortogonal Tp×pescolhida para rotacionar os fatores. Logo,

a rotação ortogonal servirá para acharmos, dentre as múltiplas soluções, aquela que tenha melhor interpretação que a solução original, ou seja, achar a matriz Lb

k×p de forma que

cada variável original Zi tenha sua carga fatorial alta relacionada a um único fator Fj [8].

Dado que existem innitos Tp×ppossíveis, e buscamos somente aquele que nos dá

a melhor estrutura, existem três abordagens ortogonais principais: Critério Quartimax, Critério Varimax, Critério Equimax. Pela literatura, o Critério Varimax é descrito como tendo o melhor desempenho quando tratamos de modelos ortogonais, então é esse que abordamos nesse trabalho.

O critério varimax ele toma o caminho de simplicar as colunas da matriz Lbk×p, tentando ao máximo deixar somente cargas altas, como 1 e −1, e cargas baixas próximas

(28)

de 0, desta forma a interpretação se tornaria mais fácil, visto que uma carga lij próxima

de 1 ou −1 indica forte relação entre Zi e Fj, enquanto que cargas próximas a 0 mostram

a ausência desta relação.

Estimação dos Escores dos Fatores:

De acordo com Hair [10], caso o objetivo do estudo seja identicar variáveis apropriadas para a aplicação de outras análises, é possível faze-lo examinando a matriz fatorial e selecionar a variável com maior carga fatorial, blij, para cada fator, onde essas

servirão de variáveis substitutas que representaram os respectivos fatores. Nas situações em que existam várias blij altas, o indicado é que seja calculados os escores fatoriais para

acharmos a variável substituta, com o objetivo de melhor representar a natureza básica do fator.

Os escores são calculados para cada elemento amostral, para cada elemento amostral h, h = 1, 2, ..., n sendo n o tamanho da amostra, o escore no fator Fj, onde

j = 1, 2, ..., p, é calculado por:

b

Fjh =wj1Z1h+wj2Z2h+ ... +wjkZkh,

sendo Zh = (Z1hZ2h...Zkh) o vetor dos valores observados de todas as variáveis originais

padronizadas para o h-ésimo elemento da amostra, enquanto wj = (wj1wj2...wjk) é o

vetor dos pesos de cada variável no fator Fj, onde esses pesos serão calculados a partir

do método dos mínimos quadrados ponderados.[3]

O método dos mínimos quadrados ponderados é aplicado uma vez que considera-mos o modelo fatorial Z = Lk×pFp×1+ εk×1 como um modelo de regressão linear múltipla.

Desta forma é possível através deste método estimarmos o vetor de fatores Fp×1(Johnson;

Wichern, 2002) aplicando a seguinte fórmula: b Fjh = (bL > p×kΨb−1k×kLbk×p)−1Lb > p×kΨb−1k×kZh =Wp×kZh,

(29)

um vetor wj referente ao j -ésimo fator associado.

3.4 Análise de Clusters

A análise de clusters, ou agrupamentos, é um conjunto de técnicas que permite agruparmos os indivíduos de um banco de dados de acordo com suas características, facilitando reconhecer relações existentes entre os indivíduos de cada cluster. Por razão dessa habilidade, essas técnicas são importantes em diversas áreas, como por exemplo a psicologia, área que agrupa os pacientes de acordo com as características da personalidade e comportamento, direcionando melhor o tratamento a ser aplicado.

Dado o conjunto χ = {X1,X2, ...,Xn}, sendo Xi = [X1, X2, ..., Xp]> vetor de

variáveis aleatórias, denimos o conjunto de clusters como C = {C1, C2, ..., CK}, K < n,

tal que,

(i) Ci 6= ∅, i = 1, ...K;

(ii)∪K

i=1Ci = χ;

(iii)Ci∩ Cj = ∅ , i, j = 1, ..., K e i 6= j;

note que o conjunto C é uma partição do conjunto de vetores de entrada [12].

A análise de clusters classica os indivíduos de acordo com as semelhanças entre suas características, dividindo-os em grupos que possuem alta homogeneidade interna e heterogeneidade externa. Por se basear nas semelhanças entre os indivíduos do banco, o primeiro passo da análise é determinar as medidas de similaridades e a matriz de simi-laridade. São nessas medidas que as técnicas utilizadas para formarmos os clusters são baseadas [12].

Existem diversas técnicas para abordar a tarefa de agrupamento, mas para o m desse trabalho serão aprofundadas duas delas: a estratégia Hierárquica, que se divide nas abordagens aglomerativa ou divisiva, e a de Partição, utilizando o algoritmo de K-médias(MacQueen, 1967;Lloyd, 1982).

(30)

3.4.1 Medidas de Similaridade

Uma vez que muitos dos métodos de análise de clusters utilizam alguma medida de similaridade entre os indivíduos do grupo, estabelecer qual o cálculo de similaridade será utilizado é um passo fundamental para um agrupamento bem realizado. A similari-dade pode ser medida de diversas formas, mas são três tipos delas que mais se destacam: Correlacionais, de Associação e a de Distância. Para os ns desse trabalho, nos apro-fundaremos somente nas medidas de Distância, pois na literatura atual são reconhecidas como as mais utilizadas por representarem melhor o conceito de proximidade, entre outras razões.

Dado χ o conjunto de n vetores de entrada, χ = [X1,X2, ...,Xn]> , a medida de

similaridade é calculada para cada par de indivíduos de χ, d(Xi,Xj). O cálculo é pautado

nos pers dos indivíduos, equivalentes aos vetores de entrada, tornando a construção da Matriz de Similaridade(MS) que contêm todos os valores d(Xi,Xj), o que facilita a

identicação dos pares mais similares.

M S = d(X1, X1) d(X1, X2) d(X1, X3) ... d(X1, Xn) d(X2, X1) d(X2, X2) d(X1, X3) ... d(X2, Xn) d(X3, X1) d(X3, X2) d(X3, X3) ... d(X3, Xn) ... ... ... ... ... d(Xn, X1) d(Xn, X2) d(Xn, X3) ... d(Xn, Xn)

A matriz de similaridade é uma matriz que relaciona todos os Xi de χ entre si,

sendo o ij-ésimo elemento da matriz igual ao valor de similaridade entre os indivíduos Xi

e Xj, dado por d(Xi,Xj), que terá as seguintes características:

• d(Xi,Xj) > 0, para i 6= j;

• d(Xi,Xj) = 0, para i = j;

(31)

para i = 1, 2, ..., n e j = 1, 2, ..., n. Dessa forma, a matriz de similaridade é sempre simétrica e quadrada de dimensão n × n.

Considerando Xi = [X1i, X2i, ..., Xpi]> e Xj = [X1j, X2j, ..., Xpj]> pertencentes a

χ, a distância d entre Xi e Xj pode ser calculada utilizando um dos seguintes métodos

[13]:

Tabela 2: Tabela das Expressões de Distâncias

Distância Expressão Euclidiana d(Xi,Xj) = pPph=1(Xhi− Xhj)2 Euclidiana Quadrada d(Xi,Xj) = Pph=1(Xhi− Xhj)2 Manhattan(city-block) d(Xi,Xj) = P p h=1|Xhi− Xhj| Chebychev d(Xi,Xj) = máximo{|X1i− X1j|, |X2i− X2j|, ..., |Xpi− Xpj|}

As distâncias apresentadas na tabela acima são as mais utilizadas, cada uma possuindo suas particularidades. A Euclidiana é a mais conhecida por se tratar de uma distância geométrica no espaço multidimensional, sendo a versão quadrada ou absoluta recomendada para os métodos de agrupamento por centróide e de Ward, pois diminui o tempo de processamento ao eliminar a raiz da expressão. Já a Manhattan possui a qualidade de ser entre essas a mais simples de ser calcular, porém pode formar agrupa-mentos inválidos caso as variáveis tenham alta correlação, e a Chebbychev requer que se tenha atenção às escalas de todas as variáveis, que precisam estar padronizadas, sendo mais utilizada para identicar a diferença entre dois elementos quando só uma dimensão é diferente.

3.4.2 Agrupamento Hierárquico

Dado χ o conjunto de n vetores de entrada, os métodos de agrupamento hierár-quico consistem em criar uma estrutura em árvore, através de n-1 agrupamentos, onde terão como os nós os exemplares Xi do conjunto χ. Essas estruturas podem ser construídas

(32)

No método aglomerativo, a construção da árvore começa com o número K de clusters igual a n, isto é, cada elemento Xi forma um cluster Ci, i = 1, ..., n, chamados

de nós. Em seguida, agrupamos os dois nós mais similares entre si, formando um novo cluster, reduzindo o número total para K − 1. Esse procedimento de agrupamento se repete até que reste apenas um único cluster com todos os elementos, também chamado de nó raiz. Já o método divisivo é a forma contrária de construção, com a árvore iniciando com o nó raiz, isto é, o número K de clusters é igual a 1, e dividindo-se de acordo com o critério de dissimilaridade escolhido até que haja n nós unitários [6].

Como visto, uma vez que o método hierárquico se baseia na similaridade, é ne-cessário formas de medi-la entre clusters de múltiplos indivíduos. Para tal, utilizamos os algoritmos aglomerativos, pois levam em consideração todos os membros dos clusters, sendo os mais comuns: ligação simples, ligação completa, ligação média, ligação centróide e ligação de Ward.

Considerando os clusters e Cie Cj, e denominando como NCi e NCj as quantidades

de elementos dosclusters, denimos cada uma das ligações a seguir [6]:

Ligação Simples: A distância entre dois grupos é dada de acordo com a distância entre os seus exemplares mais próximos, isto é,

d(Ci, Cj) = min{d(Xi,Xj) :Xi ∈ Ci e Xj ∈ Cj}.

Esse método é o algoritmo aglomerativo mais versátil, por razão da vasta gama de padrões de aglomerações que ele consegue gerar, também apresenta bom desempe-nho para qualquer que seja a medida de distância utilizada, porém sofre problemas por associar ruídos, que são observações com comportamentos anômalos, a clusters já existentes e por formar encadeamentos, isto é, um cluster de um ou mais elemen-tos a cada interação feita incorpora outro de apenas um elemento sempre, formando longas cadeias que dicultam denir um ponto de corte para classicar os elementos do cluster(ROMESBURG, 1984) [13].

(33)

Figura 2: Exemplo de Encadeamento.

Ligação Completa: A distância entre dois grupos é dada de acordo com a distância entre os seus exemplares mais distantes, isto é,

d(Ci, Cj) = max{d(Xi,Xj) :Xi ∈ Ci e Xj ∈ Cj}.

A Ligação completa, assim como a simples, demonstra bons resultados para qualquer medida de distância utilizada, mas é mais robusta com relação a ruídos, demorando mais para associá-los aos clusters existentes e não sofre com o problemas de enca-deamento, porém tende a formar clusters mais compactos.

Ligação Média: A distância entre dois grupos é dada pela média das distâncias entre todos os exemplares de um grupo e todos os exemplares do outro grupo, isto é,

d(Ci, Cj) = 1 NCiNCj X Xi∈Ci X Xj∈Cj d(Xi,Xj).

Esse método também possui, assim como a completa e a simples, bons resultados seja qual for a medida de distância, demonstra também uma robustez ainda maior para com ruídos, porém costuma formar clusters com quantidade de elementos próximos. Ligação Centróide: Denindo o centróide yk por

yk = 1 NCk X Xk∈Ck Xk,

A distância entre dois grupos é dada de acordo com a distância entre os seus centrói-des, isto é, d(Ci, Cj) = d(yi, yj). Este método apresenta uma grande resistência a

(34)

ruídos do que outros algoritmos aglomerativos, assim como a ligação média, porém costuma ser evitado por retornar frequentemente resultados confusos, por causa do fenômeno da reversão, ou seja, as distâncias entre os centróides atualizados são me-nores que a de clusters já formados, o que faz com que eles se fundam a um nível inferior aos clusters existentes, gerando dendogramas mais complicados e dicul-tando a escolha do número de clusters.

Ligação de Ward: A distância entre os grupos se baseia na distância intra e entre os clusters, sendo dada por

d(Ci, Cj) = 2 NCiNCj X Xi∈Ci X Xj∈Cj d2(Xi,Xj) − 1 N2 Ci X Xi,Xj∈Ci d2(Xi,Xj) − 1 N2 Cj X Xi,Xj∈Cj d2(Xi,Xj),

sendo, neste caso, d(Xi,Xj)a distância euclidiana, pois o método de Ward se baseia

na mesma. Esse método tende a combinar clusters com poucas observações e apro-ximadamente o mesmo tamanho, além de possuir uma alta sensibilidade a ruídos. Contudo, ele diculta a identicação de agrupamentos que são pequenas porções da amostra [10].

Os critérios de similaridade, independente do método utilizado, são aplicados de forma que quanto menor o valor da distância entre os clusters, mais similares são.

Uma vez que grande parte dos pacotes computacionais mais usados utilizam mé-todos aglomerativos e considerando que o método divisivo atua quase como o contrário, neste trabalho usamos a abordagem aglomerativa. A m de ilustrar o método, abaixo é apresentado um exemplo:

(35)

(a) Diagrama método aglomerativo (b) Dendograma método aglomerativo Figura 3: Exemplos de funcionamento do método aglomerativo.

3.4.3 Método de Agrupamento por Partição

Os métodos de particionamento ou agrupamento por partição se dividem em duas principais abordagens: rígidos e difusos, onde o primeiro se caracteriza por associar cada indivíduo e seu perl a um único grupo, enquanto o segundo permite diferentes graus de pertinência de um mesmo indivíduo a diversos grupos. Particularmente, nesse trabalho é utilizada a abordagem rígida. Esta abordagem se baseia em particionar um conjunto de dados de n indivíduos em um número K de clusters pré-estabelecido, K ≤ n, com cada grupo contendo ao menos um indivíduo.

O algoritmo de particionamento utilizado é o K-means, cuja forma de agrupa-mento dos indivíduos é interativa, permitindo que os centróides iniciados aleatoriamente se ajustem e melhorem a similaridade intragrupo. Isto é feito minimizando o erro do agrupamento, que é denida como a soma das distâncias euclidianas entre cada indivíduo e o centróide de seu respectivo grupo, isto é,

E = K X k=1 X Xi∈Ck d(Xi, yk) (3.1)

onde K é o total de grupos denidos, d(Xi, yk) é a distância entre os indivíduos Xi e o

centróide yk do cluster Ck. A distância utilizada é a euclidiana que pode ser calculada

(36)

Logo, o funcionamento do algoritmo de K-médias é da seguinte forma [12]: • Passo 1: Serão escolhidos aleatoriamente K centróides yk;

• Passo 2: Verica-se a distância d(Xi,yk) para cada indivíduo Xi de χ e cada

centróide yk com k = 1, 2, ...K e i = 1, 2, .., n;

• Passo 3: Associa-se cada indivíduo Xi a cada yk que minimiza d(Xi,yk), assim

formando os K clusters;

• Passo 4: Atualizar os centróides de forma que cada yk, com k = 1, 2..., K, seja a

média dos vetores Xi associados a ele;

• Passo 5: Caso tenha ocorrido alguma alteração nas associações dos indivíduos com os centróides, deve se repetir os passos 2,3 e 4, até que não haja mais alteração;

3.5 Teste de diagnóstico

Teste de diagnóstico é um método para avaliar a existência de uma determinada característica de um indivíduo, sendo o resultado dado com um certo grau de incerteza. É utilizado como alternativa a métodos mais precisos, mas que possuem um custo maior. Na medicina, por exemplo, para se diagnosticar um tumor, um exame de sangue seria uma alternativa menos invasiva e mais barata do que uma cirurgia; na psicologia, seria um auxílio em casos de transtornos de difícil diagnóstico, como depressão, psicopatias entre outras. Em contraposição as suas vantagens, o teste de diagnóstico possui uma precisão inferior as técnicas que comumente ela substitui, por essa razão não sendo utilizado como parecer nal para o diagnóstico, além de necessitar para sua validação de um teste padrão ouro, teste este que se caracteriza por possuir alta precisão no resultado. Costumam ser testes quanticados, descritos por uma variável contínua ou categórica ordinal, o qual possuem um ponto de corte que determinará se o resultado é positivo-negativo, normal-anormal, reator-não reator, ou qual seja a nomenclatura utilizada.

(37)

Todo o teste possui cinco principais conceitos a serem avaliados: Sensibilidade, Especicidade,Valor Preditivo Positivo, Valor Preditivo Negativo Eciência e Acurácia. Os mesmos analisam pontos diferentes do teste e estão mais aprofundados nas seções a seguir, sendo ajustados através do ponto de corte escolhido e conforme as características que o pesquisador achar que são mais convenientes serem ressaltadas no caso.

3.5.1 Conceitos Iniciais

A área onde se utiliza teste de diagnóstico com maior frequência e, por conse-guinte, se dá maior importância é a médica, em razão das facilidades que foram explicadas na seção anterior. Assim, as denições e referências que se seguem serão focadas nesta área.[8]

Em contexto geral deniremos as seguintes relações:

• Doente(D): Variável que assume valor "0"quando o indivíduo realmente não possui a doença e "1"quando a possui;

• Teste(T ): Variável que assume valor "0"quando o teste indica resultado negativo e "1"para resultado positivo;

• TesteROC(TROC): Variável contínua ou categórica ordinal;

• Ponto de Corte(T0): Ponto que marca o valor de negativo para positivo para TROC;

• Verdadeiro Positivo(V P ): Teste acusa a existência da doença e o indivíduo possui tal enfermidade;

• Falso Positivo(F P ): Teste acusa a existência da doença e o indivíduo não possui tal enfermidade;

• Verdadeiro Negativo(V N): Teste não acusa a existência da doença e o indivíduo não possui tal patologia;

(38)

• Falso Negativo(F N): Teste não acusa a existência da doença e o indivíduo possui tal patologia;

• Total(N): Total da população representada por V P + F P + V N + F N; • Prevalência(PR): Proporção da doença na população, calculada por

D1

N ;

Abaixo está representada a tabela de contingência entre o resultado do teste e o estado do paciente:

Tabela 3: Tabela de Contingência do Resultado do Teste e a Condição do Paciente

Doente Saudável

Teste Positivo Verdadeiro Positivo Falso Positivo T1 = V P + F P

Teste Negativo Falso Negativo Verdadeiro Negativo T0 = F N + V N

D1 = V P + F N D0 = V N + F P N

3.5.2 Sensibilidade

A sensibilidade (SE) do teste de diagnóstico é denida como a probabilidade

do resultado ser positivo dado que o paciente realmente possui a doença, podendo ser representada por [14]: SE = P (T = 1|D = 1) = P (T = 1, D = 1) P (D = 1) = V P V P + F N

O valor da sensibilidade impacta diretamente na quantidade de Falsos Negati-vos(F N). Essa relação se dá uma vez que um teste com alta sensibilidade raramente deixa de sinalizar um paciente realmente doente, diminuindo as chances de indicar um

(39)

F N. Formalmente,

P (T = 0|D = 1) = 1 − P (T = 1|D = 1) P (T = 0, D = 1)/P (D = 1) = 1 − P (T = 1|D = 1) P (T = 0, D = 1)/P (D = 1) = 1 − SE

P (F N ) = (1 − SE) P (D = 1)

Testes que possuem alta sensibilidade são normalmente utilizados em casos de doenças que não podem passar desapercebidas, doenças que possuem cura ou tratamento, e quando o resultado de falso negativo inige nenhum ou pouco trauma para o paciente [15].

3.5.3 Especicidade

A especicidade (ES) do teste de diagnóstico é denida como a probabilidade do

resultado ser negativo dado que o paciente realmente não possui a doença, ou seja, ES = P (T = 0|D = 0) =

P (T = 0, D = 0)

P (D = 0) =

V N V N + F P

Enquanto a sensibilidade impacta na quantidade de F N, a especicidade está diretamente relacionada a de Falsos Positivos(F P ). Essa relação se dá uma vez que um teste com alta especicidade raramente deixa de sinalizar um paciente realmente saudável, diminuindo as chances de indicar um F P . Formalmente,

P (T = 1|D = 0) = 1 − P (T = 0|D = 0) P (T = 1, D = 0)/P (D = 0) = 1 − P (T = 0|D = 0) P (T = 1, D = 0)/P (D = 0) = 1 − ES

P (F P ) = (1 − ES) P (D = 0)

(40)

difícil tratamento ou incuráveis, quando saber da não contração da doença é de impor-tância sanitária ou psicológica, e quando o resultado falso positivo provoca trauma no paciente [15].

3.5.4 Valor Preditivo Positivo

O valor preditivo positivo (V P P ) é a proporção de indivíduos realmente doentes entre aqueles cujo resultado do teste é positivo, isto é,

V P P = P (D = 1|T = 1) = P (D = 1, T = 1) P (T = 1) = V P V P + F P = SE PR N (SE PR N ) + ((1 − ES) (1 − PR) N ) = SE PR (SE PR) + ((1 − ES) (1 − PR)) .

Note que o V P P pode ser escrita como uma função da SE,ES e PR, xando os

valores para a SE e ES é possível fazer o gráco da inuência da prevalência da doença

na população e o V P P , como mostrada abaixo através da linha vermelha[16]:

(41)

Pelo gráco, podemos perceber que, no caso de uma doença muito rara, ou seja, com baixa prevalência, o teste possui muitos resultados F P devido a proporção de pessoas sadias na população, mesmo sendo um teste com alta especicidade [15].

3.5.5 Valor Preditivo Negativo

O valor preditivo negativo (V P N) é a proporção de indivíduos realmente saudá-veis entre aqueles cujo resultado do teste é negativo, isto é,

V P N = P (D = 0|T = 0) = P (D = 0, T = 0) P (T = 0) = V N V N + F N = ES (1 − PR) N (ES (1 − PR) N ) + ((1 − SE) PR N ) = ES (1 − PR) (ES (1 − PR)) + ((1 − SE) PR) .

Note que o V P N, assim como o V P P , é uma função de SE,ES e PR, e também

pode ser mostrado pelo gráco abaixo através da linha vermelha[16]:

Figura 5: Exemplo da Curva dos Valores Preditivos Negativos

(42)

pre-valência, os valores do V P N diminuem por razão dos muitos resultados F N, devido a proporção de pessoas doentes na população, ainda que o teste seja muito sensível [15].

3.5.6 Eciência e Zona de Prevalência de Máxima Eciência

A eciência do teste é denida pela média EF =

V P P + V P N

2 ,

com valores de SE e ES previamente estabelecidos. Essa média gera uma terceira curva

entre as curvas de predição, que tem como pico a interseção entre V P P e V P N, identi-cando qual a taxa de PR da doença a eciência máxima é alcançada pelo teste.

Figura 6: Exemplo Curva de Eciência

A zona de prevalência de máxima eciência, ZEF, é denida pelos valores da

prevalência em torno do pico de EF, nos permitindo estabelecer o intervalo de prevalência

que estará dentro da eciência desejada para o teste. A escolha do valor da EF desejada

depende do pesquisador, por conhecimento a priori do problema, porém, sempre levando em consideração que o pico das curvas de eciência coincidem com a interseção das curvas V P P e V P N que é pouco acima da média das SE e ES[16].

(43)

Figura 7: Exemplo Zona de Prevalência

Através dessa ferramenta é possível eliminar os testes que têm baixa eciência com a prevalência trabalhada, uma vez que testes de alta eciência possuem maiores ZEF, o que facilita a escolha de teste para doenças que são muito raras ou que são muito

comuns, otimizando tempo e relação custo-benefício.

3.5.7 Acurácia

Em um teste de diagnóstico, a acurácia, AC, é denida como a proporção de

acertos do teste em relação ao estado real do paciente na população, em outras palavras seria a chance do teste diagnosticar corretamente o indivíduo de acordo com sua situação de saúde, ou seja, AC = (V P + V N ) N (3.2) = (V P ) V P + F P + V N + F N + (V N ) V P + F P + V N + F N = SEPR+ ES(1 − PR) = ES+ PR(SE − ES).

Observamos que, xados SE e ES, existe uma relação linear entre AC e PR que

(44)

em um valor constante para AC igual a ES para qualquer valor de PR; a segunda situação

é quando SE > ES, implicando em AC aumentar conjuntamente com o crescimento de PR;

e a terceira situação seria a de SE < ES que tem o comportamento inverso, tendo o valor

máximo da AC para menores PR, decrescendo de acordo com a reta. As três situações

são ilustradas na gura abaixo com ES xada em 50%.

3.5.8 Curva ROC

A curva ROC é uma ferramenta aplicada em testes de diagnóstico, transformando respostas contínuas ou categóricas ordinais em respostas binárias. Essa transformação é feita estabelecendo um ponto de corte T0 de forma que

TROC ≤ T0 ⇒ T = 0,

TROC > T0 ⇒ T = 1.

Desta forma é também afetado os cálculos para SE e ES, que agora são funções

do ponto de corte T0, descritas como:

SE = P (T > T0|D = 1)

ES = P (T ≤ T0|D = 0).

A curva ROC é representada pelo gráco da função da SE versus 1-ES, onde cada

ponto de corte T0 do espaço amostral TROC está associado a um par (SE;1-ES), sendo o

gráco crescente. Um fato importante é que quanto menor o valor de T0, mais sensível e

menos especíco o teste se torna, pois um ponto de corte alto implica em mais VN em detrimento aos VP, e o oposto acontecendo quando T0 diminui.

(45)

Figura 8: Exemplo Curva ROC teorica

Os valores que T0 assume são todos os valores dados pelo teste original, mas é

razoável que se dena um conjunto de candidatos considerando o conhecimento a priori do pesquisador. Além disso, a escolha do melhor T0 está associado ao ponto que representa

as maiores SE e ES, porém, como já visto antes, às vezes para o teste em questão é

(46)

4 Análise de Resultados

4.1 Análise Descritiva e Gráca

Para começar a análise primeiro foi necessário entender o banco de dados, dessa forma calculou-se algumas estatísticas sobre o mesmo para realizar uma análise descritiva. Essa análise levou a vericação de que algumas linhas possuem respostas "NA", repre-sentadas por 0 que está fora da escala utilizada (1 a 5), desta forma por conta da grande massa de dados foi decidido retirar esses indivíduos, sobrando então 17740 indivíduos que foram utilizados.

Uma vez com o banco ajustado, foi realizada uma análise sobre a origem dos indivíduos que realizaram o teste, resultando em 9010(50, 79%) dos Estados Unidos, 2727(15, 37%) da Grã-Bretanha, 1183(6, 67%) do Canadá e 4820(27, 17%) de Outros. Além disso, foi identicada a forma como os indivíduos tomaram conhecimento do teste, sendo 9657(54, 44%) do Website ocial[3], 5438(30, 65%) de fontes variadas e 2645(14, 91%) de pesquisas no Google, estas estatísticas estão mostradas nos grácos abaixo.

(47)

Figura 9: Quantidade de respondentes por país de origem

Figura 10: Quantidade de respondentes por meio utilizado para chegar ao teste

Após analisadas as características dos indivíduos, país de origem e fonte que usou para fazer o teste, após isso foram realizadas as análises sobre as condições dos indivíduos e respostas dos testes, para cada categoria, deste modo vericou-se que para Maquiavelismo, Narcisismo e Psicopatia as médias dos resultados são 3, 71, 3, 07 e 2, 81 respectivamente e medianas 3, 78, 3 e 2, 78, uma vez que as medianas são bem próximas das médias mostra uma falta de valores que são anômalos. Quanto as condições diagnosticadas dos indivíduos caram divididos em Maquiavelismo: 38% Doentes e 62% Saudáveis; Narcisismo: 41% Doentes e 59% Saudáveis e Psicopatia: 37% Doentes e 63% Saudáveis, sendo as condições

(48)

dos pacientes distribuídas da seguinte forma: • Maquiavelismo: 2142(12, 07%); • Narcisismo: 2615(14, 74%); • Psicopatia: 2089(11, 78%); • Maquiavelismo / Narcisismo: 1634(9, 21%); • Maquiavelismo / Psicopatia: 1448(8, 16%); • Narcisismo / Psicopatia: 1510(8, 51%);

• Maquiavelismo / Narcisismo / Psicopatia: 1595(8, 99%); • Nenhuma Condição: 4707(26, 53%);

(49)

Figura 12: Proporção de indivíduos por cada condição

Ao analisar o comportamento do score nal para cada categoria de cada indivíduo, é notado um comportamento das distribuições de cada próximo a uma normal, como é possível ver nos grácos abaixo:

(50)

(a) Distribuição Maquiavelismo (b) Distribuição Narcisismo

(c) Distribuição Psicopatia Figura 13: Distribuição das Patologias.

4.2 Análise Fatorial

O passo seguinte, depois de efetuada a análise descritiva do banco de dados e da distribuição dos resultados, é a aplicação da análise fatorial exploratória. Nesta etapa da validação do Teste é realiza-se o resumo das variáveis em fatores, que explicitam um conceito apresentado por cada grupo, e reduzir o numero original de variáveis a uma quantidade menor, tornando mais parcimoniosa a aplicação de outras técnicas de análise multivariada.

Inicialmente foi vericada suposições sugeridas na literatura[5] que facilitam a implementação da técnica, e assim foi apurado os tipos das variáveis existentes. Como já explanado na seção 3.1 Dados, todas as variáveis são métricas por conta da escala Likert, critério que não é obrigatório,mas no entanto, simplica o cálculo da matriz de correlação(Tabela 4) necessária para prosseguir com a análise. O tamanho da amostra

(51)

utilizada também segue o recomendado citada na seção 3.3 Análise Fatorial, possuindo 17740 indivíduos, valor superior as 10 observações por variável analisada, que daria o mínimo de 270 indivíduos.

Uma vez conrmadas as suposições sobre a tipo de variáveis e tamanho de amos-tra, calculou-se a matriz de correlação (Tabela 4) apresentada a seguir:

Tabela 4: Matriz de Correlação

M1 M2 M3 M4 M5 M6 M7 M8 M9 N1 N2 N3 N4 N5 N6 N7 N8 N9 P1 P2 P3 P4 P5 P6 P7 P8 P9 M1 1.00 0.32 0.30 0.25 0.40 0.38 0.47 0.34 0.31 0.11 -0.02 0.15 0.12 0.20 0.08 0.12 0.14 0.20 0.29 0.09 0.25 0.11 0.26 0.30 0.05 0.17 0.29 M2 1.00 0.50 0.31 0.60 0.54 0.36 0.48 0.55 0.28 0.14 0.37 0.31 0.41 0.20 0.30 0.30 0.41 0.50 0.23 0.38 0.29 0.45 0.51 0.13 0.30 0.60 M3 1.00 0.37 0.50 0.44 0.31 0.45 0.38 0.25 0.16 0.38 0.32 0.56 0.20 0.27 0.22 0.40 0.35 0.16 0.36 0.22 0.33 0.41 0.08 0.27 0.52 M4 1.00 0.35 0.32 0.27 0.26 0.27 0.07 0.01 0.16 0.21 0.31 0.03 0.14 0.09 0.15 0.16 -0.02 0.17 0.05 0.12 0.17 -0.03 0.11 0.26 M5 1.00 0.66 0.41 0.51 0.51 0.18 0.09 0.32 0.27 0.41 0.16 0.25 0.26 0.39 0.50 0.20 0.44 0.30 0.46 0.53 0.09 0.29 0.55 M6 1.00 0.41 0.46 0.47 0.16 0.05 0.29 0.23 0.34 0.13 0.23 0.23 0.36 0.49 0.19 0.41 0.23 0.47 0.53 0.10 0.28 0.48 M7 1.00 0.36 0.37 0.09 -0.01 0.16 0.14 0.23 0.05 0.16 0.14 0.23 0.28 0.10 0.24 0.12 0.29 0.28 0.05 0.19 0.32 M8 1.00 0.42 0.15 0.10 0.32 0.29 0.33 0.23 0.24 0.25 0.40 0.41 0.18 0.41 0.25 0.40 0.44 0.09 0.32 0.55 M9 1.00 0.23 0.12 0.29 0.25 0.34 0.17 0.27 0.29 0.35 0.38 0.21 0.30 0.21 0.40 0.41 0.10 0.31 0.45 N1 1.00 0.29 0.41 0.34 0.34 0.25 0.34 0.30 0.31 0.20 0.24 0.11 0.12 0.16 0.31 0.10 0.19 0.22 N2 1.00 0.33 0.26 0.29 0.39 0.26 0.27 0.21 0.09 0.22 0.07 0.13 0.09 0.12 0.11 0.20 0.17 N3 1.00 0.42 0.36 0.28 0.37 0.32 0.38 0.32 0.27 0.29 0.29 0.26 0.41 0.12 0.28 0.39 N4 1.00 0.33 0.27 0.40 0.35 0.35 0.24 0.18 0.22 0.24 0.19 0.30 0.09 0.22 0.35 N5 1.00 0.26 0.34 0.26 0.39 0.25 0.18 0.24 0.18 0.28 0.32 0.08 0.27 0.40 N6 1.00 0.25 0.33 0.26 0.15 0.20 0.14 0.10 0.12 0.20 0.14 0.24 0.23 N7 1.00 0.33 0.31 0.25 0.21 0.18 0.22 0.21 0.30 0.13 0.25 0.30 N8 1.00 0.28 0.28 0.26 0.15 0.17 0.18 0.30 0.16 0.24 0.28 N9 1.00 0.35 0.19 0.32 0.26 0.34 0.47 0.11 0.24 0.46 P1 1.00 0.27 0.43 0.34 0.40 0.50 0.22 0.32 0.45 P2 1.00 0.19 0.32 0.21 0.28 0.29 0.29 0.26 P3 1.00 0.30 0.36 0.45 0.13 0.26 0.43 P4 1.00 0.32 0.33 0.24 0.25 0.37 P5 1.00 0.44 0.15 0.23 0.43 P6 1.00 0.16 0.28 0.51 P7 1.00 0.26 0.15 P8 1.00 0.35 P9 1.00 .

A partir desta tabela, inicia-se a determinação da viabilidade da análise fatorial sobre os dados, fazendo uma inspeção visual na matriz em busca de uma quantidade substancial de correlações superiores a 0, 3. Ao fazer isto, foi possível detectar 297 das 729 correlações, isto é 40, 74%, possuem correlações superiores ao indicado, porém, também aplica-se o Teste de Esfericidade de Bartlett e o Coeciente KMO, por serem técnicas mais exatas.

O Teste de Esfericidade de Bartlett resultou em um p-valor de < 0, 0001 o que leva a rejeitar a hipótese nula, vericando a signicância geral nas correlações da matriz e o coeciente KMO calculado foi de 0.95 que se encaixa na faixa ótima, acima de 0, 8, corroborando com a possibilidade de prosseguir com a AFE. Além dessas, foi calculado também as medidas de adequação da amostra de Kaiser-Meyer-Olkin(MSA) para cada variável(Tabela 5), am de averiguar se alguma encontra-se na faixa abaixo de 0, 5

(52)

consi-derada inaceitável, mas como é possível ver na Tabela 5, todas possuem valor superior a 0, 8, garantindo a qualidade delas para se realizar a AFE.

Tabela 5: Valores MSA

MSA MSA MSA

M1 0.92 N1 0.91 P1 0.97 M2 0.96 N2 0.87 P2 0.92 M3 0.95 N3 0.96 P3 0.97 M4 0.91 N4 0.94 P4 0.93 M5 0.96 N5 0.93 P5 0.97 M6 0.95 N6 0.90 P6 0.96 M7 0.93 N7 0.96 P7 0.86 M8 0.97 N8 0.95 P8 0.96 M9 0.97 N9 0.97 P9 0.96

Uma vez certicada a viabilidade da AFE nos dados, o estágio seguinte é estimar número de fatores latentes, para tal é necessário uma mistura de critérios subjetivos, como conhecimento a priori do número de fatores, e outros mais objetivos, como os teste scree. Neste caso o conhecimento a priori é de 3 fatores, informação adquirida através do artigo de Daniel N. Jones e Delroy L. Paulhus[4], este valor foi estimado pelo método de Velicer's MAP criteria (Zwick & Velicer, 1986) que não foi aplicado neste trabalho, no entanto o valor a priori servirá como referência ao aplicar os outros critérios, de modo a evitarmos uma possível superestimação ou subestimação da quantidade de fatores.

O critério de raiz latente, que mantêm fatores com autovalores maiores que 1, foi uma das duas técnicas utilizadas para estimarmos o número de fatores. Apesar de sua ampla utilização, na literatura é descrito que seus resultados costumam ser imprecisos, normalmente superestimando a quantidade de número de fatores [17]. Contudo esta é uma particularidade que ocorre por conta de ter sido desenvolvida com matrizes populacionais, signicando que amostras menores estão mais propensas a esse problema, dado que o trabalho em questão conta com uma base de dados com mais de 17 mil indivíduos, foi decidido que essa seria uma boa métrica para estimar os fatores.

Por meio do critério de raiz latente, foram retidos 4 fatores como pode ser visto na tabela 6 e no screeplot representado na gura 14.

(53)

Tabela 6: Autovalores e proporção de variância

Autovalores Proporção Proporção Fatores Autovalores Ajustados da Variância Acumulada

1 8.57 8.50 0.32 0.32 2 2.26 2.19 0.08 0.40 3 1.52 1.46 0.06 0.46 4 1.05 1.01 0.04 0.50 5 0.95 0.91 0.04 0.53 6 0.91 0.87 0.03 0.57 7 0.82 0.79 0.03 0.60 8 0.79 0.76 0.03 0.62 9 0.74 0.72 0.03 0.65 10 0.72 0.70 0.03 0.68 11 0.70 0.69 0.03 0.70 12 0.66 0.65 0.02 0.73 13 0.62 0.62 0.02 0.75 14 0.59 0.59 0.02 0.77 15 0.57 0.58 0.02 0.80 16 0.56 0.57 0.02 0.82 17 0.55 0.57 0.02 0.84 18 0.53 0.55 0.02 0.86 19 0.52 0.55 0.02 0.88 20 0.51 0.54 0.02 0.89 21 0.50 0.53 0.02 0.91 22 0.47 0.50 0.02 0.93 23 0.45 0.49 0.02 0.95 24 0.40 0.45 0.01 0.96 25 0.38 0.43 0.01 0.98 26 0.34 0.40 0.01 0.99 27 0.32 0.38 0.01 1.00

(54)

Figura 14: Screeplot

A segunda técnica utilizada para estimar os fatores foi o método de análise para-lela(Horn, 1965).Esta técnica faz uso do procedimento de simulação de Monte-Carlo, não estabelecendo um valor de corte, mas comparando as médias dos autovalores aleatórios com os reais, sendo mais precisa até mesmo para amostra menores[DAMASIO, Bruno Figueiredo(o mesmo de antes)]. O método de análise paralela(Horn, 1965) foi realizada utilizando 10 mil interações, e considerando o autovalor maior que 1 e maior que o ajus-tado, foram estimados 4 fatores latentes, como pode ser visto na tabela 6, corroborando o critério de raiz latente.

Em Jones e Paulhus[4], artigo principal sobre a SD3 e utilizado como base para este trabalho, também foram achados 4 fatores ao utilizar o método de análise paralela, porém no artigo original é trabalhada com 3 fatores por conta de ter utilizado o método Velicer MAP criteria (Zwick & Velicer, 1986), que não será aprofundado neste trabalho, mas que junto ao método de análise paralela é considerada uma solução ecaz para estimar o número de fatores.

Considerando os 4 fatores estimados, por dois métodos diferentes, executou-se a etapa de interpretação dos fatores, onde foi calculada a matriz de cargas(loadings) fatoriais. Uma vez dispondo da matriz de cargas, prosseguiu-se com a análise das matrizes não-rotacionadas e rotacionadas[10], am de encontrarmos as distribuições das variáveis nos fatores.

Referências

Documentos relacionados

Embora acreditemos não ser esse o critério mais adequado para a seleção dos professores de Sociologia (ou de qualquer outra disciplina), cabe ressaltar que o Conselho

Afinal de contas, tanto uma quanto a outra são ferramentas essenciais para a compreensão da realidade, além de ser o principal motivo da re- pulsa pela matemática, uma vez que é

Este dado diz respeito ao número total de contentores do sistema de resíduos urbanos indiferenciados, não sendo considerados os contentores de recolha

29 Table 3 – Ability of the Berg Balance Scale (BBS), Balance Evaluation Systems Test (BESTest), Mini-BESTest and Brief-BESTest 586. to identify fall

Pinturas, depilatórios, unguentos mamilares, colorantes para o cabelo e até pomadas à base de vidro em pó (que, aparentemente, permitiam simular a virgindade) (Braunstein, 1990),

Dessa forma, a partir da perspectiva teórica do sociólogo francês Pierre Bourdieu, o presente trabalho busca compreender como a lógica produtivista introduzida no campo

O objetivo deste artigo é justamente abordar uma metodologia alternativa para a elaboração de análises contábeis e financeiras, denominada de balanço perguntado e

Para Tagiuri; Davis (1996), uma empresa familiar se dá quando membros da família controlam a direção do negócio em cargos gerenciais ou direito de propriedade;