• Nenhum resultado encontrado

Análise de componentes principais e suas aplicações

N/A
N/A
Protected

Academic year: 2021

Share "Análise de componentes principais e suas aplicações"

Copied!
32
0
0

Texto

(1)

Universidade Federal do Rio Grande do Norte Estatística

Tainan Machado Silva

Análise de Componentes Principais e Suas Aplicações

Natal - RN 2018

(2)

Tainan Machado Silva

Análise de Componentes Principais e Suas Aplicações

Monografia de Graduação apresentada ao Departamento de Estatística do Centro de Ciências Exatas e dada Terra, da Universidade Federal do Rio Grande do Norte do como requisitado parcial para a obtenção do grau de Bacharel em Estatística.

Orientador: Prof. Bruno Monte de Castro

Natal - RN 2018

(3)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Silva, Tainan Machado.

Análise de componentes principais e suas aplicações / Tainan Machado Silva. - 2018.

31f.: il.

Monografia (Bacharelado em Estatística) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Departamento de Estatística. Natal, 2018.

Orientador: Bruno Monte de Castro.

1. Estatística - Monografia. 2. Componentes principais - Monografia. 3. Redução de dimensão - Monografia. 4. Leucemia felina - Monografia. 5. Spike sorting - Monografia. I. Castro, Bruno Monte de. II. Título.

RN/UF/CCET CDU 519.2

(4)
(5)
(6)

RESUMO

Em diversas áreas é necessário estudar e mensurar diversas variáveis aleatórias. Um problema comum é que ao final do estudo pode ser difícil interpretar os resultados dessas várias variáveis. Com o objetivo de reduzir a dimensão das variáveis aleatórias, é feito o método das componentes principais, que está diretamente relacionada com a explicação da estrutura de covariância por meio de poucas combinações lineares das variáveis originais em estudo. Este trabalho apresenta e exemplifica o método das componentes principais e apresenta problemas práticos deste método na área da veterinária e em neurociências.

Palavras-chaves: Componentes principais. Redução de Dimensão. Leucemia felina. Spike Sorting.

(7)

ABSTRACT

In several areas it is necessary to study and measure several random variables. A common problem is that at the end of the study it may be difficult to interpret the results of these various variables. In order to reduce the number of the random variables, the principal components method is done, which is directly related to the explanation of the covariance structure by means of a few linear combinations of the original variables under study. This paper presents and exemplifies the principal components method and presents practical problems of this method in the veterinary and neurosciences area.

(8)

LISTA DE FIGURAS Figura 3.1________________________________________________________________23 Figura 3.2________________________________________________________________24 Figura 3.3________________________________________________________________27 Figura 3.4________________________________________________________________29 Figura 3.5________________________________________________________________29 Figura 3.6________________________________________________________________30

(9)

LISTA DE TABELAS Tabela 3.1_______________________________________________________________21 Tabela 3.2_______________________________________________________________23 Tabela 3.3_______________________________________________________________25 Tabela 3.4_______________________________________________________________26 Tabela 3.5_______________________________________________________________30

(10)

SUMÁRIO

1. INTRODUÇÃO ... 11

2. ANÁLISE DE COMPONENTES PRINCIPAIS ... 13

2.1 Definição ... 13

3. APLICAÇÃO DE COMPONENTES PRINCIPAIS ... 20

3.1 Estudo do vírus FeLV em felinos no estado do Ceará ... 20

3.1.1 Detalhes do estudo ... 20

3.1.2 Metodologia e resultados... 21

3.1.3 Uso de componentes principais ... 22

3.2 Spike Sorting ... 27

3.2.1 Metodologia ... 28

4. CONSIDERAÇÕES FINAIS ... 31

(11)

11

1.INTRODUÇÃO

Quando analisamos as diversas áreas do conhecimento identificamos que todos os acontecimentos, sejam eles culturais ou naturais, envolvem um grande número de variáveis. As diversas ciências têm a pretensão, de conhecer a realidade e de interpretar os acontecimentos (ciências humanas) e os fenômenos (ciências naturais), baseados no conhecimento das variáveis em estudo que são consideradas importantes nestes eventos. Por esses motivos esse trabalho vem com a pretensão de demonstrar a análise de componentes principais, que pode ser usada para auxiliar as pesquisas nas situações acima.

A denominação “Análise Multivariada” corresponde a um grande número de métodos e técnicas que utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos, Neto (2004). Os principais objetivos do estudo da análise multivariada são: redução da dimensão e agrupamento das variáveis aleatórias, investigação da dependência entre variáveis, predição e testes de hipóteses. Com o objetivo de reduzir a dimensão das variáveis aleatórias, é proposto o método das componentes principais, que está diretamente relacionada com a explicação da estrutura de covariância por meio de poucas combinações lineares das variáveis originais em estudo. Em Furtado (1996) é mencionado que a escolha da quantidade de componentes principais não é um método final e conclusivo, pois depende da subjetividade do pesquisador. Além disso, não é definido um critério da quantidade de variáveis necessária para a utilização desta técnica.

Um segundo objetivo da análise de componentes principais é a facilidade da interpretação das análises realizadas. Em geral, a explicação de toda a variabilidade do sistema determinado por p variáveis só pode ser efetuada por p componentes principais. No entanto, uma grande parte dessa variabilidade pode ser explicada por um número menor de componentes. Essas componentes são obtidas na ordem da mais explicativa para a menos explicativa.

No Capítulo 2, explicamos o método da análise das componentes principais, provamos o principal Teorema deste método e apresentamos um exemplo de como obter as componentes. No Capítulo 3, apresentamos duas aplicações deste método. De início, foi realizado um estudo da Leucemia Felina (FELV). Com a intenção de usar exames de medula óssea comparada com exames de sangue normais, para o estudo de uma doença rara que atingem felinos. A segunda aplicação foi realizada em uma técnica conhecida como Spike Sorting, que tem a

(12)

12

função de identificar quantos neurônios estão reagindo a partir de um exame de eletroencefalograma. Em ambas as aplicações, o uso de componentes principais foi de fundamental importância para a obtenção e interpretação dos resultados. No Capítulo 4, fizemos as considerações finais nas duas aplicações do Capítulo 3 e citamos as principais vantagens e desvantagens do método da análise de componentes principais.

(13)

13

2. ANÁLISE DE COMPONENTES PRINCIPAIS 2.1. Definição

A análise de componentes principais é uma técnica de análise de dados multivariados que tem como principal objetivo reduzir a dimensão das variáveis originais. Ela transforma um conjunto de variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais. Considere um conjunto de variáveis correlacionadas, denotadas por X1, X2, ..., X𝑝, com matriz de variância e covariância ∑. Considere agora uma sequência de variáveis aleatórias Y1, ...,Y𝑝 de forma que as novas variáveisY𝑖 são combinações lineares das variáveis 𝑋𝑖.

Considere o vetor aleatório 𝐗⊤ = (X1, X2, ... , X𝑝) com a matriz de covariância ∑. Seja 𝐚1= (a

i1, … , ai𝑝), ∀i= 1, … , p um vetor de constantes. Considere a matriz ∑:

∑ =(

Var(X1) Cov(X1, X2)

Cov(X2, X1) Var(X2) ⋯ Cov(X 1, Xp)

⋮ ⋮

Cov(Xp, X1) …

⋮ ⋮

… Var(Xp) ).

Considere as combinações lineares: Y1 = 𝐚𝟏⊤𝐗 =a11X1 + a12X2 + ... + a1𝑝X𝑝 ⋮⋮

Y𝑝 = 𝐚𝒑𝐗 =a

𝑝1X1 + a𝑝2X2 + ... + a𝑝𝑝X𝑝

Podemos escrever a variância de Yi e a covariância de Y e Yk, respectivamente, da forma a seguir

Var (Yi) = 𝐚i∑𝐚

i , i = 1, 2, ..., p; (1) Cov (Yi,Y𝑘) = 𝐚i⊤∑𝐚𝒌, k= 1, 2, ..., p, i ≠ k. (2)

(14)

14

Para encontrar as componentes principais Y1, ...,Yp, temos que determinar quais são os valores de 𝐚i, i = 1, 2, ..., p que retornam as maiores variâncias possíveis em (1) e que fazem as covariâncias em (2) serem nulas.

Teorema 2.1 Seja a matriz de variâncias e covariâncias do vetor p-variado X. Os autovalores e autovetores normalizados de ∑ são denotados por (λi, ei), i = 1, ..., p em que

λ1≥ λ2≥ ...≥ λ𝑝 ≥ 0.A i-esima componente principal é dada por

Yi = 𝐞i𝑿 =e

i1X1 + ... + ei𝑝X𝑝; em que 𝐞i= (e

i1, ... , ei𝑝).

Prova: Como a matriz ∑é simétrica temos que𝐞ie

i = 1 e 𝐞i⊤ej = 0, i ≠ j em que ei é o autovetor relacionado a i-esima autovalor. Assim

Var (Y1) =

max

a1≠0 a1⊤∑a1 a1⊤a1

=

𝒆1⊤∑e1 𝒆1⊤e

=

λ1

;

isto é, a primeira componente principal é obtida a partir da combinação linear 𝐚i⊤𝐗que maximiza a variância de Y1 sujeito a 𝐚i⊤𝐚i = 1.

De maneira similar Var (Yk) =

max

a𝑘≠0⊥a1,…,a𝑘−1 𝐚𝑘⊤∑a𝑘 𝐚𝑘⊤a𝑘 = 𝐞𝑘⊤∑e𝑘 𝐞𝑘⊤e = λ𝑘

ou seja, o k-esimo componente principal segue da combinação linear 𝐚𝑘⊤𝐗que maximiza a variância deYk sujeito à 𝐚k𝐚

k = 1, e a variância entre Yk e Yi é zero para i< k. Assim Var (Yi) =λi, i=1, … , p e Cov (Yi, Y𝑗) = 0, ∀i≠ j.

Dessa forma, as componentes principais têm variância igual aos autovalores e são não variáveis aleatórias não correlacionadas.

Corolário2.2 Seja 𝐗⊤ = (X1, …, X𝑝) variáveis aleatórias com matriz de variância e covariância ∑, com autovalores e autovetores dados pelo par (λi, ei), ∀i = 1, … , p. Assim,

(15)

15

a soma das variâncias de cada variável é igual à soma das variâncias das componentes principais, isto é

∑𝑝i=1Var (X𝑖)= ∑i=1𝑝 Var (Yi) = ∑𝑝𝑖=1λ𝑖.

Prova. Sabemos que o traço de uma matriz é definido pela soma dos elementos da diagonal principal de uma matriz quadrada. Fazendo a decomposição espectral de ∑, temos tr(∑) = tr (ГΛГ⊤) = tr( ΛГГ) = tr( Λ ) = ∑ λ i 𝑝 i=1 . em que ГГ⊤ = 𝐈

𝑝, Λ é a matriz diagonal dos autovalores e Г é a matriz dos autovetores por coluna.

Suponha agora que temos uma amostra de tamanho n de 𝐗⊤. O nosso objetivo é construir

combinações lineares não correlacionadas a partir desta amostra. A teoria das componentes principais é válida para resultados amostrais, para isso, usamos a matriz de variância amostral S ao invés da matriz ∑.

Na literatura é definido como variância populacional total como a soma das variâncias das variáveis aleatórias. Consequentemente, definimos a proporção da variância populacional total (PVPT) da i-ésima componente como

PVPTi= λ𝑖λ 𝑗 𝑝

𝑗=1 ,i =1, … , p.

O principal objetivo de obter as componentes principais é reduzir a dimensão das variáveis aleatórias. Para isso, geralmente é usado a PVPT acumulada até a i-esima componente, se esta medida estiver entre 80% e 90% então usamos somente as i primeiras componentes principais. Dependendo do estudo a porcentagem explicada pela PVPT pode ser alterada com base nas quantidades de variáveis, no tamanho da amostra ou na interpretação das componentes principais, dessa forma a escolha depende das informações dadas pelo pesquisador.

Uma maneira gráfica de escolher o número de componentes principais é através do gráfico “screeplot”. No eixo horizontal temos as componentes principais e no eixo vertical temos os autovalores de cada componente ordenados do maior para o menor. Na buscar pelo número apropriado de componentes, procuramos um “cotovelo” (curva) no gráfico

(16)

16

“screeplot”, por isso chamamos de gráfico de cotovelo. Escolhemos o número de componentes até o ponto onde os autovalores remanescentes são relativamente pequenos.

Figura 2.1: Gráfico de cotovelo

A Figura 2.1 mostra um gráfico de cotovelo para uma situação com seis componentes principais. Um cotovelo ocorre no gráfico por volta de i = 3, isso ocorre, pois, os autovalores após λ2são todos relativamente pequenos e aproximadamente do mesmo tamanho. Assim, podemos dizer que existem duas (ou talvez três) componentes principais na amostra.

A interpretação do resultado das componentes principais é dada pela correlação entre a i-ésima componente e a k-i-ésima variável, da seguinte forma

ρYi,Xk = ei,k√λi

√Var(Xk,k)i,k= 1,2,...,p.

Correlações são as medidas padronizadas da relação entre duas variáveis e indica a força e a direção do relacionamento linear entre duas variáveis aleatórias.

(17)

17

Embora as correlações das variáveis com os componentes principais geralmente ajudem a interpretar o componente, elas medem apenas a contribuição univariada de um indivíduo Xk para um componente Yi.Por essa razão, alguns estatísticos,ver Rencher (2012),recomendam apenas o uso dosautovetoresei𝑘, e não as correlações, para interpretar os componentes principais. Portanto, a interpretação com base nosautovetores podem ser diferentes das obtidas com as correlações.

Exemplo 2.3. Para ilustrar passo a passo a obtenção das componentes principais tomamos o seguinte exemplo (mais detalhes em Johnson e Wichern (2007)). Suponha que as variáveis aleatóriasX1,X2 e X3 têm matriz de covariância

∑= [−21 −2 05 0

0 0 2

]. Os autovalores e autovetores achado são

λ1 = 5,83 𝐞1= [0,383;0,924] λ2 = 2,00 𝐞2= [0;0,1]

λ3 = 0,17 𝐞3= [0,924;0,383;0].

Portanto, os componentes principais são

Y1= 𝐞1X = 0,383X 1 – 0,924X2, Y2= 𝐞2X = 𝑋 3, Y3= 𝐞3X = 0,924X 1 + 0,383X2.

A variávelX3 é um dos componentes principais, porque não é correlacionada com as outras variáveis.

Os itens (1) e (2) podem ser obtidas da seguinte forma.

Var (Y1) = Var(0,383X1 – 0,924X2) = 0,3832 Var(X

1) +(−0,924)2Var(X2) +2(0,383)(-0,924) Cov(X1,X2) = 0,147(1) + 0,854(5) – 0,708(-2)

(18)

18

= 5,83 = λ1,

Cov (Y1,Y2) = Cov(0,383X1 – 0,924X2,X3) = 0,383 Cov(X1,X3) - 0,924Cov(X2,X3) = 0,383(0) – 0,924(0) = 0.

Isso mostra que, Var(X1)+Var(X2)+Var(X3)= 1+5+2 = λ1+λ2+λ3 = 5,83 + 2 + 0,17.

Assim a proporção da variância total contabilizada pelo primeiro componente principal éλ1/( λ123) = 5,83/8 = 0,73. Além disso, os dois primeiros componentes são responsáveis por uma proporção igual a (5,83 + 2) / 8 = 0,98 da variância da população. Neste caso, os componentes Y1 e Y2 poderiam substituir as três variáveis originais com pouca perda de informação.

Usando a equaçãoρYi,X𝑘 = e𝑖,𝑘√λ𝑖

√Var(X𝑖,𝑘)i,𝑘 = 1,2,...,p. Temos, ρY1,X1 = √Var(Xe11√λ1 1,1) = 0,383√5,83 √1 = 0,925, ρY2,X2 = e22√λ2 √Var(X2,2) = −0,924√2,00 √5 = - 0,998.

Observe aqui que a variável X2, com coeficiente -0,924, recebe o maior peso no componente Y1. Tal variável também possui a maior correlação (em valor absoluto) com Y1.

A correlação X1 com Y1, 0,925, é quase tão grande quanto a de X2, indicando que as variáveis são igualmente importantes para o primeiro componente principal.

Os tamanhos relativos dos coeficientes de X1 e X2 sugerem, no entanto, que X2 contribui mais para a determinação de Y1 do que X1.

Como, neste caso, ambos os coeficientes são razoavelmente grandes e possuem sinais opostos, argumentamos que ambas as variáveis auxiliam na interpretação de Y1.

(19)

19 Finalmente, ρY1,X2 = ρY2,X2 = 0 e ρY2,X3 = √λ2 √Var(X3,3)

=

√2 √2= 1 .

As correlações restantes podem ser negligenciadas, já que o terceiro componente não é importante.

(20)

20

3. APLICAÇÃO DOS COMPONENTES PRINCIPAIS

Neste capítulo, vamos apresentar uma aplicação na área de veterinária com o estudo do vírus da leucemia felina e em seguida utilizaremos a técnica de componentes principais no auxílio da técnica de Spike Sorting. Em ambas as aplicações foram utilizadas a linguagem R para a execução da teoria.

3.1. Estudo do vírus FeLV em felinos no estado do Ceará.

O vírus da leucemia felina (FeLV) é uma doença rara é faz o felino ficar vulnerável a doenças infecciosas como lesões na pele, desnutrição, cicatrização mais lenta de feridas e problemas reprodutivos. Atualmente, quanto mais preciso for o exame para detectar essa doença, mais caro fica. É preciso ser feito um exame especifico, com mais informações da doença, vendo as alterações que ela causa no organismo de um felino comparado ao de um saudável. O consulente espera descobrir essas novas informações com o auxílio do exame de medula óssea. Com auxilio dessas informações traça perfis dos felinos doentes, vendo quais alterações a doença causa, e assim descobrir informações para auxiliar a diferenciação entre os felinos saudáveis e os doentes. Na literatura anterior a esse estudo, não foi achado outro estudo que pesquisou essa doença usando informações da medula óssea.

Foi realizado um estudo, que tem como objetivo analisar alterações hematológicas (vindos do exame de sangue comum) e medulares ocorridas devido a infecção pelo vírus, assim entender melhor o vírus FeLV e ajudar na elaboração de melhores exames para sua detecção. Foram feitos 2 exames de sangue em cada felino do estudo, um exame de sangue normal (denominado periférico) e outro de medula óssea.

3.1.1 Detalhes do estudo

O consulente fez feito um estudo observacional durante 1 ano em uma clínica veterinária especializada em felinos e em um hospital veterinário do Ceará. A coleta de dados foi realizada por somente uma pessoa, o consulente, que realizou os procedimentos e fez os dois exames, periférico e da medula óssea, em cada felino do estudo. Como critério de escolha dos felinos a serem estudados, foi decidido incluir no estudo aqueles que apresentavam um caso de anemia permanente, estes seriam submetidos aos procedimentos de coleta. Anemia é considerada um forte indicativo de suspeita do vírus (FeLV). Após 1 ano de coletas, o conjunto de dados terminou contendo apenas 12 felinos, que inicialmente foram classificados em 3 grupos.

(21)

21

O conjunto de dados, como esperado incialmente, é bem pequeno e contém apenas duas observações no grupo II. No começo da análise, foi recebida informações de problemas na classificação de um dos felinos do grupo II, esse tendo que ser retirado do estudo. Com essa informação, o grupo II ficaria apenas com 1 observação e devido a isto foi tomada a decisão conjunta do consulente e consultores, de retirar a observação restante desse grupo da análise, ficando agora com apenas dois grupos e um total de 10 observações, como se pode constatar na Tabela 3.1.Assim ficando com um conjunto de dados ainda menor do que no início.

Tabela 3.1: Classificação final dos felinos. Grupo I Sadios Grupo II FeLV positivos Total 5 5 10 3.1.2 Metodologia e resultados

As análises estatísticas sobre os dados amostrais foram feitas com o auxílio linguagem R. O conjunto de dados constituintes da parte empírica desta pesquisa está associado as variáveis qualitativas e quantitativas, totalizando 58 variáveis, sendo 26 referentes ao exame periférico, 32 referentes ao exame da medula óssea.

Foi feita inicialmente uma reorganização desses dados para que pudessem ser lidos corretamente pela linguagem R. Após isso foi feita uma “limpeza” no conjunto dedados, excluindo as variáveis que tinham valor zero para todas as observações, assim como as que apresentavam valor diferente para apenas uma observação e também as que eram de caráter qualitativo. Após esse procedimento, restaram 32 variáveis, sendo 13 referentes ao exame periférico e 19 referentes ao exame da medula óssea.

(22)

22

3.1.3 Uso de componentes principais

Antes de serem submetidos à técnica de componentes principais, os dados originais foram padronizados devido às diferenças de magnitude entre cada uma das variáveis exploradas nesta pesquisa, algumas estavam em porcentagem (%). A padronização de variáveis é realizada da seguinte forma:

• Calcula-se a média e o desvio padrão associados aos valores da variável para as 10 observações (os 10 felinos examinados).

• Em seguida, toma-se o valor da variável subtraindo-se o valor correspondente à média calculada. O resultado dessa subtração (valor da variável menos a média) é então dividido pelo desvio padrão calculado. Este mesmo processo é repetido para cada uma das 10 observações, consequentemente, ao final desse procedimento se consegue uma transformação de cada uma das 10 observações para uma mesma variável.

Os cálculos estatísticos foram feitos usando a linguagem R. Ao calcular as combinações lineares para fazer as componentes principais. O software mostrava a variabilidade das componentes, sendo ela acumulativa. Foram criadas 10 componentes principais. Para auxiliar a analises também foi feito um “gráfico de cotovelo” (screeplot) exibido a seguir.

(23)

23

Figura 3.1: Gráfico de cotovelo das componentes principais

Tabela 3.2: Tabela com as três Primeiras Componentes Principais (CP) e Suas Variâncias

𝐘𝟏 𝐘𝟐 𝐘𝟑 Desvio Padrão 0,00000229 9 0,00001285 0,007349 Proporção da Variância Total 0,969 0,003120 0,00001 Proporção da Variância Total Acumulada 0,969 0,9721 0,97211

Na figura 3.1 é visto um cotovelo no índice i = 2. Percebemos que há uma componente dominante. Ao analisar a variância acumulada das componentes principais mostradas na Tabela 3.2, vemos que a componente 01 já explica aproximadamente 99% da variabilidade.

Foi decidido usar 2 componentes principais, pois iria auxiliar muito os cálculos seguintes, assim como é mais fácil fazer gráficos de duas dimensões. Com essas duas componentes temos 97% da variabilidade explicada.

2 4 6 8 10 0 e + 0 0 1 e + 1 2 2 e + 1 2 3 e + 1 2 4 e + 1 2 5 e + 1 2 Componentes V ar iâ nci as

(24)

24

Figura 3.2: Gráfico de dispersão da componente 1 (Y1) com a componente 2 (Y2)

A Figura 3.2 mostra o gráfico da primeira componente versus a segunda componente, feito com o intuito de visualizar uma possível separação dos grupos. Vemos que não é possível definir um ponto que possa diferenciar os grupos quando observamos o eixo vertical (segunda componente). Entretanto, quando observamos o eixo horizontal (primeira componente) é fácil ver que existe um ponto nesse eixo, aproximadamente em -1, que separa os animais classificados como sadios dos classificados como FeLV positivos, podendo traçar uma reta para separar os grupos. Assim é possível utilizar a primeira componente como forma de separação dos grupos.

-4 -2 0 2 4 -4 -2 0 2 4 componente 1 ( Y1) co m p o n e n te 2 ( Y2 ) Sadios Felv positivos

(25)

25

Em seguida, foi feita uma análise para encontrar quais variáveis apresentaram-se fortemente correlacionadas com a componente 1 (neste caso, consideramos o coeficiente de correlação superior a 0,65 ou inferior a -0,65), portanto, quais variáveis mais influenciaram no tocante ao valor da primeira componente.

Fazemos isso “abrindo” a componente principal, expondo as combinações lineares e calculando as correlações. As variáveis mais correlacionadas com a componente 1 (Y1) são exibidas na Tabela 3.3.

Tabela 3.3: Variáveis que possuem correlação forte com a componente 1.

Cód. Variável Correlação H01 H02 H03 H04 H12 H15 M02 M04 M05 M06 M31 Hemácias (/µL) Hemoglobina (g/dL) Hematócrito (%) VCM (µ𝑚3) Eosinófilos (/µL) Plaquetas totais Prómielócito Metamielócitoneutrofílico Bastonete neutrofílico Neutrófilo Relação M:E 0,93478 0,92205 0,92133 -0,75673 0,77998 0,81303 0,71786 0,68003 0,83152 0,70631 0,67507

Pela Tabela 3.3, vemos as variáveis que se encaixam nos padrões adotados no estudo, com o coeficiente de correlação entre -0,65 a 0,65. Vale a pena lembrar que a componente 01 contem combinações lineares de todas as 57 variáveis abordadas. Na Tabela 3.4 vemos que 11 variáveis se encaixam nos parâmetros estipulados. As Hemácias (H01), Hemoglobina (H02) e Hematócrito (H03) tem as maiores correlações. Podemos demostrar os cálculos feitos para a criação de uma componente principal considerando as variáveis da Tabela 3.3, assim como os dados padronizados exibidos na Tabela 3.4.

(26)

26

Tabela 3.4: Variáveis e suas respectivas médias e desvios padrão.

Cód. Média Desvio padrão

H01 H02 H03 H04 H12 H15 M02 M04 M05 M06 M31 4.828.000 7,10 22,40 8,98 48,48 1.044,40 259.700 1,20 4,19 8,39 24,44 1,45 2.295.0130 2,96 8,98 6,41 895,80 1,83 1,13 3,33 6,89 14,24 1,34

A Figura 3.3a seguir exibe o gráfico da componente 1 versus a componente 2 utilizando os valores da primeira componente apenas para as variáveis definidas na Tabela 3.3, mostrando que é possível definir um ponto no eixo X que separa os dois grupos utilizando apenas as variáveis que se apresentaram fortemente correlacionadas. Por exemplo, podemos definir que o ponto de corte seja 𝑌1 = -0,75 (média entre o valor mais alto do grupo dos sadios e o valor mais baixo do grupo dos FELV positivos) e traçar uma reta nos gráficos, para melhor visualização.

Isto significa que este será o ponto de referência, de modo que, quando os valores das variáveis para um determinado felino forem substituídos, os resultados para os quais o valor da primeira componente for maior ou igual a -0,75 (𝑌1≥-0,75), indicarão que provavelmente o felino pertence ao grupo II (FeLV positivos) e quanto maior for esse valor, mais provável é que o felino pertença a este grupo, ou seja, é mais provável que esteja infectado pelo vírus, sendo, portanto altamente indicado realizar os testes para este vírus.

(27)

27

Figura 3.3: Gráfico de dispersão da componente 1 com a componente 2 considerando apenas as variáveis fortemente correlacionadas

3.2 Spike Sorting

Uma das principais perguntas em aberto na área de Neurociências é entender como funciona o cérebro. Uma maneira experimental de responder essa questão é observar as ações dos neurônios em uma região do cérebro através de eletrodos e em seguida verificar se existe uma atividade relevante com base no experimento aplicado. O cérebro humano tem cerca de 1011 neurônios e geralmente estudos mais significativos são realizados em animais que possui uma quantidade bem menor de neurônios. Em nossa aplicação, estamos interessados em identificar quais são os neurônios que estão reagindo em uma certa região e esse procedimento é conhecido na literatura como Spike Sorting ou Identificação de Disparos, POUZART(2018). Os neurônios interagem entre si trocando compostos químicos e quando esses compostos atingem um certo limite dizemos que o ocorre um disparo (spike, em inglês) do neurônio.

-3 -2 -1 0 1 2 3 -4 -2 0 2 4 componente 1 ( Y1) co m p o n e n te 2 ( Y2 ) Sadios Felv positivos

(28)

28

Após o disparo de um neurônio ele entra em repouso por um curto período de tempo, aproximadamente 3ms (milésimos de segundos), e em seguida volta a interagir com os demais. A analogia a seguir talvez possa ajudar a ter uma ideia do problema. Imagine uma sala onde várias pessoas estão sentadas e conversando. Temos uma noção do número de pessoas na sala, mas não conhecemos o número exato. A língua que elas falam é desconhecida para nós e as vezes várias delas falam simultaneamente. Em nossa analogia, essas pessoas correspondem aos neurônios. Colocamos um ou vários microfones nesta sala e agora gravamos o som composto gerado pelas conversas sobrepostas. Nossa tarefa é descobrir, quantas pessoas falam durante a gravação, quais são algumas das características dos sons emitidos por cada pessoa (tom da voz, intensidade, variabilidade, estatística) e qual a conversa de cada pessoa. O(s) microfone(s) corresponde(m) ao(s) eletrodo(s) de registro. Algumas características óbvias na reconstrução da conversa são o volume e o tom das vozes das pessoas (em nossa analogia, o tom corresponde à forma de onda do pico e a intensidade, ou amplitude, está relacionada à distância do neurônio ao eletrodo).

Algumas pessoas, além disso, falam muito, enquanto outras apenas pronunciam um comentário de tempos em tempos. Podemos, portanto, usar a frequência média com que as pessoas falam. Pouzat et al (2004) propôs um método para a realização do Spike Sorting e aplicou em um conjunto de dados de uma espécie de gafanhoto, Schistocerca Americana. Esse método usa várias técnicas estatísticas, mas nesse trabalho vamos focar somente na parte de componentes principais.

3.2.1Metodologia

Um eletrodo com 4 canais é colocado em um gafanhoto e é observado 4 ondas de sinais durante 20 segundos como na Figura 3.4. Como dito anteriormente vamos omitir os detalhes dos tratamentos dos dados e a detecção dos disparos dos neurônios. Esses dados são normalizados segundo o critério do desvio médio absoluto, em seguida na detecção dos disparos com base na amplitude do sinal normalizado.

(29)

29

Figura 3.4: Amostra de 200ms dos 4 canais do gafanhoto

Figura 3.5: Primeiros 200 ms do canal 1. As linhas em pretos representam os dados brutos, o limiar para a detecção dos disparos é denotado pela linha tracejada azul e os disparos são representados pelas linhas em

vermelho.

A Figura 3.5mostra um exemplo de como são detectados os disparos no canal 1 e num intervalo de 200ms do sinal. O sinal bruto é mostrado em preto e se a amplitude do sinal ultrapassa a linha azul, dizemos que ocorreu um disparo e essa amplitude é colocada em vermelho. Na literatura, Pouzat et al (2004), os neurocientistas chamam de ponto amostral o intervalo de 1/15 ms em um sinal do eletrodo.

(30)

30

Após detectar os disparos, uma curva foi criada tomando para cada disparo e essa curva tem 15 pontos amostrais antes do pico e 30 pontos após o pico, totalizando um tamanho de 45 pontos amostrais para cada disparo coletado, ver Figura 3.6. Retornando ao problema de componentes principais, temos um total de 180 variáveis, que são os 45 pontos amostrais vezes 4 canais do eletrodo, e queremos reduzir a dimensão dessas variáveis. Usando a função prcomp da linguagem R (ver Evervitt, 2005) obtemos os valores do desvio padrão, da proporção da variância total e da proporção da variância total acumulada para cada componente principal, respectivamente (ver Tabela 3.6). Vemos que as oito primeiras componentes principais explicam 80% da variância total.

Figura 3.6: Amostra das curvas dos disparos para os 4 canais separados pelas cores brancas e cinzas. As linhas vermelhas e azuis representam a curva mediana dos disparos e o desvio padrão, respectivamente.

Tabela 3.5: Sumário das 8 primeiras componentes principais.

𝐘𝟏 𝐘𝟐 𝐘𝟑 𝐘𝟒 𝐘𝟓 𝐘𝟔 𝐘𝟕 𝐘𝟖 Desvio Padrão 17,323 9,481 7,715 6,059 5,699 4,740 3,849 3,644 Proporção da Variância Total 0,422 0,126 0,083 0,051 0,031 0,031 0,020 0,019 Proporção da Variância Total Acumulada 0,422 0,549 0,632 0,684 0,730 0,761 0,782 0,801

(31)

31

4.CONSIDERAÇÕES FINAIS

A aplicação da análise de componentes principais nos estudos expostos na Seção 3.1 foi de fundamental importância para a interpretação final dos resultados obtidos. No estudo do vírus FELV, apesar da amostra ter sido pequena (apenas 10 gatos), foi possível graças ao uso da análise de componentes principais, determinar critérios de separação dos dois grupos. Como esse conjunto de dados foi explorado, considerando-se muitas variáveis, então se procurou avaliar a influência dessas variáveis conjuntamente, utilizando técnicas estatísticas de análise multivariada. Também foi possível a determinação de uma combinação linear das variáveis que mais diferenciam os grupos e o valor de referência, o qual neste estudo nada mais é do que o ponto que delimita duas regiões: abaixo dele o felino é classificado como sadio e acima dele o felino é classificado como FeLV positivo. Desta forma, ao entrar um novo felino no estudo suas informações podem ser substituídas e o valor encontrado pode ser comparado com o valor de referência, sendo assim classificado como infectado pelo vírus, ou não. Ressalta-se que, devido ao pequeno tamanho de amostra, a classificação pode não ser a ideal, por isso deve ser vista sob um olhar mais cuidadoso. Entretanto, se um felino apresenta um valor positivo distante do valor de referência existe uma confiança maior de que ele esteja infectado.

Na Seção 3.2, sobre o estudo do método de Spike Sorting, reduzimos as 180 variáveis (ou pontos amostrais) em somente 8 componentes principais. O próximo passo seria utilizar esses pontos amostrais das componentes principais obtidas e realizar uma análise de agrupamento. No final do processo, cada agrupamento seria relacionado aos disparos de um certo neurônio, com isso respondendo à pergunta de quantos neurônios estavam disparando na amostra, ver Pouzat (2018). O uso das componentes principais é só uma das várias ferramentas de análise multivariada aplicada neste estudo.

Uma limitação do método de análise de componentes principais é que ele não pode ser utilizado para variáveis aleatórias simbólicas, por exemplo, em dados de sequência de DNA, cuja amostra seria composta pelas letras ACGT. Para isso um método possível de redução de dimensão seria utilizar o método de segmentação de sequências simbólicas, proposto em Castro, et al (2018).

(32)

32

REFERÊNCIAS

FURTADO, F. Daniel. ANÁLISE MULTIVARIADA. Lavras-MG

1996.https://sites.google.com/site/posufrj/ApostilaMultivariada-UniversidadeFed.pdf. Acesso em: 30 Nov. 2018.

JOHNSON, Richard A. E. DEAN W. WICHERN. APPLIED MULTIVARIATE STATISTICAL ANALYSYS. 6 ed. New Jersey 2007.

EVERITT, B. S. AN R AND SPLUS COMPANION TO MULTIVARIATE ANALYSIS. Springer,2005.

CASTRO, M. B. Lemes, B. L. CESAR, J. Hunemeier, T. Leonardi, B. A MODEL

SELECTION APPROACHA FOR MULTIPLE SEQUENCE

SEGMENTETATIONAND DIMENSIONALITY REDUCTION. Journal of Multivariate Analysis. Volume 167, páginas 319-330. 2018.

POUZART, Christophe. SPIKE SORTING. http://xtof.perso.math.cnrs.fr/locust.html. Acesso em: 30 Nov. 2018.

NETO, M. M. J

. ESTATÍSTICA

MULTIVARIADA

. Revista de Filosofia e Ensino. 9

maio 2004.

RENCHER, A. C. CHRISTENSEN, W. F. METHODSOFMULTIVARIATEANALYSIS– WILEY. Series in Probability and Statistics. 3a. Ed. John Wiley & Sons. New Jersey, 2012.

Referências

Documentos relacionados

Inês Leopoldo, coordenadora da área de Saú- de Reprodutiva da Direção Nacional de Saúde Pública de Angola, visitou o IHMT, no dia 9 de ju- nho, tendo reunido com o diretor

Existem distintas técnicas para a construção dos modelos hierárquicos, contudo, neste trabalho, optou-se pelo procedimento chamado bottom-up, que funciona da seguinte maneira:

Em acórdão publicado em 07.01.2019, a Câmara Superior de Recursos Fiscais (“CSRF”) analisou se os saldos de prejuízo fiscal e de base de cálculo negativa

A metodologia utilizada para a validação do modelo é composta pelas seguintes etapas: (i) estimação dos parâmetros empíricos do modelo, apresentada no Capítulo 4, (ii) validação

Stakeholders portanto, são todas as partes interessadas (pessoas ou organizações) envolvidas no projeto, que possam ser afetadas ou exercer alguma influência, positiva ou

foram encontrados, mostrando a importância de tal investi- gação com uso de um método objetivo, pois a otite média e perda auditiva do tipo condutiva são patologias que ocorrem

Retomando o objetivo desta pesquisa, que foi problematizar e compreender as relações de gênero através do filme Hoje eu quero voltar sozinho como ferramenta de educação sob o viés

Objetivo das Perguntas: Avaliar a percepção do agente em relação à evolução das ferramentas Sistema de Atendimento durante o período do experimento. Realidade em Análise: