• Nenhum resultado encontrado

2.5 ANÁLISE DE COMPONENTES PRINCIPAIS

2.5.1 Processo para análise de componentes principais

Segundo Manly (2008), a análise de componentes principais inicia-se com a declaração dos dados de

𝑝

variáveis para

𝑝

indivíduos, como demonstrado na TABELA 3.

TABELA 3 – FORMA DOS DADOS PARA UMA ANÁLISE DE COMPONENTES PRINCIPAIS

Caso Variáveis 𝑋1 𝑋2 … 𝑋𝑃 1 𝑋11 𝑋12 … 𝑋1𝑃 2 𝑋21 𝑋22 … 𝑋2𝑃 ⋮ ⋮ ⋮ ⋮ ⋮ n 𝑋𝑛1 𝑋𝑛2 … 𝑋𝑛𝑃

FONTE: Adaptado MANLY (2008).

Assim, de acordo com Johnson e Winchern (2007), os

𝑝

componentes principais (𝑌1, 𝑌2, … , 𝑌𝑝) são combinações lineares dadas por (1.9) quando existe um vetor aleatório 𝑿 = (𝑌1, 𝑌2, … , 𝑌𝑝) originário de uma população com variância

Σ

, e com

autovalores λ1 ≥ λ2 ≥ ⋯ ≥ λ𝑝 ≥ 0. 𝑌1 = 𝒂′1𝑿 = 𝑎11𝑋1+ 𝑎12𝑋2+ ⋯ + 𝑎1𝑝𝑋𝑝 𝑌2 = 𝒂′2𝑿 = 𝑎21𝑋1+ 𝑎22𝑋2+ ⋯ + 𝑎2𝑝𝑋𝑝 (1.9) ⋮ ⋮ ⋮ 𝑌𝑝 = 𝒂′𝑝𝑿 = 𝑎𝑝1𝑋1+ 𝑎𝑝2𝑋2+ ⋯ + 𝑎𝑝𝑝𝑋𝑝

Pode ser deduzido que 𝑌1, que representa a primeira componente principal, possui a maior variância de todos as demais componentes, e que quanto maior esse valor, maior o número de informações disponíveis a respeito dos dados originais

estará contido neste único componente, porém mesmo que 𝑌1 explique uma grande

parcela da variação dos dados originais, ele não explica toda a variação. A fração residual não explicada por 𝑌1 é tratada pela segunda componente principal 𝑌2, a qual explica o valor máximo das variações ainda não explicadas por 𝑌1. As próximas frações residuais serão explicadas pelo componente 𝑌3 e assim sucessivamente. Os

componentes principais 𝑌1, 𝑌2, … , 𝑌𝑝 possuem a propriedade de serem mutuamente não correlacionados, ou seja, os componentes principais subsequentes são determinados para não serem correlacionados aos componentes principais anteriores, além de cada novo componente principal ser destinado a explicar a máxima quantidade possível de variação ainda não explicada. (LATTIN, CARROLL e GREEN, 2011).

Assim, Johnson e Winchern (2007), definem sucintamente que:

 O primeiro componente principal é a combinação linear 𝒂′1𝑿 que maximiza 𝑉𝑎𝑟 (𝒂′1𝑿) sujeito a 𝒂′1𝒂1 = 1

 O segundo componente principal é a combinação linear 𝒂′2𝑿 que maximiza 𝑉𝑎𝑟 (𝒂′2𝑿) sujeito a 𝒂′2𝒂2 = 1 e 𝐶𝑜𝑣 (𝒂′1𝑿, 𝒂′2𝑿) = 0  Nas próximas etapas, o componente principal 𝑌𝑖 é a combinação linear

𝒂′𝑖𝑿 que maximiza 𝑉𝑎𝑟 (𝒂′𝑖𝑿) sujeito a 𝒂′𝑖𝒂𝑗 = 1 e 𝐶𝑜𝑣 (𝒂′𝑖𝑿, 𝒂′𝑘𝑿) = 0 para 𝑘 < 𝑖 .

Segundo Manly (2008), a ausência de correlações demonstra que os índices estão retornando diferentes dimensões de dados, conforme equação (1.10),

𝑉𝑎𝑟 (𝑌1) ≥ 𝑉𝑎𝑟 (𝑌2) ≥ ⋯ ≥ 𝑉𝑎𝑟 (𝑌𝑝) (1.10)

A matriz de covariância é simétrica e representada por (1.11), onde o elemento

𝑆

𝑖𝑖 na diagonal é a variância de 𝑋𝑖, e os termos não pertencentes a diagonal

𝑆

𝑖𝑗 são a covariância entre as variáveis 𝑋𝑖 e 𝑋𝑗.

𝚺 = [ 𝑠11 𝑠12 𝑠21 𝑠22 … 𝑠1𝑝 … 𝑠2𝑝 ⋮ ⋮ 𝑠𝑝1 𝑠𝑝2 ⋱ ⋮ … 𝑠𝑝𝑝 ] (1.11)

Os autovalores da matriz C representam as variâncias dos componentes principais. Existem

𝑝

autovalores, alguns podendo ser zero, porém de forma alguma apresentar valores negativos, onde λ𝑖 corresponde ao i-ésimo componente principal conforme (1.12).

λ1 ≥ λ2 ≥ ⋯ ≥ λ𝑝 ≥ 0 (1.12)

Devido à análise de componentes principais buscar a máxima variância, ela pode ser vulnerável as diferenças desnecessárias de escalas entre as variáveis. Em virtude desta situação é recomendado padronizar os dados para que possuam média igual a zero e variância igual a um. A solução para tal questão é a aplicação de uma decomposição de autovalor da matriz de correlação, que é a matriz de covariância dos dados padronizados. (LATTIN, CARROLL e GREEN, 2011).

 Desta forma cada autovetor representa a direção de um dos eixos principais;

 Cada autovalor ( λ ) é igual a variância do componente principal Y𝑖, definido por λ1 ≥ λ2 ≥ ⋯ ≥ λ𝑝 ≥ 0;

 A matriz de covariância estimada dos componentes principais, representada por 𝑺, é uma matriz diagonal com λ1 ≥ λ2 ≥ ⋯ ≥ λ𝑝 ≥ 0; A análise de componentes principais para dados padronizados é realizada por meio da matriz de correlação 𝑹, representada em (1.13).

𝑹 = [ 1 𝑟12 𝑟21 1 … 𝑟1𝑝 … 𝑟2𝑝 ⋮ ⋮ 𝑟𝑝1 𝑟𝑝2 … 1⋱ ⋮ ] (1.13)

Analisando os componentes principais estimados, buscam-se variáveis com baixos coeficientes nos componentes, tendo como objetivo o descarte dessas. Outra maneira, para a análise dos dados, é utilizar apenas os primeiros e mais significativos componentes principais, desde que a soma de suas variâncias seja um percentual representativo perante o total de todos os

𝑝

componentes. (MANLY, 2008).

Assim se os

𝑘

componentes principais, sendo 𝑘 <

𝑝

, explicarem em torno de 80 a 90% da variabilidade dos dados, então se pode atribuir aos primeiros componentes a representação das

𝑝

variáveis originais sem uma perda significativa de informações. (JOHNSON e WICHERN, 2007).

Existem diversas técnicas para determinar o número de componentes principais para análise, em muitas delas se faz necessário obter uma quantidade suficiente de componentes principais para explicar adequadamente a variância em cada variável original. (LATTIN, CARROLL e GREEN, 2011).

Segundo Moriggi (2018), uma das técnicas utilizadas para determinar a quantidade de componentes principais necessária para uma análise é denominada método de Jolliffe, a qual aplica critérios específicos para a seleção das variáveis. De acordo com Jolliffe (1972), a seleção de variáveis a partir da análise de componentes principais é baseada nos valores que foram obtidos pelos autovalores, sendo para isso utilizada duas metodologias chamadas de B2 e B4, onde as mesmas buscam excluir

𝑚

variáveis a partir de um critério de seleção que segrega as variáveis com valores menores ou iguais a 0,7.

A metodologia B2 consiste em associar cada uma das variáveis a cada um dos componentes principais por meio de uma matriz de correlação. Para cada componente principal é verificada a variável que possui maior valor de correlação, sendo selecionada a variável de maior correlação com o último componente principal, posteriormente a próxima variável de maior correlação é associada a penúltima componente principal, e assim sucessivamente. Determinando tais variáveis, estas são descartadas, sendo selecionado neste caso as variáveis que não possuíam alto valor de correlação com os últimos componentes principais. (JOLLIFFE, 1972).

A metodologia B4 é semelhante e emprega o mesmo critério da B2, realizando a correlação das variáveis com cada um dos componentes principais, sendo selecionadas as variáveis que possuem maior correlação com cada componente principal, porém neste caso, de forma oposta a B2, o método é iniciando pela primeira componente, seguida da segunda e assim sucessivamente, sendo posteriormente descartadas as demais as variáveis que não foram selecionadas. (JOLLIFFE, 1972).

Tanto em Jolliffe B2, quanto em Jolliffe B4, caso uma mesma variável apresente a maior correlação em mais de um componente principal, é selecionada a próxima variável com maior correlação da componente correspondente, e assim

sucessivamente enquanto existirem autovalores iguais ou menores que 0,7, pois componentes principais com baixos autovalores não geram impacto significativo na variabilidade dos dados analisados, e a eliminação das variáveis de alta correlação com esses componentes não gera perda de informações para o modelo. (JOLLIFFE, 1972).

Segundo Moriggi (2018), é possível observar que os métodos de Jolliffe B2 e B4 são complementares, pois as variáveis que são mantidas pelo método de Jolliffe são iguais ao número de autovalores maiores que 0,7. Tal método se destaca por selecionar, por meio das primeiras componentes principais, as variáveis mais significantes para o modelo.