Capítulo II
INTRODUÇÃO AOS MÉTODOS FACTORIAIS
A Análise Factorial de Correspondências é uma técnica simples do ponto de vista matemático e computacional. Porém, devido ao elevado suporte geométrico desta técnica, decidiu-se dedicar um capítulo inteiro para introduzir os conceitos geométricos cruciais para um entendimento correcto deste método factorial.
Apesar dos conceitos geométricos constituírem os alicerces da maioria das técnicas multivariadas, muitos livros de análise de dados multivariados apresentam apenas uma descrição sucinta destes conceitos. Por isso, este capítulo é de extrema importância, e, como se trata de um capítulo introdutório, aconselha-se a leitura do excepcional livro de Green e Carrol (1996), que complementa, de uma forma extensiva, os conceitos apresentados neste capítulo.
Este capítulo também não deixa de ser facultativo para leitores com conhecimentos avançados de estatística multivariada e álgebra matricial.
Em seguida, introduziremos os conceitos geométricos que servem de suporte à aplicação dos muito conhecidos métodos factoriais, onde se insere a Análise de Correspondências.
2.1 Conceitos Geométricos
Os métodos factoriais de análise de dados permitem descrever matrizes K de dimensão (n × p) que comummente representam os valores tomados por n indivíduos em p variáveis (neste caso, com vista à introdução da AC no capítulo seguinte, consideraremos categorias relativas às diversas variáveis em vez de variáveis). é o valor tomado pelo indivíduo i na categoria j.
× =
⋱
⋯ ⋯
⋮ ⋮
⋮ ⋯ ⋱
(2.1)
A matriz K pode ser tomada segundo linhas ou colunas:
♦ Cada linha de K é um vector que representa a posição de um indivíduo no espaço das categorias ℝ.
♦ Cada coluna de K é um vector que representa a posição de uma categoria no espaço dos indivíduos ℝ.
Desta forma, a matriz K pode ser representada através de duas nuvens de pontos distintas, conforme o espaço escolhido, como se pode visualizar no esquema seguinte.
Ilustração 2.1 – Representação das nuvens em ℝe ℝ.
Quando o número de indivíduos e categorias é elevado, não é possível detectar a estrutura da nuvem em estudo sem uma redução da dimensionalidade do espaço. Este trata-se do principal objectivo dos vários métodos de análise factorial de dados.
A redução da dimensionalidade deve assegurar uma perda de informação mínima, isto é, o sub-espaço resultante tem de garantir a menor deformação possível da nuvem inicial.
Na presença de grandes matrizes de dados, estes métodos são de enorme utilidade, pois permitem, através de uma simples representação gráfica, descrever os principais padrões subjacentes aos dados, impossíveis de aferir através de uma investigação pormenorizada dos valores tomados pela matriz devido ao elevado número de linhas e colunas.
Considere-se uma nuvem constituída por n pontos com coordenadas e massa . O centro de gravidade da nuvem é dado por
= ∑ (2.1)
A média ponderada pelas massas dos n indivíduos da categoria j, dada por
= ∑ (2.2)
constitui a j-ésima componente do centro de gravidade da nuvem de indivíduos. Em particular, se = vem
=
∑
=
(2.3)Desta forma, a inércia da nuvem em relação a um ponto τ qualquer é dada por:
!
"= ∑
− $
(2.4) Neste ponto, é possível verificar a equivalência entre a variância da variável j e a inércia em relação ao seu centro de gravidade!
%&=
∑ '
−
(
(2.5)A matriz de inércia é dada por
) = ∑
−
*−
(2.6) Que corresponde ao equivalente geométrico da matriz de covariâncias fazendo = .Assim sendo, a inércia em relação ao centro de gravidade pode-se escrever como
!
%= +,- = ∑ .
(2.7) Seja / um sub-espaço vectorial de ℝ e / o seu suplementar ortogonal, então qualquer vector de ℝ pode decompor-se, de forma única, na soma de dois vectores:= 0+ 2 , ∈ ℝ, 0 ∈ /, 2 ∈ / sendo 0 e 2 ortogonais, ou seja, 0 ×2 = 0.
Se o centro de gravidade da nuvem coincidir com a origem temos
!
/= ∑
2
(2.8)!
/6= ∑
0
(2.9)Como os dois espaços são ortogonais, recorrendo-se ao teorema de Pitágoras, obtemos:
!
% = !/ + !/1 (2.10)2.2 Análise das Nuvens de Pontos
Depois da apreensão dos principais conceitos geométricos, neste subtítulo, expõem-se os conceitos necessários à determinação do sub-espaço óptimo que assegura a melhor representação possível das duas nuvens de pontos.
2.2.1 Análise em ℝ
O objectivo principal desta análise é ajustar a nuvem de n pontos por um subespaço vectorial munido da distância euclidiana usual.
Comecemos por procurar a recta ℜ, passando pela origem, que melhor ajusta a nuvem segundo o critério dos mínimos quadrados.
Seja 9, um vector unitário sobre a recta, tal que 9*9 = 1. Cada linha de K representa um ponto em ℝ. A matriz :;6representa as projecções dos n pontos em ℜ, como se pode ver ilustrado na figura seguinte:
Ilustração 2.2 – Projecção de um ponto num vector.
O quadrado da distância de um ponto à origem decompõe-se na soma do quadrado da projecção em ℜ × 9 com o quadrado da distância a ℜ<. Neste caso, minimizar a perda de inércia é equivalente a minimizar a soma dos quadrados das distâncias a ℜ, ou maximizar a soma dos quadrados das projecções em ℜ, dada por
=9*=9 = 9*=*=9 (2.11)
Encontrar a recta que melhor se ajusta à nuvem traduz-se em maximizar a forma quadrática 9*=*=9 sujeita à restrição 9*9 = 1.
Para encontrar o máximo desta forma quadrática, recorremos ao método dos multiplicadores de Lagrange.
Formando a função Lagranjeana ℒ e derivando em ordem a 9 ℒ = 9*=*=9− @9*9− 1
Aℒ
A;6
= 2=
*=9
− 2@
9
(2.12) Igualando a derivada a zero, obtém-seAℒ
A9 = 0 ⇔ 2=*=9− 2@9 = 0
=*=9− @9
=
0 (2.13)Conclui-se que 9 é um vector próprio de =*= e @, que lhe está associado, corresponde ao maior valor próprio.
Multiplicando à esquerda (2.13) por 9*, ou seja, 9*=*=9− @9*9 = 0, temos
9*=*=9
=
@ (2.14)Constata-se que o valor próprio @ é o máximo procurado.
Procuremos agora o espaço a duas dimensões que melhor ajusta a nuvem.
Neste caso, trata-se de encontrar a recta ℜ definida pelo vector unitário 9, que verifica 9*9 = 1, perpendicular a 9, ou seja, 9* 9 = 0.
Agora a função lagranjeana toma a seguinte forma
ℒ
=
9*=*=9− @9*9− 1 − D9* 9 (2.15) Derivando (2.15) em ordem a 9 e igualando a derivada a zero, vemA9Aℒ = 2=*=9− 2@9− D9
Aℒ
A;E
= 0 ⇔ 2=
*=9
− 2@
9
− D9
= 0
(2.16) Multiplicando à esquerda por 9*, e tendo em conta que 9 e 9 são perpendiculares 9*9 = 0), resulta29*=*=9− 2@9*9 − D9*9 = 0
29*=*=9− D
= 0
(2.17)Voltando à expressão (2.14) e multiplicando à direita por 9*, temos 9*=*=99* = @9*
9*=*= = @9* (2.18)
Substituindo o resultado (2.18) em (2.17), obtemos
2@9*9− D = 0 (2.19) Novamente, tendo em conta a perpendicularidade de 9 e 9, da equação anterior resulta que o segundo parâmetro da função lagranjeana D é nulo.
Em consequência desta situação, D = 0, a equação (2.16) converte-se em 2=*=9− 2@9 = 0
=*=9− @9 = 0 (2.20)
Assim, semelhante ao que se verificou em (2.13), 9 é o vector próprio associado ao segundo maior valor próprio de =*=, @.
Generalizando, para obter o espaço a j dimensões que melhor ajusta a nuvem, teremos agora que encontrar a recta ℜ definida pelo vector unitário 9, que verifica 9*9 = 1, perpendicular a 9, 9, … , 9G.
Deste modo, a função lagranjeana toma a seguinte forma (2.21):
ℒ = 9*=*=9− @'9*9− 1( − D'9* 9( − D'9* 9( − … − DG'9* 9G( Simplificando, temos
ℒ = 9
*=
*=9
− @
'9
*9
− 1( − ∑
GHD
H'9
*9
H(
(2.22) Derivando e igualando a zeroAℒ
A;&
= 0 ⇔ 2=
*=9
− 2@
9
− ∑
GHD
H9
H= 0
(2.23)Como nos casos anteriores, é simples verificar que DH = 0, ∀ ∈ J1, 2, … , K − 1L, ficando
=*=9− @9
= 0
(2.24)Logo, deduz-se que 9é o vector próprio associado ao j-ésimo maior valor próprio @.
De notar que,
+,
=M==∑
@K (2.25)Assim, o subespaço vectorial de dimensão < que se ajusta à nuvem, segundo um critério de mínimos quadrados, é gerado por uma base constituída pelos vectores próprios associados aos maiores valores próprios de =*=.
2.2.2 Análise em ℝ
Nesta análise, cada coluna da matriz K representa um ponto em ℝ, o que conduz a uma nuvem de p pontos.
A partir deste momento, o objectivo prende-se unicamente em encontrar o vector unitário . que maximiza a soma dos quadrados das projecções dos pontos sobre a recta Oa ele associado.
Portanto, pretende-se agora maximizar a forma quadrática seguinte
=*.*=*. = .*==*. (2.26) De forma similar à utilizada para a análise em ℝ verifica-se que . é o vector próprio correspondente ao máximo valor próprio de ==*.
No caso geral teremos
==*.− P. = 0 (2.27)
Em que . é o vector próprio associado ao valor próprio P.
2.3 Fórmulas de Transição
Neste ponto, estudar-se-á a relação entre os valores próprios e vectores próprios de =*= e ==*, obtidos nas análises anteriores em ℝ e ℝ, respectivamente.
Da análise em ℝ resultou a expressão (2.24), que se replica de seguida
=*=9− @9 = 0
De igual modo, na análise em ℝ resultou a expressão (2.27), que se expõe a seguir
==*.− P. = 0
Multiplicando à esquerda a expressão (2.24) por =, obtemos
==*=9− @=9 = 0 (2.28)
A relação (2.28) mostra que =9 são vectores próprios de ==*, sendo @ os respectivos valores próprios. Comparando (2.24) com (2.27), verifica-se que @ coincide com P, pois são os valores próprios da mesma matriz.
De outra forma, confrontando (2.27) com (2.28) constata-se que =9 e . são proporcionais, pois são os vectores próprios da mesma matriz, ou seja
.Q = R=9 (2.29)
Multiplicando à esquerda (2.29) por =* e comparando os resultados com (2.24), verifica-se também a proporcionalidade entre 9 e =*., isto é
9Q = R=*. (2.30)
Multiplicando à esquerda as expressões anteriores (2.29) e (2.30), respectivamente por .* e 9*, temos
.*. = R.*=9 ⇔ 1 = R.*=9 ⇔ 1 = RD (2.31) 9*9 = R9*=*. ⇔ 1 = R9*=*. ⇔ 1 = RD
Em que
D = '. *= 9(* = 9*=*. Que resulta em R = R = D.
Multiplicando à esquerda a expressão (2.30) por .*=, vem
.*=9Q = D .*==*. (2.32) que, atendendo a (2.14), é equivalente a
.*=9Q= D@ (2.33)
Substituindo em (2.31), tendo em conta que R = R = D, temos
1 = DD@ ⟺T= D@ (2.34) Resolvendo (2.34) em ordem a D, vem
D@ = 1 ⇔ D = U& ⇔ D =
VU&
(2.35)
Donde, substituindo em (2.29) e (2.30), vem . =
VU&=9Q W 9 =
VU& =*.Q (2.36)
As expressões obtidas em (2.36) são denominadas usualmente como fórmulas de transição entre espaços. Estas fórmulas permitem a transição de um espaço para o outro, e, são de grande importância pois simplificam o estudo das duas nuvens de pontos. Portanto, num estudo factorial, é suficiente a diagonalização de apenas uma das matrizes =*= ou ==*, escolhendo-se normalmente a de menor dimensão.