Selecção de variáveis em estatística multivariada

(1)

INSTITUTO SUPERIOR DE AGRONOMIA

Selecção de variáveis em Estatística Multivariada

Manuel Joaquim Piteira Minhoto

ORIENTADOR: Doutor Jorge Filipe Campinos Landerset Cadima

CO-ORIENTADOR: Doutor Jorge Orestes Lasbarreres Cerdeira

JÚRI

Presidente - Reitor da Universidade Técnica de Lisboa

Vogais - Doutor António Pedro de Pinho de Brito Duarte Silva

, Professor Associado da Faculdade de Economia e Gestão da Universidade Católica Portuguesa;

Doutor Jorge Orestes Lasbarreres Cerdeira,

Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa;

Doutor Jorge Filipe Campinos Landerset Cadima

, Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa;

Doutora Margarida Maria Teixeira Diniz Mendes Leal,

Professora Auxiliar da Faculdade de Ciências da Universidade de Lisboa;

Doutora Maria Manuela Melo Oliveira,

Professora Auxiliar da Universidade de Évora.

Doutoramento em Matemática e Estatística

Lisboa

2009

(2)

(3)

INSTITUTO SUPERIOR DE AGRONOMIA

Selecção de variáveis em Estatística Multivariada

Manuel Joaquim Piteira Minhoto

ORIENTADOR: Doutor Jorge Filipe Campinos Landerset Cadima

CO-ORIENTADOR: Doutor Jorge Orestes Lasbarreres Cerdeira

JÚRI

Presidente - Reitor da Universidade Técnica de Lisboa

Vogais - Doutor António Pedro de Pinho de Brito Duarte Silva

, Professor Associado da Faculdade de Economia e Gestão da Universidade Católica Portuguesa;

Doutor Jorge Orestes Lasbarreres Cerdeira,

Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa;

Doutor Jorge Filipe Campinos Landerset Cadima

, Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa;

Doutora Margarida Maria Teixeira Diniz Mendes Leal,

Professora Auxiliar da Faculdade de Ciências da Universidade de Lisboa;

Doutora Maria Manuela Melo Oliveira,

Professora Auxiliar da Universidade de Évora.

Doutoramento em Matemática e Estatística

Tese apresentada neste Instituto para obtenção do grau de Doutor

Lisboa

2009

(4)

REGULAMENTO DE ACESSO À ACÇÃO 5.3 - DOUTORAMENTOS

União Europeia Fundo Social Europeu

(5)

RESUMO

O problema de selecção de variáveis consiste em, dado um conjunto de observações multivariadas com p variáveis, identificar o subconjunto de uma dada cardinalidade k<p que melhor aproxime, de acordo com um dado critério de optimização, a totalidade das variáveis.

Neste trabalho apresentam-se e discutem-se quer novos critérios de optimização quer outros sugeridos na literatura. Apresentam-se e discutem-se os algoritmos de selecção para os problemas de optimização combinatória subjacentes, bem como os resultados computacionais obtidos.

Os critérios e algoritmos estão disponíveis no módulo informático Subselect que é chamado a partir do programa estatístico R. Este módulo está em actualização permanente, com variadas contribuições, entre as quais se inclui a deste trabalho. Módulo e programa são do domínio público e encontram-se disponíveis na Internet.

Neste trabalho também se discute uma abordagem multi-critério do problema de selecção de subconjuntos de variáveis. Nesta abordagem, procuram-se soluções que sejam óptimas em vários critérios simultaneamente. A ordem total induzida por um único critério dá lugar a uma ordem parcial, à qual está associada um conjunto de soluções que não podem ser melhoradas em todos os critérios simultaneamente. Designam-se habitualmente por maximais, soluções eficientes ou óptimos de Pareto.

Palavras chave: Selecção de variáveis, Estatística Multivariada, Optimização Combinatória, heurísticas, óptimos de Pareto.

(6)

Variable selection in Multivariate statistics

ABSTRACT

The problem of variable selection consists in identifying a k-subset of a set of original variables that is optimal for a given criterion of adequate approximation to the whole data set.

In this work we present and we discuss some new optimization criteria and others that are suggested by the literature. We present and we discuss the algorithms for the optimization problems resulting from the different criteria, as well as the calculated computational results.

The criteria and algorithms are available in the package Subselect that is called from statistical program R. This package is in permanent update, with varied contributions, between which, this work is included. Package and program are of the public domain and meet available in the Internet.

In this work we also discuss a multiple criteria optimization for the problem of identifying subsets of variables. In this approach, we are looking for subsets that are optimal for some criteria simultaneously. The induced total order for an only criterion gives place to a partial order, with which is associated a set of solutions that cannot simultaneously be improved in all the criteria. Usually they are called maximal, efficient

solutions or Pareto optimal.

Key words: Variable selection, Multivariate statistics, Combinatorial optimization, Heuristics, Pareto optimal.

(7)

Ao Professor Doutor Jorge Cadima, meu orientador nesta Tese, pela amizade de longa data, pela orientação, incentivo e inteira disponibilidade manifestada durante todo o desenvolvimento deste trabalho.

Ao Departamento de Matemática do Instituto Superior de Agronomia da Universidade Técnica de Lisboa por todo o apoio institucional concedido.

Ao Departamento de Matemática da Universidade de Évora, em que lecciono pelo seu apoio institucional.

À Fundação para a Ciência e Tecnologia, pelo apoio financeiro.

À minha família, aos meus amigos e a todos aqueles que de forma directa ou indirecta, com sugestões e comentários, muito contribuíram para a realização deste trabalho.

(8)

v

Capítulo 1 – Introdução, Terminologia e Conceitos...1

1.1 Introdução ... 1

1.2 Terminologia ... 3

1.3 Conceitos fundamentais de álgebra linear ... 4

1.3.1 Subespaço de um espaço linear. Soma directa ... 4

1.3.2 Produtos Internos, Normas, Distâncias, Ângulos ... 5

1.3.3 Projecções ... 8

1.3.3.1 Algumas definições e resultados ...8

1.3.3.2 Projecções em _{ℝ ...10}k 1.3.3.3 Decomposição ortogonal de uma matriz real ...11

1.3.3.4 Projecções em subespaços encaixados ...12

1.4 Conceitos fundamentais de teoria das matrizes... 12

1.4.1 Alguns resultados gerais ... 13

1.4.2 Valores próprios e vectores próprios ... 15

1.4.3 Matrizes simétricas ... 15

1.4.3.1 A Decomposição Espectral...16

1.4.3.2 Matrizes Definidas Positivas ...17

1.4.4 Normas Matriciais ... 17

1.4.5 A Decomposição em Valores Singulares ... 18

1.4.5.1 Inversa Generalizada de Moore-Penrose...19

1.4.5.2 Teorema de Eckart - Young ...20

1.4.6 Variância e Correlações Parciais ... 20

1.5 Conceitos fundamentais sobre relações de ordem... 21

1.6 Alguns Métodos de Análise Multivariada ... 24

1.6.1 Análise em Componentes Principais ... 24

1.6.1.1 Determinação das Componentes Principais ...25

1.6.1.2 A ACP como técnica de redução de dimensionalidade...26

1.6.2 Regressão Linear Múltipla... 26

(9)

vi

1.6.5 Análise Variância Multivariada (MANOVA) ... 29

1.6.6 MANCOVA ... 30

1.7 Distribuição Normal Multivariada e Distribuição de Wishart ... 31

1.7.1 Distribuição Normal Multivariada ... 31

1.7.2 Distribuição de Wishart ... 32

Capítulo 2 – Critérios de selecção de variáveis observadas...34

2.1 A Formulação do Problema... 34

2.1.1 Selecção de variáveis no contexto de Regressão Linear Múltipla ... 37

2.1.1.1 Inferência no modelo de regressão linear múltipla...38

2.1.1.2 Dificuldades do modelo completo...39

2.1.1.3 Critérios de selecção de variáveis...40

2.1.1.4 Dificuldades do Estimador dos Coeficientes da Regressão ...41

2.1.1.5 Métodos empregando Técnicas Penalizadoras ...42

2.2 Critérios em análise exploratória de uma matriz de dados... 44

2.2.1 Os Coeficientes das Combinações Lineares ... 44

2.2.2 Os Critérios de McCabe ... 45 2.2.3 O critério RM ... 46 2.2.4 O critério GCD ... 48 2.2.5 O índice RV ... 49 2.2.5.1 O Critério RVs...51 2.2.6 Comparação de Procrustes ... 53 2.2.6.1 O Critério Gama* ...55

2.2.7 Componentes Principais Modificadas ... 57

2.2.8 O Índice de Redundância RI de Stewart e Love... 58

2.2.8.1 O Critério RIs ...59

2.2.9 Componentes Principais Rarefeitas ... 60

2.3 Critérios em modelos lineares de resposta multivariada ... 64

2.3.1 Inferência no modelo linear de resposta multivariada... 64

2.3.2 Matrizes de variabilidade associadas à hipótese linear de referência... 66

(10)

vii

2.3.4 Critérios de Desempenho... 79

2.3.4.1 Índices como funções monótonas das estatísticas clássicas ...79

2.3.4.2 O Índice de Redundância de Stewart e Love...81

2.3.5 As matrizes de variabilidade na regressão linear múltipla multivariada ... 81

2.3.6 Critérios de selecção utilizados ... 83

2.4 O Critério como indicador de qualidade... 85

Capítulo 3 – Algoritmos de Optimização ...86

3.1 Algoritmos de optimização em regressão linear múltipla ... 87

3.2 Algoritmos de optimização noutros contextos ... 90

3.2.1 Algoritmos tipo Furnival ... 90

3.2.2 Algoritmos tipo Furnival & Wilson ... 91

3.2.3 Heurísticas de inclusão/exclusão sistemáticas... 91

3.2.4 Heurísticas tipo Pesquisa Local ... 92

3.2.4.1 Heurísticas tipo Melhoramento ...93

3.2.4.2 Arrefecimento Controlado...94

3.2.4.3 Algoritmo Genético ...95

3.3 Ferramentas Informáticas ... 97

3.3.1 O Módulo Informático Subselect... 97

3.3.2 Selecção de variáveis empregando o módulo Subselect ... 98

3.3.3 Critérios não-incluídos no módulo Subselect... 99

Capítulo 4 – Dados e Resultados ...100

4.1 Conjuntos de dados utilizados ... 100

4.2 Resultados Obtidos ... 105

4.2.1 Contexto de análise exploratória de uma matriz de dados ... 106

4.2.2 Contexto de modelos lineares de resposta multivariada... 120

(11)

viii

Capítulo 5 – A Abordagem Multicritério ...129

5.1 Intersecção de relações de ordem ... 129

5.1.1 Propriedades de Intersecção de Relações Binárias... 130

5.1.2 Intersecção de relações de ordem estrita total ... 131

5.1.2.1 Maximais para a Intersecção de relações de ordem estrita total ...131

5.2 Formulação do problema: selecção de todos os maximais... 133

5.3 Algumas Definições e Resultados ... 134

5.4 Um Algoritmo para obtenção de todos os maximais... 142

5.5 Exemplos de Aplicação ... 144

5.5.1 Exemplos em análise exploratória de uma matriz de dados... 145

5.5.1.1 Esforço Computacional ...154

5.5.2 Exemplos em modelos lineares de resposta multivariada ... 156

5.5.2.1 Maximais para a intersecção de quatro critérios de selecção ...156

5.5.2.2 Maximais para a intersecção de quatro contrastes ...159

5.5.2.3 Teste da sugestão de Huberty ...162

Capítulo 6 - Considerações Finais...164

Bibliografia...166

(12)

Capítulo 1

Introdução, Terminologia e Conceitos

1.1 Introdução

A selecção de variáveis coloca-se em diversos contextos da Estatística Multivariada. De uma forma genérica, seleccionar variáveis equivale a substituir um conjunto de variáveis por um subconjunto dessas mesmas variáveis. O interesse, em recorrer a subconjuntos de variáveis, pode resultar de:

a) Razões de natureza prática ou mesmo económica: a recolha de dados pode ser difícil, morosa ou dispendiosa.

b) Dificuldades em trabalhar com todas as variáveis simultaneamente, ou simplesmente interesse do utilizador em analisar o comportamento de subconjuntos de variáveis.

c) Os resultados obtidos serem de certo modo idênticos, em relação ao objectivo que se pretende atingir, trabalhando com todas as variáveis observadas, ou apenas com parte delas (ver, por exemplo, Jolliffe, 1972, 1973 e 2002). O princípio da parcimónia aconselha a que sejam identificadas as variáveis que são realmente importantes, para o fim em vista.

(13)

d) Problemas de interpretação de modelos ou funções das variáveis observadas envolvendo a sua totalidade (ver, por exemplo, Mc Cabe, 1975, 1984 e 1986, Tibshirani, 1996 e Jolliffe & Udin, 2002).

e) Num contexto inferencial, pouca precisão na previsão dos resultados (ver, por exemplo, Hocking, 1976).

Em resumo, surgem situações onde se pretende identificar variáveis que, na presença de outras, pouco ou nada acrescentem ao objectivo que se pretende alcançar (ver, por exemplo, Beal, et al., 1967, Draper & Smith, 1998). Deste modo estas variáveis poderão ser abandonadas, melhorando naturalmente a parcimónia e interpretabilidade e, num contexto inferencial, possivelmente também a precisão na previsão.

Muitos têm sido os critérios objectivos propostos que, em diversos domínios da Estatística Multivariada, permitem avaliar o desempenho de uma parte das variáveis face à sua totalidade. Trata-se de critérios que nos permitem afirmar que um dado subconjunto de variáveis é melhor do que outro subconjunto com igual número de variáveis. Apresentam-se neste trabalho alguns destes critérios em dois grandes domínios da estatística multivariada: a análise exploratória de uma matriz de dados e a análise das relações lineares entre dois conjuntos de variáveis, referido neste trabalho como modelos lineares de resposta multivariada. Para um determinado critério coloca-se naturalmente a questão de encontrar algoritmos que permitam obter o subconjunto óptimo de variáveis para uma determinada cardinalidade pré-estabelecida. A escolha dos algoritmos de pesquisa mais indicados para os vários critérios em diversos domínios tem sido discutida e diversas soluções têm sido propostas (ver, por exemplo, Mc Cabe, 1975, Miller, 1984, Duarte Silva, 2001 e 2002 e Cadima, Orestes e Minhoto, 2004). Nesta tese discutem-se e desenvolvem-se alguns algoritmos e as respectivas ferramentas informáticas (Capítulo 3). Algumas das ferramentas informáticas disponíveis permitem que, para cada critério de selecção, se disponibilize, não só o óptimo, mas igualmente listagens ordenadas dos melhores subconjuntos ao abrigo desse critério. A disponibilidade de tais listagens irá permitir que se possa efectuar uma abordagem multicritério para seleccionar subconjuntos de variáveis. Nesta abordagem, e, considerando sempre subconjuntos de variáveis de uma cardinalidade fixa, procura-se encontrar os subconjuntos que, não sejam ultrapassados por qualquer outro subconjunto em todos os critérios simultaneamente. Para esta abordagem, apresenta-se um algoritmo

(14)

que, mediante certas condições, vai permitir obter o conjunto de todas estas soluções (Capítulo 5). Soluções que se designam frequentemente por maximais (ver, por exemplo, Schreider, 1975), soluções eficientes ou óptimos de Pareto (ver, por exemplo, Steuer, 1986).

1.2 Terminologia

Os conjuntos de dados multivariados apresentam-se em geral sob a forma de matrizes do tipo X(n × p) cujas colunas correspondem a p variáveis observadas, e cujas linhas estão associadas aos n indivíduos ou unidades estatísticas. Considere-se agora um subconjunto de k (< p) variáveis observadas, que se representa por um conjunto de índices K. Este subconjunto de k variáveis é dado pelas colunas da matriz:

XK = XIK, (1.1) em que a matriz IK é a submatriz de ordem p × k da matriz identidade de ordem p × p, cujas colunas correspondem ao conjunto de índices K. Deste modo, no contexto de análise exploratória de uma matriz de dados, seleccionar um subconjunto de k variáveis escolhidas de entre a totalidade das p variáveis observadas pode consistir, por exemplo, em encontrar as k colunas da matriz X que, de acordo com algum critério previamente fixado, melhor aproximam a totalidade das colunas desta matriz ou, por exemplo, encontrar as k colunas da matriz X, que melhor preservem a representação dos n indivíduos, comparando a sua representação com a totalidade das variáveis e apenas com um subconjunto de k variáveis. Portanto o critério de selecção depende do objectivo que se tem em vista.

Como se referiu na secção (1.1), no contexto de modelos lineares de resposta multivariada analisam-se as relações lineares entre dois conjuntos de variáveis. Estes dois conjuntos de variáveis representam-se por duas matrizes de dados X e Y, que, de um modo geral, se relacionam da forma seguinte:

Y = XB + U, (1.2) em que

Y – matriz das variáveis resposta

X - matriz de variáveis a relacionar com Y B - matriz de parâmetros desconhecidos U – matriz dos Erros.

(15)

A análise das relações lineares entre X e Y é efectuada recorrendo à hipótese de referência. De uma forma muito geral, a hipótese linear de referência pode estabelecer-se como CB = 0 (ver, por exemplo, Morrison, 1990) em que C é designada matriz das restrições da hipótese linear de referência. Neste contexto, a selecção de variáveis pode incidir sobre a matriz X ou sobre a matriz Y, como veremos mais adiante (na secção 1.6).

1.3 Conceitos fundamentais de álgebra linear

Apresentam-se nesta secção alguns conceitos fundamentais de álgebra linear que nos irão servir de apoio ao longo deste trabalho. Consideram-se conhecidas as definições de espaço vectorial ou espaço linear, combinação linear de elementos de um espaço linear (vectores), independência linear desses elementos, base de um espaço linear e dimensão de um espaço linear (ver, por exemplo, Meyer, 2000, capítulo 4). Neste trabalho apenas são considerados espaços lineares de dimensão finita.

1.3.1 Subespaços de um espaço linear. Soma directa

Apresentam-se alguns conceitos fundamentais relativos a subespaços dum espaço linear, tal como a definição de soma directa.

Um subconjunto M dum espaço linear L diz-se um subespaço linear se for fechado para qualquer combinação linear dos seus elementos, i.e., se:

α x + β y ∈ M , ∀x, y ∈ M, α, β∈ _ℝ

Teorema 1.1 Seja L um espaço linear e M, N dois seus subespaços lineares. O conjunto de elementos x ∈ L que se podem escrever como x = x1 + x2 para algum vector x1∈ M e algum vector x2∈ N, constitui um subespaço de L, designado soma de

M e N e representa-se por M + N (Maltsev,1976, cap. II, § 6.1).

Definição 1.1 Seja L um espaço linear e M, N dois seus subespaços. Se cada vector x

∈ M + N tem uma decomposição única como soma de uma parcela em M e uma parcela em N (i.e. uma decomposição única da forma x = x1 + x2 com x1∈ M e x2∈

(16)

N) diz-se que M e N definem uma soma directa do espaço M + N e, habitualmente,

escreve-se M ⊕⊕⊕⊕ N.

Teorema 1.2 Seja L um espaço linear com produto interno e M, N dois seus subespaços. Então L = M ⊕⊕⊕⊕ N se e só se:

1. L = M + N

2. M

∩

N = {0}

(Cadima, 2005, capítulo 1)

Teorema 1.3 Sejam M e N dois subespaços de um espaço linear L, então: dim(L) = dim(M) + dim(N) – dim(M

∩

N)

(Meyer, C., 2000, pág. 205)

Como consequência destes dois teoremas, verifica-se imediatamente que:

Se L = M ⊕⊕⊕⊕ N, então dim(L) = dim(M) + dim(N) (1.3)

1.3.2 Produtos internos, Normas, Distancias, Ângulos

Definição 1.2 Um produto interno (ou escalar) num espaço linear L é uma função . , . : L × L → _ℝ

que satisfaz as seguintes condições: 1. x, y ==== y, x x, y ∀∀∀∀ ∈∈∈∈L 2. αx, y ====α y, x x, y ∀∀∀∀ ∈∈∈∈L, ∀ ∈∀ ∈∀ ∈∀ ∈α _ℝ 3. x + y, z ==== x, z ++++ y z x, y, z , ∀∀∀∀ ∈∈∈∈L 4. x, x ≥≥≥≥0, ∀ ∈∀ ∈∀ ∈∀ ∈x L, com a igualdade se e só se x = 0 Em n

ℝ , o produto interno costuma definir-se como:

1 T x, y x y n i i i x y ==== = = = = = = = =

_∑

(1.4) Definição 1.3 Uma norma num espaço linear L (ou norma vectorial) é uma função:

(17)

. : L →→→→ℝ que satisfaz as seguintes condições:

1. x ≥≥≥≥0 e x = ⇔= ⇔= ⇔= ⇔0 x = 0 x∀ ∈∀ ∈∀ ∈∀ ∈L

2. αx ==== α x x∀ ∈∀ ∈∀ ∈∀ ∈L e ∀ ∈∀ ∈∀ ∈∀ ∈α _ℝ 3. x + y ≤≤≤≤ x ++++ y x, y∀∀∀∀ ∈∈∈∈L

Exemplos de normas vectoriais:

1) Norma l1: ₁ 1 x p i i x = =

∑

2) Norma l2 (ou norma euclidiana)

2 2 1 x n i i x = =

∑

(Meyer, 2000, pág. 274)

Num espaço linear L com produto interno . , . : ,

x ==== x,x ∀ ∈∀ ∈∀ ∈∀ ∈x L (1.5)

define uma norma em L (Meyer, 2000, pág.278).

Em _{ℝ , a norma induzida pelo produto interno habitual é:}n

2 1 x x, x n i i x ==== = = == == = =

_∑

(1.6)

Teorema 1.4 (Cauchy-Buniakovski-Schwarz) Seja L um espaço com produto interno. Então:

. ,

x, y ≤≤≤≤ x y ∀∀∀∀x, y∈∈∈∈L (1.7)

tendo-se a igualdade se e só se y = α x para algum escalar α∈ ℝ .

(Meyer, 2000, pág. 272).

Definição 1.4 Considere um espaço linear L com produto interno ., . . Sejam x, y ∈ L. O cosseno do ângulo (θ) entre x e y define-se como:

(((( ))))

cos . x, y θ x y ==== se x, y ≠ 0 (1.8) (Meyer, 2000, pág. 295).

(18)

Quando x = 0 ou y = 0, o quociente que define o coseno resulta numa indeterminação. O teorema de Cauchy-Buniakovski-Schwarz sugere que essa indeterminação se resolva atribuindo o valor 1 ao cosseno do ângulo entre dois vectores, quando um deles é nulo. Nas aplicações estatísticas, que nos interessam, este problema não é muito relevante, uma vez que vectores nulos corresponderão a observações sempre constantes.

Definição 1.5 Seja L um espaço com produto interno. Dois vectores dizem-se ortogonais se x, y = 0. Nesse caso, escreve-se x ⊥ y.

Desta definição resulta que, para x, y ≠ 0, x ⊥ y ⇔ cos (x,y)=0. Repare-se que a

ortogonalidade depende do produto interno usado.

Definição 1.6 Seja L um espaço com produto interno. Sejam M e N dois subespaços de

L. Os subespaços M e N dizem-se ortogonais (e escreve-se M ⊥ N) se qualquer vector em M é ortogonal a qualquer vector em N.

Teorema 1.5 Seja L um espaço linear com produto interno e seja M um subespaço de

L. Designe-se por M⊥ o conjunto dos vectores de L que são ortogonais a todos os

vectores de M. Então M⊥ é um subespaço linear de L, designado complemento

ortogonal de M em L (Maltsev, 1976, cap. V, § 17.5).

Teorema 1.6 Seja M um espaço linear com produto interno de dimensão n. Então

verificam-se:

1. dim M = n – dim M ⊥

2. M⊥⊥ ====M

(Meyer, 2000, pág. 404)

Definição 1.7 Seja L um espaço linear de dimensão n com produto interno. Uma base

{ }

x 1

n

i i= de L diz-se uma base ortonormada se os vectores da base forem todos:

(19)

2. Ortogonais entre si

((((

x , x_i _j ====0, se i≠≠≠≠ j

))))

Teorema 1.7 Seja L um espaço linear com produto interno e M qualquer subespaço de

L. Então L = M ⊕⊕⊕⊕ M⊥ (Maltsev, 1976, cap. V, § 17.5).

Este teorema estabelece que qualquer vector de L se pode sempre escrever de forma única como a soma de um vector de M e de outro vector de M⊥, i.e., ortogonal ao

primeiro.

1.3.3 Projecções

1.3.3.1 Algumas definições e resultados

Definição 1.8 Sejam L e M espaços lineares. Uma aplicação (transformação) linear A de L em M é uma aplicação que associa a um vector x ∈ L, outro vector A(x) ∈ M, tal que:

A(αx + βy ) = α A(x) + β A(y), ∀x, y ∈L, ∀α, β∈_ℝ Relativamente a uma aplicação linear A pode-se acrescentar que: 1. Se M = L fala-se apenas numa aplicação linear em L.

2. O conjunto das aplicações lineares em L constitui um espaço linear com as operações (A + B)x = Ax + Bx e (αA)x = α(Ax), com α ∈_{ℝ (Meyer, 2000, pág.} 241).

Definição 1.9 Sejam L e M espaços lineares e A uma aplicação linear de L em M. Definem-se dois conjuntos pela aplicação linear A: L → M:

1. O conjunto imagem de A, representado por

R

(A), é o conjunto de elementos de M que são imagens da aplicação A.

2. O núcleo de A, representado por

N

(A), é o conjunto de elementos de L cuja

(20)

Teorema 1.8 Seja L um espaço linear e A uma aplicação linear em L . 1. O conjunto imagem de A é um subespaço de L.

2. O núcleo de A é um subespaço de L. (Meyer, 2000, § 4.2)

Definição 1.10 Seja L um espaço linear e A uma aplicação linear sobre L. A dimensão do espaço imagem diz-se a característica da aplicação A.

Verifica-se que, se L é de dimensão n e o subespaço imagem de A é de dimensão r, então o núcleo de A é de dimensão n - r (Meyer, 2000, §4.2).

Definição 1.11 Uma aplicação linear P diz-se idempotente se P2 = P.

Definição 1.12 Seja L = M ⊕⊕⊕⊕ N. Uma aplicação P que associa a cada z ∈L a sua

componente única em M (i. e., tal que se z = x + y, com x ∈M e y ∈N, se tem Pz = x)

diz-se uma projecção de L sobre M, ao longo de N. Se N = M⊥, diz-se P é a

projecção ortogonal de L sobre M.

Desta definição resulta imediatamente que, se z ∈M então Pz = z

Teorema 1.9 Seja P uma aplicação linear no espaço linear L e I a aplicação identidade. Então:

1. P é uma projecção em L se e só se P é idempotente.

2. Se P é idempotente, P projecta sobre o seu subespaço imagem

R

(P) ao longo do

seu núcleo

N

(P), e I - P (onde I é a aplicação identidade, Ix = x, ∀x∈L) projecta

sobre o núcleo de P, ao longo da sua imagem. (Cadima, 2005, pág.15)

Caso o espaço linear L esteja munido de um produto interno, e sendo M =

R

(P),

verifica-se ainda que se P é uma projecção ortogonal sobre o seu espaço imagem M,

(21)

1.3.3.2 Projecções em _ℝk

As aplicações lineares em _{ℝ correspondem às matrizes (k}k ×k). Representa-se por

× k k

M o conjunto destas matrizes. Assim a cada aplicação linear (admitindo que se convenciona trabalhar com as bases canónicas,

{{{{ }}}}

1 e_i k

i==== onde ei é um vector de k

ℝ , com

1 na i-ésima posição e os restantes elementos iguais a zero) corresponde uma matriz A

∈Mk k× . Pela caracterização feita anteriormente de projecções, as projecções em

k

ℝ

correspondem a matrizes idempotentes. Caracteriza-se a seguir as matrizes de projecção ortogonal nos espaços lineares _{ℝ . Assim as matrizes de projecção ortogonal em}k _ℝk são as matrizes simétricas (AT = A) e idempotentes (A2 = A) de M_{k k}_× . Começa-se por estabelecer o resultado seguinte:

Teorema 1.10 Seja ℝk = M ⊕ M⊥, em que M é um subespaço de dimensão r. Considere o produto interno habitual em ℝ . Seja B uma matriz (kk ×r) cujas r colunas

formam uma qualquer base de M. Então, a matriz P de projecção ortogonal sobre M tem a forma seguinte:

( )

_T -1 _T

P = B B B B (1.9) (Meyer, 2000, pág. 430)

Nota 1.1:

1. Verifica-se facilmente que P é simétrica e idempotente.

2. Pode-se utilizar qualquer base de M, pelo que a matriz B não é única, mas o

produto

( )

T -1 T

B B B B é único.

3. No caso de se escolher uma base ortonormada do subespaço M sobre o qual se projecta, então as colunas de B são ortonormadas e pode escrever-se PB = BBT.

4. Seja y ∈ _{ℝ um vector e M um subespaço linear r-dimensional de}k _{ℝ com uma}k base constituída pelas colunas da matriz B. A projecção ortogonal de y sobre M (com o produto interno habitual) é o vector:

ˆy =

( )

T -1 T

(22)

Exemplo 1.1:

Seja M o subespaço de n

ℝ gerado por p variáveis

{{{{ }}}}

x_i p₁

i==== e y um vector de n

ℝ .

Obtém-se então a matriz X, cujas p colunas (centradas) são formadas pelas n

observações das variáveis

{{{{ }}}}

x_i _ip₌₌₌₌₁. Então:

ˆy = X(XTX)-1XTy (1.11) é a projecção ortogonal do vector y sobre M. Como é sabido ˆy é dado pelos valores ajustados da variável resposta y obtidos a partir do conjunto de variáveis preditoras

{{{{ }}}}

x 1 p i i==== . A matriz

(

_T

)

-1 _T X P = X X X X (1.12) representa assim a matriz de projecção ortogonal sobre o subespaço M gerado pelas p

variáveis

{{{{ }}}}

x_i _ip₌₌₌₌₁. A matriz (I - PX) representa a projecção ortogonal sobre M⊥⊥⊥⊥, sendo o vector dos resíduos y - ˆy dado por:

(

)

ˆ _X _X

y - y = y - P y = I - P y (1.13)

Teorema 1.11 Seja P uma matriz de dimensão (n × n). Então P é matriz de projecção

ortogonal sobre algum espaço de _{ℝ se e só se P é uma matriz simétrica e idempotente.}n (Cadima, 2005, pág. 19)

1.3.3.3 Decomposição ortogonal de uma matriz real.

Apresenta-se de seguida um resultado que é válido para qualquer para qualquer matriz real.

Teorema 1.12 Para qualquer matriz real A(m ×n), verifica-se:

1.

(((( ))))

T e

(((( ))))

T A ⊥ ==== A A ⊥ ==== A

R

N

R

2. _ℝm====

R

(((( ))))

A ⊕⊕⊕⊕

R

(((( ))))

A ⊥ ====

R

(((( ))))

A ⊕⊕⊕⊕

N

(((( ))))

AT 3. _ℝn ====

N

(((( ))))

A ⊕⊕⊕⊕

N

(((( ))))

A ⊥ ====

N

(((( ))))

A ⊕⊕⊕⊕

R

(((( ))))

AT (Meyer, 2000, pág. 405)

(23)

1.3.3.4 Projecções em subespaços encaixados

Considere-se agora o caso de projecções de vectores sobre subespaços encaixados

noutros subespaços, ou seja subespaços contidos noutros subespaços. Apresentam-se a seguir dois resultados relativos a projecções sobre subespaços encaixados.

Teorema 1.13 Considere L um subespaço linear de _{ℝ , e M um subespaço próprio de}n

L (logo de n

ℝ ). Sejam

P

Le PMas matrizes de projecção ortogonal sobre L e M, respectivamente. Designe por PL⊥ e PM⊥ as matrizes de projecção ortogonal sobre os complementos ortogonais de L e M. Então tem-se:

1. P P = P PL M M L = PM. 2. P PL M⊥ = PM⊥PL = P -PL M. 3. P P = P PM _L⊥ _L⊥ M = 0. 4. P P_L⊥ _M⊥ = P_M⊥P_L⊥ = P_L⊥.

(Cadima, 2005, pág. 21)

Teorema 1.14 Considere L um subespaço próprio de _{ℝ , e M}n ⊂ L um seu subespaço próprio. Seja Q = L

∩

M⊥. Designa-se por PLe PMas matrizes de projecção ortogonal sobre L e M, respectivamente. Então tem-se:

1. Q e M são ortogonais.

2.

L

=

M

⊕

Q

.

3. A matriz de projecção ortogonal sobre o subespaço Q é P - PL M. (Cadima, 2005, pág. 22)

1.4 Conceitos fundamentais de teoria das matrizes

Apresenta-se nesta secção uma breve descrição de algumas noções fundamentais sobre teoria das matrizes que servem de apoio aos conceitos estatísticos apresentados ao longo do trabalho. Começa-se por referir na secção 1.4.1 alguns resultados gerais, na secção 1.4.2 apresentam-se os valores próprios e vectores próprios, na secção 1.4.3 referem-se

(24)

algumas propriedades das matrizes simétricas, na secção 1.4.4 abordam-se as normas matriciais, na secção 1.4.5 apresenta-se a decomposição em valores singulares e, finalmente, na secção 1.4.6 apresentam-se as variâncias e correlações parciais

1.4.1 Alguns resultados gerais

Apresentam-se nesta secção alguns resultados muito gerais relativos à teoria das matrizes. Consideramos apenas matrizes reais. Assim:

1) Seja M_{n k}_× o conjunto de todas as matrizes de ordem (n × k). M_{n k}_× constitui um espaço linear para as operações habituais de soma de duas matrizes de ordem (n ×k)

e multiplicação de um número real por uma matriz de ordem (n ×k).

2) O produto das matrizes A e B só é possível para matrizes em que o número de colunas de A é igual ao número de linhas de B e não é comutativo

3) Se a matriz B = b é um vector coluna, então o produto Ab é uma combinação linear

das colunas da matriz A, em que os coeficientes da combinação linear são os elementos do vector b. Caso as colunas de A sejam linearmente independentes, equivale a dizer que se Ab = 0, então b = 0 .

4) Analogamente se a matriz A = aT for um vector linha, então o produto aTB é uma combinação linear das linhas da matriz B, em que os coeficientes da combinação linear são os elementos do vector a. Caso as linhas de B sejam linearmente independentes, equivale a dizer que se a B = 0T , então a = 0 .

Seja A uma matriz quadrada (p ×p):

5) A-1 é a matriz inversa de A se A-1 A = A A-1= Ip, em que Ip é a matriz identidade (p ×p). Nem sempre existe a inversa, mas quando existe, a inversa é única.

6) A é matriz ortogonal se A-1 = AT, em que AT representa a transposta da matriz A. 7) A é idempotente se A2 = AA = A.

Seja

A

_p_×_puma matriz simétrica e x um vector não nulo de p

ℝ .

8) A é uma matiz definida positiva se:

{ }

0,

T

x Ax

>

x

∀ ∈

R

p

−

0

(1.14) Nota 1.2:

x Ax

T diz-se uma forma quadrática.

(25)

{ }

0,

T

x Ax

≥

x

∀ ∈

R

p

−

0

(1.15)

Definição 1.13: O traço de uma matriz quadrada é a soma dos seus elementos

diagonais: tr(A) = 1 p ii i

a

=

∑

(1.16) Sejam as matrizes A(p ×p) , B(p ×p), C(p ×n) e D(n ×p) Verifica-se facilmente que o

traço de uma matriz verifica as seguintes propriedades (ver, por exemplo, Mardia et. al, 1980, pág. 456):

1) O traço de uma matriz é um operador linear, ou seja, tr

(

α

A + B

β

)

= α tr

( )

A

+ β tr

( )

B

, com α e βε

_ℝ

.

2) Circularidade do traço, ou seja,

tr(CD)=tr(DC)= 1 1 p n ij ji i j c d = =

∑∑

. (1.17) 3) Como caso especial de 2) tem-se:

( ) ( )

2 1 1 tr CCT tr C CT p n ij i j c = = = =

∑∑

(1.18)

Definição 1.14: O determinante de uma matriz quadrada A de ordem n, que se

representa por

A

, ou det(A), é um escalar dado por:

( )

1 1 2 2 det A ... n p p np p p a a a σ =

_∑

(1.19) em que a soma é tomada relativamente a n! permutações p=

(

p p1, 2, ... ,pn

)

de (1, 2, …,

n). Cada um dos termos

1 2

1p, 2p , ..., np_n

a a a de (1.19) contém exactamente um elemento de

cada linha e cada coluna da matriz A.

σ

( )

p representa o sinal da permutação e toma os valores +1 e -1. Para mais pormenores ver, por exemplo, Meyer (2000), pág. 461.

Definição 1.15: A característica de uma matriz é o número de linhas (ou colunas) linearmente independentes da matriz. A característica de uma matriz A costuma representar-se por r(A).

(26)

1.4.2 Valores próprios e vectores próprios

Definição 1.16: Seja A uma matriz (k × k). Um vector x ∈ ℝ tal que: k

Ax = λ x (1.20) para algum escalar λ ∈ _{ℝ , diz-se um vector próprio da matriz A. O escalar}λ diz-se o

valor próprio associado a x.

Nota 1.4:

1) Os valores próprios duma matriz A são as raízes do seu polinómio característico: det(λIk – A) = 0. Este polinómio característico é um polinómio de ordem k em λ

(sendo a matriz A de dimensão k × k). Por isso, uma matriz quadrada de ordem k, tem k valores próprios (reais ou complexos), embora alguns possam ser iguais (ou seja o polinómio característico pode ter raízes repetidas).

2) Se x (vector não nulo) é vector próprio de A, então γx, em que γ é um escalar não nulo, é também vector próprio de A [pois A(γx) = λλλλ(γx)]. É usual admitir implicitamente que os vectores próprios têm norma um (estão normalizados).

3) Os valores próprios costumam ordenar-se decrescentemente:

λmax = λ1≤λ2≤ ... ≤λn-1≤λn =λmin

O conjunto de todos os valores próprios de A designa-se o seu espectro.

1.4.3 Matrizes Simétricas

Aborda-se nesta secção o caso particular de matrizes simétricas. Tal deve-se ao facto de, ao longo do trabalho, frequentemente se recorrer a este tipo de matrizes. Por exemplo qualquer matriz de variâncias/covariâncias (ou de correlações) é uma matriz simétrica. Se A é matriz simétrica podem estabelecer-se algumas propriedades adicionais para os seus valores próprios e vectores próprios:

1) Todos os seus valores próprios são reais.

2) Vectores próprios correspondentes a valores próprios distintos são sempre ortogonais (Horn & Johnson, 1985).

(27)

Seja A uma matriz simétrica e sejam (λi, ci) valores/vectores próprios de A (com λmax = λ1≤λ2≤ ... ≤λn-1≤λn =λmin). Então:

(

)

max 1 1 max max T T T T x 0 x x= x Ax x Ax x x

λ

≠ = = =

(

)

min 1 min min T T T T x 0 x x= x Ax x Ax x x n

λ

≠ = = =

Teorema 1.16: Seja A uma matriz simétrica do tipo k × k. Então:

1. A é definida positiva se e só se todos os valores próprios de A são positivos.

2. A é semi-definida positiva se e só se todos os valores próprios de A são

não-negativos (e pelo menos um é zero).

Demonstração: Da equação (1.20) tem-se Ax = λ x. Multiplicando à esquerda por xT ambos os membros desta igualdade vem xTAx = xTλ x = λ xTx. Como xTx é sempre positivo para x não nulo, o sinal de xTAx (ou o facto de poder ser nulo) só depende de

λ, o valor próprio respectivo.  1.4.3.1 A Decomposição Espectral

Teorema 1.17 Seja A matriz quadrada (p×p) e designe-se por λi um seu valor próprio a

que corresponde o vector próprio normalizado pi:

Api= λi pi , com i = 1,2, ..., p

Seja P a matriz cuja i - ésima coluna é pi, e ΛΛΛΛ a matriz diagonal diag( λ1 , λ2 ,... ,λp),

então podemos escrever as p equações anteriores na forma AP = PΛΛΛΛ. Como P é matriz ortogonal, e multiplicando à direita por PT vem:

A = P ΛΛΛΛ PT ⇔ A = 1 p i i

λ

====

∑

pi piT, (1.21)

que representa a decomposição espectral da matriz A (Horn & Johnson, 1985, pág. 171).

Nota 1.5:

1) Se A é uma matriz simétrica então tem-se que A2 = P ΛΛΛΛ2 PT, dado que P é uma matriz ortogonal. De um modo geral verifica-se facilmente que:

(28)

Ak = P ΛΛΛΛk PT para k inteiro e positivo (1.22) 2) Se A é uma matriz simétrica então o traço da matriz A (Definição 1.13) é igualmente dado pela soma dos seus valores próprios. Efectivamente, da equação (1.21) tem-se tr(A) = tr(P ΛΛΛΛ PT ), pela circularidade do traço tr(A) = tr(P PTΛΛΛΛ) = tr(ΛΛΛΛ), pois P é uma matriz ortogonal e tr(ΛΛΛΛ) é a soma dos valores próprios de A.

1.4.3.2 Matrizes Definidas Positivas

De entre as matrizes simétricas, as matrizes definidas positivas são de grande importância, justificando-se apresentar algumas das suas propriedades que se consideram mais importantes:

1) Qualquer submatriz de uma matriz definida positiva é definida positiva, a soma de quaisquer duas matrizes definidas positivas da mesma ordem é definida positiva e os valores próprios de matrizes definidas positivas são sempre positivos (Horn & Johnson,1985, págs. 397 e 398).

2) Se A é uma matriz definida positiva, então tem-se que A-1 = P ΛΛΛΛ-1 PT. 3) Se A é uma matriz definida positiva pode escrever-se:

Ak = P ΛΛΛΛk PT para k real. (1.23) 4) A é uma matriz definida positiva se e só se existe pelo menos uma matriz X (m × k), de característica k < m, tal que: A = XTX. (Meyer, 2000, pág. 559).

Esta última propriedade vem garantir que qualquer matriz de variâncias/covariâncias (ou de correlações) é uma matriz definida positiva (não havendo colinearidade, pois admitimos que X tinha característica p). Em contrapartida, qualquer matriz definida positiva será uma matriz de variâncias-covariâncias (ou de correlações) para algum conjunto de dados.

1.4.4 Normas Matriciais

Definição 1.17 Uma norma matricial num espaço das matizes de ordens finitas M é uma função:

(29)

que satisfaz as seguintes condições:

1. A ≥≥≥≥0 e A = ⇔= ⇔= ⇔= ⇔0 A = 0 A∀ ∈∀ ∈∀ ∈∀ ∈M

2.

α

A ====

α

A A∀ ∈∀ ∈∀ ∈∀ ∈M e ∀ ∈∀ ∈∀ ∈∀ ∈

α

_ℝ

3. A + B ≤≤≤≤ A ++++ B A, B ∀∀∀∀ de igual dimensão 4. AB ≤≤≤≤ A . B para todas as matrizes compatíveis

Define-se agora em M, o habitual produto interno matricial:

A, B = tr(ATB) (1.24) Com M equipado com este produto interno, obtém-se a norma matricial induzida por este produto interno:

(

T

)

A = tr A A (1.25) Podemos agora definir o cosseno do ângulo entre duas matrizes A e B. De acordo com (1.8) obtém-se:

(

)

( )

(

) ( )

cos . T T T tr A B A, B A, B = A B = _{tr A A} _×_{tr B B} (1.26)

De modo idêntico à Definição 1.5, duas matrizes dizem-se ortogonais entre si, se A, B = 0, escrevendo-se A ⊥ B. Tal como para o caso de dois vectores, também aqui se tem que:

Para A, B ≠ 0, A ⊥ B ⇔ cos (A, B) = 0 (1.27) A ortogonalidade entre duas matrizes depende igualmente do produto interno usado.

1.4.5 A Decomposição em Valores Singulares

Apresenta-se nesta secção a decomposição em valores singulares (DVS). Esta decomposição é válida para qualquer tipo de matrizes. Com base nesta decomposição apresenta-se a definição de inversa generalizada e um resultado que permite obter a melhor aproximação de uma matriz rectangular, por outra matriz de igual dimensão, mas de característica inferior, no sentido de minimizar a soma dos quadrados das diferenças entre os correspondentes elementos de cada uma das matrizes.

(30)

X = W ∆∆∆∆ VT ⇔ X = 1 T r i i i i

w v

δ

=

∑

(1.28) em que:

∆rxr - matriz diagonal de valores diagonais positivos ordenados de forma decrescente

Vpxr e Wnxr - matrizes de colunas ortonormadas (VTV = Ir = WTW ).

δ

i – i-ésimo elemento diagonal de ∆∆∆∆ (Valores Singulares).

wi - i-ésima coluna de W (Vectores Singulares Esquerdos).

vi - i-ésima coluna de V (Vectores Singulares Direitos).

(ver, por exemplo, Jolliffe, 2002)

Nota 1.6:

1) Esta decomposição é válida para qualquer matriz e não apenas para matrizes simétricas como a decomposição espectral. A decomposição em valores singulares duma matriz definida positiva equivale à sua decomposição espectral (ver Horn & Johnson (1985), pág. 417 ).

2) Esta decomposição tem sido apresentada por outros autores de forma ligeiramente diferente (ver, por exemplo, Horn & Johnson, 1985 ou Meyer, 2000). Efectivamente estes autores consideram as matrizes Vpxp e Wnxn e a decomposição em valores

singulares é dada da forma seguinte:

0

0 0

T

X = W_∆ _V

  (1.29)

Ou seja, nesta decomposição, são acrescentados a X, p-r valores singulares zero.

1.4.5.1 Inversa Generalizada de Moore-Penrose

Definição 1.18: Seja A uma matriz (n×p) de característica r, com DVS A = W ∆∆∆∆ VT. Define-se Inversa Generalizada de Moore-Penrose de A e representa-se por A−−−−, a matriz:

A−−−− = V ∆∆∆∆-1WT (1.30) (Horn & Johnson, pág. 421, com a ressalva indicada na Nota 1.6).

Nota 1.7: Como ∆∆∆∆ é matriz diagonal, a sua inversa é também diagonal, sendo os seus elementos diagonais, os inversos aritméticos da matriz dada. O nome inversa vem do

(31)

facto de que se A for não singular então a inversa generalizada de Moore-Penrose coincide com A-1. A inversa generalizada existe, quer para matrizes quadradas singulares, quer para matrizes não-quadradas e goza das propriedades seguintes :

a) (AA−) e (A−A) são matrizes simétricas.

b) AA−−−−A = A (1.31) c) A−−−−A A−−−− = A−−−− (1.32)

(Horn & Johson (1985), pág. 421).

1.4.5.2 Teorema de Eckart – Young

Teorema 1.19: Seja Xn×p uma matriz de característica k e a sua DVS X = W ∆∆∆∆ VT.

Sejam Wm e Vm as matrizes que consistem das colunas associadas aos m maiores

valores singulares de W e V, respectivamente e seja ∆∆∆∆m a matriz diagonal de tipo m × m

resultante de reter apenas as primeiras m linhas e colunas de ∆∆∆∆ associadas aos m maiores valores diagonais. A matriz Yn × p de característica m<k que melhor aproxima X, no

sentido de minimizar a soma dos quadrados das diferenças entre os correspondentes elementos de X e Y obtém-se da seguinte forma:

Y =

W ∆ V

m m mT

(Golub & Loan, 1996, § 2.5.5).

Nota 1.8: 1) Y =

W ∆ V

_m _m _mT é uma DVS de Y 2) Usando a forma X = 1 T k i i i i

w v

δ

=

∑

, Y corresponde a reter apenas as primeiras m

parcelas desta soma.

1.4.6 Variâncias e Correlações Parciais

Seja X uma matriz constituída por p colunas, correspondendo cada coluna a n observações em cada uma das p variáveis (centradas). Considere-se as p variáveis divididas em dois grupos (q e p-q). Represente-se por X = [X1 | X2], sendo X1 a matriz

(32)

que agrupa as primeiras q colunas e X2 a matriz agrupando as últimas p-q colunas. Nesse caso S = 1X XT n = 11 12 21 22 S S S S      

em que S11, S22 são as matrizes de variâncias-covariâncias de cada subgrupo e S12 = 21

T

S é a matriz das “covariâncias cruzadas” entre cada variável do grupo 1 e cada variável do grupo 2. Considerem-se agora os resíduos da regressão de cada variável do 1º grupo sobre as (p - q) variáveis do 2º grupo. As variâncias, covariâncias e correlações desses vectores de resíduos designam-se as variâncias, covariâncias e correlações parciais das

variáveis X1, dadas as variáveis X2.

A matriz das variâncias-covariâncias parciais de X1, dadas as variáveis X2 é dada por:

1 11.2 11 12 22 21 S =S −S S S− , (1.33) pois X ( I - P₁T 2 ) X1 = 1 T X ( I - X2 ( 2 T X X2 )-1 2 T X ) X1 = 1 T X X1 - 1 T X X2( 2 T X X2 )-1 2 T X X1.

De forma idêntica a matriz das variâncias-covariâncias parciais de X2, dadas as

variáveis X1, é dada por:

1 22.1 22 21 11 12

S =S −S S S− (1.34)

1.5 Conceitos fundamentais sobre relações de ordem

Apresentam-se nesta secção conceitos fundamentais sobre relações de ordem. Abordam-se fundamentalmente relações de ordem estrita parcial e relações de ordem total. Estas relações de ordem definem-se ainda nesta secção. Em toda a secção é seguida a terminologia apresentada em Schreider (1975). Começa-se por definir relação binária e relação de ordem não estrita.

Definição 1.19: Considere-se um conjunto finito e não-vazio M e o produto cartesiano

M × M, ou seja todos os pares ordenados da forma (x, y), em que x e y são elementos de M. Chama-se Relação ou Relação binária (A) no conjunto M, a qualquer subconjunto

×

M M

⊆

A

. Se (x, y) ∈

A

escreve-se xAy, e diz-se que x está relacionado com y através de A, ou (x, y) verifica a relação A.

(33)

Definição 1.20: Seja M um conjunto finito e não-vazio. Uma relação de ordem não

estrita define-se como uma relação binária A definida no conjunto M tal que, para

quaisquer x e y ε M, se verificam as seguintes propriedades: i) xAx (Reflexiva),

ii) Se xAy e yAx então x = y (Anti-Simétrica), iii) Se xAy e yAz então xAz (Transitiva).

Um conjunto M equipado com esta relação de ordem A diz-se um conjunto ordenado

com uma ordem não estrita e representa-se habitualmente pelo par ordenado (M, A).

Nota 1.9: Exemplos de conjuntos ordenados com ordem não estrita: a) ( R ,≤) , em que ≤ tem o sentido habitual de “menor ou igual a” em R . b) (R , ), em que “ ” é definida em n Rn, da seguinte forma:

Sejam x e y elementos de Rn, de componentes (x1, x2, …, xn) e (y1, y2, …, yn).

Diz-se que x y, se e só se x1 ≤ y1, x2 ≤ y2, … , xn ≤ yn

Nota 1.10

1) A relação “<” com o sentido habitual de “menor que” em R , não define uma ordem não estrita em R , pois a relação “<” não é reflexiva.

2) Considere-se a relação “_≺” definida em Rn da seguinte forma:

Sejam x e y dois elementos de Rn, então x _≺ y, se e só se x1 < y1 , x2 < y2, … , xn

< yn. Facilmente se verifica que esta relação não é reflexiva, pelo que a relação ≺

não define uma ordem não estrita em Rn.

Passa-se de seguida à definição de relação de ordem estrita e de maximal para a relação de ordem estrita.

Definição 1.21: Uma relação de ordem estrita (ou estrita parcial) A definida num conjunto M finito e não vazio é uma relação binária em M que verifica as seguintes propriedades:

i) xAx não se verifica para qualquer elemento x de M (Anti-reflexiva),

ii) Se xAy e yAz então xAz (Transitiva).

(34)

Se xAy então não se verifica yAx (Anti-simétrica). Efectivamente, verificando-se xAy e

yAx em simultâneo, então pela propriedade transitiva verificar-se-ia xAx, o que

contradiz i). Como exemplos de relações de ordem estrita: a) A relação de ordem habitual “<” definida em R .

b) A relação de ordem “_≺” como foi definida na Nota 1.10

Nota 1.11: A relação de ordem “≺” tal como foi definida na Nota 1.10 é por vezes (ver, por exemplo, Steuer, 1987) designada uma relação de dominância (domination em

inglês). Assim se x ≺ y diz-se que y domina x ou x é dominado por y.

Definição 1.22: Seja “_≺” uma relação de ordem estrita definida num conjunto M finito e não-vazio. Então um elemento x∈M diz-se um maximal no conjunto ordenado (M, _≺), se não existir outro elemento y∈M, tal que x _≺ y (ou, utilizando a terminologia da Nota

1.11, x não for dominado por nenhum outro elemento y de M).

Nota 1.12

1) Num conjunto ordenado (ou parcialmente ordenado) poderão existir pares de elementos (x, y) que não satisfaçam nenhuma das relações x_≺y ou y_≺x. Estes

elementos dizem-se não-comparáveis. Assim, de forma equivalente e de acordo com a Nota 1.11, diz-se que x e y são não-comparáveis se nem x domina y, nem y

domina x.

2) O facto de um elemento x∈M ser um maximal não significa que satisfaça a relação

(y_≺x) para qualquer y∈M. Um maximal também é por vezes designado como solução eficiente ou óptimo de Pareto (ver, por exemplo, Steuer, 1987).

Definição 1.23: Uma relação de ordem A definida num conjunto M, diz-se uma Ordem

total se, para quaisquer dois elementos distintos x, y ∈ M, se verifica ou xAy ou yAx. Um conjunto M equipado com esta relação de ordem diz-se um conjunto totalmente ordenado.

Nota 1.13:

1) ( R ,≤) e ( R , <) são conjuntos totalmente ordenados.

2) (Rn,_≺) não é um conjunto totalmente ordenado. Efectivamente a relação “_≺” definida em Rn(ver Nota 1.10) não é uma relação de ordem total. Sejam x e y

(35)

elementos de Rn, de componentes (x1, x2, …, xn) e (y1, y2, …, yn) respectivamente.

Se : y∃i _i <x_i e : ∃j x_j < y_j não se verifica nem x _≺ y nem y _≺ x. A relação “_≺” é apenas uma relação de ordem estrita parcial em Rn.

Vejamos agora dois resultados estabelecidos para um conjunto M finito e não-vazio equipado com uma relação de ordem total. Os dois teoremas seguintes são apresentados e demonstrados em Schreider, 1975.

Teorema 1.20: Seja “_≺” uma ordem total definida num conjunto M não-vazio. Então existe um e um só elemento x de M, tal que, para qualquer y de M, não coincidente com

x, a relação y _≺ x se verifica sempre. Este elemento designa-se como o máximo do

conjunto totalmente ordenado (M , ≺).

Teorema 1.21: Seja “_≺” uma relação de ordem total definida num conjunto M finito e não-vazio. Então é possível escolher uma enumeração, M = {x1, x2, ... , xn}, tal que a

relação xi ≺ xj se verifica se e só se i < j.

Nota 1.14: Com o Teorema 1.21 estabelece-se que qualquer ordem estrita total num conjunto M finito e não vazio, é equivalente à ordem habitual no subconjunto dos naturais 1, 2, … , #M.

1.6 Alguns Métodos de Análise Multivariada

Apresentam-se nesta secção alguns dos métodos de Análise Multivariada que mais aparecem ligados aos contextos do presente trabalho.

1.6.1 Análise em Componentes Principais

O objectivo fundamental da Análise em Componentes Principais (ACP) é substituir as p variáveis observadas da matriz de dados observados X, por novas variáveis: as componentes principais (CPs), que são não correlacionadas entre si e de tal forma que sucessivas CPs retenham o máximo da variabilidade possível presente em todas as variáveis observadas. As CPs são habitualmente ordenadas por ordem decrescente de variância dos n indivíduos quando projectados nessas novas variáveis (as CPs).

(36)

1.6.1.1 Determinação das Componentes Principais

Seja X a matriz de dados observados e represente-se por x1, x2, ..., xp cada uma das

colunas de X, ou seja cada uma das p variáveis originais. Procuram-se então combinações lineares das variáveis originais de variância máxima. Assim, a primeira CP é uma combinação linear X

αααα

1 dos elementos de X com variância máxima, ou seja,

αααα

1 é um vector de p constantes

α

11,

α

21, ...,

α

p1, tal que

X

αααα

1 = x1

α

11 + x2

α

21 + . . . + xp

α

1p = p j 1 j j 1

α

=

∑

x tenha var[X

αααα

1] = 1 T

αααα

S

αααα

1máxima. Sem outras condições, o problema não teria solução,

pois quanto maiores os coeficientes

αααα

, maior é a variância. Exige-se então que

αααα αααα

₁T 1= 1

(soma dos quadrados dos elementos de

αααα

1seja igual a 1). Pelo Teorema 1.15 (Teorema

de Rayleigh-Ritz)

αααα

1 é o vector próprio correspondente ao maior valor próprio de S, e a

variância da combinação linear (CP) é o maior valor próprio de S, que habitualmente se designa por λ1. Para obter a segunda CP procede-se de forma análoga com a restrição

ulterior

α

₂TS

αααα

1= 0 (as CPs serem não correlacionadas) equivalente a

T 2

α αααα

1= 0 (já que T 2

α

S

αααα

1 = λ1 T 2

α αααα

1). A solução é T 2

α

x, sendo

αααα

2 o vector próprio correspondente ao

segundo valor próprio mais elevado de ΣΣΣΣ, λ2= var( T 2

α

x) . De um modo geral a k-ésima CP de x é

α

_kTx, onde

αααα

k é o vector próprio correspondente ao k-ésimo valor próprio

mais elevado de S, e λk = var(

α

_kTx). Ou seja, representando as sucessivas CP’s por z1,

z2, ... , zp , temos z1 = T 1

α

x , z2 = T 2

α

x , ..., zp = T p

α

x, ou na forma matricial Z = XA, (1.35) em que as colunas de A são formadas pelos vectores

αααα

1,

αααα

2, ... ,

αααα

p ortogonais entre si, e

de norma 1. A matriz A é assim uma matriz ortogonal, sendo a transformação linear definida pela matriz A, designada por transformação linear ortonormal (ver, por exemplo, Kurosh,1973).

A coluna i da matriz A representa os coeficientes (loadings em inglês) da i-ésima CP, em cada uma das p variáveis. O produto XA é uma matriz de ordem (n × p), cujas p colunas representam os valores dos indivíduos (scores em inglês) em cada uma das p CP’s. Num contexto descritivo podem-se equiparar estas colunas às p CP’s.

(37)

1.6.1.2 A ACP como técnica de redução de dimensionalidade

Através das componentes principais consegue-se uma redução óptima de dimensionalidade, no sentido de se identificar um subespaço de dimensão k, que ao servir de alvo numa projecção ortogonal dos indivíduos observados minimiza a perda de variabilidade. Não existe outro subespaço de dimensão k, onde através da projecção ortogonal dos indivíduos se consiga menor perda de variabilidade. Deste modo, a soma das variâncias das k primeiras CP’s constituem um limite superior para a soma das variâncias de qualquer subconjunto de k variáveis observadas. Portanto a Análise de Componentes Principais resolve em certo sentido o problema de redução de dimensionalidade. Preserva, numa dimensão inferior, a maior variabilidade possível existente num conjunto de dados multivariados (para pormenores, ver, por exemplo, Jolliffe, 2002, secção 6.3). No entanto a redução de dimensionalidade através das CP’s apresenta duas grandes limitações:

1) Sendo variáveis definidas como combinação linear de variáveis observadas, a sua natureza e significado são normalmente difíceis de interpretar.

2) Uma só CP é combinação linear da totalidade das variáveis observadas, não constituindo por isso uma verdadeira redução de dimensionalidade em termos de

variáveis observadas.

1.6.2 Regressão Linear Múltipla

Seja y um vector de n observações e X (n × p) uma matriz de dados constituída pelas n observações em cada umas das p variáveis que constituem as colunas de X. Estas p variáveis são fixas e admite-se que são linearmente independentes. O modelo de Regressão Linear Múltipla, que relaciona y com X é dado por:

y = X b + u (1.36) em que:

y (n) variável resposta.

X (n × p) matriz cujas p colunas constituem as variáveis preditoras b (p) vector de p parâmetros desconhecidos.