• Nenhum resultado encontrado

METODOS ESTATISTICOS MULTIVARIA'DOS UMA INTRODUÇAO ~ k:t...'ós~t~l1\$ '1i!~\t)108Y, 1ft. L~:rêl,n1'I,~Wy:()'!

N/A
N/A
Protected

Academic year: 2021

Share "METODOS ESTATISTICOS MULTIVARIA'DOS UMA INTRODUÇAO ~ k:t...'ós~t~l1\$ '1i!~\t)108Y, 1ft. L~:rêl,n1'I,~Wy:()'!"

Copied!
10
0
0

Texto

(1)

, .' i" .., zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA W~~t,,'l1\k:t...'ÓS~t~l1\$zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA'1i!~\t)108Y, 1ft . L~:rêl,n1'I,~Wy:()'!Hil')~USA

.--METODOS

.--ESTATISTICOS

MULTIVARIA'DOS

UMA

INTRODUÇAO

--

---

~---Tradução:

Sara [anda Correa Carrnona

Consu lto ria, supervisão e revisão técnica desta edição: Carlos Tadeu dos Santos Dias

Doutor em E:-.té1tÍStiC8 Experi.ncntai Agronômica pela USP Pós-Doutor pela Universitv (}f Exeter, Inglaterra

r!~-,it>s~o;Associado .ia Escola Superiorde !\gri(ultura "Luiz deQueiroz" -- ES,:l.L(2/USP

1..E5tat1stica. r Titulo. lSBl\ ':178-85-7780-1&.')-5

(2)

o

objetivo deste livro é introduzir métodos estatísticos multivariados para quern não tem formação em matemática. Ele não pretende ser um livro-texto detalhado. Ao contrário, a intenção éque sirva como um guia prático para ilustrar as possi-bilidades da análise estatística multivariada. Em outras palavras, éum livro para "fazer você ir adiante" em uma determinada área de métodos estatísticos.

Assume-se que os leitores tenham um conhecimento prático de estatística

elementar, incluindo testes de significância usando a distribuição normal,zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAt, qui-quadrado eF;análise de variância e regressão linear. Omaterial coberto em um

primeiro ano de um curso universitário típico em estatística deve ser bastante adequado a este respeito. Algum conhecimento de álgebra também é necessário para seguir as equações em certas partes do texto.

A compreensão da teoria de métodos multivariados requer conhecimento de

álgt'hra matrir-ial, Fntn>taptn. ;:lf!l'<Jnt1Cl<'lrlp npc:e.:::,,::íri<'lnqn é?:",;mrlp .:::e'"lo;l1n<::zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

rlp-talhes forem simplesmente aceitos A álgebra matricíal é resumida no Capítulo 2, e quem dominar esse capítulo terá uma razoável competência nesta área.

Uma das razões pelas quais métodos multivariados estão sendo usados com tanta freqüência em nossos dias é o pronto acesso a pacotes computacionais para fazer os cálculos. De fato, acesso a software computacional adequado é essencial se os métodos devem ser usados. No entanto, os detalhes do uso de pacotes com-putacionais não são enfatizados neste livro porque existem muitos destes pacotes disponíveis. Seria impossível discutir todos eles, e seria muito restritivo concen-trar em um ou dois deles. A abordagem escolhida foi a de mencionar qual pacote foi usado no exemplo quando isso for apropriado. Além disso, o Apêndice dá informação sobre alguns dos pacotes em termos de quais análises estão dispo-níveis e da facilidade de uso dos programas por alguém que seja relativamente inexperiente em fazer análise multivariada.

Até certo ponto, os capítulos podem ser lidos de forma independente. Os pri-meiros cinco são leituras preliminares, focalizando principalmente em aspectos gerais de dados multivariados ao invés de técnicas específicas. O Capítulo 1 in-troduz dados para vários exemplos usados para ilustrar a aplicação de métodos analíticos ao longo do livro. O Capítulo 2 cobre álgebra matricial e o Capítulo 3 discute várias técnicas gráficas. No Capítulo 4 são discutidos testes de

significãn-Lia. e of duvluct d~ medidas de "distâncias" relativas entre objetos baseadas em variáveis medidas sobre estes objetos. Esses capítulos devem ser revistos antes c'.,s Capítulos de 6 a 12, que cobrem os procedimento.' multivariados mais im-portantes usados atualmente. O capítulo final contém alguns comentários gerais sobre a análise de dados multivariados.

Os capítulos nesta terceira edição do livro são os mesmos dos da segunda edi-ção. As mudanças apresentadas são aatualização das referências, alguns novos

(3)

exemplos, alguns exemplos implementados usando novos softwares cornputacio-nais e mudanças no texto para refletir novas idéias sobre análise multivariada.

Ao fazer as -nudaaças, mantive a intenção original do livro, qut>A~ra.à de 5€.1:.(1,,,,, . mais curto possível e não pretender mais do que colocar os leitores no estágio em que possam começar a usar os métodos mtiltivariados de uma maneira inte-ligente.

Estou em dívida com muitas pessoas pelos comentários sobre o texto das três edições do livro e por apontarem vários erros. Agradeço especialmente a Earl Bardsley, [ohn Harraway e Liliana Gonzalez por sua ajuda. Erros que ainda te-nham permanecido são somente de minha responsabilidade.

Gostaria de agradecer ao Departamento de Matemática e Estatística da Uni-versidade de Otago na Nova Zelândia por me hospedar como visitante duas ve-zes em 2003, em maio e junho, e mais tarde em novembro e dezembro. Sua exce-lente biblioteca universitária foi particularmente importante nas atualizações e referências finais.

Concluindo, quero agradecer àequipe da ChapmanzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA&Hall e da CRC por seu trabalho ao longo de anos em promover o livro e em me encorajar a produzir a

segunda e a terceira edições.

Bryan EJ. ManlyzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Laramie, WyomingzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Sumário

Capítulo 1 O material de análise multivariada 13

1.1 Exemplos de dados multivariados 13

1.2 Visão prévia dos métodos multivariados 23

1.3 A distribuição normal multivariada , 26

1.4 Programas computacionais ,. 26

1.5 Métodos gráficos 27

1.6 Resumo do capítulo 27

Referências , , 28

Capítulo 2 Álgebra matricial 29

2.1 A necessidade de álgebra matricial 29

2.2 Matrizes e vetores ,. ,. 29

2.3 Operações com matrizes 31

2.4 Inversão matricial. 33

2.5 Formas quadráticas 34

2.6 Autovalores e autovetores 34

2.7 Vetares de médias e matrizes de covariâncias 35

2.8 Leitura adicional 37

2.9 Resumo do capítulo 37

Re erenClasf ~ . ,. 38

Capítulo 3 Representação de dados multivariados 39

3.1 O problema da representação de muitas variáveis em duas dimensões 39

3.2 Representando variáveis índices 39

3.3 A representação de draftsman 41

3.4 A representação de pontos de dados individuais 41

3.5 Perfis de variáveis 44

3.6 Discussão e leitura adicional 44

3.7 Resumo do capítulo 45

Referências 46

Capítulo 4 Testes de significância com dados multivariados 47

4.1 Testes simultâneos em várias variáveis 47

4.2 Comparação de valores médios para duas amostras: o caso univariável.. 47 4.3 Comparação de valores médios para duas amostras: o caso multivariado 49 4.-1 Testes multivariados versus testes univariados 53

(4)

4.5 Comparação de variação para duas amostras: o caso univariado 54 4.6 Comparação da variação para duas amostras: o caso multivariado 55

4.7 Comparação de médias para várias amostras 58

4.8 Comparação da variação para várias amostras 62

4.9 Programas computacionais 66

4.10 Resumo do capítulo 66

Exercício __ __ __ __ __ __ 67

Referências __ __ __ __ __.__ __ 70

Capítulo 5 Medindo e testando distâncias multivariadas __ __.. 71

5.1 Distâncias multivariadas __.__ .71

5.2 Distâncias entre observações individuais __ " 71

5.3 Distâncias entre populações e amostras " 75

5.4 Distâncias baseadas em proporções 78

5.5 Dados presença-ausência __ 80

5.6 O teste de aleatorização de Mantel.. __ __ __ 81

5.7 Programas computacionais __ __ __ 84

5.8 Discussão e leitura adicional __ __ 85

5.9 Resumo do capítulo __ 85

Exercício __ .__ __ __ 86

Referências __.__ __ 86

Capítulo 6 Análise de componentes principais 89zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

6.1 Definição de componentes principais --..-- __ __ 89 6.2 Procedimento para uma análise de componentes principais __..__.__..__ 90

6.3 Programas computacionais __ 98

6.4 Leitura adicional __ __ 99

6.5 Resumo do capítulo __ 99

Exercícios 101

Referências __' 104

Capítulo 7 Análise de fatores 105

7.1 O modelo de análise de fatores 105

7.2 Procedimento para uma análise de fatores 107

7.3 Análise de fatores de componentes principais ..-- -- 109 7.4 Usando um programa de análise de fatores para fazer análise de

componentes principais -- --· ·..·..··..·..· ··· 111

7.5 Opções em análises __.__..__ 115

7.6 A importância da análise de fatores -- -- ---- -- __..__ 115

7.7 Programas computacionais __ __ 116

7.8 Discussão e leitura adicional __ .__ __ 116

7.9 Resumo do capítulo -- __ 117

Exercício '" ""'" : '..: 118

Referências __ 118

Capítulo 8 Análise de função discriminante 119

8.1 Oproblema da separação de grupos __ 119

8.2 Discriminação usando distâncias de Mahalanobis 119

8.3 Funções discriminantes canônicas 121

8.4 Testes de significância 122

8.5 Suposições __ __ 123

8.6' Permitindo probabilidades a priori de membros de grupo 129 8.7 Análise de função discriminante passo a passo __ 129

8.8 Classificação jacknife de indivíduos 130

8.9 Atribuição de indivíduos não grupados a grupos __ 130

8.10 Regressão logística __ -- ----.. 131

8.11 Programas computacionais 136

8.12 Discussão e leitura adicional 136

8.13 Resumo do capítulo -- 137

Exercícios __ -- 138

Referências 138

Capítulo 9 Análise de agrupamentos 139

9.1 Usos de análise de agrupamentos __.__ __ 139

9.2 Tipos de análise de agrupamentos -- __ 139

9.3 Métodos hierárquicos __ __ __. 141

9.4 Problemas de análise de agrupamentos .. __ 143

9.5 Medidas de distâncias __ 144

9.6 Análise de componentes principais com análise de agrupamentos 144

9.7 Programas computacionais __ __ 148

9.8 Discussão e leitura adicional ...__ __.__ __ __ 15O

9.9 Resumo do capítulo 150

E ,.

xerClClOS __ 151

Referências -- "'" __ 155

Capítulo 10 Análise de correlação canônica 157

10.1 Generalizando uma análise de regressão múltipla __ 157 10.2 Procedimento para uma análise de correlação canônica 159

10.3 Testes de significância ..__ __ __ 160

(5)

10.5 Programas computacionais ~73

10 6. Lelitura adicio al.'zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAi •...•. ",...zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA"T'J_73

10.7 Resumo do capítulo .L J

~;;~~~~~~~.:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::~::::::::::::::::::::::::::::::::::::::::::::::::::::

~~:

Ca ítulo 11 Escalonamento multidimensional ··· 177

ll.i

Construindo um mapa de uma matriz de distâncias 177 11.2 Procedimento para escalonamento multidimensional.. 179

11.3 Programas computacionais 188

11.4 Leitura adicional 189

11.5 Resumo do capítulo 189zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

:~:~~~~i~~·::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

~:~

C~api uít Io12 O dr enaçao- · · ,,··,. · ··· ·· 1911

12.1 O problema da ordenação ·..· ·..·..· · · ·19zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

. . . 1~

12.2 Análise de componentes pnnClpals .

12.3 Análise de coordenadas principais 197

12.4 Escalonamento multidimensional 203

12.5 Análise de correspondência 207

12.6 Comparação de métodos de ordenação · 211

12.7 Programas computacionais 212

12.8 Leitura adicional 212

12.9 Resumo do capítulo 212

~~:~~~~i~~·::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

~~~

Cap!ítulo13

sen

piOgo ·· ·· ·· · ·..· . 215

131 O. proxlffio pas,. so . 215

13.2 Alguns lembretes gerais 215

13.3 Valores perdidos · ··· 217

Referências 217

Apêndice Pacotes computacionais para análises multivariadas 219

Referências 221

I, d'n Icedenomes . 223

Índice 225

Capítulo 1

o

material de análise multivariada

1.1

Exemplos de dados multivariados

Os métodos estatísticos que são descritos em textos elementares são na maioria métodos univariados porque tratam somente da análise de variação em uma única variável aleatória. Por outro lado, o ponto principal de uma análise multivariada é considerar várias variáveis relacionadas simultaneamente, sendo todas conside-radas igualmente importantes, pelo menos inicialmente. Ovalor potencial dessa abordagem mais geral pode ser visto considerando alguns poucos exemplos.

Exemplo

1.1

Pardais sobreviventes de tempestade

Após uma forte tempestade em 10

de fevereiro de 1898, diversos pardais mo-ribundos foram levados ao laboratório biológico de Hermon Bumpus na Uni-versidade de Brown em Rhode Island. Subseqüentemente cerca de metade dos pássaros morreram, e Bumpus viu isso como uma oportunidade de encontrar suporte para a teoria de seleção natural de Charles Darwin. Para esse fim, ele fez oito medidas morfológicas em cada pássaro, e também os pesou. Os resultados de cinco das medidas são mostrados na Tabela1.1,para fêmeas somente.

Dos dados que obteve, Bumpus (1898) concluiu que "os pássaros que morre-ram, morreram não por acidente, mas porque eles eram fisicamente desqualifi-cados, e que os pássaros que sobreviveram, sobreviveram porque eles possuíam certas características físicas". Especificamente, ele verificou que os sobreviven-tes "são mais curtos e pesam menos ... tem ossos das asas mais longos, pernas mais longas, esternos mais longos e maior capacidade cerebral" do que os não-sobreviventes. Concluiu também que "o processo de eliminação seletiva é mais severo com indivíduos extremamente variáveis, não importando em qual direção a variação possa ocorrer.Étão perigoso estar acima de um certo padrão de exce-lência orgânica como estar visivelmente abaixo do padrão". Isso queria dizer que ocorreu seleção estabilizadora, de modo que indivíduos com medidas próximas da média sobrevivem melhor do que indivíduos com medidas longe da média.

(6)

Medidas do corpo de pardocas Tabela 1.1

Medidas do corpo de pardocaszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA(continuação)

Tabela 1.1zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA X2 '<3 X. Xs Xl X2 X3 X4 Xõ XIzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA (rnm) (mm) (mm)ZYXWVUTSRQPONMLKJIHGFEDCBAp á s s a r o (nun) (mm) (mm) (mm) (mm) pássaro (mm) (mm) 245 31,6' 18,5 20,5 45 155 235 30,7 17,7 19,6 1 156 30,4 17,9 19,6 46 162 247 31,9 19,1 20,4 2 154 240 18,4 20,6 47 153 237 30,6 18,6 20,4 3 153 240 31,0 20,2 48 162 245 32,S 18,5 21,1 30,9 17,7 4 153 236 20,3 49 164 248 32,3 18,8 20,9 155 243 31,S 18,6

5 19,0 20,9 Nota: X,=comprimento total, X

2=extensão alar, X3=comprimento do bico e cabeça, X4=

comprimen-163 247 32,0

6 18,4 20,2 to do úmero, X5=comprimento da quilha do esterno. Pássaros de 1 a 21 sobreviveram, pássaros de 22

157 238 30,9 7

32,8 18,6 21,2 a 49 morreram. A fonte de dados é Bumpus (1898), que mediu em polegadas e milímetros.

8 155 239 21,1

9 164 248 32,7 19,1

Fonte: Adaptado de Bumpus, H.c.(1898), Biological Lectures, 11th Lecture, Marine Biology Labora-158 238 31,0 18,8 22,0 tory, Woods Hole, MA, pp. 209-226.

10

31,3 18,6 22,0

11 158 240

20,S

160 244 31,1 18,6 De fato, o desenvolvimento dos métodos de análise multivariada havia

re-12 19,3 21,8

161 246 32,3 cém-iniciado em 1898 quando Bumpus estava escrevendo. O coeficiente de

cor-13

32,0 19,1 20,0

157 245 relação como uma medida do relacionamento entre duas variáveis foi delineada

14

31,5 18,1 19,8

15 157 235 20,3 por Francis Galton em 1877. Entretanto, decorreram outros 56 anos antes de

Ha-156 237 30,9 18,0 16

31,4 18,5 21,6 rold Hotelling descrever um método prático para realizar uma análise de

compo-17 158 244 20,9

nentes principais, a qual é uma das análises multivariada mais simples que pode

153 238 30,5 18,2

18 18,5 20,1

ser aplicada aos dados de Bumpus. Bumpus não calculou nem mesmo os desvios

19 155 236 30,3 21,9

163 246 32,5 18,6 padrão. Apesar disso, seus métodos de análise foram sensíveis. Muitos autores

20 18,0 21,5

159 236 31,S têm reanalisado seus dados e, em geral, têm confirmado suas conclusões.

21 31,4 18,0 20,7

155 240 Tomando os dados como um exemplo para ilustrar métodos multivariados,

22

31,S 18,2 20,6

23 156 240 21,7 surgem muitas questões interessantes-Em particular:

160 242 32,6 18,8

24 19,8

25 152 232 30,3 17,2 1. Como estão relacionadas as várias variáveis? Por exemplo, um valor

250 31,7 18,8 22,S

26 160 20,0 grande para uma das variáveis tende a ocorrer com valores grandes para

155 237 31,0 18,5 27

32,2 19,5 21,4 as outras variáveis?

28 157 245 22,7

165 245 33,1 19,8 2. Os sobreviventes e os não-sobreviventes têm diferenças estatisticamente

29

153 231 30,1 17,3 19,8 significantes para seus valores médios das variáveis?

30

162 239 30,3 18,0

23,1

3. Os sobreviventes e não-sobreviventes mostram quantidades similares de

31 18,8 21,3

162 243 31,6 variação para as variáveis?

32

31,8 18,5 21,7

159 245 4. Se os sobreviventes e não-sobreviventes diferem em termos das

distribui-33 18,1 19,0

34 159 247 30,9 ções das variáveis, então é possível construir alguma função dessas

variá-155 243 30,9 18,5 21,3

35

31,9 19,1 22,2 veis que separe os dois grupos? Então seria conveniente se valores grandes

162 252

36 30,4 17,3 18,6 da função tendessem a ocorrer com os sobreviventes enquanto que a função

152 230

37 18,2 20,S

seria então aparentemente um índice de ajuste darwiniano dos pardais.

38 159 242 30,8 19,3

155 238 31,2 17,9

39 19,5 22,8

163 249 33,4 40

31,0 18,1 20,7zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Exemplo 1.2

Crânios egípcios

163 242

41 31,7 18,2 20,3

156 237 Para um segundo exemplo, considere os dados mostrados na Tabela 1.2 para

medi-42

31,5 18,4 20,3 159 238

43 19,1 20,8 das feitas em crânios masculinos da área de Tebas no Egito. Há cinco amostras de 30

(7)

Tabela 1.2 Medidas de crânios egípciosmasculinos (mm)

Pré-dinásticoantigo 12" e 13" dinastias Período ptolemaico Período romano Pré-dinásticoprimitivo X2 XzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA3 X4 Xl X2 X3 X4 Crânios Xl X2 X3 X4 Xl X2 X3 X4 Xl

x,

X3 X4 Xl 137 141 96 52 137 134 107 54 137 123 91 50 1 1"1 138 89 49 124 138 101 48 131 95 49 o r 128 95 53 136 133 134 97 48 129 133 93 47 141 2 125 131 92 48 91 57 132 138 87 48 141 130 87 49 128 126 138 134 98 45 3 131 132 99 50 106 50 135 131 99 51 130 134 92 52 96 44 148 129 104 51 130 134 4 119 132 138 127 86 47 126 124 95 45 134 134 96 45 133 120 91 46 5 136 143 100 54 138 101 52 133 98 50 131 135 90 50 126 135 136 98 52 140 6 138 137 89 56 140 137 94 60 136 138 97 58 54 138 138 95 47 7 139 130 108 48 132 145 100 48 126 126 92 45 133 130 102 48 136 145 99 55 139 130 90 8 125 136 93 48 132 132 99 55 134 96 50 136 131 92 46 140 134 90 51 9 131 134 102 51 131 135 9:'> 54 136 95 56 138 140 100 52 139 133 125 94 46 126 10 134 134 99 51 132 133 90 53 143 120 95 51 138 95 50 133 136 103 53 137 129 100 53 54 11 129 97 50 134 134 97 54 141 136 101 131 139 98 51 137 139 12 134 121 95 53 135 135 95 56 131 136 99 56 136 126 101 50 135 135 99 50 13 126 129 109 51 133 136 95 52 137 134 93 53 136 100 50 138 134 98 49 137 133 90 49 52 14 132 129 142 104 47 136 130 99 55 142 135 96 15 141 140 100 51 130 136 104 53 - -:::-- -'o;- --.~.;:zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA ~.;.~: •• n~7i-::;-;-;';':7~;""',:>~~:~~,;."",-~~~~~#~~~$~~*~~Q_~ 16 131 134 97 54 131 128 98 45 135 138 102 55 134 137 93 52 139 134 95 47 17 135 137 103 50 138 129 107 53 129 135 92 50 131 141 99 55 138 125 99 51 18 132 133 93 53 123 131 101 51 134 125 90 60 129 135 95 47 137 135 96 54 19 139 136 96 50 130 129 105 47 138 134 96 51 136 128 93 54 133 125 92 50 20 132 131 101 49 134 130 93 54 136 135 94 53 131 125 88 48 145 129 89 47 21 126 133 102 51 137 136 106 49 132 130 91 52 139 130 94 53 138 136 92 46 22 135 135 103 47 126 131 100 48 133 131 100 50 144 124 86 50 131 129zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA9í' 44 23 134 124 93 53 135 136 97 52 138 137 94 51 141 131 97 53 143 126 8& 54 24 128 134 103 50 129 126 91 50 130 127 99 45 130 131 98 53 134 124 9] 55 25 130 130 104 49 134 139 101 49 136 133 91 49 133 128 92 51 132 127 97 52 26 138 135 100 55 131 134 90 53 134 123 95 52 138 126 97 54 137 125 85 57 27 128 132 93 53 132 130 104 50 136 137 101 54 131 142 95 53 129 128 8í 52 28 127 129 106 48 130 132 93 52 133 131 96 49 136 138 94 55 140 135 103 48 29 131 136 114 54 135 132 98 54 138 133 100 55 132 136 92 52 147 129 87 48 30 124 138 101 46 130 128 101 51 138 133 91 46 135 130 100 51 136 133 97 51

Nota: XI=larjrura máxima, X:!=altura basibregamáticâ, X3=comprimento basíalveoíar, X.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA=altura nasal.

(8)

pré-dinástico antigo (cerca de 3300a.C). das 12ae 13adinastias (cerca de 1850a.C),zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA dI' -:-0-" ,,..l~Ptrllemaicó.).(c rca de 200 a.C) e do período Romano (cerca de 150 d.C).

Quatro medIdas são apresentadas para cada crânio, como!üstrado Di'!Fi üI'3 '_1. Para esse exemplo, algumas questões interessilntes são:

1. Como estão relacionadas as quatro medidas?

2. Existem diferenças estatisticamente significantes nas médias amos trais das variáveis, e se existem, essas diferenças refletem mudanças graduais ao longo do tempo na forma e tamanho dos crânios?

3. Existem diferenças significantes nos desvios padrão amostrais para as variáveis, e, se existem, essas diferenças refletem mudanças graduais ao longo do tempo na quantidade de variação?

4. Épossível construir uma função das quatro variáveis que, em algum sen-tido, descreva as mudanças ao longo do tempo?

Essas questões são, claramente, bastante similares àquelas sugeridas para o Exemplo 1.1.

Veremos mais adiante que existem diferenças entre as cinco amostras que po-dem ser explicadas parcialmente como tendências no tempo. Épreciso ser dito, en-tretanto, que as razões para as aparentes mudanças são desconhecidas. Migração

de outras raças dentro da região pode muito bem ter sido o fator mais importante.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Exemplo

1.3

Distribuição de uma borboleta

Um estudo de 16 colônias de borboletas Euphydryas editha na Califórnia e Oregon produziu os dados apresentados na Tabela 1.3.Aqui existem quatro variáveis am-_bientais (altitude, precipitação anual e temperaturas máxima e mínima) e seis va-riáveis genéticas (freqüências percentuais para diferentes genes (Fósforo glucose-isomerase) como determinado pela técnica de eletroforese). Para os objetivos desse exemplo, não há necessidade de entrar em detalhes de como as freqüências gênicas

foram determinadas e, estritamente falando, elas não são exatamente freqüênciasZYXWVUTSRQPONMLKJIHGFEDCBA

F i g u r a 1.1 Quatro medidas feitas em crâniosegípciosmasculinos.

"

i

",zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

gg~tg[g~~~§g~§~§~~

""';""';NNNt--:c:i ,-<

(9)

, ., . ue as freqüências descrevem, de certa forma, a distri-gê~=as. E ~~flCledntebd~~l~as A Figura 1.2 mostra as localizações geográficas das

bUlçao genetlca as ar '. ,. -'; ' .

colônias. f .t . 1 em

Neste exemplo, questões que podem ser eiasme u .zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA 1. As freqüências Pgi são similares para as colônias que estão próximas no

espaço? . das ã •/ •s

1m as freqüências Pgi estão relaciona as as variavei 2. O quanto, se a gu ,

ambientais?

Essas são questões importantes na tentativa de decidir como as freqüê~cias P~i _ d terminadas. Se a composição genética das colôniasfoi larga:n:nte etder~l-sao e . _ d e resentes então as frequenClas gemcas ten erao nada ~::~a:g;:;~e:or;::s ~~e ~tãO locaíizadas nas proximidade~, ap~sar delas a ser SI e ueno relacionamento com as variáveis amblentms. Por ou-po~er:m :~=i::!b~nte é mais importante, então isso deve.aparecer.em rela-~~n::~ntos entre as freqüências gênicas e as variáveis ambientais (assumindo que

SS (Oregon)

<,

SB WSB JRC SJ Escala O 50 100 I Milhas MC

i

zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA DP

1

<, CR AF

!

_---"-.;;:___--IF _--~--GH Califórnia UO

..

••

Figura 1.2 Colônias dezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAEuphydryas editha na Califórnia e Oregon.

.\~

tenham sido medidas as variáveis corretas), mas colônias próximas somente têm freqüências gênicas similares se elas têm ambientes similar=s. Obviamente colônias

q.1Cestão próximas no espaço usualmente têm ambie ites similares, deIHOUOqu~ pode ser difícil chegar a uma conclusão sobre essa questão.

Exemplo

1.4

Cães pré-históricos da Tailândia

Escavações de locais pré-históricos no nordeste da Tailândia têm produzido urna coleção de ossos caninos cobrindo um período em torno de 3500 a.c. até o presen-te. Entretanto, a origem dos cães pré-históricos não é certa. Podem descender dos jacais douradoszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA(Canis aureusi ou do lobo, mas o lobo não é nativo da Tailândia. As fontes de origem mais próximas são a parte ocidental da China (Canis lupus chanco) ou o subcontinente indiano (Canis lupus pallides).

Para tentar esclarecer os ancestrais dos cães pré-históricos, foram feitas me-didas da mandíbula dos espécimens disponíveis. Estas foram então comparadas com as mesmas medidas feitas no chacal dourado, no lobo chinês e no lobo india-no. As comparações foram também estendidas para incluir o dingo, o qual tem suas origens na Índia, o cuon (Cuon alpinus), o qual é indígena do sudeste da Ásia e os cães modernos de cidade da Tailândia.

A Tabela 1.4 apresenta os valores médios para as seis medidas de mandíbulas para espécimens de todos os sete grupos. A questão principal aqui éOque as

me-didas sugerem sobre o relacionamento entre os grupos e, em particular, corno os cães pré-históricos parecem se relacionar com os outros grupos.

Exemplo

1.5

Emprego em países europeus

Finalmente, como um contraste aos exemplos biológicos anteriores, considere os dados na Tabela 1.5. Eles mostram as porcentagens da força de trabalho em

Tabela 1.4 Médias de medidas de mandíbulas para sete grupos caninos

Xl ~ ~ ~ ~ ~ Grupo (mm) (mm) (mm) (mm) (mm) (mm) Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5 Chacal dourado 8,1 16,7 18,3 7,0 30,3 32,9 Lobo chinês 13,5 27,3 26,8 10,6 41,9 48,1 Lobo indiano 11,5 24,3 24,5 9,3 40,0 44,6 Cuon 10,7 23,5 21,4 8,5 28,8 37,6 Dingo 9,6 22,6 21,1 8,3 34,4 43,1 Cão pré-histórico 10,3 22,1 19,1 8,1 32,2 35,0

Nota: XI =largura da mandíbula; X2=altura da mandíbula abaixo do primeiro molar; X3= compri-mento do primeiro molar; X, =largura do primeiro molar; Xs=comprimento do primeiro ao terceiro

molar, inclusive; e X6=comprimento do primeiro ao quarto molar, inclusive.

(10)

d b lh d empregados em nove diferentesZYXWVUTSRQPONMLKJIHGFEDCBA

T a b e l a 1.5 Porcentagens da força e tra a o e

P 5de indústrias em30países na Europa _-- --- .

gru _ ... CON SER FIN SSP

- País Grupo AGR MIN FAB FEzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Te

Bélgica Dinamarca França Alemanha Grécia Irlanda Itália Luxemburgo Países Baixos Portugal Espanha Reino Unido Áustria Finlândia Islândia Noruega Suécia Suiça Albânia Bulgária República Tcheca/ Eslováquia LzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAt 153 28,9 00 0,0 6,4 13,3 0,0 Hungria LeSte 23'6 3,9 24'1 0,9 6,3 10,3 1,3 Polônia ese,zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAr 69 06

~~~:1~tiga)

i:::~: ~~'~~:~~~:: ~:~

1~:~

7:9

o:~

. L t 5'0 22 387 2,2 8,1 13,8 3, Iugoslávia ese , ' , ~~~~:) Outro 13,5 0,3 19,0 0,5 9,1 23,~ 1~'~ ~~'~ ~'~ Gibraltar Outro 0,0 0,0 6,8 2,0 16,9 2~,2 3' 9 41' 6

72

M lt Outro 2,6 0,6 27,9 1,5 4,6 1, 2'4 14'5 4'4 ; ~a Outro 44,8 0,9 15,3 0,2 5,2 12,4 '.' '.

T q . . era ão e ex loração de pedreiras; FAB, fabn-zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

/Vota- AGR agricultura, florestal e pesca, MINC'OmNillç tr a-oPSER serviços' FIN, finanças; SSP,

r d rgia e água' cons uç" ',. divid .

cação: FEA, forneClmento e ene ". _ O dados para os palses m IVI uais

r TC transportes e comurucaçoes. s anh R'

serviços SOClalSe pessoais, , .t (1995) exceto para Alem a e emo

são p~ra vários anos, de 1989 a ~995. Dados ~ .~uro:o&~~:d Nati~ns Statistical Yearbook (2000).

Unido onde valores mais razoáveis foram o ti os o . P bli

, M rketing Data and Statistics, Euromomtor li

ica-Fonte: Adaptado do Euromonitor (1995),European. a b j 44th issue U.N. Department 01'Social tions, London; e de United Nations (2000),Statzstlcal Year 00(, ,

Affairs, New York UE UE UE UE UE UE UE UE UE UE UE DE AELC AELC AELC AELC AELC AELC Leste Leste Leste 2,6 5,6 5,1 3,2 22,2 13,8 8,4 3,3 4,2 11,5 9,9 2,2 7,4 8,5 10,5 5,8 3,2 5,6 55,5 19,0 12,8 0,2 0,1 0,3 0,7 0,5 0,6 1,1 0,1 0,1 0,5 0,5 0,7 0,3 0,2 0,0 1,1 0,3 0,0 19,4 0,0 37,3 20,8 20,4 20,2 24,8 19,2 19,8 21,9 19,6 19,2 23,6 21,1 21,3 26,9 19,3 18,7 14,6 19,0 24,7 0,0 35,0 0,0 0,8 0,7 0,9 1,0 1,0 1,2 0,0 0,7 0,7 0,7 0,6 1,2 1,2 1,2 0,9 1,1 0,8 0,0 0,0 0,0 0,0 6,3 6,4 7,1 9,4 6,8 7,1 . 9,1 9,9 0,6 8,2 9,5 7,0 8,5 6,8 10,0 6,5 6,4 9,2 3,4 6,7 8,4 16,9 14,5 16,7 17,2 18,2 17,8 21,6 21,2 18,5 19,8 20,1 20,2 19,1 14,6 14,5 17,6 14,2 20,5 3,3 9,4 10,2 8,7 9,1 10,2 9,6 5,3 8,4 4,6 8,7 11,5 6,3 5,9 12,4 6,7 8,6 8,0 7,6 9,4 10,7 15,3 1,5 1,6 36,9 36,3 33,1 28,4 19,8 25,5 28,0 29,6 38,3 24,6 26,7 28,4 23,3 33,2 30,7 37,5 39,5 23,1 0,0 20,9 22,9 6,8 7,0 6,4 5,6 6,9 5,8 5,3 6,8 6,8 4,8 5,8 6,5 6,4 7,5 6,7 8,1 7,2 6,2 3,0 7,5 6,9 27,3 24,5 15,3 25,6 19,1 8,8 5,2 6,8 8,4 7,8

nove diferentes tipos de indústrias para 30países europeus. Nesse caso,método. rnultivarianos podem ser úteis para isolar grupos de países com padrões simila res dernpregos, e, em geral, ajudar o entendimento dos relaí ionamentos entre os países. Diferenças entre países que são relacionados a grupos políticos (UE, ;; União Européia; AELC,aárea européia de livre comércio; países do leste europeL .éoutros países) podem ser de particular interesse.

1.2

Visão prévia dos métodos multivariados

Os cinco exemplos que acabamos de considerar são matérias brutas típicas para métodos estatísticos multivariados. Em todos os casos, existem várias variáveis de interesse e elas são claramente não-independentes umas das outras. Nesse momento, éútil dar uma breve visão prévia do que está por vir nos capítulos que seguem em relação a esses exemplos.

Aanálise de componentes principais é elaborada para reduzir o número de variá-veis que necessitam ser consideradas a um número menor de índices (chamados de componentes principais) os quais são combinações lineares das variáveis originais. Por exemplo, muita da variação nas medidas do corpo dos pardais (X, a Xs) mostra-da na Tabela1.1está relacionada ao tamanho geral dos pássaros, e o total

deve medir muito bem esse aspecto dos dados. Este índice é responsável por uma dimensão dos dados. Outro índice é

o qual é um contraste entre as três primeiras medidas e as duas últimas. Este reflete outra dimensão dos dados. Aanálise de componentes principais fornece uma maneira objetiva de encontrar índices desse tipo de modo que a variação nos dados pode ser levada em consideração tão concisamente quanto possível. Pode muito bem acontecer que dois ou mais componentes principais forneçam um bom resumo de todas as variáveis originais. A consideração dos valores dos componentes principais ao invés dos valores das variáveis originais pode tornar muito mais fácil entender o que os dados têm a dizer. Em poucas palavras, a aná-lise de componentes principais é um meio de simplificar dados pela redução do número de variáveis.

Aanálise de fatores também tem como objetivo estudar a variação em uma quantidade de variáveis originais usando um número menor de variáveis índices ou fatores. Assume-se que cada variável original possa ser expressa como uma combinação linear desses fatores, mais um termo residual que reflete o quanto a

Referências

Documentos relacionados

Em síntese: a ação do Agrupamento tem produzido um impacto em linha com os valores esperados na melhoria das aprendizagens e dos resultados dos alunos e nos respetivos

O piedoso Staupitz abriu a Palavra de Deus à mente de Lutero, mandando-lhe que não mais olhasse para si mesmo, que cessasse a contemplação do castigo infinito

A intenção de refletir sobre a Teoria da Folkcomunicação criada pelo brasileiro Luiz Beltrão, no ano de 1967, e a teoria da mídia radical alternativa formulada pelo inglês John

Colaboradores Marfood no evento VI SIPAT 2012, durante palestra sobre Odontologia no Trabalho ministrada pela equipe.. da empresa Lacerda &amp;

O desempenho do algoritmo foi avaliado mediante a realização de testes nos modelos de sistemas IEEE-14 e IEEE-30 barras, assim como em parte de um sistema elétrico Brasileiro

Para k = 1 até T faça

Em todos os a ce leradores circul ar es, um dos problemas mais dificeis é a extração do feixe de ions após a aceleração, pois as sucessivas órbitas com difer en tes en ergias

• The mean damage predicted values, estimated upon those wave heights, did not converged to the mean damage values measured during the model tests, due to a