• Nenhum resultado encontrado

CE217AMI.3

N/A
N/A
Protected

Academic year: 2021

Share "CE217AMI.3"

Copied!
36
0
0

Texto

(1)CE-217 - ANÁLISE MULTIVARIADA I. NOTAS DE AULA. Estas notas de aula seguem, de muito perto, os livros referenciados na BIBLIOGRAFIA e que na verdade correspondem aos livros textos deste Curso. Sugere-se a aquisição da bibliografia. De nenhum modo estas notas substituem a BIBLIOGRAFIA e sua única finalidade é facilitar o trabalho do aluno em sala de aula, pois não terá necessidade de anotar todo o conteúdo no caderno e, por outro lado, fica facilitado o trabalho do professor. Prof. Anselmo Chaves Neto BIBLIOGRAFIA • • • •. Johnson, R. A. & Wichern, D.W. – Applied Multivariate Statistical Analysis; 4ed.; Prentice Hall Inc, Upper Sadle River, N.J.; 1998. Mardia, K. V. Kent, J. T. & Bibby, J.M. – Multivariate Analysis; Academic Press, New York; 1979. Morrison, D.F. – Multivariate Statistical Methods - McGraw Hill, New York Hair, J. F. Jr. et alii – Multivariate Data Analysis; 5ed., Prentice Hall Inc, Upper Sadle River, N.J. ; 1998..

(2) ÍNDICE 1. INTRODUÇÃO. 4. 1.1 - Conceitos Básicos. 4. 1.2 - Estatísticas Descritivas. 5. 1.3 - Distância. 5. 2. ÁLGEBRA MATRICIAL E VETORES ALEATÓRIOS 2.1 - Álgebra Matricial 2.2 - Matriz e Vetor Aleatório. 8 8 11. 3 - MATRIZ DE DADOS, VETOR DE MÉDIAS E MATRIZ DE COVARIÂNCIA 14 3.1- Matriz de Dados. 14. 3.2- Vetor de Médias. 15. 3.3- Matriz de Covariância Amostral e Matriz de Correlação Amostral. 16. 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA. 17. 4.1 - Introdução. 17. 4.2 - A função densidade de probabilidade da normal p-variada. 17. 4.3 -Densidade de probabilidade constante e estatísticas suficientes 4.3.1- Densidade de probabilidade constante (contours, curva de nível) 4.3.2 – Estatísticas suficientes. 18 18 21. 4.4 – Distribuição amostral de X e S. 21. 4.5- Testes sobre os parâmetros de locação e de dispersão de distribuições normais multivariadas e regiões de confiança. 21. 5. COMPARAÇÃO ENTRE VETORES MÉDIOS. 26. 5.1- Comparação entre dois vetores médios: teste T2 de Hotelling. 26. 5.2- Comparação entre vários vetores médios: Manova. 26. 6. REGRESSÃO LINEAR MULTIVARIADA. 29. 6.1- Introdução. 29. 6.2- Modelo de Regressão Linear Multivariada. 30. 6.3- Estimação dos Parâmetros do Modelo 6.3.1. Decomposição da soma de quadrados. 31 32. 2.

(3) 6.3.2- Regressão Linear – outros conceitos.. BIBLIOGRAFIA. 33. 36. 3.

(4) ANÁLISE MULTIVARIADA 1. INTRODUÇÃO 1.1 - Conceitos Básicos ANÁLISE MULTIVARIADA: é um conjunto de técnicas estatísticas que tratam dos dados correspondentes a medidas de muitas variáveis simultaneamente. Basicamente, a Análise Multivariada consiste no estudo dos assuntos estatísticos relacionados com: • Inferências sobre médias multivariadas; • Análise da estrutura de covariância de uma matriz de dados;. •. Técnicas de classificação e agrupamento.. No estudo de p ≥ 1 variáveis, toma-se n observações de cada variável. Assim, as medidas registradas são xij com i = 1,2, ... ,n e j = 1,2, ... ,p que podem ser agrupadas na matriz de dados nXp, com n linhas e p colunas  x 11 x 12. ....... x 1p    x 21 x 22 ........ x 2 p   n Xp = .......................    x n1 x n 2 ........ x np  A matriz de dados nXp contém n observações do vetor aleatório p-dimensional X’ = [X1,X2, ..... ,Xp]. EXEMPLO 1: Uma amostra aleatória de quatro notas de vendas de livros de uma livraria foi obtida a fim de investigar-se a natureza dos livros vendidos. Cada nota fiscal especifica, entre outras coisas, o número de livros vendidos e o valor de cada venda. Seja a 1ª variável o total vendido em reais e a 2ª variável o número de livros vendidos. Assim, seja o vetor aleatório X’ = [X1 X2] cujas componentes são as v.a’s X1 (valor da venda) e X2 (número de livros).  42 80 A matriz de dados é 4X2 =   48   36. 4 5  4  3. 4.

(5) 1.2 - Estatísticas Descritivas Muito da informação contida na matriz de dados pode ser dada pelo cálculo de números sumários conhecidos como estatísticas descritivas. n. vetor médio amostral : x’ = [x1 x2 ........ xp ]. com xj =.  s11 s 21 matriz de covariância amostral: S =   ...  s p1. ... s1p  ... s 2 p   ... ...   ... s pp . n. 2. sjj= sj =. ∑ (x i =1. sjk =. i =1. ij. s 22 ... sp2. i =1. ij. n. j = 1,2, ... ,p. onde. − xi )2. n. n. ∑ (x. ij. s12. ∑x. é a variância amostral da v.a. Xj. − x j )( xik − x k ) n. j, k = 1,2, ..... ,p é a covariância amostral entre Xj e Xk. 1 r 21 matriz de correlação amostral : R =   ...   r p1. r12 1 ... rp 2. ... r1p  ... r2 p   ... ...   ... 1 . onde rjk =. s jk s jj s kk. EXERCÍCIOS 1) Para os dados do exemplo 1, calcule: a) o vetor médio amostral; b) a matriz de covariância amostral S; c) a matriz de correlação amostral R. 2) Você sabia que a correlação entre as v.a’s X e Y é igual à covariância entre as v.a’s X e Y padronizadas? Prove este fato. 1.3 - Distância Várias técnicas estatísticas são baseadas no conceito simples de distância. A distância Euclidiana do ponto P(x1,x2, ..... ,xp) até a origem O(0,0, ...., 0) é a distância na linha reta d(PO) dada de acordo com o Teorema de Pitágoras: d(PO) =. x 12 + x 22 +......+ x 2p. E, a distância de P ao ponto Q(y1,y2, ..... ,yp) é dada por 5.

(6) d(PQ) =. ( x 1 − y 1 ) 2 +.......+ ( x p − y p ) 2. Contudo, a distância Euclidiana não é satisfatória em várias propostas estatísticas porque cada coordenada contribui igualmente para o cálculo da distância. Quando as coordenadas são medidas de v.a’s de diferentes magnitudes (escalas), variabilidades fortemente diferenciadas, é preferível ponderar as coordenadas de acordo com as variâncias. Isto produz a chamada distância estatística. Na figura a seguir observamos que a variância da v.a no sentido horizontal é maior que a variância da v.a no sentido vertical V(X1) > V(X2) X2. X1. Na distância Euclidiana padroniza-se as v.a’s dividindo-as pelo desvio-padrão: x1* = x1/s1. e. x2* = x2/s2. E a distância Euclidiana entre P*(X1,X2) e a origem O(0,0) é:. d(P*O) =. x12 x 22 + s12 s 22. que é conhecida como DISTÂNCIA ESTATÍSTICA.. É fácil perceber que a diferença entre a distância Euclidiana e a distância Estatística está nos pesos (inversos das variâncias) e que quando as variâncias são iguais usa-se a distância Euclidiana. EXERCÍCIOS 1) Um conjunto de pares de medidas (x1, x2) de duas variáveis produziu médias amostrais iguais a zero e variâncias s12 = 4 e s22 = 1. Suponha que X1 não seja relacionada com X2. a) Calcule a distância estatística do ponto P(x1, x2) à origem. b) Construa o gráfico do lugar geométrico dos pontos cuja distância estatística à origem é 1. c) Escreva também a equação deste lugar geométrico para uma distância c e ainda o gráfico nesta situação genérica. 2) Escreva a expressão da distância estatística do ponto P de coordenadas x’s ao ponto Q de coordenadas y’s, ambos situados no Rp. Sabe-se que cada coordenada distinta tem variância si2 i = 1,2, ....,p.. 6.

(7) 7.

(8) 2. ÁLGEBRA MATRICIAL E VETORES ALEATÓRIOS 2.1 - Álgebra Matricial Um arranjo x de números reais x1, x2, ...... ,xp é chamado vetor e é escrito como  x1  x  2 x=   ou x’= [x1 x2 ... xp] (vetor transposto).  ...    x p  Um vetor pode ter o seu módulo diminuído ou aumentado quando é multiplicado por uma constante c, cx’= [cx1 cx2 ....... cxp] e a adição de vetores é feita somando-se os elementos componentes dos vetores (ordenadamente),  x1   y1  x  y  2 2 z=x+y=  + =  ...   ...      x p  y p .  x1 + y1  x + y  2  2  .........    x p + y p . O produto interno dos vetores x e y de dimensão p é definido por x.y = y.x = x’y = p. ∑x y i. i. (escalar). i =1. Comprimento ou norma de um vetor p-dimensional x é definido como a raiz quadrada do produto interno do vetor por ele mesmo, ou seja, ||x|| =. '. x . x = x 12 + x 22 +......+ x 2p. Norma Quadrática de um vetor x p-dimensional é o quadrado da norma do vetor, ||x||2 =. p. ∑x. 2 i. i =1. EXERCÍCIO 1) Sejam os vetores x’ = [x1 x2] e y’ = [y1 y2] ∈ R2. a) Faça um desenho dos vetores supondo que xi e yi i = 1,2 ∈ R+; b) Determine o co-seno do ângulo interno dos vetores em função das coordenadas; c) Escreva a generalização do co-seno do ângulo entre dois vetores. 2) Dados os vetores x’= [1 3 2] e y’= [-2 1 -1], pede-se: a) o vetor 3x; b) o vetor soma x + y; c) o comprimento ou norma de cada um dos vetores;. 8.

(9) d) a norma quadrática de cada um dos vetores; e) o ângulo entre os dois vetores; Vetores Linearmente Dependentes: Os vetores x1, x2, .... ,xk de mesma dimensão p são linearmente dependentes se existem constantes c1, c2, .... ,ck , nem todas nulas, tal que c1x1 + c2x2 + ... + ckxk = 0 e, portanto um vetor é C.L. dos outros. Em caso contrário os vetores são chamados de linearmente independentes. Exercício 1: Verifique se x1’ = [4, 2, 1], x2’ = [1, 0, –1] e x3’ = [5, –2, 1] são linearmente dependentes. Exercício 2: Verifique se x1’ = [1, 1, 3] e x2’ = [4, 4, 12] são linearmente independentes. Matriz: uma matriz A de ordem n x p é um arranjo retangular de números reais formado por n linhas e p colunas. Quando n = p a matriz é dita quadrada,  a 11 a 21 A=   ...  a n 1. a 12 a 22 ... a n2. ... a 1p  ... a 2 p   ... ...   ... a np . Matriz Transposta: a matriz transposta, A’, de A é formada quando se troca as linhas pelas colunas, obtendo-se A’ de ordem p x n. Matriz Simétrica: quando a matriz A é formada de modo que A’ = A, então ela é chamada de simétrica. Matriz Inversa: a matriz quadrada A de ordem pxp admite inversa representada por Ade ordem pxp se existe uma matriz A-1 tal que AA-1 = I, onde I é a matriz identidade de ordem p e com 1’s na diagonal principal e zeros fora dela. Assim, 1. AA-1 = A-1A = I A condição técnica para que a inversa exista é que as p colunas da matriz sejam linearmente independentes. EXERCÍCIOS 1) Verifique se os vetores x’= [1 1 3] e y’= [4 4 12] são independentes. 3 2 2) Mostre que a matriz A =   admite inversa. 4 1 Matriz Ortogonal: uma matriz quadrada A é chamada de ortogonal quando suas linhas consideradas como vetores são mutuamente perpendiculares e têm comprimentos unitários, isto é: A’A = I e conseqüentemente A’ = A-1.. 9.

(10) Autovalores e autovetores: uma matriz quadrada A é dita ter um autovalor λ (eigenvalue) com correspondente autovetor e’≠ 0 (eigenvector) se Ae = λe. RESULTADO 2.1 Uma matriz quadrada simétrica A de ordem k x k tem k pares de autovalor e autovetor: (λ1, e1), (λ2, e2), .... ,(λk, ek). OBS. Os autovetores podem ser escolhidos de modo a terem o comprimento igual a 1, ou seja, e’.e = 1. RESULTADO 2.2 Seja A uma matriz quadrada de ordem k x k e I a matriz identidade de ordem kxk, então os escalares λ1, λ2,.....,λk satisfazendo a equação A - λI = 0 são os autovalores de A. EXERCÍCIOS: 1 0 1) Determine os autovalores e autovetores da matriz   1 3 2) Verifique se realmente os autovetores encontrados no exercício 1 têm comprimento igual a 1.  1 −5 3) Dada a matriz A =   verifique se 6 e [1 / 2 -1/ 2 ] formam um dos pares  −5 1  de autovalor/autovetor de A . Formas Quadráticas: uma forma quadrática Q(x) nas p variáveis x1, x2, ..... ,xp é definida por Q(x ) = x’Ax , onde x’= [x1, x2, .... ,xp] e A é uma matriz quadrada de ordem pxp simétrica. Note que a forma quadrática pode ser escrita como p. Q(x) =. p. ∑∑a. ij. xi x j. i =1 j=1. EXERCÍCIO: 1 1  x 1  1) Escrever a forma quadrática Q(x) = [x1 x2]     como um polinômio. 1 1  x 2  Matriz positiva definida: a matriz A é positiva definida se x’Ax > 0 ∀x ≠ 0. Matriz positiva semi-definida: a matriz A é positiva semi-definida se x’Ax ≥ 0 ∀x ≠ 0. RESULTADO 2.3: Teorema da Decomposição Espectral Qualquer matriz simétrica A de ordem pxp pode ser escrita como p. A = PΛP’=. ∑λ. i. eiei’. i =1. onde Λ é uma matriz diagonal formada com os autovalores de A e P é uma matriz ortogonal (P’P=I) cujas colunas são os autovetores padronizados (normalizados ei’ei = 1 e ei’ej = 0 i≠j) de A.. 10.

(11) EXERCÍCIOS:  4 1  x 1  2) Escrever a forma quadrática Q(x) = [x1 x2]     como polinômio.  1 1  x 2   13 −4 2  3) Considere a matriz simétrica A = −4 13 −2 . Determine os autovalores e   2 −2 10  autovetores de A. 4) Mostre que a forma quadrática Q(x ) = 3x12 + 2x22 - 2 2 x1 x2 pode ser escrita na forma x’Ax.  3 − 2 5) Mostre que a matriz A =   é definida não-negativa. 2  − 2 Matriz raiz quadrada: a decomposição espectral permite expressar a inversa de uma matriz quadrada em termos dos seus autovalores e autovetores e isto leva a uma matriz muito útil, que é a matriz raiz quadrada (exercício adiante). Matriz idempotente: a matriz quadrada A de ordem p x p é chamada de idempotente se A A = A2 = A EXERCÍCIOS: 6) Seja uma matriz quadrada A, simétrica de ordem k x k, determine a matriz raiz quadrada A1/2 dada a matriz dos autovalores Λ e a matriz dos autovetores P (ortogonal) da matriz A.  4 1,8 6A) Calcule a matriz raiz quadrada de B =   1,8 1  2.2 - Matriz e Vetor Aleatório DEF 1: Um espaço de probabilidade é um trio ( Ω ,A, P) onde : a) Ω é um conjunto não vazio (espaço amostral) ; b) A é uma σ-álgebra de subconjuntos de Ω ; c) P é uma medida de probabilidade em A. DEF. 2: Um vetor X’= (X1, X2, ... , Xp) cujas componentes são variáveis aleatórias definidas no mesmo espaço de probabilidade ( Ω ,A,P), é chamado vetor aleatório pdimensional. DEF. 3: Função de Distribuição de Vetor Aleatório A função de distribuição F = Fx = F x , x ,..., x de um vetor aleatório X’= (X1 , X2 , ... , XP 1. 2. P. ) é definida como F(x) = F(x1,x2,...,xP) = P(X1 ≤ x1, X2 ≤ x2,...,Xp ≤ xp) ∈ RP.. ∀(x1,x2,...,xp). 11.

(12) F é também chamada função de distribuição conjunta das variáveis aleatórias X1, X2,...,XP. EXEMPLO: Uma urna contém três bolas numeradas 1, 2, 3. Duas bolas são retiradas sucessivamente da urna, ao acaso e sem reposição. Seja X o número da 1ª bola retirada e Y o número da 2ª. a) b) c) d). Escreva o espaço amostral Ω . Escreva a distribuição conjunta de (X, Y). Calcule a P(X<Y). Calcule a F(1,2).. Então, um vetor aleatório é o vetor cujos elementos são v.a’s e de modo semelhante uma matriz aleatória é a matriz cujos elementos são v.a’s. Seja X uma matriz aleatória de ordem nxp, então:  E( X 11 ) E( X 12 )  E( X ) E( X ) 21 22 E(X) =   .... ....   E ( X n1 ) E ( X n 2 ). .... E( X 1p )  .... E( X 2 p )   onde E(Xij) = .... ....   .... E( X np ) . ∫. ∞. −∞. x ij f ij ( x ij )dx ij. Propriedades: sejam X e Y matrizes aleatórias de mesmas dimensões e sejam A e B matrizes de constantes (não-aleatórias) de dimensões compatíveis com X e Y. Então: a) E(X+Y) = E(X) + E(Y) b) E(AXB) = AE(X)B E se µ é E(X) = [µ1 µ2 ...... µp]’ então µi é E(Xi)= µi. Matriz de Covariância: de um vetor aleatório X é definida por, Σ = V(X) = E(X - µ)(X - µ)’. 12.

(13) EXERCÍCIOS (matriz de covariância e de correlação): 7) Construir a matriz de covariâncias do vetor aleatório X a partir da definição anterior. 8) Construir a matriz de correlação do vetor aleatório X a partir da matriz de covariância. 9) Mostre o resultado V1/2ρV1/2 = Σ, onde V1/2 é a matriz desvio-padrão. 10) Dada a matriz de covariância a seguir, determine a matriz desvio-padrão V1/2 e a matriz de correlação ρ.  σ 12  σ 12 Σ=   ...  σ 1 p. σ 12 σ .... 2 2. σ 2p. ... σ 1 p   ... σ 2 p  ... ...   ... σ 2p . 11) Faça um quadro que contenha definição, notação e exemplos triviais de: matriz escalar, vetor coluna, vetor de unidades, matriz retangular, matriz quadrada, matriz diagonal, matriz identidade, matriz simétrica, matriz de unidades, matriz triangular superior, matriz triangular inferior, matriz assimétrica, matriz nula, matriz definida positiva, matriz definida não-negativa e matriz idempotente. 12) Faça um quadro que contenha as definições das seguintes operações com matrizes: adição, subtração, multiplicação por escalar, produto interno, multiplicação, traço de uma matriz e determinante. 13) Dadas as matrizes abaixo determine as operações indicadas em seqüência:  1 2 −1 A = −1 3 −1 B =    2 2 4 .  3 2 −1 2 3 1 e C=   −1 1 3 .  2 0  −1 1     3 2. a) A + B b) A - B c) A - 2B d) A’+ B e) (A+B)’ f) (3A’-2B)’ g) tr(A) h) tr(B) i) AB j) BC 2 3 1 14) Calcule a matriz inversa de A = 1 2 3    3 1 2. 13.

(14) 3 - MATRIZ DE DADOS, VETOR DE MÉDIAS E MATRIZ DE COVARIÂNCIA 3.1- Matriz de Dados Uma matriz de dados com n unidades observacionais e p variáveis pode ser escrita na seguinte forma:  x 11 x 12 ... x 1 j ... x 1p   01 x 0 x 22 ... x 2 j ... x 2 p   21   2  ... ... ... ... ... ...   ... unidades observacionais  X=    x i1 x i 2 ... x ij ... x ip   0i  ... ... ... ... ... ...   ...     x n1 x n 2 ... x nj ... x np  0 n i = 1,2,...,n j = 1,2...,p  x1j   x i1  x  x  i 2  2j    ...   ...  onde x(i) =   (vetor linha) e x(j) =   (vetor coluna) X = [x1,x2,..,xp]  x ij   x ij   ...   ...       x nj   x ip  EXEMPLO 1: Matriz de dados com cinco estudantes como unidades observacionais e idade em anos na entrada para a universidade, nota até 100 no exame de fim do 1º ano e sexo como as variáveis, respectivamente, X1, X2 e X3. Variáveis Observações 1 2 3 4 5. X1 idade 18,45 18,41 18,39 18,70 18,34. X2 nota 70 65 71 72 94. X3 sexo 1 0 0 0 1. EXERCÍCIO: Para os dados do exemplo anterior escreva o vetor linha da 3ª unidade observacional e o vetor coluna da 2ª variável:. 14.

(15) 3.2- Vetor de Médias Dada a matriz nXp = (xij), i = 1, ... ,n itens e j = 1,..., p variáveis, a média amostral da jésima variável é dada por: xj=  x 11 x  21 n Xp =  ...   x n1. x 12 x 22 ... x n2. ... x 1 j ... x 2 j ... ... ... x nj. 1 n. ... x 1p  ... x 2 p   ... ...   ... x np . n. ∑x. ij. i =1.  x 11 x  12 pX’n =  ...   x 1p. x 21 x 22 ... x2p. ... x n1  ... x n 2   ... ...   ... x np . e o vetor de médias amostral é dado por x’ = [ x1 x 2 ... x p ] e representa o centro de gravidade dos pontos amostrais sendo que x j representa o centro de gravidade da amostra da variável Xj. EXEMPLO 2: Para a matriz de dados do exemplo 1 determine o vetor de médias: x’ = [ 18,458 74,40 0,4 ] O vetor de médias pode ser escrito em notação matricial: x =. 1 n 1 x i = X ' 1n ∑ n i =1 n. EXERCÍCIOS: 1) Verifique a afirmação anterior. 2) Calcule o vetor de médias amostral para a matriz de dados do exemplo 1, usando a notação matricial. 3) Calcule o vetor de médias da matriz de dados seguinte que mostra os pesos de depósitos de cascas de 28 árvores em 4 direções (N, S, L, O).. 15.

(16) N. E. S. W. N. E. S. W. 72 60 56 41 32 30 39 42 37 33 32 63 54 47. 66 53 57 29 32 35 39 43 40 29 30 45 46 51. 76 66 64 36 35 34 31 31 31 27 34 74 60 52. 77 63 58 38 36 26 27 25 25 36 28 63 52 43. 91 56 79 81 78 46 39 32 60 35 39 50 43 48. 79 68 65 80 55 38 35 30 50 37 36 34 37 54. 100 47 70 68 67 37 34 30 67 48 39 37 39 57. 75 50 61 58 60 38 37 32 54 39 31 40 50 43. 3.3- Matriz de Covariância Amostral e Matriz de Correlação Amostral • A variância amostral da j-ésima variável é: sjj =. 1 n ∑ (x ij − x j ) 2 = s 2j n − 1 i =1. j = 1 , 2 , ... , p variáveis. • A covariância amostral entre a j-ésima e a k-ésima variável é: sjk =. n 1 n 1 ( x ij − x j )( x ik − x k ) = (∑ x ij x ik − n x j x k i = 1, 2,..., n ∑ n − 1 i =1 n − 1 i =1 k,j = 1, 2,..., p. • A matriz de ordem pxp, S = (sjk), com os elementos dados pelas expressões acima é chamada MATRIZ DE COVARIÂNCIA AMOSTRAL. EXERCÍCIOS: 1) Para os dados do exemplo do item 3.1: a) Estime as variâncias das variáveis X1, X2, X3. b) Repita o item (a) matricialmente. c) Estime o coeficiente de correlação ρ entre as variáveis X1 e X2, X2 e X3. 2) Para a matriz de dados do exercício 3 anterior, estime: a) As variâncias das quatro variáveis. Faça do modo tradicional e confirme usando o procedimento matricial. b) As covariâncias entre as quatro variáveis. Do modo tradicional e em confirmação pelo procedimento matricial. c) A matriz de covariâncias das quatro variáveis. d) A matriz de correlação das quatro variáveis.. 16.

(17) 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA 4.1 - Introdução Dizemos que um vetor aleatório tem distribuição Normal Multivariada se possui a mesma distribuição de uma transformação afim de normais padrões independentes. Isto significa que se X1, X2, ..... ,Xp são i.i.d. N(0,1), então o vetor Y’=[Y1,Y2, .... ,Yp], onde Yj = µj + a1j X1 + a2jX2 + .... + apj Xp para i,j = 1, 2, ..., p , com µj e ai ∈ R possui distribuição Normal p-variada. Na forma matricial temos Y = A’X + µ onde A é a matriz da transformação, real p x p, e µ é um vetor real p-dimensional. Então dizemos que Y tem distribuição Normal p-variada com média µ e matriz de covariâncias Σ = A’A, ou seja, Y’ ~ Np(µ, Σ). EXERCÍCIO 1 a) Dada a equação Y = A’X + µ faça os detalhes dessa equação especificando os termos que a compõem. b) Especifique a distribuição de Yj; c) Determine a matriz de covariâncias de Y;. 4.2 - A função densidade de probabilidade da normal p-variada A densidade do vetor Y é dada por: f(y1,y2, .... ,yp) =. 1 ( 2π ) p Σ. 1 2. e. 1 − ( y − µ )' Σ −1 ( y − µ ) 2. y ∈ℜp , µ∈ℜp e Σ é definida não-. negativa. EXERCÍCIO 2 a) Seja X ~N(0,1), determine a distribuição de Y = X2; b) Seja o vetor aleatório X’ = [X1, X2, ... ,Xp] onde Xi são v.a’s i.i.d N(0,1) e seja o vetor aleatório Y obtido pela transformação Y = A’X + µ onde A é a matriz da transformação, real p x p, e µ é um vetor real p-dimensional. Determine a f.d.p. do vetor aleatório Y. c) Suponha que na situação do item anterior a matriz de transformação A seja ortogonal, então AA’=Ip. Determine a matriz de covariâncias do vetor Y, o seu determinante e a f.d.p. do vetor.. 17.

(18) EXERCÍCIO 3 Seja o vetor aleatório Y’=[Y1,Y2] que tem uma distribuição N2(µ,Σ). a) Escreva a f.d.p. do vetor; b) Determine as distribuições marginais: fY1(y1), de Y1, e fY2(y2) de Y2; c) Determine a matriz da covariância do vetor Y. EXERCÍCIO 4   Sejam o vetor de médias µ’ =[0, 0] e a matriz de transformação A =   . 1 2 1 2. 1   2  para a 1  − 2 . transformação do vetor X’ = [X1,X2] no vetor Y’ = [Y1,Y2] com Xi v.a’s i.i.d N(0,1). a) b) c) d) e). Escreva a equação da transformação para cada componente do vetor Y; Quais as distribuições marginais de Y1 e de Y2? Qual a distribuição de W1 = X1+X2 e a de W2 = X1-X2? Qual a matriz de covariâncias de Y? Qual a f.d.p. (conjunta) de Y?. EXERCÍCIO 5 Seja o vetor aleatório [Y1, Y2] com distribuição Normal Bivariada com σ11 = σ22. Escreva: a) A f.d.p. do vetor Y; b) A matriz de covariâncias Σ; c) Determine as densidades marginais de Y1 e Y2. 4.3 -Densidade de probabilidade constante e estatísticas suficientes 4.3.1- Densidade de probabilidade constante (contours, curva de nível) Na expressão, a seguir, da Normal p-variada é possível ver que o lugar geométrico dos valores de y a uma altura constante no eixo da f.d.p (f(y) são elipsóides centrados em µ, ou seja, são elipsóides definidos por (y - µ)’Σ-1(y - µ) = c2. Os eixos de cada elipsóide de densidade constante estão nas direções dos autovetores de Σ-1 (e também de Σ) e seus comprimentos são proporcionais aos recíprocos das raízes quadradas dos autovalores de Σ-1. Assim considerando a expressão, f(y1, y2, .... ,yp) = 1 − ( y − µ )' Σ −1 ( y − µ ) 1 2 , os eixos são ± λ i e i . e 1 p ( 2π ) Σ 2. 18.

(19) RESULTADO 4.1 Seja o vetor X ~ Np(µ,Σ) com |Σ| > 0. Então: a) (X - µ)’ Σ-1(X - µ) ~ χ 2p. (qui-quadrado com p graus de liberdade) ;. b) A Np(µ,Σ) assume probabilidade 1 - α para o elipsóide (sólido) {x | (x - µ)’ Σ-1(x - µ) < χ 2p (1-α)}, onde χ 2p (1-α) denota o 100(1-α) percentil da distribuição χ 2p . Assim, o elipsóide x satisfazendo (x - µ)’ Σ-1(x - µ) < χ 2p (1-α) tem probabilidade 1 - α.. (obs. veja ex. 9). EXERCÍCIO 6 Para a situação do exercício 5, pede-se: a) Os autovalores de Σ; b) Os autovetores deΣ; c) Determine os eixos considerando o contour (curva de nível) associado a f.d.p. em c2; d) Determine o comprimento de cada eixo e o ângulo que o eixo maior faz com o eixo Y1 . e) Faça um esboço da figura gerada na solução do problema. EXERCÍCIO 7 Suponha que Y ~ N2(µ,Σ) tal que µ’=[15, 20] e σ12 = σ22 = 25 e ρ = 0,6. a) b) c) d) e) f). Escreva a expressão da f.d.p. na forma vetorial e na forma clássica; Determine os autovalores de Σ; Determine os autovetores de Σ; Determine os eixos de um ‘contour’ (curva de nível) associado a constante c2; Determine o comprimento de cada eixo da curva de nível do item anterior; Determine o ângulo que o eixo maior faz com o semi-eixo positivo das abscissas;. EXERCÍCIO 8 Em quais circunstâncias a curva de nível do exercício anterior é um círculo? EXERCÍCIO 9 Seja o vetor Y ~ N2(µ,Σ) do exercício 7, determine: a) o valor de χ 2p tal que P[(y - µ)’ Σ-1(y- µ) < χ 2p (1-α)] = 1 - α = 0.90; b) Descreva como a N2(µ,Σ) assume a probabilidade de 0.90 para o elipsóide sólido (cilindro elíptico) e também faça o esboço do elipsóide; c) Faça a interpretação geométrica dessa região tridimensional; d) Faça a interpretação estatística dessa região tridimensional; e) Escreva a equação da elipse que gera o elipsóide de 90% de confiança;. 19.

(20) f) Considerando a equação da elipse encontrada no item anterior verifique quais dos pontos seguintes caem dentro da elipse de 90%: P1(23, 25), P2(10, 15), P3(19, 14.435), P4(12, 28). EXERCÍCIO 10 Na situação do problema anterior considere a transformação tal que Y1 - µ1 = y1 e Y2 µ2 = y2, de modo que a equação da elipse torna-se:. 1 2 [ y1 + y 22 − 1.2 y1 y 2 ] = c 2 . 16. a) Explique, geometricamente, o que ocorreu com essa transformação; b) Considerando que a equação da elipse de 90% é dada por y12 + y 22 − 1.2 y1 y 2 = 73.680 , faça um esboço da elipse e marque os 4 pontos do exercício anterior. EXERCÍCIO 11 (Densidade Condicional da Normal Bivariada) Seja o vetor Y ~ N2(µ,Σ), determine a f.d.p. f(y1|y2), condicional de Y1 dado Y2 = y2 . RESULTADO 4.2 Se Σ é definida positiva tal que Σ-1 existe, Σe = λe implica em Σ-1e = (1/λ)e de modo que ao par de autovalor/autovetor (λ, e) de Σ corresponde o par de autovalor/autovetor (1/λ, e) de Σ-1 e ainda Σ-1 é definida positiva. EXERCÍCIO 12 Prove o resultado anterior. RESULTADO 4.3 Dado a matriz B simétrica, positiva definida, de ordem pxp e o escalar b > 0, então. 1 |Σ|. b. e −tr (Σ. −1. B) / 2. ≤. 1 | B |b. (2b) pb e −bp. igualdade valendo somente para Σ =. para toda matriz positiva definida Σ com a 1 B. 2b. EXERCÍCIO 13 Prove o resultado anterior. RESULTADO 4.4 Seja X1, X2, ... ,Xn uma a.a. de uma população normal p-variada com média µ e matriz n −1 de covariância Σ. Então, µˆ = X e Σˆ = S são respectivamente os estimadores de n. máxima verossimilhança dos parâmetros µ e Σ. EXERCÍCIO 14 Prove o resultado anterior.. 20.

(21) 4.3.2 – Estatísticas suficientes Da expressão da função densidade de probabilidade conjunta f(x1,x2, .... ,xn) =. −tr [ Σ −1 (. 1 np ( 2π ) 2. Σ. n 2. e. n. ∑ ( x j − x )( x j − x )' + n( x − µ )( x − µ )' ] / 2. observa-se que a. j =1. densidade conjunta depende do conjunto das observações somente através da média amostral X e da soma de quadrados e produtos cruzados. n. ∑ (x. j. − x )( x j − x )' = (n-1)S.. j =1. Isto significa que X e (n-1)S são estatísticas suficientes. Então, dada a a.a. X1, X2, ... ,Xn de uma população normal p-variada com média µ e matriz de covariância Σ, as estatísticas X e S são estatísticas suficientes para estimar aqueles parâmetros, respectivamente. 4.4 – Distribuição amostral de X e S Seja a a.a. [X1, X2, ... ,Xn] da v.a. X ~ Np(µ,Σ), então a distribuição de X é determinada de forma análoga ao caso univariado e tem-se X ~ Np(µ,. 1 Σ) e a distribuição amostral n. de (n – 1)S segue a distribuição de Wishart. Resumindo tem-se: 1 Σ) n • (n – 1)S ~ Wishart com n – 1 g.l’s • X e S são independentes. • X ~ Np(µ,. A distribuição de Wishart é definida como a soma de produtos independentes de vetores aleatórios normais, ou seja, Wm(.|Σ) é a distribuição de Wishart com m g.l’s do produto m. ∑Z. j. Z 'j onde Zj ~ Np(0, Σ).. j =1. • •. n ( X - µ) ~ Np(0, S) n( X - µ)’S-1 ( X - µ) ~ χ 2p. EXERCÍCIO 15 Enuncie o Teorema Central do Limite para o caso multivariado. • R. “Seja [X1,X2, ... ,Xn] observações independentes da v.a. X ~ Np(µ, Σ). Então n ( X - µ) tem aproximadamente distribuição Np(0, Σ) para n grande e ainda a magnitude de n pode ser relativamente a p”. 4.5- Testes sobre os parâmetros de locação e de dispersão de distribuições normais multivariadas e regiões de confiança 4.5.1- Testes da razão de verossimilhança. 21.

(22) A estratégia geral dos Testes da Razão de Verossimilhança é maximizar a função de verossimilhança sob a hipótese H0 e também maximizar a função de verossimilhança sob a hipótese alternativa H1. Def. Se a distribuição do vetor aleatório X’ = [X1, X2, ..... , Xp] depende do vetor de parâmetros θ e se H0 : θ ∈ Θ0 e H1 : θ ∈ Θ1 são as hipóteses envolvidas no teste, então a estatística da razão de verossimilhança que testa H0 contra H1 é definida por: λ(x) = L1*/L0* onde Li* é o maior valor que a função de verossimilhança assume na região Θi i = 0, 1. Equivalentemente, pode ser usada a estatística: -2log(λ(x)) = 2(l1* - l0*) onde li* = log(Li* ). No caso de hipóteses simples, onde cada região Θi i = 0, 1 contém somente um único ponto, as propriedades ótimas da estatística razão de verossimilhança são provadas pelo bem conhecido Lema de Neyman-Pearson. De uma maneira geral decidiremos a favor de H1 quando a estatística da razão de verossimilhança é alta e a favor de H0 quando ela é baixa. Assim, um teste baseado na estatística razão de verossimilhança pode ser definido da seguinte forma: Def. O teste da razão de verossimilhança de tamanho α para testar H0 contra H1 tem região de rejeição R = {x | λ(x) > c} onde c é determinado tal que sup Pθ ( x ∈ R ) = α (θ de H0). 4.5.2- Seja testar a hipótese H0: µ = µ0 quando Σ é conhecida e X ~ Np(µ,Σ) -2log(λ(x)) = 2(l1* - l0*) = n ( x - µ0)’Σ-1 ( x - µ0) ~ χ 2p (exata) Exemplo 1: Considere a estatística x ’=[185.72 183.84] obtida de uma a.a. com tamanho n = 25 100 0  tomada de uma população N2( µ, Σ) com Σ =  .  0 100 a) Teste a hipótese nula de que a distribuição (população) tem média µ0’ = [182 182]. Resposta: -2log(λ(x)) = 4.31 < χ2 = 5.99 aceitamos H0. b) Determine a região de confiança para as médias µ1 e µ2 -1. 100 0  Resposta: 25(185.72 - µ1 183.84 - µ2)    0 100.  185.72 − µ 1  183.84 − µ  < 5.99 2 . 4.5.3- Seja testar a hipótese H0: µ = µ0 quando Σ é desconhecido e X ~ Np(µ,Σ). 22.

(23) Neste caso Σ deve ser estimado sob H0 e sob H1. Portanto ambas as hipóteses são compostas. Assim, -2log(λ(x)) = 2(l1* - l0*) = nlog(1+( x - µ0)’S-1( x - µ0)) e [. n− p ]( x - µ0)’S-1( x - µ0) ~ p. Fp,n-p Exemplo 2: Considere as estatísticas x ’=[185.72 183.84] obtido de uma a.a. com tamanho n = 25  91.481 66.875 tomada de uma população N2( µ, Σ) que também forneceu S =  . 66.875 96.775 Teste a hipótese nula de que a distribuição (população) tem média µ0’ = [182 182]. -1. Resposta:. [(n-p)/p]( x -. µ0)’S-1( x -. µ0). =. (23/2). [3.72. . 66.875  91481 1.84]    66.875 96.775.  3.72  184  =1.95 < F2,23 (0.95)=3.44, logo aceitamos H0. . . 4.5.4- Seja testar a hipótese H0: Σ = Σ0 quando µ é desconhecido e X ~Np(µ,Σ) Os estimadores de máxima verossimilhança de µ e Σ sob H0 são, respectivamente, X e Σ0. Sob H1 são X e S, portanto, -2log(λ(x)) = 2( A1 * - A 0 *) = n tr(Σ0-1S) – nlog|Σ0-1S| - np E, esta estatística é função dos autovalores de Σ0-1S e tem-se, ainda, que Σ0 é aproximada por S quando -2log(λ(x)) se aproxima de zero. Então, .. -2log(λ(x)) = 2( A1 * - A 0 *) = n tr(Σ0-1S) – nlog|Σ0-1S| - np = np[a – log(g) – 1] ~ χ m2 (assintótica) Onde, a é a média aritmética dos autovalores, g é a média geométrica e o número de graus de liberdade m é igual ao número de parâmetros independentes em Σ, ou seja, p(p+1)/2. Exemplo 3 Considere as estatísticas x ’ = [185,72 183,84] obtida de uma a.a. com tamanho n = 25  91, 481 66,875 tomada de uma população N2(µ, Σ) que também forneceu S =   . Teste  66,875 96, 775. 23.

(24) a hipótese nula de que a distribuição (população) tem matriz de covariância Σ = 100 0  100 0   0 100  , ou seja, H0: Σ = Σ0 =  0 100  .     SOLUÇÃO:  0, 01 0   91, 481 66,875  0,91481 0, 66875 =  A matriz Σ0-1S =      tem 0, 01  66,875 96, 775  0  0, 66875 0,96775 autovalores iguais a λ1 = 1,611 e λ2 = 0,272. Então, a = 0,9413 e g = 0,6619 e, conseqüentemente, -2log(λ(x)) = 17,70. Comparando o valor da estatística com o escore χ 32 (0,95) = 7,81 rejeita-se a hipótese H0 ao nível de 5% de significância. Isto é evidente devido a matriz apresentar forte correlação entre as variáveis. Exemplo 4  91, 481 66,875 Considere as estatísticas x ’ = [185,72 183,84] e S =   obtidas de uma  66,875 96, 775 a.a. de tamanho n = 25 tomada de uma população N2(µ, Σ) com parâmetros desconhecidos. Teste a hipótese nula de que a população tem matriz de covariância Σ = 100 50  100 50  , ou seja, H0: Σ = Σ0 =  Σ0 =   .  50 100   50 100  Reposta: a = 0,8092, g = 0,7642 e -2log(λ(x)) = 3,9065; portanto, comparando com χ 32 (0,95) = 7,81 aceitá-se H0. 4.5.5- Região de Confiança do vetor de médias µ Seja θ o vetor de parâmetros populacional desconhecido e Θ o espaço paramétrico de θ , ou seja, o conjunto de todos os possíveis valores de θ. A região R(Χ), onde X é a matriz com as observações multivariadas da a.a. X = [X1, X2, ..... , Xn], é dita ser uma região de confiança ao nível de confiança de (1 - α) se, P[R(X) cobrir o verdadeiro θ] = 1 - α A região de confiança para o vetor de médias µ de uma população normal pdimensional é aquela que: P[n( x − µ )' S −1 ( x − µ ) ≤. ( n − 1) p F p ,n − p (1 − α )] = 1 − α (n − p). quando os parâmetros µ e Σ são desconhecidos e estimados por x e S. EXERCÍCIO 1 O Departamento de Controle de Qualidade de uma indústria de fornos de microondas recebeu a exigência do Governo Federal para controlar a quantidade de radiação emitida quando as portas dos fornos são fechadas. Foram feitos 42 pares de observações da radiação emitida por n = 42 fornos escolhidos ao acaso, sendo 1º com a porta fechada e 2º com a porta aberta. Sejam X1 e X2 as variáveis medidas (com a porta fechada e com a. 24.

(25) porta aberta). Assumindo que essas variáveis seguem a distribuição Gaussiana e que os dados correspondentes aos 42 pares de observações forneceram as estatísticas seguintes: 0.014 0.012. S=   e X = [0,564;0,603] 0.012 0.015 a) b) c) d) e). Calcule os autovalores e autovetores de S; Calcule a elipse de 95% de confiança para µ; Verifique se µ’=[0.562 0.589] está na região de confiança; Determine o comprimento dos semi-eixos positivos da elipse de 95% de confiança; Faça um esboço detalhado da elipse de 95%.. 4.5.6- Verificação de Gaussianidade para distribuições bivariadas A suposição de Gaussianidade é muito importante em muitas propostas estatísticas. Por razões práticas é usualmente suficiente investigar-se a Gaussianidade das distribuições univariadas e bivariadas. Se as observações foram geradas de uma distribuição normal multivariada, cada distribuição bivariada pode ser normal e as curvas de nível de densidade constante são elipses. Assim, pelo resultado 4.1, tem-se: (x- µ)’Σ-1 (x- µ) < χ 22 (1-α) e é possível esperar grosseiramente que a porcentagem de 100(1-α)% das observações situem-se na elipse de nível (1 - α) de confiança quando usamos o modelo com os parâmetros estimados por x e S, respectivamente. EXERCÍCIO 2 Verifique se os dados das variáveis X1 e X2 listados na tabela abaixo seguem a distribuição normal bivariada. empresa 1 2 3 4 5 6 7 8 9 10. X1 (capital) 26.7 38.4 19.2 20.6 18.9 14.8 19.0 14.2 13.7 7.7. X2 (rend. líquido) 3.3 2.4 1.7 1.0 0.9 1.0 2.7 0.8 1.1 0.2. EXERCÍCIOS. 25.

(26) 16 8. 1) Suponha uma população normal bivariada com matriz de covariâncias Σ =   e  8 9 que uma a.a. de n = 25 observações forneceu um centróide de [15.4 , 9.9]. Teste a hipótese nula de que µ’ = [17, 10] ao nível de 5% de significância. 2) Suponha uma a.a. [x1, x2, .... , xn] de uma distribuição normal Np(µ , Σ). a) Escreva a distribuição de n ( x − µ ); b) Escreva a distribuição de n ( x − µ )' S −1 ( x − µ );. 5. COMPARAÇÃO ENTRE VETORES MÉDIOS 5.1- Comparação entre dois vetores médios: teste T2 de Hotelling Sejam duas populações P1 e P2 das quais foram tomadas amostras de tamanho n1 e n2 de P1 e P2, respectivamente. Estas amostras forneceram as estatísticas que estimam os parâmetros populacionais µi e Σi, ou seja, x 1 , x 2 , S1 e S2 . Para se testar a hipótese de que os vetores médios são iguais usaremos a estatística T2 = [( x 1 - x 2) - (µ1 - µ2)]’ [(1/n1 + 1/n2)Sp]-1[( x 1 - x 2) - (µ1 - µ2)] com distribuição T2 ~. (n1 + n2 − 2) p Fp ,n1 + n2 − p −1 n1 + n2 − p − 1. EXERCÍCIO 1 Cinqüenta barras de sabão são feitas de duas maneiras. Duas características: X1 (espuma) e X2 (brancura) são medidas. As estatísticas para as barras produzidas pelos 2 1 2 1  métodos 1 e 2 são: x 1’ = [8,1 4,1] , x 2’ = [ 10,2 3,9] , S1 =  , S2 =    , pede1 6 1 4 se: a) A estimativa da matriz de covariâncias Σ (supondo comum a variância); b) Teste a hipótese de que os dois processos de fabricação estão centrados no mesmo ponto; c) Determine os autovalores e autovetores de Sp; d) Construa a elipse de confiança de nível 95% e verifique se o ponto µ1 - µ2 = 0 pertence à região de confiança. 5.2- Comparação entre vários vetores médios: Manova Freqüentemente mais de duas populações necessitam ser comparadas. As a.a’s coletadas das k populações (k > 2) fornecem estatísticas usadas para testar a hipótese de que as populações possuem mesmo ponto médio. As suposições quanto à estrutura dos dados são as seguintes: • As amostras aleatórias das diferentes populações são independentes;. 26.

(27) • Todas as populações têm mesmas matrizes de covariância Σ; • Cada população é Normal Multivariada, sendo que esta condição pode ser relaxada quando os tamanhos das amostras são grandes (Teorema Central do Limite). EXERCÍCIO 2 A partir da estrutura dos dados enunciada acima escreva o modelo para uma observação multivariada Xij, decomponha o vetor de observações e monte o quadro da MANOVA, incluindo os valores de λ* , o lambda de Wilks, da distribuição exata de Wilks. Escreva ainda a expressão de teste devido a M. S. Bartlett (1938). EXERCICIO 3 Considere as seguintes amostras independentes das populações 1, 2 e 3, respectivamente, que são Normais Bivariadas com mesma matriz de covariância Σ. Pop1 Pop2 Pop3 a) b) c) d) e). [9 3], [6 2], [9 7] [0 4], [2 0] [3 8], [1 9], [2 7]. Calcule os vetores médios amostrais; Construa a tabela da MANOVA; Calcule o lambda de Wilks; Calcule a estatística de teste da hipótese de médias iguais; Teste a hipótese H0 de que as populações têm mesmas médias (vetor) ao nível de significância de 1%.. EXERCÍCIO 4 O Departamento de Saúde e Serviços Sociais de certo estado subsidia os serviços prestados por asilos de velhos (serviços de amparo à velhice). Esse departamento desenvolveu um conjunto de fórmulas para avaliar o subsídio, baseadas em fatores como nível de cuidados, salário mínimo e salário médio no Estado. As entidades podem ser classificadas com base no tipo de estabelecimento (privado, público e sem fins lucrativos) e na qualidade dos serviços prestados (SNF, ICF ou combinação SNF & ICF). Um estudo pretende investigar os efeitos do tipo de estabelecimento ou qualidade dos serviços (ou ambos) nos custos. Quatro despesas, calculadas por cliente/dia e em horas/cliente por dia, foram selecionadas para análise: X1 despesa com o trabalho “ “ a dieta X2 X3 de operação e manutenção do sistema “ doméstica e de lavanderia X4 “ Um total de n = 516 observações das p = 4 variáveis foi tomado e um resumo das estatísticas está abaixo: Privado. n1 = 271. Sem lucro n2 = 138. x 1 = [2,066 0,480 0,082 0,360]’ x 2 = [2,167 0,596 0,124 0,418]’. 27.

(28) Público. n3 = 107. x 3 = [2,273 0,521 0,125 0,383]’. e as três matrizes de covariância amostral são:  0,561   0,011 0,025    S2 =  0,001 0,004 0,005    0,003 0,000 0,010 0,037 0,007 0,002 0,019 . 0,291 −0,001 0,011 S1 = 0,002 0,000 0,001 0,010.  0,261  0,030 0,017   S3 =  0,003 0,000 0,004    0,018 0,006 0,001 0,013 a) b) c) d) e) f). Calcule o vetor médio amostral; Calcule a matriz da SQ entre os tratamentos; Calcule a matriz da SQ residual; Construa a tabela da MANOVA; Calcule o lambda de Wilks; Calcule a estatística de teste para hipótese de populações com mesma média;. 28.

(29) 6. REGRESSÃO LINEAR MULTIVARIADA 6.1- Introdução Suponha o problema de modelar o relacionamento entre m variáveis respostas Yi i = 1,2, ... m e um conjunto de r covariáveis Zi i = 1, 2, ... ,r, mas sendo assumido que cada resposta Yi segue o seu próprio modelo de regressão tal que ; Y1 = β01 + β11Z1 + ..... + βr1Zr + ε1 Y2 = β02 + β12Z1 + ..... + βr2Zr + ε2 Y3 = β03 + β12Z1 + ..... + βr2Zr + ε3 ................................................................................ ................................................................................. Ym = β0m + β1mZ1 + .. + βrmZr + εm. O termo estocástico ε’ = [ε1, ε2, .... ,εm] tem vetor de médias nulo, E(ε’), e matriz de covariâncias V(ε’) = Σ. Assim, os termos estocásticos associados com as diferentes respostas podem estar correlacionados. Então, para estabelecer-se o modelo de regressão multivariada é necessário primeiro fixar-se uma notação adequada. Assim, seja o vetor [zj0, zj1, ... ,zjr] que denota os valores das covariáveis no j-ésimo ponto (prova) j = 1,2, .... ,n , o vetor Yj’ = [Yj1,Yj2, .... ,Yjm] correspondente ao ponto j e o vetor dos erros εj’ = [εj1,εj2, .... ,εjm] no mesmo ponto j j = 1,2, .... n. De forma que se tem a matriz de planejamento Z de ordem n x (r+1)  z10 z Z =  20  ....   z n0. z11 z 21 .... z n1. .... z1r  .... z 2 r  .... ....   .... z nr . E, as respostas compõem a matriz de ordem n x m seguinte, Y11 Y12 Y  21 Y22 Y = n m  .... ....  Yn1 Yn 2. .... Y1m  .... Y2 m  = [Y(1) Y(2) .... Y(m)] .... ....   .... Ynm . e a matriz com os parâmetros é,  β 01 β  11 (r+1)βm =  ....   β r1. β 02 β 12 .... β r2. .... β 0 m  .... β 1m  = [β(1) β(2) .... β(m)] .... ....   .... βrm . ε 11 ε a matriz dos erros é, nεm =  21  ....  ε n1. ε 12 ε 22 .... ε n2. .... ε 1m  .... ε 2 m  =[ε(1) ε(2) .... ε(m)] .... ....   .... ε nm . 29.

(30) de forma que o modelo de regressão multivariado é nYm = nZ(r+1)βm + nεm com E(nεm) = n0m , cov(ε(i),ε(k)) = σikI i,k = 1,2, ... ,m. As m observações na j-ésima prova têm matriz de covariância Σ = (σik), mas observações de provas diferentes são não correlacionadas e a matriz β e as covariâncias σik são parâmetros desconhecidos. De modo que o modelo de regressão linear para a i-ésima resposta é Y(i) = Zβ(i) + ε(i) i = 1,2, ... ,m com V(ε(i)) = σiiI. Então, o estimador do vetor de parâmetros é -1 βˆ =(Z’Z) Y(i) (i ) dado a matriz de planejamento Z e o vetor de respostas Y(i). Mais geralmente tem-se a estimativa da matriz dos parâmetros r+1 βˆ m = (Z’Z)-1Z’Y a partir da matriz de planejamento e da matriz das respostas.. 6.2- Modelo de Regressão Linear Multivariada. Considere o problema, já abordado na introdução, da construção de um modelo para o relacionamento entre. Y1 , Y2 ,..., Yq. variáveis dependentes (respostas) e. X 1 , X 2 ,..., X p −1 variáveis independentes sendo que cada variável resposta segue um modelo linear específico. Então, tem-se os modelos: Y1 = β 01 + β 11 X 1 + " + β p −1,1 X p −1 + ε 1 Y2 = β 02 + β 12 X 1 + " + β p −1, 2 X p −1 + ε 2. (2.13). # Yq = β 0 q + β 1q X 1 + " + β p −1,q X p −1 + ε q Da mesma forma que no modelo clássico de regressão se tem a suposição de que o vetor de erros tem os parâmetros Ε(ε ) = 0. e. V(ε ) = ∑ ε .. Mas, neste caso ∑ ε é uma matriz cheia e não corresponde ao caso clássico de regressão que tem como matriz de covariância Σ = σ2I. No caso multivariado os erros associados a diferentes respostas podem ser correlacionados, daí tem-se ∑ ε como uma matriz cheia e não matriz diagonal. Considerando, agora, que se tenha n observações do vetor de resposta Y k , k = 1,...,q, em correspondência ao conjunto de n valores da matriz de covariáveis X de dimensão p, ou seja, é composto por X j , j = 0,..., p − 1 , então em notação matricial tem-se: 30.

(31) Y11 Y12 Y  21 Y22  # #  Yn1 Yn 2. x11 " x1 p −1   β 01 x 21 " x 2 p −1   β 11 # % #  #  x n1 " x np −1   β p −1,1. " Y1q   x10 " Y2 q   x 20 = % #   #   " Ynq   x n 0. β 02. β 0 q  ε 11 " β 1q  ε 21 + % #   #   " β p −1,q  ε n1 ". β 12 # β p −1, 2. " ε 1q  " ε 2 q  % #   " ε nq . ou, [Y 1 Y 2 ". Y q ] = [1 X 1. X2 " X. p −1. ] ⋅[β 1. β 2 " β q ] + [ε 1 ε 2 " ε q ]. ou ainda,. Y = X β+ ε. nxq. nxp pxq. (2.14). nxq. com. E (ε k ) = 0. Cov(ε λ , ε k ) = σ kλ I. k , λ = 1,2, ", p. A matriz Y , das n observações do vetor resposta Y k , k = 1,..., q , têm matriz de nxq. covariância ∑ Y , mas é assumido que Cov(Y k , Y λ ) = 0 , k ≠ λ , ou seja, os vetores respostas não são correlacionados. Como se viu, o vetor da k-ésima resposta Y k segue o modelo de regressão linear Y k = X β k + ε k , k = 1,..., q , com V (ε i ) = σ 2 I , sendo que os erros para diferentes respostas no mesmo experimento podem ser correlacionados. Para alguma escolha dos parâmetros β = [ β j1 " β jq ] , a matriz de erros é ε = Y − Xβ . 6.3- Estimação dos Parâmetros do Modelo Os βˆ jk , k = 1,..., q , serão escolhidos de tal forma a minimizar a soma dos quadrados das diferenças dada por :. (.  ˆ  Y1 − Xβ 1 ′ SQR = (Y − Xβ ) (Y − Xβ ) =    Yq − Xβˆ q . (. )′ (Y. − Xβˆ1. ). Y1 − Xβˆ1. ). 1. # ′. )(. " % ". (Y. )(. ). (. )(. ). ′ − Xβˆ1 Yq − Xβˆ m # ′ ˆ Yq − Xβ q Yq − Xβˆ q 1.    . 31.

(32) O resultado seguinte fornece informações sobre as estimativas de β .. Resultado 2. Seja o modelo Y = Xβ + ε , onde Y é a matriz de respostas e ε a matriz de erros todos com distribuição normal, ambas com ordem nxq. β é a matriz de parâmetros com dimensão pxq e X é a matriz de planejamento de ordem nxp. Então, o estimador de mínimos quadrados, da matriz de parâmetros β é dado por βˆ = (X' X) −1 X' Y .. (2.15). Prova: Como se tem os resultados. Ynxq e. os. valores. das covariáveis X nxp ,. estimativa é exclusivamente determinada pelas observações. Yk. a. na i-ésima. resposta.Assim, de acordo com o resultado 1, tem-se para uma única resposta βˆ k = (X' X) −1 X'Yk . Juntando estas estimativas univariadas de mínimos quadrados, obtém-se a matriz:. [. −1 βˆ = (X' X ) X' Y1 "Yq. ]. ou −1 βˆ = (X' X ) X' Y. e usando-se esta estimativa de mínimos quadrados βˆ , tem-se as matrizes: ˆ = Xβˆ = X(X' X) −1 X' Y , dos valores estimados para Y e Y ˆ = [I − X(X' X) −1 X' ]Y , do erro estimado (resíduos). εˆ = Y − Y. (2.16). 6.3.1. Decomposição da soma de quadrados ˆ +ε , Tem-se que o valor observado é igual ao valor ajustado mais o erro, Y = Y logo, ˆ + ε )' (Y ˆ + ε) = Y ˆ 'Y ˆ + εˆ ′εˆ + 0 + 0 = Y ˆ 'Y ˆ + εˆ ' εˆ Y ′Y = (Y e a soma total de quadrados do resíduo e produto-cruzado podem ser escritos como: ˆ ′Y ˆ = Y ′Y − βˆ ′X' Xβˆ εˆ ′εˆ = Y ′Y − Y 32.

(33) O modelo de regressão linear multivariada não apresenta um novo problema de −1 estimação. As estimativas de mínimos quadrados, βˆ k = (X' X ) X' Y k são calculadas. individualmente para cada variável independente. Observe, contudo, que o modelo requer que as mesmas variáveis independentes sejam usadas para todas as respostas. Uma vez que o modelo de regressão multivariada foi desenvolvido para ajustar os dados a um modelo linear, pode-se verificar os resultados para o modelo de uma única resposta. 6.3.2- Regressão Linear – outros conceitos. Viu-se que o modelo de regressão linear clássico mostra a associação existente entre uma única variável dependente Y com uma coleção de variáveis independentes X 1 , X 2 ,..., X p −1 . Este modelo de regressão, trata Y como uma variável aleatória cuja ′ média depende dos valores fixos dos X i s . Esta média é uma função linear dos coeficientes de regressão β 0 , β 1 ,..., β p −1 . Suponha agora que as variáveis Y , X 1 , X 2 ,..., X p −1 sejam aleatórias e tenham distribuição conjunta, não necessariamente normal, com vetor média µ, de dimensão p, e matriz covariância ∑ . Escrevendo-se µ e Σ na forma matricial tem-se (pxp).  µY  µ =  (1×1)  µ X  ( p×1). σ YY ∑ =  (1×1) σ XY  ( p×1). e. σ ′XY  (1× p )  ∑ XX  ( p× p ) . com σ XY = [σ YX1 , σ YX 2 , " , σ YX p ]' e ∑ XX tendo posto máximo. Pode-se escrever o problema de predizer Y usando a predição linear na forma β o + β 1 x1i + ... + β p −1 x p −1,i = β 0 + β ' X onde β 0 = 1 ⋅ β 0 e β ' = [ β 1 " β p −1 ] , sendo o erro dado por : ε i = Yi − β 0 − β 1 x1i − ... − β p −1 x p −1,i = Y − β 0 − β ' X . Devido ao erro ser aleatório, deseja-se selecionar β 0 e β para minimizar o erro. (. ). 2 quadrático médio Ε Y − βˆ 0 − βˆ ' X . Desta forma, o erro quadrático médio depende da. distribuição conjunta de Y e X somente atráves dos parâmetros µ e ∑.. 33.

(34) Portanto é possível expressar a predição linear ótima em termos de µ e ∑. O resultado 3 e 4 dá informação de como se faz esta predição. Resultado 3. O preditor linear β 0 + β ' X com coeficientes β = ∑ −XX1 σ XY e β 0 = µ Y − β ´µ X , tem o menor erro quadrático mínimo entre todos os preditores lineares das respostas Y e o seu erro quadrático médio é:. (. Ε Y − β 0 − β ´X. ). 2. (. = Ε Y − µ Y − σ ′XY ∑ −XX1 ( X − µ X ). ). 2. = σ YY − σ ′XY ∑ −XX1 ∑ −XX1 σ XY e. também, β 0 + β ´ X = µ Y + σ ′XY ∑ −XX1 ( X − µ X ) é um preditor linear tendo máxima correlação com Y, ou seja,. (. Corr Y , β 0. + β ´ X ) = máx Corr (Y , βˆ βˆ 0 , βˆ. 0. ). + βˆ´ X =. β ´∑ XX β σ YY. σ ′XY ∑ −XX1 σ XY = σ YY. A correlação entre Y e a melhor previsão linear é chamada de coeficiente de correlação múltipla populacional. ρY (X ). σ ′XY ∑ −XX1 σ XY =+ σ YY. O quadrado ρ Y2( X ) , é chamado de coeficiente de determinação populacional e como já se citou é mais conhecido como R2. O coeficiente de correlação múltipla é sempre positivo e é um número entre 0 e 1. (0 ≤ ρ Y ( X ) ≤ 1) . Do resultado 3 tem-se que o erro quadrático médio é :  σ ' ∑ −1 σ σ YY − σ ′XY ∑ −XX1 σ XY = σ YY − σ YY  XY XX XY σ YY .   = σ YY 1 − ρ Y2 ( X ) . (. ). Se ρ Y2 ( X ) = 0 , não há nenhuma fôrça de previsão usando-se X para prever Y. Por outro lado se ρ Y2 ( X ) = 1 implica que Y pode ser predito sem nenhum erro. A restrição existente para a previsão linear, com suporte probabilístico, é a suposição de Gaussianidade.. 34.

(35) Resultado 4. Suponha que a distribuição conjunta de Y e X seja Ν r +1 (µ, ∑ ) . Seja, respectivamente, Y  µˆ =   X . S S =  YY  S XY. e. S ' XY  S XX . o vetor médio amostral e a matriz de covariância amostral para uma amostra aleatória de n observações vindas de uma população N(µ, Σ) . Então, os estimadores de máxima verossimilhança dos parâmetros do preditor linear são dados por −1 βˆ = S XX S XY. −1 e βˆ 0 = Y − S ′XY S XX X = Y − βˆ ' X. Consequentemente, o estimador de máxima verossimilhança da função de regressão é −1 (x − X ) βˆ 0 + βˆ ' X = Y + S ′XY S XX. e o. (. estimador. de. máxima. verossimilhança. do. erro médio quadrático,. ). 2. Ε Y − β 0 + β ´X , é:. σˆ YYX =. n −1 (SYY − S ′XY S XX−1 S XY ) n. A extensão dos resultados 3 e 4 para várias respostas Y1, Y2,..., Ym é quase imediata. O resultado 5 fornece esta extensão para populações normais.. Resultado 5. Suponha que Y e X tenham distribuição N q + p ( µ , ∑) . Então, o vetor de regressão de Y a partir de X é: β 0 + βX = µ Y − ∑ YX ∑ −XX1 µ X + ∑ YX ∑ −XX1 X = µ Y + ∑ YX ∑ −XX1 ( X j − µ X ) , j=1,...,p-1. A esperança quadrática e a matriz produto-cruzado para o erro é: ′ Ε (Y − β 0 − β ' X )(Y − β 0 − β ' X ) = ∑ YY ⋅ X = ∑ YY − ∑ YX ∑ −XX1 ∑ XY Baseado na amostra aleatória de tamanho n, o estimador de máxima verossimilhança da função de regressão é: −1 βˆ 0 + β X j = Y + S YX S XX (X j − X ), j=1,...,p-1. ˆ e o estimador de máxima verossimilhança de ∑ YY⋅ X é:  n −1 −1 ˆ ∑  S YY − S YX S XX S XY YY ⋅ X =   n . (. ) 35.

(36) A prova dos resultados 3, 4 e 5 pode ser encontrada em Johnson (1988).. BIBLIOGRAFIA • • • •. Johnson, R. A. & Wichern, D.W. – Applied Multivariate Statistical Analysis; 4ed.; Prentice Hall Inc, Upper Sadle River, N.J.; 1998. Mardia, K. V. Kent, J. T. & Bibby, J.M. – Multivariate Analysis; Academic Press, New York; 1979. Morrison, D.F. – Multivariate Statistical Methods - McGraw Hill, New York Hair, J. F. Jr. et alii – Multivariate Data Analysis; 5ed., Prentice Hall Inc, Upper Sadle River, N.J. ; 1998.. 36.

(37)

Referências

Documentos relacionados

Uma das avaliações resultantes desse estudo, traduzida e padronizada para o Brasil, é a PEDI, é um instrumento de avaliação infantil, que possui o objetivo de fornecer

Avaliações padronizadas foram utilizadas em alguns estudos como a Medida de Independencia Funcional- MIF ( DELBONI et al, 2006.) , Furllentton Fitness Test – TAF ( SPOSITO et

O processo de recuperação dos óleos usados através da extração por solventes, onde ele começa pelas matérias-primas: o óleo mineral usado e o solvente; e

Dois (10%) responderam que não possuem preferência. Os que preferem a mídia digital justificaram a preferencia por geralmente os jogos nesse formato são mais baratos. E

Os instrumentos de pesquisa utilizados serão: Ficha de Rastreamento das Participantes do Estudo, International Consultation on Incontinence Questionnaire – Short Form

(02) FIXAÇÃO DO NÚMERO DE VEREADORES EM REGIME DE PERMANÊNCIA:- Pelo Presidente da Câmara foi apresentada a proposta que seguidamente se transcreve:- “Proposta - FIXAÇÃO

Caso seja necessário alterar o número, o usuário deve excluir o processo (clique no botão Descartar, como explicado na seção [IX.4 – Excluir Um Processo de Concessão