aula5

(1)

x

µ

d

DISTRIBUIÇÃO NORMAL DE PROBABILIDADE

1) A Distribuição Normal é muito conveniente em estatística devido a vários aspectos,

dentre eles podemos citar: (i) tem resultados de fácil manuseio matemático; (ii) muitas técnicas estatísticas pressupõem que os dados têm distribuição normal; (iii) em muitas situações reais os dados não são exatamente normais, mas esta distribuição serve como uma conveniente aproximação para a real distribuição dos dados e (iv) as distribuições amostral de muitas estatísticas são aproximadamente normal devido o teorema central do limite.

2) Com as técnicas de análise multivariada a distribuição Normal Multivariada é de

fundamental importância. NORMAL UNIVARIADA

(

_, 2

)

~N µ σ X

( )

2 2 1 2 1 − − = σ µ σ π x e x f_X −∞<x<∞; −∞<µ <∞ e _σ2 _>0 (i) E

( )

X =µ (ii) _Var

( )

_X ₌_σ2 (iii) X* = X − ~ N

( )

0,1 σ µ (Normal padrão)

(iv) Gráfico: Inflexão OBS.: µ−σ µ µ+σ X -1 0 1 X* 1) O termo

(

µ

)

( )

σ

(

µ

)

σ µ ₌ ₋ ₋ − − x x x 2 ₂ 1

mede a distância estatística ao quadrado de x

para µem unidades de desvio padrão, (ponderada pela variância) d x D.P

2 2 ₌ −

σµ

2) Uma v.a. normal pode ser definida como:

Seja X* N~

( )

0,1 e sua f.d.p.

( )

₍ ₎( )x* , * x 2 1 * X e I 2 1 * x f − 2 ₋_∞_∞ π = . Então para Especial Linear Combinação * µ σ + = X Y temos que

(2)

(

_; 2

)

~N µ σ Y

( )

= + = = + = 2 2 ₍ _*) ₀ ) ( *) ( σ σ µ µ σ X Var Y Var X E Y E DISTRIBUIÇÃO NORMAL MULTIVARIADA Definição:

Seja X₁,X₂,...,X_p v.a. independentes tais que X_i ~ N

( )

0,1 i = 1, 2, ..., p. Seja

) ,..., , ( 1 2 ′ = Y Y Y_p Y onde j p jp j j j a X a X a X Y = 1 1+ 2 2 +...+ +µ , j = 1, 2, ..., p Escrevendo matricialmente X A Y = + 1 1 p pp p em que ; 2 1 1 12 11 = pp p p p a a a a a a A = P X X X 2 1 X e µµµµ = p µ µ µ 2 1

Então dizemos que Y tem distribuição normal p-variada com vetor de médias µµµµ e matriz de

covariâncias = ′ ⋅

[

~

(

,

)

]

deDecomposição µ p N Y A AI X A Y A A A X A Y = + = ′ = ′ = ) E( ) E( ) E( ) cov( ) cov( DENSIDADE DE = p Y Y Y 2 1 Y

REVISÃO: MÉTODO JACOBIANO

gi(X) 1) gi

(

X1,X2,...,Xp

)

=

(

Y1,Y2,...,YP

)

, i=1,2,...,p 2) gi bijeção ∃gi-1

(

Y1,Y2,...,Yp

) (

= X1,X2,...,Xp

)

, i=1,2,...,p

(

y1,...,yp

)

f

(

g11

(

y1,...,yp

)

,...,gp1

(

y1,...,yp

)

f ₌ − − X Y

(

_Y,_X

)

1 J g -1 i(Y)

(

,

)

det Y ; 1 ,ij p J _Y _X ₌ ∂ j _≤ _≤ = p P Y Y Y 2 1 1 Y X1 X2 ... Xp Y1 Y2 ... Yp

(3)

Nota: As transformações causam deformações e precisam ser corrigidas pelo jacobiano da transformação.. Y A= X+µµµµ X=

(

X1,X2,...,Xp

)

′ Xi v.a. i.i.d.

(

)

π = = − p 1 i 2 i x 2 1 p p 1 e 2 1 x ,..., x f_X Função densidade de probabilidade conjunta VOLTANDO AO PROBLEMA:

1) A tem posto = p (não singular) pois Σ é não singular, _r

( )

_A ₌ _p _∃_A−1

X=A−1

(

Y−

)

_{posso expressar o vetor aleatório original}_{X em função do novo}

Vetor Aleatório Y = p Y Y Y 2 1 Y = + + + + + + + + + + + + p p pp p p p p p p X a X a X a X a X a X a X a X a X a µ µ µ ... ... ... 2 2 1 1 2 2 2 22 1 21 1 1 2 12 1 11 = = + p p pp p p p p X X X a a a a a a a a a µ µ µ 2 1 2 1 2 1 2 22 21 1 12 11

[ ]

= ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = = ∂ ∂ = ∂ ∂ × × p1 pp p 1 11 p p 1 p p 1 1 1 ) p p ( ji ) p p ( i j ji i j a a a a X Y X Y X Y X Y a x y a X y

(

,

)

det(A) J Y X = sendo µµµµ + = X Y A

(

)

=

[

−

(

)

−

(

)

]

⋅ p 1 1 p p 1 1 1 p 1,...,y f g y ,...,y ,...,g y,...,y y f_Y _X

_{( )}

A det 1

(4)

Note que 1

(

₁ _p

)

i y ,...,y

g− _{é a variável X}

i gerada pela combinação linear em y1, y2,...,yp.

como ( ) ( ) _{( )} − = × − × × ₁ 1 1 p p _p p Y A

X ,X′=

(

x₁,x₂,...,x_p

)

. Posso expressar as variáveis originais em função das novas.

(i) ( ) ( )

(

)

(

A Y

)

A

(

Y

)

X X′ = − ′ − = − − × = _× 1 1 1 1 ₁ 2 i x p p i _p , (1)

(

Y−_µ

)

′

( )

A−1 ′A−1

(

Y−

)

(2)

(

Y−

) ( )

′ A′ −1A−1

(

Y−

)

(3)

(

_Y−

) (

′ _A_A′

) (

−1 _Y−

) (

= _Y−

)

′ −1

(

_Y−

)

, que é a distância entre uma observação multivariada e o seu vetor de médias. A distância quadrada generalizada de Mahalanobis entre duas observações multivariada é:

(

X −X_k

)

′ −1

(

X −X_k

)

, com e k = 1,2...,n.

(1)

( )

AB′ =B′A′

(2)

( )

_A−1 ′ ₌

( )

_A_′ −1

(3)

( )

_AB −1 ₌_B−1_A−1

(ii) =AA′ det

( )

=det

(

AA′

)

=det

( ) ( )

A det A′ =

(

det

( )

A

)

2 >0

( )

= det

( )

det A Assim,

(

1 2 p

)

p 2 1 y ,..., y , y f π = Y ( ) ( )

( )

⋅ − ′ − − − det 1 1 2 1 _µ _µ Y Y e

( )

_P_/₂ 1/2 2 1 f π = y Y ( −µ)′ −( −µ) − Y 1 Y 2 1 e

(5)

Casos especiais para Σ : 1) Se = 1 0 0 0 0 0 1 0 0 0 0 1 = p Y Y Y 2 1 Y temos que

Yi e Yj são independentes ∀i≠ j e Var

( )

Yi =1, i = 1, 2, ..., p

A conclusão sobre independência somente é válida se a distribuição é multinormal. Logo, se = I e det = 1 então,

( )

₂ /2 1 ) ( _p f π = y y ( −µ) (′ −µ) − y y 2 1 e 2) Se = I e µµµµ=0 E

( )

Y_i =0, Var

( )

Y_i =1 e Y e _i Y_j independentes ∀i≠ j. i, j = 1,2,...,p. Logo,

( )

p/2 2 1 ) ( f π = y Y

( )

2 i y 2 1 2 / 1 p 1 i 2 1 e 2 1 e − = ′ − π Π = y y (fatorável!) 3) = I A é ortogonal, isto é, A =A′ I

4) Se A é não inverssível o jacobiano é nulo e não há densidade, (g não é Bijetora).

“distribuição degenerada”

Exemplo:

Distribuição Normal Bivariada ( p = 2), em termos dos parâmetros µ₁ =E(X₁),

) X ( 2 2 =E

µ , µ₁ = E(X₁), σ₁₁ =Var(X₁), σ₂₂ =Var(X₂)e ρ₁₂ =Corr(X₁,X₂).

+ = + + + + = = 2 1 2 1 22 21 12 11 2 2 22 1 21 1 2 12 1 11 2 1 µ µ µ µ X X a a a a X a X a X a X a Y Y Y ( ) ( ) ( )2×2 2×1+ 2×1 = A X + + + + = = ′ = ₂ 22 2 21 22 12 21 11 22 12 21 11 2 12 2 11 22 12 21 11 22 21 12 11 a a a a a a a a a a a a a a a a a a a a A A Y Verifique Cov

(

a ,′X b′X

)

=a′ _Xb Se _X = e p=2, Cov(a’X,b’X)=aI 11a21+a12a22 em

(6)

( )

1/2 2 1 f π = y Y ( −µµµµ)′ ( −µµµµ) − y −1 y 2 1 e (Lembrar que p=2)

Verifique como ficaria a Cov(a’X, b’X) se X ≠ : I

(

′ ′

)

= ′ Xb a X b X a , cov , em que Σ = 22 12 12 11 σ σ σ σ X

(

1, 2

)

covY Y R: cov

(

a′X,b′X

)

=E

{

(

a11X1+a12X2 −

(

a11µ1+a12µ2

)

⋅

(

a21X1+a22X2 −

(

a21µ1+a22µ2

)

}

(

) (

)

(

) (

(

) (

)

{

a11X1 a11 1 a12X2 a12 2 a21X1 a21 1 a22X2 a22 2

}

E − µ + − µ ⋅ − µ + − µ =

(

)

(

)

(

)

(

)

(

)

{

11 1−µ1 + 12 2 −µ2 ⋅ 21 1−µ1 + 22 2−µ2

}

=E a X a X a X a X

(

)

(

)(

)

(

)(

)

(

)

{

2

}

2 2 22 12 1 1 2 2 21 12 2 2 1 1 22 11 2 1 1 21 11 −µ ⋅+ −µ −µ + −µ −µ + −µ =E a a X a a X X a a X X a a X 22 22 12 12 21 12 12 22 11 11 21 11a σ a a σ a a σ a a σ a + + + =

Nota-se um termo a mais! Além de que antes, 1 22 11=σ = σ Agora, ′ Xb a =

[

]

22 21 22 12 12 11 12 11 _a a a a σ σ σ σ

[

+ +

]

= 22 21 22 12 12 11 12 12 11 11 _a a a a a a σ σ σ σ

[

a11a21σ11+a12a21σ12+a11a22σ12 +a12a22σ22

]

=

(

)

[

a11a21σ11+ a11a22 +a12a21 σ12+a12a22σ22

]

=

(

)

₍

₎

× ρ − σ σ π = 2 12 22 11 2 1 1 2 1 y , y f_Y

(

)

− − − − + − − − × 2 2 2 1 1 2 2 12 2 1 1 2 2 1 2 1 exp σ µ σ µ σ µ ρ σ µ ρ y y y y

(

11 22 12 21

)

12 12 22 22 11 21 11a σ a a a a σ a a σ a + + + =

(7)

1 µ

Exercício: Mostre este resultado. OBS.:

1) Se Y1 e Y2 são variáveis aleatórios não-correlacionados ρ12 =0

logo f_Y

( )

y =f_Y₁

( ) ( )

y₁ ⋅f_Y₂ y₂ então Y1 e Y2 são independentes. (Fatorável pelo produto das

funções de densidades de probabilidades marginais)

2)

( )

_p_/₂ 1/2 2 1 ) ( f π = x X ( − )′ ( − ) − X −1 X 2 1 e (figura)

os eixos das elipsóides são proporcionais ao inverso da raiz quadrada dos autovalores de −1 (matriz núcleo). eixos i λ 1 ≈ RESULTADO 4.1 pg. 129 (J-W)

Se é positiva definida tq −1 existe, temos que

= e e λ e e λ 1 1 = −

Assim, se

( )

λ,e é um par de autovalor e autovetor de , então 1,e

λ é um par de

auto-valor e autovetor de −1. Além disso −1 é positiva definida.

X2 X1 2 µ µµµµ= 2 1 µ µ

(8)

Prova:

(a) Para um e ≠0 temos

(i) 0<e′ e=e′

( )

e =e′λe=λe′e=λ λ >0 (diz que qualquer λ de Σ é positivo) (ii) e= −1 e= −1

( )

e = −1λe e=λ −1e

dividindo por >0 1e= −1e

λ λ

logo 1,e

λ é um par de autovalor e autovetor de

−1 . (b) Para qualquer X₍p_×₁₎ Decomposição espectral de Σ −1 1 p 1 p p 1 1 p 1 i i ₁i ip 1 _e _e _X X X X ′ λ ′ = ′ = − = 1 0 2 1 1 1 ≥ ′ = pp i p i i e X λ

cada termo é não negativo

0 X e X′ i =0⇔ = Logo se X≠ 0 1

( )

2 0 1 > ′ = i p i i e X λ e se ′ − > 0 1 X

X , então −1 é positiva definida.

Simulação de uma variável Y normal (µ,σ2) a partir de X normal padrão (0,1):

data NORMAL; do I=1 to 1000; X=normal(0); Y=3*X+12; output; end; proc print;

proc corr data=NORMAL;

var X Y; run;

(9)

Cálculo da matriz de distâncias Euclidiana, Karl Pearson e Quadrada Generalizada de Mahalanobis proc IML; reset print; X={42 52 48 58, 4 5 4 3}; P=nrow(X); N=ncol(X); UM = j(N,1); XBAR = (1/N) * X * UM; I = i(N); S = (1/(N-1)) * X * (I - (1/N) * (UM * t(UM))) * t(X); /*Distância Euclidiana */ DISTEU=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTEU[J,K]=sqrt(t(X[,J:J]-X[,K:K])*(X[,J:J]-X[,K:K])); DISTEU[K,J]=DISTEU[J,K]; end; end; INVS=inv(S); INVSDIAG=inv(diag(S));

/*Distância de Karl Pearson */

DISTKP=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTKP[J,K]=sqrt(t(X[,J:J]-X[,K:K])*INVSDIAG*(X[,J:J]-X[,K:K])); DISTKP[K,J]=DISTKP[J,K]; end; end;

/*Distância QUADRADA GENERALIZADA DE MAHALANOBIS */

DISTMA=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTMA[J,K]=t(X[,J:J]-X[,K:K])*INVS*(X[,J:J]-X[,K:K]); DISTMA[K,J]=DISTMA[J,K]; end; end; quit;