x
µ
d
DISTRIBUIÇÃO NORMAL DE PROBABILIDADE
1) A Distribuição Normal é muito conveniente em estatística devido a vários aspectos,
dentre eles podemos citar: (i) tem resultados de fácil manuseio matemático; (ii) muitas técnicas estatísticas pressupõem que os dados têm distribuição normal; (iii) em muitas situações reais os dados não são exatamente normais, mas esta distribuição serve como uma conveniente aproximação para a real distribuição dos dados e (iv) as distribuições amostral de muitas estatísticas são aproximadamente normal devido o teorema central do limite.
2) Com as técnicas de análise multivariada a distribuição Normal Multivariada é de
fundamental importância. NORMAL UNIVARIADA
(
, 2)
~N µ σ X( )
2 2 1 2 1 − − = σ µ σ π x e x fX −∞<x<∞; −∞<µ <∞ e σ2 >0 (i) E( )
X =µ (ii) Var( )
X =σ2 (iii) X* = X − ~ N( )
0,1 σ µ (Normal padrão)(iv) Gráfico: Inflexão OBS.: µ−σ µ µ+σ X -1 0 1 X* 1) O termo
(
µ)
( )
σ(
µ)
σ µ = − − − − x x x 2 2 1mede a distância estatística ao quadrado de x
para µem unidades de desvio padrão, (ponderada pela variância) d x D.P
2 2 = −
σµ
2) Uma v.a. normal pode ser definida como:
Seja X* N~
( )
0,1 e sua f.d.p.( )
( )( )x* , * x 2 1 * X e I 2 1 * x f − 2 −∞∞ π = . Então para Especial Linear Combinação * µ σ + = X Y temos que(
; 2)
~N µ σ Y( )
= + = = + = 2 2 ( *) 0 ) ( *) ( σ σ µ µ σ X Var Y Var X E Y E DISTRIBUIÇÃO NORMAL MULTIVARIADA Definição:Seja X1,X2,...,Xp v.a. independentes tais que Xi ~ N
( )
0,1 i = 1, 2, ..., p. Seja) ,..., , ( 1 2 ′ = Y Y Yp Y onde j p jp j j j a X a X a X Y = 1 1+ 2 2 +...+ +µ , j = 1, 2, ..., p Escrevendo matricialmente X A Y = + 1 1 p pp p em que ; 2 1 1 12 11 = pp p p p a a a a a a A = P X X X 2 1 X e µµµµ = p µ µ µ 2 1
Então dizemos que Y tem distribuição normal p-variada com vetor de médias µµµµ e matriz de
covariâncias = ′ ⋅
[
~(
,)
]
deDecomposição µ p N Y A AI X A Y A A A X A Y = + = ′ = ′ = ) E( ) E( ) E( ) cov( ) cov( DENSIDADE DE = p Y Y Y 2 1 YREVISÃO: MÉTODO JACOBIANO
gi(X) 1) gi
(
X1,X2,...,Xp)
=(
Y1,Y2,...,YP)
, i=1,2,...,p 2) gi bijeção ∃gi-1(
Y1,Y2,...,Yp) (
= X1,X2,...,Xp)
, i=1,2,...,p(
y1,...,yp)
f(
g11(
y1,...,yp)
,...,gp1(
y1,...,yp)
)
f = − − X Y(
Y,X)
1 J g -1 i(Y)(
,)
det Y ; 1 ,ij p J Y X = ∂ j ≤ ≤ = p P Y Y Y 2 1 1 Y X1 X2 ... Xp Y1 Y2 ... YpNota: As transformações causam deformações e precisam ser corrigidas pelo jacobiano da transformação.. Y A= X+µµµµ X=
(
X1,X2,...,Xp)
′ Xi v.a. i.i.d.(
)
π = = − p 1 i 2 i x 2 1 p p 1 e 2 1 x ,..., x fX Função densidade de probabilidade conjunta VOLTANDO AO PROBLEMA:1) A tem posto = p (não singular) pois Σ é não singular, r
( )
A = p ∃A−1X=A−1
(
Y−)
posso expressar o vetor aleatório original X em função do novoVetor Aleatório Y = p Y Y Y 2 1 Y = + + + + + + + + + + + + p p pp p p p p p p X a X a X a X a X a X a X a X a X a µ µ µ ... ... ... 2 2 1 1 2 2 2 22 1 21 1 1 2 12 1 11 = = + p p pp p p p p X X X a a a a a a a a a µ µ µ 2 1 2 1 2 1 2 22 21 1 12 11
[ ]
= ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = = ∂ ∂ = ∂ ∂ × × p1 pp p 1 11 p p 1 p p 1 1 1 ) p p ( ji ) p p ( i j ji i j a a a a X Y X Y X Y X Y a x y a X y(
,)
det(A) J Y X = sendo µµµµ + = X Y A(
)
=[
−(
)
−(
)
]
⋅ p 1 1 p p 1 1 1 p 1,...,y f g y ,...,y ,...,g y,...,y y fY X( )
A det 1Note que 1
(
1 p)
i y ,...,yg− é a variável X
i gerada pela combinação linear em y1, y2,...,yp.
como ( ) ( ) ( ) − = × − × × 1 1 1 p p p p Y A
X ,X′=
(
x1,x2,...,xp)
. Posso expressar as variáveis originais em função das novas.(i) ( ) ( )
(
)
(
A Y)
A(
Y)
X X′ = − ′ − = − − × = × 1 1 1 1 1 2 i x p p i p , (1)(
Y−µ)
′( )
A−1 ′A−1(
Y−)
(2)(
Y−) ( )
′ A′ −1A−1(
Y−)
(3)(
Y−) (
′ AA′) (
−1 Y−) (
= Y−)
′ −1(
Y−)
, que é a distância entre uma observação multivariada e o seu vetor de médias. A distância quadrada generalizada de Mahalanobis entre duas observações multivariada é:
(
X −Xk)
′ −1(
X −Xk)
, com e k = 1,2...,n.(1)
( )
AB′ =B′A′(2)
( )
A−1 ′ =( )
A′ −1(3)
( )
AB −1 =B−1A−1(ii) =AA′ det
( )
=det(
AA′)
=det( ) ( )
A det A′ =(
det( )
A)
2 >0( )
= det( )
det A Assim,(
1 2 p)
p 2 1 y ,..., y , y f π = Y ( ) ( )( )
⋅ − ′ − − − det 1 1 2 1 µ µ Y Y e( )
( )
P/2 1/2 2 1 f π = y Y ( −µ)′ −( −µ) − Y 1 Y 2 1 eCasos especiais para Σ : 1) Se = 1 0 0 0 0 0 1 0 0 0 0 1 = p Y Y Y 2 1 Y temos que
Yi e Yj são independentes ∀i≠ j e Var
( )
Yi =1, i = 1, 2, ..., pA conclusão sobre independência somente é válida se a distribuição é multinormal. Logo, se = I e det = 1 então,
( )
2 /2 1 ) ( p f π = y y ( −µ) (′ −µ) − y y 2 1 e 2) Se = I e µµµµ=0 E( )
Yi =0, Var( )
Yi =1 e Y e i Yj independentes ∀i≠ j. i, j = 1,2,...,p. Logo,( )
p/2 2 1 ) ( f π = y Y( )
2 i y 2 1 2 / 1 p 1 i 2 1 e 2 1 e − = ′ − π Π = y y (fatorável!) 3) = I A é ortogonal, isto é, A =A′ I4) Se A é não inverssível o jacobiano é nulo e não há densidade, (g não é Bijetora).
“distribuição degenerada”
Exemplo:
Distribuição Normal Bivariada ( p = 2), em termos dos parâmetros µ1 =E(X1),
) X ( 2 2 =E
µ , µ1 = E(X1), σ11 =Var(X1), σ22 =Var(X2)e ρ12 =Corr(X1,X2).
+ = + + + + = = 2 1 2 1 22 21 12 11 2 2 22 1 21 1 2 12 1 11 2 1 µ µ µ µ X X a a a a X a X a X a X a Y Y Y ( ) ( ) ( )2×2 2×1+ 2×1 = A X + + + + = = ′ = 2 22 2 21 22 12 21 11 22 12 21 11 2 12 2 11 22 12 21 11 22 21 12 11 a a a a a a a a a a a a a a a a a a a a A A Y Verifique Cov
(
a ,′X b′X)
=a′ Xb Se X = e p=2, Cov(a’X,b’X)=aI 11a21+a12a22 em( )
1/2 2 1 f π = y Y ( −µµµµ)′ ( −µµµµ) − y −1 y 2 1 e (Lembrar que p=2)Verifique como ficaria a Cov(a’X, b’X) se X ≠ : I
(
′ ′)
= ′ Xb a X b X a , cov , em que Σ = 22 12 12 11 σ σ σ σ X(
1, 2)
covY Y R: cov(
a′X,b′X)
=E{
(
a11X1+a12X2 −(
a11µ1+a12µ2)
)
⋅(
a21X1+a22X2 −(
a21µ1+a22µ2)
)
}
(
) (
)
(
) (
(
) (
)
)
{
a11X1 a11 1 a12X2 a12 2 a21X1 a21 1 a22X2 a22 2}
E − µ + − µ ⋅ − µ + − µ =(
)
(
)
(
)
(
(
)
(
)
)
{
11 1−µ1 + 12 2 −µ2 ⋅ 21 1−µ1 + 22 2−µ2}
=E a X a X a X a X(
)
(
)(
)
(
)(
)
(
)
{
2}
2 2 22 12 1 1 2 2 21 12 2 2 1 1 22 11 2 1 1 21 11 −µ ⋅+ −µ −µ + −µ −µ + −µ =E a a X a a X X a a X X a a X 22 22 12 12 21 12 12 22 11 11 21 11a σ a a σ a a σ a a σ a + + + =Nota-se um termo a mais! Além de que antes, 1 22 11=σ = σ Agora, ′ Xb a =
[
]
22 21 22 12 12 11 12 11 a a a a σ σ σ σ[
+ +]
= 22 21 22 12 12 11 12 12 11 11 a a a a a a σ σ σ σ[
a11a21σ11+a12a21σ12+a11a22σ12 +a12a22σ22]
=(
)
[
a11a21σ11+ a11a22 +a12a21 σ12+a12a22σ22]
=(
)
(
)
× ρ − σ σ π = 2 12 22 11 2 1 1 2 1 y , y fY(
)
− − − − + − − − × 2 2 2 1 1 2 2 12 2 1 1 2 2 1 2 1 exp σ µ σ µ σ µ ρ σ µ ρ y y y y(
11 22 12 21)
12 12 22 22 11 21 11a σ a a a a σ a a σ a + + + =1 µ
Exercício: Mostre este resultado. OBS.:
1) Se Y1 e Y2 são variáveis aleatórios não-correlacionados ρ12 =0
logo fY
( )
y =fY1( ) ( )
y1 ⋅fY2 y2 então Y1 e Y2 são independentes. (Fatorável pelo produto dasfunções de densidades de probabilidades marginais)
2)
( )
p/2 1/2 2 1 ) ( f π = x X ( − )′ ( − ) − X −1 X 2 1 e (figura)os eixos das elipsóides são proporcionais ao inverso da raiz quadrada dos autovalores de −1 (matriz núcleo). eixos i λ 1 ≈ RESULTADO 4.1 pg. 129 (J-W)
Se é positiva definida tq −1 existe, temos que
= e e λ e e λ 1 1 = −
Assim, se
( )
λ,e é um par de autovalor e autovetor de , então 1,eλ é um par de
auto-valor e autovetor de −1. Além disso −1 é positiva definida.
X2 X1 2 µ µµµµ= 2 1 µ µ
Prova:
(a) Para um e ≠0 temos
(i) 0<e′ e=e′
( )
e =e′λe=λe′e=λ λ >0 (diz que qualquer λ de Σ é positivo) (ii) e= −1 e= −1( )
e = −1λe e=λ −1edividindo por >0 1e= −1e
λ λ
logo 1,e
λ é um par de autovalor e autovetor de
−1 . (b) Para qualquer X(p×1) Decomposição espectral de Σ −1 1 p 1 p p 1 1 p 1 i i 1i ip 1 e e X X X X ′ λ ′ = ′ = − = 1 0 2 1 1 1 ≥ ′ = pp i p i i e X λ
cada termo é não negativo
0 X e X′ i =0⇔ = Logo se X≠ 0 1
( )
2 0 1 > ′ = i p i i e X λ e se ′ − > 0 1 XX , então −1 é positiva definida.
Simulação de uma variável Y normal (µ,σ2) a partir de X normal padrão (0,1):
data NORMAL; do I=1 to 1000; X=normal(0); Y=3*X+12; output; end; proc print;
proc corr data=NORMAL;
var X Y; run;
Cálculo da matriz de distâncias Euclidiana, Karl Pearson e Quadrada Generalizada de Mahalanobis proc IML; reset print; X={42 52 48 58, 4 5 4 3}; P=nrow(X); N=ncol(X); UM = j(N,1); XBAR = (1/N) * X * UM; I = i(N); S = (1/(N-1)) * X * (I - (1/N) * (UM * t(UM))) * t(X); /*Distância Euclidiana */ DISTEU=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTEU[J,K]=sqrt(t(X[,J:J]-X[,K:K])*(X[,J:J]-X[,K:K])); DISTEU[K,J]=DISTEU[J,K]; end; end; INVS=inv(S); INVSDIAG=inv(diag(S));
/*Distância de Karl Pearson */
DISTKP=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTKP[J,K]=sqrt(t(X[,J:J]-X[,K:K])*INVSDIAG*(X[,J:J]-X[,K:K])); DISTKP[K,J]=DISTKP[J,K]; end; end;
/*Distância QUADRADA GENERALIZADA DE MAHALANOBIS */
DISTMA=shape(0,N,N); do J=1 to N-1; do K=J+1 to N; DISTMA[J,K]=t(X[,J:J]-X[,K:K])*INVS*(X[,J:J]-X[,K:K]); DISTMA[K,J]=DISTMA[J,K]; end; end; quit;