Vetor de Vari´
aveis Aleat´
orias
Luis Henrique Assump¸c˜ao Lolis
Conte´
udo
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Sum´
ario
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Vetor de Vari´
aveis Aleat´
orias
Um vetor de vari´aveis aleat´orias ´e um elemento de n
dimens˜oes onde cada coordenada desse elemento ´e uma
vari´avel aleat´oria.
X = X1 X2 .. . Xn = [X1, X2, . . . , Xn]T
Tamb´em representado por X = (X1, X2, . . . , Xn)
Um vetor ponto espec´ıfico desse vetor aleat´orio, ´e
Ex: Amostras de ´
Audio
O resultado ω de um experimento aleat´orio ´e um sinal de
´
audio X(t). Fazemos com que Xk= X(kT ) seja a amostra
do sinal tomada no instante kT . Um codec de MP3 processa o audio em blocos de n amostras X = (X1, X2, . . . , Xn). X ´e
Eventos e probabilidades
X = (X1, X2, . . . , Xn) tem uma regi˜ao n-dimensional Rn.
Um evento A representa:
A = {X1 ∈ A1} ∩ {X2∈ A2} ∩ . . . ∩ {Xn∈ An}
O evento A ocorre quando todos os eventos {Xk ∈ Ak}
ocorrem juntamente.
Ent˜ao a probabilidade de um evento fica:
P [A] = P [X ∈ A] =
P [{X1 ∈ A1} ∩ {X2∈ A2} ∩ . . . ∩ {Xn∈ An}]
Distribui¸c˜
oes Conjuntas
FX(X) , FX1,X2,...,Xn(x1, x2, . . . , xn) = P [X1≤ x1, X2 ≤ x2, . . . , Xn≤ xn]
Distribui¸c˜oes marginais:
A f.d.a. conjunta para X1, . . . , Xn−1´e dada por
FX1,X2,...,Xn(x1, x2, . . . , xn−1, ∞) A f.d.a. conjunta de X1 e X2 ´e dada por
Fun¸c˜
ao de massa de probabilidade conjunta
PX(X) , PX1,X2,...,Xn(x1, x2, . . . , xn) = P [X1= x1, X2= x2, . . . , Xn= xn] Probabilidade de um evento: P [X ∈ A] =X x∈A . . .XPX1,X2,...,Xn(x1, x2, . . . , xn) f.m.p marginal: pj(xj) = P [Xj= xj] = X x1 . . .X xj−1 X xj+1 . . .X xn PX1,X2,...,Xn(x1, x2, . . . , xn) f.m.p condicional: pXn(Xn|x − 1, . . . , Xn−1) = pX1,...,Xn(x1, . . . , xn) pX1,...,Xn−1(x1, . . . , xn−1)Fun¸c˜
ao de densidade de probabilidade conjunta
P [X ∈ A] = Z x∈A . . . Z pX1,...,Xn(x 0 1, . . . , x 0 n)dx 0 1. . . dx 0 n f.d.a conjunta: Fx(X) = FX1,...,Xn(x1, . . . , xn) = Z x1 −∞ . . . Z xn −∞ pX1,...,Xn(x 0 1, . . . , x 0 n)dx 0 1. . . dx 0 n f.d.p. marginal: fX1(x1) = Z ∞ −∞ . . . Z ∞ −∞ pX1,X2,...,Xn(x1, x 0 2, . . . , x 0 n)dx 0 2. . . dx 0 n f.m.p condicional: pXn(Xn|x − 1, . . . , Xn−1) = pX1,...,Xn(x1, . . . , xn) p (x , . . . , x )Independˆ
encia
A no¸c˜ao de independˆencia se expande a n vari´aveis. Sendo
que a probabilidade do intervalo de n coordenadas ´e igual ao
produto das probabilidades de cada um dos n intervalos para as n distribui¸c˜oes de uma vari´avel (cada vari´avel sendo a distribui¸c˜ao marginal de cada uma das n dimens˜oes da f.d.p conjunta)
Sum´
ario
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Uma fun¸c˜
ao de v´
arias V.A.’s
Z = g(X1, X2, . . . , Xn)
A f.d.a de Z ´e o evento equivalente {Z ≤ z},
Rz= {x : g(x) ≤ z} FZ(z) = P [X ∈ Rz] = Z x∈Rz . . . Z pX1,...,Xn(x 0 1, . . . , x0n)dx01. . . dx0n
Em outras palavras, encontrar os valores que s˜ao os limites
M´
aximo e m´ınimo de V.A’s
W = max(X1, X2, . . . , Xn) e Z = min(X1, X2, . . . , Xn) e Xi
vari´aveis aleat´orias independentes.
O m´aximo de X1, X2, . . . , Xn ´e menor ou igual a x se cada
Xi ´e menor que x:
FW(w) = P [max(X1, X2, . . . , Xn) ≤ w]
= P [X1 ≤ w]P [X2≤ w] . . . P [Xn≤ w] = (FX(w))n
O m´ınimo de X1, X2, . . . , Xn ´e maior ou igual a x se cada Xi
´
e maior que x:
1 − FZ(z) = P [min(X1, X2, . . . , Xn) > z]
= P [X1> z]P [X2 > z] . . . P [Xn> z] = (1 − FX(z))n
Exemplo: Confiabilidade de sistemas redundantes
Considere um sistema contendo n subsistemas independentes
redundantes. Cada subsistema tem uma dura¸c˜ao de vida
distribu´ıda exponencialmente com um parˆametro λ. O sistema
funciona contanto que ao menos um subsistema esteja funcionando. Encontre o f.d.a do tempo de vida do sistema. W = max(X1, X2, . . . , Xn) FW(w) = (FX(w))n= (1 − e−λw)n= − n X k=0 n k 1(n−k)h−e−kλwi
Sum´
ario
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Valor esperado de vetores aleat´
orios
E[Z] = Z ∞ −∞ · · · Z∞ −∞ g(x1, x2, . . . , xn)px(x1, x2, . . . , xn)dx1dx2. . . dxn X juntamente cont´ınuo X x1 · · ·X xn g(x1, x2, . . . , xn)px(x1, x2, . . . , xn) X discretoUm g(X) interessante ´e a soma de das fun¸c˜oes de X:
E[g1(X) + g2(X) + · · · + gn(X)] = E[g1(X)] + · · · + E[gn(X)]
Outro exemplo importante ´e quando g(X) ´e o produto de n
fun¸c˜oes individuais de X par X1, . . . , Xnvari´aveis
independentes:
E[g1(X1)g2(X2) . . . gn(Xn)] =
Vetor M´
edio
mx= E[X] = E X1 X2 .. . Xn , E[X1] E[X2] .. . E[Xn] Matriz de Correla¸c˜
ao
Rx= E E[X12] E[X1X2] . . . E[X1Xn]
E[X2X1] E[X22] . . . E[X2Xn]
..
. ... . . . ...
E[XnX1] E[XnX2] . . . E[Xn2]
Matriz de Covariˆ
ancia
Kx= E E[(X1− m1)2] E[(X1− M1)(X2− M2)] . . . E[(X1− M1)(Xn− mn)]
E[(X2− M2)(X1− M1)] E[(X2− M2)2] . . . E[(X2− M2)(Xn− mn)]
. . . . . . . . . . . . E[(Xn− mn)(X1− M1)] E[(Xn− mn)(X2− M2)] . . . E[(Xn− mn)2]
Sum´
ario
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Vetores Juntamente Gaussianos
No lugar de um valor de correla¸c˜ao para a normal bivariada temos uma matriz de correla¸c˜ao combinando as vari´aveis Xi
duas a duas.
Os items da f.d.p conjunta s˜ao vetores coluna.
A express˜ao fica da seguinte forma:
px(X) , p(x1,x2,...,x3)(X1, X2, . . . , Xn) =
exp−1 2(x − m)
TK−1(x − m) (2π)n/2|K|1/2
Onde x e m s˜ao vetores coluna
O operador (.)T significa a transposta do vetor ou matriz e |.| o determinante da matriz. A opera¸c˜ao ´e uma multiplica¸c˜ao de
um vetor linha (x − m)T de tamanho n por uma matriz
inversa da matriz de covariˆancia K−1 de tamanho n × n e o
Vetores Juntamente Gaussianos
px(X) , p(x1,x2,...,x3)(X1, X2, . . . , Xn) = exp−1 2(x − m) TK−1(x − m) (2π)n/2|K|1/2 x = x1 x2 .. . xn , m = m1 m2 .. . mn = E[X1] E[X2] .. . E[Xn] Vetores Juntamente Gaussianos
K = Var(X1) Cov(X,X) . . . Cov(X,X)
Cov(X,X) Var(X2) . . . Cov(X,X)
.. . ... ... ... Cov(X,X) . . . Var(Xn)
Revis˜
ao de opera¸c˜
oes matriciais
Multiplica¸c˜ao:
[AB]i,j = Ai,1B1,j+Ai,2B2,j+· · ·+Ai,nBn,j =Pnr=1Ai,rBr,j
Determinante (2X2 e 3X3): a b c d = ad − bc a b c d e f g h i = a e f h i − b d f g i + c d e g h = aei + bf g + cdh − ceg − bdi − af h.
Revis˜
ao de opera¸c˜
oes matriciais
Inversa (2X2 e 3X3): A−1 =a b c d −1 = det(A)1 d −b −c a = ad−bc1 d −b −c a A−1 = a b c d e f g h k −1 = det(A)1 A B C D E F G H K T = 1 det(A) A D G B E H C F K A = (ek − f h) D = −(bk − ch) G = (bf − ce) B = −(dk − f g) E = (ak − cg) H = −(af − cd)C = (dh − eg) F = −(ah − bg) K = (ae − bd)
Ilustra¸c˜
ao aplicando a normal bivariada
O vetor de m´edias e a matriz de covariˆancia ficam da seguinte forma: µx = µ1 µ2 , e Cxx= σ12 ρσ1σ2 ρσ1σ2 σ22
O determinante da matriz de covariˆancia fica:
det(Cxx) = σ12σ22− (ρσ1σ2)2= σ12σ22(1 − ρ2)
A inversa da matriz de covariˆancia fica:
C−1xx = σ2 2 −ρσ1σ2 −ρσ1σ2 σ12 σ2 1σ22(1 − ρ2) = σ1−2 −ρσ−11 σ2−1 −ρσ1−1σ−12 σ−22 (1 − ρ2)
Ilustra¸c˜
ao aplicando a normal bivariada
(x − µx)TC−1xx(x − µx) = [ x1− µ1 x2− µ2 ] σ1−2 −ρσ1−1σ−12 −ρσ−11 σ−12 σ−22 (1 − ρ2) h x 1− µ1 x2− µ2 i = x1− µ1 σ1 2 − 2ρ x1− µ1 σ1 x2− µ2 σ2 + x2− µ2 σ2 2 (1 − ρ2)Conectando os resultados obtidos: pxy(X, Y ) = 1 2πσ1σ2 p 1 − ρ2 × exp − 1 2(1 − ρ2) (x − µ1)2 σ12 + (y − µ2)2 σ22 − 2ρ(x − µ1)(y − µ2) σ1σ2
Sum´
ario
1 Vetor de Vari´aveis Aleat´orias
2 Fun¸c˜ao de V´arias V.A.’s
3 Valor esperado / matriz de correla¸c˜ao e de covariˆancia
4 Vetores Juntamente Gaussianos
Os tipos de estima¸c˜
ao
Estima¸c˜ao dos parˆametros de uma ou mais vari´aveis.
Frequˆencias relativas → probabilidade de eventos. M´edias de amostras → esperan¸ca e outros momentos (variˆancia, etc)
Estima¸c˜ao de uma vari´avel inacess´ıvel X atrav´es de uma vari´avel acess´ıvel Y.
X: Sinal enviado em um canal de comunica¸c˜ao. Y: Sinal recebido.
X: Valor futuro. Y: Valor presente.
Estimadores
M´aximo `a posteriori - (MAP - Maximum a posteriori) M´axima verossimilhan¸ca - (ML - Maximum likehood)
Estimador do m´
aximo `
a posteriori
Qual o valor da entrada x que maximiza P [X = x|Y = y]? max
x P [X = x|Y = y]
P [X = x|Y = y] = P [Y = y|X = x]P [X = x]
P [Y = y] (Bayes)
Conhecendo P [Y = y|X = x], P [X = x] e P [Y = y], podemos testar para cada y, que valor de x maxima P [X = x|Y = y]
Estimador de m´
axima verossimilhan¸ca
As vezes n˜ao sabemos P [X = x], ent˜ao pegamos o m´aximo
do outro elemento da equa¸c˜ao: max
Estimadores de V.A. cont´ınua
MAP: max x px(X = x|Y = y) ML: max x py(Y = y|X = x)Testes de MAP e ML ´
e vari´
aveis juntamente gaussianas
A condicional de X dado Y ´e dada por:
px(x|y) = exp ( − 1 2(1 − ρ2)σ2 x x − ρσx σy (y − µy) − µx 2) p2πσ2 x(1 − ρ2)
Maximado pelo valor de x para o qual o exponente ´e zero.
Ent˜ao: ˆXMAP= ρ
σx
σy
(y − µy) + µx
J´a a condicional de Y dado X ´e dada por:
py(y|x) = exp ( − 1 2(1 − ρ2)σ2 y y − ρσy σx (x − µx) − µx 2) q 2πσ2 y(1 − ρ2)
Maximado pelo valor de x para o qual o exponente ´e zero.
Estimador de Erro Quadr´
atico M´ınimo
Quando se lˆe um Y , sendo que X = g(Y ) e o erro na
estima¸c˜ao de g(Y ) ´e zero, ´e definido que o custo associado ´e zero, c(X − g(Y )) = 0
Agora quando se tem um erro (quando por exemplo n˜ao
temos o total controle da fun¸c˜ao g(Y )), podemos calcular o valor esperado do erro, quando X 6= g(Y ):
e = E[(X − g(Y ))2]
Definir o valor a que minimiza o erro: min
a E[(X − a)
2] = E[X2] − 2aE[X] + a2
Estimador de Erro Quadr´
atico M´ınimo Linear
Se X ´e estimado de uma fun¸c˜ao linear g(Y ) = aY + b:
min
a,bE[(X − aY − b)
2], (a)
O m´ınimo em rela¸c˜ao a b fica:
b∗= E[X − aY ] = E[X] − aE[Y ]
Substituindo em (a) fica: min
a E[{(X − E[X]) − a(Y − E[Y ])}
2], derivando em a,
0 = d
daE[{(X − E[X]) − a(Y − E[Y ])}
2]
−2(Cov(X, Y ) − a Var(Y )) O melhor coeficiente en a fica:
a∗ = Cov(X, Y )
Var(Y ) = ρx,y
σx
Estimador de Erro Quadr´
atico M´ınimo Linear
O estimador de m´ınimo erro m´edio quadr´atico m´edio mmse
minimum mean square error linear estimator: ˆ
X = a∗Y + b∗= ρx,yσx
Y − E[Y ] σy
+ E[X]
Se X e Y n˜ao s˜ao correlatos, a melhor estimativa de X ´e a m´edia E[X]. Se s˜ao totalmente correlatos, ρ ± 1, ent˜ao a melhor estimativa ´e ±σx(Y − E[Y ])/σy+ E[Y ].
Estimador de Erro Quadr´
atico M´ınimo
Normalmente o estimador de X que minimiza o Erro Quadr´atico M´edio um a fun¸c˜ao n˜ao linear de Y :
minimize
g(.) E[(X − g(Y ))
2]
O problema ´e resolvido usando esperan¸ca condicional:
E[(X − g(Y ))2] = E[E[(X − g(Y ))2|Y ]] =
Z ∞
−∞
E[(X − g(Y ))2|Y = y]fu(Y )dY
g(y) ´e uma constante para a esperan¸ca condicional.
g(y) que minimiza a esperan¸ca condicional:
Estimador de Erro Quadr´
atico M´ınimo
O erro m´edio quadr´atico do melhor estimador fica: e∗ = E[(X − g∗(Y ))2] =
Z
R
E[(X − E[X|y])2|Y = y]fy(Y )dY
= Z
Rn
Exemplos
Exemplo - MSE e MSE linear da normal bivariada
E[X|Y = y] = E[X] + ρx,y
σx
σy
(Y − E[Y ])
Idˆenticos os MSE e MSE linear, ent˜ao o erro quadr´atico m´ınimo de V.A.s gaussianas ´e linear.