116
APÊNDICE
1) Propriedades da Esperança
Notações: E(X), (X), X, ,
1
n
i i
i
x p x
1º) E[k] = k.
E[k] =
1
n
i i
k p x
= k
1
n i i
p x
= k . 1 = k.2º) E[kX] k.E[X] , k .
E[kX] =
1
n
i i
i
k x p x
= k
1
n
i i
i
x p x
= k .E[X]3º) E[X Y] = E[X] E[Y]
Utilizar probabilidade conjunta: p(X=xi , Y=yj) = p(xi , yj)
E[X Y] = ,
, 1
( ) ( , )
n m
i j i j
i j
x y p x y
= , ,, 1 , 1
( , ) ( , )
n m n m
i i j j i j
i j i j
x p x y y p x y
=
1 1 1 1
( , ) ( , )
n m n m
i i j j i j
i j i j
x p x y y p x y
=1 1
( ) ( )
n m
i i j j
i j
x p x y p y
== E[X] E[Y].
4º) E[mX n] = m E[X] n, m,n .
E[mX n] = E[mX] E[n] = m E[X] n.
5º) E[X] = 0
E[X] =
1
( )
n
i X i
i
x p x
=
1 1
n n
i i X i
i i
x p x p x
=E[X]
1
n
X i
i
p x
== E[X] X.1= E[X] X = E[X] E[X] = 0.
2) Propriedades da Variância
Notações: VAR(X), V(X), 2(X), 2
X
, 2 e
VAR(X)= E[(X )2] = 2
1
( )
n
i i
i
x p x
117
VAR(X) = E[(X )2] =E[X2 2X + 2] = E[X2] 2E[X] + 2 =
= E[X2] 22 + 2 = E[X2] 2 =
= E[X2] (E[X])2.
2º) VAR(k) = 0, k .
VAR(k) = E[(k K)2] = E[(kk)2] = E[0] = 0
3º) VAR (kX) = k2 VAR(X), k .
VAR (kX) = E[(kX E[kX])2 ] = E[(kX k E[X])2] = E[k2 (X – E(X))2] =
= k2.E[(X– E(X))2] = k2.E[(X– )2] =
= k2. VAR(X).
4º) VAR(X Y) = VAR(X) + VAR(Y) 2 COV(X,Y)
VAR(X Y) = E [( (XY) – E[(XY) )2 ] = E [( XY – E[X] E[Y] )2 ] =
= E [((X – E[X]) (Y – E[Y]) )2 ] =
= E [(X – E[X])2 + (Y – E[Y])2 2 (X – E[X]) (Y – E[Y]) =
= E [(X–E[X])2] + E [(Y– E[Y])2] 2 E [(X– E[X])(Y– E[Y])]=
= VAR(X) + VAR(Y) 2 COV(X, Y).
Observação: COV(X, Y) mede o grau de dependência entre X e Y.
COV(X, Y) = E [(X – E[X])(Y – E[Y])] =
= E [XY] – E[X] E[Y].
Provar que COV(X, Y) = E [XY] – E[X] E[Y].
COV(X, Y) = E [(X – E[X])(Y – E[Y])] =
= E [XY – X E[Y] – YE[X] + E[X] E[Y] =
= E [XY – X Y – Y X + X Y] = = E[XY] – E[X] Y – E[Y] X + X Y =
= E[XY] – X Y – Y X + Y X = E[XY] – X Y = E[XY] – E[X] E[Y] .
5º) VAR(mX + n) = m2 VAR(X)
VAR(mX + n) = E [
(
(mX + n) – E[(mX + n)])
2 ] == E [(mX + n – m E[X] – n )2] =
= E [ (mX – m E[X] )2 ] = E [ m2 (X –E[X])2 ] =
= m2 E [ (X – E[X])2 ] = m2 E [(X –
X
)2 ] =
118
3) Média e Variância de médias amostrais
X = 1 1 ni i
x n
1º) E[ ]X = .
E[ ]X = E
[
1 1 ni i
x n
]
= 1n E
[
1n i i
x
]
= 1n 1 E[ ] n i i x
= 1n 1 E[ ] n i X
= 1n 1 n i
= 1n. n = .
2º) VAR(X ) =
2 n
VAR(X ) = VAR(1
n 1 n i i x
) = 12n VAR( 1
n i i
x
) = 12n 1 VAR( ) n i i x
== 12
n 1 VAR( ) n i X
= 12n 2 1 n i
= 12n . 2 n =
2 n
.
3º) X
X
n
4) Estimadores não viciados ( não viesado)
Seja = estimador (da amostra de tamanho n) e = parâmetro (da população)
Devemos ter E( ) = .
Exemplos:
1º) E[ ]X = , sendo X = 1 1 n
i i
x n
E[ ]X = E
[
1 1 ni i
x n
]
= 1n E
[
1n i i
x
]
= 1n 1 E[ ] n i i x
= 1n 1
n
i
= 1n. n = .
2º) E[S2] = 2, sendo S2 = 2
1 1 ( ) 1 n i i x X n
E[S2] = E
[
21 1 ( ) 1 n i i x X n
]
= 1 1 n E[
2 1 ( ) n i i x X
]
= = 1 1n E
[
2 2
1
( 2 )
n
i i
i
x x X X
]
= 11
n E
[
2 2
1 1 1
( n i 2 n i n )
i i i
x X x X
== 1
1 n E
[
2 2
1 1 1
( 2 1)
n n n
i i
i i i
x X x X
== 1 1
n E
[
2 1 2
1
( 2 )
n i n i i i x
x nX nX
n
= 11
n E
[
2 2 2
1
( n i 2 )
i
x nX nX
119 = 1
1 n E
[
2 2
1
( n i )
i
x nX
= 11 n
2 2
1
( n E[ ]i E[ ])
i
x n X
== 1
1 n
2 2
1
( E[ ] E[ ])
n
i
X n X
Observação:
a) VAR(X) = E[X2] – (E[X])2 2 E[X ]2 2 E[X ]2 2 2
b) VAR(X ) = E[X 2] – (E[X ])2
2
2 2
E[X ]
n
2
2 2
E[X ]
n
Substituindo (a) e (b) em (2º), segue
E[S2] = 1 1 n
2
2 2 2
1
( n ( ) ( ) )
i
n n
= 11 n
2
2 2 2
( (n ) n( ))
n
= = 1
1 n
2 2 2 2
(n n ) n ))= 1
1 n
2 2
(n ) = 1
1 n
2( 1) n
= 2.
4) Estimador viciado (viesado)
Devemos ter E( ) .
Exemplo:
2 2
1 1
( )
n i i
S x X
n
é estimador viciado de 2.
Vejamos:
Aproveitando os cálculos apresentados acima temos E[S2] =1
n
2( 1) n
=n 1 2 n
.
Portanto, E[S2] 2.
5) Método dos mínimos quadrados para explicar Regressão linear
Devemos, inicialmente, recordar como se obtém, caso existam, os pontos críticos (máximos, mínimos e sela) de funções reais diferenciáveis de duas variáveis reais.
Seja f D: , D 2, z f x y( , ), onde fx e fy são as derivadas parciais de
primeira ordem em relação a x e a y, respectivamente.
a) Obter a solução do sistema:
( , ) 0
( , ) 0
x y
f x y
f x y
S = {( , ) /x yi i i0,1,2,..., }n
120
Obtêm-se as derivadas parciais de segunda ordem fxxem relação a x, fyyem
relação a y e fxy em relação a x e y em cada ponto de S.
( , ) A
( , ) B, 0,1, 2,...
( , ) C
xx i i yy i i xy i i
f x y
f x y para cada i n
f x y
Obter o Hessiano de cada um dos pontos de S:
H =A C
C B = AB – C
2
i) Se H > 0 e A > 0, então ( , , ( , ))x yk k f x yk k é ponto mínimo local do gráfico de f.
ii) Se H > 0 e A < 0, então ( , , ( , ))x yk k f x yk k é ponto máximo local do gráfico de f.
iii) Se H < 0 , então ( , , ( , ))x yk k f x yk k é ponto sela do gráfico de f.
iv) Se H = 0 , então não se pode concluir se ( , , ( , ))x yk k f x yk k é ponto mínimo local
do gráfico de f.
APROXIMAÇÃO DAS FUNÇÕES PELO MÉTODO DOS MÍNIMOS QUADRADOS
Trataremos apenas de funções que possuem domínio discreto: funções dadas por uma tabela.
O problema consiste em aproximar uma função por uma combinação de funções gj
j = 0,1,2,3, ..., m, previamente escolhidas.
f(x)g(x) = a0g0(x)+a1g1(x)+ a2g2(x)+ ... + amgm(x) , onde aj , j = 0,1,2,3, ..., m.
Exemplo: A tabela abaixo se refere ao valor de y (em reais) da poupança de famílias com
número x de filhos.
x 1 2 3 4 5
y 1000 800 500 400 100
Vamos considerar a função f que relaciona os valores de x com os respectivos y da tabela. Queremos aproximar f por uma função afim, isto é,
f(x)g(x) = a0g0(x)+a1g1(x),
onde a0 e a1 são números reais e g0(x)= 1 e g1(x) = x.
Deste modo, teremos: g(x) = a0 +a1x , com coeficientes a0 e a1 para serem
determinados.
Observações:
1) Se tivéssemos escolhido outro tipo de aproximação de f (não a afim), então
usaríamos outras funções gj , j = 0,1,2,3, ..., m.
121 Regressão Linear
Vamos aproximar uma função f pelo binômio ( a0 +a1x ) e, mostrar com isto,
como se desenvolve o método dos mínimos quadrados.
Suponhamos que o gráfico abaixo seja o de uma função tabelada com n pontos e
que g(x) = a0 +a1x é a equação da reta que pretendemos encontrar.
Chamamos de resido r(xi) a diferença entre a coordenada yi do ponto (xi, yi),
tabelado e o valor gi(x) da função afim.
r(xi) = ri = [yi gi(x)] = [yi (a0 +a1x)] = [yi a0 a1x], i = 1,2,3, ..., n.
Interessa-nos determinar a0 e a1 de modo que minimize a função de duas
variáveis:
L(a0, a1) = 2
1
n i i
r
= 20 1 1
[ a a ]
n
i i
i
y x
O estudo das funções reais de duas variáveis reais e diferenciável diz que nos pontos de Máximos ou Mínimos locais as derivadas parciais de primeira ordem em relação a cada uma das variáveis são iguais a zeros.
Por isto, façamos:
La0 (a0 , a1) = 0 e La1 (a0 , a1) = 0
Isto é,
La0 (a0 , a1) = 2 0 1
1
[ a a ] 1
n
i i
i
y x
= 0La1 (a0 , a1) = 2 0 1
1
[ a a ]
n
i i i
i
y x x
= 0Portanto,
g(x) = a0 +a1x
ym ...
yi ... r(xi)
y2 ...
y1 ... gi(x)
122
0 1 1
[ a a ] 1
n i i i y x
= 0 a01
1
n
i
+ a11 n i i x
= 1 n i i y
( I )
0 1 1
[ a a ]
n
i i i
i
y x x
= 0 a01 n i i x
+ a1 21 n i i x
= 1 n i i i x y
( II )As equações ( I ) e ( II ) formam um sistema linear. Tomemos este sistema na forma
matricial:
0
1 1 1
2
1
1 1 1
1 a
. a
n n n
i i
i i i
n n n
i i i i
i i i
x y
x x x y
O determinante da matriz dos coeficientes das incógnitas a0 e a1 é
2 2 1 1
n . ( )
n n
i i
i i
x x
positivo.******************* Provemos a afirmação acima:
São dadas as abscissas x1 , x2 , x3 , .... , xn dos pontos da tabela e seja h .
Temos que:
2 2 2 1 1
n n 2 2 1 i=1 i=1
n
2 2 ´
1 i=1
( h) ( 2h h )
2h h 1
2h h .n 0, pois e soma de quadrados
n n
i i i
i i n i i i n i i i
x x x
x x x x
A função quadrática Q(h) = n.h2 + 2
1 ( ).h n i i x
+ 21 ( ) n i i x
, que tem a forma dainequação acima, possui discriminante D negativo, visto que Q(h) > 0, h , e, também,
o coeficiente n, do termo quadrático, positivo ( n é o número de pontos dados).
Logo, D = 4. 2
1 ( ) n i i x
4.n. 21 ( ) n i i x
< 0Multiplicando a inequação acima por -1/4, temos 2 2
1 1
= n . ( ) 0
n n i i i i x x
. *******************123
2 0
1 1 1
1 1 1 a 1 . a n
n n n
i i i
i i i
n n
i i i
i i
x x y
x x y
Logo, 2 01 1 1 1 2 2
1
1 1 1 1 1
a
1
a n . ( ) n
n n n n
i i i i i
i i i i
n n n n n
i i i i i i
i i i i i
x y x x y
x x x y x y
Assim,a0 =
2
1 1 1 1 2 2 1 1
n . ( )
n n n n
i i i i i
i i i i
n n
i i
i i
x y x x y
x x
e a1 =1 1 1 2 2 1 1
n
n . ( )
n n n
i i i i
i i i
n n
i i
i i
x y x y
x x
Devemos mostrar que La0 (a0 , a1) > 0 e que o Hessiano é positivo para garantir
que a0 e a1 são as coordenadas do ponto de mínimo da função L.
Partindo das derivadas de primeira ordem obtidas acima:
La0 (a0 , a1) = 2 0 1
1
[ a a ]
n i i i y x
= 2. [1 n i i y
a01
1
n
i
a11 n i i x
]La1 (a0 , a1) = 2 0 1 2
1
[ a a ]
n
i i i i
i
x y x x
= 2. 20 1 1 1 1
[ a a ]
n n n
i i i i
i i i
x y x x
Teremos as derivadas de segunda ordem:
A = La0a0 (a0 , a1) = 2 1
[ 1]
n
i
= 2 [1] = 2n, (que é positiva).B = La1a1 (a0 , a1) = 2 2 1 [ ] n i i x
= 2 21 n i i x
eC = La0a1 (a0 , a1) = 2 1 [ ] n i i x
= 21 n i i x
As derivadas de segunda ordem não dependem de a0 e a1. Elas têm valores
constantes, pois xi são as abscissas dos pontos dados.
124
Hessiano = A C
C B =
1 2
1 1
2 2
2 2
n i i
n n
i i
i i
n x
x x
= 4. [ n.2 1
n i i
x
21
( )
n i i
x
] = 4.Logo, o Hessiano é positivo, visto que 0.
O fato de o Hessiano e La0a0 (a0 , a1) serem positivos segue que (a0 , a1, L(a0 , a1))
é mínimo local.
---
Voltando ao caso do exemplo inicial, da poupança das famílias, temos:
xi yi xi2 xiyi
1 1000 1 1000
2 800 4 1600
3 500 9 1500
4 400 16 1600
5 100 25 500
15 2800 55 6200
a0 = (55).(2800) (15).(6200)2 5.(55) (15) = 61000 50 = 1220 a1 = 5.(6200) (15).(2800)2 5(55) (15) = 11000 50 = 220 Portanto, g(x) = 220 x + 1220 é a equação da reta que melhor se aproxima dos pontos da tabela. n = 5 pontos
y 12201000
800
g(x) = 220x + 1220 600
400
200
x