3) Média e Variância de médias amostrais X=

(1)

116

APÊNDICE

1) Propriedades da Esperança

Notações: E(X), (X), _X, ,

 

1

n

i i

i

x p x 



1º) E[k] = k.

E[k] =

 

1

n

i i

k p x 



= k

 

1

n i i

p x 



= k . 1 = k.

2º) E[kX] k.E[X] , k .

E[kX] =

 

1

n

i i

i

k x p x 



= k

 

1

n

i i

i

x p x 



= k .E[X]

3º) E[X Y] = E[X]  E[Y]

Utilizar probabilidade conjunta: p(X=xi , Y=yj) = p(xi , yj)

E[X Y] = ,

, 1

( ) ( , )

n m

i j i j

i j

x y p x y 





= , ,

, 1 , 1

( , ) ( , )

n m n m

i i j j i j

i j i j

x p x y y p x y

 





=

1 1 1 1

( , ) ( , )

n m n m

i i j j i j

i j i j

x p x y y p x y

   



 

=

1 1

( ) ( )

n m

i i j j

i j

x p x y p y

 





=

= E[X]  E[Y].

4º) E[mX  n] = m E[X]  n, m,n .

E[mX  n] = E[mX]  E[n] = m E[X]  n.

5º) E[X] = 0

E[X] =

 

1

( )

n

i X i

i

x  p x

 



=

 

1 1

n n

i i X i

i i

x p x  p x

 





=E[X] 

 

1

n

X i

i

p x







=

= E[X] X.1= E[X] X = E[X]  E[X] = 0.

2) Propriedades da Variância

Notações: VAR(X), V(X), _2_(X)_, 2

X

 , _2_e

VAR(X)= E[(X  )2_{] =} 2

 

1

( )

n

i i

i

x  p x

 



(2)

117

VAR(X) = E[(X  )2_{] =E[X}2__2X_₊_2_{] = E[X}2_]_₂__{E[X] +}_2₌

= E[X2_]_₂_2₊_2_{= E[X}2_]_ _2₌

= E[X2_]__(E[X])2_.

2º) VAR(k) = 0, k .

VAR(k) = E[(k _K)2] = E[(kk)2] = E[0] = 0

3º) VAR (kX) = k2_{VAR(X), k}_ _.

VAR (kX) = E[(kX E[kX])2_{] = E[(kX}__{k E[X])}2_{] = E[k}2_(X_–_E(X))2_{] =}

= k2_.E[(_X_–_E(_X₎₎2_{] = k}2_.E[(_X_– _₎2_{] =}

= k2_{. VAR(}_X_).

4º) VAR(X  Y) = VAR(X) + VAR(Y) 2 COV(X,Y)

VAR(X  Y) = E [( (XY) – E[(XY) )2_{] = E [( X}__Y_–_E[X]__{E[Y] )}2_{] =}

= E [((X – E[X])  (Y – E[Y]) )2_{] =}

= E [(X – E[X])2_{+ (Y}_–_E[Y])2 __{2 (X}_–_{E[X]) (Y}_–_{E[Y]) =}

= E [(X–E[X])2_{] + E [(Y}_–_E[Y])2_]__{2 E [(X}_–_E[X])(Y_–_E[Y])]=

= VAR(X) + VAR(Y)  2 COV(X, Y).

Observação: COV(X, Y) mede o grau de dependência entre X e Y.

COV(X, Y) = E [(X – E[X])(Y – E[Y])] =

= E [XY] – E[X] E[Y].

Provar que COV(X, Y) = E [XY] – E[X] E[Y].

COV(X, Y) = E [(X – E[X])(Y – E[Y])] =

= E [XY – X E[Y] – YE[X] + E[X] E[Y] =

= E [XY – X Y – Y X + X Y] = = E[XY] – E[X] Y – E[Y] X + X Y =

= E[XY] – X Y – Y X + Y X = E[XY] – X Y = E[XY] – E[X] E[Y] .

5º) VAR(mX + n) = m2_VAR(X)

VAR(mX + n) = E [

(

(mX + n) – E[(mX + n)]

)

2_{] =}

= E [(mX + n – m E[X] – n )2_{] =}

= E [ (mX – m E[X] )2_{] = E [ m}2_(X_–_E[X])2_{] =}

= m2_{E [ (X}_–_E[X])2_{] = m}2_{E [(X}_–

X

 )2_{] =}

(3)

118

3) Média e Variância de médias amostrais

X = 1 1 n

i i

x n





1º) E[ ]X = .

E[ ]X = E

[

1 1 n

i i

x n





]

= 1

n E

[

1

n i i

x 



]

= 1

n 1 E[ ] n i i x 



= 1

n 1 E[ ] n i X 



= 1

n 1 n i  



= 1

n. n = .

2º) VAR(X ) =

2 n



VAR(X ) = VAR(1

n 1 n i i x 



) = 1₂

n VAR( 1

n i i

x 



) = 1₂

n 1 VAR( ) n i i x 



=

= 1₂

n 1 VAR( ) n i X 



= 1₂

n 2 1 n i  



= 1₂

n . 2 n =

2 n



.

3º) X

X

n

  

4) Estimadores não viciados ( não viesado)

Seja  = estimador (da amostra de tamanho n) e  = parâmetro (da população)

Devemos ter E( ) = .

Exemplos:

1º) E[ ]X = , sendo X = 1 1 n

i i

x n





E[ ]X = E

[

1 1 n

i i

x n





]

= 1

n E

[

1

n i i

x 



]

= 1

n 1 E[ ] n i i x 



= 1

n 1

n

i 





= 1

n. n = .

2º) E[S2] = 2, sendo S2 = 2

1 1 ( ) 1 n i i x X n   



E[S2] = E

[

2

1 1 ( ) 1 n i i x X n   



]

= 1 1 n E

[

2 1 ( ) n i i x X  



]

= = 1 1

n E

[

2 2

1

( 2 )

n

i i

i

x x X X



 



]

= 1

1

n E

[

2 2

1 1 1

( n i 2 n i n )

i i i

x X x X

  

 



 

=

= 1

1 n E

[

2 2

1 1 1

( 2 1)

n n n

i i

i i i

x X x X

  

 



=

= 1 1

n E

[

2 1 2

1

( 2 )

n i n i i i x

x nX nX

n  









= 1

1

n E

[

2 2 2

1

( n i 2 )

i

x nX nX



 

(4)

119 = 1

1 n E

[

2 2

1

( n _i )

i

x nX 





= 1

1 n

2 2

1

( n E[ ]_i E[ ])

i

x n X







=

= 1

1 n

2 2

1

( E[ ] E[ ])

n

i

X n X







Observação:

a) VAR(X) = E[X2_]_–_(E[X])2__2 __{E[X ]}2 __2_ _{E[X ]}2 __2 __2

b) VAR(X ) = E[X 2] – (E[X ])2 

2

2 2

E[X ]

n

 _ __ _ 2

2 2

E[X ]

n

 _

 

Substituindo (a) e (b) em (2º), segue

E[S2] = 1 1 n

2

2 2 2

1

( n ( ) ( ) )

i

n n

   



  



= 1

1 n

2

2 2 2

( (n ) n( ))

n



    = = 1

1 n

2 2 2 2

(n n ) n ))= 1

1 n

2 2

(n  ) = 1

1 n

2₍ ₁₎ n

  = _2_.

4) Estimador viciado (viesado)

Devemos ter E( )  .

Exemplo:

2 2

1 1

( )

n i i

S x X

n 





 é estimador viciado de _2_.

Vejamos:

Aproveitando os cálculos apresentados acima temos E[S2] =1

n

2₍ ₁₎ n

  =n 1 2 n 



.

Portanto, E[S2] 2.

5) Método dos mínimos quadrados para explicar Regressão linear

Devemos, inicialmente, recordar como se obtém, caso existam, os pontos críticos (máximos, mínimos e sela) de funções reais diferenciáveis de duas variáveis reais.

Seja f D:  , D 2, z f x y( , ), onde fx e fy são as derivadas parciais de

primeira ordem em relação a x e a y, respectivamente.

a) Obter a solução do sistema:

( , ) 0

x y

f x y

f x y  

 _

  S = {( , ) /x yi i i0,1,2,..., }n

(5)

120

Obtêm-se as derivadas parciais de segunda ordem fxxem relação a x, fyyem

relação a y e f_xy em relação a x e y em cada ponto de S.

( , ) A

( , ) B, 0,1, 2,...

( , ) C

xx i i yy i i xy i i

f x y

f x y para cada i n

f x y

 _



 



 _



Obter o Hessiano de cada um dos pontos de S:

H =A C

C B = AB – C

2

i) Se H > 0 e A > 0, então ( , , ( , ))x yk k f x yk k é ponto mínimo local do gráfico de f.

ii) Se H > 0 e A < 0, então ( , , ( , ))x yk k f x yk k é ponto máximo local do gráfico de f.

iii) Se H < 0 , então ( , , ( , ))x yk k f x yk k é ponto sela do gráfico de f.

iv) Se H = 0 , então não se pode concluir se ( , , ( , ))x yk k f x yk k é ponto mínimo local

do gráfico de f.

APROXIMAÇÃO DAS FUNÇÕES PELO MÉTODO DOS MÍNIMOS QUADRADOS

Trataremos apenas de funções que possuem domínio discreto: funções dadas por uma tabela.

O problema consiste em aproximar uma função por uma combinação de funções gj

j = 0,1,2,3, ..., m, previamente escolhidas.

f(x)g(x) = a0g0(x)+a1g1(x)+ a2g2(x)+ ... + amgm(x) , onde aj , j = 0,1,2,3, ..., m.

Exemplo: A tabela abaixo se refere ao valor de y (em reais) da poupança de famílias com

número x de filhos.

x 1 2 3 4 5

y 1000 800 500 400 100

Vamos considerar a função f que relaciona os valores de x com os respectivos y da tabela. Queremos aproximar f por uma função afim, isto é,

f(x)g(x) = a0g0(x)+a1g1(x),

onde a0 e a1 são números reais e g0(x)= 1 e g1(x) = x.

Deste modo, teremos: g(x) = a0 +a1x , com coeficientes a0 e a1 para serem

determinados.

Observações:

1) Se tivéssemos escolhido outro tipo de aproximação de f (não a afim), então

usaríamos outras funções gj , j = 0,1,2,3, ..., m.

(6)

121 Regressão Linear

Vamos aproximar uma função f pelo binômio ( a0 +a1x ) e, mostrar com isto,

como se desenvolve o método dos mínimos quadrados.

Suponhamos que o gráfico abaixo seja o de uma função tabelada com n pontos e

que g(x) = a0 +a1x é a equação da reta que pretendemos encontrar.

Chamamos de resido r(xi) a diferença entre a coordenada yi do ponto (xi, yi),

tabelado e o valor gi(x) da função afim.

r(xi) = ri = [yi  gi(x)] = [yi  (a0 +a1x)] = [yi  a0  a1x], i = 1,2,3, ..., n.

Interessa-nos determinar a0 e a1 de modo que minimize a função de duas

variáveis:

L(a0, a1) = 2

1

n i i

r





= 2

0 1 1

[ a a ]

n

i i

i

y x



 



O estudo das funções reais de duas variáveis reais e diferenciável diz que nos pontos de Máximos ou Mínimos locais as derivadas parciais de primeira ordem em relação a cada uma das variáveis são iguais a zeros.

Por isto, façamos:

La0 (a0 , a1) = 0 e La1 (a0 , a1) = 0

Isto é,

La0 (a0 , a1) = 2 ₀ ₁

 

1

[ a a ] 1

n

i i

i

y x



  



= 0

La1 (a0 , a1) = 2 ₀ ₁

 

1

[ a a ]

n

i i i

i

y x x



  



= 0

Portanto,

g(x) = a0 +a1x

ym ...

yi ... r(xi)

y2 ...

y1 ... gi(x)

(7)

122

 

0 1 1

[ a a ] 1

n i i i y x    



= 0  a0

1

n

i



+ a1

1 n i i x 



= 1 n i i y 



( I )

 

0 1 1

[ a a ]

n

i i i

i

y x x



  



= 0  a0

1 n i i x 



+ a1 2

1 n i i x 



= 1 n i i i x y 



( II )

As equações ( I ) e ( II ) formam um sistema linear. Tomemos este sistema na forma

matricial:

0

1 1 1

2

1

1 1 1

1 a

. a

n n n

i i

i i i

n n n

i i i i

i i i

x y

x x x y

                  _{  }            _{ }          



O determinante da matriz dos coeficientes das incógnitas a0 e a1 é

2 2 1 1

n . ( )

n n

i i

x x

 

 







positivo.

******************* Provemos a afirmação acima:

São dadas as abscissas x1 , x2 , x3 , .... , xn dos pontos da tabela e seja h .

Temos que:

2 2 2 1 1

n n 2 2 1 i=1 i=1

n

2 2 ´

1 i=1

( h) ( 2h h )

2h h 1

2h h .n 0, pois e soma de quadrados

n n

i i i

i i n i i i n i i i

x x x

x x x x                 



A função quadrática Q(h) = n.h2_{+ 2}

1 ( ).h n i i x 



+ 2

1 ( ) n i i x 



, que tem a forma da

inequação acima, possui discriminante D negativo, visto que Q(h) > 0,  h , e, também,

o coeficiente n, do termo quadrático, positivo ( n é o número de pontos dados).

Logo, D = 4. 2

1 ( ) n i i x 



 4.n. 2

1 ( ) n i i x 



< 0

Multiplicando a inequação acima por -1/4, temos 2 2

1 1

= n . ( ) 0

n n i i i i x x   







 . *******************

(8)

123

2 0

1 1 1

1 1 1 a 1 . a _n

n n n

i i i

n n

i i i

i i

x x y

x x y

                      _ _{ } _   _{ }        _ _{ } _    

 



Logo, 2 0

1 1 1 1 2 2

1

1 1 1 1 1

a

1

a n . ( ) n

n n n n

i i i i i

i i i i

n n n n n

i i i i i i

i i i i i

x y x x y

x x x y x y

                     _ _       _ _ _   _ _  

   



 



Assim,

a0 =

2

1 1 1 1 2 2 1 1

n . ( )

n n n n

i i i i i

i i i i

n n

i i

x y x x y

x x        

   



e a1 =

1 1 1 2 2 1 1

n

n . ( )

n n n

i i i i

i i i

n n

i i

x y x y

x x       



 



Devemos mostrar que La0 (a0 , a1) > 0 e que o Hessiano é positivo para garantir

que a0 e a1 são as coordenadas do ponto de mínimo da função L.

Partindo das derivadas de primeira ordem obtidas acima:

La0 (a0 , a1) = 2 ₀ ₁

1

[ a a ]

n i i i y x   



= 2. [

1 n i i y 



 a0

1

n

i



 a1

1 n i i x 



]

La1 (a0 , a1) = 2 ₀ ₁ 2

1

[ a a ]

n

i i i i

i

x y x x



 



= 2. 2

0 1 1 1 1

[ a a ]

n n n

i i i i

i i i

x y x x

  

 



Teremos as derivadas de segunda ordem:

A = La0a0 (a0 , a1) = 2 1

[ 1]

n

i





= 2 [1] = 2n, (que é positiva).

B = La1a1 (a0 , a1) = 2 2 1 [ ] n i i x 





= 2 2

1 n i i x 



e

C = La0a1 (a0 , a1) = 2 1 [ ] n i i x 





= 2

1 n i i x 



As derivadas de segunda ordem não dependem de a0 e a1. Elas têm valores

constantes, pois xi são as abscissas dos pontos dados.

(9)

124

Hessiano = A C

C B =

1 2

1 1

2 2

n i i

n n

i i

n x

x x



 



 

= 4. [ n.

2 1

n i i

x 



 2

1

( )

n i i

x





] = 4.

Logo, o Hessiano é positivo, visto que  0.

O fato de o Hessiano e La0a0 (a0 , a1) serem positivos segue que (a0 , a1, L(a0 , a1))

é mínimo local.

---

Voltando ao caso do exemplo inicial, da poupança das famílias, temos:

xi yi x_i2 xiyi

1 1000 1 1000

2 800 4 1600

3 500 9 1500

4 400 16 1600

5 100 25 500

15 2800 55 6200

a0 = (55).(2800) (15).(6200)₂ 5.(55) (15)   = 61000 50 = 1220 a1 = 5.(6200) (15).(2800)₂ 5(55) (15)   = 11000 50  =  220 Portanto, g(x) =  220 x + 1220 é a equação da reta que melhor se aproxima dos pontos da tabela. n = 5 pontos



y 1220

1000

800

g(x) = 220x + 1220 600

400

200

x