• Nenhum resultado encontrado

Aula9EG

N/A
N/A
Protected

Academic year: 2021

Share "Aula9EG"

Copied!
10
0
0

Texto

(1)

ANÁLISE DE COVARIÂNCIA, CORRELAÇÃO E REGRESSÃO LINEAR O que é: É o estudo da associação ou relação entre duas variáveis.

1. Covariância amostral

Se uma medida de variância mede a variabilidade nos dados de uma variável, então uma medida de covariância mede a covariabilidade nos dados de duas variáveis. A covariância é assim uma medida da tendência a variação simultânea dos termos de duas séries de dados.

Def.: É uma média aritmética do produto dos afastamentos de cada variável em relação a respectiva média.

(

)(

)

[

]

1 n Y Y X X ) Y , X ( Cov n 1 i i i − − − = = =

[

]

1 n d d n 1 i Y i X i − =

• Qual é a unidade da covariância?. • Quem é a covariância, se Y for a própria X? X

Y

Obs: Os dados das duas variáveis são medidos em um mesmo indivíduo ou unidade experimental (parcela). Ou seja os dados são pareados.

X x1 x2 ... xn x

Y y1 y2 ... yn y

Ex: Calcule a covariância dos seguintes conjuntos de dados: X Y

(

x− x

)

(

y− y

)

(

x−x

)

×

(

y− y

)

0 2 4 6 0 2 4 6 -3 -1 1 3 -3 -1 1 3 9 1 1 9 3 x= x=3 Total 20 ∴Cov(X,Y)= 6,66 ) 1 4 ( 20 ≈−

(2)

X Y

(

x− x

)

(

y− y

)

(

x−x

)

×

(

y− y

)

0 2 4 6 6 4 2 0 -3 -1 1 3 3 1 -1 -3 -9 -1 -1 -9 3 x= x= 3 Total -20 ∴Cov(X,Y)= 6,66 ) 1 4 ( 20 − − X Y

(

x− x

)

(

y− y

)

(

x−x

)

×

(

y− y

)

0 2 4 6 3 3 3 3 -3 -1 1 3 0 0 0 0 0 0 0 0 3 x= x= 3 Total 0 ∴Cov(X,Y)= 0 ) 1 4 ( 0 − X Y

(

x− x

)

(

y− y

)

(

x−x

)

×

(

y− y

)

0 2 4 6 2 0 4 6 -3 -1 1 3 -1 -3 1 3 3 3 1 9 3 x= x= 3 Total 16 ∴Cov(X,Y)= ≈ − )1 4 (

16 5,3333 A covariância pode assumir valores [-;]

2. CORRELAÇÃO

CONCEITO: É a associação ou interdependência entre duas ou mais variáveis. Ex: Considere duas variáveis:

W: ALTURA X: MASSA VERDE M: MASSA VERDE

Z: DIÂMETRO Y: NITROGÊNIO N: CLORETO DE SÓDIO A: COMPRIMENTO P: COQUELUCHE (infecto-contagiosa peculiar à infância)

(3)

Questão: Para o caso das variáveis P e Q, será que a temperatura é a única variável associada à coqueluche?

Obs: Cabe ao estatístico medir, através de uma estatística (constante, coeficiente), o grau de associação (dependência) entre as variáveis e verificar se essa associação (dependência) é estatisticamente significativa.

Em última análise verificar se uma delas é CAUSA EFETIVA da outra e não estão relacionadas pela lei do acaso (CORRELAÇÕES DISPARATADAS ou ESPÚRIAS), como:

• Número de livros publicados × Números de jogos de futebol disputados

• Número de cegonhas × Número de nascimentos de crianças

Ex: Pressão e Volume dos gases => V=f(P) aqui existe uma interdependência absoluta como causa e efeito (lei de Boyle e Mariotte) PV=constante.

V V

P Temperatura

COEFICIENTE DE CORRELAÇÃO:

Conceito: é uma constante que mede o grau de associação entre duas variáveis. r∈

[ ]

−1,1 -1 ... –0,3 -0,2 -0,1 0 +0,1 +0,2 +0,3 ... +1

... ...

r positivo => a correlação é direta, isto é, quando ao aumento de uma variável corresponde o aumento da outra variável. W

Z

r negativo => a correlação é inversa, isto é, à medida que uma variável aumenta a outra variável diminui. A

(4)

r nulo => não há correlação entre as variáveis. X X

Y Y

CORRELAÇÃO PERFEITA r=±1 X X

r=1 r = -1

Y Y

CORRELAÇÃO IMPERFEITA – É aquela que fica dentro dos limites (-1, 1) (exclusive). Há uma gama de valores que expressam os diferentes graus de associação entre duas variáveis.

Tabela de Rugg

Obs: interpretação semelhante para correlações negativas

CÁLCULO DO COEFICIENTE DE CORRELAÇÃO DE PEARSON

Considere os dados de duas variáveis tomadas de forma pareada:

(

)(

)

[

]

(

)

x y n 1 i i i s s 1 n y y x x r − − − = =

• Qual é a unidade do coeficiente de correlação?

onde: sx: é o desvio padrão amostral da variável X;

sy: é o desvio padrão amostral da variável Y.

Correlação Interpretação r<0,15 0,15<r<0,29 0,30<r<0,49 r>0,5 desprezível baixa apreciável acentuada X Y x1 x2 xn y1 y2 yn x y

(5)

Ex: Variação do pulso e temperatura em um grupo de 6 indivíduos. 85 6 510 y= = 38,5 6 231 x= =

(

)

(

)

(

6 1

)

18,7082 85 110 85 60 2 2 y = − + + − = s

(

)

(

)

( )

6 1 1,8708 5 , 38 41 5 , 38 36 2 2 x = − + + − = s 1 8708 , 1 7082 , 18 5 0 , 175 r = × × = ∴

Gráfico de dispersão das variáveis Pulso x Temperatura 0 20 40 60 80 100 120 35 36 37 38 39 40 41 42 X: Temperatura Y : P ul so

Exercício: Calcule a correlação entre PESO e ALTURA de uma amostra dos dados coletados em sala de aula.

Indivíduos Y: Pulso X: Temperatura

(

yi− y

)

(

xi − x

)

(

yi−y

)

×

(

xi − x

)

A B C D E F 60 70 80 90 100 110 36 37 38 39 40 41 -25 -15 -5 5 15 25 -2,5 -1,5 -0,5 0,5 1,5 2,5 62,5 22,5 2,5 2,5 22,5 62,5 Total 510 231 0 0 175,0

(6)

REGRESSÃO LINEAR

• Admitindo que a variável Y é função linear de X, os valores de X são considerados fixos, isto é, X não é uma variável aleatória.

Y y2 yˆ n e2 en yˆ 12 yn θ β=tg(θ) α e1 y1 X x1 x2 ... xn i i i

x

e

y

=

α

+

β

+

(Modelo de Regressão) onde: α - Coeficiente linear ou Intercepto

β - Coeficiente Angular da reta ou Coeficiente de Regressão ei - Resíduos ou erros, considerados independentes. {ei}~N(0,σ2)

i

i

a

bx

=

+

(Reta Ajustada) onde: a - coeficiente linear; b – coeficiente de regressão.

(

)(

)

[

]

(

)

2 x n 1 i i i s 1 n y y x x b − − − = = e a=ybx

Ex: Considere os seguintes dados referentes a Produção de milho (Y) à adição de Nitrogênio (X) às parcelas. Parcelas Y: Produção (kg) X: Nitrogênio (kg/ha)

(

yi− y

)

(

xi − x

)

(

yi−y

)

×

(

xi− x

)

1 2 3 4 5 6 47 49 51 53 55 57 55 65 75 85 95 105 -5 -3 -1 1 3 5 -25 -15 -5 5 15 25 125 45 5 5 45 125 Total 312 480 0 0 350 52 6 312 y= = e 80kg 6 480 x= =

(7)

(

)

(

)

( )

6 1 3,7416 52 57 52 47 s 2 2 y = − + + − =

(

)

(

)

( )

6 1 18,7082 80 105 80 55 sx 2 2 = − − + + − = 2 , 0 ) 7082 , 18 ( ) 1 6 ( 350 b 2 = × − = e a = 52-(0,2)80 = 36 x 2 , 0 36 yˆ= +

∴ é a reta ajustada aos dados.

Gráfico de regressão da produção de milho em função do nitrogênio y = 0.2x + 36 R2 = 1 40 47 54 61 50 55 60 65 70 75 80 85 90 95 100 105 110 X: Nitrogênio Y : P ro du çã o 3 , 11 ) 2 , 0 ( arctg = = θ Y X yˆ eˆ 47 49 51 53 55 57 55 65 75 85 95 105 47 49 51 53 55 57 0 0 0 0 0 0

(8)

Mede a porcentagem da variação da variável dependente Y que é explicada pela reta de regressão. R2∈

[ ]

0,1 . Ex: R2 = 1 e R2 = 0,68

Obs: No caso de regressão linear, o coeficiente de determinação é igual ao quadrado da correlação. Isto é (R2 = r2).

Exercício: Calcule a reta de regressão para o seguinte conjunto de dados: Obs X Y

(

xi− x

)

(

yi− y

)

(

xi −x

)

×

(

yi− yˆ y

)

ei 1 2 3 4 5 6 70 60 100 90 80 110 40 41 38 37 36 39 -15 -25 15 5 -5 25 1,5 2,5 -0,5 -1,5 -2,5 0,5 -22,5 -62,5 -7,5 -7,5 12,5 12,5 39,14 39,57 37,85 38,28 38,71 37,42 0,86 1,43 0,15 -1,28 -2,71 1,58 Total 510 231 0 0 -75 0 85 x= y=38,5 sx=18,7082 sy=1,8708 4285 , 0 8708 , 1 7082 , 18 ) 1 6 ( 75 r ≈− × × − − = 0428 , 0 ) 7082 , 18 ( ) 1 6 ( 75 b 2 ≈− × − − = a = 38,5 – (-0,0428×85) = 42,14281

∴ yˆ=42,1428−0,0428x é a equação da reta ajustada. Coeficiente de determinação é R2 = 0,1837

Gráfico de regressão de Y versus X

y = -0.0429x + 42.143 R2 = 0.1837 35 36 37 38 39 40 41 42 55 65 75 85 95 105 115 X Y

(9)

Questão: Qual o princípio que se baseou para escolha da reta de ajuste?

Minimização das somas de quadrados dos resíduos ei. Mínimos Quadrados.

Partindo-se dos n resíduos, ei =yi−yˆi , i = 1, 2, ... ,n

Tem-se a soma de quadrados dos resíduos, z =

[

(

)

]

2 n 1 i i i n 1 i 2 i y a bx e = = + − = , a qual queremos

minimizar. Derivando parcialmente em relação a a e a b tem-se o seguinte sistema de equações:

[

]

(

)

[

− +

]

( )

− = = ∂ ∂ = + − − = ∂ ∂ = = n 1 i i i i n 1 i i i 0 x bx a y 2 b z 0 ) bx a ( y 2 a z

que simplificando fica:

= + = + = = = = = n 1 i n 1 i i i n 1 i 2 i i n 1 i i n 1 i i y x x b x a y x b na

e cuja solução por determinante fica:

2 n 1 i i n 1 i 2 i n 1 i i i n 1 i i n 1 i 2 i n 1 i i n 1 i 2 i n 1 i i n 1 i i n 1 i 2 i n 1 i i i n 1 i n 1 i i i x x n y x x x y x x x n x y x x y a − − = = = = = = = = = = = = = = = 2 n 1 i i n 1 i 2 i n 1 i i n 1 i i n 1 i i i n 1 i 2 i n 1 i i n 1 i i n 1 i i i n 1 i i n 1 i i x x n x y y x n x x x n y x x y n b − − = = = = = = = = = = = = =

(10)

Ex: Calcule a reta de regressão para o seguinte conjunto de dados, usando as fórmulas anteriores para determinar os coeficientes a e b:

Obs X Y 2 i x xi× yˆ yi 1 2 3 4 5 6 70 60 100 90 80 110 40 41 38 37 36 39 4900 3600 10000 8100 6400 12100 2800 2460 3800 3330 2880 4290 39,14 39,57 37,85 38,28 38,71 37,42 Total 510 231 45100 19560 0

( )(

) ( )(

)

(

) ( )

10500 42,1428 442500 510 45100 6 19560 510 45100 231 a 2 = ≈ − − =

(

) ( )( )

(

) ( )

10500 0,0428 450 510 45100 6 510 231 19560 6 b 2 = − ≈− − − =

∴ yˆ=42,1428−0,0428x é a equação da reta ajustada. Note que é a mesma equação obtida anteriormente, uma vez que os pares de dados são os mesmos.

E

Exxeerrccíícciioo: Seja X a quantidade de nitrogênio aplicada ao solo em kg/parcela e Y a produção de moranguinhos em kg/parcela.

X 0 1 1 2 3 3 4 5 5 6 Y 3 2 3 5 4 4 7 6 7 9

Determine a equação da reta de regressão que se ajusta a esses dados, o ângulo que a reta ajustada forma com o eixo do nitrogênio, o coeficiente de correlação e determinação. Interprete cada parâmetro estimado.

Referências

Documentos relacionados

O termo extrusão do núcleo pulposo aguda e não compressiva (Enpanc) é usado aqui, pois descreve as principais características da doença e ajuda a

Fita 1 Lado A - O entrevistado faz um resumo sobre o histórico da relação entre sua família e a região na qual está localizada a Fazenda Santo Inácio; diz que a Fazenda

Como não se conhece parâmetros hematológicos do pacu-manteiga Mylossoma duriventre Cuvier, 1817, a proposta do presente estudo foi descrever tais parâmetros em espécimes

Apesar dos esforços para reduzir os níveis de emissão de poluentes ao longo das últimas décadas na região da cidade de Cubatão, as concentrações dos poluentes

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

exercício profissional. Relativamente a Pediatria, apesar da maioria das patologias que observei terem sido do foro reumatológico, penso que o meu contacto com esta

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos