• Nenhum resultado encontrado

1 Descri¸c˜ao Gr´afica

N/A
N/A
Protected

Academic year: 2022

Share "1 Descri¸c˜ao Gr´afica"

Copied!
9
0
0

Texto

(1)

Centro Federal de Educa¸c˜ ao Tecnol´ ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina: M´ etodos Estat´ısticos

Prof. Anna Regina Corbo

CAP´ ITULO 5: Correla¸ c˜ ao e Regress˜ ao Linear

1 Descri¸ c˜ ao Gr´ afica

Nosso objetivo agora ´ e examinar problemas de Estat´ıstica que envolvem duas ou mais vari´ aveis quantitativas. De modo inicial, suponha que queremos investigar a rela¸c˜ ao en- tre duas vari´ aveis de uma mesma popula¸c˜ ao que chamaremos de vari´ aveis X e Y . Ou seja, para cada elemento da amostra, iremos verificar um par ordenado (x, y). Ao plotar estes pares num gr´ afico cartesiano bidimensional teremos o chamado diagrama de dispers˜ ao.

A vantagem de construir um diagrama de dispers˜ ao est´ a em que, muitas vezes, sua simples observa¸c˜ ao j´ a nos d´ a uma boa id´ eia de como as duas vari´ aveis se correlacionam, isto ´ e, qual a tendˆ encia de varia¸ c˜ ao conjunta que apresentam.

Exemplo: Valores de altura (X) e peso (Y) de dez pessoas.

Pessoa Altura (cm) Peso (kg)

1 174 73

2 161 66

3 170 64

4 180 94

5 182 79

Pessoa Altura (cm) Peso (kg)

6 164 72

7 156 62

8 168 64

9 176 90

10 175 81

Figura 1: Diagrama de dispers˜ ao para os dados da tabela Altura X Peso

2 Correla¸ c˜ ao Linear

Observando os pontos do diagrama de dispers˜ ao da Figura 1 ´ e poss´ıvel ver que existe, para

maiores valores de X, uma tendˆ encia a obtermos maiores valores de Y e vice-versa. Quando

(2)

isso ocorre, dizemos que h´ a uma correla¸ c˜ ao linear positiva. Entretanto, tamb´ em podemos ter casos em que o diagrama de dispers˜ ao apresenta o aspecto da Figura 2 indicando que, para maiores valores de X, a tendˆ encia de observarem-se menores valores de Y e vice-versa.

Tais casos s˜ ao chamados de correla¸ c˜ ao linear negativa.

Figura 2: Diagrama de dispers˜ ao para correla¸c˜ ao negativa

E claro que o sinal da correla¸c˜ ´ ao indica a tendˆ encia da varia¸c˜ ao conjunta das duas vari´ aveis consideradas. Por´ em tamb´ em devemos considerar a intensidade ou o grau da cor- rela¸c˜ ao. A correla¸c˜ ao linear ´ e muito mais intensa se os pontos apresentam uma tendˆ encia mais acentuada de se colocarem segundo uma reta. O caso mais extremo ´ e aquele em que todos os pontos se situam sobre uma mesma reta com inclina¸c˜ ao positiva ou negativa, em que ter´ıamos a correla¸c˜ ao linear perfeita. Ou seja, no presente estudo, estamos interessados em verificar exatamente o quanto os pontos se aproximam de uma reta - o quanto os pontos est˜ ao linearmente correlacionados.

Em geral, para se obter uma medida da correla¸c˜ ao, utiliza-se o coeficiente de cor- rela¸ c˜ ao linear de Pearson, definido por:

r =

P n

i=1 (x i − x)(y ¯ i − y) ¯ pP n

i=1 (x i − x) ¯ 2 · P n

i=1 (y i − y) ¯ 2 Ou seja,

r = S xy

p S xx · S yy

onde S xx e S yy s˜ ao os desvios-padr˜ ao das vari´ aveis X e Y na amostra e S xy ´ e a covariˆ ancia entre as duas vari´ aveis definida por:

S xy = cov (x, y) = P n

i=1 (x i − x)(y ¯ i − y) ¯ n − 1

Uma maneira mais “r´ apida” de calcular os valores de S xx , S yy e S xy ´ e a representa¸c˜ ao abre- viada dos somat´ orios apresentadas abaixo:

S xy = P n

i=1 (x i − x)(y ¯ i − y) = ¯ P

x i y iP x

i

n · P y

i

S xx = P n

i=1 (x i − x) ¯ 2 = P

x 2 i( P n x

i

)

2

(3)

S yy = P n

i=1 (y i − y) ¯ 2 = P

y 2 i( P n y

i

)

2

O coeficiente de correla¸c˜ ao linear de Pearson tem as importantes propriedades de ser adi- mensional e de variar entre −1 e +1. A vantagem de ser adimensional est´ a no fato de seu valor n˜ ao ser afetado pelas unidades adotadas. Por outro lado, o fato de termos −1 6 r 6 1, faz com que um dado valor de r seja facilmente interpretado. Como r = −1 corresponde ao caso de correla¸c˜ ao linear negativa perfeita e r = +1 corresponde ao de correla¸c˜ ao linear positiva perfeita, o significado de valores intermedi´ arios ´ e rapidamente percebido.

2.1 Teste do coeficiente de correla¸ c˜ ao

Um ponto importante diz respeito ` a interpreta¸c˜ ao do valor obtido a partir de uma amostra.

Vimos que, estando necessariamente entre −1 e +1, o valor de r por si s´ o deve nos dar uma boa id´ eia do grau e do sinal da correla¸c˜ ao linear. N˜ ao devemos, no entanto, esquecer que, em geral, o valor de r ´ e calculado com base nos n elementos de uma amostra aleat´ oria e que, portanto, representa apenas uma estimativa do verdadeiro coeficiente de correla¸c˜ ao populacional ρ.

Deste modo, desejamos saber se um dado valor de r, combinado com o respectivo tamanho da amostra n, permite concluir, a um dado n´ıvel de significˆ ancia α, que realmente existe correla¸c˜ ao linear entre as vari´ aveis. Testamos, ent˜ ao, as hip´ oteses

H 0 : ρ = 0 H 1 : ρ 6= 0

Esse teste bilateral pode ser feito atrav´ es da estat´ıstica t calc = r

r n − 2 1 − r 2

que ser´ a testada pelo teste de t Student com n − 2 graus de liberdade. Ou seja, se

−t α/2,n−2 6 t calc 6 t α/2,n−2 ent˜ ao n˜ ao rejeite H 0 . Caso contr´ ario, rejeite a hip´ otese nula.

O teste poder´ a tamb´ em ser feito unilateralmente, utilizando o valor cr´ıtico t α,n−2 cujo sinal depender´ a do tipo de teste unilateral.

Exemplo 1: Suponha que um engenheiro deseja estabelecer a rela¸c˜ ao entre a resistˆ encia ao puxamento de um fio e o comprimento do fio. Uma amostra aleat´ oria de 25 unidades

´

e selecionada e testada, sendo a resistˆ encia ao puxamento e o comprimento do fio observados para cada unidade. Os dados s˜ ao mostrados na tabela abaixo e considere que a resistˆ encia ao puxamento e o comprimento do fio sejam normalmente distribu´ıdos.

E poss´ıvel afirmar com ´ α = 5% de significˆ ancia que existe uma correla¸c˜ ao entre os dois

fatores observados?

(4)

Observa¸c˜ ao Resistˆ encia (y) Comprimento (x)

1 9,95 2

2 24,45 8

3 31,75 11

4 35,00 10

5 25,02 8

6 16,86 4

7 14,38 2

8 9,60 2

9 24,35 9

10 27,50 8

11 17,08 4

12 37,00 11

13 41,95 12

14 11,66 2

15 21,65 4

16 17,89 4

17 69,00 20

18 10,30 1

19 34,93 10

20 46,59 15

21 44,88 15

22 54,12 16

23 56,63 17

24 22,13 6

25 21,15 5

Solu¸c˜ ao:

Utilizando os dados da tabela, obtemos:

S xx = Desvio-padr˜ ao de X · (n − 1) = 698, 5600 S yy = Desvio-padr˜ ao de Y · (n − 1) = 6105, 9447 S xy = 2027, 7132

Logo,

r = S xy

p S xx · S yy = 2027, 7132

√ 698, 5600 · 6105, 9447 = 0, 9818

Note que r 2 = (0, 9818) 2 = 0, 9640, ou seja, aproximadamente 96, 40% da variabilidade na resistˆ encia ao puxamento ´ e explicado pela rela¸c˜ ao linear com o comprimento do fio.

Para comprovar isto estatisticamente, devemos realizar o teste H 0 : ρ = 0

H 1 : ρ 6= 0 com α = 0, 05. A estat´ıstica do teste ser´ a:

t calc = r

r n − 2

1 − r 2 = 0, 9818

r 25 − 2

1 − 0, 9640 = 24, 82 uma vez que t 0,025;23 = 2, 069, ent˜ ao tem-se que t calc > t α , logo rejeite H 0 .

Conclus˜ ao: existem evidˆ encias que atestam que o coeficiente de correla¸c˜ ao ´ e ρ 6= 0, isto ´ e,

existe efetivamente uma rela¸c˜ ao linear entre o puxamento e o tamanho do fio.

(5)

3 Regress˜ ao Linear

Muitas vezes a posi¸c˜ ao dos pontos experimentais no diagrama de dispers˜ ao sugere que existe uma rela¸c˜ ao funcional entre as duas vari´ aveis. Surge ent˜ ao o problema de se determinar uma fun¸c˜ ao que exprima esse relacionamento. Este ´ e o chamado problema da An´ alise da Regress˜ ao.

Assim, se os pontos experimentais se apresentarem de modo a sugerir uma rela¸c˜ ao, ad- mitiremos existir um relacionamento funcional entre os valores de Y e X, respons´ avel pelo aspecto do diagrama, e que explica grande parte da varia¸c˜ ao de Y com X, ou vice-versa.

Esse relacionamento funcional corresponderia ` a uma linha existente entre os pontos chamada de linha de regress˜ ao, conforme esquematizado na Figura 3.

Figura 3: Esquematiza¸c˜ ao de diagrama de dispers˜ ao (em preto) e linha de regress˜ ao (em azul).

Uma parcela da varia¸c˜ ao, entretanto, permanece em geral sem ser explicada, e ser´ a atribu´ıda ao acaso. Em outras palavras, admitimos existir uma fun¸c˜ ao que justifica, em m´ edia, a varia¸c˜ ao de uma das vari´ aveis com a outra. Na pr´ atica, os pontos experimentais ter˜ ao uma varia¸c˜ ao em torno da linha representativa dessa fun¸c˜ ao, devido ` a existˆ encia de uma varia¸c˜ ao ε aleat´ oria adicional. Essa fun¸c˜ ao de regress˜ ao, portanto, nos d´ a o valor m´ edio de uma das vari´ aveis em fun¸c˜ ao da outra, ou seja,

E [Y |x] = µ Y |x = ϕ(x) + ε

Neste estudo inicial, vamos admitir que a forma da linha de regress˜ ao seja uma reta. Ou seja, a inspe¸c˜ ao do diagrama de dispers˜ ao indica que, embora nenhuma curva simples passe exatamente atrav´ es de todos os pontos, h´ a uma forte indica¸c˜ ao de que os pontos repou- sam aleatoriamente dispersos em torno de uma linha reta. Consequentemente, ´ e razo´ avel considerar que a m´ edia da vari´ avel aleat´ oria Y esteja relacionada a x pela seguinte rela¸c˜ ao linear:

E[Y |x] = µ Y |x = β 0 + β 1 x

em que a inclina¸c˜ ao e a interse¸c˜ ao da linha s˜ ao chamadas coeficientes de regress˜ ao. En- quanto a m´ edia de Y ´ e uma fun¸c˜ ao linear de x, o valor real observado, y, n˜ ao cai exatamente na linha reta. A maneira apropriada de generalizar isso para um modelo linear probabil´ıstico

´

e considerar que o valor esperado de Y seja uma fun¸c˜ ao linear de x, mas que, para um valor fixo de x, o valor real de Y seja determinado pela fun¸c˜ ao do valor m´ edio mais um termo de erro aleat´ orio,

Y = β 0 + β 1 x + ε

(6)

sendo ε o termo de erro aleat´ orio. Chamaremos esse modelo de Modelo de Regress˜ ao Linear Simples, pois ele tem apenas uma vari´ avel independente.

Na maioria dos problemas reais, os valores da interse¸c˜ ao e da inclina¸c˜ ao (β 0 , β 1 ) n˜ ao ser˜ ao conhecidos e devem ser estimados a partir dos dados da amostra. A an´ alise de regress˜ ao

´

e uma cole¸c˜ ao de ferramentas estat´ısticas para encontrar as estimativas dos paramˆ etros no modelo de regress˜ ao. Ent˜ ao, essa equa¸c˜ ao (ou modelo) ajustada de regress˜ ao ´ e tipicamente usada na previs˜ ao de observa¸c˜ oes futuras de Y ou para estimar a resposta m´ edia em um n´ıvel particular de x.

3.1 Regress˜ ao Linear Simples

O caso de regress˜ ao linear simples considera um ´ unico regressor x e uma vari´ avel dependente ou vari´ avel de resposta Y . Suponha que a rela¸c˜ ao verdadeira entre Y e x seja uma linha reta. Deste modo, o valor esperado de Y para cada valor de x ´ e

E[Y |x] = β 0 + β 1 x

sendo a interse¸c˜ ao β 0 e a inclina¸c˜ ao β 1 coeficientes desconhecidos da regress˜ ao. Consideremos que cada observa¸c˜ ao Y possa ser descrita pelo modelo

Y = β 0 + β 1 x + ε onde ε ´ e um erro aleat´ orio com m´ edia zero e variˆ ancia σ 2 .

Suponha que tenhamos n pares de observa¸c˜ oes (x 1 , y 1 ), (x 2 , y 2 ), · · · , (x n , y n ). As estima- tivas de β 0 e β 1 devem resultar em uma linha que ´ e o “melhor ajuste” para os dados.

Uma forma de estimar estes parˆ ametros β 0 e β 1 ´ e minimizar a soma dos quadrados dos desvios verticais. Chamamos este crit´ erio para estimar os coeficientes de regress˜ ao de m´ etodo dos m´ınimos quadrados.

Matematicamente, temos: uma vez que cada observa¸c˜ ao Y possa ser descrita pelo modelo Y = β 0 + β 1 x + ε, podemos expressar as n observa¸c˜ oes na amostra como:

y 1 = β 0 + β 1 x 1 + ε 1 y 2 = β 0 + β 1 x 2 + ε 2

.. .

y n = β 0 + β 1 x n + ε n .

Uma vez que para cada observa¸c˜ ao i, o seu correspondente desvio ´ e dado por ε i = y i − β 0 − β 1 x i

a soma dos quadrados dos desvios das observa¸c˜ oes em rela¸c˜ ao ` a linha de regress˜ ao ´ e dada por:

L = ε 2 1 + ε 2 1 + . . . + ε 2 n =

n

X

i=1

ε 2 i =

n

X

i=1

(y i − β 0 − β 1 x i ) 2

(7)

Minimizar este funcional ´ e o mesmo que obter o ponto, onde as derivadas parciais se anulam, ou seja, obter estimadores ˆ β 0 e ˆ β 1 de β 0 e β 1 que satisfazem:

∂L

∂β 0 = −2

n

X

i=1

(y i − β ˆ 0 − β ˆ 1 x i ) = 0 (1)

∂L

∂β 1 = −2

n

X

i=1

(y i − β ˆ 0 − β ˆ 1 x i ) · x i = 0 (2) Simplificando a express˜ ao (1), temos que:

−2 P n

i=1 (y i − β ˆ 0 − β ˆ 1 x i ) = 0 P n

i=1 (y i − β ˆ 0 − β ˆ 1 x i ) = 0 P n

i=1 y i − P n

i=1 β ˆ 0 − P n

i=1 β ˆ 1 x i = 0 P n

i=1 y i − n · β ˆ 0 − β ˆ 1 · P n

i=1 x i = 0 n · β ˆ 0 = P n

i=1 y i − β ˆ 1 · P n i=1 x i β ˆ 0 =

P n i=1 y i

n − β ˆ 1 P n

i=1 x i n β ˆ 0 = ¯ y − β ˆ 1 x ¯ (1’) De modo an´ alogo para a express˜ ao (2), temos:

−2 P n

i=1 (y i − β ˆ 0 − β ˆ 1 x i ) · x i = 0 β ˆ 0 P n

i=1 x i + ˆ β 1 P n

i=1 x 2 i = P n i=1 y i x i

β ˆ 1 = P n

i=1 y i x i − ( P n

i=1 y i ) ( P n i=1 x i ) n

P n

i=1 x 2 i − ( P n i=1 x i ) 2

n

(2’)

As expresso˜ oes (1’) e (2’) s˜ ao chamadas de equa¸ c˜ oes normais dos m´ınimos quadra- dos e podem ser reescritas (e calculadas) como:

β ˆ 0 = ¯ y − β ˆ 1 x ¯ β ˆ 1 = S xy

S xx

onde S xx e S xy s˜ ao as representa¸c˜ oes abreviadas dos somat´ orios apresentados no estudo da

correla¸c˜ ao.

(8)

Exemplo 2: Uma empresa deseja encontrar um modelo de regress˜ ao para a pureza do oxigˆ enio produzido em um processo qu´ımico de destila¸c˜ ao. Para realizar este estudo, foram obtidas 20 amostras listadas na tabela abaixo onde y ´ e a pureza e x ´ e a percenta- gem de hidrocarbonetos presentes no condensador principal da unidade de destila¸c˜ ao.

Qual o modelo de regress˜ ao linear que podemos obter com estas observa¸c˜ oes? Se for observado 1, 70% de hidrocarbonetos no condensador, qual ser´ a o valor estimado para a pureza do oxigˆ enio?

Observa¸c˜ ao N´ıvel de Pureza Hidrocarboneto (%) (%)

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59

8 1,23 91,77

9 1,55 99,42

10 1,40 93,65

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,20 90,39

17 1,26 93,25

18 1,32 93,41

19 1,43 94,98

20 0,95 87,33

As seguintes quantidades podem ser computadas:

n = 20 P 20

i=1 x i = 23, 92 P 20

i=1 y i = 1843, 21

¯

x = 1, 20

¯

y = 92, 16 P 20

i=1 x 2 i = 29, 29 P 20

i=1 y 2 i = 170044, 53 P 20

i=1 x i y i = 2214, 66

S xx =

20

X

i=1

x 2 i − ( P 20 i=1 x i ) 2

20 = 29, 29 − 23, 92 2

20 = 0, 68 S xy =

20

X

i=1

x i y i − P 20

i=1 x i · P 20 i=1 y i

n = 2214, 66 − 23, 92 · 1843, 21

20 = 10, 18

(9)

Logo, as estimativas de m´ınimos quadrados da inclina¸c˜ ao e da interse¸c˜ ao s˜ ao:

β ˆ 1 = S xy

S xx = 10, 18

0, 68 = 14, 97

β ˆ 0 = ¯ y − β ˆ 1 · x ¯ = 92, 16 − 14, 97 · 1, 20 = 74, 20 Deste modo, o modelo ajustado da regress˜ ao linear simples ´ e

ˆ

y = 74, 20 + 14, 97x

Tomando um valor particular de x, por exemplo, se x = 1, 7, ent˜ ao y previsto ser´ a igual a ˆ

y = 74, 20 + 14, 97 · 1, 7 = 99, 65%.

Figura 4: Diagrama de dispers˜ ao para os dados do Exemplo 2.

Referências

Documentos relacionados

Neste diret´ orio est˜ ao, tamb´ em, localizados programas para manipula¸ c˜ ao de arquivos Postscript e L A TEX gerados pelo Scilab. • demos/ - onde est˜ ao localizados os

Para evitar isso, vocˆ e pode mover os dois comandos do preˆ ambulo para algum lugar ap´ os o comando \tableofcontents ou definitivamente n˜ ao us´ a-los, porque vocˆ e ver´ a que

Ent˜ao S ´e um isomorfismo (como os espa¸cos tˆem a mesma dimens˜ao, basta ver que S ´e injetora, por exemplo) e T n˜ao ´e um isomorfismo (pois T n˜ao ´e injetora)..

u t Note que o resultado acima, assim como sua demonstra¸c˜ ao, se generaliza facilmente para qualquer *-homomorfismo de uma ´ algebra de Banach com involu¸c˜ ao para uma

Resposta: Mapear a regi ˜ao de inter ˆesse da cena para exibic¸ ˜ao nas coordenadas do dispositivo. – Janela (Window): regi ˜ao retangular de inter ˆesse

Uma colora¸c˜ ao das arestas de um grafo ´e uma atribui¸c˜ ao de cores ` as suas arestas tal que arestas adjacentes recebem cores diferentes... 2 Colora¸c˜ oes m´ınimas e

Uma colora¸c˜ ao das arestas de um grafo ´e uma atribui¸c˜ ao de cores ` as suas arestas tal que arestas adjacentes recebem cores diferentes... 2 Colora¸c˜ oes m´ınimas e

An´ alise da rela¸ c˜ ao entre a vari´ avel resposta e as outras vari´ aveis explicativas:. diagrama de