• Nenhum resultado encontrado

Gr´ afico de res´ıduos

No documento Estatística, Notas de apoio às aulas (páginas 78-85)

A recta de regress˜ao ´e um modelo matem´atico para o padr˜ao global da associa¸c˜ao linear entre duas vari´aveis Y e X, a que chamamos modelo de regress˜ao linear. Como tal, descreve ou resume esse padr˜ao global mas n˜ao descreve desvios sistem´aticos a esse padr˜ao global. A an´alise dos desvios das observa¸c˜oes relativamente ao modelo matem´atico, permite avaliar a adequa¸c˜ao desse modelo `as observa¸c˜oes e identificar observa¸c˜oes discordantes, que no contexto da associa¸c˜ao entre duas vari´aveis podem ser discordantes em qualquer uma das direc¸c˜oes x ou y.

Sendo os coeficientes da recta de regress˜ao baseados no c´alculo de m´edias e desvios- -padr˜ao, ser´a de esperar que tais coeficientes sejam pouco resistentes, isto ´e, muito sens´ıveis a observa¸c˜oes muito maiores ou menores que as restantes observa¸c˜oes. ´E assim importante perceber a influˆencia que essas observa¸c˜oes discordantes tˆem, por si s´o, no c´alculo da recta de regress˜ao. N˜ao seria razo´avel que a recta de regress˜ao, que dever´a descrever o padr˜ao global das observa¸c˜oes, seja determinada por observa¸c˜oes que se desviam desse padr˜ao global.

Uma forma de medirmos o desvio duma observa¸c˜ao (xi, yi) relativamente ao padr˜ao

global, que assumimos resumido pela recta de regress˜ao, ´e considerar o res´ıduo ri

associado a essa observa¸c˜ao que n˜ao ´e mais do a diferen¸ca entre a observa¸c˜ao yi e a

previs˜ao

b

yi = a xi+ b

obtida a partir da recta de regress˜ao:

tenreiro

@

mat.uc.pt

Reparemos que o res´ıduo ri n˜ao ´e mais do que a distˆancia vertical com sinal entre

o ponto (xi, yi) e a recta de regress˜ao. O res´ıduo ri ser´a positivo ou negativo consoante

o ponto (xi, yi) esteja acima ou abaixo, respectivamente, da recta de regress˜ao.

Para analisarmos os diversos res´ıduos vamos represent´a-los graficamente no cha- mado gr´afico de res´ıduos. Um gr´afico de res´ıduos ´e um gr´afico de dispers˜ao dos res´ıduos versus a vari´avel independente. Neste gr´afico ´e habitualmente marcada a recta horizontal correspondente `as observa¸c˜oes que n˜ao exibem qualquer desvio relativamente `

a recta de regress˜ao. Acima e abaixo desta recta horizontal est˜ao as observa¸c˜oes que se encontram acima e abaixo, respectivamente, da recta de regress˜ao. A distˆancia de cada ponto `a recta horizontal ´e precisamente a distˆancia vertical, observada no gr´afico de dispers˜ao, entre a correspondente observa¸c˜ao e a recta de regress˜ao.

Se a recta de regress˜ao descreve bem o padr˜ao geral das observa¸c˜oes, o gr´afico de res´ıduos n˜ao deve apresentar nenhum padr˜ao especial. Nesse caso, os res´ıduos tˆem a interessante propriedade de terem m´edia zero, e os pontos marcados disp˜oem-se para um e outro lado da recta horizontal marcada no gr´afico.

Exemplo 2.4.1 Os gr´aficos de res´ıduos seguintes relativos aos dados dos Exemplos 2.1.3 (p´ag. 55, 64) e 2.1.4 (p´ag. 55), s˜ao exemplos de uma tal situa¸c˜ao. Os padr˜oes revelados pelos gr´aficos s˜ao t´ıpicos de observa¸c˜oes que n˜ao exibem desvios sistem´aticos relativamente ao modelo definido pela recta de regress˜ao.

Se o gr´afico de dispers˜ao apresenta um padr˜ao bem definido, podemos concluir que o modelo linear dado pela recta de regress˜ao n˜ao descreve convenientemente os dados. Em particular, o padr˜ao revelado pelo gr´afico de res´ıduos ´e relativo `a parte do padr˜ao de associa¸c˜ao entre as duas vari´aveis que n˜ao foi apreendida pela recta de regress˜ao.

tenreiro

@

mat.uc.pt

Exemplo 2.4.2 Um exemplo desta situa¸c˜ao ocorreria se descrevˆessemos atrav´es duma recta as observa¸c˜oes, que descrevemos no Exemplo 2.1.7 (p´ag. 58), sobre da componente da velocidade radial da estrela e da fase em que as observa¸c˜oes foram realizadas. O gr´afico de res´ıduos correspondente, revelaria uma forma sinusoidal que n˜ao ´e captada pela recta de regress˜ao (ver figuras seguintes).

H´a no entanto outros modelos matem´aticos que poderiam descrever melhor o padr˜ao revelado pelos dados anteriores. Sem entrar em detalhes sobre tais modelos, vejamos os resultados da utiliza¸c˜ao dum modelo de regress˜ao quadr´atica e dum modelo de regress˜ao c´ubica. Como os pr´oprios nomes indicam, no primeiro caso os dados s˜ao descritos por uma curva de equa¸c˜ao y = a x2+ b x + c, enquanto que no segundo caso ´e usada uma curva de equa¸c˜ao y = a x3 + b x2 + c x + d. Como podemos concluir

dos gr´aficos seguintes, dos modelos considerados apenas o modelo de regress˜ao c´ubica descreve os dados convenientemente.

tenreiro

@

mat.uc.pt

Tratando-se no entanto de observa¸c˜oes peri´odicas, se alterarmos o instante a partir do qual marcamos o tempo, ´e poss´ıvel ajustar aos dados anteriores um modelo de regress˜ao quadr´atica. Da an´alise dos gr´aficos de res´ıduos parece-nos que este modelo n˜ao descreve os dados t˜ao bem como o modelo de regress˜ao c´ubica considerado atr´as.

Exemplo 2.4.3 Relativamente aos dados do Exemplo 2.1.2 (p´ag. 54), o gr´afico de res´ıduos seguinte p˜oe claramente em evidˆencia a observa¸c˜ao discordante que t´ınhamos identificado a partir do gr´afico de dispers˜ao.

Como podemos constatar, trata-se duma observa¸c˜ao discordante na direc¸c˜ao do eixo dos yy. O gr´afico revela ainda que maiores res´ıduos est˜ao, em geral, associados a valores elevados ou muito pequenos de insola¸c˜ao. As previs˜oes para a temperatura m´axima a partir da recta de regress˜ao calculada atr´as, s˜ao assim menos exactas para esses valores de insola¸c˜ao.

tenreiro

@

mat.uc.pt

´

E interessante notar, que esta observa¸c˜ao discordante na direc¸c˜ao y, n˜ao ´e dis- cordante quando considerada como observa¸c˜ao da vari´avel Y . Relativamente a esta vari´avel podemos identificar, pelos m´etodos que j´a estud´amos, quatro poss´ıveis obser- va¸c˜oes discordantes: duas por defeito e duas por excesso. Como podemos confirmar pelo gr´afico seguinte, nenhuma das observa¸c˜oes discordantes por excesso ´e a observa¸c˜ao que identific´amos como discordante na direc¸c˜ao y.

Contrariamente ao que vimos no cap´ıtulo anterior em que uma observa¸c˜ao discor- dante influenciava, s´o por si, o c´alculo da m´edia e do desvio-padr˜ao, no contexto da regress˜ao uma observa¸c˜ao discordante na direc¸c˜ao y, apesar de ter um res´ıduo grande, n˜ao ´e necessariamente uma observa¸c˜ao influente.

Na figura seguinte, ilustra-se esta situa¸c˜ao deslocando verticalmente a observa¸c˜ao discordante identificada no exemplo anterior, colocando-a primeiramente em cima da recta de regress˜ao e depois em baixo desta. Como podemos verificar, a recta de regress˜ao n˜ao sofreu uma altera¸c˜ao significativa.

tenreiro

@

mat.uc.pt

Uma situa¸c˜ao completamente diferente ocorre quando o gr´afico de dispers˜ao apre- senta uma nuvem de pontos muito concentrada e um ponto afastado. Este ponto tem normalmente uma grande influˆencia na recta de regress˜ao.

Exemplo 2.4.4 Os dados apresentados no gr´afico de dispers˜ao seguinte dizem respeito a treze adolescentes para os quais foram registadas a idade em que disseram a primeira frase (em meses) e as classifica¸c˜oes obtidas numa prova de aferi¸c˜ao das suas capacidades em l´ıngua portuguesa.

Tomando a vari´avel classifica¸c˜ao em portuguˆes como vari´avel resposta Y e a vari´avel idade da primeira frase como vari´avel explicativa X, obtemos os resultados seguintes. Em particular, conclu´ımos que a vari´avel X explica 50% da variabilidade da vari´avel Y .

tenreiro

@

mat.uc.pt

O gr´afico de res´ıduos p˜oe em evidˆencia a presen¸ca duma observa¸c˜ao discordante na direc¸c˜ao x mas n˜ao na direc¸c˜ao y, como poderia transparecer do gr´afico de dispers˜ao anterior. Este facto pode ser facilmente entendido se tivermos em conta a posi¸c˜ao da recta de regress˜ao.

Como j´a referimos, esta observa¸c˜ao, al´em de discordante, ´e tamb´em uma observa- ¸c˜ao muito influente. As conclus˜oes que possamos tirar dos dados anteriores, dependem de forma determinante desta observa¸c˜ao. Tal ´e claro a partir da figura seguinte. Repa- remos tamb´em nas altera¸c˜oes significativas do coeficiente de determina¸c˜ao.

Tratando-se de uma verdadeira observa¸c˜ao incorrectamente registada ou de uma falsa observa¸c˜ao, ela deve ser corrigida ou eliminada. No entanto, se a observa¸c˜ao es- tiver correcta, ´e necess´ario recolher mais informa¸c˜ao se pretendemos chegar a alguma conclus˜ao v´alida. Tendo em conta que a observa¸c˜ao influente corresponde a um ado- lescente que pronunciou a primeira frase precocemente, essa informa¸c˜ao adicional deve incidir sobre este tipo de adolescentes.

tenreiro

@

mat.uc.pt

No documento Estatística, Notas de apoio às aulas (páginas 78-85)