• Nenhum resultado encontrado

CE071 - Análise de Regressão Linear

N/A
N/A
Protected

Academic year: 2021

Share "CE071 - Análise de Regressão Linear"

Copied!
50
0
0

Texto

(1)

Cesar Augusto Taconeli

(2)
(3)
(4)

Análise de regressão

Conjunto de técnicas aplicadas na análise e modelagem da relação

estatística entre variáveis.

(5)

O termo regressão (regression) deve-se ao estatístico inglês Francis

Galton (século XIX);

Em seus estudos, Galton levantou dados sobre alturas de casais e

respectivos descendentes;

Os dados revelaram relação crescente entre as alturas de pais e

filhos;

No entanto, Galton observou que casais muito altos geravam filhos

também altos, mas em geral de menor estatura (mais próximos a

uma altura média). O mesmo ocorria para casais que se destacavam

por uma baixa estatura;

Galton denominou este fenômeno como regressão à média, ou

simplesmente regressão.

(6)

64

66

68

70

72

74

60

65

70

75

Altura média dos pais

Altur

a do(a) filho(a)

Regressão

Correlação perfeita

Média geral

(7)

Século 19: Desenvolvimento do método de mínimos quadrados,

que serve de base para o ajuste de modelos de regressão linear;

A teoria de mínimos quadrados teve origem na Física, motivada por

problemas na área navegação (século 18);

Ao longo do século 19, regressão linear e o método de mínimos

quadrados passaram a ser utilizados em outras ciências, baseados

em modelos pré-estabelecidos, ou apenas em evidências empíricas.

(8)

Modelos de regressão permitem descrever a relação (não

determinística) entre uma variável de interesse (resposta) e uma ou

mais covariáveis (preditoras)

Uma análise de regressão pode ter diferentes objetivos, que em geral

estão associados a duas finalidades principais:

1

Modelos exploratórios: identificar e quantificar as relações entre a

resposta e as covariáveis;

2

Modelos preditivos: utilizar valores observados das covariáveis para

predizer resultados não observados da resposta.

Nos slides seguintes são ilustrados modelos de regressão linear e

algumas generalizações.

(9)
(10)
(11)

y

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

−4

−2

0

2

4

6

8

10

(12)
(13)

0.0

0.2

0.4

0.6

0.8

1.0

0

2

4

6

8

10

12

14

16

0

1

0

1

0

1

0

1

0

1

0

1

● ●

● ●

(14)

0

1

2

3

4

5

6

1

2

3

4

5

6

7

8

9

(15)

All models are wrong but some are useful

George Box

No matter how beautiful your theory, no matter how clever you are or

what your name is, if it disagrees with experiment, it’s wrong.

Richard Feynman

Far better an approximate answer to the right question, which is often

vague, than an exact answer to the wrong question, which can always be

made precise.

(16)

Exemplos de problemas com objetivos exploratórios:

1

Há relação entre o tempo de uso do celular e o rendimento acadêmico

dos alunos?

2

Há relação entre o índice de massa corporal e características

comportamentais (frequência de atividades físicas, horas de sono,

número de refeições diárias...);

3

Em quanto se espera que o rendimento anual de indivíduos de certa

população aumente para cada ano a mais de escolaridade?

4

A relação entre os desempenhos (notas) em exames de habilidades

(17)

Exemplos de problemas com objetivos preditivos:

1

Qual o índice de rendimento acadêmico previsto, para um candidato

recém aprovado em um vestibular, com base em suas notas obtidas?

2

Qual o tempo de sobrevida previsto para um paciente diagnosticado

com câncer no pâncreas com base em sua idade, sexo e outras

variáveis referentes ao seu estado clínico?

3

Qual o faturamento previsto, para o próximo ano, de franquias de

uma rede de fast-food com base nos faturamentos do ano atual, nos

indicadores econômicos mais recentes e nos tamanhos das populações

atendidas?

(18)
(19)

Dados sobre reposição de máquinas de venda de refrigerantes

(Montgomery et al., 2006).

Os dados estão disponíveis no pacote MPV (base p8.3)

(20)

5

10

15

20

25

30

10

20

30

40

50

60

70

80

Máquinas carregadas

T

empo de reposição

(21)

Há relação entre o tempo de reposição e o número de máquinas?

Qual a forma dessa relação?

Qual o acréscimo no tempo de reposição para um incremento de

duas máquinas?

Qual o tempo médio (esperado) de reposição para carregamentos de

10 máquinas?

Qual o tempo previsto para carregar 10 máquinas?

Se tivermos 10 minutos disponíveis para reposição, qual a previsão

de máquinas carregadas?

(22)

Observe que as questões propostas não podem ser respondidas

exatamente, uma vez que, fixado o número de máquinas, existe

variação no tempo de carregamento.

Essa variação pode ser explicada por fatores não considerados na

análise, medições incorretas,. . .

Na análise de regressão, chamamos de erro a diferença entre a

resposta observada e a resposta predita pelo modelo.

(23)

Se não houvesse erro, e assumindo-se relação linear entre o tempo

de reposição (y) e o número de máquinas carregadas (x), o seguinte

modelo explicaria a relação entre as duas variáveis:

y = β

0

+ β

1

x.

Na presença dos erros, uma formulação mais adequada para o

modelo seria a seguinte:

y = β

0

+ β

1

x + ,

(1)

em que  denota o erro da regressão.

A equação (1) configura um modelo de regressão linear

(simples).

(24)

Os termos β

0

e β

1

são os parâmetros do modelo, e determinam a

relação entre as variáveis.

O componente β

0

+ β

1

x é o preditor (parte fixa) do modelo,

enquanto o erro é o componente aleatório.

Denominamos ajuste de um modelo de regressão o processo de

estimação dos parâmetros do modelo com base em dados amostrais

disponíveis, produzindo a equação da regressão ajustada (neste caso,

a reta ajustada).

A Figura 9 apresenta o diagrama de dispersão para os dados de

carregamento de máquinas de refrigerante com a reta de regressão

ajustada.

(25)

5

10

15

20

25

30

10

20

30

40

50

60

70

80

Máquinas carregadas

T

empo de reposição

(26)

Diferentes modelos de regressão podem ser expressos numa forma

geral como:

y = f (x; β) + ,

(2)

em que β

0

= (β

0

, β

1

, ..., β

k

) é um vetor de parâmetros e

x

0

= (1, x

1

, x

2

, ..., x

k

) é um vetor de variáveis explicativas.

(27)

A formulação apresentada em (2) contempla tanto modelos de

regressão lineares quanto não lineares.

Um modelo de regressão linear se caracteriza por uma combinação

linear de variáveis.

O que determina um modelo de regressão linear é a linearidade com

relação aos parâmetros.

(28)

Assim, um modelo de regressão é linear se

∂f (x; β)

∂β

j

não depender de β

j

, para todo j = 0, 1, ..., k.

Ou seja, num modelo de regressão linear, ao se derivar parcialmente

o preditor em relação a β

j

, o resultado não depende de β

j

.

(29)

Considere os modelos de regressão descritos na sequência. Verifique se

cada um deles corresponde a um modelo de regressão linear.

1

y = β

0

+ β

1

x + ;

2

y = β

0

+ β

1

ln(x) + ;

3

y = β

0

+ β

1

x + β

2

x

2

+ β

3

x

3

+ ;

4

y = β

0

+ β

1

x

1

+ β

2

x

2

+ β

3

x

3

+ ;

5

y = β

0

+ β

1

ln(x

1

) +

β

2

x

2

+ β

3

x

1

x

2

+ ;

6

y = β

0

+ β

1

e

β

2

x

2

+ ;

7

y =

β

1

1+e

β2x

+ ;

8

y = β

0

sen(β

1

+ β

2

x) + .

(30)

Tempo de aquecimento (t, em minutos) e desempenho (y, um escore

numérico) na realização de uma apresentação.

Tabela 1: Tempo de aquecimento e desempenho dos atletas

Atleta

t

y

Atleta

t

y

1

1

6.3

11

7

42.0

2

1.5

11.1

12

8

46.1

3

2

20.0

13

9

48.2

4

3

24.0

14

10

45.0

5

4

26.1

15

11

42.0

6

4.5

30.0

16

12

40.0

7

5

33.8

17

13

38.5

8

5.5

34.0

18

14

35

9

6

38.1

19

15

36.8

10

6.5

39.9

(31)

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

2

4

6

8

10

12

14

Tempo de aquecimento (minutos)

Escore de desempenho

5

10

15

20

25

30

35

40

45

(32)

A relação entre tempo de aquecimento e desempenho claramente

não é linear.

Aparentemente, a relação entre as variáveis é quadrática, com o

desempenho aumentando até, aproximadamente, nove minutos de

aquecimento, e diminuindo a partir daí.

Nesse caso, vamos considerar um modelo polinomial de ordem 2:

y = β

0

+ β

1

t + β

2

t

2

+ .

O modelo ajustado está representado na Figura 11. Aparentemente,

o modelo se ajusta satisfatoriamente aos dados.

(33)

2

4

6

8

10

12

14

Tempo de aquecimento (minutos)

Escore de desempenho

5

10

15

20

25

30

35

40

45

Figura 11: Desempenhos dos ginastas vs tempo de aquecimento. com modelo

de regressão ajustado.

(34)

Dados sobre a velocidade de uma reação enzimática (y, expressa em

contagem/min

2

) e a concentração de certo substrato (x, em partes

por milhão) em 12 repetições de um experimento.

Tabela 2: Resultados da reação química

Repetição

x

y

Repetição

x

y

1

0.02

47

7

0.02

76

2

0.06

97

8

0.06

107

3

0.11

123

9

0.11

139

4

0.22

152

10

0.22

159

5

0.56

191

11

0.56

201

6

1.10

200

12

1.10

207

(35)

Concentração (ppm)

V

elocidade (c/min2)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1.1

60

80

100

120

140

160

180

200

(36)

Novamente observamos uma relação não linear entre as variáveis.

Ao invés de considerar um modelo polinomial, podemos recorrer à

teoria da cinética enzimática e utilizar o modelo de

Michaelis-Menten.

Dessa forma, vamos considerar f (x, β) =

β

1

x

x+β

2

, e ajustar o seguinte

modelo de regressão não linear:

y =

β

1

x

x + β

2

(37)

Concentração (ppm)

V

elocidade (c/min2)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1.1

60

80

100

120

140

160

180

200

Figura 13: Gráfico de dispersão para os dados da reação química com o ajuste

de modelo de regressão não linear.

(38)

Dados referentes ao tempo de serviço (x

1

, em anos) e renda (y, em

reais) de profissionais de certo segmento. Além disso, outra variável

a ser considerada é se os indivíduos possuem ou não curso superior:

x

2

=

(

1,

se possui curso superior

0,

caso contrário

Este exemplo envolve uma variável quantitativa e outra categórica.

Para problemas como esse podemos usar análise de covariância,

conforme estudaremos mais adiante.

(39)

Tabela 3: Dados sobre renda e tempo de serviço de profissionais

Profissional

x

1

x

2

y

Profissional

x

1

x

2

y

1

21

0

3414

11

3

1

3414

2

6

0

3195

12

20

1

6928

3

10

0

3539

13

11

1

4651

4

11

0

3742

14

5

1

3836

5

24

0

4707

15

15

1

5595

6

24

0

5034

16

12

1

5172

7

15

0

4331

17

12

1

4732

8

10

0

3748

18

24

1

7612

9

17

0

3887

19

18

1

6478

10

17

0

4436

20

20

1

6779

(40)

Tempo de serviço (anos)

Renda (reais)

3000

3500

4000

4500

5000

5500

6000

6500

7000

7500

8000

3

6

9

12

15

18

21

24

Curso superior

Não

Sim

(41)

Analisando o gráfico, verifica-se relação crescente (linear) entre

tempo de serviço e renda.

Aparentemente, a relação não é a mesma para profissionais com e

sem curso superior.

Na sequência descrevemos diferentes modelos de regressão que

poderíamos considerar na análise desses dados.

(42)

Modelo 1: Uma única reta é capaz de explicar a relação entre

renda e tempo de serviço para os dois grupos (com e sem ensino

superior):

(43)

Modelo 2: Cada grupo tem sua própria reta, mas as taxas de

variação são as mesmas (apenas os interceptos são diferentes):

y = β

0

+ β

1

x

1

+ β

2

x

2

+ .

As retas de regressão implicadas pelo modelo 2 são as seguintes:

y = β

0

+ β

1

x

1

+  (para aqueles que não possuem curso superior);

(44)

Modelo 3: Cada grupo tem sua própria reta, com interceptos e

taxas de variação distintos:

y = β

0

+ β

1

x

1

+ β

2

x

2

+ β

3

x

1

x

2

+ .

As retas de regressão implicadas pelo modelo 3 são as seguintes:

y = β

0

+ β

1

x

1

+  (para aqueles que não possuem curso superior);

(45)

Modelo 1

Tempo de serviço (anos)

Renda (reais)

● ● ● ● ● ● ● ● ● ●

3500

4000

4500

5000

5500

6000

6500

7000

7500

3

6

9

12

15

18

21

24

Curso superior

Não

Sim

Modelo 2

Tempo de serviço (anos)

Renda (reais)

● ● ● ● ● ● ● ● ● ●

3500

4000

4500

5000

5500

6000

6500

7000

7500

3

6

9

12

15

18

21

24

Curso superior

Não

Sim

Modelo 3

Tempo de serviço (anos)

Renda (reais)

● ● ● ● ● ● ● ● ● ●

3500

4000

4500

5000

5500

6000

6500

7000

7500

3

6

9

12

15

18

21

24

Curso superior

Não

Sim

(46)

Base de dados fat do pacote faraway. O objetivo é ajustar um

modelo de regressão para predizer a porcentagem de massa gorda

de um indivíduos (brozek) com base nas seguintes variáveis:

neck: Circunferência do pescoço;

chest: Circunferência do peito;

abdom: Circunferência do abdomen;

hip: Circunferência do quadril;

thigh: Circunferência da coxa;

knee: Circunferência do joelho;

ankle: Circunferência do tornozelo;

biceps: Circunferência do bíceps estendido;

forearm: Circunferência do antebraço;

Referências

Documentos relacionados

Proteção durante o combate a incêndios : Não entrar na área de incêndio sem equipamento protetor adequado, incluindo proteção respiratória.. Equipamento autônomo

A estas variáveis incluiu-se ainda um efeito moderador de modo a estudar a influência de uma situação de insolvência sobre as variáveis que estão associadas

Analisando o modelo proposto de regressão linear difusa utilizando a programação linear para dados não difuso como também para a saída, podemos levantar as seguinte

É nesta lógica que este texto foi idealizado, tentando evidenciar de uma forma clara os aspetos básicos do funcionamento das organizações, os princi- pais conceitos de

O fenômeno população em situação de rua surgiu nas sociedades pré-industriais dos séculos XIV e XV, na Europa Ocidental, no processo chamado de “acumulação primitiva

BRA233 UNIVERSIDADE FEDERAL DO SUL DA BAHIA BRA236 INSTITUTO PAULISTA DE ENSINO E PESQUISA BRA239 INSTITUTO SUMARE DE EDUCAÇÃO SUPERIOR LTDA BRA240 INSTITUTO TECNOLÓGICO

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

A interação permanente da população de cultura popular ou folclórica com os meios de comunicação de massa acaba influenciando as manifestações da cultura