Cesar Augusto Taconeli
Análise de regressão
Conjunto de técnicas aplicadas na análise e modelagem da relação
estatística entre variáveis.
O termo regressão (regression) deve-se ao estatístico inglês Francis
Galton (século XIX);
Em seus estudos, Galton levantou dados sobre alturas de casais e
respectivos descendentes;
Os dados revelaram relação crescente entre as alturas de pais e
filhos;
No entanto, Galton observou que casais muito altos geravam filhos
também altos, mas em geral de menor estatura (mais próximos a
uma altura média). O mesmo ocorria para casais que se destacavam
por uma baixa estatura;
Galton denominou este fenômeno como regressão à média, ou
simplesmente regressão.
64
66
68
70
72
74
60
65
70
75
Altura média dos pais
Altur
a do(a) filho(a)
Regressão
Correlação perfeita
Média geral
Século 19: Desenvolvimento do método de mínimos quadrados,
que serve de base para o ajuste de modelos de regressão linear;
A teoria de mínimos quadrados teve origem na Física, motivada por
problemas na área navegação (século 18);
Ao longo do século 19, regressão linear e o método de mínimos
quadrados passaram a ser utilizados em outras ciências, baseados
em modelos pré-estabelecidos, ou apenas em evidências empíricas.
Modelos de regressão permitem descrever a relação (não
determinística) entre uma variável de interesse (resposta) e uma ou
mais covariáveis (preditoras)
Uma análise de regressão pode ter diferentes objetivos, que em geral
estão associados a duas finalidades principais:
1
Modelos exploratórios: identificar e quantificar as relações entre a
resposta e as covariáveis;
2
Modelos preditivos: utilizar valores observados das covariáveis para
predizer resultados não observados da resposta.
Nos slides seguintes são ilustrados modelos de regressão linear e
algumas generalizações.
y
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
−4
−2
0
2
4
6
8
10
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.0
0.2
0.4
0.6
0.8
1.0
0
2
4
6
8
10
12
14
16
0
1
0
1
0
1
0
1
0
1
0
1
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
0
1
2
3
4
5
6
1
2
3
4
5
6
7
8
9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
All models are wrong but some are useful
George Box
No matter how beautiful your theory, no matter how clever you are or
what your name is, if it disagrees with experiment, it’s wrong.
Richard Feynman
Far better an approximate answer to the right question, which is often
vague, than an exact answer to the wrong question, which can always be
made precise.
Exemplos de problemas com objetivos exploratórios:
1
Há relação entre o tempo de uso do celular e o rendimento acadêmico
dos alunos?
2
Há relação entre o índice de massa corporal e características
comportamentais (frequência de atividades físicas, horas de sono,
número de refeições diárias...);
3
Em quanto se espera que o rendimento anual de indivíduos de certa
população aumente para cada ano a mais de escolaridade?
4
A relação entre os desempenhos (notas) em exames de habilidades
Exemplos de problemas com objetivos preditivos:
1
Qual o índice de rendimento acadêmico previsto, para um candidato
recém aprovado em um vestibular, com base em suas notas obtidas?
2
Qual o tempo de sobrevida previsto para um paciente diagnosticado
com câncer no pâncreas com base em sua idade, sexo e outras
variáveis referentes ao seu estado clínico?
3
Qual o faturamento previsto, para o próximo ano, de franquias de
uma rede de fast-food com base nos faturamentos do ano atual, nos
indicadores econômicos mais recentes e nos tamanhos das populações
atendidas?
Dados sobre reposição de máquinas de venda de refrigerantes
(Montgomery et al., 2006).
Os dados estão disponíveis no pacote MPV (base p8.3)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5
10
15
20
25
30
10
20
30
40
50
60
70
80
Máquinas carregadas
T
empo de reposição
Há relação entre o tempo de reposição e o número de máquinas?
Qual a forma dessa relação?
Qual o acréscimo no tempo de reposição para um incremento de
duas máquinas?
Qual o tempo médio (esperado) de reposição para carregamentos de
10 máquinas?
Qual o tempo previsto para carregar 10 máquinas?
Se tivermos 10 minutos disponíveis para reposição, qual a previsão
de máquinas carregadas?
Observe que as questões propostas não podem ser respondidas
exatamente, uma vez que, fixado o número de máquinas, existe
variação no tempo de carregamento.
Essa variação pode ser explicada por fatores não considerados na
análise, medições incorretas,. . .
Na análise de regressão, chamamos de erro a diferença entre a
resposta observada e a resposta predita pelo modelo.
Se não houvesse erro, e assumindo-se relação linear entre o tempo
de reposição (y) e o número de máquinas carregadas (x), o seguinte
modelo explicaria a relação entre as duas variáveis:
y = β
0
+ β
1
x.
Na presença dos erros, uma formulação mais adequada para o
modelo seria a seguinte:
y = β
0
+ β
1
x + ,
(1)
em que denota o erro da regressão.
A equação (1) configura um modelo de regressão linear
(simples).
Os termos β
0
e β
1
são os parâmetros do modelo, e determinam a
relação entre as variáveis.
O componente β
0
+ β
1
x é o preditor (parte fixa) do modelo,
enquanto o erro é o componente aleatório.
Denominamos ajuste de um modelo de regressão o processo de
estimação dos parâmetros do modelo com base em dados amostrais
disponíveis, produzindo a equação da regressão ajustada (neste caso,
a reta ajustada).
A Figura 9 apresenta o diagrama de dispersão para os dados de
carregamento de máquinas de refrigerante com a reta de regressão
ajustada.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5
10
15
20
25
30
10
20
30
40
50
60
70
80
Máquinas carregadas
T
empo de reposição
Diferentes modelos de regressão podem ser expressos numa forma
geral como:
y = f (x; β) + ,
(2)
em que β
0
= (β
0
, β
1
, ..., β
k
) é um vetor de parâmetros e
x
0
= (1, x
1
, x
2
, ..., x
k
) é um vetor de variáveis explicativas.
A formulação apresentada em (2) contempla tanto modelos de
regressão lineares quanto não lineares.
Um modelo de regressão linear se caracteriza por uma combinação
linear de variáveis.
O que determina um modelo de regressão linear é a linearidade com
relação aos parâmetros.
Assim, um modelo de regressão é linear se
∂f (x; β)
∂β
j
não depender de β
j
, para todo j = 0, 1, ..., k.
Ou seja, num modelo de regressão linear, ao se derivar parcialmente
o preditor em relação a β
j
, o resultado não depende de β
j
.
Considere os modelos de regressão descritos na sequência. Verifique se
cada um deles corresponde a um modelo de regressão linear.
1
y = β
0
+ β
1
x + ;
2
y = β
0
+ β
1
ln(x) + ;
3
y = β
0
+ β
1
x + β
2
x
2
+ β
3
x
3
+ ;
4
y = β
0
+ β
1
x
1
+ β
2
x
2
+ β
3
x
3
+ ;
5
y = β
0
+ β
1
ln(x
1
) +
β
2
x
2
+ β
3
x
1
x
2
+ ;
6
y = β
0
+ β
1
e
β
2
x
2
+ ;
7
y =
β
1
1+e
β2x
+ ;
8
y = β
0
sen(β
1
+ β
2
x) + .
Tempo de aquecimento (t, em minutos) e desempenho (y, um escore
numérico) na realização de uma apresentação.
Tabela 1: Tempo de aquecimento e desempenho dos atletas
Atleta
t
y
Atleta
t
y
1
1
6.3
11
7
42.0
2
1.5
11.1
12
8
46.1
3
2
20.0
13
9
48.2
4
3
24.0
14
10
45.0
5
4
26.1
15
11
42.0
6
4.5
30.0
16
12
40.0
7
5
33.8
17
13
38.5
8
5.5
34.0
18
14
35
9
6
38.1
19
15
36.8
10
6.5
39.9
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●