Estatística e Probabilidade
Cap. 09
Estatística e Probabilidade
Correlação
Uma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y), onde x é a variável independente ou
variável explanatória e y é a variável dependente ou resposta.
Nesta aula aprenderemos* a descrever o tipo de relação ou correlação que há entre duas variáveis e a determinar se a correlação é significante.
Estatística e Probabilidade
Que tipo de relação existe entre as duas variáveis? A correlação é significante?
x
y
Cigarros fumados por dia Nota no vestibular Altura Horas de treinamento
Variável explanatória
(ou independente)
Variável resposta
(ou dependente)
Uma relação entre duas variáveis.
Número de acidentes
Número do sapato Altura
Capacidade pulmonar
Média de notas na graduação QI
Estatística e Probabilidade
Correlação – Mapas de Dispersão
Mapas de dispersão podem ser usados para determinar se existe uma correlação linear (uma reta, do you know?!) entre duas variáveis. Exemplo: x = horas de treinamento y = número de acidentes 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 Horas de treinamento Acidentes
Estatística e Probabilidade
Correlação – Mapas de Dispersão
Exemplo:
Média de notas na graduação
4,00 3,75 3,50 3,00 2,75 2,50 2,25 2,00 1,50 1,75 3,25 300 350 400 450 500 550 600 650 700 750 800 Nota no vestibular
Estatística e Probabilidade
Correlação – Mapas de Dispersão
x = altura y = QI 160 150 140 130 120 110 100 90 80 60 64 68 72 76 80 Altura QI Exemplo:
Estatística e Probabilidade
Coeficiente de correlação - r
O Coeficiente de correlação é uma medida do grau e da relação entre duas variáveis. O símbolo r representa o coeficiente de correlação amostral e é dado por:
Na equação acima n é o número de pares de dados.
O coeficiente de correlação populacional é definido por
ρ
.• significa elevar ao quadrado cada valor e somar os quadrados
•
( )
significa somar os valores e elevar ao quadrado a soma2 2 x x
∑
∑
Lembre-se que:Estatística e Probabilidade
O intervalo de r varia de
–1 a 1.
Se r está próximo de 1, há uma forte correlação positiva. Se r está próximo de –1, há uma forte correlação negativa. Se r está próximo de 0, não há correlação linear. –1 0 1Coeficiente de correlação - r
Estatística e Probabilidade
0 2 4 6 8 10 12 14 16 40 50 60 70 80 90 100 Nota Final FaltasCoeficiente de correlação - r
Exemplo:
81 6 74 9 43 15 58 12 90 5 92 2 78 8 Nota Final (y) Faltas (x)Na tabela abaixo temos os dados do número de faltas e da nota final para a disciplina de Estatística, do curso de Eng. Alimentos da UFMA lá de Imperatriz… Calcule o coeficiente de correlação r .
Estatística e Probabilidade
13.030
0,975
3.155 Como r está próximo de -1, temos uma
forte correlação linear negativa
2 2 ) 516 ( ) 898 . 39 ( 7 ) 57 ( ) 579 ( 7 ) 516 )( 57 ( ) 753 . 3 ( 7 − − − = 39.898 579 3751 516 57 6.561 36 486 81 6 5.476 81 666 74 9 1.149 225 645 43 15 3.364 144 696 58 12 8.100 25 450 90 5 8.464 4 184 92 2 6.084 64 624 78 8 y2 x2 xy y x Exemplo (cont): Calculando r... Dica: Organize seus dados em uma tabela e calcule o que for necessário… Soma
Estatística e Probabilidade
Teste de hipóteses para um
coeficiente de correlação
Estatística e Probabilidade
Teste de hipóteses para determinar a significância de um coeficiente de correlação
O coeficiente de correlação para uma amostra é r O coeficiente de correlação populacional é
ρ
(rô).Um teste de hipóteses para ρ pode ser mono ou bicaudal.
(não existe correlação negativa significante.) (A correlação negativa é significante.)
(não existe correlação positiva significante.) (A correlação positiva é significante.)
Teste monocaudal esquerdo
Estatística e Probabilidade
Teste de hipóteses para determinar a significância de um coeficiente de correlação
(A correlação não é significante.) (A correlação é significante.)
Teste bicaudal
Neste curso consideraremos apenas testes de hipótese para ρ que seja bicaudal
A distribuição amostral de r é uma distribuição t com g.l = n – 2
Estatística e Probabilidade
Acabamos de encontrar a correlação entre o número de faltas e a nota final dos alunos de estatística da UFMA, r = –0,975. Há sete pares de dados. Teste a significância α dessa correlação r.
Use α = 0,01.
Teste bicaudal
Teste t para um coeficiente de correlação
Uma distribuição t com cinco graus de liberdade.
1. Estabeleça as hipóteses nula e alternativa.
2. Estabeleça o nível de significância.
3. Identifique a distribuição amostral.
(A correlação não é significante.) (A correlação é significante.)
α
= 0,01 Ha H0 Para 5 g.l. eα
/2=0,005 temos tc= 4,032 Teste bicaudal α/2=0,005Estatística e Probabilidade
4. Determine o valor crítico.
5. Determine a região de rejeição.
6. Determine a estatística teste.
0,975 0,975 0,975 0,975 0,09937 0,009875 9,811 , 0,049375
t
0 4,032 –4,032 Regiões de rejeição Valores críticos ± t0Estatística e Probabilidade
t
0
–4,032 –4,032
t = –9,811 cai na região de rejeição.
Rejeite a hipótese nula.
Há, sim, uma correlação significante entre o número de faltas e as notas finais.
7. Tome sua decisão.
8. Interprete sua decisão.
Nos testes de hipótese para correlação, rejeitar a hipótese nula sempre significa que há evidências suficiente para provar que a
correlação é significante.
Estatística e Probabilidade
Regressão linear
Estatística e Probabilidade
Regressão linear – A reta de regressão
Pode-se escrever a equação de uma reta como y = mx + b, onde m é a inclinação da reta e b, o intercepto y.
Assim, a reta de regressão é: A inclinação m é:
E o intercepto y é:
Depois de constatar que existe uma correlação linear significante, você pode escrever uma equação que
descreva a relação entre as variáveis x e y. Essa equação chama-se reta de regressão ou reta do ajuste ótimo.
Estatística e Probabilidade
Regressão linear – A reta de regressão
No mapa de dispersão abaixo, d representa a diferença entre o valor observado de y e o valor previsto de y sobre a reta.
Resíduo d = (valor y observado) – (valor y previsto)
A reta de regressão é aquela para qual a soma dos quadrados de todos os resíduos é um mínimo
2 d
∑
é um mínimo d3 d4 Investimento em publicidadeReceita valor previsto
Estatística e Probabilidade
39.898 579 3751 516 57 6.561 36 486 81 6 5.476 81 666 74 9 1.149 225 645 43 15 3.364 144 696 58 12 8.100 25 450 90 5 8.464 4 184 92 2 6.084 64 624 78 8 y2 x2 xy y xCalcule m e b e
escreva a equação da
reta de regressão
73,714 (–3,924)(8,143) 105,667 (3.751) A reta de regressão é: = –3,924x + 105,667 x = número de faltas y = nota final.Estatística e Probabilidade
m = –3,924 e b = 105,667
A reta de regressão é:
Note que o ponto = (8,143, 73,714) está na reta.
0 2 4 6 8 10 12 14 16 40 45 50 55 60 65 70 75 80 85 90 95 Faltas Nota final 3,924 105,667
Regressão linear – A reta de regressão
Estatística e Probabilidade
Com a reta de regressão, é possível “prever” valores de y correspondentes aos valores de x que caiam em
determinado intervalo de dados.
A equação de regressão para o número de faltas e a nota final é:
Use essa equação para prever a nota esperada de um aluno com: (a) 3 faltas (b) 12 faltas
Prevendo valores y
(a)
= –3,924(3) + 105,667 = 93,895
(b)= –3,924(12) + 105,667 = 58,579
Estatística e Probabilidade
Medidas de
Estatística e Probabilidade
O coeficiente de determinação, r2, é a razão entre a variação
explicada em y e a variação total em y.
O coeficiente de correlação entre as faltas e a nota final era r = –0,975.
O coeficiente de determinação é r2 = (–0,975)2 = 0,9506.
Interpretação: cerca de 95% da variação nas notas finais pode ser
explicada pelo número de vezes que o aluno falta. Os outros 5% são inexplicados e podem dever-se a um erro amostral ou outras variáveis, como inteligência, tempo dedicado aos estudos, etc.
Variação explicada Variação total
Medidas de regressão
Estatística e Probabilidade
O erro padrão da estimativa, se, é o desvio padrão dos valores yi observados em torno do valor previsto para um dado xi. Ele é dado por:
O erro padrão da estimativa
Estatística e Probabilidade
74,275 97,819 86,047 58,579 46,807 70,351 82,123 = 4,307 92,767Calcule para cada x3,924x 105,667 i
x
y
8 78 2 92 5 90 12 58 15 43 9 74 6 81 92,767 13,8756 33,8608 15,6262 0,3352 14,4932 13,3152 1,2611 2)
ˆ
(
y
−
y
O erro padrão da estimativa
Exemplo
valor previsto
Calcule o erro padrão da estimativa