• Nenhum resultado encontrado

2010_BC0005_aula_7.pps

N/A
N/A
Protected

Academic year: 2021

Share "2010_BC0005_aula_7.pps"

Copied!
45
0
0

Texto

(1)

Prof. Dr. Reinaldo Luiz Cavasso Filho Prof. Dr. Reinaldo Luiz Cavasso Filho Centro de Ciências Naturais e Humanas

Universidade Federal do ABC

Aula 7

Aula 7

Correlação &

Correlação &

Curvas de Regressão

Curvas de Regressão

(2)

Roteiro desta aula

PARTE I – Utilização do BrOffice para Elaboração de Gráficos

 

Noções de Correlação

Linhas de tendência: regessão linear, logarítmica,

exponencial e geométrica.

Mudanças de escala.

(3)

Elaboração de Gráficos (revisão)

Suponha que um determinado processo tenha como resultado um aumento de temperatura da água (ºC) ao longo do tempo (horas). As medidas foram tabeladas, como mostrado a

seguir.

Tempo (horas) Temperatura (ºC)

0 23 2 27 4 31 6 36 8 41 10 45 12 49 14 52 3

(4)

Gráfico de Dispersão

Usando o BrOffice,

selecione as colunas

referentes aos dados de tempo e temperatura.

Vá ao menu Inserir

Gráfico XY (Dispersão).→

Série de dados em colunas e

(5)

Elementos Gráficos

Não exibir legenda. Colocar os rótulos (nomes) dos

eixos x e y.

Exibir grades para os eixos x e y.

(6)

Alteração das Dimensões

As dimensões dos gráficos

podem ser alteradas

conforme a necessidade.

Para a alteração das

dimensões, use o mouse, alterando o tamanho do eixo x, do eixo y ou de ambos (diagonal). 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 Tempo (horas) T e m p e ra tu ra ( ºC )

(7)

Correlação

Uma correlação é uma relação entre duas variáveis.

Os dados podem ser representados por pares ordenados

(x,y), onde:

x é a variável independente (ou explanatória)

y é a variável dependente (ou resposta)

Um mapa de dispersão pode ser usado para determinar se

há uma correlação linear entre duas variáveis.  

(8)

Correlação visualizada em mapas de dispersão 0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 0 2 0 3 0 4 0 5 0 6 0 0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 0 2 0 3 0 4 0 5 0 6 0 C o lu n a B X Y 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0 C o lu n a B Y 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 C o lu n a B Y

Correlação Linear Positiva Correlação Linear Negativa

Correlação Linear Positiva

Não há Correlação Correlação Não Linear

À medida que x cresce, y tende a crescer. À medida que x cresce, y tende a decrescer.

(9)

Coeficiente de Correlação

A interpretação da existência de uma correlação usando o

mapa de dispersão pode ser subjetiva.

Uma maneira de medir o tipo e o grau de uma correlação

linear entre duas variáveis é através do cálculo do

coeficiente de correlação (R).

Ou seja, R é uma medida do grau e da direção de uma

relação linear entre duas variáveis.

O intervalo de variação de R vai de -1 a 1:

Se x e y tiverem forte correlação linear positiva, R

estará próximo de 1.

Se x e y tiverem forte correlação linear negativa, R

estará perto de -1.

Se não há correlação linear ou se ela é fraca, R estará

perto de 0.

(10)

Correlação e Causalidade

Reforçando: fato de duas variáveis estarem fortemente

correlacionadas não implica necessariamente em uma relação de causa e efeito entre elas.

Se houver forte correlação entre duas variáveis, o

pesquisador deve considerar:

Há uma relação direta de causa e efeito entre as variáveis? Isto

é, x causa y ?

Há uma relação inversa de causa e efeito? Isto é, y causa x?É possível que a relação tenha sido causada por uma terceira

variável ou por uma combinação de muitas outras?

(11)

Curvas de Regressão

o O objetivo da análise de regressão é encontrar uma função que permita:

 Descrever e compreender a relação entre uma variável dependente e uma ou mais variáveis

independentes.

 Projetar ou estimar uma variável em função de uma ou mais variáveis independentes.

(12)

Regressão Linear (ajuste numa reta)

Após verificar que a correlação entre duas variáveis é

significante, o próximo passo é encontrar a equação da reta que melhor modela os dados.

A construção dessa reta é chamada regressão linear e sua

equação pode ser usada para prever o valor de y para um dado valor de x.

O ajuste de uma reta é um modelo linear que relaciona a

variável dependente y e a variável independente x por meio da equação de uma reta do tipo:

bx

a

(13)

Regressão Linear (ajuste numa reta)

Os coeficientes a e b são chamados coeficientes de

regressão, onde:

b corresponde a declividade (inclinação) da reta e

define o aumento ou diminuição da variável y por unidade de variação da variável x

A constante a é o intercepto y sendo igual ao valor de y

para x=0

  13

bx

a

(14)

Exemplos de Retas de Regressão

0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 0 2 0 3 0 4 0 5 0 6 0 T e m p e r a t u r a ( º C ) R e g r e s s ã o lin e a r d e T e m p e r a t u r a T e m p o T e m p e ra tu ra 0 2 4 6 8 1 0 1 2 1 4 1 6 0 1 0 2 0 3 0 4 0 5 0 6 0 C o lu n a B R e g r e s s ã o lin e a r d e C o lu n a B Y

(15)

Exemplos de Retas de Regressão

15 0 1 0 2 0 3 0 4 0 5 0 6 0 0 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0 C o lu n a B R e g r e s s ã o lin e a r d e C o lu n a B X Y 0 2 4 6 8 1 0 1 2 1 4 1 6 0 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 C o lu n a B R e g r e s s ã o lin e a r d e C o lu n a B X Y

(16)

Regressão Linear (ajuste numa reta)

É importante observar que, da mesma forma como a média

resume uma variável aleatória, a reta de regressão resume a relação linear entre duas variáveis, e, conseqüentemente, da forma como a média varia entre amostras do mesmo tamanho extraídas da mesma população, as retas também variarão

(17)

Como fazer Regressão Linear?

Existem vários métodos para determinação de retas de

regressão

Aqui uma reta de regressão (também chamada de reta do

ajuste ótimo) é aquela para a qual a soma dos quadrados dos resíduos é mínimo.

17 Resíduo = d = (valor y observado) – (valor y previsto)

(18)

Coeficiente de Determinação

Nem todos os valores das amostras estão contidos na reta

de regressão, e quanto mais afastados estiverem pior, a reta representará a relação entre as amostras.

A reta obtida pelo método dos mínimos quadrados é um

resumo útil da tendência entre as variáveis, pois não explica perfeitamente os dados.

Quão útil é a reta de regressão obtida pelo procedimento

(19)

Coeficiente de Determinação

O coeficiente de determinação (R2) é definido como a

relação que mede a proporção da variação total da variável dependente que está correlacionada variação da variável

independente.

O coeficiente de determinação R2, também denominado

r-quadrado, é sempre um número positivo dentro do intervalo (0; 1).

Pode-se deduzir que quanto maior for R2 melhor será o poder de explicação da reta de regressão.

(20)

Coeficiente de Determinação

O coeficiente de determinação R2 pode ser definido como sendo o quadrado do coeficiente de correlação:

R

2

= (R)

2

Lembremos que o coeficiente de correlação R, cujo valor

varia entre -1 e 1, é uma medida do tipo e do grau de uma correlação linear entre duas variáveis.

(21)

Com o gráfico selecionado, vá em Inserir Linhas de

Tendência.  

21

(22)

Curvas de Regressão no BrOffice Calc

As linhas de tendência correspondem às curvas que descrevem

os dados (experimentais) da planilha, ou seja, correspondem às curvas de regressão.

As opções de linhas de tendência disponíveis no BrOffice são:

nenhuma (padrão: não mostra curva), linear, logarítmica, exponencial e geométrica.

Há também a opção de mostrar a equação de ajuste e o

coeficiente R2.

Lembremos que R2 define quão

boa é a curva de ajuste

definida para os dados e varia de 0 a 1.

(23)

Curva de Tendência Linear

Equação de ajuste e Coeficiente R2 23 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 2,14286x + 23,00000 R² = 0,99668 Tempo (horas) T e m p e ra tu ra ( ºC ) O número de casas decimais mostrado pelo BrOffice e o tamanho da fonte podem ser ajustados nas propriedades! Forma geral da equação:  y = f(x) = a + bx

(24)

Curva de Tendência Logarítmica

0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 13,17043 ln(x) + 14,97380 R² = 0,94434 Tempo (horas) T e m p e ra tu ra ( ºC ) Observe que haverá sempre um ajuste do tipo de curva escolhida que melhor se ajusta aos dados!

(25)

Curva de Tendência Exponencial

25 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 24,22593·1,06094^x R² = 0,97947 Tempo (horas) T e m p e ra tu ra ( ºC ) Forma geral da equação:  y = f(x) = a ebx

(26)

Curva de Tendência Geométrica

(ou Potência)

0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 20,09878 x^0,34925 R² = 0,97499 Tempo (horas) T e m p e ra tu ra ( ºC )

(27)

Barras de Erro

Com o gráfico selecionado, vá em Inserir Barras de Erro Y.

As opções mais comuns serão valor constante e valor percentual.

(28)

Barra de Erro Constante

Os erros aparecem sempre devido a imprecisões nas

medidas dos dados. Pense, por exemplo, na medida de tempo, tomada com um cronômetro, que um objeto leva para percorrer determinada distância.

Nesse caso, a medida dependerá bastante da precisão

com que o operador do cronômetro para o processo de contagem do tempo.

O erro de um determinado instrumento é sempre suposto

como sendo metade de sua menor divisão, para mais ou para menos. No caso do termômetro do exemplo ter

(29)

Barras de Erro de 0,5 ºC

Observe se a curva ajustada se encontra no intervalo definido pelas barras de erros! 29 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 2,14286x + 23,00000 R² = 0,99668 Tempo (horas) T e m p e ra tu ra ( ºC )

(30)

Barras de Erro de 5 ºC

Nesse caso, as barras de 5 ºC só fariam sentido se o termômetro tivesse precisão de 10 ºC!! 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 2,14286x + 23,00000 R² = 0,99668 Tempo (horas) T e m p e ra tu ra ( ºC ) Apenas para melhor visualizar as barras de erros, estas foram alteradas para 5 ºC!

(31)

Barra de Erro Percentual

O erro percentual depende da grandeza que está sendo medida.

Isso tende a causar erros grandes quanto maiores forem

as leituras do equipamento, o que pode ser evidenciado pelo gráfico a seguir, onde são mostrados os dados do nosso

termômetro de exemplo com erros de 5% (diferente de 5ºC !) sobre a medida.

(32)

Barra de Erro Percentual

Note que para valores maiores de temperatura, as barras de erros são também maiores. 0 2 4 6 8 10 12 14 16 0 10 20 30 40 50 60 f(x) = 2,14286x + 23,00000 R² = 0,99668 Tempo (horas) T e m p e ra tu ra ( ºC )

(33)

Linhas de Tendência com

Gráfico de Barras

O uso de linhas de tendência pode ser feito também com

outros tipos de gráficos, como os gráficos de barras.

2004 2005 2006 2007 2008 0 2 4 6 8 10 12 14 16 Empresa A Regressão linear de Empresa A Empresa B Regressão linear de Empresa B Ano L u cr o A p u ra d o ( m ilh õ e s d e R $ ) 2004 2005 2006 2007 2008 0 2 4 6 8 10 12 14 16 Empresa A Regressão logarítmica de Empresa A Empresa B Regressão logarítmica de Empresa B Ano L u cr o A p u ra d o ( m ilh õ e s d e R $ )

Regressão Linear Regressão Logarítmica

(34)

Problema com Escalas

A tabela a seguir representa os resultados de

probabilidade de Bloqueio em duas Redes de Comunicação.

Esses dados são apresentados em um gráfico de linhas.

Carga na Rede (%) Probabilidade de Bloqueio Rede A Rede B 0.2 8,00E-002 7,63E-003 0.4 2,43E-001 8,00E-002 0.6 4,30E-001 2,83E-001 0.8 6,70E-001 4,58E-001

Note que a escala linear

não permite a visualização 0,00E+000

1,00E-001 2,00E-001 3,00E-001 4,00E-001 5,00E-001 6,00E-001 7,00E-001 8,00E-001 Rede A Rede B P ro b a b ili d a d e d e B lo q u e io

(35)

Mudança de Escala

A escala linear não é adequada para a apresentação de dados

com ordens de grandeza muito diferentes.

Nestes casos deve-se optar por uma mudança de escala.

Selecione o eixo para o qual a escala será alterada

(Ex: Eixo Y).

Uma caixa de diálogo com todas as características do

(36)

Escala Logarítmica

Na aba Escala, selecione a opção Escala do logaritmo.

0.2 0.4 0.6 0.8 1,00E-003 1,00E-002 1,00E-001 1,00E+000 Rede A Rede B Carga na Rede (%) P ro b a b ili d a d e d e B lo q u e io

(37)

Comparação Escala Linear X

Logarítmica

0.2 0.4 0.6 0.8 0,00E+000 1,00E-001 2,00E-001 3,00E-001 4,00E-001 5,00E-001 6,00E-001 7,00E-001 8,00E-001 Rede A Rede B Carga na Rede P ro b a b ili d a d e d e B lo q u e io 0.2 0.4 0.6 0.8 1,00E-003 1,00E-002 1,00E-001 1,00E+000 Rede A Rede B Carga na Rede (%) P ro b a b ili d a d e d e B lo q u e io

Escala Linear Escala Logarítmica

(38)

Dados melhor visualizados em

Escala Logarítmica, mas

apresentados em Escala Linear

10 100 1000 10000 100000 0 10000 20000 30000 40000 50000 60000 x y

(39)

Escala Log x Log

10 100 1000 10000 100000 1 10 100 1000 10000 100000 x y

Melhor apresentação dos valores reais!

(40)

Concluindo...

o Nesta aula discutimos alguns pontos importantes da

visualização de dados usando gráficos. Estes pontos são:

Elementos (eixos e legendas)

Tamanho

Aproximação de Funções

Curvas de Erros

(41)

41

Exercícios – Parte III

Exercício de Sala de Aula: Dado um conjunto de dados que

representam os resultados de exames de saúde obtidos de um grupo de 40 homens (Tabela 1):

1- Faça gráfico de dispersão para as variáveis Altura x Peso, Idade x Altura, Idade x Peso, Peso x Colesterol, Idade X IMC e IMC x Peso.

2- Calcule a correlação entre Altura x Peso, Idade x Altura, Idade x Peso, Peso x Colesterol, Idade X IMC e IMC x Peso.

3- As correlações obtidas (exercício 1) corroboram com a intuição fornecida pelos gráficos de dispersão (exercício 2)?

4 – Discuta as correlações obtidas. É possível haver uma relação causa-efeito entre algumas dessas variáveis? Por quê?

(42)

Exercícios de Sala – Continuação

5- Faça dois gráficos de dispersão do IMC x Peso, atribuindo erros de 5 e 10% para o IMC.

6- Para cada um dos gráficos trace linhas de tendência linear, logarítmica exponencial e geométrica.

7- Discuta a equação da curva de ajuste e o coeficiente R2 para

todos os ajustes realizados. Qual das curvas de regressão melhor se ajusta aos dados?

8- Faça uma previsão (usando curvas de regressão) de qual será altura de uma pessoa quando ela tiver 45 anos. Discuta o resultado.

(43)

Exercício para casa: Dado o conjunto de dados que relaciona massa com

diâmetro em um experimento de dimensão fractal (Método utilizado para medir comprimentos, áreas e volumes fragmentados) (Tabela 2):

1- Faça um gráfico linear da massa (M) x diâmetro (D).

2- Faça um gráfico (“loglog”) da massa (M) x diâmetro (D).

3- Converta os dados da tabela em log(M) e log(D) e faça um gráfico linear dos dados convertidos.

4- Determine a dimensão fractal, dado pelo coeficiente angular da reta do gráfico de logM x LogD.

Obs.: A dimensão fractal é dada pela relação:

M ~ Ddf

onde M e D correspondem à massa e ao diâmetro medidos

respectivamente. Ao fazer um gráfico “loglog” da massa em função do D temos que:

log (M) = df. log (D)

Desta forma, se o gráfico “loglog” for uma reta descrita por uma equação

(44)
(45)

45 D (mm) M(g) 2 10,56 4 111,43 5 237,96 8 1176,27 10 2511,89 12 4668,92 14 7885,61 16 12416,75 18 18532,18 20 26515,63 22 36663,77 24 49285,39 26 64700,76 28 83241,00 30 105247,62 32 131072,00 34 161075,07 36 195626,87 38 235106,28 40 279900,69 42 330405,74 44 387025,07 46 450170,08 48 520259,73 50 597720,31

Tabela 2

Referências

Documentos relacionados

O conjunto da análise de tal estudo reflete bem o que foi dito, pois transmite seus valores e mostra para o público aquilo que se autodenominam, onde as análises

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

Figura 9.7 - Aumento maior do brônquio: epitélio pseudoestratificado colunar ciliado com células caliciformes, glândulas (G) no conjuntivo subjacente, músculo liso

(E) apenas os conjuntos de documentos recebidos por pessoas físicas, em decorrência de suas atividades. 11) (2006 / Esaf-ANEEL) São considerados privados os documentos

Os projetos contratados comporão a programação do Ciranda Cultural e serão desenvolvidos em diversos equipamentos públicos como o Centro Municipal de Cultura Afro-Brasileira, o

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

Dica: Use um arquivo de dados exclusivo para seu bloco de controle PID (N9:0, por exemplo). Isso evita reutilização acidental dos endereços do bloco de controle PID por

Nota: No dia 14 de junho, data do início da III COPA BIG SHOPPING DE TÊNIS DE MESA, o(a) atleta inscrito(a) deverá se apresentar à Organização da competição portando