• Nenhum resultado encontrado

Medidas Estatísticas ASSOCIAÇÃO: COVARIÂNCIA E CORRELAÇÃO LINEAR SIMPLES 1

N/A
N/A
Protected

Academic year: 2021

Share "Medidas Estatísticas ASSOCIAÇÃO: COVARIÂNCIA E CORRELAÇÃO LINEAR SIMPLES 1"

Copied!
26
0
0

Texto

(1)

Medidas Estatísticas

(2)

Análise de Correlação e

medidas de associação

C E T 0 8 3 – P R O B A B I L I D A D E E E S TAT Í S T I C A P R O F E S S O R J O S É C L Á U D I O F A R I A S E T E M B R O D E 2 0 1 4 I A G O F A R I A S

(3)

Roteiro

Introdução

Diagramas de dispersão

Covariância

Exemplo

Interpretação de resultados

Grau de associação linear

Funções em R

Considerações

Bibliografia

(4)

Análise exploratória de dados

Medidas estatísticas

(5)

Intro

Avaliar o grau de relacionamento linear entre duas ou mais variáveis

Quanto uma variável interfere na outra? Qual a sua dependência?

(6)
(7)

Diagramas de Dispersão

Coleção de pontos em que as coordenadas cartesianas (x,y) são valores de cada membro do par

de dados

Qual a necessidade de um diagrama?

Análise de tendências

Mudanças de espalhamento de uma variável em relação à outra

(8)

Covariância

Medida de relação linear entre duas variáveis:

(9)

Compreensão a partir de um exemplo

Duas variáveis aleatórias:

M : rendimento acadêmico em matemática

L : rendimento acadêmico em línguas

Tabela 1 – Rendimento acadêmico em matemática (M) e línguas (L) do curso X da Universidade Y - 2014

Obs

1

2

3

4

5

6

7

8

M

36

80

50

58

72

60

56

08

(10)

𝑚 = 480

𝑚 𝑀 = 60

𝑠 𝑀 = 13,65

𝑙 = 400

𝑚 𝐿 = 50

𝑠 𝐿 = 10,93

(11)

Novo gráfico, com os eixos das médias 𝑚 e 𝑙 sobreposto

(12)

Grau de associação entre as duas variáveis aleatórias?

𝑚𝑙

(13)
(14)

Interpretação de resultados

Observações sobre o resultado de 𝑚𝑙.

𝑚𝑙 > 0

𝑚𝑙 < 0

𝑚𝑙 ≅ 0

Sinal representa a associação corretamente!

E se a amostra tivesse o dobro do tamanho?

2 ∗ 𝑚𝑙? A tendência também dobra?

Observações sobre o resultado de 𝑚𝑙.

𝑚𝑙 > 0

𝑚𝑙 < 0

𝑚𝑙 ≅ 0

(15)

𝑚𝑙𝑛−1

=

𝑛−11

[ (𝑀

𝑖

−𝑚(𝑀))x(𝐿

𝑖

−𝑚 𝐿 ]

Divisão pelo tamanho da amostra

Nova medida: Correlação.

Unidade de medidas das variáveis envolvidas? (pés e polegadas, metros e milhas)

Padronização de unidades -> Dividir m e l pelos seus respectivos desvios-padrões s(M) e s(L)

𝑛−11

(

𝑠 𝑀𝑚

)(

𝑠 𝐿𝑙

) =

𝑛−11 𝑀𝑖𝑠 𝑀 [𝑢𝑛]−𝑚 𝑀 [𝑢𝑛] 𝐿𝑖−𝑚 𝐿 [𝑢𝑛]𝑠 𝐿 [𝑢𝑛]

,

(16)

𝑚𝑙𝑛−1

=

𝑛−11

[ (𝑀

𝑖

−𝑚(𝑀))x(𝐿

𝑖

−𝑚 𝐿 ]

Divisão pelo tamanho da amostra

Nova medida: Correlação.

Unidade de medidas das variáveis envolvidas? (pés e polegadas, metros e milhas)

Padronização de unidades -> Dividir m e l pelos seus respectivos desvios-padrões s(M) e s(L)

𝑛−11

(

𝑠 𝑀𝑚

)(

𝑠 𝐿𝑙

) =

𝑛−11 𝑀𝑖𝑠 𝑀 [𝑢𝑛]−𝑚 𝑀 [𝑢𝑛] 𝐿𝑖−𝑚 𝐿 [𝑢𝑛]𝑠 𝐿 [𝑢𝑛]

,

onde 𝑠 𝑀 =

𝑖=1𝑛 𝑥𝑛−1𝑖−𝑥 2

e 𝑠 𝐿 =

𝑖=1𝑛 𝑦𝑛−1𝑖−𝑦 2

(17)

Covariância:

Não é influenciado pelo tamanho da amostra, entretanto influenciado pelas unidades de medida das variáveis

Coeficiente de correlação:

Não é influenciado nem pelo tamanho, nem pelas unidades de medida das variáveis

Pressupõe-se da correlação que:

Relacionamento linear

Variáveis aleatórias e intervalares ou proporcionais (nunca categóricas ou nominais)

Distribuição normal bivariada

Teorema

Se X e Y forem independentes, então não são correlacionadas, isto é,

(18)

𝑐𝑜𝑣 𝑀, 𝐿 =

𝑀𝑖−𝑚 𝑀𝑛−1𝐿𝑖−𝑚 𝐿

=

6547

= 93,43

𝑟 𝑀, 𝐿 =

𝑐𝑜𝑣 𝑀,𝐿𝑠 𝑀 𝑠(𝐿)

=

13,65∗10,9393,43

= 0,63

Obs.: −1 ≤ 𝑟 ≤ 1

𝑟

2

= 0,63

2

= 0,3922

𝑟

2

= 39,22%

A variação observada em M é explicada pela variação em L, e vice-versa.

(19)

Coeficiente de Correlação

Correlação

𝑟 = 1

Perfeita positiva.

0,8 <= 𝑟 < 1

Forte positiva

0,5 <= 𝑟 < 0,8

Moderada positiva

0,1 <= 𝑟 < 0,5

Fraca positiva

0 <= 𝑟 < 0,1

Íntima positiva

𝑟 = 0

Nula

0 <= 𝑟 < −0,1

Íntima negativa

− 0,1 <= 𝑟 < −0,5

Fraca negativa

− 0,5 <= 𝑟 < −0,8

Moderada negativa

− 0,8 <= 𝑟 < −1

Forte negativa.

(20)
(21)
(22)

𝑟 = 0

𝑟 = 0

(23)

Funções em R

cov(x, y, na.rm, use, method, V)

x a numeric vector, matrix or data frame.

y NULL (default) or a vector, matrix or data frame with compatible dimensions to x. The default is equivalent to y = x (but more efficient). na.rm logical. Should missing values be removed?

Use an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the

strings"everything", "all.obs", "complete.obs", "na.or.complete", or"pairwise.complete.obs".

Method a character string indicating which correlation coefficient (or covariance) is to be computed. One of "pearson" (default), "kendall", or "spearman", can be abbreviated.

(24)

cor(x, y, na.rm, use, method, V)

x a numeric vector, matrix or data frame.

y NULL (default) or a vector, matrix or data frame with compatible dimensions to x. The default is equivalent to y = x (but more efficient). na.rm logical. Should missing values be removed?

use an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the

strings"everything", "all.obs", "complete.obs", "na.or.complete", or"pairwise.complete.obs".

method a character string indicating which correlation coefficient (or covariance) is to be computed. One of "pearson" (default), "kendall", or "spearman", can be abbreviated.

V symmetric numeric matrix, usually positive definite such as a covariance matrix.

(25)

Considerações

Predição e análise exploratória

Pressupõe-se da correlação:

Relacionamento linear

Variáveis aleatórias medidas nas escalas intervalar ou proporcional (nunca categórica ou nominal)

Distribuição normal bivariada

Análise da concordância, porém não estabelece relação causa-efeito, nem permite previsões

Covariância fortemente influenciado por outliers

(26)

Referências

GUIMARÃES, Paulo Ricardo B. Análise de Correlação e medidas de associação.

DEST/UFPR, 2013.

BUSSAB, Wilton O & MORETTIN, Pedro A. Estatística Básica. São Paulo, Saraiva,

5 ed. 2004.

Slides referentes a apresentação do grupo de 2014.1

FARIA, José Cláudio. Notas de aulas expandidas

– Ilhéus, UESC/DCET, 10 ed.

2009.

Referências

Documentos relacionados

Neste sentido, o objetivo desta pesquisa é analisar a disponibilidade hídrica atual e futura da bacia do rio Jundiaí por meio de simulações hidrológicas de

(...) a construção da identidade docente é defendida, portanto, como produto de um processo complexo, que se sustenta em dimensões que vão desde a aceitação

Para cada iteração e para cada variável na ordem especificada na lista de variáveis, o método de especificação totalmente condicional (FCS) ajusta um modelo (variável

Cada área de processo é definida no modelo por meio da descrição de seu propósito, notas introdutórias, relacionamentos com outras áreas, metas específicas, metas

O primeiro trata-se de um processo comum e obrigatório a todos os órgãos/entidades, enquanto o segundo trata-se de uma recomendação da Secretaria de Estado de

Tabela 51 - Motivos para a confirmação de aquisição → assimilação em contexto Waterfall no Brasil ligados às metodologias ágeis e motivos diversos .... 198 Tabela 52 - Motivos

On the other hand, non-remarkable differences have been observed in the load bearing capacity of the tested arrangements, with the reduction of the dowels distance, keeping

Na conjuntura de crise financeira que caracteriza o contexto de produção desta reforma, foram suprimidas várias legações – Estocolmo, Buenos Aires e Tânger – que pelas