Probabilidade e Estatística
Associação Entre Variáveis
Qualitativa vs Qualitativa
•
Tabelas de dupla entrada
•Gráfico segmentado
Qualitativa vs Quantitativa
•
Categorização
•
Boxplot por categorias
Quantitativa vs Quantitativa
•
Gráficos de dispersão
•Correlação
Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal dentro de um banco. A questão que esperamos responder é:
"As mulheres são, injustamente, discriminadas em decisões de promoção realizadas por gerentes do sexo masculino?”
Os participantes deste estudo são 48 supervisores bancários do sexo masculino que frequentaram um instituto de administração da Universidade da Carolina do Norte em 1972. Eles foram convidados a assumir o papel do diretor de pessoal de um banco e lhes foi dado um arquivo pessoal para julgarem se a pessoa deveria ser promovida a uma posição de gerente de filial. Os arquivos estipulados para os participantes eram idênticos, exceto que metade deles indicava candidatos do sexo masculino e a outra metade indicava candidatos do sexo feminino. Esses arquivos foram aleatoriamente designados para os sujeitos.
Associação Entre Variáveis
Qualitativa vs Qualitativa
Associação Entre Variáveis
Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino
total
promovido
14
21
35
não promovido
10
3
13
total
24
24
48
Uma forma interessante de avaliarmos a
distribuição conjunta e as relações de
dependência entre as variáveis é
relativizarmos os resultados da tabela.
Associação Entre Variáveis
Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino
total
promovido
29,17%
43,75%
72,92%
não promovido
20,83%
6,25%
27,08%
total
50%
50%
100%
Dividimos os valores da tabela pelo
número total de participantes que é 48
Associação Entre Variáveis
Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino
total
promovido
29,17%
43,75%
72,92%
não promovido
20,83%
6,25%
27,08%
total
50%
50%
100%
Dividimos os valores da tabela pelo
número total de participantes que é 48
•
50% dos participantes é homem
Associação Entre Variáveis
Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas
ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
58,33%
87,50%
72,92%
não promovido
41,67%
12,50%
27,08%
total
100%
100%
100%
Dividimos os valores da tabela pelo
número total de cada coluna
Associação Entre Variáveis
Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas
ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
58,33%
87,50%
72,92%
não promovido
41,67%
12,50%
27,08%
total
100%
100%
100%
•
41,67 % das mulheres não foram promovidas
•
12,50% dos homens não foram promovidos
Dividimos os valores da tabela pelo
número total de cada coluna
Associação Entre Variáveis
Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas
ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
58,33%
87,50%
72,92%
não promovido
41,67%
12,50%
27,08%
total
100%
100%
100%
•
41,67 % das mulheres não foram promovidas
•
12,50% dos homens não foram promovidos
0.000.25 0.50 0.75 1.00 feminino masculino Gênero Obser vado Decisão Não promovido Promovido Gráfico Segmentado
Associação Entre Variáveis
Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
40,00%
60,00%
100%
não promovido
76,92%
23,08%
100%
total
68,57%
31,43%
100%
Dividimos os valores da tabela pelo
número total de cada linha
Associação Entre Variáveis
Qualitativa vs Qualitativa
•
76,92% dos não promovidos são mulheres
•
60% dos promovidos são homens
Dividimos os valores da tabela pelo
número total de cada linha
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
40,00%
60,00%
100%
não promovido
76,92%
23,08%
100%
Associação Entre Variáveis
Qualitativa vs Qualitativa
0.00 0.25 0.50 0.75 1.00não promovido promovido
Decisão Obser vado Gênero Feminino Masculino Gráfico Segmentado
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino
total
promovido
40,00%
60,00%
100%
não promovido
76,92%
23,08%
100%
total
68,57%
31,43%
100%
•
76,92% dos não promovidos são mulheres
Associação Entre Variáveis
Qualitativa vs Quantitativa
Vamos considerar os tempos de prova dos ganhadores da maratona de Nova York registrados nos anos de 1970 a 1999. 1 1980 masculino 2.16139 2 1981 masculino 2.13694 3 1982 masculino 2.15806 4 1983 masculino 2.14972 5 1984 masculino 2.24806 6 1985 masculino 2.19278 7 1986 masculino 2.18500 8 1987 masculino 2.18361 9 1988 masculino 2.13889 10 1989 masculino 2.13361 11 1990 masculino 2.21083 12 1991 masculino 2.15778 13 1992 masculino 2.15806 14 1993 masculino 2.16778 15 1994 masculino 2.18917 16 1995 masculino 2.18333 17 1996 masculino 2.16500 18 1997 masculino 2.13667 19 1998 masculino 2.14583 20 1999 masculino 2.15389 21 1980 feminino 2.42833 22 1981 feminino 2.42472 23 1982 feminino 2.45389 24 1983 feminino 2.45000 25 1984 feminino 2.49167 26 1985 feminino 2.47611 27 1986 feminino 2.46833 28 1987 feminino 2.50472 29 1988 feminino 2.46861 30 1989 feminino 2.42500 31 1990 feminino 2.51250 32 1991 feminino 2.45889 33 1992 feminino 2.41111 34 1993 feminino 2.44000 35 1994 feminino 2.46028 36 1995 feminino 2.46833 37 1996 feminino 2.47167 38 1997 feminino 2.47833 39 1998 feminino 2.42139 40 1999 feminino 2.41833 41 1970 masculino 2.52722 42 1971 masculino 2.38167 43 1972 masculino 2.46444 44 1973 masculino 2.36500 45 1974 masculino 2.44167 46 1975 masculino 2.32417 47 1976 masculino 2.16944 48 1977 masculino 2.19111 49 1978 masculino 2.20333 50 1979 masculino 2.19500 51 1971 feminino 2.92278 52 1972 feminino 3.14472 53 1973 feminino 2.95194 54 1974 feminino 3.12472 55 1975 feminino 2.77056 56 1976 feminino 2.65306 57 1977 feminino 2.71944 58 1978 feminino 2.54167 59 1979 feminino 2.45917
Associação Entre Variáveis
Qualitativa vs Quantitativa
Para avaliar o que ocorre dentro de cada categoria podemos construir um Boxplot para cada uma delas
2.1 2.4 2.7 3.0 feminino masculino Gênero Tempo de pro va Box−plot
É bastante evidente que o tempo de prova
do grupo masculino é bem menor que o do
grupo feminino
Associação Entre Variáveis
Dispersão por categorias
Como possuímos a variável “tempo", podemos criar um gráfico de dispersão em relação à variável "tempo"
Aqui escolhemos a cor dos pontos
de acordo com a categoria
gênero.
2.1 2.4 2.7 3.0 1970 1980 1990 2000 Gênero Tempo de pro va 1 1 Gênero Feminino Masculino Gráfico de dispersãoAssociação Entre Variáveis
Quantitativa vs Quantitativa
Quando trabalhamos com duas variáveis quantitativas é bastante imediata a nossa vontade de construir um gráfico de dispersão que relacione os valores das variáveis em questão
Nós iremos considerar os dados relativos aos funcionários de uma empresa de vendas
Agente Anos de serviço Número de clientes
Roberto 2 48
Ana 3 50
João 4 56
Pedro 5 52
Júlia 4 43
Agente Anos de serviço Número de clientes
Teresa 6 60
Matheus 7 62
Regina 8 58
Caio 8 64
Associação Entre Variáveis
Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão
Parece haver uma associação clara entre
os anos de serviço e o número de clientes
de um funcionário
Associação Entre Variáveis
Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão
Parece haver uma associação clara entre
os anos de serviço e o número de clientes
de um funcionário
Associação Entre Variáveis
Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão
Parece haver uma associação clara entre
os anos de serviço e o número de clientes
de um funcionário
Nosso desejo é criar uma medida que
seja capaz de captar a associação entre
variáveis quantitativas
Associação Entre Variáveis
Dados Brutos
0 5 10 0 2 4 6 −10 −5 0 5 0.0 2.5 5.0 −20 0 20 40 0 5 10Associação Entre Variáveis
Dados brutos
0 5 10 0 2 4 6 −10 −5 0 5 0.0 2.5 5.0 −20 0 20 40 0 5 10Associação Entre Variáveis
Centralizando
−4 0 4 −2 0 2 −5 0 5 10 −5.0 −2.5 0.0 2.5 −20 0 20 40 −4 0 4Associação Entre Variáveis
Normalizando
−2 0 2 −2 0 2 −2 0 2 −2 0 2 −2 0 2 4 −2 0 2Associação Entre Variáveis
Medidas de Associação
Correlação
Covariância
Cov(X, Y ) =
1
n
nX
i=1(x
ix)(y
iy)
Corr(X, Y ) =
1
n
nX
i=1(x
ix)(y
iy)
dp(x)dp(y)
Associação Entre Variáveis
Medidas de Associação
agente anos de serviço número de clientes
Roberto 2 48 -3,70 -8,50 -1,54 -1,05 0,16 Ana 3 50 -2,70 -6,50 -1,12 -0,80 0,09 João 4 56 -1,70 -0,50 -0,71 -0,06 0,00 Pedro 5 52 -0,70 -4,50 -0,29 -0,55 0,02 Júlia 4 43 -1,70 -13,50 -0,71 -1,66 0,12 Teresa 6 60 0,30 3,50 0,12 0,43 0,01 Matheus 7 62 1,30 5,50 0,54 0,68 0,04 Regina 8 58 2,30 1,50 0,95 0,18 0,02 Caio 8 64 2,30 7,50 0,95 0,92 0,09 Bruna 10 72 4,30 15,50 1,78 1,91 0,34 Total 57 565 0,00 0,00 0,00 0,00 0,88
Correlação
x x y y zx = dp(x)x x zy = dp(y)y y zx⇥zn yAssociação Entre Variáveis
Gráfico Bolha
pais rep_capita mort_inf exp_vida pop regiao
Afeganistão US$1925,00 91,10 61,726 32526562 Asia
Albania US$10620,00 14,00 77,807 2896679 Europe
Algéria US$13434,00 24,00 71,246 39666519 Africa
… … … …
Zâmbia US$4034,00 67.80 59,853 16211767 Africa
Zimbábue US$1801,00 79,60 62,017 15602751 Africa
Vamos considerar os dados (Gapminder) de 2015 que revelam características dos países. Para cada país temos a informação acerca da “renda per capita”, “mortalidade infantil”, "expectativa de vida”, “tamanho da população” e “região no mapa”.
Associação Entre Variáveis
Gráfico Bolha
Associação Entre Variáveis
Gráfico Bolha
Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?
50 60 70 80
0 50000 100000 150000
Renda per capita
Expectativ
a de vida
Associação Entre Variáveis
Gráfico Bolha
Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?
50 60 70 80
0 50000 100000 150000
Renda per capita
Expectativ
a de vida
Gráfico de dispersão
A associação não aparenta ser linear de
modo que tomamos o logaritmo da renda
per capita
Associação Entre Variáveis
Gráfico Bolha
Neste gráfico podemos visualizar melhor os países
50 60 70 80
8 10 12
Renda per capita
Expectativ
a de vida
50 60 70 80
8 10 12
Renda per capita
Expectativ
a de vida
Gráfico de dispersão
Associação Entre Variáveis
Gráfico Bolha
50 60 70 80
8 10 12
Renda per capita
Expectativ
a de vida
Gráfico de dispersão
Associação Entre Variáveis
Gráfico Bolha
Podemos também procurar alguns "outliers"
Serra Leoa
Macau
Costa do Marfim
50 60 70 80
8 10 12
Renda per capita
Expectativ a de vida Região Africa Americas Asia Europe Oceania Gráfico de dispersão
Associação Entre Variáveis
Gráfico Bolha
Adicionamos informação ao gráfico categorizando as cores por região