• Nenhum resultado encontrado

Probabilidade e Estatística. Prof. Dr. Jhames Sampaio

N/A
N/A
Protected

Academic year: 2021

Share "Probabilidade e Estatística. Prof. Dr. Jhames Sampaio"

Copied!
34
0
0

Texto

(1)

Probabilidade e Estatística

(2)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Tabelas de dupla entrada

Gráfico segmentado

Qualitativa vs Quantitativa

Categorização

Boxplot por categorias

Quantitativa vs Quantitativa

Gráficos de dispersão

Correlação

(3)

Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal dentro de um banco. A questão que esperamos responder é:

"As mulheres são, injustamente, discriminadas em decisões de promoção realizadas por gerentes do sexo masculino?”

Os participantes deste estudo são 48 supervisores bancários do sexo masculino que frequentaram um instituto de administração da Universidade da Carolina do Norte em 1972. Eles foram convidados a assumir o papel do diretor de pessoal de um banco e lhes foi dado um arquivo pessoal para julgarem se a pessoa deveria ser promovida a uma posição de gerente de filial. Os arquivos estipulados para os participantes eram idênticos, exceto que metade deles indicava candidatos do sexo masculino e a outra metade indicava candidatos do sexo feminino. Esses arquivos foram aleatoriamente designados para os sujeitos.

Associação Entre Variáveis

Qualitativa vs Qualitativa

(4)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino

total

promovido

14

21

35

não promovido

10

3

13

total

24

24

48

Uma forma interessante de avaliarmos a

distribuição conjunta e as relações de

dependência entre as variáveis é

relativizarmos os resultados da tabela.

(5)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino

total

promovido

29,17%

43,75%

72,92%

não promovido

20,83%

6,25%

27,08%

total

50%

50%

100%

Dividimos os valores da tabela pelo

número total de participantes que é 48

(6)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada

feminino masculino

total

promovido

29,17%

43,75%

72,92%

não promovido

20,83%

6,25%

27,08%

total

50%

50%

100%

Dividimos os valores da tabela pelo

número total de participantes que é 48

50% dos participantes é homem

(7)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas

ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

58,33%

87,50%

72,92%

não promovido

41,67%

12,50%

27,08%

total

100%

100%

100%

Dividimos os valores da tabela pelo

número total de cada coluna

(8)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas

ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

58,33%

87,50%

72,92%

não promovido

41,67%

12,50%

27,08%

total

100%

100%

100%

41,67 % das mulheres não foram promovidas

12,50% dos homens não foram promovidos

Dividimos os valores da tabela pelo

número total de cada coluna

(9)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas

ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

58,33%

87,50%

72,92%

não promovido

41,67%

12,50%

27,08%

total

100%

100%

100%

41,67 % das mulheres não foram promovidas

12,50% dos homens não foram promovidos

0.00

0.25 0.50 0.75 1.00 feminino masculino Gênero Obser vado Decisão Não promovido Promovido Gráfico Segmentado

(10)

Associação Entre Variáveis

Qualitativa vs Qualitativa

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

40,00%

60,00%

100%

não promovido

76,92%

23,08%

100%

total

68,57%

31,43%

100%

Dividimos os valores da tabela pelo

número total de cada linha

(11)

Associação Entre Variáveis

Qualitativa vs Qualitativa

76,92% dos não promovidos são mulheres

60% dos promovidos são homens

Dividimos os valores da tabela pelo

número total de cada linha

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

40,00%

60,00%

100%

não promovido

76,92%

23,08%

100%

(12)

Associação Entre Variáveis

Qualitativa vs Qualitativa

0.00 0.25 0.50 0.75 1.00

não promovido promovido

Decisão Obser vado Gênero Feminino Masculino Gráfico Segmentado

Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:

feminino masculino

total

promovido

40,00%

60,00%

100%

não promovido

76,92%

23,08%

100%

total

68,57%

31,43%

100%

76,92% dos não promovidos são mulheres

(13)

Associação Entre Variáveis

Qualitativa vs Quantitativa

Vamos considerar os tempos de prova dos ganhadores da maratona de Nova York registrados nos anos de 1970 a 1999. 1 1980 masculino 2.16139 2 1981 masculino 2.13694 3 1982 masculino 2.15806 4 1983 masculino 2.14972 5 1984 masculino 2.24806 6 1985 masculino 2.19278 7 1986 masculino 2.18500 8 1987 masculino 2.18361 9 1988 masculino 2.13889 10 1989 masculino 2.13361 11 1990 masculino 2.21083 12 1991 masculino 2.15778 13 1992 masculino 2.15806 14 1993 masculino 2.16778 15 1994 masculino 2.18917 16 1995 masculino 2.18333 17 1996 masculino 2.16500 18 1997 masculino 2.13667 19 1998 masculino 2.14583 20 1999 masculino 2.15389 21 1980 feminino 2.42833 22 1981 feminino 2.42472 23 1982 feminino 2.45389 24 1983 feminino 2.45000 25 1984 feminino 2.49167 26 1985 feminino 2.47611 27 1986 feminino 2.46833 28 1987 feminino 2.50472 29 1988 feminino 2.46861 30 1989 feminino 2.42500 31 1990 feminino 2.51250 32 1991 feminino 2.45889 33 1992 feminino 2.41111 34 1993 feminino 2.44000 35 1994 feminino 2.46028 36 1995 feminino 2.46833 37 1996 feminino 2.47167 38 1997 feminino 2.47833 39 1998 feminino 2.42139 40 1999 feminino 2.41833 41 1970 masculino 2.52722 42 1971 masculino 2.38167 43 1972 masculino 2.46444 44 1973 masculino 2.36500 45 1974 masculino 2.44167 46 1975 masculino 2.32417 47 1976 masculino 2.16944 48 1977 masculino 2.19111 49 1978 masculino 2.20333 50 1979 masculino 2.19500 51 1971 feminino 2.92278 52 1972 feminino 3.14472 53 1973 feminino 2.95194 54 1974 feminino 3.12472 55 1975 feminino 2.77056 56 1976 feminino 2.65306 57 1977 feminino 2.71944 58 1978 feminino 2.54167 59 1979 feminino 2.45917

(14)

Associação Entre Variáveis

Qualitativa vs Quantitativa

Para avaliar o que ocorre dentro de cada categoria podemos construir um Boxplot para cada uma delas

2.1 2.4 2.7 3.0 feminino masculino Gênero Tempo de pro va Box−plot

É bastante evidente que o tempo de prova

do grupo masculino é bem menor que o do

grupo feminino

(15)

Associação Entre Variáveis

Dispersão por categorias

Como possuímos a variável “tempo", podemos criar um gráfico de dispersão em relação à variável "tempo"

Aqui escolhemos a cor dos pontos

de acordo com a categoria

gênero.

2.1 2.4 2.7 3.0 1970 1980 1990 2000 Gênero Tempo de pro va 1 1 Gênero Feminino Masculino Gráfico de dispersão

(16)

Associação Entre Variáveis

Quantitativa vs Quantitativa

Quando trabalhamos com duas variáveis quantitativas é bastante imediata a nossa vontade de construir um gráfico de dispersão que relacione os valores das variáveis em questão

Nós iremos considerar os dados relativos aos funcionários de uma empresa de vendas

Agente Anos de serviço Número de clientes

Roberto 2 48

Ana 3 50

João 4 56

Pedro 5 52

Júlia 4 43

Agente Anos de serviço Número de clientes

Teresa 6 60

Matheus 7 62

Regina 8 58

Caio 8 64

(17)

Associação Entre Variáveis

Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão

Parece haver uma associação clara entre

os anos de serviço e o número de clientes

de um funcionário

(18)

Associação Entre Variáveis

Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão

Parece haver uma associação clara entre

os anos de serviço e o número de clientes

de um funcionário

(19)

Associação Entre Variáveis

Quantitativa vs Quantitativa

Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"

50 60 70 2 4 6 8 10 Anos de serviço Número de clientes Gráfico de dispersão

Parece haver uma associação clara entre

os anos de serviço e o número de clientes

de um funcionário

Nosso desejo é criar uma medida que

seja capaz de captar a associação entre

variáveis quantitativas

(20)

Associação Entre Variáveis

Dados Brutos

0 5 10 0 2 4 6 −10 −5 0 5 0.0 2.5 5.0 −20 0 20 40 0 5 10

(21)

Associação Entre Variáveis

Dados brutos

0 5 10 0 2 4 6 −10 −5 0 5 0.0 2.5 5.0 −20 0 20 40 0 5 10

(22)

Associação Entre Variáveis

Centralizando

−4 0 4 −2 0 2 −5 0 5 10 −5.0 −2.5 0.0 2.5 −20 0 20 40 −4 0 4

(23)

Associação Entre Variáveis

Normalizando

−2 0 2 −2 0 2 −2 0 2 −2 0 2 −2 0 2 4 −2 0 2

(24)

Associação Entre Variáveis

Medidas de Associação

Correlação

Covariância

Cov(X, Y ) =

1

n

n

X

i=1

(x

i

x)(y

i

y)

Corr(X, Y ) =

1

n

n

X

i=1

(x

i

x)(y

i

y)

dp(x)dp(y)

(25)

Associação Entre Variáveis

Medidas de Associação

agente anos de serviço número de clientes

Roberto 2 48 -3,70 -8,50 -1,54 -1,05 0,16 Ana 3 50 -2,70 -6,50 -1,12 -0,80 0,09 João 4 56 -1,70 -0,50 -0,71 -0,06 0,00 Pedro 5 52 -0,70 -4,50 -0,29 -0,55 0,02 Júlia 4 43 -1,70 -13,50 -0,71 -1,66 0,12 Teresa 6 60 0,30 3,50 0,12 0,43 0,01 Matheus 7 62 1,30 5,50 0,54 0,68 0,04 Regina 8 58 2,30 1,50 0,95 0,18 0,02 Caio 8 64 2,30 7,50 0,95 0,92 0,09 Bruna 10 72 4,30 15,50 1,78 1,91 0,34 Total 57 565 0,00 0,00 0,00 0,00 0,88

Correlação

x x y y zx = dp(x)x x zy = dp(y)y y zx⇥zn y

(26)

Associação Entre Variáveis

Gráfico Bolha

pais rep_capita mort_inf exp_vida pop regiao

Afeganistão US$1925,00 91,10 61,726 32526562 Asia

Albania US$10620,00 14,00 77,807 2896679 Europe

Algéria US$13434,00 24,00 71,246 39666519 Africa

… … … …

Zâmbia US$4034,00 67.80 59,853 16211767 Africa

Zimbábue US$1801,00 79,60 62,017 15602751 Africa

Vamos considerar os dados (Gapminder) de 2015 que revelam características dos países. Para cada país temos a informação acerca da “renda per capita”, “mortalidade infantil”, "expectativa de vida”, “tamanho da população” e “região no mapa”.

(27)

Associação Entre Variáveis

Gráfico Bolha

(28)

Associação Entre Variáveis

Gráfico Bolha

Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?

50 60 70 80

0 50000 100000 150000

Renda per capita

Expectativ

a de vida

(29)

Associação Entre Variáveis

Gráfico Bolha

Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?

50 60 70 80

0 50000 100000 150000

Renda per capita

Expectativ

a de vida

Gráfico de dispersão

A associação não aparenta ser linear de

modo que tomamos o logaritmo da renda

per capita

(30)

Associação Entre Variáveis

Gráfico Bolha

Neste gráfico podemos visualizar melhor os países

50 60 70 80

8 10 12

Renda per capita

Expectativ

a de vida

(31)

50 60 70 80

8 10 12

Renda per capita

Expectativ

a de vida

Gráfico de dispersão

Associação Entre Variáveis

Gráfico Bolha

(32)

50 60 70 80

8 10 12

Renda per capita

Expectativ

a de vida

Gráfico de dispersão

Associação Entre Variáveis

Gráfico Bolha

Podemos também procurar alguns "outliers"

Serra Leoa

Macau

Costa do Marfim

(33)

50 60 70 80

8 10 12

Renda per capita

Expectativ a de vida Região Africa Americas Asia Europe Oceania Gráfico de dispersão

Associação Entre Variáveis

Gráfico Bolha

Adicionamos informação ao gráfico categorizando as cores por região

Macau

Costa do Marfim

(34)

Associação Entre Variáveis

Gráfico Bolha

Referências

Documentos relacionados

A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se baseia no fato de que uma

Grandes fornecedores têm acrescentado a tecnologia GPON ao seu portfólio de redes de acesso banda larga, e as operadoras em todo o mundo estão interessadas em implantar a tecnologia

Para tal, constou de pesquisa de natureza aplicada à 4 sujeitos, os quais foram selecionados devido às suas condições de paraplegia Os dados coletados foram analisados de

antecede a percepção moderna de escravidão negra a partir dos Europeus, já a partir dos Europeus, já que esse processo que esse processo iniciou se muito antes do mundo islâmico

O diagnóstico da área se pautou no monitoramento da estação experimental por meio da instalação de parcelas de erosão, que determinam o total de escoamento e

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

ensino superior como um todo e para o curso específico; desenho do projeto: a identidade da educação a distância; equipe profissional multidisciplinar;comunicação/interatividade

Sob o ponto de vista da densidade, percebe-se pelas Tabelas 2, 3 e 4 , que laranjas sadias apresentam densidade média em torno de 0,96, enquanto as laranjas estragadas