3. Estatística descritiva
3. Estatística descritiva
bidimensional
bidimensional
(Tabelas , Gráficos) (Tabelas , Gráficos)• Quantas TV Philips são vendidas na região Norte?
• Quantos homens são fumantes?
Análise bivariada
Análise bivariada
(ou
bidimensional
bidimensional
): avalia o comportamento
de uma variável em função da outra, por exemplo:
Estatística bidimensional
Estatística bidimensional
Até agora vimos como organizar informações pertinentes a
uma única variável
(ou a um conjunto de dados) –
Estatística univariada.
Mas frequentemente estamos interessados em analisar o comportamento
conjunto
de duas (2) ou mais variáveis
aleatórias.
A tabulação
A tabulação
Os dados aparecem na forma de matriz usualmente:
Indivíduo (elemento) Variáveis individuo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 ... ... ...
Aqui nos deteremos no caso de apenas 2 variáveis
avaliadas em n unidades amostrais.
Com o
objetivo
de encontrar as possíveis relações (ou associações) entre as
DUAS variáveis, podemos ter as seguintes situações:
a)
Uma
variável é
qualitativa
e a
uma quantitativa
.
b) As
duas
variáveis são
quantitativas.
c) As
duas
variáveis são
qualitativas.
As técnicas de
análise de dados
são diferentes
.
a)
a)
Uma
Uma
variável
variável
qualitativa
qualitativa
e
e
uma
uma
variável
variável
quantitativa
quantitativa
4
variável
variável
quantitativa
quantitativa
Nesta situação
analisa-se
o que acontece com a variável
quantitativa
dentro de cada nível
da variável qualitativa.
Tabela 1: Medidas-resumo para a variável salário (Y), segundo o grau de instrução (X), na companhia MB.
Exemplo
Exemplo
Y X n x s s2 x (1) Q1 Q2 Q3 x(n) Fundamental 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65 Médio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 19,40 Superior 6 16,48 4,11 16,89 10,53 13,65 16,54 18,38 23,30 Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30 O Salário aumenta conforme aumenta o nível de educação do indivíduo. Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30b)
b)
Duas
Duas
variáveis
variáveis
qualitativas
qualitativas
b)
Tabelas
Tabelas
Os dados podem ser resumidos em
tabelas de dupla entrada
b)
b)
Duas
Duas
variáveis
variáveis
qualitativas
qualitativas
Os dados podem ser resumidos em
tabelas de dupla entrada
(
contingência, dupla classificação
, ou
tabulação cruzada
), onde
aparecerão as frequências absolutas ou contagens de indivíduos que
pertencem simultaneamente a categorias de uma e outra variável.
Em outras palavras: Consiste em fazer o cruzamento entre duas variáveis qualitativas, registrando as ocorrências que
X Y
Y1 Y2 ... Yq Total
X1
n
11n
12...
n
1qn
1.X2
n
21n
22...
n
2qn
2.X
n
n
...
n
n
Cada elemento nkqdo corpo da tabela informa a frequência observada das realizações simultâneas da i-ésima categoria da variável
X e da j-ésima categoria de Y
Tabela de contingência
Tabela de contingência
(Representação geral)
(Representação geral)
A distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados. X3n
31n
32...
n
3qn
3. ......
...
...
...
...
Xkn
k1n
k2...
n
kqn
k. Totaln
.1n
.2...
n
.qn
Distribuição conjunta de X e YA linha dos totais fornece a
distribuição marginal da
variável Y
A coluna dos totais fornece
a distribuição marginal da
Região (X)\Marca (Y) Gradiente Panasonic Philips Samsung Toshiba Total Centro 25 146 52 82 60 365 Sul 42 79 65 218 52 456 Leste 48 183 91 142 72 536 Norte 24 148 34 43 53 302 Sudeste 76 218 159 269 119 841 Total 215 774 401 745 356 2500
Exemplo:
Exemplo:
Como os totais marginais são diferentes, torna-se difícil fazer alguma interpretação sobre aassociação. Para facilitar, podemos utilizar as frequências relativas, em porcentagem.
O conhecimento de uma variável ajuda a entender uma outra variável?
Teoricamente:
Explorar relações (similaridade) entre as colunas e as linhas.
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total Centro 25 146 52 82 60 365 Sul 42 79 65 218 52 456 Leste 48 183 91 142 72 536 Norte 24 148 34 43 53 302 Sudeste 76 218 159 269 119 841 Total 215 774 401 745 356 2500
Como calcular a frequência relativa?
Como calcular a frequência relativa?
Trabalhando com as proporções (ou frequências relativas), aqui temos 3 possibilidade de expressarmos a porcentagem de cada casela (ou célula):
Em relação ao
total geral
total geral
;
Em relação ao
total de cada linha
total de cada linha
;
Em relação ao
total de cada coluna
total de cada coluna
.
De acordo com o objetivo do problema
em estudo, uma delas será a mais
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total Centro 25 146 52 82 60 365 Sul 42 79 65 218 52 456 Leste 48 183 91 142 72 536 Norte 24 148 34 43 53 302 Sudeste 76 218 159 269 119 841 Total 215 774 401 745 356 2500
Perfil geral
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total
Centro 1,00 5,84 2,08 3,28 2,40 14,60 Sul 1,68 3,16 2,60 8,72 2,08 18,24 Leste 1,92 7,32 3,64 5,68 2,88 21,44 Norte 0,96 5,92 1,36 1,72 2,12 12,08 Sudeste 3,04 8,72 6,36 10,76 4,76 33,64 Total 8,6 30,96 16,04 30,16 14,24 100
Tabela 2: Distribuição conjunta das proporções (em %) em relação ao total geral das variáveis X e Y.
Note que os totais marginais ainda estão diferentes, tornando-se difícil fazer alguma interpretação sobre a associação.
Iremos entender
a existência de associação
como uma
mudança de
opinião
sobre o comportamento de uma variável na presença ou não
de informação sobre a segunda variável.
Exemplo:
• Existe a relação entre altura de pessoas e o sexo em uma dada comunidade?
Se as respostas forem iguais não há associação entre as variáveis
(Valores esperados iguais aos valores observados) altura e sexo;
Se as respostas forem diferentes provável associação.
Perfil linha
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total X
Centro 25 146 52 82 60 365 Sul 42 79 65 218 52 456 Leste 48 183 91 142 72 536 Norte 24 148 34 43 53 302 Sudeste 76 218 159 269 119 841 Total 215 774 401 745 356 2500
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
Porcentagens (ou frequência)
observadas
Porcentagens (ou frequência)
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 6,85 40,00 14,25 22,46 16,44 100 Sul 9,21 17,33 14,25 47,81 11,40 100 Leste 8,96 34,14 16,98 26,49 13,43 100 Norte 7,95 49,01 11,26 14,24 17,54 100 Sudeste 9,04 25,92 18,91 31,98 14,15 100 Total 8,60 30,96 16,04 29,80 14,24 100 Total 215 774 401 745 356 2500
Tabela 3: Distribuição conjunta das proporções (em %) em relação aos totais de cada linha das variáveis X e Y.
Note que parece haver alguma associação, pois as frequências esperadasnão são iguais as observadas!!! (ou frequência) esperadas 13
Perfil coluna
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365 Sul 42 79 65 218 52 456 Leste 48 183 91 142 72 536 Norte 24 148 34 43 53 302 Sudeste 76 218 159 269 119 841 Total Y 215 774 401 745 356 2500
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
Porcentagens (ou frequência) observadas Porcentagens (ou frequência) Total Y 215 774 401 745 356 2500 Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 11,63 18,86 12,97 10,88 16,85 14,60
Sul 19,53 10,21 16,21 28,91 14,61 18,24
Leste 22,33 23,64 22,69 18,83 20,22 21,44
Norte 11,16 19,12 8,48 5,70 14,89 12,08
Sudeste 35,35 28,17 39,65 35,68 33,43 33,64
Tabela 4: Distribuição conjunta das proporções (em %) em relação aos totais de cada coluna das variáveis X e Y.
Note que parece haver alguma associação, pois as frequências esperadasnão são iguais as observadas!!! (ou frequência) esperadas
Gráficos
Gráficos
b)
b)
Duas
Duas
variáveis
variáveis
qualitativas
qualitativas
Os dados podem ser resumidos em
gráficos
indicados para variáveis
qualitativas, contudo
separados por categorias de uma e de outra
a) Gráfico de pizza
Gráfico de pizza
a
a.1) Marcas por região
.1) Marcas por região
Gradiente 9% Panasonic 17% Philips 14% Samsung 48% Toshiba 12% Sul Gradiente 8% Panasonic 49% Philips 11% Samsung 14% Toshiba 18% Norte Gradiente 9% Panasonic 26% Philips 19% Samsung 32% Toshiba 14% Sudeste
...
a
a.2)
.2) Região por Marcas
Região por Marcas
a
a.2)
.2) Região por Marcas
Região por Marcas
Centro ; 18,86 Sul ; 10,21 Leste ; 23,64 Norte ; 19,12 Sudeste ; 28,17 Panasonic
...
Centro ; 16,85 Sul ; 14,61 Leste ; 20,22 Norte ; 14,89 Sudeste ; 33,43 Toshiba Centro ; 12,97 Sul ; 16,21 Leste ; 22,69 Norte ; Sudeste ; 39,65 Philipsb
b) Gráfico de barras múltiplo
Gráfico de barras múltiplo
150 200 250 300
Marcas por Região
Centro Sul Leste 0 50 100 150
Gradiente Panasonic Philips Samsung Toshiba
Leste Norte Sudeste
Para efetuar uma análise comparativa de várias distribuições, podemos construir um gráfico de barras múltiplo.
60% 70% 80% 90% 100%
Marcas por Região
Sudeste Norte 0% 10% 20% 30% 40% 50%
Gradiente Panasonic Philips Samsung Toshiba
Norte Leste Sul Centro
Com as facilidades de uso de programas computacionais, esse mesmo gráfico, gráfico de barras múltiplo, pode ter representação tridimensional:
cc)
)
Duas
Duas
variáveis
variáveis
quantitativas
quantitativas
Tabelas
Tabelas
cc)
)
Duas
Duas
variáveis
variáveis
quantitativas
quantitativas
De modo análogo,
a distribuição conjunta
pode ser
resumida em
De modo análogo,
a distribuição conjunta
pode ser
resumida em
tabelas de dupla entrada
e, por meio das distribuições marginais, é
possível estudar a associação das variáveis.
Contudo, para evitar um grande número de entradas, agrupamos os dados marginais em intervalos de classes, de modo
c)
c)
Duas
Duas
variáveis
variáveis
quantitativas
quantitativas
Gráficos
Gráficos
Um dispositivo bastante útil para se
verificar a associação
entre duas variáveis quantitativas
, ou entre dois conjuntos de
Tabela 1: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros.
65 70 N úm ero de cl ient es
Exemplo
Exemplo 1
Deseja-se verificar se existe relação entre o número de clientes e o tempo de
serviço de agentes de uma companhia de seguros.
agente X Y A 8 58 B 4 56 C 2 48 D 10 72 2 4 6 8 10 45 50 55 60 Anos de serviço N úm ero de cl ient es
Parece haver uma associação entre as variáveis, porque no conjunto, à
medida que aumenta o tempo de serviço, aumenta o número de clientes
D 10 72 E 5 52 F 3 50 G 7 62 H 4 43 I 8 64 J 6 60
360
370
38
0
Tabela 2: Resultado de um teste (X) e tempo de operação de máquina (Y) para oito indivíduos.
Exemplo 2
Exemplo 2
Oito indivíduos foram submetidos a um teste sobre conhecimento de língua
estrangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a
operar uma determinada máquina.
indivíduo X Y A 80 345 B 74 337 50 60 70 80 90 34 0 350 360 Resultado do teste Te m po
Parece não haver uma associação entre as duas variáveis, pois conhecer o resultado do
teste não ajuda a prever o tempo gasto para
B 74 337 C 61 355 D 90 375 E 45 343 F 76 381 G 52 368 H 70 334
Tabela 3: Renda bruta mensal (X) e % da renda gasta em saúde (Y) para um conjunto de famílias. 7 .0 % gas ta em saúde
Exemplo 3
Exemplo 3
Numa pesquisa feita com 10 famílias com renda bruta mensal entre 10 e 60
salários mínimos, mediram-se a renda bruta mensal (expressa em n. de salários
mínimos) e a % da renda bruta anual gasta com assistência médica.
família X Y A 48 5,6 B 12 7,2 20 30 40 50 5. 5 6. 0 6. 5
Renda mensal bruta
%
gas
ta
em
saúde
Parece haver uma associação “inversa”, isto é, aumentando a renda bruta, diminui a
% sobre ela gasta em assistência médica. 25
B 12 7,2 C 28 6,6 D 16 7,4 E 50 6 F 18 7 G 40 6 H 54 5,5 I 30 6,7 J 20 6,5