Aula 11 - Estatística Descritiva
TADI – Tratamento e Análise de Dados/Informações
Prof. Camilo Rodrigues Neto
Aula 11 - Estatística Descritiva
•
Medidas Resumo•
Medidas de tendência central: Média, Mediana e ModaPrograma TADI
1. Conhecimento confiável e Crenças duvidosas: vendo o que se espera ver
2. Conhecimento confiável e Crenças duvidosas: algo a partir de nada
3. Conhecimento confiável e Crenças duvidosas: a) muito a partir de pouco; b) determinantes motivacionais e sociais
3. Conhecimento confiável e Crenças duvidosas: a) muito a partir de pouco; b) determinantes motivacionais e sociais
4. Lógica: dedução e indução
5. Falácias
6. Método científico
7. Ciência e pseudociência
8. Formas de aquisição de conhecimento e Comunicação científica
9. P1: primeira prova
10. Redação Projetos e Relatórios de Pesquisa
11. Representação gráfica de informação quantitativa
05/06/2011 Tratamento e análise de dados/informações / Prof. Camilo 3
11. Representação gráfica de informação quantitativa
12. Estatística descritiva – medidas de tendência central
13. Estatística descritiva – medidas de dispersão
14. Estatística descritiva – exercícios
15. P2: segunda prova
Estatística descritiva
•
A estatística descritiva é um ramo da estatística
que aplica várias técnicas para descrever e
que aplica várias técnicas para descrever e
sumariar um conjunto de dados
•
As técnicas usadas costumam classificar-se como:
•
Gráficos descritivos: São usados vários tipos de gráficos para sumariar os dados. Por exemplo: Histogramas.•
Descrição Tabular: Na qual se usam tabelas para sumarizar os dados. Por exemplo tabelas de Freqüências.•
Descrição Tabular: Na qual se usam tabelas para sumarizar os dados. Por exemplo tabelas de Freqüências.•
Descrição Paramétrica: Na qual estimamos os valores de certos parâmetros, os quais assumimos que completam a descrição do conjunto dos dados. Por exemplo: Média.Quanto ganha quem tem curso superior ?
Entrevistamos 15 pessoas que responderam (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 3 4 F re q u ê n c ia
Salário de indivíduos com curso superior
1 0 0 1 0 2 3 3 4 0 1 n (10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 6
0 1 2 F re q u ê n c ia salário [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] 05/06/2011
Introdução ao R
O R é um pacote estatístico com recursos técnicos e
gráficos, similar ao S-Plus, com a vantagem de ser
gráficos, similar ao S-Plus, com a vantagem de ser
gratuito.
Para
tarefas
computacionais
mais
complexas, C, C++ e Fortran podem ser utilizados no
R a qualquer hora.
Onde fazer o download do R?
Onde fazer o download do R?
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 8
Qual extremo incluir?
... [5,6) ou (5,6]
Utilizando as mesmas 15 pessoas (em milhares de R$/mês):
11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 [10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x 4 5 6 F re q u ê n c ia
Salário de indivíduos com curso superior
1 0 0 1 1 4 0 6 1 0 1 n [10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 10
0 1 2 3 F re q u ê n c ia salário [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11] 05/06/2011
Qual extremo incluir?
... [5,6) ou (5,6]
3 4
Salário de indiv íduos com curso supe rior
6
Salário de indivíduos com curso superior
0 1 2 F re q u ê n c ia salário [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11]
(5,6]
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 12
0 1 2 3 4 5 F re q u ê n c ia salário [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11]
[5,6)
05/06/2011Como resumir esta informação?
Média aritmética
Média aritmética
, ou simplesmente
média
:
•
somar todos os valores e dividir pelo número de
observações;
45 , 4 15 7 , 66 15 6 7,4 3,2 3 5 3,2 0,4 3 3,5 3 5,5 5 5 2,5 11 = = + + + + + + + + + + + + + + = xobservações;
•
é comumente denotada por uma barra sobre a variável.
A forma geral para a média é:
A forma geral para a média é:
n
x
x
x
x
=
1+
2+
L
+
nn
x
x
n i i∑
==
1ou
O que a média representa ?
Representa quanto cada um receberia se o total de salários
fosse dividido identicamente.
2 3 4 F re q u ê n c ia
Salário de indivíduos com curso superior
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 14
0 1 F re q u ê n c ia salário
Média = 4,45
[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] 05/06/20114
Salário de indivíduos com curso superior
Uma analogia física para a média: o ponto
onde o histograma se equilibra, ou seja,
o seu centro de massa.
0 1 2 3 4 F re q u ê n c ia salário [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] 4,45 salário
O que a média representa ?
Um triângulo no plano tem vértices dados pelas coordenadas
cartesianas (2, 1), (4, -1) e (3, 6). O seu baricentro é a média dos vértices, ou seja (3, 2).
dos vértices, ou seja (3, 2).
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 16
4
Salário de indivíduos com curso superior
Definindo outlier
0 1 2 3 4 F re q u ê n c iaOutlier
4,45Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 18
0
salário
E se removermos o
outlier
da amostra,
o que acontece com a média ?
[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11]
Eliminando o outlier
Calculando a média novamente:
98 , 3 7 , 55 6 7,4 3,2 3 5 3,2 0,4 3 3,5 3 5,5 5 5 2,5 = = + + + + + + + + + + + + + = x 2 3 4 F re q u ê n c ia
Salário de indivíduos com curso superior
98 , 3 14 14 = = = x 3,98 4,45 0 1 F re q u ê n c ia salário [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11]
Efeito do outlier com o felizardo que
ganha R$200 mil/mês
Calculando a média novamente:
05 , 17 15 7 , 66 15 6 7,4 3,2 3 5 3,2 0,4 3 3,5 3 5,5 5 5 2,5 200 = = + + + + + + + + + + + + + + = x 0 2 4 6 8 F re q ü ê n c ia 05 , 17 15 15 = = = x
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 20
CUIDADO: A média é uma medida sensível a valores extremos.
0 2 1 6 3 0 4 4 5 8 7 2 8 6 1 0 0 1 1 4 1 2 8 1 4 2 1 5 6 1 7 0 1 8 4 1 9 8 Salários 17,05 4,45
Mediana:
minimizando o efeito do outlier
Dados ordenados com o novo outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200
A mediana Md será:
Md = 3,5
Note que a alteração de 11 para 200 em um dos salários
não
alterou em nada a mediana.
A
mediana é bem menos sensível a valores grandes
do que a
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 22
A
mediana é bem menos sensível a valores grandes
do que a
média. A mediana é dita uma medida de posição
resistente
devido a essa característica.
Por outro lado, dependendo da informação que se busca, esta
característica pode não ser desejável.
Eliminando o outlier 11
Dados ordenados sem o outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4
A mediana Md será:
Md = (3,2+3,5)/2 = 3,35
Moda:
qual seria o salário mais freqüente?
É mais fácil começar com dados ordenados:0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11
Alternativamente, para achar a moda montamos uma tabela de Modas = 3 e 5 (bimodal)
Alternativamente, para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência: 1 0 0 1 0 2 3 3 4 0 1 n (10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x
A moda está no intervalo (2,3], escolhemos o meio do intervalo como indicador: MODA = 2,5.
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 24
A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA = 3,5. 1 0 0 1 1 4 0 6 1 0 1 n [10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x indicador: MODA = 2,5. 05/06/2011
Histogramas e distribuições
Distribuição simétrica Distribuição simétrica
Distribuição assimétrica
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 26
Distribuição com caudas longas
Exercícios
1.
Como deve ser a distribuição para que a média e a
mediana sejam idênticas? Desenhe o histograma.
mediana sejam idênticas? Desenhe o histograma.
2.
Como deve ser o histograma para que a mediana seja
igual a moda mas a média seja maior que a mediana ?
3.
Como deve ser o histograma para que a moda seja
maior que a mediana e a mediana seja maior que a
média ?
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 30
Exercício 1:
média e mediana idênticas
Exercício 2:
mediana igual a moda
mas a média maior que a mediana
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 32
moda
Exercício 3:
moda maior que a mediana e
a mediana maior que a média
7 observações
7 observações
7 observações
Exercício 4
Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das
remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir:
1900 1700 Mediana 2000 2500 Média B A Empresa
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 34
1900 1500 Moda 1900 1700 Mediana
Exercício 4
depende da qualificação
A empresa A tem metade dos funcionários ganhando até 1700, sendo o valor mais comum 1500. Como a média é 2500, há alguns poucos funcionários ganhando muito. A empresa B tem as três medidas muito próximas a 1900, indicando uma política A empresa B tem as três medidas muito próximas a 1900, indicando uma política
salarial mais homogênea.
Se você é altamente qualificado, as chances são de ganhar mais na empresa A.
Se você tem qualificação igual ou inferior à média, a melhor escolha é a empresa B.
B A Empresa 1900 1500 Moda 1900 1700 Mediana 2000 2500 Média B A Empresa
Qual foi a mensagem no texto de Gould que vocês leram?
Stephen Jay Gold, A mediana não é a mensagem, in Viva o brontossauro, Companhia das Letras, 1992
Mediana = 8 meses
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 36
Exercício 5
Quais medidas de posição são mais adequadas nos seguintes casos ? Justifique.
•
Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.•
O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.•
circulação.•
Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.Exercício 5
não há uma resposta única
•
Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.compra mensal de antídoto.
Comprando o valor mediano deve ser suficiente para 50% dos meses.
Se há meses com grande número de acidentes por questões sazonais como colheitas ou enchentes a média será afetada. Deve-se estar atento se a variabilidade dos dados é grande, criando um estoque de emergência que atenda
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 38
grande, criando um estoque de emergência que atenda vários centros de saúde.
Exercício 5
não há uma resposta única
•
O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em utilizar essa informação para dimensionar a frota em circulação.Podemos decidir do ponto de vista do usuário ou da empresa.
O número médio diário de usuários pode ser dividido pelo número de assentos (para que haja mais espaço) ou pela lotação dos ônibus (para ter menos carros em circulação). lotação dos ônibus (para ter menos carros em circulação).
Exercício 5
não há uma resposta única
•
Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.100 de suas baterias.
A duração média é talvez a melhor medida para usar.
Mas se a moda (o valor mais provável) for alto, pode-se também utilizá-la como propaganda.
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 40
Exercício 6
Vinte e cinco residências de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram perguntou sobre o número de televisores. Os dados foram os seguintes:
2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2
Organize os dados em uma tabela de freqüência e determine as diversas medidas de posição.
Exercício 7
Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes:
referentes ao ganho de peso (em kg) foram os seguintes:
1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2 a) Utilizando os dados brutos acima, determine média, moda e mediana.
b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.
c) Calcule a partir da tabela de freqüência e com o ponto
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 42
c) Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a.
d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)?