Copyright © 2004 Pearson Education, Inc.
Slide 1
Capítulo 2
Descrevendo, Explorando, e Comparando Dados
2-1 Visão Geral
2-2 Distribuições de Freqüência 2-3 Visualização de Dados
2-4 Medidas de Centro 2-5 Medidas de Variação
2-6 Medidas de Posição Relativa
2-7 Análise Exploratória de Dados
Slide 2
Estatística Descritiva
descrever de forma resumida as características importantes de um grupo de dados
Inferência Estatística
uso de amostras de dados para se fazer
inferências (ou generalizações) sobre a população
Seção 2-1 Visão Geral
Copyright © 2004 Pearson Education, Inc.
Slide 3
1. Centro: Um valor médio ou representativo que indica onde está centro em torno do qual os dados estão
distribuídos
2. Variação: Uma medida da quantidade de variação que existe entre os dados
3. Distribuição: A natureza ou a forma da distribuição dos dados (tais como em forma de sino (simétrica), uniforme, ou assimétrica)
4. Outliers (valores discrepantes): Valores da amostra que são muito diferentes da grande maioria dos demais
dados
5. Tempo: Características que mudam ao longo do tempo
Características Importantes dos Dados
Slide 4
Distribuições de Freqüência
listas de valores de dados (ou individuais ou por grupos em intervalos) em conjunto com as freqüências de contagens correspondentes
Seção 2-2
Di stribuições de Freqüência
Copyright © 2004 Pearson Education, Inc.
Slide 5
Ν Ν
Ν Νível de contaminação tóxica de três grupos (ex: micrograma de chumbo)
Zona Costeira (ZC)
Plataforma Continental (PC) Regiões Profundas (RP)
ZC
PC
RC
Tabela 2-1
Slide 6
Tabela 2-2
Distribuição de Freqüência dos Níveis de Intoxicação do grupo ZC
Chumbo (µ µ µg) µ Freqüência
Copyright © 2004 Pearson Education, Inc.
Slide 7
são os menores números que podem pertencer às diferentes classes
Limites Inferiores de Classes
Limites Inferiores
Definições
Chumbo (µ µ µg) µ Freqüência
Slide 8
Limites Superiores de Classes
são os maiores números que podem pertencer às diferentes classes
Limites Superiores
Chumbo (µ µ µg) µ Freqüência
Copyright © 2004 Pearson Education, Inc.
Slide 9
Fronteiras de Classes
são os números usados para separar as classes,
mas sem as lacunas criadas pelos limites de classes
Fronteiras de Classes
- 0.5 99.5 199.5 299.5 399.5 499.5
Chumbo (µ µ µ µg) Freqüência
Slide 10
Pontos Médios das Classes
Pontos médios das Classes
49.5 149.5 249.5 349.5 449.5
Os pontos médios das classes são as médias dos limites inferiores e superiores das diferentes classes.
Chumbo (µ µ µ µg) Freqüência
Copyright © 2004 Pearson Education, Inc.
Slide 11
Amplitude de Classe
é a diferença entre dois limites inferiores de classes consecutivos ou entre duas fronteiras de classe
consecutivas
Amplitude de Classe
100 100 100 100 100
Freqüência
Chumbo (µ µ µ µg)
Slide 12
1. Um grande lote de dados pode ser resumido.
2. Pode-se adquirir algum conhecimento sobre a natureza dos dados.
3. Obtenção de bases para a construção de gráficos.
Razões para se Construir Distribuições
de Freqüência
Copyright © 2004 Pearson Education, Inc.
Slide 13
1. Decidir qual será o número de classes (usualmente entre 5 e 20) . 2. Cálculo da amplitude de classes.
3. Ponto inicial: Escolha do limite inferior da primeira classe.
4. Usando o limite inferior da primeira classe e a amplitude de classe, prossegue-se listando os limites inferiores das demais classes.
5. Listar os limites inferiores em uma coluna e identificar os limites superiores.
6. Percorrer a base de dados marcando cada valor de acordo com a classe a que ele pertence.
Construindo uma Tabela de Freqüência
amplitude de classe ≈ ≈ ≈ ≈ número de classes
(maior valor) – (menor valor)
Slide 14
Distribuição de Freqüência Relativa
11/40 = 28%
12/40 = 30%
Freqüência Total = 40 etc.
freqüência relativa = freqüência da classe
soma de todas as freqüências
Chumbo (µ µ µg) µ
Chumbo (µ µ µ µg) Freqüência
Freqüência Relativa
Distribuição de
Freqüência Relativa para o grupo ZC
Tabela 2-3
Freqüência Relativa
Chumbo
(µ µ µ µg)
Copyright © 2004 Pearson Education, Inc.
Slide 15
Distribuição de Freqüência Acumulada
Cumulative Frequencies
Tabela 2-4
Distribuição de Freqüência Relativa para o grupo ZC
Chumbo (µ µ µ µg) Freqüência
Chumbo (µ µ µ µg)
Freqüência Acumulada
Freqüências Acumuladas
Menos que
Menos que
Menos que
Menos que
Menos que
Slide 16
Tabelas de Freqüência
Chumbo (µµµµg)
Freqüência Acumulada Chumbo (µµµg) Freqüência µ
Relativa Freqüência
Chumbo (µµµg)µ
Distribuição de
Freqüência dos Níveis de Intoxicação do
grupo ZC
Distribuição de
Freqüência Relativa Níveis de Intoxicação do grupo ZC
Distribuição de Freqüência dos Níveis de Intoxicação do grupo ZC
Menos que Menos que Menos que Menos que Menos que
Copyright © 2004 Pearson Education, Inc.
Slide 17
Histograma
Gráfico de barras em que a escala horizontal representa as classes de valores dos dados e a escala vertical representa as freqüências.
Seção 2-3
Visualização dos Dados
Mostrar a forma da distribuição dos dados
Figura 2-1
Chumbo (µ µ µ µg)
Freqüência
F re q ü ên ci a
Chumbo (µ µ µ µg)
Slide 18
Histograma da Freqüência Relativa
Tem o mesmo formato e a mesma escala horizontal que o histograma, mas a escala vertical é marcada com as freqüências relativas.
Figura 2-2
Chumbo (µ µ µ µg)
F re q ü ên ci a R el at iva
Chumbo (µ µ µg) µ
Freqüência
Relativa
Copyright © 2004 Pearson Education, Inc.
Slide 19
Polígono de Freqüência
Uso de linhas conectando pontos sobre os valores médios das classes
Figura 2-3
Chumbo (µ µ µg) µ
F re q ü ên ci a
Ogive
Gráfico de linha para as freqüências acumuladas
Figura 2-4
F re q ü ên ci a R el at iva
Chumbo (µ µ µ µg)
37 valores são menores que 299,5
Slide 20
Figura 2-5
Comprimento das Carapaças (mm)
Diagramas Ramo-e-Folhas
Gráfico de Pontos
Cada valor é um ponto ao longo de uma escala de valores
Os valores são separados: ramo (dígito à esquerda) e folha (dígito à direita)
Diagrama Ramo-e-Folhas
Ramo (dezenas) Folhas (unidades)
<− os valores são 64, 64, 69
Copyright © 2004 Pearson Education, Inc.
Slide 21
Gráficos de Pareto
Gráfico para dados qualitativos, com as barras em ordem de acordo com as freqüências
Figura 2-6
F re q ü ên ci a
Es pa da rte Tu ba rão -az ul
Al ba co ra
Al ba co ra- ba nd oli m
Al ba co ra- br an ca Es pa da rte
Do ur ad o
Tu ba rão -m art elo
Slide 22
Gráfico de Setores
Um gráfico com os dados qualitativos mostrados como fatias de uma torta
Figura 2-7
Tubarão-azul Espadarte
Albacora Albacora-bandolim
Albacora-branca
Tubarão-martelo
Dourado
Copyright © 2004 Pearson Education, Inc.
Slide 23
Diagrama de Dispersão
Um gráfico de pares de dados (x,y) com o eixos horizontal (x) e vertical (y)
Comprimento (cm)
P es o d o F ígad o (g)
Slide 24
Gráficos de Séries Temporais
Dados coletados em diferentes momentos no tempo
A vi st age n s d e b al ei as ( n º)
Ano
Copyright © 2004 Pearson Education, Inc.
Slide 25
Outros Gráficos
Figura 2-9
Slide 26
Atenção
Tenha em mente que o objetivo não é meramente construir gráficos. É importante aprender alguma coisa sobre os dados, ou seja, entender a natureza
de sua distribuição.
Copyright © 2004 Pearson Education, Inc.
Slide 27
O valor do centro ou do “meio” dos dados
Média Aritmética (Média)
a medida do centro é obtida pela soma dos valores e a divisão do total pelo número de valores
Notação
Seção 2-4
Medidas de Centro
Σ Σ Σ Σ denota a adição de um grupo de valores
x é a variável usada para representar os dados
n representa o número de valores em uma amostra
N representa o número de valores em uma população
Slide 28
µ é denominado de ‘mu’ ou ‘mi’ e denota a média de todos os valores em uma população
x =
n Σ Σ Σ Σ x
é denominado de ‘x-barra’ e denota a média do grupo de valores de uma amostra
x
µ = Σ Σ Σ Σ N x
Copyright © 2004 Pearson Education, Inc.
Slide 29
freqüentemente denotada por x ~ (‘x-til’)
não é afetada por um valor extremo
Mediana
valor do meio quando os dados são
ordenados (crescente ou decrescente)
Se o número de valores é ímpar, a mediana é exatamente o valor central
Se o número de valores é par, a mediana é a
média dos dois valores centrais
Slide 30
5,40 1,10 0,42 0,73 0,48 1,10 0,66 0,42 0,48 0,66 0,73 1,10 1,10 5,40
(em ordem - número ímpar)
meio exato MEDIANA = 0,73
5,40 1,10 0,42 0,73 0,48 1,10 0,42 0,48 0,73 1,10 1,10 5,40
0,73 + 1,10 2
(número par de valores – o meio é compartilhado por dois números)
MEDIANA = 0,915
Copyright © 2004 Pearson Education, Inc.
Slide 31
A moda nem sempre existe ou é única. Um grupo de dados pode ser:
Bimodal, Multimodal ou Não ter moda
denotada por M
é a única medida de tendência central que pode ser usada com dados nominais
Moda
valor que ocorre com maior freqüência
Slide 32
a. 5,40 1,10 0,42 0,73 0,48 1,10
b. areia lama seixo areia seixo seixo
c. 1 2 3 6 7 8 9 10
Exemplos
Moda 1,10
Bimodal areia e seixo
Não há moda
Copyright © 2004 Pearson Education, Inc.
Slide 33
Ponto Médio = mínimo + máximo 2
Manter um decimal a mais do que está presente nos valores originais
Ponto Médio
valor médio entre o mínimo e o máximo
Regra de arredondamento
Slide 34
uso do meio da classe para a variável x
Média de uma Distribuição de Freqüência
x = class midpoint
f = frequency
Σ Σ Σ
Σ f = n x =
f Σ Σ Σ
Σ (f • x) Σ Σ
Σ Σ
x =
w Σ
Σ Σ
Σ (w • x) Σ Σ Σ
Σ
Média Ponderada
casos em que os valores têm graus de importância
diferentes (“peso” w)
Copyright © 2004 Pearson Education, Inc.
Slide 35
Melhor Medida de Centro
Tabela 2-10 Comparação entre Média, Mediana, Moda e Ponto Médio
Medida de
Centro Definição Uso Existe?
Consi- dera todos os
dados?
Afetado por ex- tremos?
Vantagens e Desvantagens média
mediana
moda
Ponto médio
valor do meio valor mais
freqüente
máx. + mín.
mais usada
comum
eventual- mente
rara-mente
sempre
sempre pode não existir; pode
ter mais de uma moda
sempre
sim sim
sim não não
não
não não
funciona bem com a maioria dos métodos
estatísticos é uma boa escolha quando há valores
extremos
apropriado para dados em nível nominal
muito sensível a valores extremos Em distribuições simétricas a moda, a média, a mediana e o ponto médio tendem a ser o mesmo
Em distribuições assimétricas é aconselhável apresentar a média e a mediana
A média é relativamente confiável. Isto quer dizer que quando são retiradas várias amostras de uma população, as médias amostrais tendem a ser mais consistentesdo que outras medidas de tendência central, ou seja, elas não variam tanto quanto as demais medidas.
Slide 36
Distribuição simétrica
nos casos em que a metade esquerda do histograma é uma imagem
espelhada da direita
Figura 2-11
Assimetria
os dados tem distribuição assimétrica quando eles se concentram mais de um lado do que de outro
Moda=Média=Mediana (b) Simétrica
Média Moda Moda Média
Mediana Mediana
(a) Assimetria para a esquerda (c) Assimetria para a direita
Copyright © 2004 Pearson Education, Inc.
Slide 37
O conceito de variação é um dos mais importantes em toda a estatística
A amplitude de uma base de dados é a diferença entre o maior e o menor valor
máximo - mínimo
Seção 2-5
Medidas de Variação
O desvio padrão de um grupo de valores é
uma medida da variação dos valores em torno
da média
Slide 38
Desvio Padrão Amostral
Fórmula 2-4
Σ Σ Σ
Σ (x - x) 2 n - 1
s =
(Fórmula simplificada)
Fórmula 2-5
n (n - 1)
s = n (Σ Σ Σx Σ 2 ) - (Σ Σ Σx) Σ 2
Copyright © 2004 Pearson Education, Inc.
Slide 39
Desvio Padrão -
Pontos Fundamentais
O desvio padrão é uma medida da variação dos valores em torno da média
O valor do desvio padrão s é usualmente positivo
O valor do desvio padrão s pode aumentar dramaticamente se for incluído um ou mais
“outliers” (valores muito afastados dos demais)
As unidades do desvio padrão s são as mesmas
unidades dos dados originais
Slide 40
Desvio Padrão Populacional
Σ 2
Σ Σ
Σ ( x - µ )
σ N
σ
σ σ =
A fórmula é similar à Fórmula 2-4, mas nesse caso são usadas a média e o tamanho da população , e não da
amostra
Copyright © 2004 Pearson Education, Inc.
Slide 41
A variância de um grupo de valores é igual à raiz quadrada do desvio padrão.
Variância amostral: Raiz quadrada do desvio padrão amostral s
Variância populacional: Raiz quadrada do desvio padrão amostral σ
s
σ σ σ σ
2 2
Notação } Variância da amostra
Variância da população
Slide 42
• 100%
s x
CV =
O coeficiente de variação (ou CV ) de uma amostra ou de uma população
expresso em percentagem, descreve a proporção entre desvio padrão e média
σ
µ • 100%
CV =
amostra
população
Copyright © 2004 Pearson Education, Inc.
Slide 43
Regra de arredondamento
Manter um valor decimal a mais do que está nos dados originais
Arredondar somente a resposta final e não os valores intermediários do cálculo
Desvio padrão para uma distribuição de freqüência
uso do ponto médio da classe como valores de x
Fórmula 2-6
n (n - 1)
s =
n [ Σ Σ Σ Σ (f • x
2)] - [ Σ Σ Σ Σ (f • x)]
2amplitude
s ≈ ≈ ≈ ≈ 4
Aproximação do
Desvio Padrão
Slide 44
Mínimo valor “usual” (média) – 2 x (desvio padrão) Máximo valor “usual” (média) + 2 x (desvio padrão)
Interpretando o Desvio Padrão
≈
≈ ≈
≈
≈ ≈
≈ ≈
Regra Empírica (68-95-99.7)
Para dados que tem uma distribuição aproximada de uma forma de sino, aplicam-se as seguintes propriedades:
Cerca de 68% dos valores ficam a 1 desvio padrão da média
Cerca de 95% dos valores ficam a 2 desvios padrões da média
Cerca de 99,7% dos valores ficam a 3 desvios padrões
Copyright © 2004 Pearson Education, Inc.
Slide 45
Figura 2-13 99,7% dos dados ficam a 3
desvios padrões da média (x-3s a x+3s)
95% ficam
68% ficam
a 2 desvios padrões
a 1 desvio padrão
A regra empírica
Slide 46
Teorema de Chebyshev
A proporção (ou fração) de dados que se situa a K desvios padrões da média é sempre, no mínimo 1-1/K
2, onde K é qualquer número positivo maior do que 1
Para K = 2, pelo menos 3/4 (ou 75%) de todos os valores ficam a 2 desvios padrões da média
Para K = 3, pelo menos 8/9 (ou 89%) de todos os
valores ficam a 3 desvios padrões da média
Copyright © 2004 Pearson Education, Inc.
Slide 47
Escore z (ou escore padronizado)
é o número de desvios padrões a que se situa determinado valor x acima ou abaixo da média.
amostra
arredondar para duas casas decimais
Section 2-6
Medidas de Posição Relativa
z = x - x
s
x - µ
z =
σ σ σ σ
população
Slide 48
Interpretando escores z
Sempre que um valor for menor que a média, seu escore z é
negativo
Valures usuais: z escore entre –2 e 2 dp
Valores incomuns: z escore < -2 ou z escore > 2 dp
Figura 2-14
Valores usuais Valores
incomuns
Valores
incomuns
z
Copyright © 2004 Pearson Education, Inc.
Slide 49
divide os valores ordenados em quatro partes iguais
Quartis
25% 25% 25% 25%
Q 3 Q 2
Q 1
(mínimo) (máximo)
(mediana)
Q
1(1º quartil) separa os 25% menores valores dos 75%
maiores valores
Q
2(2º quartil) mesmo que mediana; separa os 50%
menores dos 50% maiores valores
Q
3(3º quartil) separa os 75% menores dos 25% maiores valores
Percentis
Assim como os quartis separam os dados em quatro partes iguais, há 99 percentis denotados por P
1, P
2, . . . P
99, que
separam os dados em 100 grupos.
Slide 50
Encontrando o percentil a que corresponde um determinado valor
Percentil do valor x = • número de valores menores que x 100 número total de valores
n número total de valores
k percentil sendo usado
L localizador que dá a posição de um valor
L = k
100 Notação
Convertendo do k ésimo percentil para o valor corresponde
. n
Copyright © 2004 Pearson Education, Inc.
Slide 51
Figure 2-15
Convertendo do késimo percentil para o valor
correspondente
início
organize os dados em ordem crescente
Calcule
L = (k/100) . n onde n = número de valores k = percentil em questão
o número do k
ésimopercentil é média entre o L
ésimovalor e o próximo valor nos dados
organizados de forma crescente L é um número inteiro ?
arredonde L para o maior valor mais próximo
o valor de P
ké o L
ésimovalor em ordem crescente
Não
Sim
Intervalo interquartil (or IIQ): Q
3- Q
110 - 90 Intervalo percentílico: P
90-P
10Intervalo semi-interquartil: (Q
3- Q
1)/2
Ponto médio dos quartis: (Q
3+Q
1)/2
Algumas outras estatísticas
Slide 52
Análise Exploratória de Dados é o processo de uso de ferramentas estatísticas (tais como gráficos, medidas de centro, e medidas
de variação) para investigar bases de dados de forma a conhecer suas características mais importantes
Section 2-7
Análise Exploratória de Dados
Um “outlier” (ou valor discrepante) é um valor que se localiza muito distante de quase todos os demais valores
Princípio Importante
Um outlier pode ter um efeito dramático sobre a média, sobre o desvio padrão e sobre a escala de um histograma, de tal forma
que a verdadeira natureza da distribuição fique mascarada
Copyright © 2004 Pearson Education, Inc.
Slide 53
Para um grupo de dados, o resumo dos 5-números consiste no valor mínimo; no 1º quartil Q
1; na mediana (ou 2º quartil Q
2);
no 3º quartil Q
3; e no valor máximo
Um diagrama de caixa ou de caixa e bigode é um gráfico que consiste de uma linha que se extende do valor mínimo ao
máximo, e de uma caixa com linhas desenahadas no 1º quartil Q
1, na mediana, e no 3º quartil Q
3.Figura 2-16
Figure 2-17