• Nenhum resultado encontrado

2-2 Distribuições de Freqüência 2-3 Visualização de Dados

N/A
N/A
Protected

Academic year: 2022

Share "2-2 Distribuições de Freqüência 2-3 Visualização de Dados"

Copied!
53
0
0

Texto

(1)

Copyright © 2004 Pearson Education, Inc.

Slide 1

Capítulo 2

Descrevendo, Explorando, e Comparando Dados

2-1 Visão Geral

2-2 Distribuições de Freqüência 2-3 Visualização de Dados

2-4 Medidas de Centro 2-5 Medidas de Variação

2-6 Medidas de Posição Relativa

2-7 Análise Exploratória de Dados

(2)

Slide 2

Estatística Descritiva

descrever de forma resumida as características importantes de um grupo de dados

Inferência Estatística

uso de amostras de dados para se fazer

inferências (ou generalizações) sobre a população

Seção 2-1 Visão Geral

(3)

Copyright © 2004 Pearson Education, Inc.

Slide 3

1. Centro: Um valor médio ou representativo que indica onde está centro em torno do qual os dados estão

distribuídos

2. Variação: Uma medida da quantidade de variação que existe entre os dados

3. Distribuição: A natureza ou a forma da distribuição dos dados (tais como em forma de sino (simétrica), uniforme, ou assimétrica)

4. Outliers (valores discrepantes): Valores da amostra que são muito diferentes da grande maioria dos demais

dados

5. Tempo: Características que mudam ao longo do tempo

Características Importantes dos Dados

(4)

Slide 4

Distribuições de Freqüência

listas de valores de dados (ou individuais ou por grupos em intervalos) em conjunto com as freqüências de contagens correspondentes

Seção 2-2

Di stribuições de Freqüência

(5)

Copyright © 2004 Pearson Education, Inc.

Slide 5

Ν Ν

Ν Νível de contaminação tóxica de três grupos (ex: micrograma de chumbo)

Zona Costeira (ZC)

Plataforma Continental (PC) Regiões Profundas (RP)

ZC

PC

RC

Tabela 2-1

(6)

Slide 6

Tabela 2-2

Distribuição de Freqüência dos Níveis de Intoxicação do grupo ZC

Chumbo (µ µ µg) µ Freqüência

(7)

Copyright © 2004 Pearson Education, Inc.

Slide 7

são os menores números que podem pertencer às diferentes classes

Limites Inferiores de Classes

Limites Inferiores

Definições

Chumbo (µ µ µg) µ Freqüência

(8)

Slide 8

Limites Superiores de Classes

são os maiores números que podem pertencer às diferentes classes

Limites Superiores

Chumbo (µ µ µg) µ Freqüência

(9)

Copyright © 2004 Pearson Education, Inc.

Slide 9

Fronteiras de Classes

são os números usados para separar as classes,

mas sem as lacunas criadas pelos limites de classes

Fronteiras de Classes

- 0.5 99.5 199.5 299.5 399.5 499.5

Chumbo (µ µ µ µg) Freqüência

(10)

Slide 10

Pontos Médios das Classes

Pontos médios das Classes

49.5 149.5 249.5 349.5 449.5

Os pontos médios das classes são as médias dos limites inferiores e superiores das diferentes classes.

Chumbo (µ µ µ µg) Freqüência

(11)

Copyright © 2004 Pearson Education, Inc.

Slide 11

Amplitude de Classe

é a diferença entre dois limites inferiores de classes consecutivos ou entre duas fronteiras de classe

consecutivas

Amplitude de Classe

100 100 100 100 100

Freqüência

Chumbo µ µ µg)

(12)

Slide 12

1. Um grande lote de dados pode ser resumido.

2. Pode-se adquirir algum conhecimento sobre a natureza dos dados.

3. Obtenção de bases para a construção de gráficos.

Razões para se Construir Distribuições

de Freqüência

(13)

Copyright © 2004 Pearson Education, Inc.

Slide 13

1. Decidir qual será o número de classes (usualmente entre 5 e 20) . 2. Cálculo da amplitude de classes.

3. Ponto inicial: Escolha do limite inferior da primeira classe.

4. Usando o limite inferior da primeira classe e a amplitude de classe, prossegue-se listando os limites inferiores das demais classes.

5. Listar os limites inferiores em uma coluna e identificar os limites superiores.

6. Percorrer a base de dados marcando cada valor de acordo com a classe a que ele pertence.

Construindo uma Tabela de Freqüência

amplitude de classe ≈ ≈ ≈ ≈ número de classes

(maior valor) – (menor valor)

(14)

Slide 14

Distribuição de Freqüência Relativa

11/40 = 28%

12/40 = 30%

Freqüência Total = 40 etc.

freqüência relativa = freqüência da classe

soma de todas as freqüências

Chumbo (µ µ µg) µ

Chumbo (µ µ µ µg) Freqüência

Freqüência Relativa

Distribuição de

Freqüência Relativa para o grupo ZC

Tabela 2-3

Freqüência Relativa

Chumbo

µ µ µg)

(15)

Copyright © 2004 Pearson Education, Inc.

Slide 15

Distribuição de Freqüência Acumulada

Cumulative Frequencies

Tabela 2-4

Distribuição de Freqüência Relativa para o grupo ZC

Chumbo (µ µ µ µg) Freqüência

Chumbo (µ µ µ µg)

Freqüência Acumulada

Freqüências Acumuladas

Menos que

Menos que

Menos que

Menos que

Menos que

(16)

Slide 16

Tabelas de Freqüência

Chumbo (µµµµg)

Freqüência Acumulada Chumbo (µµµg) Freqüência µ

Relativa Freqüência

Chumbo (µµµg)µ

Distribuição de

Freqüência dos Níveis de Intoxicação do

grupo ZC

Distribuição de

Freqüência Relativa Níveis de Intoxicação do grupo ZC

Distribuição de Freqüência dos Níveis de Intoxicação do grupo ZC

Menos que Menos que Menos que Menos que Menos que

(17)

Copyright © 2004 Pearson Education, Inc.

Slide 17

Histograma

Gráfico de barras em que a escala horizontal representa as classes de valores dos dados e a escala vertical representa as freqüências.

Seção 2-3

Visualização dos Dados

Mostrar a forma da distribuição dos dados

Figura 2-1

Chumbo (µ µ µ µg)

Freqüência

F re q ü ên ci a

Chumbo (µ µ µ µg)

(18)

Slide 18

Histograma da Freqüência Relativa

Tem o mesmo formato e a mesma escala horizontal que o histograma, mas a escala vertical é marcada com as freqüências relativas.

Figura 2-2

Chumbo (µ µ µ µg)

F re q ü ên ci a R el at iva

Chumbo µ µg) µ

Freqüência

Relativa

(19)

Copyright © 2004 Pearson Education, Inc.

Slide 19

Polígono de Freqüência

Uso de linhas conectando pontos sobre os valores médios das classes

Figura 2-3

Chumbo (µ µ µg) µ

F re q ü ên ci a

Ogive

Gráfico de linha para as freqüências acumuladas

Figura 2-4

F re q ü ên ci a R el at iva

Chumbo (µ µ µ µg)

37 valores são menores que 299,5

(20)

Slide 20

Figura 2-5

Comprimento das Carapaças (mm)

Diagramas Ramo-e-Folhas

Gráfico de Pontos

Cada valor é um ponto ao longo de uma escala de valores

Os valores são separados: ramo (dígito à esquerda) e folha (dígito à direita)

Diagrama Ramo-e-Folhas

Ramo (dezenas) Folhas (unidades)

<− os valores são 64, 64, 69

(21)

Copyright © 2004 Pearson Education, Inc.

Slide 21

Gráficos de Pareto

Gráfico para dados qualitativos, com as barras em ordem de acordo com as freqüências

Figura 2-6

F re q ü ên ci a

Es pa da rte Tu ba rão -az ul

Al ba co ra

Al ba co ra- ba nd oli m

Al ba co ra- br an ca Es pa da rte

Do ur ad o

Tu ba rão -m art elo

(22)

Slide 22

Gráfico de Setores

Um gráfico com os dados qualitativos mostrados como fatias de uma torta

Figura 2-7

Tubarão-azul Espadarte

Albacora Albacora-bandolim

Albacora-branca

Tubarão-martelo

Dourado

(23)

Copyright © 2004 Pearson Education, Inc.

Slide 23

Diagrama de Dispersão

Um gráfico de pares de dados (x,y) com o eixos horizontal (x) e vertical (y)

Comprimento (cm)

P es o d o F ígad o (g)

(24)

Slide 24

Gráficos de Séries Temporais

Dados coletados em diferentes momentos no tempo

A vi st age n s d e b al ei as ( n º)

Ano

(25)

Copyright © 2004 Pearson Education, Inc.

Slide 25

Outros Gráficos

Figura 2-9

(26)

Slide 26

Atenção

Tenha em mente que o objetivo não é meramente construir gráficos. É importante aprender alguma coisa sobre os dados, ou seja, entender a natureza

de sua distribuição.

(27)

Copyright © 2004 Pearson Education, Inc.

Slide 27

O valor do centro ou do “meio” dos dados

Média Aritmética (Média)

a medida do centro é obtida pela soma dos valores e a divisão do total pelo número de valores

Notação

Seção 2-4

Medidas de Centro

Σ Σ Σ Σ denota a adição de um grupo de valores

x é a variável usada para representar os dados

n representa o número de valores em uma amostra

N representa o número de valores em uma população

(28)

Slide 28

µ é denominado de ‘mu’ ou ‘mi’ e denota a média de todos os valores em uma população

x =

n Σ Σ Σ Σ x

é denominado de ‘x-barra’ e denota a média do grupo de valores de uma amostra

x

µ = Σ Σ Σ Σ N x

(29)

Copyright © 2004 Pearson Education, Inc.

Slide 29

freqüentemente denotada por x ~ (‘x-til’)

não é afetada por um valor extremo

Mediana

valor do meio quando os dados são

ordenados (crescente ou decrescente)

Se o número de valores é ímpar, a mediana é exatamente o valor central

Se o número de valores é par, a mediana é a

média dos dois valores centrais

(30)

Slide 30

5,40 1,10 0,42 0,73 0,48 1,10 0,66 0,42 0,48 0,66 0,73 1,10 1,10 5,40

(em ordem - número ímpar)

meio exato MEDIANA = 0,73

5,40 1,10 0,42 0,73 0,48 1,10 0,42 0,48 0,73 1,10 1,10 5,40

0,73 + 1,10 2

(número par de valores – o meio é compartilhado por dois números)

MEDIANA = 0,915

(31)

Copyright © 2004 Pearson Education, Inc.

Slide 31

A moda nem sempre existe ou é única. Um grupo de dados pode ser:

Bimodal, Multimodal ou Não ter moda

denotada por M

é a única medida de tendência central que pode ser usada com dados nominais

Moda

valor que ocorre com maior freqüência

(32)

Slide 32

a. 5,40 1,10 0,42 0,73 0,48 1,10

b. areia lama seixo areia seixo seixo

c. 1 2 3 6 7 8 9 10

Exemplos

Moda 1,10

Bimodal areia e seixo

Não há moda

(33)

Copyright © 2004 Pearson Education, Inc.

Slide 33

Ponto Médio = mínimo + máximo 2

Manter um decimal a mais do que está presente nos valores originais

Ponto Médio

valor médio entre o mínimo e o máximo

Regra de arredondamento

(34)

Slide 34

uso do meio da classe para a variável x

Média de uma Distribuição de Freqüência

x = class midpoint

f = frequency

Σ Σ Σ

Σ f = n x =

f Σ Σ Σ

Σ (f x) Σ Σ

Σ Σ

x =

w Σ

Σ Σ

Σ (w x) Σ Σ Σ

Σ

Média Ponderada

casos em que os valores têm graus de importância

diferentes (“peso” w)

(35)

Copyright © 2004 Pearson Education, Inc.

Slide 35

Melhor Medida de Centro

Tabela 2-10 Comparação entre Média, Mediana, Moda e Ponto Médio

Medida de

Centro Definição Uso Existe?

Consi- dera todos os

dados?

Afetado por ex- tremos?

Vantagens e Desvantagens média

mediana

moda

Ponto médio

valor do meio valor mais

freqüente

máx. + mín.

mais usada

comum

eventual- mente

rara-mente

sempre

sempre pode não existir; pode

ter mais de uma moda

sempre

sim sim

sim não não

não

não não

funciona bem com a maioria dos métodos

estatísticos é uma boa escolha quando há valores

extremos

apropriado para dados em nível nominal

muito sensível a valores extremos Em distribuições simétricas a moda, a média, a mediana e o ponto médio tendem a ser o mesmo

Em distribuições assimétricas é aconselhável apresentar a média e a mediana

A média é relativamente confiável. Isto quer dizer que quando são retiradas várias amostras de uma população, as médias amostrais tendem a ser mais consistentesdo que outras medidas de tendência central, ou seja, elas não variam tanto quanto as demais medidas.

(36)

Slide 36

Distribuição simétrica

nos casos em que a metade esquerda do histograma é uma imagem

espelhada da direita

Figura 2-11

Assimetria

os dados tem distribuição assimétrica quando eles se concentram mais de um lado do que de outro

Moda=Média=Mediana (b) Simétrica

Média Moda Moda Média

Mediana Mediana

(a) Assimetria para a esquerda (c) Assimetria para a direita

(37)

Copyright © 2004 Pearson Education, Inc.

Slide 37

O conceito de variação é um dos mais importantes em toda a estatística

A amplitude de uma base de dados é a diferença entre o maior e o menor valor

máximo - mínimo

Seção 2-5

Medidas de Variação

O desvio padrão de um grupo de valores é

uma medida da variação dos valores em torno

da média

(38)

Slide 38

Desvio Padrão Amostral

Fórmula 2-4

Σ Σ Σ

Σ (x - x) 2 n - 1

s =

(Fórmula simplificada)

Fórmula 2-5

n (n - 1)

s = n (Σ Σ Σx Σ 2 ) - (Σ Σ Σx) Σ 2

(39)

Copyright © 2004 Pearson Education, Inc.

Slide 39

Desvio Padrão -

Pontos Fundamentais

O desvio padrão é uma medida da variação dos valores em torno da média

O valor do desvio padrão s é usualmente positivo

O valor do desvio padrão s pode aumentar dramaticamente se for incluído um ou mais

“outliers” (valores muito afastados dos demais)

As unidades do desvio padrão s são as mesmas

unidades dos dados originais

(40)

Slide 40

Desvio Padrão Populacional

Σ 2

Σ Σ

Σ ( x - µ )

σ N

σ

σ σ =

A fórmula é similar à Fórmula 2-4, mas nesse caso são usadas a média e o tamanho da população , e não da

amostra

(41)

Copyright © 2004 Pearson Education, Inc.

Slide 41

A variância de um grupo de valores é igual à raiz quadrada do desvio padrão.

Variância amostral: Raiz quadrada do desvio padrão amostral s

Variância populacional: Raiz quadrada do desvio padrão amostral σ

s

σ σ σ σ

2 2

Notação } Variância da amostra

Variância da população

(42)

Slide 42

• 100%

s x

CV =

O coeficiente de variação (ou CV ) de uma amostra ou de uma população

expresso em percentagem, descreve a proporção entre desvio padrão e média

σ

µ 100%

CV =

amostra

população

(43)

Copyright © 2004 Pearson Education, Inc.

Slide 43

Regra de arredondamento

Manter um valor decimal a mais do que está nos dados originais

Arredondar somente a resposta final e não os valores intermediários do cálculo

Desvio padrão para uma distribuição de freqüência

uso do ponto médio da classe como valores de x

Fórmula 2-6

n (n - 1)

s =

n [ Σ Σ Σ Σ (f x

2

)] - [ Σ Σ Σ Σ (f x)]

2

amplitude

s ≈ ≈ ≈ ≈ 4

Aproximação do

Desvio Padrão

(44)

Slide 44

Mínimo valor “usual” (média) – 2 x (desvio padrão) Máximo valor “usual” (média) + 2 x (desvio padrão)

Interpretando o Desvio Padrão

≈ ≈

≈ ≈

≈ ≈

Regra Empírica (68-95-99.7)

Para dados que tem uma distribuição aproximada de uma forma de sino, aplicam-se as seguintes propriedades:

Cerca de 68% dos valores ficam a 1 desvio padrão da média

Cerca de 95% dos valores ficam a 2 desvios padrões da média

Cerca de 99,7% dos valores ficam a 3 desvios padrões

(45)

Copyright © 2004 Pearson Education, Inc.

Slide 45

Figura 2-13 99,7% dos dados ficam a 3

desvios padrões da média (x-3s a x+3s)

95% ficam

68% ficam

a 2 desvios padrões

a 1 desvio padrão

A regra empírica

(46)

Slide 46

Teorema de Chebyshev

A proporção (ou fração) de dados que se situa a K desvios padrões da média é sempre, no mínimo 1-1/K

2

, onde K é qualquer número positivo maior do que 1

Para K = 2, pelo menos 3/4 (ou 75%) de todos os valores ficam a 2 desvios padrões da média

Para K = 3, pelo menos 8/9 (ou 89%) de todos os

valores ficam a 3 desvios padrões da média

(47)

Copyright © 2004 Pearson Education, Inc.

Slide 47

Escore z (ou escore padronizado)

é o número de desvios padrões a que se situa determinado valor x acima ou abaixo da média.

amostra

arredondar para duas casas decimais

Section 2-6

Medidas de Posição Relativa

z = x - x

s

x - µ

z =

σ σ σ σ

população

(48)

Slide 48

Interpretando escores z

Sempre que um valor for menor que a média, seu escore z é

negativo

Valures usuais: z escore entre –2 e 2 dp

Valores incomuns: z escore < -2 ou z escore > 2 dp

Figura 2-14

Valores usuais Valores

incomuns

Valores

incomuns

z

(49)

Copyright © 2004 Pearson Education, Inc.

Slide 49

divide os valores ordenados em quatro partes iguais

Quartis

25% 25% 25% 25%

Q 3 Q 2

Q 1

(mínimo) (máximo)

(mediana)

Q

1

(1º quartil) separa os 25% menores valores dos 75%

maiores valores

Q

2

(2º quartil) mesmo que mediana; separa os 50%

menores dos 50% maiores valores

Q

3

(3º quartil) separa os 75% menores dos 25% maiores valores

Percentis

Assim como os quartis separam os dados em quatro partes iguais, há 99 percentis denotados por P

1

, P

2

, . . . P

99

, que

separam os dados em 100 grupos.

(50)

Slide 50

Encontrando o percentil a que corresponde um determinado valor

Percentil do valor x = • número de valores menores que x 100 número total de valores

n número total de valores

k percentil sendo usado

L localizador que dá a posição de um valor

L = k

100 Notação

Convertendo do k ésimo percentil para o valor corresponde

. n

(51)

Copyright © 2004 Pearson Education, Inc.

Slide 51

Figure 2-15

Convertendo do késimo percentil para o valor

correspondente

início

organize os dados em ordem crescente

Calcule

L = (k/100) . n onde n = número de valores k = percentil em questão

o número do k

ésimo

percentil é média entre o L

ésimo

valor e o próximo valor nos dados

organizados de forma crescente L é um número inteiro ?

arredonde L para o maior valor mais próximo

o valor de P

k

é o L

ésimo

valor em ordem crescente

Não

Sim

Intervalo interquartil (or IIQ): Q

3

- Q

1

10 - 90 Intervalo percentílico: P

90

-P

10

Intervalo semi-interquartil: (Q

3

- Q

1

)/2

Ponto médio dos quartis: (Q

3

+Q

1

)/2

Algumas outras estatísticas

(52)

Slide 52

Análise Exploratória de Dados é o processo de uso de ferramentas estatísticas (tais como gráficos, medidas de centro, e medidas

de variação) para investigar bases de dados de forma a conhecer suas características mais importantes

Section 2-7

Análise Exploratória de Dados

Um “outlier” (ou valor discrepante) é um valor que se localiza muito distante de quase todos os demais valores

Princípio Importante

Um outlier pode ter um efeito dramático sobre a média, sobre o desvio padrão e sobre a escala de um histograma, de tal forma

que a verdadeira natureza da distribuição fique mascarada

(53)

Copyright © 2004 Pearson Education, Inc.

Slide 53

Para um grupo de dados, o resumo dos 5-números consiste no valor mínimo; no 1º quartil Q

1

; na mediana (ou 2º quartil Q

2

);

no 3º quartil Q

3

; e no valor máximo

Um diagrama de caixa ou de caixa e bigode é um gráfico que consiste de uma linha que se extende do valor mínimo ao

máximo, e de uma caixa com linhas desenahadas no 1º quartil Q

1

, na mediana, e no 3º quartil Q

3.

Figura 2-16

Figure 2-17

mínimo Q

1

mediana Q

3

máximo

Chumbo (µ µ µ µg)

Forma de Sino Uniforme Assimétrica

Referências

Documentos relacionados

Sennett (2003; 2006) analisando a cultura do novo capitalismo enfoca as mudanças operadas no plano da organização e da cultura no que diz respeito ao

O Portal da Transparência do Governo Federal (2013) explicita o controle social previsto nas prefeituras e convida o cidadão a exercer o seu papel de fiscal, reafirmando

Cite this article as: Silva Júnior et al.: COPD Assessment Test (CAT) score as a predictor of major depression among subjects with chronic obstructive pulmonary disease and

Os resultados relativos ao estudo dos preditores de VAD sugerem um fraco poder preditor dos parâmetros avaliados na consulta pré-anestésica, sendo que, apenas na classificação

As coletas foram realizadas mensalmente, exceto no momento de uma rápida troca na população de mosquitos, uma vez que as cap- turas eram realizadas cada 2 ou 3

O fígado de ratinho foi o modelo de estudo escolhido por várias razões: (1) pelo menos três transportadores ABC peroxissomais (ALDP, ALDPR, PMP70) coexistem neste órgão;

Crotalus durissus collilineatus Venom

Also statistics about the types and quantities of goods transported around European Union and about the transport modes used for it are presented, especially focusing on