• Nenhum resultado encontrado

Estatística descritiva

N/A
N/A
Protected

Academic year: 2023

Share "Estatística descritiva"

Copied!
52
0
0

Texto

(1)

Estatística descritiva

Também designada

Análise exploratória de dados ou

Análise preliminar de dados

(2)

Estatística descritiva vs inferencial

Estatística Descritiva: conjunto de métodos estatísticos que visam sumariar e descrever os atributos mais proeminentes aos dados.

Estatística Inferencial: conjunto de métodos

estatísticos que visam caracterizar (ou inferir

sobre) uma população a partir de uma parte

dela (a amostra).

(3)

Estatísticas ou medidas amostrais

Estatística ou medida amostral: uma medida numérica que descreve alguma característica de uma amostra.

É habitualmente representada por letras latinas. Por exemplo: x (média), s (desvio padrão), r (coeficiente de correlação)

Amostra

xx

(4)

Parâmetros

Parâmetro: uma medida numérica que descreve alguma característica de uma população.

É habitualmente representado por letras gregas. Por exemplo: μ (média), σ (desvio padrão), ρ (coeficiente de correlação)

População

Parâmetro

(5)

Ferramentas de Estatística Descritiva

Cálculo numérico de medidas amostrais.

Resumo e descrição global dos dados através da construção de tabelas e de gráficos.

Análise e interpretação dos resultados

(6)

Medidas amostrais

Tendência ou localização central:

média (mean),

mediana (median),

moda (mode),

média aparada (trimmed mean).

(7)

Medidas amostrais

Localização relativa:

Mínimo (minimum),

Máximo (maximum),

Quantil (quantile),

Quartil (quartile),

Percentil (percentile).

(8)

Medidas amostrais

Dispersão:

amplitude (range),

distância inter-quartil (inter-quartile range),

variância (variance),

desvio padrão (standard deviation),

(9)

Medidas amostrais

Assimetria:

Coeficiente de assimetria (skweness).

(10)

Tabelas de frequências

Tabelas que resumem a informação contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores

repetidos ou de valores distribuídos por

intervalos).

(11)

Gráficos

Gráficos de frequências

Histogramas

Caixas de bigodes ou diagramas de extremos e quartis (boxplots)

Diagramas de caule-e-folhas (stem and leaf)

Diagramas de dispersão (scatterplot)

(12)

Descrição resumida das várias ferramentas de

Estatística descritiva

(13)

Ordenação e tabela de frequências

Tipos de frequências:

Frequência absoluta

Frequência relativa

Frequência absoluta acumulada

Frequência relativa acumulada

Uma tabela de frequências é uma tabela

onde figuram os valores de pelo menos um

destes tipos de frequências.

(14)

Tabela de frequências

Exemplo de uma tabela produzida pelo SPSS:

Durante um ano contabilizou-se diariamente o nº de golfinhos presos nas redes dos pescadores das águas Açoreanas.

nº de golfinhos presos num dia

37 14,4 14,4 14,4

45 17,5 17,5 31,9

84 32,7 32,7 64,6

52 20,2 20,2 84,8

23 8,9 8,9 93,8

11 4,3 4,3 98,1

2 ,8 ,8 98,8

1 ,4 ,4 99,2

1 ,4 ,4 99,6

1 ,4 ,4 100,0

257 100,0 100,0

0 1 2 3 4 5 6 8 9 13 Total Valid

Frequency Percent Valid Percent

Cumulative Percent

(15)

Medidas amostrais

Tendência ou localização central:

média (mean),

mediana (median),

moda (mode),

média aparada (trimmed mean).

(16)

Medidas de localização central: Média

Média: Numa amostra de n observações, x1, x2, …, xn

Se os dados estiverem agrupados (k valores distintos)

onde fi designa a frequência absoluta de xi* (ou a frequência absoluta da classe com marca xi* no caso de dados agrupados em classes)

n x n

x n

x x

x x

i

n i

i

n

 

 

1

2

...

1

n f x n

f x n

f x f

x f

x x i i

k i

i i n

n

 

* 1

*

* 2

* 2 1

*

1 ...

(17)

Medidas de localização central: Média

A média pode ser pensada como o centro de massa dos valores das observações, ie, o ponto de

equilibrio após dispormos as observações sobre uma régua.

Pontos afastados ou erros nas observações podem

(18)

A mediana á a observação central, depois de ordenada a amostra.

Se a amostra tiver dimensão ímpar, coincide com a observação central. Exemplo:

Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é .

Se a amostra tiver dimensão par, a mediana toma o valor da média das duas observações mais centrais.

Exemplo:

Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é .

A mediana é mais robusta que a média a erros ou a observações afastadas.

Medidas de localização central:

Mediana

2.1

0.8

(19)

Medidas de localização central:

Média aparada

Uma média aparada não é mais do que uma

“mistura” entre os conceitos de média e mediana por forma a combinar as qualidades de ambas.

Uma média aparada é uma média que é calculada excluindo uma certa proporção de observações em cada extremo da amostra

.

(20)

Medidas de localização central: Moda

A moda é o valor mais frequente de uma amostra.

Ao contrário do que acontece com a mediana e a média, uma amostra pode possuir mais do que uma moda.

Moda

(21)

Medidas de localização central: Moda

A moda é a única medida de localização central que pode ser utilizada para dados numa escala nominal.

A moda pode não ter significado, especialmente em dados de natureza contínua ou em dados discretos com poucas observações repetidas!

Quando os dados estão agrupados em classes

podemos falar da classe modal, ou seja, da classe com maior frequência.

(22)

Medidas amostrais

Localização relativa:

Mínimo (minimum),

Máximo (maximum),

Quantil (quantile),

Quartil (quartile),

Percentil (percentile).

(23)

Medidas de localização

relativa: Mínimo e Máximo

Mínimo – é o valor mais reduzido da amostra

Máximo – é o valor mais elevado da amostra

(24)

Medidas de localização relativa:

Quartis

Quartis – são os valores (Q

1

, Q

2

e Q

3

) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais

possível).

Q2 coincide com a mediana.

(25)

Medidas de localização relativa:

Quantis e Percentis

Quantil de ordem p (0≤ p ≤ 1)– é um valor, x

p

, que divide a amostra em duas partes, tal que à esquerda de x

p

está a proporção p da

amostra e à direita a proporção 1-p.

Percentil de ordem p (p vai de 1 a 100) - é o mesmo que um quantil mas em que a

proporção é dada em percentagem.

(26)

Medidas amostrais

Dispersão:

amplitude (range),

distância inter-quartil (inter-quartile range),

variância (variance),

desvio padrão (standard deviation),

(27)

Medidas de dispersão:

Amplitude

A amplitude de uma amostra é a diferença entre o máximo e o mínimo.

Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude é . 2.3 - 1.2 = 1.1

(28)

Medidas de dispersão: Distância inter-quartil

Distância inter-quartil – é a diferença entre o 3º e o 1º quartis, Q

3

- Q

1

.

No intervalo que vai de Q

1

a Q

3

encontram-se

50% das observações (as mais centrais).

(29)

Medidas de dispersão:

variância

A variância é a média dos quadrados dos desvios das observações em relação à média da amostra.

Habitualmente considera-se uma versão corrigida da variância

(30)

Medidas de dispersão: desvio padrão

A variância não vem representada na mesma unidade das observações. Se tomarmos a raiz quadrada da variância obtemos o desvio padrão que também é uma medida de dispersão e vem na mesma unidade das observações.

Nos programas de estatística e nas máquinas de calcular o que aparece são as versões corrigidas da variância e do desvio padrão.

O desvio padrão e a variância podem ser fortemente afectados por erros ou observações muito afastadas.

(31)

Medidas amostrais:

assimetria

Coeficiente de assimetria – é uma medida que assume o valor zero quando a distribuição de frequências da amostra é completamente

simétrica e assume valores diferentes de zero

(positivos ou negativos) quando a distribuição não é simétrica.

Atenção que numa amostra é quase impossível observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria é relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente não exceder 2 ou 3 vezes o erro, o seu valor não será muito

(32)

Medidas amostrais:

assimetria

Uma distribuição possui assimetria positiva

(alternativamente negativa) quando existe uma concentração de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.

Assimetria positiva Quase simetria Assimetria negativa Coef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0

(33)

Medidas amostrais:

assimetria

A assimetria também pode ser avaliada comparando os valores da média, mediana e moda (desde que esta última faça sentido).

Assimetria positiva:

moda < mediana < média

(34)

Medidas amostrais:

assimetria

Assimetria negativa: média < mediana < moda Simetria pura: média = mediana = moda Simetria aproximada: média ~ mediana ~ moda

(35)

Gráficos

Gráficos de frequências

Histogramas

Caixas de bigodes ou diagramas de extremos e quartis (boxplots)

Diagramas de caule-e-folhas (stem and leaf)

Diagramas de dispersão (scatterplot)

(36)

Histogramas

O histograma é um gráfico que reflecte a forma da distribuição de frequências da amostra. Também

procura reflectir a estrutura (forma) da população de onde foi retirada a amostra.

Para construir um histograma é necessário primeiro repartir os dados por classes e depois calcular as respectivas frequências. O histograma é um gráfico de frequências construído a partir desta tabela de frequências (por classes). Os histogramas são

particularmente úteis para variáveis contínuas ou variáveis com poucos valores repetidos.

(37)

Histogramas

A apresentação do histograma depende muito do número de classes considerado.

Um número muito grande de classes produz um histograma com demasiada

irregularidade, enquanto um histograma com um número demasiado reduzido de classes oculta a forma da distribuição (perde-se

demasiada informação).

(38)

Histogramas

Poucas classes Muitas classes

(39)

Gráficos de frequências

Gráficos de frequências são gráficos de barras que traduzem graficamente o conteúdo da tabela de

frequências. Os mais habituais são os gráficos de frequências absolutas ou relativas, mas também podemos construir gráficos de frequências

absolutas ou relativas acumuladas.

Os gráficos de frequências (não acumuladas) são apropriados para dados qualitativos ou numéricos discretos (ou que se comportam como tal). Quando as frequências absolutas são reduzidas e a gama de valores da amostra é dispersa os gráficos de

(40)

Gráficos de frequências

Chama-se função de distribuição empírica à função cuja imagem gráfica é o gráfico de frequências

relativas acumuladas.

Exemplo:

25%

50%

75%

100%

(41)

Caixas de bigodes

Pode ser encarada como a representação gráfica de algumas medidas de localização:

mediana

Q1 Q3

outliers e

extremos

(42)

Caixas de bigodes

Mínimo da amostra mas não menos de Q1-1.5(Q3-Q1)

Máximo da amostra mas não mais de Q3+1.5(Q3-Q1)

(43)

Caixa de bigodes

Algumas caixas têm os bigodes até ao

mínimo e máximo e não têm representados outliers.

As caixas de bigodes dão informação sobre

A localização central: mediana

Outras localizações: 1º e 3º quartis e mínimo e máximo.

Dispersão: amplitude e distância inter-quartil

Assimetria: posição relativa da mediana na caixa,

(44)

Caixas de bigodes

Assimetria positiva Simetria Assimetria negativa

(45)

Caixa de bigodes comparativas

As caixas de bigodes também são úteis para comparar várias amostras num mesmo

gráfico, caixas de bigodes comparativas.

(46)

Diagramas de caule e folha

Representa os dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical)

Exemplo:

(10.5 10.7 10.8 11.0 11.0 11.1 11.2 11.3 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.1)

diametro Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 10 . 578

8,00 11 . 00123447 3,00 12 . 099

3,00 13 . 378 2,00 14 . 01 Stem width: 1,00 Each leaf: 1 case(s)

(47)

Diagramas de caule e folha

Outro exemplo:

(63 64 65 66 66 69 71 71 72

………

…....85 86 87)

Devemos multiplicar cada

altura Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 6 . 34

4,00 6 . 5669 6,00 7 . 112244 8,00 7 . 55566789 9,00 8 . 000001123 3,00 8 . 567

Stem width: 10,00 Each leaf: 1 case(s)

(48)

Formas de distribuições

Os gráficos de frequências, histogramas,

diagramas de caule-e-folhas (e em parte as caixas de bigodes) dão-nos informação

quanto à forma da distribuição dos dados (e consequentemente da população de onde foram retirados)

Existem distribuições de vários tipos:

unimodais, bimodais e multimodais

(49)

Formas de distribuições

Exemplo:

unimodal bimodal

(50)

Diagramas de dispersão

Os diagramas de dispersão são gráficos que permitem relacionar duas variáveis entre si.

Representam-se pares de dados (x,y), onde

no eixo horizontal marcam-se os valores de x

e no eixo vertical os valores de y

(51)

Diagramas de dispersão

Exemplo: pesos e comprimentos de 414 recém- nascidos.

(52)

Matrix de diagramas de dispersão

Exemplo: Árvores

Referências

Documentos relacionados

AGRAVO DE INSTRUMENTO Ação Civil Pública por ato de Improbidade Administrativa - Decisão que declarou a revelia nos termos do parágrafo único do artigo 238

MUNICÍPIO DE ANGRA DO HEROÍSMO ORÇAMENTO RECEITA E DESPESA PARA O ANO FINANCEIRO DE 2015 POCAL. Datas

Na aplicação dos inversores de freqüência o motor de indução, ao contrário do que acontece quando ligado diretamente à rede de distribuição de energia elétrica, é alimentado

Esse estudo busca levantar alguns elementos que contribuem com o agendamento de capas dos diários. Além disso, pretende-se, aqui, traçar uma visualização a respeito do papel

já existiam Asteraceae como características bem diferenciadas como as de espécies atuais e que, portanto, elas já deveriam ter se estabelecido em data muito antiga, conquanto

Além da câmera mostrando/narrando as ações do jogo, muitas vezes existe uma interface exegética, fornecendo informações sobre o status dos personagens e do mundo, e

fernandezi Bernhauer, 1939 Procoxal fissure open (Fig. 20); elytra pale yellow with basal and usually subapical median brownish spot (Figs. 5, 7); tergum VIII with posterior

Objetivou-se estimar a precipitação mensal e anual, em diferentes níveis de probabilidade de ocorrência, através da distribuição teórica de probabilidade Gama, para os