Estatística Descritiva
CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT Prof. Luís Gustavo Corbellini
EPILAB /FAVET - UFRGS
Roteiro da aula
Estatística descritiva;
◦
Sumarizando os dados;
Distribuição de frequências empíricas
Tabelas e gráficos
Quando a quantidade de dados aumenta, fica
difícil obter uma “visão geral” do que está
ocorrendo;
O primeiro passo para se obter esta visão geral
é organizar os dados para avaliar o quão
freqüente os diferentes valores ocorrem;
Será útil condensar as informações reduzindo-as a um
tamanho manejável para obter um resumo que auxilie
na compreensão e interpretação dos resultados
Estatística descritiva
É um meio de se organizar, resumir e
apresentar as observações;
Fornece um resumo das características gerais
de um conjunto de dados
1.
Tabelas;
2.
Gráficos;
3.
Medidas-resumo numéricas
Etapa conhecida como Análise Exploratória dos
Objetivo da aula
Utilizar as ferramentas (Excel) para análise
exploratória dos dados
Discutir métodos básicos de se exibir um
Distribuição de frequências empírica
1.
Distribuição de frequência (frequência
absoluta);
2.
Distribuição de frequência relativa;
3.
Distribuição de frequência acumulada;
A distribuição dos dados observados é chamada
Importante
Antes de realizar a distribuição de
frequência, precisamos conhecer o tipo
de variável que estamos trabalhando
◦
O tipo de variável é que determinará a forma
Variável
Qualitativa
(categórica)
Quantitativa
(Numérica)
Nominal Positivo, negativo Macho, fêmea Ordinal Sinais clínicos: Leve, moderado, severo
Discreto No. de animais; No. partos; No. doentes; Contínuo Peso; Altura; Prod. Leite;
1. Distribuição de frequência
Distribuição de frequência mostra a frequência
absoluta de ocorrência das observações em um
banco de dados;
Variáveis categóricas
Dermatite
No. de cães
Sim
117
Não
180
Total
297
Frequência absoluta de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.
Variáveis numéricas
Idade
(meses) No. de Cães
<12 21 12-23 17 24-35 23 36-47 37 48-59 21 60-71 25 72-83 36 84-95 21 96-107 18 108-119 11 120-131 26 132-143 12 144-155 14 156-167 4 0 5 10 15 20 25 30 35 40 <1 2 12 -23 24 -35 36 -47 48 -59 60 -71 72 -83 84 -95 96 -107 108 -119 120 -131 132 -143 144 -155 156 -167 168 -180 Núme ro d e C ãe s Idade (meses)
Frequência absoluta de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
EXCEL PARA AS ANÁLISES
EXPLORATÓRIAS 1
DISTRIBUIÇÃO DE FREQUÊNCIA
Tabela dinâmica – dados categóricos
Abra a planilha
Febre_Aftosa_RS
1. Marque a primeira linha até a última variável (Latitude); depois,
marque todos os dados até a última observação (linha 31);
Dica: após marcar a primeira linha, utilize as teclas Ctrl + Shift + seta para baixo para marcar tudo.
2. Clique na aba inserir e depois tabela dinâmica; na caixa que abrir
clique em ok; à direita você verá a lista de campos da tabela (variáveis). Nomeie esta planilha como “dinamica”
3. Nesta lista de campos clique na variável fonte, o que ocorreu?
4. Arraste a variável foco para o campo valores. O que você observa? Se
o campo valores estiver marcando soma, clique na aba e depois marque “ContNúm”. Veja que você tem a distribuição de freqüência da fonte de notificação ocorrida no surto de aftosa.
5. Desmarque os campos e repita a operação com a variável diagnóstico.
Crie uma planilha (nomeie de análises) e copie todas as tabelas feitas para esta planilha – demonstração professor
Tabela dinâmica – dados numéricos
Na planilha
Febre_Aftosa_RS
1. Desmarque todos os campos novamente
2. Marque a variável data e arraste-a para o rótulo de linhas; a tabela
posicionará todas as datas;
3. Para observar a frequência de ocorrência de focos pela data, arraste a
variável Foco para o campo valores; lembre-se de configurar o campo para “ContNúm”; agora, a frequência absoluta de ocorrência de focos irá aparecer;
4. Clique na aba de ferramentas de tabela dinâmica e depois numa célula
dentro da tabela à esquerda (na coluna rótulo de linha); clique com o botão direito e depois clique em agrupar seleção e em dias; o número de dias = 7. O que ocorreu?
2. Frequência relativa
São úteis para comparar conjunto de dados
com números desiguais de observações;
A frequência relativa é obtida dividindo-se a
frequência de cada categoria (ou classe) pelo
número total de observações;
Dermatite
Frequência
Frequência Relativa (%)
Sim
117
39,4
Não
180
60,6
Total
297
100
Frequência relativa de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.
Idade
(meses) Frequência Frequência Relativa (%)
<12 21 7,1 12-23 17 5,7 24-35 23 7,7 36-47 37 12,5 48-59 21 7,1 60-71 25 8,4 72-83 36 12,1 84-95 21 7,1 96-107 18 6,1 108-119 11 3,7 120-131 26 8,8 132-143 12 4,0 144-155 14 4,7 156-167 4 1,3 168-180 11 3,7 Total 297 100,0
Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
3. Frequência acumulada
É a porcentagem (ou em termos absolutos) do
número total de observações que tem um valor
menor ou igual ao limite superior do intervalo;
É calculada pela soma das frequências relativas
(ou absoluta) para o intervalo especificado e
todas as outras anteriores;
Idade (meses) Frequência Frequência Relativa (%) Frequência Acumulada (%) <12 21 7,1 7,1 12-23 17 5,7 12,8 24-35 23 7,7 20,5 36-47 37 12,5 33,0 48-59 21 7,1 40,1 60-71 25 8,4 48,5 72-83 36 12,1 60,6 84-95 21 7,1 67,7 96-107 18 6,1 73,7 108-119 11 3,7 77,4 120-131 26 8,8 86,2 132-143 12 4,0 90,2 144-155 14 4,7 94,9 156-167 4 1,3 96,3 168-180 11 3,7 100,0 Total 297 100,0
Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
Interpretação: 60,6 % dos cães amostrados têm idade menor ou igual a 83 meses (7 anos).
EXCEL PARA AS ANÁLISES
EXPLORATÓRIAS 2
DISTRIBUIÇÃO DE FREQUÊNCIA RELATIVA E ACUMULADA
Freqüência relativa e acumulada de dados
numéricos
Abra a planilha
LagoaPeixe_Censo
◦
Insira uma planilha dinâmica (repita o passo do
exercício anterior)
◦
Vamos trabalhar com a distribuição de freqüência (absoluta,
relativa e acumulada) da variável total (que representa o
número de aves de cada proprietário situado num raio de 10km
da Lagoa do Peixe – RS);
◦
Arraste a variável total para o rótulo de linhas e variável
proprietário para o campo valores (certifique-se que esteja em
contar valores); agrupe o dados de 10 em 10 aves.
◦
Copie a tabela para uma nova planilha (nomeie esta planilha
análise) – demonstração professor
Tabelas, gráficos e medidas resumo
Tabelas
Meio mais simples de se resumir um conjunto de
observações;
O intuito é mostrar uma série de resultados para
uma fácil compreensão;
◦
Mais informativas se não excessivamente complexas;
Alguns princípios:
1.
Título conciso e auto-explicativo;
2.
Claramente rotuladas;
3.
Incluir unidades de medida (%, Kg, DO);
4.
Ao demonstrar uma medida resumo como média, incluir
medidas de precisão (como intervalo de confiança);
Gráficos
Devem ser concebidos de modo a transmitirem
os padrões gerais de um conjunto de
observações em uma simples visualização;
Perdem em detalhes mas ganham em
entendimento dos dados em relação às tabelas;
Existem vários tipos de gráficos aplicáveis para
os diferentes variáveis;
Alguns princípios:
◦
Título conciso e auto-explicativo;
◦
Claramente rotulados (eixos y e x) e unidades de
Gráficos para varáveis categóricas
(qualitativas)
Cada observação pertence a uma
categoria;
Podem ser representadas por números
absolutos ou porcentagem de indivíduos
em cada categoria;
Tipos:
1.
Barras;
Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS. 0 10 20 30 40 50 60
Bacteriano Micótico Não Det. Neospora Outras Viral
Númer o de f et os bovinos
Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS. 19.9% 2.9% 35.3% 30.9% 8.8% 2.2% Bacteriano Micótico Não Det. Neospora Outras Viral
Gráficos para varáveis numéricas
(quantitativas)
Principais gráficos utilizados são:
◦
Histograma;
Representa a distribuição de frequência de uma
variável numérica;
Similar a um gráfico de barras, porém, as barras são
contíguas porque variáveis quantitativas são
contínuas;
Histograma
O eixo horizontal (x) exibe os limites
verdadeiros dos vários intervalos;
O eixo vertical (y) mostra a frequência ou
frequência relativa das observações
dentro de cada intervalo;
◦
A frequência de cada intervalo é representada pela
área do da barra;
Distribuição de frequências de idade para os 297 cães
amostrados no HCV-UFRGS em 2007 – 2008.
0 5 10 15 20 25 30 35 40 <1 2 12 -23 24 -35 36 -47 48 -59 60 -71 72 -83 84 -95 96 -107 108 -119 120 -131 132 -143 144 -155 156 -167 168 -180 Nú m e ro d e Cã e s Idade (meses)Eix
o
y
Gráficos de dispersão
Úteis para examinar a relação entre duas
variáveis numéricas ou ordinais;
Cada ponto do gráfico representa um par
de valores (cada valor no eixo x tem uma
única medida correspondente no eixo y);
◦
Pontos adjacentes podem ser conectados por linhas;
◦
Se a escala ao longo do eixo horizontal representar o
tempo, podemos traçar a mudança cronológica na
Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07
Fr e q u ê n cia
Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.
R² = 0.1738 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07
Fr e q u ê n cia
Correlação dos resultado de testes sorológicos da Fluorescência Polarizada (em milipolarização – mP) para brucelose bovina realizada em dois laboratórios (A e B) para avaliação da reprodutibilidade.
0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 Resu lta d o s L a b o rató ri o B (m P ) Resultado Laboratório A (mP)
EXCEL PARA AS ANÁLISES
EXPLORATÓRIAS 3
GRÁFICOS
Na planilha Febre_Aftosa_RS_2001
Agora vocês vão construir os gráficos pra visualização de variáveis categóricas; Para a variável fonte (de notificação), vocês farão o gráfico de pizza. No Excel,
clique na aba inserir e depois pizza. O layout do gráfico aparecerá sem nada. Agora, clique em selecionar dados. Na caixa aparecerá, a esquerda, entradas de legenda. Clique em adicionar e no valores da série (na caixa que abre, clique no símbolo quadrado que aparece à direita) e marque os valores das
observações (não esqueça que para marcar tem de clicar no botão esquerdo) e ok. No rótulo do eixo horizontal, clique em adicionar e, depois editar. Marque o nome das categorias (i.e. proprietário e vigilância) e ok. Clique em ok. Pronto. Se quiseres posicionar a legenda em outro lugar, clique sobre ela com o botão direito e depois, formatar legenda. Nesta caixa você pode formatar a legenda, trocando de posição, mudando estilo, etc. Para colocar os valores da
frequência, clique sobre o gráfico e depois clique com o botão direito. Na caixa que abrir, clique em adicionar rótulos de dados.
Faça um gráfico de barras para a variável diagnóstico. O procedimento é o
mesmo do anterior, só muda a escolha do tipo de gráfico (obs. Gráfico de
barras no Excel corresponde ao gráfico de colunas). Vocês verão que a legenda série aparecerá. Como vocês têm apenas uma série, retire ela. Clique sobre a legenda e depois delete. Agora você deve rotular os eixos e dar nome ao
gráfico. Clique sobre o gráfico e na aba layout. Clique na caixa título dos eixos, horizontal principal e título abaixo do eixo. Nomeie apropriadamente. Faça a mesma coisa para o eixo vertical, clicando em título girado. Faça o mesmo
Agora você vai construir um gráfico de distribuição da variável quantitativa
data.
Trata-se de uma variável contínua. Para visualizar a distribuição de
frequência você construirá um histograma, plotando no eixo horizontal (x) a data e no eixo vertical (y) o número de focos.
Repita o mesmo procedimento anterior para inserção dos gráficos e dos
rótulos e valores da série. Escolha a opção gráfico de colunas.
Como é um histograma, as barras devem ser contíguas. Clique sobre uma
barra e depois clique com o botão direito. Agora clique em formatar série de dados. Na opção de série, você vera que tem umas setas. Na segunda de cima para baixo, largura de espaçamento, clique sobre a seta e arraste-a parraste-ararraste-a esquerdarraste-a. Feche arraste-a carraste-aixarraste-a. Você verá que arraste-as barraste-arrarraste-as estão sem
espaçamento. As barras estão sem contorno. Clique novamente sobre as barras e depois na aba formatar. No menu, selecione contorno da forma e selecione a cor desejada.
Medidas-resumo numéricas
Medidas utilizadas para complementar os
resumo dos dados:
1.
Medidas de posição
Medidas de posição (medidas de
tendência central)
1.
Média
2.
Mediana
Média
Medida de posição mais usada é a média
aritmética;
Soma de todas as observações dividida
pelo número total de medidas;
i
n
xi
x
Valores da média são influenciados pelos
“outliers”:
◦
“Outliers” excessivamente grandes empurram a
média para cima e vice-versa.
A média aritmética é mais apropriada para
resumir os dados que tenham distribuição
simétrica
◦
A média se desloca para direita (aumenta) se a
distribuição tem assimetria positiva e se desloca para
esquerda (diminui) se a distribuição tem assimetria
negativa.
Mediana
É o valor central de uma série de n observações
ordenadas do menor para o maior;
Pode ser usada como medida-resumo para
observações ordinais ou numéricas (que não
tem distribuição simétrica);
É definida como 50° percentil
◦
Metade dos valores são maiores ou iguais e a outra
metade menores ou iguais a mediana;
Para um conjunto de n observações
ímpares a mediana é o valor do meio
dada por: [(n +1)/2] – ésima medida.
n = 13 observações
◦
4, 6, 9, 10, 11, 13,
14
, 14, 15, 18, 19, 21, 23.
◦
(13 + 1)/2 = 7ª observação.
Se n for par, a mediana é tomada como a
média dos dois valores centrais do
intervalo.
Moda
É a observação que ocorre mais
frequentemente e em um conjunto de dados;
Média, moda e mediana terão valores
similares quando a distribuição for
simétrica
Medidas de dispersão
1.
Amplitude
2.
Intervalo interquartil
Amplitude
Diferença entre a maior e a menor
observação;
Fácil de calcular;
Intervalo interquartil
Usado quando a média e DP não são medidas adequadas
para representar um conjunto de dados (Valores extremos);
Três valores que divide o conjunto ordenado de dados em
quatro partes iguais:
Primeiro quartil (designado por Q1/4) - quartil inferior = é o
valor aos 25% da amostra ordenada = 25º percentil
Segundo quartil (designado por Q2/4) - mediana = é o valor
até ao qual se encontra 50% da amostra ordenada = 50º
percentil
Terceiro quartil (designado por Q3/4) - quartil superior = valor
a partir do qual se encontram 25% dos valores mais elevados =
valor aos 75% da amostra ordenada = 75º percentil
Variância
Quantifica a variabilidade ou o
espalhamento ao redor da média das
observações;
1
)
(
2
2
n
x
x
s
i
i
Desvio-Padrão (DP)
Raiz quadrada da variância;
Tem a mesma unidade de medida que a média,
em vez da unidade elevada ao quadrado e por
isso
◦
Usado mais frequentemente do que a variância.
◦
Em uma comparação entre 02 grupos de dados, o
grupo com menor DP tem observações mais
homogêneas e o com maior tem mais variabilidade;
2
s
EXCEL PARA AS ANÁLISES
EXPLORATÓRIAS 4
RESUMO ESTATÍSTICO – PACOTE DE DADOS
Agora você vai aprender a usar a função resumo
estatístico do pacote de análise de dados do Excel:
Antes de iniciar, certifique-se que o pacote análise de
dados está instalado:
◦ Clique em dados e verifique na barra bem a direita se o ícone análise de
dados está ativo;
Na planilha Lagoa Peixe_Censo vamos trabalhar com a
variável total (número total de aves por proprietário):
◦ Clique em dados e depois análise de dados;
◦ Na caixa que abrir, clique em estatística descritiva e depois ok;
◦ No intervalo de entrada, clique no ícone a direita da caixa e marque
toda coluna total incluindo o rótulo (nome da coluna); deixe marcado agrupado por colunas e rótulos na primeira linha.
◦ No intervalo de saída clique no ícone a direita e depois em alguma
célula da planilha análises.
◦ Marque resumo estatístico e ok;
◦ Observe os resultados;
EXCEL PARA AS ANÁLISES
EXPLORATÓRIAS 5
MEDIDAS DE DISPERSÃO DE UMA SÉRIE DE DADOS
Você vai calcular as medidas de dispersão da variável
total (Lagoa Peixe_Censo):
◦
Utilize as funções Mínimo(valores), Máximo(valores), calcule a
amplitude (= valor máximo – valor mínimo);
◦
Agora utilize as funções VAR (variância) e DESVPAD (desvio
padrão);
◦
Para finalizar, vamos calcular
Primeiro Quartil: função PERCENTIL (valores; 0,25)
Segundo Quartil: função PERCENTIL (valores; 0,5)
Terceiro Quartil: função PERCENTIL (valores; 0,75)