• Nenhum resultado encontrado

Estatística Descritiva CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT Prof. Luís Gustavo Corbellini EPILAB /FAVET - UFRGS 24/09/2014 1

N/A
N/A
Protected

Academic year: 2021

Share "Estatística Descritiva CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT Prof. Luís Gustavo Corbellini EPILAB /FAVET - UFRGS 24/09/2014 1"

Copied!
54
0
0

Texto

(1)

Estatística Descritiva

CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT Prof. Luís Gustavo Corbellini

EPILAB /FAVET - UFRGS

(2)

Roteiro da aula

Estatística descritiva;

Sumarizando os dados;

Distribuição de frequências empíricas

Tabelas e gráficos

(3)
(4)

Quando a quantidade de dados aumenta, fica

difícil obter uma “visão geral” do que está

ocorrendo;

O primeiro passo para se obter esta visão geral

é organizar os dados para avaliar o quão

freqüente os diferentes valores ocorrem;

Será útil condensar as informações reduzindo-as a um

tamanho manejável para obter um resumo que auxilie

na compreensão e interpretação dos resultados

(5)

Estatística descritiva

É um meio de se organizar, resumir e

apresentar as observações;

Fornece um resumo das características gerais

de um conjunto de dados

1.

Tabelas;

2.

Gráficos;

3.

Medidas-resumo numéricas

Etapa conhecida como Análise Exploratória dos

(6)

Objetivo da aula

Utilizar as ferramentas (Excel) para análise

exploratória dos dados

Discutir métodos básicos de se exibir um

(7)

Distribuição de frequências empírica

1.

Distribuição de frequência (frequência

absoluta);

2.

Distribuição de frequência relativa;

3.

Distribuição de frequência acumulada;

A distribuição dos dados observados é chamada

(8)

Importante

Antes de realizar a distribuição de

frequência, precisamos conhecer o tipo

de variável que estamos trabalhando

O tipo de variável é que determinará a forma

(9)

Variável

Qualitativa

(categórica)

Quantitativa

(Numérica)

Nominal  Positivo, negativo  Macho, fêmea Ordinal  Sinais clínicos:

 Leve, moderado, severo

Discreto No. de animais; No. partos; No. doentes; Contínuo Peso; Altura; Prod. Leite;

(10)

1. Distribuição de frequência

Distribuição de frequência mostra a frequência

absoluta de ocorrência das observações em um

banco de dados;

(11)

Variáveis categóricas

Dermatite

No. de cães

Sim

117

Não

180

Total

297

Frequência absoluta de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.

(12)

Variáveis numéricas

Idade

(meses) No. de Cães

<12 21 12-23 17 24-35 23 36-47 37 48-59 21 60-71 25 72-83 36 84-95 21 96-107 18 108-119 11 120-131 26 132-143 12 144-155 14 156-167 4 0 5 10 15 20 25 30 35 40 <1 2 12 -23 24 -35 36 -47 48 -59 60 -71 72 -83 84 -95 96 -107 108 -119 120 -131 132 -143 144 -155 156 -167 168 -180 Núme ro d e C ãe s Idade (meses)

Frequência absoluta de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

(13)

EXCEL PARA AS ANÁLISES

EXPLORATÓRIAS 1

DISTRIBUIÇÃO DE FREQUÊNCIA

(14)

Tabela dinâmica – dados categóricos

Abra a planilha

Febre_Aftosa_RS

1. Marque a primeira linha até a última variável (Latitude); depois,

marque todos os dados até a última observação (linha 31);

 Dica: após marcar a primeira linha, utilize as teclas Ctrl + Shift + seta para baixo para marcar tudo.

2. Clique na aba inserir e depois tabela dinâmica; na caixa que abrir

clique em ok; à direita você verá a lista de campos da tabela (variáveis). Nomeie esta planilha como “dinamica”

3. Nesta lista de campos clique na variável fonte, o que ocorreu?

4. Arraste a variável foco para o campo valores. O que você observa? Se

o campo valores estiver marcando soma, clique na aba e depois marque “ContNúm”. Veja que você tem a distribuição de freqüência da fonte de notificação ocorrida no surto de aftosa.

5. Desmarque os campos e repita a operação com a variável diagnóstico.

Crie uma planilha (nomeie de análises) e copie todas as tabelas feitas para esta planilha – demonstração professor

(15)

Tabela dinâmica – dados numéricos

Na planilha

Febre_Aftosa_RS

1. Desmarque todos os campos novamente

2. Marque a variável data e arraste-a para o rótulo de linhas; a tabela

posicionará todas as datas;

3. Para observar a frequência de ocorrência de focos pela data, arraste a

variável Foco para o campo valores; lembre-se de configurar o campo para “ContNúm”; agora, a frequência absoluta de ocorrência de focos irá aparecer;

4. Clique na aba de ferramentas de tabela dinâmica e depois numa célula

dentro da tabela à esquerda (na coluna rótulo de linha); clique com o botão direito e depois clique em agrupar seleção e em dias; o número de dias = 7. O que ocorreu?

(16)

2. Frequência relativa

São úteis para comparar conjunto de dados

com números desiguais de observações;

A frequência relativa é obtida dividindo-se a

frequência de cada categoria (ou classe) pelo

número total de observações;

(17)

Dermatite

Frequência

Frequência Relativa (%)

Sim

117

39,4

Não

180

60,6

Total

297

100

Frequência relativa de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.

(18)

Idade

(meses) Frequência Frequência Relativa (%)

<12 21 7,1 12-23 17 5,7 24-35 23 7,7 36-47 37 12,5 48-59 21 7,1 60-71 25 8,4 72-83 36 12,1 84-95 21 7,1 96-107 18 6,1 108-119 11 3,7 120-131 26 8,8 132-143 12 4,0 144-155 14 4,7 156-167 4 1,3 168-180 11 3,7 Total 297 100,0

Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

(19)

3. Frequência acumulada

É a porcentagem (ou em termos absolutos) do

número total de observações que tem um valor

menor ou igual ao limite superior do intervalo;

É calculada pela soma das frequências relativas

(ou absoluta) para o intervalo especificado e

todas as outras anteriores;

(20)

Idade (meses) Frequência Frequência Relativa (%) Frequência Acumulada (%) <12 21 7,1 7,1 12-23 17 5,7 12,8 24-35 23 7,7 20,5 36-47 37 12,5 33,0 48-59 21 7,1 40,1 60-71 25 8,4 48,5 72-83 36 12,1 60,6 84-95 21 7,1 67,7 96-107 18 6,1 73,7 108-119 11 3,7 77,4 120-131 26 8,8 86,2 132-143 12 4,0 90,2 144-155 14 4,7 94,9 156-167 4 1,3 96,3 168-180 11 3,7 100,0 Total 297 100,0

Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

Interpretação: 60,6 % dos cães amostrados têm idade menor ou igual a 83 meses (7 anos).

(21)

EXCEL PARA AS ANÁLISES

EXPLORATÓRIAS 2

DISTRIBUIÇÃO DE FREQUÊNCIA RELATIVA E ACUMULADA

(22)

Freqüência relativa e acumulada de dados

numéricos

Abra a planilha

LagoaPeixe_Censo

Insira uma planilha dinâmica (repita o passo do

exercício anterior)

Vamos trabalhar com a distribuição de freqüência (absoluta,

relativa e acumulada) da variável total (que representa o

número de aves de cada proprietário situado num raio de 10km

da Lagoa do Peixe – RS);

Arraste a variável total para o rótulo de linhas e variável

proprietário para o campo valores (certifique-se que esteja em

contar valores); agrupe o dados de 10 em 10 aves.

Copie a tabela para uma nova planilha (nomeie esta planilha

análise) – demonstração professor

(23)

Tabelas, gráficos e medidas resumo

(24)

Tabelas

Meio mais simples de se resumir um conjunto de

observações;

O intuito é mostrar uma série de resultados para

uma fácil compreensão;

Mais informativas se não excessivamente complexas;

Alguns princípios:

1.

Título conciso e auto-explicativo;

2.

Claramente rotuladas;

3.

Incluir unidades de medida (%, Kg, DO);

4.

Ao demonstrar uma medida resumo como média, incluir

medidas de precisão (como intervalo de confiança);

(25)

Gráficos

Devem ser concebidos de modo a transmitirem

os padrões gerais de um conjunto de

observações em uma simples visualização;

Perdem em detalhes mas ganham em

entendimento dos dados em relação às tabelas;

Existem vários tipos de gráficos aplicáveis para

os diferentes variáveis;

Alguns princípios:

Título conciso e auto-explicativo;

Claramente rotulados (eixos y e x) e unidades de

(26)

Gráficos para varáveis categóricas

(qualitativas)

Cada observação pertence a uma

categoria;

Podem ser representadas por números

absolutos ou porcentagem de indivíduos

em cada categoria;

Tipos:

1.

Barras;

(27)

Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS. 0 10 20 30 40 50 60

Bacteriano Micótico Não Det. Neospora Outras Viral

Númer o de f et os bovinos

(28)

Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS. 19.9% 2.9% 35.3% 30.9% 8.8% 2.2% Bacteriano Micótico Não Det. Neospora Outras Viral

(29)

Gráficos para varáveis numéricas

(quantitativas)

Principais gráficos utilizados são:

Histograma;

Representa a distribuição de frequência de uma

variável numérica;

Similar a um gráfico de barras, porém, as barras são

contíguas porque variáveis quantitativas são

contínuas;

(30)

Histograma

O eixo horizontal (x) exibe os limites

verdadeiros dos vários intervalos;

O eixo vertical (y) mostra a frequência ou

frequência relativa das observações

dentro de cada intervalo;

A frequência de cada intervalo é representada pela

área do da barra;

(31)

Distribuição de frequências de idade para os 297 cães

amostrados no HCV-UFRGS em 2007 – 2008.

0 5 10 15 20 25 30 35 40 <1 2 12 -23 24 -35 36 -47 48 -59 60 -71 72 -83 84 -95 96 -107 108 -119 120 -131 132 -143 144 -155 156 -167 168 -180 m e ro d e e s Idade (meses)

Eix

o

y

(32)

Gráficos de dispersão

Úteis para examinar a relação entre duas

variáveis numéricas ou ordinais;

Cada ponto do gráfico representa um par

de valores (cada valor no eixo x tem uma

única medida correspondente no eixo y);

Pontos adjacentes podem ser conectados por linhas;

Se a escala ao longo do eixo horizontal representar o

tempo, podemos traçar a mudança cronológica na

(33)

Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07

Fr e q u ê n cia

(34)

Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.

R² = 0.1738 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07

Fr e q u ê n cia

(35)

Correlação dos resultado de testes sorológicos da Fluorescência Polarizada (em milipolarização – mP) para brucelose bovina realizada em dois laboratórios (A e B) para avaliação da reprodutibilidade.

0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 Resu lta d o s L a b o rató ri o B (m P ) Resultado Laboratório A (mP)

(36)

EXCEL PARA AS ANÁLISES

EXPLORATÓRIAS 3

GRÁFICOS

(37)

Na planilha Febre_Aftosa_RS_2001

Agora vocês vão construir os gráficos pra visualização de variáveis categóricas; Para a variável fonte (de notificação), vocês farão o gráfico de pizza. No Excel,

clique na aba inserir e depois pizza. O layout do gráfico aparecerá sem nada. Agora, clique em selecionar dados. Na caixa aparecerá, a esquerda, entradas de legenda. Clique em adicionar e no valores da série (na caixa que abre, clique no símbolo quadrado que aparece à direita) e marque os valores das

observações (não esqueça que para marcar tem de clicar no botão esquerdo) e ok. No rótulo do eixo horizontal, clique em adicionar e, depois editar. Marque o nome das categorias (i.e. proprietário e vigilância) e ok. Clique em ok. Pronto. Se quiseres posicionar a legenda em outro lugar, clique sobre ela com o botão direito e depois, formatar legenda. Nesta caixa você pode formatar a legenda, trocando de posição, mudando estilo, etc. Para colocar os valores da

frequência, clique sobre o gráfico e depois clique com o botão direito. Na caixa que abrir, clique em adicionar rótulos de dados.

Faça um gráfico de barras para a variável diagnóstico. O procedimento é o

mesmo do anterior, só muda a escolha do tipo de gráfico (obs. Gráfico de

barras no Excel corresponde ao gráfico de colunas). Vocês verão que a legenda série aparecerá. Como vocês têm apenas uma série, retire ela. Clique sobre a legenda e depois delete. Agora você deve rotular os eixos e dar nome ao

gráfico. Clique sobre o gráfico e na aba layout. Clique na caixa título dos eixos, horizontal principal e título abaixo do eixo. Nomeie apropriadamente. Faça a mesma coisa para o eixo vertical, clicando em título girado. Faça o mesmo

(38)

 Agora você vai construir um gráfico de distribuição da variável quantitativa

data.

 Trata-se de uma variável contínua. Para visualizar a distribuição de

frequência você construirá um histograma, plotando no eixo horizontal (x) a data e no eixo vertical (y) o número de focos.

 Repita o mesmo procedimento anterior para inserção dos gráficos e dos

rótulos e valores da série. Escolha a opção gráfico de colunas.

 Como é um histograma, as barras devem ser contíguas. Clique sobre uma

barra e depois clique com o botão direito. Agora clique em formatar série de dados. Na opção de série, você vera que tem umas setas. Na segunda de cima para baixo, largura de espaçamento, clique sobre a seta e arraste-a parraste-ararraste-a esquerdarraste-a. Feche arraste-a carraste-aixarraste-a. Você verá que arraste-as barraste-arrarraste-as estão sem

espaçamento. As barras estão sem contorno. Clique novamente sobre as barras e depois na aba formatar. No menu, selecione contorno da forma e selecione a cor desejada.

(39)

Medidas-resumo numéricas

Medidas utilizadas para complementar os

resumo dos dados:

1.

Medidas de posição

(40)

Medidas de posição (medidas de

tendência central)

1.

Média

2.

Mediana

(41)

Média

Medida de posição mais usada é a média

aritmética;

Soma de todas as observações dividida

pelo número total de medidas;

i

n

xi

x

(42)

Valores da média são influenciados pelos

“outliers”:

“Outliers” excessivamente grandes empurram a

média para cima e vice-versa.

A média aritmética é mais apropriada para

resumir os dados que tenham distribuição

simétrica

A média se desloca para direita (aumenta) se a

distribuição tem assimetria positiva e se desloca para

esquerda (diminui) se a distribuição tem assimetria

negativa.

(43)

Mediana

É o valor central de uma série de n observações

ordenadas do menor para o maior;

Pode ser usada como medida-resumo para

observações ordinais ou numéricas (que não

tem distribuição simétrica);

É definida como 50° percentil

Metade dos valores são maiores ou iguais e a outra

metade menores ou iguais a mediana;

(44)

Para um conjunto de n observações

ímpares a mediana é o valor do meio

dada por: [(n +1)/2] – ésima medida.

n = 13 observações

4, 6, 9, 10, 11, 13,

14

, 14, 15, 18, 19, 21, 23.

(13 + 1)/2 = 7ª observação.

Se n for par, a mediana é tomada como a

média dos dois valores centrais do

intervalo.

(45)

Moda

É a observação que ocorre mais

frequentemente e em um conjunto de dados;

Média, moda e mediana terão valores

similares quando a distribuição for

simétrica

(46)

Medidas de dispersão

1.

Amplitude

2.

Intervalo interquartil

(47)

Amplitude

Diferença entre a maior e a menor

observação;

Fácil de calcular;

(48)

Intervalo interquartil

Usado quando a média e DP não são medidas adequadas

para representar um conjunto de dados (Valores extremos);

Três valores que divide o conjunto ordenado de dados em

quatro partes iguais:

Primeiro quartil (designado por Q1/4) - quartil inferior = é o

valor aos 25% da amostra ordenada = 25º percentil

Segundo quartil (designado por Q2/4) - mediana = é o valor

até ao qual se encontra 50% da amostra ordenada = 50º

percentil

Terceiro quartil (designado por Q3/4) - quartil superior = valor

a partir do qual se encontram 25% dos valores mais elevados =

valor aos 75% da amostra ordenada = 75º percentil

(49)

Variância

Quantifica a variabilidade ou o

espalhamento ao redor da média das

observações;

1

)

(

2

2

n

x

x

s

i

i

(50)

Desvio-Padrão (DP)

Raiz quadrada da variância;

Tem a mesma unidade de medida que a média,

em vez da unidade elevada ao quadrado e por

isso

Usado mais frequentemente do que a variância.

Em uma comparação entre 02 grupos de dados, o

grupo com menor DP tem observações mais

homogêneas e o com maior tem mais variabilidade;

2

s

(51)

EXCEL PARA AS ANÁLISES

EXPLORATÓRIAS 4

RESUMO ESTATÍSTICO – PACOTE DE DADOS

(52)

Agora você vai aprender a usar a função resumo

estatístico do pacote de análise de dados do Excel:

Antes de iniciar, certifique-se que o pacote análise de

dados está instalado:

◦ Clique em dados e verifique na barra bem a direita se o ícone análise de

dados está ativo;

Na planilha Lagoa Peixe_Censo vamos trabalhar com a

variável total (número total de aves por proprietário):

◦ Clique em dados e depois análise de dados;

◦ Na caixa que abrir, clique em estatística descritiva e depois ok;

◦ No intervalo de entrada, clique no ícone a direita da caixa e marque

toda coluna total incluindo o rótulo (nome da coluna); deixe marcado agrupado por colunas e rótulos na primeira linha.

◦ No intervalo de saída clique no ícone a direita e depois em alguma

célula da planilha análises.

◦ Marque resumo estatístico e ok;

◦ Observe os resultados;

(53)

EXCEL PARA AS ANÁLISES

EXPLORATÓRIAS 5

MEDIDAS DE DISPERSÃO DE UMA SÉRIE DE DADOS

(54)

Você vai calcular as medidas de dispersão da variável

total (Lagoa Peixe_Censo):

Utilize as funções Mínimo(valores), Máximo(valores), calcule a

amplitude (= valor máximo – valor mínimo);

Agora utilize as funções VAR (variância) e DESVPAD (desvio

padrão);

Para finalizar, vamos calcular

 Primeiro Quartil: função PERCENTIL (valores; 0,25)

 Segundo Quartil: função PERCENTIL (valores; 0,5)

 Terceiro Quartil: função PERCENTIL (valores; 0,75)

Agora você tem as principais medidas de dispersão da variável

total;

Referências

Documentos relacionados

Você poderia falar um pouco sobre este diálogo entre o documentário, a vídeo-arte, o filme experimental e a arte performática.. Como este diálogo se expressa nos

O leitor a quem se dirige esse livro não é evidente: em geral, quem vive o futebol não está interessado em ler sobre ele mais do que a notícia de jornal ou revista, e quem se dedica

Alguns exemplos de programas mal sucedidos ` Introdução de joaninhas nos USA contra afídeos. ` Coccinella septempunctata

O(a) docente interessado em inscrever projeto de monitoria de ensino e o(a) estudante interessado em se inscrever na Seleção de Estudantes de Cursos Superiores

Toxicidade para órgãos-alvo específicos - exposição repetida (Categoria 2) Irritação cutânea (Categoria 2).. Toxicidade para órgãos-alvo específicos - exposição

Paulo, após o encerramento oficial da concorrência FX para compra de 12 aviões por US$ 700 milhões, voltou a ser discutida a tese de um projeto próprio, essencialmente nacional,

Sugerimos que reservem um tempo de reflexão pessoal, assim como também com outros membros da Família Vicentina (outros ramos), para comentarem sobre a realidade

Sphincterodiplostomum musculosum (Digenea, Diplostomidae) em Geophagus brasiliensis (Perciformes, Cichlidae) coletados em um lago no Município de Dois Córregos, São Paulo,