INTRODUÇÃO À
BIOESTATÍSTICA
PROFESSORA: Carolina Peixinho
carolina@peb.ufrj.br
BIBLIOGRAFIA
BIOESTATÍSTICA BÁSICA E CLÍNICA
Beth Dawson; Robert G. Trapp Ed.Mc Graw Hill
3ª edição
BIOESTATÍSTICA: PRINCÍPIOS E APLICAÇÕES
Sidia M. Callegari-Jacques Artmed editora – 2003
INTRODUCTION TO BIOSTATISTICS Robert S. Sokal and F. James Rohlf
OBJETIVOS DO CURSO
Possibilitar a leitura de artigos, interpretando corretamente os resultados
Questionar resultados obtidos e a interpretação dos autores
Analisar gráficos e tabelas de maneira eficiente
Participar de projetos científicos
ESTATÍSTICA
ESTATÍSTICA
Business Agricultura Marketing Educação Psicologia Medicina
Biologia Meteorologia
BIOESTATÍSTICA – Aplicação das leis estatísticas nos estudos biológicos
ESTATÍSTICA
Latim: status “forma de estar” ; “posição”
Grego: statistós “estabelecer” ; “verificar”
“... ciência que visa a coligir (reunir em coleção) e classificar os fatos, de acordo com o seu número relativo e ocorrência, como base para indução de
conhecimentos gerais;...”
Coleta, organização, descrição, análise e interpretação
ESTATÍSTICA
Análise de dados: chegar a conclusões precisas a
partir de quantidades limitadas de dados
Diferenças reais x variações aleatórias (variáveis biológicas ou imprecisão experimental)
ESTATÍSTICA DESCRITIVA
ESTATÍSTICA INFERENCIAL
Estatística Descritiva COLETA Estatística Inferencial ORGANIZAÇÃO DESCRIÇÃO ANÁLISE INTERPRETAÇÃO Nenhuma análise matemática TESTES ESTATÍSTICOS Caracterização da população pelas amostrasPOPULAÇÃO X AMOSTRA
População (N) Amostra (n)
População (N) representa o conjunto de todas as unidades
experimentais que apresentam características em comum
Amostra (n) representa uma parte do todo.
Semelhante ao grupo populacional, escolhido aleatoriamente.
POPULAÇÃO X AMOSTRA
Ex 1) Deseja-se saber a quantidade de alunos da UFRJ que fazem atividade física regular. Retira-se uma amostra somente de alunos da EEFD.Correto ou incorreto ? INCORRETO
Ex 2) Deseja-se saber o percentual de jovens da cidade do Rio de Janeiro que falam inglês. Retira-se uma amostra dos estudantes da UFRJ.
Correto ou incorreto ? INCORRETO
POPULAÇÃO X AMOSTRA
Controle de qualidade. Ex.: fábricaPesquisa eleitoral Estudos clínicos Análises laboratoriais
Técnicas de Amostragem
Amostragem aleatória simples:–Elementos retirados ao acaso da população; mesma probabilidade de ser escolhido (sorteio)
Sistemática
–Organizar os elementos e propor um sistema de escolha
Estratificada
–Composta por elementos provenientes de todos os estratos da população (população heterogênea)
Conveniência
–Utilizar os elementos disponíveis (mais comum na área da saúde)
PARÂMETRO X ESTATÍSTICA
Parâmetros Estatísticas Resumem as informações referentes às variáveis na população Letras gregas Resumem as informações referentes às variáveis na amostra Letras romanasEXEMPLOS MAIS COMUNS POPULAÇÃO AMOSTRA
MÉDIA µ VARIÂNCIA σ2 S2ou DP2 DESVIO-PADRÃO σ S ou DP PROPORÇÃO π p COEFICIENTE DE REGRESSÃO ρ r X
COMO “MONTAR”
A ANÁLISE
BIOESTATÍSTICA DO
SEU “EXPERIMENTO”
Design metodológico em
bioestatística
Tipos de estudo Observacional Não há intervençãoDiferentes dados podem ser coletados e analisados Experimental Verificar o comportamento de variáveis em resposta a algum procedimento sobre os sujeitos
Coleta de dados: medida. Ex.: instrumentação, questionário
1) TIPOS DE VARIÁVEIS
2) CLASSIFICAÇÃO DAS VARIÁVEIS
3) QUANTIFICAÇÃO DOS GRUPOS DO ESTUDO
4) CLASSIFICAÇÃO DOS GRUPOS DO ESTUDO
TIPOS DE VARIÁVEIS
Variáveis Independentes Manipuladas pelo pesquisador Independem do tratamento Supõem explicar o comportamento de interesse a ser estudado Avaliação do comportamento de interesse a ser estudado Observadas e/ou mensuradaspelo pesquisador Dependem da intervenção do pesquisador
Variáveis Dependentes Variável = Qualquer característica relevante em um estudo
Ex: Experimento com diversas dietas para baixar o nível de colesterol no sangue. O nível de colesterol foi medido antes e depois do estudo.
Variáveis de confundimento
Variáveis não controladas – Influenciam no comportamento das variáveis que o pesquisador está interessado na resposta
Variável independente Dieta (categórica) Variável dependente Nível de colesterol (contínua) Possíveis var. confundimento Idade, sexo, ativ. fís
CLASSIFICAÇÃO
DAS VARIÁVEIS
CLASSIFICAÇÃO
DAS VARIÁVEIS
Variáveis qualitativas Variáveis quantitativas
Categóricas Ordinais Discretas Contínuas
Cor Raça Sexo Acrômio Sangue Risco AVC (leve a alto) Artrite reumatóide (classe 1 a 4) nº fraturas Gestações Acidentes de trânsito Sujeitos HIV Estatura Peso Mov articular Índ glicêmico “idade”
UM GRUPO X POPULAÇÃO
QUANTIFICAÇÃO DOS
GRUPOS DO ESTUDO
ENTRE DOIS GRUPOS MAIS DE DOIS GRUPOSComparação dos dados de uma amostra com dados da população
Comparação entre dois grupos amostrais (independentes ou dependentes)
Comparação entre mais de dois grupos amostrais (independentes ou dependentes)
COMPARAÇÃO DE DUAS OU MAIS AMOSTRAS
DEPENDENTES PARAMÉTRICAS
INDEPENDENTES NÃO PARAMÉTRICAS AMOSTRAS
CLASSIFICAÇÃO DOS
GRUPOS DO ESTUDO
AMOSTRAS
INDEPENDENTES
Comparação de grupos independentes Independência = medida de uma observação em um grupo não tem nenhuma interferência na medida de
qualquer observação no outro grupo
Grupo controle ou tratamento A ou I Grupo experimental ou tratamento B ou II
Importante: os grupos devem variar somente em função da variável a ser estudada
AMOSTRAS DEPENDENTES
Quantificação da Variável
INTERVENÇÃO
Reavaliação da Variável
Dependência = a medida da observação de cada indivíduo
será comparada à medida deste mesmo indivíduo, após a
intervenção. Esta intervenção é composta de uma variável
independente que pode ser, inclusive, somente o tempo. Neste tipo de estudo, os dados são analisados pareadamente
Pergunta: A intervenção “provoca” diferença ?
AMOSTRAS PARAMÉTRICAS
OU NÃO-PARAMÉTRICAS
TESTES DE NORMALIDADE Distribuição aproximada pela normal TESTES PARAMÉTRICOS DistribuiçãoNÃOaproximada pela normal
TESTES NÃO
PARAMÉTRICOS
INFERÊNCIA ESTATÍSTICA – analisado posteriormente
EXERCÍCIOS
Retire e classifique todas as variáveis do estudo Pessoas menos instruídas envelhecem mais cedo, revela pesquisa Plantão | Publicada em 12/05/2011 às 17h17m
RIO - Pessoas com baixa instrução são mais propensas a envelhecer mais rápido, revela um estudo realizado com 400 homens e mulheres na Inglaterra. Especialistas acreditam que a educação pode ajudar as pessoas a adotar hábitos mais saudáveis. Já há estudos que mostram a relação entre as divisões de classe social e índices de saúde. Indivíduos de classes sociais mais baixas são mais propensos a fumar mais, praticar menos exercícios e ter menos acesso a tratamentos de saúde de qualidade, comparados com pessoas com melhores condições financeiras. Mas o novo estudo indica que a educação pode ser um determinante mais preciso. A equipe retirou amostras de sangue de mais de 400 homens e mulheres com idade entre 53 e 75 anos. Depois eles mediram o comprimento de trechos de DNA encontrados nas extremidades dos cromossomos. Essas seções - chamadas de telômeros - protegem os cromossomos contra danos. Telômeros mais curtos são interpretados como um indicador do envelhecimento mais rápido. Os resultados mostraram que pessoas com baixo nível de escolaridade apresentaram essa característica. Eles também afirmaram que o comprimento dos telômeros não foi afetado pelo status social e econômico de uma pessoa mais idosa, como se acreditava
EXEMPLO
Retire e classifique todas as variáveis do estudo Retire e classifique todas as variáveis do estudo
EXERCÍCIOS
Como montar seu estudo
bioestatístico?
Definir a pergunta
– Efeitos do treinamento em mulheres
Qual o tipo de estudo e a abordagem estatística a utilizar?
– Observacional. Estatística descritiva e inferencial.
Que variáveis e como medi-las? Tipo de variável?
– Antropometria e questionários (quantitativa)
Qual a população e a amostra?
– Atletas e grupo controle (n=13)
Técnica de amostragem?
– Conveniência Como mostrar seus
dados????
TABELAS E GRÁFICOS
Principais formas de exposição e resumo dos dados
Aplicados a qualquer tipo de variável
Alguns são mais utilizados em determinadas análises
Interpretação correta permite uma análise (descritiva e inferencial) mais rápida e aprofundada da pesquisa
TABELAS E GRÁFICOS
TABELAS E GRÁFICOS
GRÁFICOS EM SETORES “PIE-CHARTS”
TABELAS E GRÁFICOS
QUADROS DE CONTINGÊNCIA
Fácil construção e interpretação
TABELAS E GRÁFICOS
QUADROS DE FREQÜÊNCIA
Freqüência Absoluta Freqüência Relativa
Valores absolutos Valores percentuais Semelhantes aos quadros de contingência, porém com
valores de freqüência dos dados
TABELAS E GRÁFICOS
Freqüência Absoluta Freqüência Relativa (%) MULHERES HOMENS MULHERES HOMENSSOLTEIROS 25 17 59,5 40,5
CASADOS 3 4 42,9 57,1
DIVORCIADOS 2 1 66,7 33,3
Freqüência Absoluta Freqüência Relativa (%) Divorciados solteiros casados Divorciados Solteiros casados
Homens 1 17 4 4,5 77,3 18,2
Mulheres 2 25 3 6,7 83,3 10
TABELAS E GRÁFICOS
Há quadros de freqüência que possuem os valores das freqüências absoluta e relativa de forma acumulada
MULHER ES Freqüência Absoluta Freqüência Relativa (%) Freqüência Absoluta Acumulada Freqüência Relativa Acumulada (%) Solteiras 25 83,3 25 83,3 Casadas 3 10 28 93,3 Divorciad as 2 6,7 30 100
TABELAS E GRÁFICOS
GRÁFICOS DE BARRASGráficos no plano cartesiano
Eixo X Eixo Y
Valores da variável Quantidade de observações para cada valor da variável
Empregados em larga escala nos textos científicos - Histogramas
TABELAS E GRÁFICOS
TABELAS E GRÁFICOS
HISTOGRAMAS
Dados quantitativos – intervalos de valores Semelhantes aos gráficos de barras.
Apresentam intervalos dos dados da variável de interesse no eixo X e a sua quantificação no eixo Y
Fundamental compreensão – análises futuras
Distribuições de Probabilidade
TABELAS E GRÁFICOS
TABELAS E GRÁFICOS
GRÁFICOS DE CAIXAS (BOX-PLOTS )
Utilizados para variáveis numéricas
Grande aplicabilidade na estatística descritiva e, principalmente, na inferencial
Visualizado em função da Média
Visualizado em função da Mediana
TABELAS E GRÁFICOS
MÉDIA MEDIANA
TABELAS E GRÁFICOS
Gráficos de Dispersão (Scatter-plots)
Gráficos também empregados no plano cartesiano
Cada “indivíduo” da amostra possui duas ou mais variáveis que formam pares de dados
Determina o “desenho gráfico” das relações entre duas ou mais variáveis Variáveis Quantitativas (maioria das vezes)
TABELAS E GRÁFICOS
TABELAS E GRÁFICOS
TABELAS E GRÁFICOS
Exercícios:
1) Faça um histograma com 5 intervalos dos dados abaixo: n = (11,12,12,12,12,15,16,17,18,18,19,20,21,21,22,24,28,31,33)
2) Faça um scatter-plot dos pares ordenados abaixo: n = (11-12,14-12,12-15,16-22,21-24,23-22,22-33,14-15,17-12)
APRESENTAÇÃO
DAS VARIÁVEIS
Variáveis Qualitativas Proporções e Percentagens Razões e Taxas Tabelas de contingência Quadros de freqüência Gráficos em setores Gráficos em barras Variáveis Quantitativas Medidas de Tendência Central Medidas de Dispersão Histogramas Gráficos de caixas Gráficos de DispersãoVARIÁVEIS QUALITATIVAS
parte proporção todo = parte razão outra parte = parte taxa= multiplicador total× Proporções Percentagens Razões Taxas percentagens = proporção×100%VARIÁVEIS QUALITATIVAS
Exemplos:Freqüência Absoluta Freqüência Relativa (%) N = 52 Divorciados solteiros casados Divorciados Solteiros casados
Homens 1 17 4 4,5 77,3 18,2
Mulheres 2 25 3 6,7 83,3 10
1) Qual a proporção de homens solteiros: a) Com relação a todos os homens b) Com relação a toda a amostra 2) Qual o percentual de mulheres casadas: a) Com relação a todas as mulheres b) Com relação a toda a amostra
3) Qual a razão entre mulheres solteiras e homens solteiros? 4) Qual a taxa esperada de
mulheres solteiras se tivéssemos uma amostra com 1000 pessoas ?
MEDIDAS DE
TENDÊNCIA CENTRAL
Também denominadas de medidas de posição – população ou amostraObjetivo principal de representar os dados com um único valor
MEDIANA MÉDIAS MODA
Aritmética Geométrica Ponderada
MEDIDAS DE
TENDÊNCIA CENTRAL
Conhecida somente como média
MÉDIA ARITMÉTICA
Medida de tendência central mais utilizada Soma dos valores da variável dividido pelo nº de valores
N
x
N
x
x
x
X
n i i n∑
==
+
+
+
=
1 2...
1MEDIDAS DE
TENDÊNCIA CENTRAL
MÉDIA ARITMÉTICAFortemente influenciado por valores extremos
Ex 1) Dê a média do grupo (2,6,9,11,15) Símbolo na população - µ Símbolo na amostra - Ā
Valores extremos abaixo da média Assimetria para esquerda
Valores extremos acima da média Assimetria para direita
Utilizada para dados numéricos simétricos
MEDIDAS DE
TENDÊNCIA CENTRAL
Assimetria para esquerda ou direita?
MEDIDAS DE
TENDÊNCIA CENTRAL
Utilizada em dados medidos por escalas logarítmicas
MÉDIA GEOMÉTRICA
É dada pela raiz n-ésima da multiplicação dos dados da variável, sendo n o nº de valores existentes na variável
1
1 2
(
*
* ,
)
nG n
X
=
X
X
K
X
Ex 2) Dê a média geométrica do grupo (2,6,9,11)
MEDIDAS DE
TENDÊNCIA CENTRAL
Utilizada principalmente em quadros de freqüências com intervalos quando não sabemos
o valor real de cada “indivíduo”
MÉDIA PONDERADA
Utilizada também quando há a necessidade de se atribuir “pesos” diferentes para os valores das variáveis
MEDIDAS DE
TENDÊNCIA CENTRAL
IDADE (ANOS) Nº ALUNOS < 21 0 21 – 25 25 26 – 30 15 31 – 35 6 36 – 40 4 40 – 45 2 MÉDIA PONDERADA
Ex 3) Encontre a média ponderada
da tabela abaixo Ex 4) Encontre a média ponderada da tabela abaixo, sabendo que o sexo feminino tem peso 2
IDADE (ANOS) SEXO 22 Masculino 25 Feminino 30 Feminino 33 Masculino 20 Feminino 40 Masculino
MEDIDAS DE
TENDÊNCIA CENTRAL
Observação média dos dados (M ou Md)
MEDIANA
Metade dos valores dos dados ficam abaixo da mediana e a outra metade acima
Nº dados ímpares Nº dados pares
Mediana é o valor central Mediana é a média dos dois valores do meio
DADOS EM ORDEM NUMÉRICA
MEDIDAS DE
TENDÊNCIA CENTRAL
Ex 1) Encontre a média e a mediana dos grupos abaixo:
MEDIANA
Grupo 1 = (11,7,9,8,5,1)
Conclusão a partir da comparação entre os dois grupos? Grupo 2 = (11,55,7,8,9,1,5)
Importante ferramenta – não sofre influência de valores extremos
Pode ser utilizada para dados ordinais e para dados numéricos sem distribuição simétrica
MEDIDAS DE
TENDÊNCIA CENTRAL
Corresponde ao valor que ocorre com maior freqüência
MODA
Pode ocasionar medidas centrais diferentes daquelas importantes para o entendimento da amostra
Pouca aplicabilidade para a Bioestatística
Ex: Dê a moda dos grupos abaixo e compare com a média
Grupo 1 = (1,2,2,2,6,8,9,12) Grupo 2 = (1,2,2,2,6,8,9,9,9,12)
MEDIDAS DE
TENDÊNCIA CENTRAL
Fatores importantes na escolha das medidas de tendência central
Escalas de medição: Formas de distribuição:
Qualitativa ou Quantitativa Simétrica ou assimétrica
Desenho do estudo Histogramas
MEDIDAS DE DISPERSÃO
Demonstram a variabilidade dos dados Representam, junto com as medidas de tendência central, o conjunto dos dados
Relacionada à Medida de tendência central empregada AMPLITUDE VARIÂNCIA
DESVIO-PADRÃO COEFICIENTE DE VARIAÇÃO
MEDIDAS DE DISPERSÃO
Diferença entre o maior e o menor valor da amostra
AMPLITUDE
Idéia da variabilidade dos dados Pouca utilização em trabalhos científicos
Ex: Determine a amplitude do grupo (11,43,53,22,49,5)
Desvio médio absoluto
Mede o desvio médio dos valores em relação à média do grupo
MEDIDAS DE DISPERSÃO
2 2 11
(
)
n X i X iX
n
σ
µ
==
∑
−
Determina a variabilidade de todos os valores ao redor da média
VARIÂNCIA
Pouco significado prático. Útil para os testes estatísticos
Variância Populacional Variância Amostral
2 2 1
1
(
)
1
n X i iS
X
X
n
==
−
−
∑
MEDIDAS DE DISPERSÃO
Determina a variabilidade MÉDIA de todos os valores ao redor da média
DESVIO-PADRÃO
Medida de dispersão mais utilizada na estatística descritiva
Raiz quadrada da Variância
Desvio-padrão: σ (populacional); S ou DP (amostral)
MEDIDAS DE DISPERSÃO
2 11
(
)
n X i X iX
n
σ
µ
==
∑
−
Desvio-padrão Populacional Desvio-padrão Amostral
2 1 1 ( ) 1 n X i i DP X X n = = − −
∑
A diferença existente entre as variâncias e os desvios-padrão (populacionais ou amostrais) ocorre no denominador
GRAU DE LIBERDADE: gl = (n-1)
Encontrado em diversos testes estatísticos
MEDIDAS DE DISPERSÃO
EXEMPLOSEx 1) Retire das tabelas abaixo a média, mediana, amplitude, variância e desvio-padrão. Compare os valores e explique as diferenças
Tabela 1 Tabela 3 Média ( ) 5 5 Mediana (Md) 4,5 5 Amplitude 6 2 Variância (S2) 6,4 0,8 Desvio-padrão (DP) 2,53 0,89 X
MEDIDAS DE DISPERSÃO
COEFICIENTE DE VARIAÇÃO – CV
Medida de dispersão relativa. Compara a variabilidade entre variáveis de diferentes medidas
*100% DP CV
X =
Dado pela divisão do desvio-padrão sobre a média amostral Termo percentual ou absoluto
Ex: Qual das variáveis abaixo possui a maior variabilidade?
PA = 120 12 mmHg IMC = 25 3 m/kg2
MEDIDAS DE DISPERSÃO
PERCENTIS
Trabalha com o percentual da variável. São ao todo, em qualquer dado, 99 valores,
dividindo a amostra em 100 partes iguais
INTERVALO INTERQUARTIL
Medida de variação que se utiliza dos percentis Divide a amostra em 4 partes iguais a partir de 3 percentis (25%, 50%, 75%)
MEDIDAS DE DISPERSÃO
PERCENTISPrimeiro quartil = até 25% da amostra Segundo quartil = entre 25% e 50% da amostra Terceiro quartil = entre 50% e 75% da amostra Quarto quartil = entre 75% e 100% da amostra O percentil 50% divide a amostra ao meio = MEDIANA
GRÁFICO DE CAIXA
BOX-PLOT
GRÁFICO DE CAIXA
BOX-PLOT
PESQUISA
MEDIDAS DE TENDÊNCIA CENTRAL
MEDIDAS DE DISPERSÃO ESTATÍSTICA DESCRITIVA
ANÁLISE GRÁFICA CONCEITOS BÁSICOS
PESQUISA
PROCEDIMENTO IDEAL: POPULAÇÃO VERDADE PLENA PROCEDIMENTO VIÁVEL: AMOSTRA ESTATÍSTICA IMPOSSÍVEL POSSÍVELPESQUISA
ESTUDAR AS AMOSTRAS ESTUDO DE POPULAÇÕES ESTATÍSTICA INFERENCIALEXTRAPOLAR OS DADOS PARA TODA A POPULAÇÃO
PESQUISA
UTILIZAÇÃO DE AMOSTRAS
Espera-se que os resultados possam ser extrapolados para a população da qual a amostra tenta ser representativa
PREÇO
DEPENDERÁ DO EMPREGO CORRETO DA ESTATÍSTICA INFERÊNCIA ESTATÍSTICA
PESQUISA
AMOSTRAS VANTAGENS DESVANTAGENS Estimativa populacional Não sabemos a verdade plenaAnálise estatística é fundamental
Maior rapidez e menor custo Maior homogeneidade Maior acurácia nos resultados
INFERÊNCIA ESTATÍSTICA
DISTRIBUIÇÃO DE PROBABILIDADES
GALGADA NOS PRINCÍPIOS DA PROBABILIDADE