An ´alise de Dados Categ ´oricos
Introduc¸ ˜ao `a Disciplina
Enrico A. Colosimo/UFMG Depto. Estat´ıstica - ICEx - UFMG
Disciplina
An ´alise de Dados Categ ´oricos
Resposta vs Covari ´aveis Resposta: categ ´orica
Nesta disciplina vamos estender para Resposta Discreta.
Resposta
1 Categ ´oricas
Nominais: g ˆenero, rac¸a, religi ˜ao, status (doente/saud ´avel), etc Ordinais: IMC (eutr ´ofico, sobrepeso, obeso); Infecc¸ ˜ao (sem, mono ou poli), etc.
2 Discreta (contagem)
n ´umero de c ´aries por paciente;
Estimac¸ ˜ao - Preval ˆencia
Pesquisa Cient´ıfica Análise Estatística Desenho Estudo Pergunta Tipos de Desenho Efeitos: transversal/longitudinal Viés/Confundimento Validade externa Descritiva/Exploratória Inferencial/Confirmatória 6/50
Pesquisa Cient´ıfica
1 Pergunta de Interesse;
2 Desenho do Estudo/Coleta dos Dados/Observar; 3 An ´alise Estat´ıstica: Modelar/Predizer;
Conhecer o Banco de Dados;
An ´alise Descritiva (cada vari ´avel separadamente); An ´alise Bivariada (resposta vs cada covari ´avel);
Pergunta de Interesse
Comparac¸ ˜ao de Grupos.
Identificac¸ ˜ao de Fatores de Risco ou Progn ´ostico. Estimac¸ ˜ao/Predic¸ ˜ao.
Desenho do Estudo
1 Tipos de Desenho de Estudo. 2 Efeito Transversal vs Longitudinal. 3 Tipos de Vi ´es.
Perguntas Relevantes
Os grupos s ˜ao compar ´aveis?
As vari ´aveis de confus ˜ao foram medidas/controladas? ´
E poss´ıvel alocar tratamento `as unidades amostrais de forma aleat ´oria?
Os erros de medic¸ ˜ao podem ser medidos e controlados? As perdas (dados perdidos) podem viciar os resultados? Podemos estender os resultados para outros estudos?
Tipos de Estudos
1 Estudos Transversais
2 Estudos Longitudinais
Observacionais;
Coorte (prospectivo ou hist ´orico); Caso-controle (retrospectivo);
Estudo Transversal ou de Preval ˆencia
Caracter´ısticas B ´asicas
Amostra tomada em um tempo pr ´e-determinado;
Causalidade reversa (imposs´ıvel determinar causa e efeito). N ˜ao ´e apropriado para estudar doenc¸as raras e nem de curta durac¸ ˜ao.
Estudo de Coorte
Caracter´ısticas B ´asicas Estudos observacionais;
Grupos de comparac¸ ˜ao (brac¸os da coorte): usualmente definidos pela presenc¸a ou n ˜ao de uma exposic¸ ˜ao de interesse;
Podem ser prospectivos (forma mais comum) ou retrospectivo/hist ´orico.
Estudo Caso-Controle
Caracter´ısticas B ´asicas
Estudos observacionais e retrospectivos;
Grupos de comparac¸ ˜ao: definidos pela presenc¸a ou n ˜ao de uma doenc¸a de interesse.
Estudo Cl´ınico Aleatorizado
Caracter´ısticas B ´asicas
Presenc¸a de grupos de comparac¸ ˜ao.
Estudos experimentais. Isto ´e, a intervenc¸ ˜ao do investigador consiste em aleatorizar indiv´ıduo ao grupo;
Vantagem: controla por fatores de confus ˜ao medidos e n ˜ao medidos.
Vi ´es
1 Desvio da verdade por defeito no delineamento ou na conduc¸ ˜ao
de um estudo.
2 Erro sistem ´atico no delineamento, conduc¸ ˜ao e an ´alise de um
estudo resultando em erro na estimativa da magnitude da associac¸ ˜ao entre vari ´avel explicativa e a resposta de interesse.
Fontes de Vi ´es
1 Fatores de confus ˜ao.
2 Vi ´es de Selec¸ ˜ao: alocac¸ ˜ao das unidades de an ´alise privilegia
subgrupos com probabilidade diferenciada de apresentar a resposta. Exemplo: Perda de acompanhamento em estudos longitudinais.
3 Vi ´es de Informac¸ ˜ao: erro sistem ´atico na classificac¸ ˜ao das
Fator de Confus ˜ao
Definic¸ ˜ao: Um terceiro fator que est ´a associado tanto com a exposic¸ ˜ao/covari ´avel quanto com a resposta/doenc¸a, mas n ˜ao se encontra no elo causal entre eles.
Exposição Doença
Confundimento
Fator de Confus ˜ao
Duas condic¸ ˜oes para caracterizar um fator de confus ˜ao: Ser associado com a covari ´avel/exposic¸ ˜ao sem ser sua consequ ˆencia.
Estar associado com o resposta/desfecho independente da exposic¸ ˜ao.
Confundimento: Exemplos
Idade na associc¸ ˜ao entre fumo e c ˆancer de est ˆomago.
Fumo na associac¸ ˜ao entre consumo de caf ´e e c ˆancer de pulm ˜ao. (contra-exemplo: no elo causal?) Colesterol na associac¸ ˜ao entre dieta e infarto.
Validac¸ ˜ao do Estudo
Validade Interna: sujeito a confundimento e vi ´es;
Validade Externa: representatividade da amostra.
Validade do Estudo/Amostra
1 Crit ´erio de inclus ˜ao e exclus ˜ao restritivo ==> populac¸ ˜ao pequena
Validade Interna: aumenta;
Validade Externa: diminue.
2 Crit ´erio de inclus ˜ao e exclus ˜ao flex´ıvel ==> populac¸ ˜ao grande
Validade Interna: dimunue.
Validade Externa: aumenta.
Resposta e Covari ´aveis 1 Resposta/Desfecho Cont´ınua; Discreta/Contagem; Categ ´orica. 2 Covari ´aveis
Como identificar o modelo adequado?
1 Modelos para Resposta Cont´ınua.
Regress ˜ao linear m ´ultipla.
Modelos de An ´alise de Sobreviv ˆencia: Param ´etrico ou de Cox. Modelos beta, gama, etc.
2 Modelos para Resposta Categ ´orica ou Contagem.
Modelo Log-Linear (Tabela de Conting ˆencia). Modelo de Regress ˜ao de Poisson: contagem.
Modelo de Regress ˜ao Log´ıstica (bin ´aria ou polit ˆomica).
Programa da Disciplina
1 Conceitos B ´asicos: escalas de medida, distribuic¸ ˜ao binomial,
infer ˆencia no modelo binomial.
2 Tabelas de Conting ˆencia: tabelas 2 × 2, esquemas amostrais,
tipos de estudos, testes qui-quadrado e da raz ˜ao de
verossimilhanc¸as, medidas de associac¸ ˜ao, amostras pareadas, tabelas r × c.
3 Modelo Log-linear: an ´alise estratificada, teste de
Mantel-Haenszel, tabelas multidimensionais, modelos de independ ˆencia m ´utua, marginal e condicional, infer ˆencia para modelos log-lineares.
4 Modelo de Regress ˜ao de Poisson: forma do modelo, infer ˆencia
Exemplo: Ecologia
Descric¸ ˜ao: ecologistas desejam estudar o equil´ıbrio entre machos e f ˆemeas de uma certa esp ´ecie, em risco de extinc¸ ˜ao, em uma certa localidade.
Desenho Amostral: uma amostra aleat ´oria de tamanho 20 foi retirada desta localidade, obtendo 8 machos e 12 f ˆemeas. O que podemos concluir a partir desta amostra?
Formulac¸ ˜ao Estat´ıstica
Amostra: Y1, . . . ,Y20; Y : 0/1 (macho/f ˆemea) Considere a estat´ıstica:
X = 20 X
i=1
yi :n ´umero de f ˆemeas na amostra de tamanho 20
X ∼ bin(n = 20, π)
π =P(Y = 1): probabilidade de ocorrer uma f ˆemea. Pergunta de Interesse (teste de hip ´oteses):
Propostas de Soluc¸ ˜ao
1 Enfoque Cl ´assico
Teste Exato
Testes Aproximados: qui-quadrado, Wald, raz ˜ao de
verossimilhanc¸as, etc
2 Enfoque Computacional: Monte Carlo e bootstrap 3 Enfoque Bayesiano
Teste de Hip ´oteses
1 Enfoque Cl ´assico: encontrar uma estat´ıstica teste cuja
distribuic¸ ˜ao, sob H0, ´e conhecida.
Teste Exato: distribuic¸ ˜ao exata (dif´ıcil de ser encontrada). Testes Aproximados/assint ´otico: distribuic¸ ˜ao aproximada/limite.
2 Enfoque Computacional (Monte Carlo e bootstrap): desenhar
(histograma) a distribuic¸ ˜ao. Usualmente, utilizamos a mesma estat´ıstica teste do enfoque cl ´assico.
1- Teste Exato X = 20 X i=1 yi
´e a estat´ıstica teste.
X ∼ bin(n, π), n = 20. sob H0: π = π0temos que:
X ∼ bin(n, πo) Exemplo: π0=0, 5
valor-p = 2 P(X ser igual ou mais desfavor ´avel que12|π = 0, 5] .
Exemplo - sob H0 0 5 10 15 20 0.00 0.05 0.10 0.15 x prob
Intervalo de confianc¸a
Baseado na invers ˜ao da Regi ˜ao de Rejeic¸ ˜ao (Bickel e Doksum, p.180).
1 Limite inferior (π
I) ´e a soluc¸ ˜ao de: 20 X r =12 20 r πrI(1 − πI)20−r =0, 025 ⇒ πI =0, 361 2 Limite superior (π
S) ´e a soluc¸ ˜ao de 12 X r =0 20 r πSr(1 − πS)20−r =0, 025 ⇒ πS =0, 809
Um intervalo de 95% de confianc¸a para π ´e (0, 36; 0, 81).
2.Teste Qui-Quadrado (mais utilizado)
´
E o teste assint ´otico mais utilizado na pr ´atica, com a seguinte express ˜ao: χ2= 2 X i=1 (ni− Ei)2 Ei No nosso caso: χ2= (x − nπ 0)2 nπ0 + ((n − x ) − n(1 − π0))2 n(1 − π0) = (12 − 10)2 10 + (8 − 10)2 10 =0, 8
2- Teste Qui-Quadrado
Sob H0, χ2tem uma dist. limite qui-quadrado com 1 g.l.
0 1 2 3 4 5 6 0.0 0.5 1.0 1.5 x f(x) valor-p = P[χ2>0, 8] = 0, 371 34/50
Intervalo de Confianc¸a
Baseado na invers ˜ao da Regi ˜ao de Rejeic¸ ˜ao RR(x /χ2> χ21−α)
Invertendo RR, temos o Intervalo de (1 − α)100% de confianc¸a para π: {π0∈ (0, 1)/χ2= χ21−α}
e para o valor observado X = 12 e α = 0, 05,
Intervalo de Confianc¸a IC(π0/X = 12, α = 0, 05) ⇒ χ2=3, 84 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 2 4 6 8 10 pi X2
Um intervalo de 95% de confianc¸a para π ´e (0, 385; 0, 782)
3- Aproximac¸ ˜ao Binomial pela Normal
X ∼ bin(n, π) pode ser aproximado por
X ∼ N(nπ, nπ(1 − π))
valor-p = 2P[X ≥ 12|π = 1/2] = 2P[Z ≥ 2/√5] = 0, 371 Pode-se mostrar que, neste caso, ´e exatamente igual ao teste
3- Aproximac¸ ˜ao Normal: Intervalo de Confianc¸a ˆ π ±1, 96 r ˆ π(1 − ˆπ) 20 0, 60 ± 1, 96 r 0, 24 20 ⇒ (0, 39; 0, 82) 38/50
4 - Simulac¸ ˜ao de Monte Carlo
X ∼ bin(20, π)
Sob H0:X ∼ bin(20, 1/2) Gerar 2000 bin(20, 1/2)
Vamos utilizar a estat´ıstica Qui-Quadrado
Xj2= 2 X i=1 (nij − Ei)2 Ei ; j = 1, . . . , 2000
4- Simulac¸ ˜ao de Monte Carlo
´
E poss´ıvel desenhar a verdadeira distribuic¸ ˜ao de χ2fazendo um histograma dos 2000 valores observados de χ21, ...., χ22000
Histogram of xsq x f(x) 0 2 4 6 8 10 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Intervalo de 95% de confianc¸a para π ´e (0, 4; 0, 8) (gerando π = 0, 6). 40/50
5- Bootstrap (Efron e Tibshirani, 1993)
Amostragem com reposic¸ ˜ao sob H0 Efron e Tibshirani (1993, p.224-27). Gerar b=2000 amostras com reposic¸ ˜ao e
Xj2= 2 X i=1 (nij− Ei)2 Ei = 2[(nij − 2) − 10] 2 10 j= 1,...,b
Bootstrap (Efron e Tibshirani, 1993)
Intervalo de confianc¸a Bootstrap percent´ılico P
¯[500] = 0, 40 ¯
P[19500] = 0, 80
Infer ˆencia Cl ´assica
Infer ˆencia cl ´assica foi a estudada at ´e o momento
Frequentista: frequ ˆencia relativa de diferentes resultados em um n ´umero grande de experimentos repetidos;
1 Toda a informac¸ ˜ao sobre π est ´a contida na amostra; 2 π ´e fixo e desconhecido;
3 Uso de aproximac¸ ˜oes (resultados assint ´oticos); 4 Interpretados por repetic¸ ˜ao/frequ ˆencia;
Infer ˆencia Bayesiana
A probabilidade ´e uma medida subjetiva da ignor ˆancia sobre π.
1 A informac¸ ˜ao est ´a contida na amostra e na informac¸ ˜ao subjetiva a
priori;
2 π ´e aleat ´orio (representando a incerteza sobre a quantidade
desconhecida);
3 Interpretac¸ ˜oes s ˜ao probabil´ısticas;
4 Dificuldade de quantificac¸ ˜ao da distribuic¸ ˜ao a priori; 5 Dificuldade num ´erica: integrar func¸ ˜oes.
Enfoque Bayesiano
Uso de probabilidade para quantificar incerteza. π ∼p(π): distribuic¸ ˜ao a priori
x |π ∼ bin(n, π): dados (verossimilhanc¸a)
Regra de Bayes: encontrar a distribuic¸ ˜ao a posteriori de π p(π|x ) = p(π,x )p(x ) = p(x |π)p(π)p(x ) ∝ p(x|π)p(π)
6- Retornando ao exemplo de Ecologia
p(π): Beta (α, β) conjugada da binomial.
p(π) = Γ(α)Γ(β)Γ(α+β)πα−1(1 − π)β−1; 0 < π < 1 p(π|x ) ∝ [πα−1(1 − π)β−1]πx(1 − π)n−x p(π|x ) ∝ πα+x −1(1 − π)n+β−x −1
beta(α + x , n + β − x )
Infer ˆencia Bayesiana
Como especificar α e β? (Informac¸ ˜ao a priori)
Por exemplo, utilizar α = β = 1, distribuic¸ ˜ao uniforme. Ent ˜ao temos:
π|x ∼ beta(1 + x , n − x + 1) Nosso caso: π|x ∼ beta(13, 9)
Resumindo Infer ˆencia a posteriori M ´edia = E (π) = α+βα = 13+913 = 1322 Moda = α+β−2α−1 = 1220 Vari ˆancia= (α+β)2αβ(α+β+1) = 139 22223
I.C Assint ´otico 1322 ± 1.96pVar (π) = (0, 39; 0, 79)
Int. Credibilidade a posteriori
Usando MC a partir da beta (13, 9)
Histogram of pi frequência 0 500 1000 1500
Resumo dos Resultados
Teste Valor-p I.C.
Exato 0,503 (0,361;0,809) Qui-Quadrado 0,371 (0,385;0,782) Aprox. Normal 0,371 (0,385;0,815) Monte Carlo ≈0,50 (0,4;0,8) Bootstrap ≈0,50 (0,4;0,8) Bayesiano (0,38;0,78) 50/50