• Nenhum resultado encontrado

Análise de Dados Categóricos

N/A
N/A
Protected

Academic year: 2021

Share "Análise de Dados Categóricos"

Copied!
50
0
0

Texto

(1)

An ´alise de Dados Categ ´oricos

Introduc¸ ˜ao `a Disciplina

Enrico A. Colosimo/UFMG Depto. Estat´ıstica - ICEx - UFMG

(2)

Disciplina

An ´alise de Dados Categ ´oricos

Resposta vs Covari ´aveis Resposta: categ ´orica

Nesta disciplina vamos estender para Resposta Discreta.

(3)

Resposta

1 Categ ´oricas

Nominais: g ˆenero, rac¸a, religi ˜ao, status (doente/saud ´avel), etc Ordinais: IMC (eutr ´ofico, sobrepeso, obeso); Infecc¸ ˜ao (sem, mono ou poli), etc.

2 Discreta (contagem)

n ´umero de c ´aries por paciente;

(4)

Estimac¸ ˜ao - Preval ˆencia

(5)
(6)

Pesquisa Cient´ıfica Análise Estatística Desenho Estudo Pergunta Tipos de Desenho Efeitos: transversal/longitudinal Viés/Confundimento Validade externa Descritiva/Exploratória Inferencial/Confirmatória 6/50

(7)

Pesquisa Cient´ıfica

1 Pergunta de Interesse;

2 Desenho do Estudo/Coleta dos Dados/Observar; 3 An ´alise Estat´ıstica: Modelar/Predizer;

Conhecer o Banco de Dados;

An ´alise Descritiva (cada vari ´avel separadamente); An ´alise Bivariada (resposta vs cada covari ´avel);

(8)

Pergunta de Interesse

Comparac¸ ˜ao de Grupos.

Identificac¸ ˜ao de Fatores de Risco ou Progn ´ostico. Estimac¸ ˜ao/Predic¸ ˜ao.

(9)

Desenho do Estudo

1 Tipos de Desenho de Estudo. 2 Efeito Transversal vs Longitudinal. 3 Tipos de Vi ´es.

(10)

Perguntas Relevantes

Os grupos s ˜ao compar ´aveis?

As vari ´aveis de confus ˜ao foram medidas/controladas? ´

E poss´ıvel alocar tratamento `as unidades amostrais de forma aleat ´oria?

Os erros de medic¸ ˜ao podem ser medidos e controlados? As perdas (dados perdidos) podem viciar os resultados? Podemos estender os resultados para outros estudos?

(11)

Tipos de Estudos

1 Estudos Transversais

2 Estudos Longitudinais

Observacionais;

Coorte (prospectivo ou hist ´orico); Caso-controle (retrospectivo);

(12)

Estudo Transversal ou de Preval ˆencia

Caracter´ısticas B ´asicas

Amostra tomada em um tempo pr ´e-determinado;

Causalidade reversa (imposs´ıvel determinar causa e efeito). N ˜ao ´e apropriado para estudar doenc¸as raras e nem de curta durac¸ ˜ao.

(13)

Estudo de Coorte

Caracter´ısticas B ´asicas Estudos observacionais;

Grupos de comparac¸ ˜ao (brac¸os da coorte): usualmente definidos pela presenc¸a ou n ˜ao de uma exposic¸ ˜ao de interesse;

Podem ser prospectivos (forma mais comum) ou retrospectivo/hist ´orico.

(14)

Estudo Caso-Controle

Caracter´ısticas B ´asicas

Estudos observacionais e retrospectivos;

Grupos de comparac¸ ˜ao: definidos pela presenc¸a ou n ˜ao de uma doenc¸a de interesse.

(15)

Estudo Cl´ınico Aleatorizado

Caracter´ısticas B ´asicas

Presenc¸a de grupos de comparac¸ ˜ao.

Estudos experimentais. Isto ´e, a intervenc¸ ˜ao do investigador consiste em aleatorizar indiv´ıduo ao grupo;

Vantagem: controla por fatores de confus ˜ao medidos e n ˜ao medidos.

(16)

Vi ´es

1 Desvio da verdade por defeito no delineamento ou na conduc¸ ˜ao

de um estudo.

2 Erro sistem ´atico no delineamento, conduc¸ ˜ao e an ´alise de um

estudo resultando em erro na estimativa da magnitude da associac¸ ˜ao entre vari ´avel explicativa e a resposta de interesse.

(17)

Fontes de Vi ´es

1 Fatores de confus ˜ao.

2 Vi ´es de Selec¸ ˜ao: alocac¸ ˜ao das unidades de an ´alise privilegia

subgrupos com probabilidade diferenciada de apresentar a resposta. Exemplo: Perda de acompanhamento em estudos longitudinais.

3 Vi ´es de Informac¸ ˜ao: erro sistem ´atico na classificac¸ ˜ao das

(18)

Fator de Confus ˜ao

Definic¸ ˜ao: Um terceiro fator que est ´a associado tanto com a exposic¸ ˜ao/covari ´avel quanto com a resposta/doenc¸a, mas n ˜ao se encontra no elo causal entre eles.

Exposição Doença

Confundimento

(19)

Fator de Confus ˜ao

Duas condic¸ ˜oes para caracterizar um fator de confus ˜ao: Ser associado com a covari ´avel/exposic¸ ˜ao sem ser sua consequ ˆencia.

Estar associado com o resposta/desfecho independente da exposic¸ ˜ao.

(20)

Confundimento: Exemplos

Idade na associc¸ ˜ao entre fumo e c ˆancer de est ˆomago.

Fumo na associac¸ ˜ao entre consumo de caf ´e e c ˆancer de pulm ˜ao. (contra-exemplo: no elo causal?) Colesterol na associac¸ ˜ao entre dieta e infarto.

(21)

Validac¸ ˜ao do Estudo

Validade Interna: sujeito a confundimento e vi ´es;

Validade Externa: representatividade da amostra.

(22)

Validade do Estudo/Amostra

1 Crit ´erio de inclus ˜ao e exclus ˜ao restritivo ==> populac¸ ˜ao pequena

Validade Interna: aumenta;

Validade Externa: diminue.

2 Crit ´erio de inclus ˜ao e exclus ˜ao flex´ıvel ==> populac¸ ˜ao grande

Validade Interna: dimunue.

Validade Externa: aumenta.

(23)

Resposta e Covari ´aveis 1 Resposta/Desfecho Cont´ınua; Discreta/Contagem; Categ ´orica. 2 Covari ´aveis

(24)

Como identificar o modelo adequado?

1 Modelos para Resposta Cont´ınua.

Regress ˜ao linear m ´ultipla.

Modelos de An ´alise de Sobreviv ˆencia: Param ´etrico ou de Cox. Modelos beta, gama, etc.

2 Modelos para Resposta Categ ´orica ou Contagem.

Modelo Log-Linear (Tabela de Conting ˆencia). Modelo de Regress ˜ao de Poisson: contagem.

Modelo de Regress ˜ao Log´ıstica (bin ´aria ou polit ˆomica).

(25)

Programa da Disciplina

1 Conceitos B ´asicos: escalas de medida, distribuic¸ ˜ao binomial,

infer ˆencia no modelo binomial.

2 Tabelas de Conting ˆencia: tabelas 2 × 2, esquemas amostrais,

tipos de estudos, testes qui-quadrado e da raz ˜ao de

verossimilhanc¸as, medidas de associac¸ ˜ao, amostras pareadas, tabelas r × c.

3 Modelo Log-linear: an ´alise estratificada, teste de

Mantel-Haenszel, tabelas multidimensionais, modelos de independ ˆencia m ´utua, marginal e condicional, infer ˆencia para modelos log-lineares.

4 Modelo de Regress ˜ao de Poisson: forma do modelo, infer ˆencia

(26)

Exemplo: Ecologia

Descric¸ ˜ao: ecologistas desejam estudar o equil´ıbrio entre machos e f ˆemeas de uma certa esp ´ecie, em risco de extinc¸ ˜ao, em uma certa localidade.

Desenho Amostral: uma amostra aleat ´oria de tamanho 20 foi retirada desta localidade, obtendo 8 machos e 12 f ˆemeas. O que podemos concluir a partir desta amostra?

(27)

Formulac¸ ˜ao Estat´ıstica

Amostra: Y1, . . . ,Y20; Y : 0/1 (macho/f ˆemea) Considere a estat´ıstica:

X = 20 X

i=1

yi :n ´umero de f ˆemeas na amostra de tamanho 20

X ∼ bin(n = 20, π)

π =P(Y = 1): probabilidade de ocorrer uma f ˆemea. Pergunta de Interesse (teste de hip ´oteses):

(28)

Propostas de Soluc¸ ˜ao

1 Enfoque Cl ´assico

Teste Exato

Testes Aproximados: qui-quadrado, Wald, raz ˜ao de

verossimilhanc¸as, etc

2 Enfoque Computacional: Monte Carlo e bootstrap 3 Enfoque Bayesiano

(29)

Teste de Hip ´oteses

1 Enfoque Cl ´assico: encontrar uma estat´ıstica teste cuja

distribuic¸ ˜ao, sob H0, ´e conhecida.

Teste Exato: distribuic¸ ˜ao exata (dif´ıcil de ser encontrada). Testes Aproximados/assint ´otico: distribuic¸ ˜ao aproximada/limite.

2 Enfoque Computacional (Monte Carlo e bootstrap): desenhar

(histograma) a distribuic¸ ˜ao. Usualmente, utilizamos a mesma estat´ıstica teste do enfoque cl ´assico.

(30)

1- Teste Exato X = 20 X i=1 yi

´e a estat´ıstica teste.

X ∼ bin(n, π), n = 20. sob H0: π = π0temos que:

X ∼ bin(n, πo) Exemplo: π0=0, 5

valor-p = 2 P(X ser igual ou mais desfavor ´avel que12|π = 0, 5] .

(31)

Exemplo - sob H0 0 5 10 15 20 0.00 0.05 0.10 0.15 x prob

(32)

Intervalo de confianc¸a

Baseado na invers ˜ao da Regi ˜ao de Rejeic¸ ˜ao (Bickel e Doksum, p.180).

1 Limite inferior (π

I) ´e a soluc¸ ˜ao de: 20 X r =12 20 r  πrI(1 − πI)20−r =0, 025 ⇒ πI =0, 361 2 Limite superior (π

S) ´e a soluc¸ ˜ao de 12 X r =0 20 r  πSr(1 − πS)20−r =0, 025 ⇒ πS =0, 809

Um intervalo de 95% de confianc¸a para π ´e (0, 36; 0, 81).

(33)

2.Teste Qui-Quadrado (mais utilizado)

´

E o teste assint ´otico mais utilizado na pr ´atica, com a seguinte express ˜ao: χ2= 2 X i=1 (ni− Ei)2 Ei No nosso caso: χ2= (x − nπ 0)2 nπ0 + ((n − x ) − n(1 − π0))2 n(1 − π0) = (12 − 10)2 10 + (8 − 10)2 10 =0, 8

(34)

2- Teste Qui-Quadrado

Sob H0, χ2tem uma dist. limite qui-quadrado com 1 g.l.

0 1 2 3 4 5 6 0.0 0.5 1.0 1.5 x f(x) valor-p = P[χ2>0, 8] = 0, 371 34/50

(35)

Intervalo de Confianc¸a

Baseado na invers ˜ao da Regi ˜ao de Rejeic¸ ˜ao RR(x /χ2> χ21−α)

Invertendo RR, temos o Intervalo de (1 − α)100% de confianc¸a para π: {π0∈ (0, 1)/χ2= χ21−α}

e para o valor observado X = 12 e α = 0, 05,

(36)

Intervalo de Confianc¸a IC(π0/X = 12, α = 0, 05) ⇒ χ2=3, 84 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 2 4 6 8 10 pi X2

Um intervalo de 95% de confianc¸a para π ´e (0, 385; 0, 782)

(37)

3- Aproximac¸ ˜ao Binomial pela Normal

X ∼ bin(n, π) pode ser aproximado por

X ∼ N(nπ, nπ(1 − π))

valor-p = 2P[X ≥ 12|π = 1/2] = 2P[Z ≥ 2/√5] = 0, 371 Pode-se mostrar que, neste caso, ´e exatamente igual ao teste

(38)

3- Aproximac¸ ˜ao Normal: Intervalo de Confianc¸a ˆ π ±1, 96 r ˆ π(1 − ˆπ) 20 0, 60 ± 1, 96 r 0, 24 20 ⇒ (0, 39; 0, 82) 38/50

(39)

4 - Simulac¸ ˜ao de Monte Carlo

X ∼ bin(20, π)

Sob H0:X ∼ bin(20, 1/2) Gerar 2000 bin(20, 1/2)

Vamos utilizar a estat´ıstica Qui-Quadrado

Xj2= 2 X i=1 (nij − Ei)2 Ei ; j = 1, . . . , 2000

(40)

4- Simulac¸ ˜ao de Monte Carlo

´

E poss´ıvel desenhar a verdadeira distribuic¸ ˜ao de χ2fazendo um histograma dos 2000 valores observados de χ21, ...., χ22000

Histogram of xsq x f(x) 0 2 4 6 8 10 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Intervalo de 95% de confianc¸a para π ´e (0, 4; 0, 8) (gerando π = 0, 6). 40/50

(41)

5- Bootstrap (Efron e Tibshirani, 1993)

Amostragem com reposic¸ ˜ao sob H0 Efron e Tibshirani (1993, p.224-27). Gerar b=2000 amostras com reposic¸ ˜ao e

Xj2= 2 X i=1 (nij− Ei)2 Ei = 2[(nij − 2) − 10] 2 10 j= 1,...,b

(42)

Bootstrap (Efron e Tibshirani, 1993)

Intervalo de confianc¸a Bootstrap percent´ılico P

¯[500] = 0, 40 ¯

P[19500] = 0, 80

(43)

Infer ˆencia Cl ´assica

Infer ˆencia cl ´assica foi a estudada at ´e o momento

Frequentista: frequ ˆencia relativa de diferentes resultados em um n ´umero grande de experimentos repetidos;

1 Toda a informac¸ ˜ao sobre π est ´a contida na amostra; 2 π ´e fixo e desconhecido;

3 Uso de aproximac¸ ˜oes (resultados assint ´oticos); 4 Interpretados por repetic¸ ˜ao/frequ ˆencia;

(44)

Infer ˆencia Bayesiana

A probabilidade ´e uma medida subjetiva da ignor ˆancia sobre π.

1 A informac¸ ˜ao est ´a contida na amostra e na informac¸ ˜ao subjetiva a

priori;

2 π ´e aleat ´orio (representando a incerteza sobre a quantidade

desconhecida);

3 Interpretac¸ ˜oes s ˜ao probabil´ısticas;

4 Dificuldade de quantificac¸ ˜ao da distribuic¸ ˜ao a priori; 5 Dificuldade num ´erica: integrar func¸ ˜oes.

(45)

Enfoque Bayesiano

Uso de probabilidade para quantificar incerteza. π ∼p(π): distribuic¸ ˜ao a priori

x |π ∼ bin(n, π): dados (verossimilhanc¸a)

Regra de Bayes: encontrar a distribuic¸ ˜ao a posteriori de π p(π|x ) = p(π,x )p(x ) = p(x |π)p(π)p(x ) ∝ p(x|π)p(π)

(46)

6- Retornando ao exemplo de Ecologia

p(π): Beta (α, β) conjugada da binomial.

p(π) = Γ(α)Γ(β)Γ(α+β)πα−1(1 − π)β−1; 0 < π < 1 p(π|x ) ∝ [πα−1(1 − π)β−1x(1 − π)n−x p(π|x ) ∝ πα+x −1(1 − π)n+β−x −1

beta(α + x , n + β − x )

(47)

Infer ˆencia Bayesiana

Como especificar α e β? (Informac¸ ˜ao a priori)

Por exemplo, utilizar α = β = 1, distribuic¸ ˜ao uniforme. Ent ˜ao temos:

π|x ∼ beta(1 + x , n − x + 1) Nosso caso: π|x ∼ beta(13, 9)

(48)

Resumindo Infer ˆencia a posteriori M ´edia = E (π) = α+βα = 13+913 = 1322 Moda = α+β−2α−1 = 1220 Vari ˆancia= (α+β)2αβ(α+β+1) = 139 22223

I.C Assint ´otico 1322 ± 1.96pVar (π) = (0, 39; 0, 79)

(49)

Int. Credibilidade a posteriori

Usando MC a partir da beta (13, 9)

Histogram of pi frequência 0 500 1000 1500

(50)

Resumo dos Resultados

Teste Valor-p I.C.

Exato 0,503 (0,361;0,809) Qui-Quadrado 0,371 (0,385;0,782) Aprox. Normal 0,371 (0,385;0,815) Monte Carlo ≈0,50 (0,4;0,8) Bootstrap ≈0,50 (0,4;0,8) Bayesiano (0,38;0,78) 50/50

Referências

Documentos relacionados

General: Knowing the conceptual and methodological foundations of the main projective methods; Identify and understand the operational concepts of projection and distress; Identify

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

No prazo de 10 dias contada da deliberação, para os condóminos presentes, ou contada da sua comunicação, para os condómino ausentes, pode ser exigida ao administrador a convocação

e l final de Una Política Pública : análisis del ciclo Político del Proyecto destinos indUctores Para el desarrollo tUristico regional (didtr) – b rasil ...496 María Belén

Os resultados indicaram que, em ambas as espécies, a seção transversal exerceu influência na propagação da onda de ultrassom e que a velocidade longitudinal foi fortemente afetada

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Projetil encamisado por uma camisa pré-sulcada de latão endurecido, contendo chumbo não endurecido no seu interior, dotado de uma ponta oca. HYDRA SHOCK centro, que

15, estão representados os teores médios de safrol contido em óleo essencial obtido, no decorrer do progresso de extração, da biomassa aérea de pimenta longa procedente de cultivos