Inferência Estatística
Profa Alcione Miranda dos Santos
Departamento de Saúde Pública – UFMA Núcleo de Estatística e Informática – HUUFMA
Inferência Estatística
Inferências a respeito de uma população são feitas,
baseadas em uma amostra.
Inferências a respeito de uma parâmetro (
por ex. a
média populacional
)
são feitas, examinando
Inferência Estatística
Dois princípios Básicos:
Testes de Hipóteses
Estimação
Estimação Pontual
A média amostral é uma estimativa pontual da média populacional
Estimação por Intervalos
Teoria da Estimação
Em estatística, muitas vezes desejamos estimar
a proporção com que determinado evento
ocorre. Por exemplo:
Prevalência de diabéticos no munícipio de São
Luís-MA
Prevalência de fumo entre os estudantes de Medicina
da UFMA.
Se desejarmos saber tais prevalências, sem
erro aleatório, teremos que estudar toda a
população dos estudantes.
Teoria da Estimação
Através da teoria de estimação podemos tomar
uma
amostra aleatória
da população de
interesse e estimarmos, com uma
probabilidade
de erro conhecida
, a verdadeira prevalência
nesta população.
Estimação
é o processo pelo qual, usando-se
um valor amostral (
estatística
) inferimos o valor
populacional (
parâmetro
).
Teoria da Estimação
Estimador-
é uma estatística destinada a
estimar um parâmetro.
Existem dois tipos de estimação:
Estimação Pontual
Estimativa Pontual
Quando a partir de uma amostra representativa da população, o pesquisador procura obter um único valor para o parâmetro.
Exemplo: Prevalência de fumo entre os estudantes de Medicina da UFMA.
onde f é a freqüência do evento na amostra e n é o tamanho da amostra
n
f
p
ˆ
=
Estimativa por Intervalo
Neste caso, calculamos a margem de erro aleatório de uma estimativa e construímos um intervalo.
O intervalo contém o parâmetro com uma probabilidade pré- definida.
Um intervalo de confiança está associado a um grau de confiança que é a uma medida da nossa certeza que o intervalo contém o parâmetro.
Esta maneira de estimar o parâmetro é mais interessante, pois fornece elementos para se discutir a precisão da estimativa.
Estimativa por Intervalo
O grau de confiança é a probabilidade
(1-
α)
do intervalo de confiança conter o verdadeiro
valor do parâmetro.
Geralmente, adota-se
α = 1%, 5% ou 10%.
α
é chamado de
nível de significância
.
A escolha do nível de confiança depende da
Intervalo de Confiança para a
Proporção Populacional
O IC para a proporção populacional é dado por
n
p
p
z
p
IC
[
π
;
(
1
−
α
)%]
=
ˆ
±
α /2ˆ
.(
1
−
ˆ
)
Nota:
O intervalo só poderá ser construído quando f ≥ 5 e n ≥ f + 5EXEMPLO: Uma droga foi testada em 25 pacientes e apresentou efeitos colaterais em 8 casos. Qual a proporção de ocorrência de efeitos colaterais?
Estimativa pontual:
8/25 = 0,32 ou 32%.
Estimativa por intervalo:
Adotando-se um nível
de significância de 5%, tem-se:
]
53
,
0
;
15
,
0
[
25
)
68
,
0
)(
32
,
0
(
96
,
1
32
,
0
%]
95
;
[
π
=
±
=
IC
COMANDO STATA
O comando usado para construir IC para proporção é
cii n f
com
n = tamanho da amostra
f = freqüência do evento na amostra
Para o exemplo anterior, temos:
cii 25 8
Binomial Exact --Variable | Obs Mean Std. Err. [95% Conf. Interval] ---+---| 25 .32 .0932952 .1494954 .5350007
pˆ
Intervalo de Confiança para a Média
Populacional
Caso 1:
Grandes Amostras (n ≥ 30)
Caso 2:
Pequenas Amostras (n < 30)
n
s
z
x
IC
[
µ
;
(
1
−
α
)%]
=
±
α /2n
s
t
x
IC
[
µ
;
(
1
−
α
)%]
=
±
(n−1;α /2)Distribuição t Student
A distribuição de
t student
tem um tem um
formato semelhante ao da distribuição normal,
mas a curva é mais larga.
Uma característica importante da distribuição
t
Tabela t Student
Se uma distribuição t student tem 11 graus de liberdade, encontre o valor de t que faz o a área sombreada ser de 0,025
]
45
,
15
;
55
,
10
[
15
,
1
.
1315
,
2
13
%]
95
;
[
16
6
,
4
13
%]
95
;
[
(15;0,025)=
±
=
±
=
µ
µ
IC
t
IC
EXEMPLO: Com o intuito de estudar o conteúdo de ácido láctico no sangue de indivíduos com demência precoce, uma amostra de 16 pacientes foi tomada e os resultados foram os seguintes: média = 13 mg/100 ml e desvio padrão = 4,6 mg/100 ml. Estime através de intervalo de confiança a média do teor de ácido láctico no sangue de indivíduos com demência precoce.
COMANDO STATA
O comando usado para construir IC para média populacional é
cii n me sd
com
n = tamanho da amostra me = média amostral sd = desvio padrão
Para o exemplo anterior temos:
x
IC. cii 16 13 4.6
Variable | Obs Mean Std. Err. [95% Conf. Interval] ---+---| 16 13 1.15 10.54883 15.45117
n S
Testes de Hipóteses
Profa Alcione Miranda dos Santos
Departamento de Saúde Pública – UFMA Núcleo de Estatística e Informática – HUUFMA
Testes de Hipóteses
Algumas vezes existe um particular interesse
em decidir sobre a verdade ou não de uma
hipótese específica.
Por exemplo: Se dois grupos têm a mesma média ou
se o parâmetro populacional tem um valor em particular.
Teste de hipóteses
fornece-nos a estrutura para
Quando falamos em hipóteses estamos nos referindo à
perguntas sobre a relação entre variáveis, por exemplo:
A variável "doença" está associada à variável "fator de risco"?
Repare que as hipóteses são apenas fundamentais em
estudos analíticos ou experimentais.
Estudos descritivos não necessitam de hipóteses, basta
Testes de Hipóteses
Hipótese científica:
existe um efeito E.
Hipóteses estatísticas:
diferenças, associação,
estimação pontual
Hipótese nula (H
0):
ausência de diferença
Hipótese alternativa (H
A):
contrária à H
0
Testes de hipóteses:
fornecem subsídios para
Tipos de Erros
Ao tomar uma decisão a favor ou contra uma
hipótese, existem dois tipos de erros que
podemos cometer:
Erro Tipo I
e
Erro Tipo II
Erro Tipo I:
Rejeitar
a hipótese nula quando de
fato ela é
verdadeira
.
Erro Tipo II:
Aceitar
a hipótese nula quando de
Tipos de Erros
Decisão Hoverdadeira Ho falsa
Aceitar a
hipótese Decisão correta(1- α) Erro de tipo IIβ
Rejeitar a
hipótese Erro de tipo Iα
nível de significância
Decisão correta (1-β)
Testes Bilaterais e Unilaterais
Teste bilateral:
há interesse em identificar diferençapara qualquer direção.
Exemplo: droga altera a PAS
Teste unilateral:
apenas tem sentido diferença emuma direção.
Exemplo: dieta para redução do nível sérico de colesterol.
Testes de Hipóteses
Todos os testes de hipóteses têm
suposições;
As suposições devem ser verificadas;
Se alguma suposição é
violada
, então os
Testes de Hipóteses
Paramétricos:
são baseados nas
características das distribuições teóricas que a
distribuição dos dados segue.
Não-paramétricos:
não fazem suposições
sobre a distribuição dos dados. Têm menos
poder.
Passos para realizar um Teste de Hipóteses
Passo 1 : Definição da Hipótese
O primeiro passo é o estabelecimento das hipóteses:
Hipótese Nula (
H
0): É um valor suposto para um parâmetro.Se os resultados da amostra não forem muito diferentes de H0, ela não poderá ser rejeitada. Hipótese Alternativa (HA): É uma hipótese que contraria a hipótese nula, complementar de Ho, Essa hipótese somente será aceita se os resultados forem muito diferentes de Ho.
Passos para realizar um Teste de Hipóteses
Passo 2: Calcular a estatística do Teste
É o valor calculado a partir da amostra, que será usado na tomada
de decisão. Uma maneira de tomar-se uma decisão é comparar o valor tabelado com a estatística do teste.
Para o caso de testes de médias, a estatística do teste é a variável
padronizada Z: ) n ( ) X ( Zcal
σ
µ
− = Estatística do teste Variabilidade das médiasPassos para realizar um Teste de Hipóteses
Passo 3: Região Crítica
A região crítica é a região onde Ho é rejeitada. A área da região crítica é igual ao nível de significância (α), que estabelece a probabilidade de rejeitar Ho quando ela é verdadeira.
Por exemplo, se utilizarmos o nível de significância de 5%, a probabilidade de rejeitar Ho quando ela é verdadeira é igual a 5%. Na prática, os valores usuais são: α = 0,01 ou 0,05 ou 0,10.
Passos para realizar um Teste de Hipóteses
Unilateral à esquerda: Ho: µ = 50 HA: µ > 50 Unilateral à direita: Ho: µ = 50 HA: µ <50 Bilateral: Ho: µ = 50 HA: µ ≠ 50Passos para realizar um Teste de Hipóteses
Passo 4. Regra de Decisão:
Se o valor da estatística do teste cair na região crítica, rejeita-se Ho.
Ao rejeitar a hipótese nula existe uma forte evidência de sua falsidade.
Ao contrário, quando aceitamos, dizemos que não houve evidência
p-valor
Definição: probabilidade de obter o resultado que
obtivemos ou mais estremo, sendo a hipótese nula é verdadeira.
O p- valor é comparado ao nível de significância α pré-determinado.
Se o p- valor for menor ou igual ao nível de significância, rejeitamos H0.
Note as seguintes interpretações de p-valores:
p > 0,10 Não existe evidência contra H0 p < 0,10 Fraca evidência contra H0
p < 0,05 Evidência significativa contra H0
Testes de Hipóteses
Estudaremos testes de hipóteses
considerando:
(a) Uma única amostra
(b) Comparação de duas ou mais amostras
Primeiramente, vamos estudar
teste de
Uma amostra - Variável
quantitativa
Com uma amostra de indivíduos
queremos saber se a média da
respectiva população é um
determinado valor.
PASSO 1:
H
0: µ
M=128
versusH
A: µ
M≠128
PASSO 2:
Nível de significância: 5%
PASSO 3:
Estatística do teste:
.
,
n
x
Z
cal2
28
1
,
3
7
60
24
128
135
0=
−
=
=
−
=
σ
µ
PASSO 4:
Construir a Região de Rejeição (RR)
TESTE BILATERAL
RA
Portanto, a amostra aleatória sugere que medicamento M aumenta a PAS.
Agora, vamos calcular o p- valor para o teste de hipótese em questão:
Temos que calcular a probabilidade de observarmos um valor igual ou superior a 2,28, isto é,
p-valor: P(Z>2,28) =0,013 (distribuição normal)
Como o teste é bilateral, temos que multiplicar por dois esta probabilidade. Assim, 0,013 x 2 = 0,026
Desde que o p- valor é menor que o nível de significância do teste (α = 5%), rejeita- se a hipótese nula.
Quando o desvio padrão populacional é
desconhecido, porém n≥30, podemos usar a
distribuição Normal, mas você deve substituir o desvio
padrão populacional pelo desvio padrão amostral.
Quando o n<30 e o desvio padrão populacional é
desconhecido, temos que aplicar o teste t de Student
com a fórmula abaixo:
) 1 ( 0
~
−−
=
n calt
n
s
x
t
µ
Suposição do teste: A variável quantitativa é normalmente distribuída na população.
Exemplo: Teste t
A altura média dos estudantes da UFMA é de 1,70 m. Em uma amostra casual de tamanho 25 foi estimada a média de 1,72 m e desvio padrão da amostra de 0,08 m. Pode-se considerar que a média amostral não difere da média da população?
Solução:
m
H
a
)
0:
µ
=
1
,
70
H
A:
µ
≠
1
,
70
m
064
,
2
;
05
,
0
)
=
t
crit; 0,025; 24g.l.=
b
α
25
,
1
25
08
,
0
70
,
1
72
,
1
)
=
−
=
−
=
n
s
x
t
c
µ
Solução no STATA:
ttesti 25 1.72 0.08 1.70
One-sample t test
---| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---+---x | 25 1.72 .016 .08 1.686978 1.753022 ---mean = ---mean(x) t = 1.2500 Ho: mean = 1.70 degrees of freedom = 24
Ha: mean < 1.70 Ha: mean != 1.70 Ha: mean > 1.70 Pr(T < t) = 0.8883 Pr(|T| > |t|) = 0.2234 Pr(T > t) = 0.1117
m
H0 :µ0 =1,70 tcal =1,25
contém 1,70m
Teste de Hipótese para Proporção Populacional
Vejamos agora teste de hipótese para variáveis
qualitativas
.
Por exemplo: prevalência de uma doença.
Para construção de um teste de hipóteses, para esta situação, devemos seguir o mesmo raciocínio anteriormente aplicado para variáveis quantitativas.
Teste de Hipótese para Proporção Populacional
Estabeleça a hipótese nula e a hipótese alternativa
Exemplo:
H
0: π = π
0 versusH
A: π ≠ π
0
Calcule a proporção amostral
Calcule a estatística do teste
n
p
z
cal)
1
(
ˆ
0 0 0π
π
π
−
−
=
Teste de Hipótese para Proporção Populacional
Utilizar a tabela da Distribuição Normal para
determinar o
p-valor
.
Comparar o
p-valor
do teste com o
nível de
significância do teste
.
Nota:
Uma regra geral é que o teste anterior é
válido quando temos ambos e
maiores do que 10.
p
Exemplo:
Teste de Hipótese para Proporção
Populacional
Em um região afetada por um surto epidêmico, observou- se uma amostra de 2500 indivíduos, tendo-se encontrado 625 contaminados. Teste, ao nível de significância 5%, se a proporção de indivíduos contaminados é significativamente superior a 20%.
Solução:
20
,
0
:
)
H
0π
=
a
H
A:
π
>
0
,
20
65
,
1
;
05
,
0
)
=
z
0,05=
b
α
25 , 6 2500 ) 75 , 0 1 ( 25 , 0 2 , 0 25 , 0 ) 1 ( ˆ ) 0 0 0 = − − = − − = n p Z c calπ
π
π
d) Região crítica:Solução no STATA:
Não contém 0,2 2 0 0:π , H = prtesti 2500 0.25 0.2vOne-sample test of proportion x: Number of obs = 2500 ---Variable | Mean Std. Err. [95% Conf. Interval] ---+---x | .25 .0086603 .2330262 .2669738 ---p = ---pro---portion(x) z = 6.2500 Ho: p = 0.2
Ha: p < 0.2 Ha: p != 0.2 Ha: p > 0.2 Pr(Z < z) = 1.0000 Pr(|Z| > |z|) = 0.0000 Pr(Z > z) = 0.0000 25 , 6 = cal z p-valor <0,05
Comparação de Dois grupos
Na pesquisa médica, é muito freqüente
necessitarmos comparar médias ou proporções
de amostras diferentes (por ex.
caso x
controle
).
Se estamos estudando duas amostras, então
Amostras Independentes
Neste tipo de estudo, temos duas amostras, mas cada indivíduo participa apenas de uma das amostras.
Amostras Pareadas
Num estudo pareado, novamente se tem duas amostras, mas cada observação da primeira amostra é
Dois grupos independentes (uma observação em cada
Dois grupos independentes (uma observação em cada
unidade
unidade amostralamostral).).
Exemplos
1. Dois produtos2. Duas drogas terapêuticas 3. Duas marcas comerciais
4. Dois procedimentos cirúrgicos 5. Dois gêneros
Dois grupos pareados (duas observações em cada unidade
Dois grupos pareados (duas observações em cada unidade
amostral
amostral).).
Exemplos
1. Antes e depois de uma intervenção cirúrgica 2. Lados direito e esquerdo
Teste t para duas amostras independentes
A variável de interesse é uma
variável
quantitativa
e
normalmente distribuída
.
Exemplo:
Comparar produtos alimentícios
(
um novo
,
outro tradicional
) no ganho de peso
de ratos de laboratório.
Você que saber se na população:
¾ As médias são diferentes?
Você também precisa saber se, na população:
¾ A variabilidade é a mesma nos dois grupos? ¾ A variabilidade é diferente?
Para verificar se a variabilidade é a mesma
nos dois grupos, utiliza-se o
Teste F.
σ
σ
2 2 2 1 : ≠ A Hσ
σ
2 2 2 1 0 : = H versus 1o Caso: Considere a situação em que as duas variâncias
populacionais são desconhecidas, mas é razoável assumir que elas sejam iguais.
Neste caso, utiliza- se o teste t- Student para amostras
independentes. Estatística do teste: ( 2) 2 1 2 1 2 1 ~ 1 1 + + − − = n n p cal t x x t
n
n
s
com2
)
1
(
)
1
(
2 1 2 2 2 2 1 1 2−
+
−
+
−
=
n
n
s
n
s
n
s
pExemplo:
Duas amostras independentes
com variâncias iguais
Um pesquisador gostaria de testar a hipótese que os homens são mais pesados que as mulheres à idade adulta. Tomou ao acaso uma amostra de 35 alunos, sendo 17 do sexo feminino e 18 do masculino.
Média n Variância
Masculino 76,8 18 334,18
Solução: F M
H
a
)
0:
µ
=
µ
F MH
b
)
1:
µ
>
µ
69
,
1
;
05
,
0
)
=
t
0,05 ; 33 g .l=
c
α
645 , 0 04 , 6 9 , 3 338 , 0 86 , 17 9 , 3 17 1 18 1 86 , 17 9 , 72 8 , 76 1 1 ) 2 1 2 1 = = = + − = + − =n
n
s
p cal x x t dSolução no STATA:
Teste F
Comando: stesti n1 . sd1. n2. sd2
Para o exemplo anterior, temos:
sdtesti 18 . 18.28 17 . 17.41
Variance ratio test
---| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---+---x | 18 . 4.308637 18.28 . . y | 17 . 4.222545 17.41 . . ---+---combined | 35 . . . . . ---ratio = sd(x) / sd(y) f = 1.1024 Ho: ratio = 1 degrees of freedom = 17, 16
Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1 Pr(F < f) = 0.5753 2*Pr(F > f) = 0.8494 Pr(F > f) = 0.4247
Solução no STATA:
Teste t-student para variâncias iguais
Comando: ttesti n1 me1 sd1 n2 me2 sd2
ttesti 18 76.8 18.28 17 72.9 17.41
Two-sample t test with equal variances
---| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---+---x | 18 76.8 4.308637 18.28 67.70957 85.89043 y | 17 72.9 4.222545 17.41 63.9486 81.8514 ---+---combined | 35 74.90571 2.993466 17.70959 68.82226 80.98917 ---+---diff | 3.9 6.041423 -8.391367 16.19137 ---diff = mean(x) - mean(y) t = 0.6455 Ho: diff = 0 degrees of freedom = 33
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.7385 Pr(|T| > |t|) = 0.5230 Pr(T > t) = 0.2615
2
oCaso:
Agora, considere a situação em que as duasvariâncias populacionais são desconhecidas e
desiguais.
Neste caso, deve- se utilizar o teste t student com
variâncias desiguais.
A estatística do teste é dada por
v cal
t
n
s
n
s
x
x
t
~
2 2 2 1 2 1 2 1+
−
=
2 1 1 2 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 − + ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + = n n S n n S n S n S ν comTeste de Hipóteses para Duas Médias Populacionais
Agora, vamos considerar amostras pareadas.
A variável de interesse é quantitativa e normalmente
distribuída.
Novamente, o interesse é testar a hipótese nula de que as duas médias das populações são iguais.
As hipóteses a serem testadas são
Em vez de considerarmos os dois conjuntos de observações como amostras distintas, focalizamos a diferença de medições dentro de cada par.
Amostra 1 Amostra 2 x11 x21 x31 x41 . xn1 x12 x22 x32 x42 . xn2
Usamos esses dados para criar novo conjunto de observações que representam as diferenças dentro de cada par:
d
1=x
11-x
12d
2=x
21-x
22d
3=x
31-x
32d
n=x
n1-x
n2 A partir dessas diferenças calculamos a média e o desvio padrão Estatística do teste: n d d n i i
∑
= = 1 1 ) ( 1 − − =∑
= n d d s n i i d ) 1 (~
−=
n d calt
n
s
d
t
Teste de Hipóteses para Duas Proporções
Populacionais
Primeiramente, vamos considerar amostras independentes. O interesse é comparar dois grupos através do resultado
observado em uma variável dicotômica.
O problema de comparação das proporções populacionais nos dois grupos é formulado através das hipóteses:
Teste Qui Quadrado
É um teste muito usado na área médica que se
destina a comparar proporções.
Utiliza-se o
teste qui-quadrado
quando deseja-se
verificar se a freqüência com que um determinado
acontecimento observado em uma amostra se
desvia significativamente ou não da freqüência
com que ele é esperado.
Teste Qui Quadrado
Grupo
Ocorrência
SIM
do Evento
NÃO
Total
I
a
b
a + b = n
1II
c
d
c + d = n
2Total
a + c = m
1b + d = m
2n
1+ n
2= n
Exemplo
Os dados a seguir são referentes ao sexo e condição de sobrevivência de uma amostra de recém- nascidos com síndrome de desconforto idiopático grave.
Sexo sobrevivente Não
sobrevivente Total Feminino Masculino Total 10 17 27 7 16 23 17 33 50
Exemplo
Cálculos necessários para a construção do teste qui-quadrado:
i Oi Ei Oi- Ei (Oi- Ei)2 (O i- Ei)2 Ei 1 2 3 4 Total 10 17 7 16 50 9,18 17,82 7,82 15,18 50 0,82 -0,82 -0,82 0,82 0 0,6724 0,6724 0,6724 0,6724 2,6896 0,07 0,04 0,08 0,04 0,23
O valor da estatística do teste é 0,23. Como este valor é maior do que 3,84, valor obtido da distribuição qui-quadrado, para um nível de de significância de 5%, não rejeitamos a hipótese nula, ou seja, os meninos não sobrevivem mais do que as meninas.
Restrições ao Uso do Teste Qui-Quadrado
Quando 20 ≤ n ≤ 40, utilizar o teste qui-quadrado se nenhuma
freqüência esperada seja inferior a 5. Em caso contrário, utilizar o Teste Exato de Fisher.
Quando n < 20, utilizar o Teste Exato de Fisher.
Quando n > 40, utilizar o teste qui-quadrado.
Quando o número de categorias for maior do que 2, não mais
que 20% das categorias devem ter freqüências menores que 5 e nenhuma categoria deve ter freqüência menor que 1.