Métodos Quantitativos para
Ciência da Computação Experimental
-Aula#7a-
Inferência Estatística: Teste de Hipótese
Virgílio A. F. Almeida
Maio de 2008
Departamento de Ciência da Computação Universidade Federal de Minas Gerais
Refrescando a memória
• Parâmetro ≡ uma caraterística numérica de
uma população, ex., média da população µ
• Estatística ≡ uma caraterística numérica
calculada numa amostra, ex: média da
amostra
Parametros e estimativa estatísticas são
relacionados, mas são a mesma coisa.
x
Refrescando a memória
Sim
Não
Calculada
Sim
Não
Randômica
Romana (x, s)
Grega (µ, σ)
Notação
Amostra
População
Fonte
“Statistics”
(estimativas)
Parametros
Refrescando a memória
x ~ N(µ, SEM )
SEM = σ / √ n
SEM: standard error of the mean
x
é variavel aleatória com uma distribuição (“the SDM”). A SDMtende para a Normal com média µ e desvio padrão
SEM
Inferências Estatísticas
• É o processo de tirar uma conclusão sobre uma população não vista, dado uma amostra relativamente pequena
dessa população.
• Testando Hipóteses Estatísticas, também chamado de
“teste de significância”.
• Basicamente, responder uma questão “sim ou não” a respeito de uma população e estimar a probabilidade da resposta
estar errada.
• Estimativa de parâmetros
• Basicamente, estimar o valor de um parâmetro dado uma hipotese sobre a população
Refrescando a memória
• População ≡ todos valores possíveis
• Amostra ≡ um sub-conjunto da população
• Estatísticas são funções nas amostras
• Parâmetros são funções nas populações
• Inferência estatística ≡ generalização de uma
amostra para a população com certo grau de
certeza
• Duas formas de inferência:
– Estimativas
– Teste de Hipótese
Tipos de análises de dados
• Exploratório – procura de padrões nos dados
• Inferência Estatistica de Dados Amostrais
– Teste de Hipótese
– Estimativa de parâmetros
• Construção de modelos matemáticos de dados
• Data mining…
• Teste de hipóteses estatísticas é similar a prova por contradição, no qual nega-se uma proposição e mostra que uma contradição segue, portanto provando a
proposição original. No outro caso, o teste não prova que a HN (hipótese nula) é falsa, mas sim ele limita a probabilidade de afirmar incorretamente que a hipótese nula é falsa.
Idéia Geral do Teste de Hipótese
• Faça uma assertiva sobre um parâmetro
• Transforme a assertiva numa “null
hypothesis”
• Procure uma evidencia contra a hipótese nula
(“the null hypothesis”)
A Lógica do Teste de Hipótese
• Exemplo: jogue uma moeda 10 vezes, e observa que
aconteceram oito “caras”. A moeda é não viciada (i.e., qual é o comportamento de longo prazo?) e qual a incerteza
residual?
• Voce afirma, “Se a moeda fosse honesta, então oito ou mais caras é bem improvável, e portanto penso que a moeda é viciada.”
• Como uma prova por contradição: Faça uma assertiva oposta (a moeda é honesta) mostre que o resultado da amostra (≥ 8 caras ) tem baixa probabilidade p, rejeite a assertiva, com incerteza residual relacionada a p.
• Estime p com uma distribuição de amostragem (sampling distribution).
Probabilidade de um resultado de uma
amostra sob a “null hypothesis”
• Se a moeda fosse “honesta” (p= 0.5, a null hypothesis) qual é a distribuição de probabilidade de r, número de caras, obtida em N jogadas de uma moeda honesta? Obtenha analiticamente ou estime por simulação:
– Loop K times
• r := 0 ;; r is num.heads in N tosses
• Loop N times ;; simulate the tosses – Generate a random 0 ≤ x ≤ 1.0
– If x < p increment r ;; p is the probability of a head
• Push r onto sampling_distribution
– Print sampling_distribution
Distribuições de Amostragens
(Sampling distributions)
Esta é a “sampling distribution” estimada de r sob a
“null hypothesis” que p = 0.5. A estimativa foi
construída por simulação
10 20 30 40 50 60 70
0 1 2 3 4 5 6 7 8 9 10
Numero de caras em 10 jogadas
Frequencia (K = 1000) Probabilidade de r = 8 ou mais caras em N = 10 jogadas de uma moeda Honest é 54 / 1000 = .054
A Lógica do Teste de Hipótese
• Estabeleça uma “null hypothesis”: H0: p = .5, a moeda é honesta
• Estabeleça uma estatística: r, número de caras em N jogadas
• Estime/construa a “sampling distribution” de r dado H0
• A “sampling distribution” vai dizer a probabilidade de p de um resultado pelo menos tão extremo como resultado da amostra, r = 8
• Se essa probabilidade é muito baixa, rejeite H0 “null hypothesis”
• Incerteza residual é p
0 1 2 3 4 5 6 7 8 9 10
A parte mais sensível e’ conseguir a
sampling distribution
• “Sampling distributions” podem ser derivadas...
– Exatamente, ex., distribuição binomial para moedas são dados por fórmula.
– Analiticamente, ex., o Teorema do Limite Central diz que a “sampling distribution” da média aproxima a distribuição Normal quando as amostras crescem para infinito.
– Estimadas por simulações do processo da “null hypothesis”
N!
r!( N − r)!⋅ p
N
Um Teste Estatístico Comum:
teste Z para médias diferentes
• Uma amostra N = 25 de alunos de ciência da computação tem média de QI=135. São eles mais “inteligentes” que a média?
• Média da população é 100 com desvio padrão 15
• A “null hypothesis”, H0, é que os estudantes de computação estão na média”, i.e., a média do QI da população de
estudantes de CC é 100.
• Qual é a probabilidade p de tirar essa amostra se H0 fosse verdade? Se p é pequeno, então H0 provavelmente é falso.
• Encontre a “sampling distribution” da média de uma amostra de tamanho 25, de uma população com média 100
Teorema do Limite Central
A “sampling distribution”da média é dada pelo Teorema
do Limite Cengtral.
A “sampling distribution” da média de amostras de
tamanho N aproxima uma Normal (Gaussian) quando N
Tende para infinito.
Se as amostras são tiradas de uma população com
média e desvio padrão , então a média da “sampling
distribution” é e seu desvio padrão é qdo N
cresce.
Essas afirmações valem independement da forma da
distribuição original.
µ σ
σ
x= σ N
µ
A “sampling distribution” para o exemplo
dos estudantes de CC
• Se a amostra de N = 25 estudantes fosse tirada de uma população com média 100 e desvio padrão 15 (“the null hypothesis’) então a “sampling distribution” da média seria assintoticamente normal com média 100 e desvio padrão s
15 25 = 3
A média dos estudantes de CC cai
quase 12 desvios padroes de distância da média da “sampling distribution”
Somente ~1% de uma distribuição normal cai mais que dois desvios padrões de distância da média.
A probabilidade que os estudantes de CC
O Teste Z
100 135
Média da sampling distribution
Estatística Da amostra
std=3
0 11.67
Média da sampling distribution
Teste
estatistico
std=1.0
Z = x − σ µ
N
= 135 − 100
15
25
= 35
3 = 11.67
Rejeitar a “null hypothesis”?
• Geralmente rejeitamos H0 quando a probabilidade de obter uma estatistica da amostra (ex., média = 135) dado que a
“null hypothesis” é baixa, digamos < 0.05.
• O valor estatística de teste, ex. Z = 11.67, recodifica a estatística da amostra (média = 135) para tornar mais fácil encontrar a probabilidade da estatística da amostra dado H0.
• Encontramos as probabilidades ao procurá-las nas tabelas, ou são fornecidas pro pacotes.
– Por exemplo, Pr(Z ≥ 1.67) = 0.05; Pr(Z ≥ 1.96) = 0.01.
• Pr(Z ≥ 11) e’aproximadamente zero, rejeite H0.
O Teste t
• Mesma lógica que o teste Z , quando o desvio
padrão da população é desconhecido e
amostras são pequenas.
• Sampling distribution é t, não a normal, mas
aproxima a normal a medida que o tamanho
das amostras cresce.
• Teste estatístico tem uma forma muito similar
mas as probabilidades do teste estatístico são
obtidas pela consulta a tabelas da distribuição
t distribution, e não a normal
O Teste t
Média da sampling distribution
Estatística da amostra
std=12.1
Média da sampling distribution
Teste
estatistico
std=1.0
t = x − µ
s
N
= 135 − 100
27
5
= 35
12.1 = 2.89
Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27
Estime o desvio da
“sampling distribution”
usando o desvio padrão da amostra
Sumário do Teste de Hipótese
• H0 nega o que voce deseja demonstrar! Encontre a probabilidade p da estatística da amostra sob H0 ao comparar o teste da estatítica com a “sampling distribution”; se a probabilidade é baixa, rejeite H0 com um resíduo de incerteza proporcional a p.
• Exemplo: Deseja-se demonstrar que os estudantes de POS de CC (?????) são mais inteligentes que a média. H0 é que eles estão na média. t = 2.89, p ≤ 0.022
• Nós provamos que os estudantes de CC são mais inteligentes? NÃO!
• Apenas mostramos que a média = 135 é improvável se eles não são. Nos nunca provamos o que desejamos demonstrar, nós somente rejeitamos H0, com um resíduo de incerteza.
• E ao falhar em rejeitar H0 não prova H0, também!
Cautela!
• Testes de Significância cobrem somente erros
aleatórios.
• Não são explicativos para:
– Erro de Medição
– Erro de Processamento – Amostras Viciadas
Dois métodos de teste de
significância
• Método Fixo de nivel-α
– Estabeleça um limite de erro α
– Veja se a evidência permanece com limite α – Tome a decisão sobre a “null hypothesis”
• Método da Significância Flexível
– Não estabeleça um limite α
– Derive a probabilidade condicional p
– Pese a evidência contra a “null hypothesis” com p
Passo A: Estabeleça a Hipótese
• H
0≡ “Null hypothesis” ⇒ uma afirmação de
falta de diferença (“no difference”)
• H
1≡ Hipótese Alternativa ⇒ uma afirmação de
falta de diferença (“difference”)
• Notas:
– Hipotese são baseadas na questão de pesquisa e não nos dados
– Hipotese refere-se a parâmetros
Passo B: nível-α level
(teste de nível fixo)
α ≡ o tipo de taxa de erro que voce
aceitável na pesquisa
• Salte este passo quando o teste de
significância for flexível
• Notas
– Voce especifica α (não se calcula α)
– Níveis comuns para α são 0.10, 0.05, & 0.01
Passo C: Estatística de Teste
• Converta os dados para estatistica de teste
• Vamos usar a estatistica z, que é:
n
SEM
SEM
x
σ
µ
µ
=
≡
= −
hypothesis
null
a
sob
média
a
onde
z
0
0 stat
Passo D: valor de p & conclusão
Converta o z
statpara um valor p
Exemplo
• Questão de pesquisa:senhorita X alterou um algoritmo de buscas (chamou de W*) e obteve novos valores de
“recall”. O programa de busca é testado contra uma base padrão de palavras. Quer se saber se as
modificações feitas pela senhorita X são responsáveis pelo “recall” maior?
• Projeto
– Sabemos que os recall típicos seguem uma Normal com µ = 100 ms e σ = 15
– Rodamos o algoritmo W* e obtivemos esses dados
⇒ {116, 128, 125, 119, 89, 99, 105, 116, 118}
Passo A: Algoritmo W*
• Sob a hipótese de não haver diferença (no
difference), µ seria igual 100.
– Na notação estatística: H0: µ = 100
• Sob a hipótese alternativa µ seria maior que
100
– Na notação estatística : H1: µ > 100
Passo B: ”Algoritmo W”
• Passo B só se aplica ao teste de nível
fixo.
• Portanto, passo B é “saltado”
Passo C: “Algoritmo W*”
• Qual é a SDM de uma amostra de 9 se a assertiva nula fosse verdadeira?
• Esboce a curva Normal
• Marque o eixo x
baseado na µ assumida e SEM
• Onde cai a x-bar de 112.8 nessa curva?
• Use fórmula zstat para
“standardize” x-bar
2 . 56
5
100
8
.
0
112
stat
=
= −
= −
SEM
z x µ
Step D: “Algoritmo W*”
• Converta zstat para um valor de p
• Valor de p ≡ área sob a curva além de zstat
• Para o exemplo, p = Pr(Z > 2.56) = .0052
• Portanto, p = .0052
Interpretação do valor p
• Método α-Fixo
– p ≤ α ⇒ rejeite H
0– p > α ⇒ NÃO rejeite H
0• Teste Flexível
– Valor de p = probabilidade do dado if H if
0verdadeiro
– Assim, pequeno p ⇒ evidencia forte contra
H
0“ “ Guidelines Guidelines ” ” para valor de P
• p > 0.10 ⇒ “not significance”
• 0.05 < p ≤ 0.10 ⇒ “marginally
significant”
• 0.01 < p ≤ .05 ⇒ “significant”
• p ≤ 0.01 ⇒ “highly significant”
A alternativa de um-lado
• O teste anterior fez a suposição sobre a direção
da diferença
• Teste tinha um “one-sided H
1”
Olhamos apenas em
um lado da SDM
A alternativa de dois-lados
• Um enfoque mais aberto permite conclusões
positivas e negativas não-antecipadas.
• Isso requer um two-two- sided test
sided test
– O teste de dois-lados olha em ambas as caudas
– Isso dobra o valor de p