Parametros e estimativa estatísticas são relacionados, mas são a mesma coisa.

(1)

Métodos Quantitativos para

Ciência da Computação Experimental

-Aula#7a-

Inferência Estatística: Teste de Hipótese

Virgílio A. F. Almeida

Maio de 2008

Departamento de Ciência da Computação Universidade Federal de Minas Gerais

(2)

Refrescando a memória

• Parâmetro ≡ uma caraterística numérica de

uma população, ex., média da população µ

• Estatística ≡ uma caraterística numérica

calculada numa amostra, ex: média da

amostra

Parametros e estimativa estatísticas são

relacionados, mas são a mesma coisa.

x

(3)

Refrescando a memória

Sim

Não

Calculada

Sim

Não

Randômica

Romana (x, s)

Grega (µ, σ)

Notação

Amostra

População

Fonte

“Statistics”

(estimativas)

Parametros

(4)

Refrescando a memória

x ~ N(µ, SEM )

SEM = σ / √ n

SEM: standard error of the mean

x

é variavel aleatória com uma distribuição (“the SDM”). A SDM

tende para a Normal com média µ e desvio padrão

SEM

(5)

Inferências Estatísticas

• É o processo de tirar uma conclusão sobre uma população não vista, dado uma amostra relativamente pequena

dessa população.

• Testando Hipóteses Estatísticas, também chamado de

“teste de significância”.

• Basicamente, responder uma questão “sim ou não” a respeito de uma população e estimar a probabilidade da resposta

estar errada.

• Estimativa de parâmetros

• Basicamente, estimar o valor de um parâmetro dado uma hipotese sobre a população

(6)

Refrescando a memória

• População ≡ todos valores possíveis

• Amostra ≡ um sub-conjunto da população

• Estatísticas são funções nas amostras

• Parâmetros são funções nas populações

• Inferência estatística ≡ generalização de uma

amostra para a população com certo grau de

certeza

• Duas formas de inferência:

– Estimativas

– Teste de Hipótese

(7)

Tipos de análises de dados

• Exploratório – procura de padrões nos dados

• Inferência Estatistica de Dados Amostrais

– Teste de Hipótese

– Estimativa de parâmetros

• Construção de modelos matemáticos de dados

• Data mining…

• Teste de hipóteses estatísticas é similar a prova por contradição, no qual nega-se uma proposição e mostra que uma contradição segue, portanto provando a

proposição original. No outro caso, o teste não prova que a HN (hipótese nula) é falsa, mas sim ele limita a probabilidade de afirmar incorretamente que a hipótese nula é falsa.

(8)

Idéia Geral do Teste de Hipótese

• Faça uma assertiva sobre um parâmetro

• Transforme a assertiva numa “null

hypothesis”

• Procure uma evidencia contra a hipótese nula

(“the null hypothesis”)

(9)

A Lógica do Teste de Hipótese

• Exemplo: jogue uma moeda 10 vezes, e observa que

aconteceram oito “caras”. A moeda é não viciada (i.e., qual é o comportamento de longo prazo?) e qual a incerteza

residual?

• Voce afirma, “Se a moeda fosse honesta, então oito ou mais caras é bem improvável, e portanto penso que a moeda é viciada.”

• Como uma prova por contradição: Faça uma assertiva oposta (a moeda é honesta) mostre que o resultado da amostra (≥ 8 caras ) tem baixa probabilidade p, rejeite a assertiva, com incerteza residual relacionada a p.

• Estime p com uma distribuição de amostragem (sampling distribution).

(10)

Probabilidade de um resultado de uma

amostra sob a “null hypothesis”

• Se a moeda fosse “honesta” (p= 0.5, a null hypothesis) qual é a distribuição de probabilidade de r, número de caras, obtida em N jogadas de uma moeda honesta? Obtenha analiticamente ou estime por simulação:

– Loop K times

• r := 0 ;; r is num.heads in N tosses

• Loop N times ;; simulate the tosses – Generate a random 0 ≤ x ≤ 1.0

– If x < p increment r ;; p is the probability of a head

• Push r onto sampling_distribution

– Print sampling_distribution

(11)

Distribuições de Amostragens

(Sampling distributions)

Esta é a “sampling distribution” estimada de r sob a

“null hypothesis” que p = 0.5. A estimativa foi

construída por simulação

10 20 30 40 50 60 70

0 1 2 3 4 5 6 7 8 9 10

Numero de caras em 10 jogadas

Frequencia (K = 1000) Probabilidade de r = 8 ou mais caras em N = 10 jogadas de uma moeda Honest é 54 / 1000 = .054

(12)

A Lógica do Teste de Hipótese

• Estabeleça uma “null hypothesis”: H0: p = .5, a moeda é honesta

• Estabeleça uma estatística: r, número de caras em N jogadas

• Estime/construa a “sampling distribution” de r dado H0

• A “sampling distribution” vai dizer a probabilidade de p de um resultado pelo menos tão extremo como resultado da amostra, r = 8

• Se essa probabilidade é muito baixa, rejeite H0 “null hypothesis”

• Incerteza residual é p

0 1 2 3 4 5 6 7 8 9 10

(13)

A parte mais sensível e’ conseguir a

sampling distribution

• “Sampling distributions” podem ser derivadas...

– Exatamente, ex., distribuição binomial para moedas são dados por fórmula.

– Analiticamente, ex., o Teorema do Limite Central diz que a “sampling distribution” da média aproxima a distribuição Normal quando as amostras crescem para infinito.

– Estimadas por simulações do processo da “null hypothesis”

N!

r!( N − r)!^{⋅ p}

N

(14)

Um Teste Estatístico Comum:

teste Z para médias diferentes

• Uma amostra N = 25 de alunos de ciência da computação tem média de QI=135. São eles mais “inteligentes” que a média?

• Média da população é 100 com desvio padrão 15

• A “null hypothesis”, H0, é que os estudantes de computação estão na média”, i.e., a média do QI da população de

estudantes de CC é 100.

• Qual é a probabilidade p de tirar essa amostra se H0 fosse verdade? Se p é pequeno, então H0 provavelmente é falso.

• Encontre a “sampling distribution” da média de uma amostra de tamanho 25, de uma população com média 100

(15)

Teorema do Limite Central

A “sampling distribution”da média é dada pelo Teorema

do Limite Cengtral.

A “sampling distribution” da média de amostras de

tamanho N aproxima uma Normal (Gaussian) quando N

Tende para infinito.

Se as amostras são tiradas de uma população com

média e desvio padrão , então a média da “sampling

distribution” é e seu desvio padrão é qdo N

cresce.

Essas afirmações valem independement da forma da

distribuição original.

µ σ

σ

_x

= σ N

µ

(16)

A “sampling distribution” para o exemplo

dos estudantes de CC

• Se a amostra de N = 25 estudantes fosse tirada de uma população com média 100 e desvio padrão 15 (“the null hypothesis’) então a “sampling distribution” da média seria assintoticamente normal com média 100 e desvio padrão s

15 25 = 3

A média dos estudantes de CC cai

quase 12 desvios padroes de distância da média da “sampling distribution”

Somente ~1% de uma distribuição normal cai mais que dois desvios padrões de distância da média.

A probabilidade que os estudantes de CC

(17)

O Teste Z

100 ₁₃₅

Média da sampling distribution

Estatística Da amostra

std=3

0 _11.67

Teste

estatistico

std=1.0

Z ₌ ^{x −} _σ ^µ

N

= ¹³⁵ ^{− 100}

15

25 = ³⁵

3 ^{= 11.67}

(18)

Rejeitar a “null hypothesis”?

• Geralmente rejeitamos H0 quando a probabilidade de obter uma estatistica da amostra (ex., média = 135) dado que a

“null hypothesis” é baixa, digamos < 0.05.

• O valor estatística de teste, ex. Z = 11.67, recodifica a estatística da amostra (média = 135) para tornar mais fácil encontrar a probabilidade da estatística da amostra dado H0.

• Encontramos as probabilidades ao procurá-las nas tabelas, ou são fornecidas pro pacotes.

– Por exemplo, Pr(Z ≥ 1.67) = 0.05; Pr(Z ≥ 1.96) = 0.01.

• Pr(Z ≥ 11) e’aproximadamente zero, rejeite H0.

(19)

O Teste t

• Mesma lógica que o teste Z , quando o desvio

padrão da população é desconhecido e

amostras são pequenas.

• Sampling distribution é t, não a normal, mas

aproxima a normal a medida que o tamanho

das amostras cresce.

• Teste estatístico tem uma forma muito similar

mas as probabilidades do teste estatístico são

obtidas pela consulta a tabelas da distribuição

t distribution, e não a normal

(20)

O Teste t

Estatística da amostra

std=12.1

Teste

estatistico

std=1.0

t ₌ ^{x −} ^µ

s

N

= ¹³⁵ ^{− 100}

27

5 = ³⁵

12.1 ^{= 2.89}

Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27

Estime o desvio da

“sampling distribution”

usando o desvio padrão da amostra

(21)

Sumário do Teste de Hipótese

• H0 nega o que voce deseja demonstrar! Encontre a probabilidade p da estatística da amostra sob H0 ao comparar o teste da estatítica com a “sampling distribution”; se a probabilidade é baixa, rejeite H0 com um resíduo de incerteza proporcional a p.

• Exemplo: Deseja-se demonstrar que os estudantes de POS de CC (?????) são mais inteligentes que a média. H0 é que eles estão na média. t = 2.89, p ≤ 0.022

• Nós provamos que os estudantes de CC são mais inteligentes? NÃO!

• Apenas mostramos que a média = 135 é improvável se eles não são. Nos nunca provamos o que desejamos demonstrar, nós somente rejeitamos H0, com um resíduo de incerteza.

• E ao falhar em rejeitar H0 não prova H0, também!

(22)

Cautela!

• Testes de Significância cobrem somente erros

aleatórios.

• Não são explicativos para:

– Erro de Medição

– Erro de Processamento – Amostras Viciadas

(23)

Dois métodos de teste de

significância

• Método Fixo de nivel-α

– Estabeleça um limite de erro α

– Veja se a evidência permanece com limite α – Tome a decisão sobre a “null hypothesis”

• Método da Significância Flexível

– Não estabeleça um limite α

– Derive a probabilidade condicional p

– Pese a evidência contra a “null hypothesis” com p

(24)

Passo A: Estabeleça a Hipótese

• H

₀

≡ “Null hypothesis” ⇒ uma afirmação de

falta de diferença (“no difference”)

• H

₁

≡ Hipótese Alternativa ⇒ uma afirmação de

falta de diferença (“difference”)

• Notas:

– Hipotese são baseadas na questão de pesquisa e não nos dados

– Hipotese refere-se a parâmetros

(25)

Passo B: nível-α level

(teste de nível fixo)

α ≡ o tipo de taxa de erro que voce

aceitável na pesquisa

• Salte este passo quando o teste de

significância for flexível

• Notas

– Voce especifica α (não se calcula α)

– Níveis comuns para α são 0.10, 0.05, & 0.01

(26)

Passo C: Estatística de Teste

• Converta os dados para estatistica de teste

• Vamos usar a estatistica z, que é:

n

SEM

x

σ

µ

=

≡

= −

hypothesis

null

a

sob

média

a

onde

z

0

0 stat

(27)

Passo D: valor de p & conclusão

Converta o z

_stat

para um valor p

(28)

Exemplo

• Questão de pesquisa:senhorita X alterou um algoritmo de buscas (chamou de W*) e obteve novos valores de

“recall”. O programa de busca é testado contra uma base padrão de palavras. Quer se saber se as

modificações feitas pela senhorita X são responsáveis pelo “recall” maior?

• Projeto

– Sabemos que os recall típicos seguem uma Normal com µ = 100 ms e σ = 15

– Rodamos o algoritmo W* e obtivemos esses dados

⇒ {116, 128, 125, 119, 89, 99, 105, 116, 118}

(29)

Passo A: Algoritmo W*

• Sob a hipótese de não haver diferença (no

difference), µ seria igual 100.

– Na notação estatística: H₀: µ = 100

• Sob a hipótese alternativa µ seria maior que

100

– Na notação estatística : H₁: µ > 100

(30)

Passo B: ”Algoritmo W”

• Passo B só se aplica ao teste de nível

fixo.

• Portanto, passo B é “saltado”

(31)

Passo C: “Algoritmo W*”

• Qual é a SDM de uma amostra de 9 se a assertiva nula fosse verdadeira?

• Esboce a curva Normal

• Marque o eixo x

baseado na µ assumida e SEM

• Onde cai a x-bar de 112.8 nessa curva?

• Use fórmula z_stat para

“standardize” x-bar

² ^. ⁵⁶

5

100

8 .

0

112

stat

⁼

= −

SEM

z x ^µ

(32)

Step D: “Algoritmo W*”

• Converta z_stat para um valor de p

• Valor de p ≡ área sob a curva além de z_stat

• Para o exemplo, p = Pr(Z > 2.56) = .0052

• Portanto, p = .0052

(33)

Interpretação do valor p

• Método α-Fixo

– p ≤ α ⇒ rejeite H

₀

– p > α ⇒ NÃO rejeite H

₀

• Teste Flexível

– Valor de p = probabilidade do dado _{if H} _if

₀

verdadeiro

– Assim, pequeno p ⇒ evidencia forte contra

H

₀

(34)

“ “ Guidelines _Guidelines ” _” para valor de P

• p > 0.10 ⇒ “not significance”

• 0.05 < p ≤ 0.10 ⇒ “marginally

significant”

• 0.01 < p ≤ .05 ⇒ “significant”

• p ≤ 0.01 ⇒ “highly significant”

(35)

A alternativa de um-lado

• O teste anterior fez a suposição sobre a direção

da diferença

• Teste tinha um “one-sided H

₁

”

Olhamos apenas em

um lado da SDM

(36)

A alternativa de dois-lados

• Um enfoque mais aberto permite conclusões

positivas e negativas não-antecipadas.

• Isso requer um two-two- sided test

sided test

– O teste de dois-lados olha em ambas as caudas

– Isso dobra o valor de p

(37)