• Nenhum resultado encontrado

Parametros e estimativa estatísticas são relacionados, mas são a mesma coisa.

N/A
N/A
Protected

Academic year: 2021

Share "Parametros e estimativa estatísticas são relacionados, mas são a mesma coisa."

Copied!
37
0
0

Texto

(1)

Métodos Quantitativos para

Ciência da Computação Experimental

-Aula#7a-

Inferência Estatística: Teste de Hipótese

Virgílio A. F. Almeida

Maio de 2008

Departamento de Ciência da Computação Universidade Federal de Minas Gerais

(2)

Refrescando a memória

• Parâmetro ≡ uma caraterística numérica de

uma população, ex., média da população µ

• Estatística ≡ uma caraterística numérica

calculada numa amostra, ex: média da

amostra

Parametros e estimativa estatísticas são

relacionados, mas são a mesma coisa.

x

(3)

Refrescando a memória

Sim

Não

Calculada

Sim

Não

Randômica

Romana (x, s)

Grega (µ, σ)

Notação

Amostra

População

Fonte

“Statistics”

(estimativas)

Parametros

(4)

Refrescando a memória

x ~ N(µ, SEM )

SEM = σ / √ n

SEM: standard error of the mean

x

é variavel aleatória com uma distribuição (“the SDM”). A SDM

tende para a Normal com média µ e desvio padrão

SEM

(5)

Inferências Estatísticas

• É o processo de tirar uma conclusão sobre uma população não vista, dado uma amostra relativamente pequena

dessa população.

• Testando Hipóteses Estatísticas, também chamado de

“teste de significância”.

• Basicamente, responder uma questão “sim ou não” a respeito de uma população e estimar a probabilidade da resposta

estar errada.

• Estimativa de parâmetros

• Basicamente, estimar o valor de um parâmetro dado uma hipotese sobre a população

(6)

Refrescando a memória

• População ≡ todos valores possíveis

• Amostra ≡ um sub-conjunto da população

• Estatísticas são funções nas amostras

• Parâmetros são funções nas populações

• Inferência estatística ≡ generalização de uma

amostra para a população com certo grau de

certeza

• Duas formas de inferência:

– Estimativas

– Teste de Hipótese

(7)

Tipos de análises de dados

• Exploratório – procura de padrões nos dados

• Inferência Estatistica de Dados Amostrais

– Teste de Hipótese

– Estimativa de parâmetros

• Construção de modelos matemáticos de dados

• Data mining…

• Teste de hipóteses estatísticas é similar a prova por contradição, no qual nega-se uma proposição e mostra que uma contradição segue, portanto provando a

proposição original. No outro caso, o teste não prova que a HN (hipótese nula) é falsa, mas sim ele limita a probabilidade de afirmar incorretamente que a hipótese nula é falsa.

(8)

Idéia Geral do Teste de Hipótese

• Faça uma assertiva sobre um parâmetro

• Transforme a assertiva numa “null

hypothesis”

• Procure uma evidencia contra a hipótese nula

(“the null hypothesis”)

(9)

A Lógica do Teste de Hipótese

• Exemplo: jogue uma moeda 10 vezes, e observa que

aconteceram oito “caras”. A moeda é não viciada (i.e., qual é o comportamento de longo prazo?) e qual a incerteza

residual?

• Voce afirma, “Se a moeda fosse honesta, então oito ou mais caras é bem improvável, e portanto penso que a moeda é viciada.”

• Como uma prova por contradição: Faça uma assertiva oposta (a moeda é honesta) mostre que o resultado da amostra (≥ 8 caras ) tem baixa probabilidade p, rejeite a assertiva, com incerteza residual relacionada a p.

• Estime p com uma distribuição de amostragem (sampling distribution).

(10)

Probabilidade de um resultado de uma

amostra sob a “null hypothesis”

• Se a moeda fosse “honesta” (p= 0.5, a null hypothesis) qual é a distribuição de probabilidade de r, número de caras, obtida em N jogadas de uma moeda honesta? Obtenha analiticamente ou estime por simulação:

– Loop K times

• r := 0 ;; r is num.heads in N tosses

• Loop N times ;; simulate the tosses – Generate a random 0 ≤ x ≤ 1.0

– If x < p increment r ;; p is the probability of a head

• Push r onto sampling_distribution

– Print sampling_distribution

(11)

Distribuições de Amostragens

(Sampling distributions)

Esta é a “sampling distribution” estimada de r sob a

“null hypothesis” que p = 0.5. A estimativa foi

construída por simulação

10 20 30 40 50 60 70

0 1 2 3 4 5 6 7 8 9 10

Numero de caras em 10 jogadas

Frequencia (K = 1000) Probabilidade de r = 8 ou mais caras em N = 10 jogadas de uma moeda Honest é 54 / 1000 = .054

(12)

A Lógica do Teste de Hipótese

• Estabeleça uma “null hypothesis”: H0: p = .5, a moeda é honesta

• Estabeleça uma estatística: r, número de caras em N jogadas

• Estime/construa a “sampling distribution” de r dado H0

• A “sampling distribution” vai dizer a probabilidade de p de um resultado pelo menos tão extremo como resultado da amostra, r = 8

• Se essa probabilidade é muito baixa, rejeite H0 “null hypothesis”

• Incerteza residual é p

0 1 2 3 4 5 6 7 8 9 10

(13)

A parte mais sensível e’ conseguir a

sampling distribution

• “Sampling distributions” podem ser derivadas...

– Exatamente, ex., distribuição binomial para moedas são dados por fórmula.

– Analiticamente, ex., o Teorema do Limite Central diz que a “sampling distribution” da média aproxima a distribuição Normal quando as amostras crescem para infinito.

– Estimadas por simulações do processo da “null hypothesis”

N!

r!( N − r)!⋅ p

N

(14)

Um Teste Estatístico Comum:

teste Z para médias diferentes

• Uma amostra N = 25 de alunos de ciência da computação tem média de QI=135. São eles mais “inteligentes” que a média?

• Média da população é 100 com desvio padrão 15

• A “null hypothesis”, H0, é que os estudantes de computação estão na média”, i.e., a média do QI da população de

estudantes de CC é 100.

• Qual é a probabilidade p de tirar essa amostra se H0 fosse verdade? Se p é pequeno, então H0 provavelmente é falso.

• Encontre a “sampling distribution” da média de uma amostra de tamanho 25, de uma população com média 100

(15)

Teorema do Limite Central

A “sampling distribution”da média é dada pelo Teorema

do Limite Cengtral.

A “sampling distribution” da média de amostras de

tamanho N aproxima uma Normal (Gaussian) quando N

Tende para infinito.

Se as amostras são tiradas de uma população com

média e desvio padrão , então a média da “sampling

distribution” é e seu desvio padrão é qdo N

cresce.

Essas afirmações valem independement da forma da

distribuição original.

µ σ

σ

x

= σ N

µ

(16)

A “sampling distribution” para o exemplo

dos estudantes de CC

• Se a amostra de N = 25 estudantes fosse tirada de uma população com média 100 e desvio padrão 15 (“the null hypothesis’) então a “sampling distribution” da média seria assintoticamente normal com média 100 e desvio padrão s

15 25 = 3

A média dos estudantes de CC cai

quase 12 desvios padroes de distância da média da “sampling distribution”

Somente ~1% de uma distribuição normal cai mais que dois desvios padrões de distância da média.

A probabilidade que os estudantes de CC

(17)

O Teste Z

100 135

Média da sampling distribution

Estatística Da amostra

std=3

0 11.67

Média da sampling distribution

Teste

estatistico

std=1.0

Z = x − σ µ

N

= 135 − 100

15

25

= 35

3 = 11.67

(18)

Rejeitar a “null hypothesis”?

• Geralmente rejeitamos H0 quando a probabilidade de obter uma estatistica da amostra (ex., média = 135) dado que a

“null hypothesis” é baixa, digamos < 0.05.

• O valor estatística de teste, ex. Z = 11.67, recodifica a estatística da amostra (média = 135) para tornar mais fácil encontrar a probabilidade da estatística da amostra dado H0.

• Encontramos as probabilidades ao procurá-las nas tabelas, ou são fornecidas pro pacotes.

– Por exemplo, Pr(Z ≥ 1.67) = 0.05; Pr(Z ≥ 1.96) = 0.01.

• Pr(Z ≥ 11) e’aproximadamente zero, rejeite H0.

(19)

O Teste t

• Mesma lógica que o teste Z , quando o desvio

padrão da população é desconhecido e

amostras são pequenas.

• Sampling distribution é t, não a normal, mas

aproxima a normal a medida que o tamanho

das amostras cresce.

• Teste estatístico tem uma forma muito similar

mas as probabilidades do teste estatístico são

obtidas pela consulta a tabelas da distribuição

t distribution, e não a normal

(20)

O Teste t

Média da sampling distribution

Estatística da amostra

std=12.1

Média da sampling distribution

Teste

estatistico

std=1.0

t = x − µ

s

N

= 135 − 100

27

5

= 35

12.1 = 2.89

Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27

Estime o desvio da

“sampling distribution”

usando o desvio padrão da amostra

(21)

Sumário do Teste de Hipótese

• H0 nega o que voce deseja demonstrar! Encontre a probabilidade p da estatística da amostra sob H0 ao comparar o teste da estatítica com a “sampling distribution”; se a probabilidade é baixa, rejeite H0 com um resíduo de incerteza proporcional a p.

• Exemplo: Deseja-se demonstrar que os estudantes de POS de CC (?????) são mais inteligentes que a média. H0 é que eles estão na média. t = 2.89, p ≤ 0.022

• Nós provamos que os estudantes de CC são mais inteligentes? NÃO!

• Apenas mostramos que a média = 135 é improvável se eles não são. Nos nunca provamos o que desejamos demonstrar, nós somente rejeitamos H0, com um resíduo de incerteza.

• E ao falhar em rejeitar H0 não prova H0, também!

(22)

Cautela!

• Testes de Significância cobrem somente erros

aleatórios.

• Não são explicativos para:

– Erro de Medição

– Erro de Processamento – Amostras Viciadas

(23)

Dois métodos de teste de

significância

• Método Fixo de nivel-α

– Estabeleça um limite de erro α

– Veja se a evidência permanece com limite α – Tome a decisão sobre a “null hypothesis”

• Método da Significância Flexível

– Não estabeleça um limite α

– Derive a probabilidade condicional p

– Pese a evidência contra a “null hypothesis” com p

(24)

Passo A: Estabeleça a Hipótese

• H

0

≡ “Null hypothesis” ⇒ uma afirmação de

falta de diferença (“no difference”)

• H

1

≡ Hipótese Alternativa ⇒ uma afirmação de

falta de diferença (“difference”)

• Notas:

– Hipotese são baseadas na questão de pesquisa e não nos dados

– Hipotese refere-se a parâmetros

(25)

Passo B: nível-α level

(teste de nível fixo)

α ≡ o tipo de taxa de erro que voce

aceitável na pesquisa

• Salte este passo quando o teste de

significância for flexível

• Notas

– Voce especifica α (não se calcula α)

– Níveis comuns para α são 0.10, 0.05, & 0.01

(26)

Passo C: Estatística de Teste

• Converta os dados para estatistica de teste

• Vamos usar a estatistica z, que é:

n

SEM

SEM

x

σ

µ

µ

=

= −

hypothesis

null

a

sob

média

a

onde

z

0

0 stat

(27)

Passo D: valor de p & conclusão

Converta o z

stat

para um valor p

(28)

Exemplo

• Questão de pesquisa:senhorita X alterou um algoritmo de buscas (chamou de W*) e obteve novos valores de

“recall”. O programa de busca é testado contra uma base padrão de palavras. Quer se saber se as

modificações feitas pela senhorita X são responsáveis pelo “recall” maior?

• Projeto

– Sabemos que os recall típicos seguem uma Normal com µ = 100 ms e σ = 15

– Rodamos o algoritmo W* e obtivemos esses dados

⇒ {116, 128, 125, 119, 89, 99, 105, 116, 118}

(29)

Passo A: Algoritmo W*

• Sob a hipótese de não haver diferença (no

difference), µ seria igual 100.

– Na notação estatística: H0: µ = 100

• Sob a hipótese alternativa µ seria maior que

100

– Na notação estatística : H1: µ > 100

(30)

Passo B: ”Algoritmo W”

• Passo B só se aplica ao teste de nível

fixo.

• Portanto, passo B é “saltado”

(31)

Passo C: “Algoritmo W*”

• Qual é a SDM de uma amostra de 9 se a assertiva nula fosse verdadeira?

• Esboce a curva Normal

• Marque o eixo x

baseado na µ assumida e SEM

• Onde cai a x-bar de 112.8 nessa curva?

• Use fórmula zstat para

“standardize” x-bar

2 . 56

5

100

8

.

0

112

stat

=

= −

= −

SEM

z x µ

(32)

Step D: “Algoritmo W*”

• Converta zstat para um valor de p

• Valor de p ≡ área sob a curva além de zstat

• Para o exemplo, p = Pr(Z > 2.56) = .0052

• Portanto, p = .0052

(33)

Interpretação do valor p

• Método α-Fixo

– p ≤ α ⇒ rejeite H

0

– p > α ⇒ NÃO rejeite H

0

• Teste Flexível

– Valor de p = probabilidade do dado if H if

0

verdadeiro

– Assim, pequeno p ⇒ evidencia forte contra

H

0

(34)

“ “ Guidelines Guidelines para valor de P

• p > 0.10 ⇒ “not significance”

• 0.05 < p ≤ 0.10 ⇒ “marginally

significant”

• 0.01 < p ≤ .05 ⇒ “significant”

• p ≤ 0.01 ⇒ “highly significant”

(35)

A alternativa de um-lado

• O teste anterior fez a suposição sobre a direção

da diferença

• Teste tinha um “one-sided H

1

Olhamos apenas em

um lado da SDM

(36)

A alternativa de dois-lados

• Um enfoque mais aberto permite conclusões

positivas e negativas não-antecipadas.

• Isso requer um two-two- sided test

sided test

– O teste de dois-lados olha em ambas as caudas

– Isso dobra o valor de p

(37)

Próxima aula: Ler o paper abaixo

• Um estudo de caso baseado em:

• “An Empirical Study of Dynamic Scheduling on

Rings of Processors” Gregory, Gao, Rosenberg

& Cohen, Proc. of 8th IEEE Symp. on Parallel &

Distributed Processing, 1996

• citeseer.ist.psu.edu/gregory96empirical.html

Referências

Documentos relacionados

O objetivo deste trabalho foi avaliar épocas de colheita na produção de biomassa e no rendimento de óleo essencial de Piper aduncum L.. em Manaus

sistematicamente revisadas para baixo, como proxy para a desaceleração mundial e os efeitos das tarifas mais elevadas impostas pelos EUA, lembrando que Japão e Coreia

A educação baseada nos desperta dos poderes latentes do Espírito é a única que realmente o conduz à própria autonomia integral, capaz de utilizar a própria vontade para seguir

Uma vez rompida a circularidade do discurso pedagógico, como assevera Orlandi (2003), é preciso que o discurso autoritário seja substituído pelo discurso polêmico, no qual

Na fase 1 avaliou-se, in vitro, a ação de três diferentes concentrações do extrato de própolis em comparação com os produtos industrializados Periogard, Listerine, Malvatricin

Os interessados em adquirir quaisquer dos animais inscritos nos páreos de claiming deverão comparecer à sala da Diretoria Geral de Turfe, localizada no 4º andar da Arquibancada

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

Agente Comunitário de Saúde - Engenho Velho Matutino Homologada.. Odontólogo (ESF) Matutino