Capítulo 6 Estatística não-paramétrica

(1)

Slide 1

Capítulo 6

Estatística não-paramétrica

Teste de ajustamento do Qui-quadrado

Testes de independência e de

homogeneidade do Qui-quadrado

Testes dos sinais e de Wilcoxon

Teste de Mann-Whitney

(2)

Slide 2

Algumas considerações

v

As duas primeiras secções deste capítulo

referem-se à análise de dados

categorizados

(qualitativos ou atributos) os quais podem ser

classificados em diferentes categorias

(frequentemente designadas por

células

).

v

Vamos usar a distribuição

χχχχ

2

(Qui-quadrado).

v

No teste de ajustamento temos uma tabela com

apenas uma linha ou uma coluna.

v

Nos testes de independência e de

(3)

Slide 3

Algumas considerações

Definições

v

Testes Paramétricos

Os testes paramétricos obrigam a que as populações envolvidas obedeçam a certas premissas.

v

Testes Não

-

Paramétricos

Nos testes não-paramétricos as populações não têm que obedecer a quaisquer premissas. Assim sendo, este testes são também designados por testes “distribution-free“.

(4)

Slide 4

Vantagens dos Métodos

Não-paramétricos

1. Os métodos não-paramétricos podem ser aplicados

numa grande variedade de situações pois não exigem premissas rígidas, tal como acontece com os

métodos paramétricos. Em particular, os métodos não-paramétricos não exigem que as populações tenham distribuição Normal.

2. Ao contrário do que acontece com os métodos

paramétricos, os métodos não-paramétricos podem ser aplicados a dados qualitativos.

3. Habitualmente, os métodos não-paramétricos envolvem cálculos mais simples do que os

(5)

Slide 5

Desvantagens dos Métodos

Não-paramétricos

1. Os métodos não-paramétricos tendem a desperdiçar informação uma vez que,

frequentemente, os dados quantitativos são transformados em dados qualitativos.

2. Os testes não-paramétricos não são tão eficientes como os métodos paramétricos logo, em geral, com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo, uma amostra maior ou maiores diferenças) para poder rejeitar a hipótese nula.

(6)

Slide 6

Experiência Multinomial

Esta é uma experiência que obedece às

seguintes condições:

1. O número de provas é fixo.

2. As provas são independentes.

3. Todos os resultados de uma prova devem

poder ser classificados numa só das diferentes

categorias.

4. As probabilidades para cada uma das

categorias permanecem constantes em cada

(7)

Slide 7

Definição

Teste de ajustamento

Um

teste de ajustamento

é usado

para testar a hipótese de uma certa

distribuição de frequências

observadas seguir uma certa

distribuição teórica.

(8)

Slide 8

0 representa a

frequência (ou valor)

observada (o)

E

representa a

frequência esperada

(de

acordo com a distribuição teórica)

k

representa o

número de categorias

n

representa a

dimensão da amostra

(ou seja,

neste contexto, o número de provas)

Teste de ajustamento

(9)

Slide 9

Frequências Esperadas

Se todas as frequências esperadas forem

iguais:

cada valor esperado é a soma de todas as

frequências observadas dividida pelo

número de categorias.

n

E

=

(10)

Slide 10

Se as frequências esperadas forem

diferentes:

cada valor esperado determina-se

multiplicando a soma de todas as

frequências observadas pela

probabilidade de cada categoria.

E

= n p

(11)

Slide 11

Teste de ajustamento

Estatística de teste

Valores críticos

1. Determinam-se usando a tabela da

distribuição Qui-quadrado com k – 1 graus de

liberdade, onde

k

= número de categorias.

2. A hipótese alternativa é sempre unilateral

direita.

X

2

=

ΣΣΣΣ

(O – E)

2

(12)

Slide 12

v

Um valor muito

elevado

da estatística de

teste levará à

rejeição

da hipótese nula (a

qual diz que não há diferença entre os

valores observados e os valores

esperados)

v

Se os valores observados estiverem

próximos

dos valores esperados, então

o valor da estatística de teste será

pequeno (que é o mesmo do que dizer

que o P-value será grande) e vice-versa.

(13)

Slide 13

Tabelas de contingência:

Independência e

(14)

Slide 14

v

Uma

tabela de contingência

é uma

tabela de frequências que representa um

conjunto de dados que foram

classificados simultaneamente segundo

duas (bidimensional) ou mais variáveis

(multidimensional).

As tabelas de contingência têm,

pelo

menos, 2 linhas e 2 colunas.

(15)

(16)

Slide 16

v

Teste de Independência

Este método testa a hipótese nula

de a variável linha e a variável coluna

numa tabela de contingência não

estarem relacionadas. (A hipótese

nula afirma que as duas variáveis

são independentes.)

(17)

Slide 17

Pressupostos

1. As observações são seleccionadas

aleatoriamente.

2. A hipótese nula H

₀

afirma que as variáveis

linha e coluna são

independentes

; a hipótese

alternativa H

₁

afirma que as variáveis linha e

coluna são dependentes.

3. O valor

esperado

, E,

de cada célula da tabela

de contingência tem que ser, pelo menos, 5.

(Que não é o mesmo do que dizer que cada

valor

observado

, O, de cada célula da tabela de

contingência tenha que ser, pelo menos, 5.)

(18)

Slide 18

Teste de Independência

Estatística de teste

Valores críticos:

1. Determinam-se através da tabela da distribuição Qui-quadrado com

(r – 1)(c – 1)=graus de liberdade

onde r é o número de linhas e c o número de colunas da

X

2

=

ΣΣΣΣ

(|O – E|-0.5)

2

E

Correcção de Yates: aplica-se quando a tabela de

contingência é 2x2. Neste caso, a estatística de teste é

X

2

=

ΣΣΣΣ

(O – E)

2

(19)

Slide 19

(

total de linha

) (

total de coluna

)

(

total

)

E

=

E

=

n

_i.

n

_.j

(20)

Slide 20

Teste de Independência

H

₀

: A variável linha é independente da variável

coluna.

H

₁

: A variável linha é dependente (está

relacionada com a) da variável coluna.

A dependência entre as duas variáveis

significa apenas que as duas variáveis estão

relacionadas

, não especifica o tipo de relação

(21)

Slide 21

Frequências Observadas e Esperadas

332 1360 1692 318 104 422 29 35 64 27 18 45 706 1517 2223 Men Women Boys Girls Total Survived

Died Total

Vamos usar a tabela de contingência referente aos passageiros do Titanic para calcular as frequências

esperadas. Para a primeira célula, a que se encontra na posição 11, ou seja, 1ª linha e 1ª coluna, temos:

= 537.360

E₁₁ = (706)(1692)

2223

n

_1.

n

_.1

(22)

Slide 22 332 537.360 1360 1692 318 104 422 29 35 64 27 18 45 706 1517 2223 Men Women Boys Girls Total Survived

Died Total

Cálculo da frequência esperada da célula na posição 21, sob a hipótese de independência entre as variáveis.

= 1154.640

E₂₁ = (1517)(1692)

2223

(23)

Slide 23 332 537.360 1360 1154.64 1692 318 134.022 104 287.978 422 29 20.326 35 43.674 64 27 14.291 18 30.709 45 706 1517 2223 Men Women Boys Girls Total Survived

Died Total

Para interpretar o resultado obtido para a célula, por

exemplo, na posição 21, dizemos que embora tivessem sido observadas 1360 mortes nos homens, se houvesse

independência entre a sobrevivência e o facto de um indivíduo ser homem, mulher, rapaz ou rapariga,

esperaríamos apenas 1154.64 mortes nos homens.

(24)

Slide 24

Exemplo: Teste a hipótese de a sobrevivência dos

passageiros do Titanic ser independente do facto

do passageiro ser homem, mulher, rapaz ou

rapariga, usando um nível de significância de 0.05.

H0: A sobrevivência dos passageiros é independente do

facto de ser homem, mulher, rapaz ou rapariga.

H1: A sobrevivência dos passageiros é dependente do

(25)

Slide 25 Cálculos: X2_{= (332–537.36)}2 _{+ (318–132.022)}2 _{+ (29–20.326)}2 _{+ (27–14.291)}2 537.36 _134.022 _20.326 14.291 + (1360–1154.64)2 _{+ (104–287.978)}2 _{+ (35–43.674)}2 _{+ (18–30.709)}2 1154.64 287.978 43.674 30.709 X2_{=78.481 + 252.555 + 3.702+11.302+36.525+117.536+1.723+5.260} = 507.084

(26)

Slide 26

O número de graus de liberdade é

(r–1)(c–1) = (2–1)(4–1) = 3

pois a tabela tem 2 linhas e 4 colunas. Então, o valor crítico é

χχχχ2

(27)

Slide 27

X

2 = 507.084 com

αααα

= 0.05 e (r – 1) (c– 1) = (2 – 1) (4 – 1) = 3 graus de liberdade Valor crítico:

χχχχ

2 _{= 7.815} Estatística de teste:

(28)

Slide 28

Com pare os valores observados, Com pare os valores observados, Com pare os valores observados,

Com pare os valores observados, OOOO , com , com , com , com os respectivos valores esperados,

os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, EEE ....E

X XX

X2222 _grande,_{grande, P----value}_grande,_grande, _value_{value pequeno.}_value_pequeno._pequeno._pequeno.

X XX

X2222 _pequeno,_{pequeno, P----value}_pequeno,_pequeno, _value_{value grande.}_value_grande._grande._grande.

O `s e E `s próxim os. O `s e E `s afastados.

R ejeitar H R ejeitar H R ejeitar H R ejeitar H₀₀₀₀.... N N N

N ão rão rão rão rejeitar Hejeitar Hejeitar Hejeitar H₀₀₀₀....

X XX

X2222 _aqui_aqui_aqui_aqui

X XX

X2222 _aqui_aqui_aqui_aqui

Relações entre as componentes

num Teste de Independência

(29)

Slide 29

Definição

v

Teste de Homogeneidade

Num

teste de homogeneidade

,

verificamos se diferentes populações

têm as mesmas características.

(30)

Slide 30

Como distinguir um teste de

homogeneidade dum teste de

independência:

A dimensão das amostras

provenientes das diferentes

populações foi fixada à partida (teste

de homogeneidade), ou foi recolhida

apenas uma amostra que depois foi

classificada aleatoriamente nas

diferentes linhas e colunas (teste de

independência)?

(31)

Slide 31

Exemplo: Através da tabela que se segue, teste o efeito do sexo do entrevistador nas respostas de uma amostra de

indivíduos do sexo masculino a uma certa sondagem, com um nível de significância de 0.05.

(32)

Slide 32

H₀: A proporção de respostas concordantes/discordantes é a mesma quer o entrevistador seja do sexo masculino ou feminino. H₁: A proporção é diferente. Chi-Square Tests Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) Pearson Chi-Square _6,529(b) ₁ _,011 Continuity Correction(a) 6,184 1 ,013 Likelihood Ratio _6,662 ₁ _,010

Fisher's Exact Test _,011 _,006

Linear-by-Linear

Association 6,524 1 ,011

N of Valid Cases ₁₂₀₀

(33)

Slide 33

O SPSS fornece-nos o valor da estatística de teste X 2 ₌

6.184 e o P-value 0.013 (pois a tabela é 2x2). Usando a

abordagem através do P-value, rejeitamos a hipótese nula de igualdade (homogeneidade) das proporções (porque o P-value é menor do que 0.05).

Assim, concluímos que existe evidência suficiente para rejeitar a hipótese de igualdade de proporções.

(34)

Slide 34

Definição

Os dados estão ordenados quando estão dispostos de acordo com algum critério como, por exemplo, do menor para o maior ou do melhor para o pior. Um rank é um número que é atribuído a cada

elemento da amostra tendo em conta a sua

ordem na lista ordenada. Ao primeiro elemento da lista ordenada é atribuído o rank 1, ao

(35)

Slide 35

Exemplo

5 3 40 10 12 Valores da amostra

3 5 10 12 40 Valores dispostos por ordem

(36)

Slide 36

Como lidar com

observações “empatadas”

• Use os ranks médios das observações

“empatadas”.

3 5

5 10

12 Valores da amostra

1 2.5 2.5 4 5 Ranks

(37)

Slide 37

Teste de Correlação Ordinal

de Spearman

v

A correlação ordinal (entre os ranks)

é

determinada usando os ranks das observações

das amostras emparelhadas.

v

O

teste de correlação ordinal de Spearman

é

usado para testar a existência de associação entre

duas variáveis.

v

H

_o

:

ρρρρ

_s

= 0 (Não existe correlação entre as duas

variáveis.)

v

H

₁

:

ρρρρ

_s

≠≠≠≠

0 (Existe correlação entre as duas

(38)

Slide 38

Vantagens

1. O método não-paramétrico de correlação ordinal (correlação entre os ranks) pode ser usado numa maior variedade de situações do que o seu

correspondente paramétrico (Teste de correlação linear de Pearson).

2. A correlação ordinal pode ser usada para

detectar algumas (não todas) relações que não são lineares.

3. Os cálculos necessários para determinar a

correlação ordinal são mais simples do que os para determinar a correlação linear.

(39)

Slide 39

Pressupostos

1. A amostra é uma amostra aleatória.

2. Não existe qualquer exigência

quanto à distribuição de qualquer

uma das duas populações, ao

contrário do que sucede com os

métodos paramétricos.

(40)

Slide 40

Notação

r

_s

=

coeficiente de correlação ordinal para

amostras emparelhadas (r

_s

é uma estatística

amostral)

ρρρρ

s

=

coeficiente de correlação ordinal da

população (

ρρρρ

_s

é um parâmetro populacional)

n

=

número de pares de observações

d

=

diferença dos ranks de cada par de

observações

r

_s

designa-se por coeficiente de correlação

(41)

Slide 41

Estatística de Teste para o

Coeficiente de Correlação Ordinal

onde cada valor de d corresponde à diferença dos ranks de cada par de observações.

Valores críticos:

v Se n ≤≤≤≤ 30, consulte a tabela da estatística de

Spearman

v Se n > 30, use a fórmula que se segue e, em

seguida, consulte a tabela da distribuição Normal

r

_s

= 1 –

6 ΣΣΣΣ

d

2

(42)

Slide 42

onde o valor de

z

determina-se tendo em

conta o nível de significância.

r

_s

=

n –

1 ±±±±

z

(43)

Slide 43

Coeficiente de correlação ordinal para testar H₀:

ρρρρ

_s = 0

Complete the computation of

Início

Calcule a diferença d para cada par de ranks subtraindo o rank menor ao rank maior.

Let _n equal the total number of signs.

Os n

pares de valores estão na forma de ranks?

Converta os valores de cada amostra em ranks

(de 1 até n)

Não

Eleve ao quadrado cada diferença d e, em seguida, Determine a soma dos quadrados

r_s= 1 – 6ΣΣΣΣd2

n(n2–1)

ΣΣΣΣ(d2)

(44)

Slide 44

Coeficiente de correlação ordinal para testar H₀:

ρρρρ

_s = 0

Complete the computation of

to get the sample statistic.

r_s= 1 – 6ΣΣΣΣd2

n(n2 –1)

n ≤≤≤≤ 30?

Se a estatística amostral r_sé positiva e excede o valor crítico, existe correlação. Se a estatística amostral r_s é negativa e é menor do que o valor crítico, existe correlação. Se a estatística amostral r_sestiver Determine os valores críticos de

r_sna tabela da estatística de Spearman

Calcule os valores críticos

onde z determina-se tendo em conta o nível de significância

r_s=

n –1 ±±±± z

Sim

(45)

Slide 45

Exemplo:

Percepção de Beleza

Use os dados da tabela que se segue para determinar se existe correlação entre os rankings dos homens e das

mulheres em termos do que eles acham atraente. Use um nível de significância

αααα

= 0.10.

(46)

Slide 46

Exemplo:

Percepção de Beleza

H₀:

ρρρρ

_s = 0 H₁:

ρρρρ

_s ≠≠≠≠ 0 n = 10

r

_s

= 1 –

6 ΣΣΣΣ

d

2

n(n

2

–

1)

r

_s

= 0.552

r

_s

= 1 –

6(74)

10(10

2

–

1)

(47)

Slide 47

Exemplo:

Percepção de Beleza

Ao consultar a tabela da estatística de Spearman, verificamos que os valores críticos são ±±±±0.648.

Como o valor da estatística de teste r_s = 0.552 não excede o valor crítico 0.648 e é maior do que

-0.648, não rejeitamos a hipótese nula. Assim, não existe evidência suficiente para afirmar que existe correlação entre os rankings dos homens e das mulheres.