Slide 1
Capítulo 6
Estatística não-paramétrica
Teste de ajustamento do Qui-quadrado
Testes de independência e de
homogeneidade do Qui-quadrado
Testes dos sinais e de Wilcoxon
Teste de Mann-Whitney
Slide 2
Algumas considerações
v
As duas primeiras secções deste capítulo
referem-se à análise de dados
categorizados
(qualitativos ou atributos) os quais podem ser
classificados em diferentes categorias
(frequentemente designadas por
células
).
v
Vamos usar a distribuição
χχχχ
2(Qui-quadrado).
v
No teste de ajustamento temos uma tabela com
apenas uma linha ou uma coluna.
v
Nos testes de independência e de
Slide 3
Algumas considerações
Definições
v
Testes Paramétricos
Os testes paramétricos obrigam a que as populações envolvidas obedeçam a certas premissas.
v
Testes Não
-Paramétricos
Nos testes não-paramétricos as populações não têm que obedecer a quaisquer premissas. Assim sendo, este testes são também designados por testes “distribution-free“.
Slide 4
Vantagens dos Métodos
Não-paramétricos
1. Os métodos não-paramétricos podem ser aplicados
numa grande variedade de situações pois não exigem premissas rígidas, tal como acontece com os
métodos paramétricos. Em particular, os métodos não-paramétricos não exigem que as populações tenham distribuição Normal.
2. Ao contrário do que acontece com os métodos
paramétricos, os métodos não-paramétricos podem ser aplicados a dados qualitativos.
3. Habitualmente, os métodos não-paramétricos envolvem cálculos mais simples do que os
Slide 5
Desvantagens dos Métodos
Não-paramétricos
1. Os métodos não-paramétricos tendem a desperdiçar informação uma vez que,
frequentemente, os dados quantitativos são transformados em dados qualitativos.
2. Os testes não-paramétricos não são tão eficientes como os métodos paramétricos logo, em geral, com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo, uma amostra maior ou maiores diferenças) para poder rejeitar a hipótese nula.
Slide 6
Experiência Multinomial
Esta é uma experiência que obedece às
seguintes condições:
1. O número de provas é fixo.
2. As provas são independentes.
3. Todos os resultados de uma prova devem
poder ser classificados numa só das diferentes
categorias.
4. As probabilidades para cada uma das
categorias permanecem constantes em cada
Slide 7
Definição
Teste de ajustamento
Um
teste de ajustamento
é usado
para testar a hipótese de uma certa
distribuição de frequências
observadas seguir uma certa
distribuição teórica.
Slide 8
0
representa a
frequência (ou valor)
observada (o)
E
representa a
frequência esperada
(de
acordo com a distribuição teórica)
k
representa o
número de categorias
n
representa a
dimensão da amostra
(ou seja,
neste contexto, o número de provas)
Teste de ajustamento
Slide 9
Frequências Esperadas
Se todas as frequências esperadas forem
iguais:
cada valor esperado é a soma de todas as
frequências observadas dividida pelo
número de categorias.
n
E
=
Slide 10
Se as frequências esperadas forem
diferentes:
cada valor esperado determina-se
multiplicando a soma de todas as
frequências observadas pela
probabilidade de cada categoria.
E
= n p
Slide 11
Teste de ajustamento
Estatística de teste
Valores críticos
1. Determinam-se usando a tabela da
distribuição Qui-quadrado com k – 1 graus de
liberdade, onde
k
= número de categorias.
2. A hipótese alternativa é sempre unilateral
direita.
X
2=
ΣΣΣΣ
(O – E)
2
Slide 12
v
Um valor muito
elevado
da estatística de
teste levará à
rejeição
da hipótese nula (a
qual diz que não há diferença entre os
valores observados e os valores
esperados)
v
Se os valores observados estiverem
próximos
dos valores esperados, então
o valor da estatística de teste será
pequeno (que é o mesmo do que dizer
que o P-value será grande) e vice-versa.
Slide 13
Tabelas de contingência:
Independência e
Slide 14
v
Uma
tabela de contingência
é uma
tabela de frequências que representa um
conjunto de dados que foram
classificados simultaneamente segundo
duas (bidimensional) ou mais variáveis
(multidimensional).
As tabelas de contingência têm,
pelo
menos, 2 linhas e 2 colunas.
Slide 16
v
Teste de Independência
Este método testa a hipótese nula
de a variável linha e a variável coluna
numa tabela de contingência não
estarem relacionadas. (A hipótese
nula afirma que as duas variáveis
são independentes.)
Slide 17
Pressupostos
1. As observações são seleccionadas
aleatoriamente.
2. A hipótese nula H
0afirma que as variáveis
linha e coluna são
independentes
; a hipótese
alternativa H
1afirma que as variáveis linha e
coluna são dependentes.
3. O valor
esperado
, E,
de cada célula da tabela
de contingência tem que ser, pelo menos, 5.
(Que não é o mesmo do que dizer que cada
valor
observado
, O, de cada célula da tabela de
contingência tenha que ser, pelo menos, 5.)
Slide 18
Teste de Independência
Estatística de teste
Valores críticos:
1. Determinam-se através da tabela da distribuição Qui-quadrado com
(r – 1)(c – 1)=graus de liberdade
onde r é o número de linhas e c o número de colunas da
X
2=
ΣΣΣΣ
(|O – E|-0.5)
2
E
Correcção de Yates: aplica-se quando a tabela de
contingência é 2x2. Neste caso, a estatística de teste é
X
2=
ΣΣΣΣ
(O – E)
2
Slide 19
(
total de linha
) (
total de coluna
)
(
total
)
E
=
E
=
n
n
i.
n
.j
Slide 20
Teste de Independência
H
0: A variável linha é independente da variável
coluna.
H
1: A variável linha é dependente (está
relacionada com a) da variável coluna.
A dependência entre as duas variáveis
significa apenas que as duas variáveis estão
relacionadas
, não especifica o tipo de relação
Slide 21
Frequências Observadas e Esperadas
332 1360 1692 318 104 422 29 35 64 27 18 45 706 1517 2223 Men Women Boys Girls Total Survived
Died Total
Vamos usar a tabela de contingência referente aos passageiros do Titanic para calcular as frequências
esperadas. Para a primeira célula, a que se encontra na posição 11, ou seja, 1ª linha e 1ª coluna, temos:
= 537.360
E11 = (706)(1692)
2223
n
1.n
.1Slide 22 332 537.360 1360 1692 318 104 422 29 35 64 27 18 45 706 1517 2223 Men Women Boys Girls Total Survived
Died Total
Cálculo da frequência esperada da célula na posição 21, sob a hipótese de independência entre as variáveis.
= 1154.640
E21 = (1517)(1692)
2223
Slide 23 332 537.360 1360 1154.64 1692 318 134.022 104 287.978 422 29 20.326 35 43.674 64 27 14.291 18 30.709 45 706 1517 2223 Men Women Boys Girls Total Survived
Died Total
Para interpretar o resultado obtido para a célula, por
exemplo, na posição 21, dizemos que embora tivessem sido observadas 1360 mortes nos homens, se houvesse
independência entre a sobrevivência e o facto de um indivíduo ser homem, mulher, rapaz ou rapariga,
esperaríamos apenas 1154.64 mortes nos homens.
Slide 24
Exemplo: Teste a hipótese de a sobrevivência dos
passageiros do Titanic ser independente do facto
do passageiro ser homem, mulher, rapaz ou
rapariga, usando um nível de significância de 0.05.
H0: A sobrevivência dos passageiros é independente do
facto de ser homem, mulher, rapaz ou rapariga.
H1: A sobrevivência dos passageiros é dependente do
Slide 25 Cálculos: X2= (332–537.36)2 + (318–132.022)2 + (29–20.326)2 + (27–14.291)2 537.36 134.022 20.326 14.291 + (1360–1154.64)2 + (104–287.978)2 + (35–43.674)2 + (18–30.709)2 1154.64 287.978 43.674 30.709 X2=78.481 + 252.555 + 3.702+11.302+36.525+117.536+1.723+5.260 = 507.084
Slide 26
O número de graus de liberdade é
(r–1)(c–1) = (2–1)(4–1) = 3
pois a tabela tem 2 linhas e 4 colunas. Então, o valor crítico é
χχχχ2
Slide 27
X
2 = 507.084 comαααα
= 0.05 e (r – 1) (c– 1) = (2 – 1) (4 – 1) = 3 graus de liberdade Valor crítico:χχχχ
2 = 7.815 Estatística de teste:Slide 28
Com pare os valores observados, Com pare os valores observados, Com pare os valores observados,
Com pare os valores observados, OOOO , com , com , com , com os respectivos valores esperados,
os respectivos valores esperados, os respectivos valores esperados, os respectivos valores esperados, EEE ....E
X XX
X2222 grande, grande, P----value grande, grande, value value pequeno.value pequeno.pequeno.pequeno.
X XX
X2222 pequeno, pequeno, P----value pequeno, pequeno, value value grande.value grande.grande.grande.
O `s e E `s próxim os. O `s e E `s afastados.
R ejeitar H R ejeitar H R ejeitar H R ejeitar H0000.... N N N
N ão rão rão rão rejeitar Hejeitar Hejeitar Hejeitar H0000....
X XX
X2222 aquiaquiaquiaqui
X XX
X2222 aquiaquiaquiaqui
Relações entre as componentes
num Teste de Independência
Slide 29
Definição
v
Teste de Homogeneidade
Num
teste de homogeneidade
,
verificamos se diferentes populações
têm as mesmas características.
Slide 30
Como distinguir um teste de
homogeneidade dum teste de
independência:
A dimensão das amostras
provenientes das diferentes
populações foi fixada à partida (teste
de homogeneidade), ou foi recolhida
apenas uma amostra que depois foi
classificada aleatoriamente nas
diferentes linhas e colunas (teste de
independência)?
Slide 31
Exemplo: Através da tabela que se segue, teste o efeito do sexo do entrevistador nas respostas de uma amostra de
indivíduos do sexo masculino a uma certa sondagem, com um nível de significância de 0.05.
Slide 32
H0: A proporção de respostas concordantes/discordantes é a mesma quer o entrevistador seja do sexo masculino ou feminino. H1: A proporção é diferente. Chi-Square Tests Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) Pearson Chi-Square 6,529(b) 1 ,011 Continuity Correction(a) 6,184 1 ,013 Likelihood Ratio 6,662 1 ,010
Fisher's Exact Test ,011 ,006
Linear-by-Linear
Association 6,524 1 ,011
N of Valid Cases 1200
Slide 33
O SPSS fornece-nos o valor da estatística de teste X 2 =
6.184 e o P-value 0.013 (pois a tabela é 2x2). Usando a
abordagem através do P-value, rejeitamos a hipótese nula de igualdade (homogeneidade) das proporções (porque o P-value é menor do que 0.05).
Assim, concluímos que existe evidência suficiente para rejeitar a hipótese de igualdade de proporções.
Slide 34
Definição
Os dados estão ordenados quando estão dispostos de acordo com algum critério como, por exemplo, do menor para o maior ou do melhor para o pior. Um rank é um número que é atribuído a cada
elemento da amostra tendo em conta a sua
ordem na lista ordenada. Ao primeiro elemento da lista ordenada é atribuído o rank 1, ao
Slide 35
Exemplo
5 3 40 10 12 Valores da amostra
3 5 10 12 40 Valores dispostos por ordem
Slide 36
Como lidar com
observações “empatadas”
•
Use os ranks médios das observações
“empatadas”.
3 5
5 10
12
Valores da amostra
1 2.5 2.5 4 5 Ranks
Slide 37
Teste de Correlação Ordinal
de Spearman
v
A correlação ordinal (entre os ranks)
é
determinada usando os ranks das observações
das amostras emparelhadas.
v
O
teste de correlação ordinal de Spearman
é
usado para testar a existência de associação entre
duas variáveis.
v
H
o:
ρρρρ
s= 0 (Não existe correlação entre as duas
variáveis.)
v
H
1:
ρρρρ
s≠≠≠≠
0 (Existe correlação entre as duas
Slide 38
Vantagens
1. O método não-paramétrico de correlação ordinal (correlação entre os ranks) pode ser usado numa maior variedade de situações do que o seu
correspondente paramétrico (Teste de correlação linear de Pearson).
2. A correlação ordinal pode ser usada para
detectar algumas (não todas) relações que não são lineares.
3. Os cálculos necessários para determinar a
correlação ordinal são mais simples do que os para determinar a correlação linear.
Slide 39
Pressupostos
1.
A amostra é uma amostra aleatória.
2.
Não existe qualquer exigência
quanto à distribuição de qualquer
uma das duas populações, ao
contrário do que sucede com os
métodos paramétricos.
Slide 40
Notação
r
s=
coeficiente de correlação ordinal para
amostras emparelhadas (r
sé uma estatística
amostral)
ρρρρ
s=
coeficiente de correlação ordinal da
população (
ρρρρ
sé um parâmetro populacional)
n
=
número de pares de observações
d
=
diferença dos ranks de cada par de
observações
r
sdesigna-se por coeficiente de correlação
Slide 41
Estatística de Teste para o
Coeficiente de Correlação Ordinal
onde cada valor de d corresponde à diferença dos ranks de cada par de observações.
Valores críticos:
v Se n ≤≤≤≤ 30, consulte a tabela da estatística de
Spearman
v Se n > 30, use a fórmula que se segue e, em
seguida, consulte a tabela da distribuição Normal
r
s
= 1 –
6
ΣΣΣΣ
d
2Slide 42
onde o valor de
z
determina-se tendo em
conta o nível de significância.
r
s
=
n –
1
±±±±
z
Slide 43
Coeficiente de correlação ordinal para testar H0:
ρρρρ
s = 0Complete the computation of
Início
Calcule a diferença d para cada par de ranks subtraindo o rank menor ao rank maior.
Let n equal the total number of signs.
Os n
pares de valores estão na forma de ranks?
Converta os valores de cada amostra em ranks
(de 1 até n)
Não
Eleve ao quadrado cada diferença d e, em seguida, Determine a soma dos quadrados
rs = 1 – 6ΣΣΣΣd2
n(n2–1)
ΣΣΣΣ(d2)
Slide 44
Coeficiente de correlação ordinal para testar H0:
ρρρρ
s = 0Complete the computation of
to get the sample statistic.
rs = 1 – 6ΣΣΣΣd2
n(n2 –1)
n ≤≤≤≤ 30?
Se a estatística amostral rsé positiva e excede o valor crítico, existe correlação. Se a estatística amostral rs é negativa e é menor do que o valor crítico, existe correlação. Se a estatística amostral rsestiver Determine os valores críticos de
rs na tabela da estatística de Spearman
Calcule os valores críticos
onde z determina-se tendo em conta o nível de significância
rs =
n –1 ±±±± z
Sim
Slide 45
Exemplo:
Percepção de Beleza
Use os dados da tabela que se segue para determinar se existe correlação entre os rankings dos homens e das
mulheres em termos do que eles acham atraente. Use um nível de significância
αααα
= 0.10.Slide 46
Exemplo:
Percepção de Beleza
H0:ρρρρ
s = 0 H1:ρρρρ
s ≠≠≠≠ 0 n = 10r
s
= 1 –
6
ΣΣΣΣ
d
2n(n
2–
1)
r
s
= 0.552
r
s
= 1 –
6(74)
10(10
2–
1)
Slide 47
Exemplo:
Percepção de Beleza
Ao consultar a tabela da estatística de Spearman, verificamos que os valores críticos são ±±±±0.648.
Como o valor da estatística de teste rs = 0.552 não excede o valor crítico 0.648 e é maior do que
-0.648, não rejeitamos a hipótese nula. Assim, não existe evidência suficiente para afirmar que existe correlação entre os rankings dos homens e das mulheres.
Slide 48
Exemplo:
Percepção de Beleza com
amostras grandes
Considere o exemplo anterior, mas onde se
incluíu um total de 40 mulheres,
resultando numa estatística de teste r
scom o valor 0.291. Se o nível de
significância for
αααα
= 0.05, o que se pode
concluir acerca da correlação?
Slide 49
Exemplo:
Percepção de Beleza com
amostras grandes
r
s
=
n –
1
±±±±
z
r
s
=
40 –
1
±±±±
1.96
=
±
±
±
±
0.314
Valores críticos.
Slide 50