• Nenhum resultado encontrado

Métodos Não-Paramétricos

N/A
N/A
Protected

Academic year: 2021

Share "Métodos Não-Paramétricos"

Copied!
38
0
0

Texto

(1)

Métodos Não-Paramétricos

Departamento: DEIO

Licenciatura: Estatística Aplicada

2ºAno / 2º Semestre /

6 ECTS

(2)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

2

Programa

Introdução

Análise de Dados Categorizados

Teste do Qui-Quadrado

Teste de Ajustamento

Tabelas de Contingência

Teste de Independência

Teste de Homogeneidade

Estatística Não-Paramétrica

Introdução: O problema geral da localização relativo a 2 amostras

Amostras emparelhadas

Teste dos Sinais

(pequenas e grandes amostras)

Teste de Wilcoxon

(pequenas e grandes amostras)

Uso das “Ordens” para Comparar Populações: Amostras Independentes

2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras)

Mais de 2 Populações:

O Teste de Kruskal-Wallis (

pequenas e grandes amostras

)

Teste de Friedman (pequenas e grandes amostras)

Uso das “Ordens” para Testar Independência e Aleatoriedade

Teste de Spearman (pequenas e grandes amostras)

Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras)

(3)

Bibliografia

CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley.

DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent.

Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com

complementos de Excel, SPE.

DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts

Addison-Wesley.

Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação

Gulbenkian. 2ª ed.

SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral

Sciences. McGraw-Hill.

* Wackerly, D., Mendenhall, W. and Scheaffer, L. (2008) –

Mathematical Statistics with Applications. Duxbury Press; 7th ed.

* Manual Recomendado para consulta das Tabelas ao longo dos slides.

(4)

Introdução

O que é a Estatística ?

Estudo da Incerteza

Como a quantificar? Que podemos fazer com

ela?

As experiências repetidas

sob o que pensamos serem as condições

não resultam sempre da mesma forma…!

(5)

Tipos de Experiências

Causais ou Determinísticas

Ex: Deixar cair uma pedra no rio

Aleatória ou Estocástica

Ex: O Tempo que vou Esperar pelo Autocarro

Como posso “prever” o resultado?

(6)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

6

Estatística:

produz afirmações numéricas relativamente a

situações sujeitas a INCERTEZA.

Exemplos:

Quem irá ganhar as próximas eleições?

Estarão os clientes da PT satisfeitos com o serviço

prestado?

Qual das duas pastas dentífricas é mais eficiente que a

outra para prevenir as cáries?

Qual a previsão da quantidade de precipitação para o

próximo inverno?

Após a monitorização de pacientes com doenças

cardíacas, como decidir acerca dos factores que

afectam a sua saúde ?

(7)

Como e Que Respostas ?

Para responder a estas perguntas frequentemente usamos modelos

probabilísticos, que são modelos matemáticos para lidar com incerteza.

São recolhidos

Dados

para explorar uma

População

, o objectivo

de nosso estudo.

Quando é recolhida uma amostra grande é necessário produzir resumos

das informações nela contidas. Existem ferramentas gráficas e numéricas

que são normalmente utilizadas pelos estatísticos

•AMOSTRA

•Estatística Descritiva

Inferência Estatística -

faz generalizações, válidas para a

População

,

a partir de

Amostras.

(enquanto na

Previsão -

é apresentada uma afirmação sobre o

Futuro

.)

(8)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

8

Tipos de Variáveis

VARIÁVEL

QUALITATIVA

QUANTITATIVA

(9)

Tipos de Variáveis (cont.)

QUANTITATIVA vs. QUALITATIVA :

variáveis com /

sem representação numérica e ordenação natural

única (por exemplo, a pressão arterial versus religião).

DISCRETA vs. CONTÍNUA:

variáveis quantitativas

com / sem lacunas conceptuais entre os seus valores

(por exemplo, número de crianças numa família versus

pressão arterial).

ORDINAL vs. NOMINAL:

variáveis qualitativas com /

sem ordenação (eventualmente não única) dos seus

valores (a satisfação do cliente versus religião).

(10)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

10

De modo geral,

as variáveis qualitativas estão mais ligadas aos

modelos não-paramétricos

enquanto que

as variáveis quantitativas aos modelos

paramétricos.

(11)

As variáveis qualitativas podem ainda ser classificadas de acordo com:

VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe)

nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino,

macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário,

secundário, colegial, universitário, pós-graduação, etc.

Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma

população ou amostra são medidos mediante uma certa

característica que pode ser

categoria, nome ou classe.

Características binárias ou dicotomizadas:

presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno ou

maligno, etc.

Essas características são

mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar

em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os

indivíduos da população ou amostra em estudo, sem excepção.

A variável categórica é qualitativa e não se presta aos cálculos aritméticos

comuns: soma, subtracção, multiplicação e divisão.

Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica

(x=y então y=x); transitiva (x=y e y=z então x=z).

(12)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

12

VARIÁVEL ORDINAL –

no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no

sexo, F,M ou M,F; no curso, primário- secundário-superior ou

superior-secundário-primário; em uma quantificação, leve-moderado-intenso ou

intenso-moderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados

numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.

Os indivíduos de uma população ou amostra são classificados de acordo

com as diversas categorias de uma determinada característica e em

seguida são ordenados. Esta ordenação pode ser crescente ou

decrescente, ou igualmente, ascendente ou descendente.

A variável ordinal também é qualitativa.

Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se

sabe o quanto é maior nem o quanto é menor. São comuns as expressões

comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso, menos

intenso; mais alto, mais baixo; preferível; etc.

Na escala ordinal utilizam-se as comparações maior do que (>) e menor do

que (<). As operações aritméticas comuns (adição, subtracção,

multiplicação e divisão) não são aplicáveis.

Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva

(se x>y e

y>z então x>z).

(13)

VARIÁVEL INTERVALAR –

os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames

laboratoriais, medidas diversas, etc.

A escala intervalar é verdadeiramente quantitativa. A medição é feita

directamente em números reais, obtidos mediante a comparação com um

determinado valor fixo, denominado unidade. O nome intervalar está

ligado aos intervalos entre as categorias da variável e aqui se sabe

exactamente o quanto uma categoria é menor ou maior que outra,

ou ainda se há igualdade entre elas.

As operações aritméticas comuns (soma, subtracção, multiplicação e

divisão) são aplicáveis.

A variável intervalar reúne todas as propriedades dos dois tipos anteriores

de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y

então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>),

(14)

ESTATÍSTICA NÃO

PARAMÉTRICA

Extremamente interessante para

análises de dados qualitativos.

(15)

MEDIDAS DE TENDÊNCIA CENTRAL - Localização

Média

Mediana

Moda

Média Amostral - é a soma de

todos os valores de uma amostra

dividida pelo nº de elementos da

amostra (dimensão).

É aplicada em variáveis quantitativas.

A

média amostral

é a

contrapartida empírica do

Valor

Médio da População ou da

Variável,

µ

µ

µ

µ

.

1

1

n

i

i

X

X

n

=

=

1

2

( . .) -

,

,

,

n

amostra aleatoria a a

ɺ

X X

X

1

2

- ,

,

,

n

amostra observada x x

x

1

1

n

i

i

x

x

n

=

=

(16)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

16

Mediana Amostral - É o valor da

amostra que ocupa a posição central,

quando todos os valores estão

ordenados em ordem crescente ou

decrescente.

Se n for ímpar, a mediana ( Med ) será

o valor que ocupa a posição central na

amostra ordenada. Esta posição pode

ser calculada por (n+1)/2.

Se n for par, a Med será calculada pela

média aritmética dos dois valores

centrais na amostra ordenada da

amostra. A posição de cada um desses

dois valores centrais pode ser

calculada por n/2 e n/2+1.

A Mediana é muito utilizada nos

cálculos não-paramétricos.

MEDIDAS DE TENDÊNCIA CENTRAL - Localização

1

:

2

:

1:

2

2

1

2

n

n

n

n

n

n

x

n impar

Med

x

x

n par

+

+



=

 

+

 

1:

2:

:

ordenada

-

n

n

n n

amostra

observada

x

x

x

(17)

MEDIDAS DE TENDÊNCIA CENTRAL - Localização

Moda - É o valor da

variável que

corresponde à

frequência máxima.

A moda pode ter um

ou mais valores,

unimodal, bimodal,...,

multimodal, conforme

existam uma, duas, ou

mais frequências iguais,

dos valores da variável.

Dados:

25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51

(n=13)

média

mediana

moda

53.9

x

=

1 2

-

( ,

,

,

)

(25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 )

n

amostra observada

x x

x

=

1: 2: :

ordenada

-

(22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99)

n n n n

amostra

observada

x

x

x

=

46

Med

=

(18)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

18

Localização:

Mediana vs. Média

Razões para usar a mediana:

– É menos influenciada por valores extremos

– Se as distribuições são simétricas, a média e a

mediana populacional coincidem

Média vs. Mediana

5 6 6 7 7 8 10

Média = 7 Med = 7

5 6 6 7 7 8 50

(19)

Distinguir

Metodologias Paramétricas

&

Metodologias Não-Paramétricas

Explicar uma

Variedade de Testes Não-Paramétricos

Resolver

Problemas de Testes de Hipóteses

usando

Testes Não-Paramétricos

(20)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

20

Quadro Geral

Até este ponto, todos os testes que têm utilizado estão

sujeitos a suposições sobre a distribuição subjacente aos dados.

Especificamente, é assumido que os dados são

normais

para

usar o teste-t, por exemplo.

Poder-se-ia usar a teoria de grandes amostras e o

Teorema

do Limite Central

, mas isso ainda apenas se verifica

Assintoticamente

O que é que acontece se

não

estamos dispostos ou não é sensato

fazer as suposições de

normalidade

sobre a distribuição subjacente

e temos uma

amostra de dimensão pequena

?

(21)

TESTE DE HIPÓTESES

Trata-se de uma técnica para se

fazer a inferência estatística sobre

uma população a partir de uma

amostra

(22)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

22

E muitos mais…!

Teses de Hipóteses - Metodologias

Teste de

Hipóteses

-metodologias

Não-Paramétricas

Paramétricas

Teste - z

Teste

Kruskal-Wallis

Teste

Wilcoxon

Teste - t

ANOVA

etc

etc

(23)

Amostra emparelhada

Teste-t

emparelhado

(24)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

24

Estatística Não-Paramétrica

Muitos dos testes estatísticos

não-paramétricos

respondem à mesma série de questões tal como os

testes

paramétricos

.

Com testes não-paramétricos

as hipóteses

podem ser

flexibilizadas

consideravelmente.

Por conseguinte, são utilizados métodos

não-paramétricos

para

situações que violem os pressupostos de procedimentos

paramétricos.

(25)

Testes Paramétricos

Testes Paramétricos

Incidem explicitamente sobre um ou mais parâmetros

de uma ou mais populações;

A distribuição de probabilidades da estatística de teste

pressupõe uma forma particular das

distribuições

populacionais;

As variâncias são homogéneas;

Os erros ou resíduos são aleatórios e independentes

e têm distribuição normal com variância finita e

(26)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

26

Testes Não-Paramétricos

Testes Não Paramétricos

Requerem menos pressupostos em relação à

população;

Não exigem normalidade;

Não se baseiam em parâmetros da distribuição (logo, não

necessitam

variâncias homogéneas

);

Ligeiramente menos eficientes que os testes

paramétricos;

Baseiam-se nas estatísticas ordinais (e não nos

valores das observações);

(27)

Testes Não-Paramétricos

Poucos Pressupostos Relativos à População

Facilidade de implementação

Maior Perceptibilidade

Aplicável em Situações Não Abrangidas Pela Normal

Mais Eficientes quando as Populações não têm Distribuição Normal

Os resultados podem ser tão exactos como nos procedimentos paramétricos

Vantagens

As hipóteses testadas por testes não-paramétricos tendem a ser

menos específicas;

Não têm Parâmetros, Dificultando Comparações Quantitativas

entre Populações

Escasso Aproveitamento de Informação da Amostra

Pode ser de Difícil Cálculo à mão para Grandes Amostras

(28)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

28

• Não incorpora as suposições restritivas, características dos

testes paramétricos.

• Os dados não precisam estar normalmente distribuídos

(

Distribution-Free

). É necessário, apenas, que eles sejam

ordenáveis.

• Muitas vezes, são baseados nas

ordens

das observações e não

nos seus valores, como no caso paramétrico.

• Podem ser aplicados para variáveis quantitativas e qualitativas.

• Menos sensíveis aos erros de medida e rápidos para pequenas

amostras.

(29)

TESTE DE HIPÓTESES

Trata-se de uma técnica para se

fazer a inferência estatística sobre

uma população a partir de uma

amostra

(30)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

30

PRINCIPAIS CONCEITOS

HIPÓTESE ESTATÍSTICA

Trata-se de uma

suposição

quanto ao valor de um parâmetro

populacional, ou quanto à natureza da distribuição de

probabilidade de uma variável populacional.

TESTE DE HIPÓTESES

É uma regra de decisão para

aceitar

ou

rejeitar

uma hipótese

estatística com base nos

elementos amostrais

(31)

TEORIA

POPPER

IANA

-

Falseabilidade (ou refutabilidade)

“Science can't prove anything. It can only disprove things.”

A ciência não pode provar nada. Só pode refutar coisas.

Considere o exemplo do famoso Cisne Negro (black swan):

Um cientista gasta sua vida observando cisnes. Observa que todos

os cisnes que jamais viu são brancos. Com base nesta evidência

empírica, ele postula uma teoria de que

“todos os cisnes são

brancos”.

Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro.

A sua teoria é refutada. Mas isso não significa que não era

ciência quando a estabeleceu. Agora, pode estabelecer uma teoria

nova:

“Os cisnes podem ser brancos ou pretos”.

(32)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

32

Karl Popper

(1902- 1994)

-

UM FILÓSOFO INOVADOR

UM FILÓSOFO INOVADOR

UM FILÓSOFO INOVADOR

UM FILÓSOFO INOVADOR

Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado

britânico e um professor da London School of Economics.

Formou-se em matemática, física e filosofia da ciência britânica.

Uma das pessoas mais influentes da filosofia da Ciência durante o século

XX.

POPPER E A REFUTAÇÃO

Uma hipótese só é científica se puder ser colocada em questão

(“refutada”).

Isto significa que deve ser sempre possível realizar uma observação

que prove que a hipótese é falsa

Uma teoria científica não poderá em nenhuma circunstância ser

declarada

“verdadeira”

A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será

refutada e substituída por uma outra.

“ What really makes science grow is new ideas, including false ideas.” –Karl Popper

SÓ APRENDEMOS QUANDO ERRAMOS.

OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS, MAS

A PROBABILIDADE DE ESTAREM

ERRADOS.

(33)

Data Analysis and Research for Sport and Exercise Science: A Student Guide

(34)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

34

PRINCIPAIS CONCEITOS

TIPOS DE HIPÓTESES

H

0

,

hipótese nula

, a hipótese estatística a ser testada

H

1

,

hipótese alternativa

A

HIPÓTESE NULA

É UMA AFIRMAÇÃO DE COMO O MUNDO

DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.

Ex: A hipótese nula expressa uma igualdade, enquanto a

hipótese alternativa é dada por uma desigualdade.

0

:

1.5

.

1

:

1.5

(35)

Testes de Hipóteses – Erros

EXISTEM DOIS TIPOS DE ERRO:

Erro tipo 1

-

rejeição

de uma hipótese nula verdadeira

Erro tipo II

– “

aceitação

” de uma hipótese nula falsa

aceitação

não rejeição

A probabilidade α

α

α

α

do erro tipo I é denominada

(36)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

36

Realidade

Decisão

H

0

verdadeira

H

0

falsa

Não rejeitar

H

0

Decisão

correcta

Erro tipo II

Rejeitar

H

0

Erro tipo I

Decisão

correcta

α

α

α

α = P( erro tipo I ) = P(rejeitar H

0

| H

0

verdadeira) = P(ET ∈ RR | H

0

verd.)

nível de significância ou tamanho do teste

β

β

β

β = P(erro tipo II)= P(não rejeitar H

0

| H

0

falsa) = P(ET ∈ RA | H

0

falsa)

1-β

β

β = potência do teste → Probabilidade de não cometermos um erro do tipo II

β

Testes de Hipóteses – Erros

ET:= Estatística de Teste

RR:= Região de Rejeição

RA:= Região de Aceitação

(37)

p -Value

O resultado foi significativo?

Quão pequeno tem de ser o p-value, para se rejeitar a

hipótese nula?

Se

p-value < 5 %

estatisticamente significativo.

Se

p-value < 1 %

altamente significativo.

Os investigadores devem

resumir os dados,

dizer qual o teste usado e

reportar o

p-value

(

em vez de apenas o comparar com os valores de 1 % ou 5 %

)

No caso de se estabelecer à partida o nível de significância

α

e se o

TESTE indicar a aceitação de H

0

, diz-se que

(38)

Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 2ºAno/2ºSem (6 ECTS)

38

TIPOS DE TESTE

Qui-Quadrado

Teste dos Sinais

Teste de Wilcoxon

Teste de Mann-Whitney

Teste de Kruskal-Wallis

Teste de Friedman

Teste de Spearman

Teste dos Runs

Referências

Documentos relacionados

a) O conjunto dos números reais não possui números irracionais. d) Os números racionais são diferentes dos irracionais.. b) Não existe o elemento neutro da adição no conjunto

Roberto Belo da Silva, conhecido por Betinho, que faz pesca de mergulho, por esporte, no local onde ocorreu o acidente a mais ou menos 3 anos; ao ser perguntado qual a distância

Os solos com maior capacidade de adsorção de Se foram os mais intemperizados, com maiores conteúdos de argila e óxido de Al, sendo que a presença de outros óxidos como Fe, Mn e

Diferentemente da estratégia de liderança em custo, onde a coordenação e a integração das atividades funcionais acontecem por meio da centralização da tomada de decisões,

A Chefe de Departamento de Ensino do ​Campus ​ Rio Grande do Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Sul (IFRS), no uso de suas atribuições, e

O objetivo desse trabalho foi determinar a prevalência do consumo de bebidas alcoólicas e alcoolismo entre estudantes do Ensino Médio em escola pública e particular da cidade

Para esse trabalho de elaboração e acompanhamento do currículo da rede, foi instituído um grupo de trabalho por meio da Portaria Municipal de nº 03/2016, para elaborar

O SHAr é uma área de ocupação espontânea, a qual terá sua rede de drenagem urbana implementada de forma correta a partir da regularização da área, o local apresenta diversos