Aula 6 - Tratamento Estatístico de Dados (Tratamento e Avaliação Estatística de Dados - Parte 2)

(1)

Química Analítica Quantitativa

Rafael Souza da Costa Instituto de Química – IQ Universidade de Brasília – UnB

rafaelscosta@unb.br

Aula 06 – TRATAMENTO ESTATÍSTICO DE DADOS EXPERIMENTAIS:

Tratamento e Avaliação Estatística de Dados (Parte 2)

(2)

Testes de Significância

Teste se a diferença entre 2 resultados é significativa, ou se ela é simplesmente uma manifestação de variações aleatórias.

Testes de Hipóteses: modelo hipotético é formulado e testado experimentalmente para verificar sua validade.

Hipótese Nula : as quantidades numéricas comparadas são, de fato, as mesmas.

Utiliza-se as distribuições de probabilidade para verificar se as diferenças observadas são resultado de erros aleatórios.

(3)

3

Comparação de uma média Experimental

com um valor conhecido

 Valor conhecido representa o valor verdadeiro ou aceito, que se baseia em conhecimento ou experiência prévia.

 Também pode ser o valor previsto por uma teoria ou valor de referência. Existem 2 resultados:

◦ H₀ (hipótese nula) : μ = μ₀(μ é a média da população)

◦ H_a (hipótese alternativa) : μ ≠ μ_{0 ;}μ > μ_{0 ;}μ < μ₀

Devemos rejeitar a hipótese nula?

(4)

Teste z para grandes Amostras

Se um grande número de resultados encontram-se disponíveis, então s é uma boa estimativa de  e o teste z é adequado:

◦ Apresentar a hipótese nula : H₀: μ = μ₀

◦ Formular o teste estatístico :

◦ Estabelecer nível de confiança

◦ Determinar a hipótese alternativa, H_a, bem como a região de rejeição:

◦ H_a : μ ≠ μ₀, rejeitar H₀ se z≥z_critou se z≤-z_crit

◦ H_a : μ > μ₀, rejeitar H₀se z≥z_crit ◦ H_a : μ < μ₀, rejeitar H₀se z≤-z_crit N / x z 0    

(5)

Teste de duas caudas

Regiões de rejeição para o nível de confiança de 95%

Valor crítico Valor crítico

(6)

Teste de uma cauda

Região de rejeição para o nível de confiança de 95%

Valor crítico

(7)

Exemplo

Uma classe de 30 alunos determinou a energia de ativação de uma reação química como 27,7 kcal/mol (valor médio) com um desvio padrão de 5,2 kcal/mol.

◦ Os dados estão de acordo com o valor de 30,8 kcal/mol descrito na literatura em um nível de confiança de 95%?

◦ Estime a probabilidade da média encontrada ser igual ao valor da literatura.

(8)

Teste t para uma Amostra pequena

Procedimento similar ao teste z, exceto que o teste estatístico é o teste t.



Apresentar a hipótese nula : H

₀

: μ = μ

₀



Formular o teste estatístico :



Determinar a hipótese alternativa, H

_a

, bem como a região de rejeição:

◦ H_a : μ ≠ μ₀, rejeitar H₀ se t≥t_crit ou se t≤-t_crit

◦ H_a : μ > μ₀, rejeitar H₀ se t≥t_crit ◦ H_a : μ < μ₀, rejeitar H₀ se t≤-t_crit N / s -x t  0

(9)

Teste de Erros sistemáticos

Erros sistemáticos em um método analítico: determinados por meio da comparação de um resultado com uma amostra de composição exatamente conhecida.

Método B possui algum tipo de erro sistemático

Viés = μ_B– μ_A

Valor aceito (sem viés)

(10)

Exemplo

Um novo método para determinação de enxofre em querosene foi testado em uma amostra onde se conhecia que a quantidade de enxofre era 50 ng/mL.

Os resultados foram:

◦ 50,4 ; 50,7 ; 49,1 ; 49,0 e 51,1 ng/mL

Existe evidência de erro sistemático?

(11)

Curva de distribuição t

Curva t

Valor de t

(4 graus de liberdade)

-2,776 2,776

Valor de P = 0,050 = soma da área em ambas as caudas

(12)

Comparação de duas médias experimentais



Avaliar se uma diferença nas médias de dois conjuntos de dados é

verdadeira ou se é o resultado de erros aleatórios.



Resultados são usados para estabelecer se dois métodos analíticos

fornecem os mesmos valores.



Dois analistas que utilizaram o mesmo método obtêm as mesmas

médias.

(13)

Teste t para diferenças nas médias

Hipótese nula: H

₀

: μ

₁

= μ

₂

(2 métodos tem os mesmos resultados)

Testar se : difere significativamente de zero, ou se a diferença

é resultado de variações aleatórias.

N

₁

replicatas da amostra 1

N

₂

replicatas da amostra 2

2 1 x

x

(14)

Desvio padrão combinado

2 amostras devem ter desvios padrão que não são significativamente

diferentes.

Desvio padrão combinado é uma estimativa melhor de σ que s

₁

ou s

₂

.

◦ média das variâncias das duas amostras, ponderadas pelos respectivos graus de liberdade

.

) 2 + ( ) 1 ( + ) 1 ( = 2 1 2 2 2 2 1 1 2 N N s N s N s_comb

(15)

Teste t

Variância da média da amostra 1:

Variância da média da amostra 2:

No teste t estamos interessados na diferença entre as médias. A variância da diferença entre as médias é:

1 2 1 2 1 =

_N

s

_m 2 2 2 2 2 = _N s s_m 2 2 2 1 2 ₌ ₊ m m d s s s

(16)

Teste t

Desvio padrão da diferença entre as médias:

Utilizando o desvio padrão combinado:

Teste t: 2 2 2 1 2 1 N s N s N s_d   2 1 2 1 2 2 1 2 N N N N s N s N s N s comb comb comb d     2 1 2 1 2 1 N N N N s x x t comb   

Número de graus de liberdade : N₁+ N₂ – 2

(17)

Teste t para comparação de médias quanto s

₁

≠ s

₂

Desvio padrão da diferença entre as médias:

Número de graus de liberdade:

Teste t: 2 2 2 1 2 1 d

N

s

N

s

N

s

_

_

                ) 1 n ( n s ) 1 n ( n s n s n s 2 2 2 4 2 1 2 1 4 1 2 2 2 2 1 2 1 Arredondado para o inteiro mais próximo

2 2 2 1 2 1 2 1 N s N s x x t   

(18)

Exemplo

Na comparação de 2 métodos para a determinação de Crômio, os seguintes resultados foram obtidos (mgkg-1 _Cr):

◦ Método 1: média = 1,48 ; desvio padrão = 0,28

◦ Método 2: média = 2,33 ; desvio padrão = 0,31

Para cada método foram realizadas 5 determinações.

Esses dois métodos produzem resultados significativamente diferentes?

(19)

Dados

Pareados

Uso de pares de medidas para minimizar fontes de variabilidade que não são de interesse.

Podem existir diferenças nas amostras e entre os métodos de determinação. Não é possível separar a variação devido ao método daquela devido às

amostras.

Teste para comparar duas médias não é mais adequado para verificar diferença entre as médias.

(20)

Teste t pareado

Mesmo tipo de procedimento do teste t normal, exceto que são analisados os pares de dados.

Utiliza-se as diferenças (d) entre cada par de resultados dos 2 métodos.

Se não existe diferença entre e métodos então estas diferenças devem ter µ_D=0. Hipótese nula  H₀ : µ_D=0

As diferenças d devem ter distribuição t com média zero

(21)

Teste t pareado

N

s

d

t

d

/

=

∑

N i i N d d 1 = = N resultados emparelhados 1 -) -(

∑

1 2 N d d s N i i d 

  Desvio padrão das diferenças

 Média das diferenças

N – 1 graus de liberdade

(22)

Exemplo

O teor de Paracetamol num fármaco foi analisado por HPLC e NIR em tabletes de 10 lotes diferentes do medicamento. Os resultados foram os seguintes (em mg):

Lote 1 2 3 4 5 6 7 8 9 10

HPLC 84,63 84,38 84,08 84,41 83,82 83,55 83,92 83,69 84,06 84,03

NIR 83,15 83,72 83,84 84,20 83,92 84,16 84,02 83,60 84,13 84,24

Existe diferença entre os 2 métodos ?

(23)

Comparação da Precisão



Comparação entre erros aleatórios em 2 conjuntos de dados.



2 tipos de comparação:

◦ Testar se o Método A é mais preciso que o Método B.

◦ Testar se 2 métodos A e B diferem na sua precisão.

(24)

Distribuição F

Distribuição F pode ser usada somente se as populações seguirem uma distribuição normal. Hipótese nula  H₀ : σ₁2 _{= σ} 22 (variâncias idênticas) Valor de F: 2 2 2 1

s

F



(25)

Curva Distribuição F



s

₁

e s

₂

são alocados na equação para que F fique maior que 1.



Número de graus de liberdade no numerador e denominador são

N

₁

-1 e N

₂

-1.

F_crítico 95% da área Fr eq . R el at iv a

(26)

Tabela valores críticos de F

(27)

Exemplo

Um método padrão para a determinação de monóxido de carbono em misturas gasosas, tem um desvio padrão de 0,21 ppm, obtido a partir de centenas de medidas.

Uma modificação desse método forneceu um desvio padrão de 0,15 ppm para um conjunto de 13 medidas.

Uma segunda modificação, também em 13 medidas, teve um desvio padrão de 0,12 ppm.

As modificações tornaram o método mais preciso?

(28)

Detecção de Erros Grosseiros



Medida Anômala

:

 resultado parece ser diferente dos demais do conjunto

Em muitos casos devido a erros humanos;

Utiliza-se teste Q (ou teste de Dixon) ou o teste de Grubs

◦ Somente são aplicados para pequenas amostras (até 10)

(29)

Teste-Q



Teste é realizado comparando a

diferença

entre a

medida

suspeita

e a

medida mais próxima

com a amplitude das medidas.



Assume que a população tem distribuição normal.



Teste de hipóteses:

 Hipótese nula  H₀ : todas as medidas vem da mesma população.

(30)

Estatística Q



Cálculo de Q:

menor valor -maior valor próximo mais valor -el questionáv exp valor Q  x₁ x₂ x₃ x₄ x₅ x₆ d w

w

d

Q

_exp



q p

x

Q

f





𝑓 é a faixa do conjunto inteiro, levando em conta o

valor questionável.

(31)

Teste-Q

 Dados devem ser ordenados em ordem crescente.

 Se Q_exp > Q_crítico  deve-se rejeitar o valor (com um determinado grau de confiança).