Estatística Aplicada
a
Estatístico – CONRE/RJ 5975
www.estatistica.eng.br
1.
A Estatística
na Vigilância Sanitária
e
nas normas
ABNT ISO/IEC
Resolução - RE nº 894, de 29 de maio de 2003
• 14. Tratamento estatístico:
• 14.1. apresentar desenho de estudo, conforme o
"GUIA PARA PLANEJAMENTO E EXECUÇÃO
DA ETAPA ESTATÍSTICA DE ESTUDOS DE
BIODISPONIBILIDADE RELATIVA/
BIOEQUIVALÊNCIA";
A Norma ABNT ISO/IEC Guia 43-1: 1999
,
Ensaios de proficiência por comparações
interlaboratoriais, na sua Parte 1: Desenvolvimento e
operação de programas de ensaio de proficiência,
apresenta, entre outras, as seguintes afirmações a
respeito da Estatística:
“
Amostragem
– por exemplo, quando indivíduos ou organizações são
solicitados a coletar amostras para análises subseqüentes.”
- Nota f)
do item 3.6.
“
valor disperso
- parte de um grupo de valores que é inconsistente
com as outras partes daquele grupo (também definido na ISO 5725-1).
”
Norma ABNT ISO/IEC 17025: 2001, item 5.9:
"O laboratório deve ter procedimentos de
controle da qualidade
para monitorar a validade dos ensaios e calibrações
realizados.
2.
Introdução
aos métodos estatísticos
para a
As decisões diárias
baseiam-se em informações
incompletas.
Por que os profissionais
devem entender a Estatístca ?
Em determinado momento da vida
profissional, pessoas com diferentes
formações lidam com modelos
quantitativos não exatos.
A Estatística trata com o lidar e o
VARIAÇÃO
•
As pessoas diferem nas respostas ao
mesmo estímulo, nas respostas a um
tratamento ou em seus sintomas.
•
Diagnósticos são, freqüentemente,
probabilísticos.
INCERTEZA
•
Desconhecemos o todo quando
"Tudo muda exceto a própria mudança."
Tudo flui e nada permanece; tudo se afasta e
nada fica parado.... Você não consegue se
banhar duas vezes no mesmo rio, porque
outras águas e ainda outras sempre vão
fluindo.... É na mudança que as coisas acham
repouso....
A Estatística busca a
AUXILIAR AS TOMADAS DE
DECISÕES em face de incertezas,
justificando-as cientificamente,
fazendo inferências para um todo
(chamado população) a partir de
uma amostra do mesmo, analisando
INFERÊNCIA
POPULAÇÃO
ESTATÍSTICA
DESCRITIVA
erro
•1
•3
AMOSTRA
VISÃO SISTÊMICA
Enfatize-se que a Estatística Descritiva e
o Cálculo das Probabilidades são
ferramentas
para a
INFERÊNCIA
ESTATÍSTICA
, esta a mais importante!
TODAVIA...
O sucesso da aplicação da Estatística
depende,
PRIMEIRO, da aquisição
dos fundamentos estatísticos e não
de métodos estatísticos avançados.
Prática com o Excel
•
Iniciar o aplicativo
•
Células
•
Identificação
•
Célula ativa
•
Inclusão
•
Números
•
Texto
•
Identificação do “Inserir Função” e
estudo do seu potencial
3.
Procedimentos
Técnica utilizada para obter, apresentar e analisar valores
numéricos, incluindo:
z
Definição cuidadosa do problema
z
Formular um plano para coleta dos dados, Identificar as
variáveis mais importantes e restringindo a pesquisa
aos dados de interesse.
z
Coletar os dados.
z
Identificar o melhor modelo estatístico e utilizá-lo.
z
Analisar os resultados.
z
Relatar as conclusões
tais que sejam facilmente
4.
Início de um estudo:
z
Conceito de amostra: usualmente,
significa um determinado item, ao passo
que, para a Estatística, significa um
CUIDADO!!!
A amostra deve ser
A PERGUNTA
QUE NÃO QUER CALAR:
Qual deve ser
o tamanho da minha amostra?
O maior que eu possa conseguir
com os meus recursos.
Calculo o erro que possa cometer e vejo
se é adequado para a minha decisão.
Decisão entre custos, riscos e
possibilidades técnicas
t
1
Decisão
Decisão
quanto
quanto
ao
ao
tamanho
tamanho
da
da
amostra
amostra
Conseq
Conseq
ü
ü
ência
ência
da
da
Decisão
Decisão
(
(
ap
ap
ó
ó
s
s
o
o
estudo
estudo
estat
estat
í
í
stico
stico
)
)
tempo
tempo
AMOSTRAGEM
Segundo a norma 17025, é
um procedimento definido, pelo
qual uma parte de uma
substância, material ou produto
é retirada para produzir uma
amostra representativa do todo,
para ensaio ou calibração.
•Tipos de Amostragem
• PROBABILÍSTICA
cada elemento tem igual oportunidade de ser
um elemento da amostra.
• NÃO-PROBABILÍSTICA OU INTENCIONAL
há uma escolha deliberada dos elementos da
amostra.
•
Numerar todos os elementos da
população
•
Efetuar sucessivos sorteios até
completar-se o tamanho da amostra (n)
AMOSTRAGEM SISTEMÁTICA
Conveniente quando a
população está
N:
tamanho da população
n:
tamanho da amostra.
Calcula-se o intervalo de amostragem:
AMOSTRAGEM SISTEMÁTICA
N
Sorteia-se um número x entre 1 e a,
que será o primeiro elemento que irá
compor a amostra.
Os demais elementos serão:
x; x+a; x+2a;...
5.
Estatística Descritiva:
medidas de representatividade
(tendência central)
Estatística Descritiva:
medidas de representatividade
(tendência central)
média:
Média aritmética da amostra
z
a medida mais utilizada
z
afetada por valores extremos
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10 12
= soma de todos os valores
÷
total de valores
X
Estatística Descritiva:
Além da medida de
representatividade
(tendência central), é
necessária uma
medida de
Amplitude total
z
diferença entre o maior valor e o menor valor
z
ignora como os valores estão distribuídos
7 8 9 10 11 12
Amplitude = 12 - 7 = 5
7 8 9 10 11 12
Amplitude = 12 - 7 = 5
Estatística Descritiva:
Deduzindo o complexo...
(
valor
−
média
)
(
)
∑
valor
−média
(
)
∑
valor
−
média
2
s
2
denomina-se VARIÂNCIA AMOSTRAL
Entretanto, conhece-se mais o
(
)
parcelas
de
total
2
média
valor
2
=
∑
−
s
Estatística Descritiva:
s
é o desvio-padrão
a mais importante
(
)
parcelas
de
total
2
média
valor
∑
−
=
s
Estatística Descritiva:
6.
Um valor extremo,
em relação ao seu conjunto,
pode ser considerado válido?
(assunto também conhecido
como “rejeição de dispersos”
Exemplo:
A média de uma amostra é 30, e o desvio-padrão
amostral é 2.
a) o valor extremo 33,8 pode ser considerado
disperso?
b) o valor extremo 34,6 pode ser considerado
disperso?
Comparando amostras
com a mesma média
Média = 15,5
s =
3,338
11 12 13 14 15 16 17 18 19 20
21
Conjunto A
Média = 15,5
Conjunto B
E se as médias forem diferentes?
Qual o conjunto com maior variabilidade?
Conjunto A:
média 30 e desvio-padrão 6.
Coeficiente de variação (C.V.)
Indica a variabilidade do conjunto em relação à média
100%
⋅
⎟
⎠
⎞
⎜
⎝
⎛
=
aritmética
média
padrão
-desvio
C.V.
Estatística Descritiva:
7.
padrão
desvio
aritmética
média
z
−
−
=
valor
absoluto
Escore-z
Indica o valor relativo de um valor absoluto
em relação ao conjunto de valores
Estatística Descritiva:
Estatística Descritiva: RESUMO
medidas de representatividade (tendência central)
e de dispersão
z
medidas de representatividade (tendência central)
z
média aritmética da amostra
z
medidas de dispersão absoluta
z
amplitude total
z
variância amostral
z
desvio-padrão amostral
z
medida de dispersão relativa:
8.
Continuando com a E.D.:
apresentando os valores
Escores-z de 5 laboratórios
-1,97
E
0,53
D
-4,05
C
1,58
B
-2,74
A
Escore-Z
Laboratório
Resultados da 1a. rodada
-5
-4
-3
-2
-1
0
1
2
Escor
es-Z
A
B
C
D
E
CUIDADO COM OS GRÁFICOS
Resultados da 1a. rodada
-6 -4 -2 0 2 A B C D E Lab o r at ór i o s
Distorção das informações!
Resultados da 1a. rodada
-4 -3 -2 -1 0 1 2 A B C D E Es co re s-Z
Medidas mais importantes
da Estatística Descritiva:
•
média aritmética
•
desvio-padrão
•
Cálculos manuais, com a calculadora e
9.
INFERÊNCIA ESTATÍSTICA:
questão de confiança
e
INFERÊNCIA ESTATÍSTICA
Decisões a respeito da população baseado
em uma
amostra
da mesma.
ESTIMAÇÃO
Candidato A = ?
Terei entre
54% e 60%
dos votos.
amostra:
58%
“
Chove em São Paulo”
- toda afirmação deve vir acompanhada de um
grau de certeza.
- decisão tem um risco, probabilidade associada
a uma decisão errada.
- erro [ de decisão ] ALFA, chamado de nível de
O CASO
DAS LATINHAS ASSASSINAS
•
Quando encontro, em uma amostra, uma
latinha contaminada, REJEITO todo o lote
para garantir a saúde dos consumidores.
•
Se encontrasse todas as latinhas boas na
QUAL O
RISCO
ASSOCIADO
e SE…
•
Quando encontro, em uma amostra, uma
latinha contaminada, REJEITO todo o lote
para garantir a saúde dos consumidores.
… todo o lote fosse bom, EXCETO aquela
amostra?
e SE…
•
Quando encontro todas as latinhas boas
na amostra, ACEITO todo o lote.
… todo o lote fosse ruim, EXCETO aquela
amostra?
RISCOS
•
Não rejeitar como verdadeiro o
que é falso.
•
Rejeitar como falso o que é
É preciso considerar
os
DOIS
riscos, inversamente
relacionados, e estipulá-los
nos contratos, considerando a
relação custo/benefício de uma
Vendo o que falta...
É importante que se
diga qual o nível de
confiança ou o risco
associado, ambos em
termos de
10.
Introdução às Probabilidades,
a segunda ferramenta para a
Probabilidades
•
conceito experimental: regularidade estatística
•
conceito clássico: intuitivo
•
conceito axiomático
após observar o experimento inúmeras vezes, verifica-se
o comportamento do fenômeno: para que repetir o
experimento sempre que se quiser verificar o resultado?
modelos matemáticos a partir dos resultados da parte
experimental.
Mais cuidados ainda
ao usar a Estatística…
z
respeitar as condições do modelo
z
atenção para o uso de distribuições teóricas em
dados reais
z
uso correto das distribuições de
deMoivreLaplace-Gauss
e de
Student
11.
A primeira parte da I.E.:
testes de hipóteses
•
o que se afirma: hipótese nula, sempre uma
IGUALDADE ou o que existe.
•
formular a hipótese alternativa: testes
unilateral e bilateral
•
decidir a distribuição estatística e o tamanho
da amostra
•
escolher o risco que deseja assumir
(denominado nível de significância)
•
Calcular um valor crítico que limita as
Região de
não-rejeição
rejeição
rejeição
Região de
não-rejeição
rejeição
Região de
não-rejeição
rejeição
O objetivo do estatístico é
tentar provar que tudo o que
se afirma não é verdade!!!
Tenta REJEITAR qualquer
afirmação.
Tenta-se REJEITAR a hipótese
nula, sempre uma igualdade.
REJEITAR se:
VALOR-calculado > VALOR crítico
(ignorando o sinal)
REJEITAR
valor-calculado > valor-crítico:
26,46 > 4,60
Conceito moderno:
valor-P
Probabilidade de retirar
aquela amostra que saiu
REJEITAR A IGUALDADE se:
valor-p é “pequeno”
(usualmente, até 5%)
valor-P é “pequeno”: 0,0001
→
0,01%
Expressões equivalentes:
a) Estatisticamente significante = rejeitar a hipótese nula
= o valor amostral não é compatível com o valor da
hipótese nula = a variação amostral não é uma explicação
razoável da discrepância entre os valores da hipótese
nula e os valores amostrais.
b) Não estatisticamente significante = não rejeitar a
hipótese nula = o valor amostral é compatível com o valor
da hipótese nula = a variação amostral é uma explicação
12.
ANOVA:
Análise da Variância (ANOVA)
H
0
:
µ
1
=
µ
2
= ... =
µ
c
H
1
:
ao menos uma das médias é
diferente
REJEITAR H
0
F-calculado > F-crítico : 17,63 > 3,88
valor-p é “pequeno” : 0,00026
→
0,026%
13.
A segunda parte da I.E.:
estimando
ESTIMAÇÃO PONTUAL
Valor da população
Intervalo de confiança
Limite inferior
de confiança
Limite superior
de confiança
±
erro [de amostragem]
ESTIMAÇÃO POR INTERVALO
“Com margem de erro [ de
amostragem] de 2,7% (para cima
ou para baixo), ...”
14.
I.E., começando a estimar:
qual a média da população?
X t
−
α
/ ,
2
n
−
1
⋅
S
≤
µ
≤ +
X
t
α
/ ,
2
n
−
1
⋅
S
Usualmente, tem-se uma amostra pequena. Todavia,
podem ser calculados a média amostral e o
desvio-padrão amostral, e escolhe-se o erro que se deseja
admitir.
Para estimar-se a média amostral, usa-se a distribuição
“t”de Student, e o intervalo de confiança é dado pela
seguinte expressão:
EXEMPLO
X
Uma amostra aleatória de tamanho n = 25 tem = 50 e s
= 8. Determine uma estimativa de um intervalo de
confiança de 95% para
µ.
S
S
X
t
n
X t
n
n
n
−
α
/ ,
2
−
1
⋅
≤
µ
≤
+
α
/ ,
2
−
1
⋅
−
⋅
≤
µ
≤
+
⋅
50
8
25
50
8
25
2,064
2,064
15.
I.E., teste de hipóteses:
repetitividade (Repê)
e
-
indicam a variabilidade de métodos de ensaio.
- são valores extremos, sendo a repetitividade a mínima
variabilidade entre resultados e a reprodutibilidade a
máxima variabilidade.
- a repetitividade é representada pelo símbolo r e a
reprodutibilidade pelo símbolo R.
- convém enfatizar que tanto uma quanto outra são
dimensionais, ou seja, vêm acompanhas de unidades.
REPETITIVIDADE (REPÊ):
condições tão constantes quanto possíveis.
A partir dos dois resultados de ensaios obtidos sob
condições de repetitividade, calcula-se o módulo da
diferença entre eles.
A probabilidade de que esta diferença seja menor do
Repetitividade: exemplo
O desvio-padrão estimado de 47 medidas sob condições
de repetitividade foi estimado 0,00185g/ml.
Determine a repetitividade do método.
r =
1,96 √2 σ = 1,96 √2 0,00185 = 0,00514
g/ml
Conclusão: com 95% de certeza, para que se atenda às
REPRODUTIBILIDADE (REPRÔ):
condições variadas.
A partir dos dois resultados de testes obtidos sob
condições de reprodutibilidade, calcula-se o módulo da
diferença entre eles.
A probabilidade de que esta diferença seja menor do
R = 1,96 √ 2 √σ
2
Reprodutibilidade: exemplo
Um ensaio de proficiência, com 17 laboratórios participantes,
teve os seguintes resultados:
-
média dos desvios-padrão das medidas de cada
laboratório: 0,00185g/ml (dentro)
-
desvio-padrão das médias das medidas de cada
laboratório: 0,00795g/ml.
Determine a reprodutibilidade do método.
Conclusão: com 95% de certeza, para que se atenda às
R = 1,96 √ 2 √σ
2
dentro
+σ
2
entre
16.
I.E., teste de hipóteses:
Diagrama de Youden
E A B C D F G H -10 -5 0 5 10 15 -15 -10 -5 0 5 10 15 10 k g # 1
95%
17.
I.E., teste de hipóteses:
usando tudo o que foi
Controle
Acompanhamento contínuo de um
fluxo de atividades, onde podem ser
realizados ajustes para que o resultado
esteja em conformidade com um
padrão definido.
Qualidade
É o grau de utilidade de um produto para os fins a
que se destina, sendo possível ser avaliada por
meio de um conjunto de características apropriadas.
Controle da Qualidade
Procedimento de verificação sistemática de um
produto, ou processo ao seu padrão e de realização
dos ajustes necessários para se atingir este
objetivo.
1
2
3
4
5
6
7
8
9
10
Tempo ou número da amostra
Limite
superior de
controle
Média do
processo
Limite
inferior de
controle
Valor da característica
A norma ABNT ISO/IEC 17025: 2001 afirma,
no item 5.9, que "O laboratório deve ter
procedimentos de controle da qualidade
para monitorar a validade dos ensaios e
calibrações realizados.
Os dados
resultantes devem ser registrados de
forma que as tendências sejam
detectáveis
e, quando praticável, devem
ser aplicadas técnicas estatísticas para a
análise crítica dos resultados."
18.
Descobrindo
a “melhor” reta
Idade
Doentes
23
9.681
32
7.395
46
6.653
54
5.543
62
3.318
74
1.563
Doença A
0
2000
4000
6000
8000
10000
12000
0
20
40
60
80
Do
e
n
te
s
Doença A
y = -150,92x + 13012
R
2
= 0,9615
0
2000
4000
6000
8000
10000
12000
0
20
40
60
80
Do
e
n
te
s
Y = – 150,92 . X + 13012
A equação estima que, para cada
ano de idade, o número de
doentes decresce 151.
IMPORTANTE
o fato de haver
um
indicador de relacionamento
NÃO GARANTE
19.
Um outro olhar:
z
robustez de um estimador:
medida
da capacidade de permanecer
inalterado sob influência de
pequenas variações.
z
mediana:
mais robusta que a média
aritmética em relação a valores
Mediana da amostra (Md):
medida de representatividade
z
ordenados os valores em ordem crescente ou
decrescente, é o valor que ocupa a
posição central
z
ordenação de valores
z