ESTATÍSTICA
UNIVERSIDADE FEDERAL DE ALAGOAS CENTRO DE TECNOLOGIA
CURSO DE ENGENHARIA CIVIL
PROFESSOR: HELENO PONTES BEZERRA NETO
PROBABILIDADE E
ESTATÍSTICA
PROFESSORA: Michele Agra de Lemos Martins Eng. Civil, M.Sc.
micheleagra@lccv.ufal.br
Maceió-AL 2014.2 UNIVERSIDADE FEDERAL DE ALAGOAS
SUMÁRIO DA AULA
Amplitude e desvio médio
Variância e Desvio Padrão
Coeficiente de Variação
Quase nunca uma única medida é suficiente para descrever de
modo satisfatório um conjunto de dados
Exemplo:
Sejam as observações de temperaturas TA e TB indicadas:
T
AT
B21 10
22 20
24 26
26 31
32 38
(medidas em ºC)
Ambas têm a mesma média: 25ºC
Percebe-se, entretanto, que TB apresenta
dispersão muito maior que TA
São necessárias medidas que indiquem o grau
de dispersão, ou variabilidade, em relação ao valor central
AMPLITUDE
Chama-se amplitude (𝐴𝑡 ou 𝑅) de um conjunto de dados, x1 , x´2, …,
xi, … , xn , à diferença entre o máximo e o mínimo do conjunto de dados;
Se os dados estão agrupados em classes, faz-se uma estimativa
para a amplitude calculando a diferença entre o limite superior da última classe e o limite inferior da primeira
Simples de calcular, mas pouco resistente para avaliar bem a dispersão dos dados:
A presença de uma única observação muito alta ou muito baixa tem uma grande influência sobre o valor da amplitude;
A amplitude é insensível a qualquer variação dos valores intermediários;
Mesmo que não existam valores isolados muito altos ou muito baixos, a amplitude não deve ser utilizada para comparar a variabilidade de várias amostras.
AMPLITUDE
Observe os seguintes conjuntos de dados representados por diagramas de pontos correspondentes a três conjuntos de observações:
Para qualquer uma das três distribuições a amplitude é 15 - 7 = 8
A amplitude é igual mas as distribuições são muito diferentes, como mostram os próprios gráficos de pontos
AMPLITUDE
Para o conjunto abaixo, a amplitude é 71 – 49 = 22
Considerando os dados agrupados, a amplitude é 72 – 48 = 24
AMPLITUDE
Ao contrário da amplitude, a amplitude interquartil (𝐴𝐼 ou
𝐼𝑄𝑅) é uma medida mais robusta
A amplitude interquartil é definida a partir dos quartis, e é
representada pela diferença entre o 3° e o 1° quartil
𝐴𝐼 = 𝑄3 – 𝑄1
AMPLITUDE INTERQUARTIL
Exemplo:
Determinar a amplitude interquartil para os dados abaixo:
𝐴𝐼 = 𝑄3 – 𝑄1
AMPLITUDE INTERQUARTIL
MEDIDAS DE DISPERSÃO
𝑃𝑄1 = 𝑁 + 14 = 40 + 14 = 10.25
𝑃𝑄3 = 3(𝑁 + 1)4 = 3(40 + 1)4 = 30.75
𝑄1 = 53
𝑄3 = 64
𝐴𝐼 = 𝑄3 – 𝑄1
Outlier Linha de whisker 1o quartil
2o quartil
3o quartil
Linha de whisker
Outlier Outlier extremo
DIAGRAMA DE CAIXA
–
BOX-PLOT
Linha de Whisker
Linha que inicia-se nas extremidades da caixa e prolonga-se até o último valor respeitado um comprimento para a linha de no máximo 1,5 vezes a
amplitude interquartil
Outlier
Ponto além da linha, porém a menos de 3 amplitudes interquartis a partir da extremidade da caixa.
Outlier Extremo
Ponto além da linha, porém a mais de 3 amplitudes interquartis a partir da extremidade da caixa.
Limite inferior: Q1 – 1,5 (Q3 – Q1) Limite superior: Q3 + 1,5 (Q3 – Q1)
Linha de Whisker Outlier Linha de Whisker Outlier Outlier extremo Q3 Q1 Q2
DIAGRAMA DE CAIXA
–
BOX-PLOT
Exemplo:
Desenhar o diagrama de caixa para os dados abaixo:
Q1 = 53 Q2 = 57,5 Q3 = 64 AI = 11
Barreira inferior: 𝑄1 – 1,5 (𝑄3 – 𝑄1) = 53 – 1,5 (11) = 36,5 Barreira superior: 𝑄3 + 1,5 (𝑄3 – 𝑄1) = 64 + 1,5 (11) = 80,5
20 30 40 50 60 70 80 90 100
Q1
Q2
Q3
DIAGRAMADE CAIXA
–
BOX-PLOT
Se n observações de uma amostra forem representadas por x1, x2,..., xn, o desvio médio amostral será:
n
x
x
d
n 1 i i
Observações O desvio médio é expresso nas mesmas unidades e com a mesma precisão da grandeza que se está medindo
Forma de se indicar corretamente uma medida:
d
x
medida
da
Valor
Se as observações de uma amostra estiverem agrupadas em classes, o desvio médio será:
1
k
i i
i
n x
x
d
n
Onde:𝑘 é o número de classes
𝑛𝑖 é a freqüência da i-ésima classe
𝑥𝑖 é o ponto médio da i-ésima classe
𝑥 é a média dos dados agrupados
𝑛 é a quantidade total de observações
MEDIDAS DE DISPERSÃO:
DESVIO MÉDIO AMOSTRALSe n observações de uma amostra forem representadas por x1, x2,..., xn, a variância da amostra será:
1
n
x
x
S
n
1 i
2 i
2
A variância não é geralmente utilizada como medida de dispersão, mas é o suporte para o cálculo do desvio-padrão (mais utilizado).
A interpretação do significado da variância, em situações concretas, levanta problemas.
Por exemplo, se estivermos estudando o deslocamento de uma viga em centímetros, a média dos deslocamentos é expressa em centímetros, mas a variância será expressa em centímetros quadrados
2 2 2 11
1
k i i iS
x n
n x
n
Onde:
𝑘 é o número de classes
𝑛𝑖 é a frequência da i-ésima classe
𝑥𝑖 é o ponto médio da i-ésima classe
𝑥 é a média dos dados agrupados
𝑛 é a quantidade total de observações
MEDIDAS DE DISPERSÃO:
VARIÂNCIA
2S
S
Note que:
Se n observações de uma amostra forem representadas por x1, x2,..., xn, o desvio padrão amostral será:
1 n x x S n 1 i 2 i
O desvio-padrão corresponde à raiz quadrada positiva da variância
1. O desvio-padrão é sempre não negativo
2. Quanto maior for o desvio-padrão maior será a dispersão dos dados em relação à média
3. Se o desvio-padrão é igual a zero é porque não existe variabilidade, isto é, os dados são todos iguais
É uma medida relativa de variabilidade, que compara o desvio padrão com a média
Como o desvio-padrão e a média apresentam a mesma unidade dos dados, o coeficiente de variação é adimensional
A grande utilidade do coeficiente de variação é permitir a comparação das variabilidades de diferentes conjuntos de dados
MEDIDAS DE DISPERSÃO:
COEFICIENTE DE VARIAÇÃOMEDIDAS DE DISPERSÃO:
COEFICIENTE DE VARIAÇÃODeterminar o coeficiente de variação para as observações de temperaturas TA e TB indicadas abaixo:
T
AT
B21 10
22 20
24 26
26 31
32 38
Exemplo:
Passo 1: determinação das médias
T
AT
B21
10
22
20
24
26
26
31
32
38
(medidas em ºC)
Para TA: x = (21+23+...+32)/5 = 125/5 = 25
Para TB: x = (10+20+...+38)/5 = 125/5 = 25
Passo 2: determinação do desvio-padrão
1 n x x S n 1 i 2 i
Para TA: s = { [ (21-25)2 + (22-25)2 + (24-25)2 + (26-25)2 + (32-25)2 ] / (5-1) } 1/2
Para TB: s = { [ (10-25)2 + (20-25)2 + (26-25)2 + (31-25)2 + (38-25)2 ] / (5-1) } 1/2 s = { 76 / 4 }1/2 s = 4,36 oC
s = { 456 / 4 }1/2 s = 10,68 oC
Passo 3: determinação do coeficiente de variação
T
AT
B21
10
22
20
24
26
26
31
32
38
(medidas em ºC)
Para TA: cv = 4,36 / 25 = 0,174 = 17,4 %
Para TB: cv = 10,68 / 25 = 0,427 = 42,7 %
Logo: Para TA , cv = 17,4 % e para TB , cv = 42,7 %
Altura 1,143m 0,063m 5,5% Peso 50 kg 6kg 12%
Média Desvio Padrão
Coef. de Variação
Conclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura.
Altura e peso de alunos
MEDIDAS DE DISPERSÃO
Conclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais.
Desvio padrão
Coef. de variação Média
Recém-nascidos 50 6 12%
Adolescentes 160 16 10%
Altura (em cm) de uma amostra de recém-nascidos
e de uma amostra de adolescentes