Introdu¸c˜ ao ` a probabilidade e estat´ıstica I
Medidas resumo para tabelas de frequˆencias
Prof. Alexandre G Patriota Sala: 298A
Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota
Medidas resumo para dados quantitativos
As principais medidas que resumem os dados quantitativos s˜ao:
Medidas de posi¸c˜ao(localiza¸c˜ao):
I M´edia
I Mediana
I Moda
I Quartis (quantis)
Medidas de dispers˜ao(variabilidade):
I Variˆancia
I Desvio-padr˜ao
I Intervalo-interquartil
I Coeficiente de varia¸c˜ao
Cada medida pode ser calculada para dados brutos e dados agrupados.
M´ edia para dados brutos
A m´edia amostral nos informa a localiza¸c˜ao nos dados na reta real.
Considere o conjunto de dados brutos{x1,x2, . . . ,xn}. A m´edia amostral para este conjunto de dados ´e definida por
¯ x= 1
n
n
X
i=1
xi = 1
n(x1+x2+. . .+xn)
M´ edia para dados condensados
Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi
x1 n1 f1 x2 n2 f2 ... ... ... xk nk fk
Total n 1
Como definir a m´edia amostral?
M´ edia para dados condensados
Resposta: x¯=Pk i=1xifi.
Considere agora a seguinte tabela de frequˆencia para intervalos de classe:
P. M´edio Freq Prop Intervalos de classe si ni fi
c0|−−c1 s1 n1 f1
c1|−−c2 s2 n2 f2
... ... ... ...
ck−1|−−|ck sk nk fk
Total n 1
Como definir a m´edia amostral?
M´ edia para dados condensados
Resposta: x¯≈¯s =Pk i=1sifi.
Considere a seguinte tabela de frequˆencias:
Intervalos de classe si ni fi%
1|−−2 1,5 1 12,5
2|−−3 2,5 2 25,0
3|−−4 3,5 3 37,5
4|−−|5 4,5 2 25,0
Total 8 100
Apresentar a tabela graficamente.
A m´edia ´e dada por:
¯
x≈¯s = 1,5×0,125 + 2,5×0,25 + 3,5×0,375 + 4,5×0,25 = 3,25
M´ edia para dados condensados
Considere o conjunto de dados (tempo de uso do telefone da empresa, em horas, por semana):
{1,1; 1,0; 2,1; 2,3; 2,0; 2,4; 2,5; 2,2; 2,8; 3,1; 3,0; 3,1; 4}.
Calcule a m´edia amostral.
Fa¸ca a tabela de frequˆencias para intervalos de classes (considere k= 3 e classes iguais) e calcule a m´edia.
Compare os valores.
Mediana
Considere o conjunto{x1,x2, . . . ,xn}.
Ordene os dados e defina:
x(1) ≤x(2)≤. . .≤x(n)
As quantidadesx(1),x(2), . . . ,x(n) s˜ao as estat´ısticas de ordem do conjunto de dados.
Encontre as estat´ısticas de ordem para o conjunto: {3; 4; 6; 4; 5; 7}
Mediana
Considere o conjunto{x1,x2, . . . ,xn}. A mediana ´e o ponto que divide o conjunto de dados ao meio, ou seja, ´e o ponto em que 50% das observa¸c˜oes est˜ao abaixo e 50% est˜ao acima.
Definimos a mediana da seguinte forma:
md(X) =
x(n+12 ), sen for ´ımpar
1 2
x(n2) +x(n2+1)
, sen for par
Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 7}.
Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 70}.
Mediana para dados condensados
Como encontrar a mediana em dados condensados?
Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi
x1 n1 f1 x2 n2 f2
... ... ... xk nk fk
Total n 1
Como calcular a mediana?
Mediana em dados condensados
Resposta: Exatamente da mesma forma que para dados brutos.
Considere agora a seguinte tabela de frequˆencia para intervalos de classe:
P. M´edio Freq Prop Intervalos de classe si ni fi
c0|−−c1 s1 n1 f1 c1|−−c2 s2 n2 f2
... ... ... ...
ck−1|−−|ck sk nk fk
Total n 1
Como calcular a mediana? Que suposi¸c˜oes devemos adotar?
Mediana em dados condensados
Resposta:
(1) Deve-se achar o ponto que separa ao meio a ´area do histograma.
(2) Devemos supor que os dados se distribuem uniformemente e mantemos a proporcionalidade da densidade de dados entre os retˆangulos.
Considere a seguinte tabela de frequˆencias:
Intervalos de classe si ni fi% di
1|−−2 1,5 1 12,5 12,5
2|−−3 2,5 2 25,0 25,0
3|−−4 3,5 3 37,5 37,5
4|−−|5 4,5 2 25,0 25,0
Total 8 100
Apresentar a tabela graficamente e calcular a mediana.
Moda
´E a observa¸c˜ao mais frequente no conjunto de dados.
Podem ocorrer mais de uma moda: bimodal, trimodal, etc.
Moda
Calcule a moda dos dados agrupados:
Idade ni fi naci fiac
17 9 0,18 9 0,18
18 22 0,44 31 0,62
19 7 0,14 38 0,76
20 4 0,08 42 0,84
21 3 0,06 45 0,90
22 0 0,00 45 0,90
23 2 0,04 47 0,94
24 1 0,02 48 0,96
25 2 0,04 50 1,00
Total n= 50
Quantis
Op-quantil ´e o valor que divide o conjunto de dados ordenados em duas partes onde a primeira (`a esquerda) concentra p100% dos dados e a segunda (`a direita) concentra (1−p)100% dos dados.
Ser´a denotado por q(p).
Os quantisq(0,25), q(0,50) e q(0,75) s˜ao conhecidos por 1o quartil, 2o quartil (ou mediana) e 3o quartil.
Para dados condensados, op-quantil ´e calculado de forma similar a mediana.
Quantis
Considere a seguinte tabela de frequˆencias:
Intervalos de classe si ni fi(100%) di
1|−−2 1,5 1 12,5 12,5
2|−−3 2,5 2 25,0 25,0
3|−−4 3,5 3 37,5 37,5
4|−−|5 4,5 2 25,0 25,0
Total 8 100
Apresentar a tabela graficamente e calcularq(p) para p= 0,10, p= 0,30,p = 0,60 e p= 0,90.
Quantis para dados brutos
Uma regra geral para calcular quantis ´e apresentada a seguir:
Seja{x1,x2, . . . ,xn}o conjunto de dados e {x(1),x(2), . . . ,x(n)}o conjunto de dados ordenado (suponha que todos os dados s˜ao diferentes).
DefinimosFe como a fun¸c˜ao acumulada emp´ırica dada por
Fe(x) =
0, se x <x(1) 1/n, se x(1)≤x <x(2) 2/n, se x(2)≤x <x(3) 3/n, se x(3)≤x <x(4) ...
(n−1)/n, se x(n−1) ≤x <x(n)
1, se x ≥x(n)
Quantis
Note que precisamos alisar a fun¸c˜ao Fe, pois n˜ao poderemos encontrar todos os quantis usando essa fun¸c˜ao (ver o gr´afico).
Definiremos uma nova fun¸c˜ao ˜Fe suavizada tal que:
F˜e(x) =
0, sex<x(1)
hi + (x−x(i))xhi+1−hi
(i+1)−x(i), sex∈[x(i),x(i+1)]
1, sex>x(n)
em quehi = i−0,n5 para i = 1,2, . . . ,n.
Quantis
Para encontrar op-quantil fazemos o seguinte:
I sep =hi, ent˜ao q(p) =x(i) para i = 1, . . . ,n;
I sep <h1, ent˜ao q(p) =x(1);
I sep >hnent˜ao q(p) =x(n).
I para valores de p entre (hi,hi+1) usamos a semelhan¸ca de triˆangulos:
hi+1−hi
p−hi = x(i+1)−x(i) q(p)−x(i) Temos como resposta que
q(p) = (1−gi)x(i)+gix(i+1) em quegi = hp−hi
i+1−hi.
Quantis para valores repetidos
Para amostra ordenadax(1),x(2), . . . ,x(k) cujos valores se repetem n1,n2, . . . ,nk utilizamos
q(p) =
x(1) sep <h1+κ1
x(i) sep ∈[hi−κi,hi+κi]∀i qi(p) sep∈(hi+κi,hi+1−κi+1)∀i x(n) sep >hn−κn
em que
qi(p) = (1−gi)x(i)+gix(i+1), hi = f
ac i +fi−1ac
2 ,κi = fi2n−1 e gi = h p−hi−κi
i+1−κi+1−hi+κi.
Alertamos o leitor que a f´ormula acima ´e apenas uma aproxima¸c˜ao.
Variˆ ancia - Tabela de Frequˆ encias
Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi
x1 n1 f1 x2 n2 f2
... ... ... xk nk fk
Total n 1
A variˆancia amostral ´e calculada fazendo Var(X) =SX2 =
k
X
i=1
(xi −x)¯ 2fi =
k
X
i=1
xi2fi −¯x2 e que
¯ x =
k
X
i=1
xifi.
Variˆ ancia - Tabela de Frequˆ encias
Considere agora a seguinte tabela de frequˆencia para intervalos de classe:
P. M´edio Freq Prop Intervalos de classe si ni fi
c0|−−c1 s1 n1 f1 c1|−−c2 s2 n2 f2
... ... ... ...
ck−1|−−|ck sk nk fk
Total n 1
A variˆancia amostral ´e calculada fazendo Var(X) =SX2 ≈
k
X
i=1
(si −¯s)2fi =
k
X
i=1
si2fi−¯s2 em quesi, para i = 1, . . . ,k ´e o ponto m´edio da classe.
Intervalo interquartil
O intervalo interquartil tamb´em ´e uma medida de variabilidade.
Ele ´e definido por
IQ= (q1,q3)
em queq1 =q(0,25), q3=q(0,75). Note que entreq1 e q3 est˜ao 50% de todas as observa¸c˜oes centrais.
Quanto maior a amplitude deIQ,dq=q3−q1, mais disperso ´e o conjunto de dados.
Note que o intervalo interquartil n˜ao ´e sens´ıvel a observa¸c˜oes extremas, pois ´e desconsiderado os 25% extremos inferiores e 25%
extremos superiores do conjunto de dados.
OBS: No livro do Magalh˜aes e Lima “No¸c˜oes de Probabilidade e Estat´ıstica”, o intervalo interquartil ´e definido porIQ =q3−q1.
Gr´ afico de Caixa ou Box-plot
Utilizamos o gr´afico de caixa, tamb´em conhecido como box-plot para visualizar alguns aspectos da distribui¸c˜ao dos dados (mediana, quartis, variabilidade, simetria).
A sua constru¸c˜ao basea-se no c´alculo das seguintes quantidades Ponto de corte superior min{q3+ 1,5dq,x(n)}
Terceiro quartil q3
Mediana q2
Primeiro quartil q1
Ponto de corte inferior max{q1−1,5dq,x(1)} em queq2 =q(0,50).
Boxplot
Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estat´ıstica B´asica.
Assimetria
A distribui¸c˜ao de um conjunto de dados pode ser sim´etrica, assim´etrica negativa (assimetria `a esquerda) ou assim´etrica positiva (assimetria `a direita).
Histogramas e Boxplots podem indicar visualmente a assimetria da distribui¸c˜ao dos dados.
Assimetria `a esquerda . . . ...
Sim´etrica . . ... ... ... . . Assimetria `a direita ... . . . . .
Assimetria
Temos a seguinte rela¸c˜ao intuitiva:
(1) m´edia <mediana<moda ⇒prov´avel assimetria `a esquerda.
(2) moda<mediana <m´edia ⇒prov´avel assimetria `a direita.
(3) moda = mediana = m´edia ⇒prov´avel simetria.
Coeficiente de Assimetria de Bowley
A assimetria de uma distribui¸c˜ao pode ser medida utilizando o seguinte coeficiente
gb= (q3−q2)−(q2−q1) q3−q1
A intui¸c˜ao dessa medida ´e vista no Boxplot.
(1) Segb<0 ent˜ao temos poss´ıvel assimetria `a esquerda;
(2) Segb>0 ent˜ao temos poss´ıvel assimetria `a direita;
(3) Segb≈0 ent˜ao temos poss´ıvel simetria.
Gr´ aficos de simetria
Se os dados s˜ao aproximadamente sim´etricos esperamos que as caudas inferiores e superiores tenham comportamentos similares.
Ou seja,
q(0.5)−x(i)≈x(n+1−i)−q(0.5)
em quei = 1, . . . ,n/2 sen for par e i = 1, . . . ,(n+ 1)/2 se n for
´ımpar.
Definindoui =q(0.5)−x(i) e vi =x(n+1−i)−q(0.5) podemos plotar um gr´afico de simetria entre u e v.
Se os dados s˜ao aproximadamente sim´etricos esperamos que os pontos se distribuam em torno de uma reta de 45o