Introdu¸c˜ao `a probabilidade e estat´ıstica I

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica I

Medidas resumo para tabelas de frequˆencias

Prof. Alexandre G Patriota Sala: 298A

Email: [email protected] Site: www.ime.usp.br/∼patriota

(2)

Medidas resumo para dados quantitativos

As principais medidas que resumem os dados quantitativos s˜ao:

Medidas de posi¸c˜ao(localiza¸c˜ao):

I M´edia

I Mediana

I Moda

I Quartis (quantis)

Medidas de dispers˜ao(variabilidade):

I Variˆancia

I Desvio-padr˜ao

I Intervalo-interquartil

I Coeficiente de varia¸c˜ao

Cada medida pode ser calculada para dados brutos e dados agrupados.

(3)

M´ edia para dados brutos

A m´edia amostral nos informa a localiza¸c˜ao nos dados na reta real.

Considere o conjunto de dados brutos{x₁,x₂, . . . ,x_n}. A m´edia amostral para este conjunto de dados ´e definida por

¯ x= 1

n

X

i=1

xi = 1

n(x1+x2+. . .+xn)

(4)

M´ edia para dados condensados

Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel n_i f_i

x₁ n₁ f₁ x₂ n₂ f₂ ... ... ... x_k n_k f_k

Total n 1

Como definir a m´edia amostral?

(5)

M´ edia para dados condensados

Resposta: x¯=Pk i=1xifi.

Considere agora a seguinte tabela de frequˆencia para intervalos de classe:

P. M´edio Freq Prop Intervalos de classe si ni fi

c0|−−c₁ s1 n1 f1

c1|−−c₂ s2 n2 f2

... ... ... ...

ck−1|−−|c_k sk nk fk

Total n 1

Como definir a m´edia amostral?

(6)

M´ edia para dados condensados

Resposta: x¯≈¯s =Pk i=1s_if_i.

Considere a seguinte tabela de frequˆencias:

Intervalos de classe s_i n_i f_i%

1|−−2 1,5 1 12,5

2|−−3 2,5 2 25,0

3|−−4 3,5 3 37,5

4|−−|5 4,5 2 25,0

Total 8 100

Apresentar a tabela graficamente.

A m´edia ´e dada por:

¯

x≈¯s = 1,5×0,125 + 2,5×0,25 + 3,5×0,375 + 4,5×0,25 = 3,25

(7)

M´ edia para dados condensados

Considere o conjunto de dados (tempo de uso do telefone da empresa, em horas, por semana):

{1,1; 1,0; 2,1; 2,3; 2,0; 2,4; 2,5; 2,2; 2,8; 3,1; 3,0; 3,1; 4}.

Calcule a m´edia amostral.

Fa¸ca a tabela de frequˆencias para intervalos de classes (considere k= 3 e classes iguais) e calcule a m´edia.

Compare os valores.

(8)

Mediana

Considere o conjunto{x₁,x₂, . . . ,x_n}.

Ordene os dados e defina:

x₍₁₎ ≤x₍₂₎≤. . .≤x_(n)

As quantidadesx₍₁₎,x₍₂₎, . . . ,x_(n) s˜ao as estat´ısticas de ordem do conjunto de dados.

Encontre as estat´ısticas de ordem para o conjunto: {3; 4; 6; 4; 5; 7}

(9)

Mediana

Considere o conjunto{x₁,x2, . . . ,xn}. A mediana é o ponto que divide o conjunto de dados ao meio, ou seja, é o ponto em que 50% das observa¸cões estão abaixo e 50% estão acima.

Definimos a mediana da seguinte forma:

md(X) =







x(ⁿ⁺¹₂ ), sen for ´ımpar

1 2

x(ⁿ₂) +x(ⁿ₂⁺¹)

, sen for par

Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 7}.

Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 70}.

(10)

Mediana para dados condensados

Como encontrar a mediana em dados condensados?

x₁ n₁ f₁ x2 n2 f2

... ... ... x_k n_k f_k

Total n 1

Como calcular a mediana?

(11)

Mediana em dados condensados

Resposta: Exatamente da mesma forma que para dados brutos.

P. M´edio Freq Prop Intervalos de classe s_i n_i f_i

c₀|−−c₁ s₁ n₁ f₁ c1|−−c₂ s2 n2 f2

... ... ... ...

ck−1|−−|c_k s_k n_k f_k

Total n 1

Como calcular a mediana? Que suposi¸c˜oes devemos adotar?

(12)

Mediana em dados condensados

Resposta:

(1) Deve-se achar o ponto que separa ao meio a ´area do histograma.

(2) Devemos supor que os dados se distribuem uniformemente e mantemos a proporcionalidade da densidade de dados entre os retˆangulos.

Intervalos de classe s_i n_i f_i% d_i

1|−−2 1,5 1 12,5 12,5

2|−−3 2,5 2 25,0 25,0

3|−−4 3,5 3 37,5 37,5

4|−−|5 4,5 2 25,0 25,0

Total 8 100

Apresentar a tabela graficamente e calcular a mediana.

(13)

Moda

´E a observa¸c˜ao mais frequente no conjunto de dados.

Podem ocorrer mais de uma moda: bimodal, trimodal, etc.

(14)

Moda

Calcule a moda dos dados agrupados:

Idade n_i f_i n^ac_i f_i^ac

17 9 0,18 9 0,18

18 22 0,44 31 0,62

19 7 0,14 38 0,76

20 4 0,08 42 0,84

21 3 0,06 45 0,90

22 0 0,00 45 0,90

23 2 0,04 47 0,94

24 1 0,02 48 0,96

25 2 0,04 50 1,00

Total n= 50

(15)

Quantis

Op-quantil é o valor que divide o conjunto de dados ordenados em duas partes onde a primeira (à esquerda) concentra p100% dos dados e a segunda (à direita) concentra (1−p)100% dos dados.

Ser´a denotado por q(p).

Os quantisq(0,25), q(0,50) e q(0,75) são conhecidos por 1ô quartil, 2ô quartil (ou mediana) e 3ô quartil.

Para dados condensados, op-quantil ´e calculado de forma similar a mediana.

(16)

Quantis

Intervalos de classe si ni fi(100%) di

1|−−2 1,5 1 12,5 12,5

2|−−3 2,5 2 25,0 25,0

3|−−4 3,5 3 37,5 37,5

4|−−|5 4,5 2 25,0 25,0

Total 8 100

Apresentar a tabela graficamente e calcularq(p) para p= 0,10, p= 0,30,p = 0,60 e p= 0,90.

(17)

Quantis para dados brutos

Uma regra geral para calcular quantis ´e apresentada a seguir:

Seja{x₁,x₂, . . . ,x_n}o conjunto de dados e {x₍₁₎,x₍₂₎, . . . ,x_(n)}o conjunto de dados ordenado (suponha que todos os dados s˜ao diferentes).

DefinimosFe como a fun¸c˜ao acumulada emp´ırica dada por

Fe(x) =











0, se x <x₍₁₎ 1/n, se x₍₁₎≤x <x₍₂₎ 2/n, se x₍₂₎≤x <x₍₃₎ 3/n, se x₍₃₎≤x <x₍₄₎ ...

(n−1)/n, se x(n−1) ≤x <x_(n)

1, se x ≥x_(n)

(18)

Quantis

Note que precisamos alisar a fun¸cão F_e, pois não poderemos encontrar todos os quantis usando essa fun¸cão (ver o gráfico).

Definiremos uma nova fun¸c˜ao ˜F_e suavizada tal que:

F˜_e(x) =







0, sex<x₍₁₎

hi + (x−x_(i))_x^hⁱ⁺¹^−hⁱ

(i+1)−x_(i), sex∈[x_(i),x_(i+1)]

1, sex>x_(n)

em queh_i = ^i−0,_n⁵ para i = 1,2, . . . ,n.

(19)

Quantis

Para encontrar op-quantil fazemos o seguinte:

I sep =h_i, ent˜ao q(p) =x_(i) para i = 1, . . . ,n;

I sep <h₁, ent˜ao q(p) =x₍₁₎;

I sep >hnent˜ao q(p) =x_(n).

I para valores de p entre (hi,hi+1) usamos a semelhan¸ca de triˆangulos:

h_i+1−h_i

p−h_i = x_(i+1)−x_(i) q(p)−x_(i₎ Temos como resposta que

q(p) = (1−gi)x_(i)+gix_(i₊₁₎ em quegi = _h^p−hⁱ

i+1−hi.

(20)

Quantis para valores repetidos

Para amostra ordenadax₍₁₎,x₍₂₎, . . . ,x_(k) cujos valores se repetem n₁,n₂, . . . ,n_k utilizamos

q(p) =











x₍₁₎ sep <h₁+κ₁

x_(i) sep ∈[h_i−κ_i,h_i+κ_i]∀i qi(p) sep∈(hi+κi,hi+1−κi+1)∀i x_(n) sep >hn−κn

em que

q_i(p) = (1−g_i)x_(i)+g_ix_(i+1), h_i = ^f

ac i +f_i−1^ac

2 ,κ_i = ^fⁱ_2n⁻¹ e g_i = _h ^p−hⁱ^−κⁱ

i+1−κ_i+1−h_i+κi.

Alertamos o leitor que a fórmula acima é apenas uma aproxima¸cão.

(21)

Variˆ ancia - Tabela de Frequˆ encias

x₁ n₁ f₁ x2 n2 f2

... ... ... x_k n_k f_k

Total n 1

A variˆancia amostral ´e calculada fazendo Var(X) =S_X² =

k

X

i=1

(xi −x)¯ ²fi =

k

X

i=1

x_i²fi −¯x² e que

¯ x =

k

X

i=1

xifi.

(22)

Variˆ ancia - Tabela de Frequˆ encias

P. M´edio Freq Prop Intervalos de classe s_i n_i f_i

c₀|−−c₁ s₁ n₁ f₁ c₁|−−c₂ s₂ n₂ f₂

... ... ... ...

ck−1|−−|c_k s_k n_k f_k

Total n 1

A variˆancia amostral ´e calculada fazendo Var(X) =S_X² ≈

k

X

i=1

(s_i −¯s)²f_i =

k

X

i=1

s_i²f_i−¯s² em quesi, para i = 1, . . . ,k ´e o ponto m´edio da classe.

(23)

Intervalo interquartil

O intervalo interquartil tamb´em ´e uma medida de variabilidade.

Ele ´e definido por

IQ= (q₁,q₃)

em queq₁ =q(0,25), q₃=q(0,75). Note que entreq₁ e q₃ est˜ao 50% de todas as observa¸c˜oes centrais.

Quanto maior a amplitude deIQ,d_q=q₃−q₁, mais disperso ´e o conjunto de dados.

Note que o intervalo interquartil não é sens´ıvel a observa¸cões extremas, pois é desconsiderado os 25% extremos inferiores e 25%

extremos superiores do conjunto de dados.

OBS: No livro do Magalhães e Lima “No¸cões de Probabilidade e Estat´ıstica”, o intervalo interquartil é definido porIQ =q3−q1.

(24)

Gr´ afico de Caixa ou Box-plot

Utilizamos o gráfico de caixa, também conhecido como box-plot para visualizar alguns aspectos da distribui¸cão dos dados (mediana, quartis, variabilidade, simetria).

A sua constru¸c˜ao basea-se no c´alculo das seguintes quantidades Ponto de corte superior min{q₃+ 1,5dq,x_(n)}

Terceiro quartil q₃

Mediana q2

Primeiro quartil q₁

Ponto de corte inferior max{q₁−1,5d_q,x₍₁₎} em queq2 =q(0,50).

(25)

Boxplot

Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estat´ıstica B´asica.

(26)

Assimetria

A distribui¸cão de um conjunto de dados pode ser simétrica, assimétrica negativa (assimetria à esquerda) ou assimétrica positiva (assimetria à direita).

Histogramas e Boxplots podem indicar visualmente a assimetria da distribui¸c˜ao dos dados.

Assimetria `a esquerda . . . ...

Sim´etrica . . ... ... ... . . Assimetria `a direita ... . . . . .

(27)

Assimetria

Temos a seguinte rela¸c˜ao intuitiva:

(1) média <mediana<moda ⇒provável assimetria à esquerda.

(2) moda<mediana <média ⇒provável assimetria à direita.

(3) moda = mediana = m´edia ⇒prov´avel simetria.

(28)

Coeficiente de Assimetria de Bowley

A assimetria de uma distribui¸c˜ao pode ser medida utilizando o seguinte coeficiente

gb= (q3−q2)−(q2−q1) q₃−q₁

A intui¸c˜ao dessa medida ´e vista no Boxplot.

(1) Segb<0 ent˜ao temos poss´ıvel assimetria `a esquerda;

(2) Seg_b>0 ent˜ao temos poss´ıvel assimetria `a direita;

(3) Seg_b≈0 ent˜ao temos poss´ıvel simetria.

(29)

Gr´ aficos de simetria

Se os dados s˜ao aproximadamente sim´etricos esperamos que as caudas inferiores e superiores tenham comportamentos similares.

Ou seja,

q(0.5)−x_(i)≈x_(n+1−i)−q(0.5)

em quei = 1, . . . ,n/2 sen for par e i = 1, . . . ,(n+ 1)/2 se n for

´ımpar.

Definindoui =q(0.5)−x_(i) e vi =x_(n+1−i₎−q(0.5) podemos plotar um gr´afico de simetria entre u e v.

Se os dados são aproximadamente simétricos esperamos que os pontos se distribuam em torno de uma reta de 45ô