• Nenhum resultado encontrado

Introdu¸c˜ao `a probabilidade e estat´ıstica I

N/A
N/A
Protected

Academic year: 2022

Share "Introdu¸c˜ao `a probabilidade e estat´ıstica I"

Copied!
29
0
0

Texto

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica I

Medidas resumo para tabelas de frequˆencias

Prof. Alexandre G Patriota Sala: 298A

Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota

(2)

Medidas resumo para dados quantitativos

As principais medidas que resumem os dados quantitativos s˜ao:

Medidas de posi¸c˜ao(localiza¸c˜ao):

I M´edia

I Mediana

I Moda

I Quartis (quantis)

Medidas de dispers˜ao(variabilidade):

I Variˆancia

I Desvio-padr˜ao

I Intervalo-interquartil

I Coeficiente de varia¸c˜ao

Cada medida pode ser calculada para dados brutos e dados agrupados.

(3)

M´ edia para dados brutos

A m´edia amostral nos informa a localiza¸c˜ao nos dados na reta real.

Considere o conjunto de dados brutos{x1,x2, . . . ,xn}. A m´edia amostral para este conjunto de dados ´e definida por

¯ x= 1

n

n

X

i=1

xi = 1

n(x1+x2+. . .+xn)

(4)

M´ edia para dados condensados

Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi

x1 n1 f1 x2 n2 f2 ... ... ... xk nk fk

Total n 1

Como definir a m´edia amostral?

(5)

M´ edia para dados condensados

Resposta: x¯=Pk i=1xifi.

Considere agora a seguinte tabela de frequˆencia para intervalos de classe:

P. M´edio Freq Prop Intervalos de classe si ni fi

c0|−−c1 s1 n1 f1

c1|−−c2 s2 n2 f2

... ... ... ...

ck−1|−−|ck sk nk fk

Total n 1

Como definir a m´edia amostral?

(6)

M´ edia para dados condensados

Resposta: x¯≈¯s =Pk i=1sifi.

Considere a seguinte tabela de frequˆencias:

Intervalos de classe si ni fi%

1|−−2 1,5 1 12,5

2|−−3 2,5 2 25,0

3|−−4 3,5 3 37,5

4|−−|5 4,5 2 25,0

Total 8 100

Apresentar a tabela graficamente.

A m´edia ´e dada por:

¯

x≈¯s = 1,5×0,125 + 2,5×0,25 + 3,5×0,375 + 4,5×0,25 = 3,25

(7)

M´ edia para dados condensados

Considere o conjunto de dados (tempo de uso do telefone da empresa, em horas, por semana):

{1,1; 1,0; 2,1; 2,3; 2,0; 2,4; 2,5; 2,2; 2,8; 3,1; 3,0; 3,1; 4}.

Calcule a m´edia amostral.

Fa¸ca a tabela de frequˆencias para intervalos de classes (considere k= 3 e classes iguais) e calcule a m´edia.

Compare os valores.

(8)

Mediana

Considere o conjunto{x1,x2, . . . ,xn}.

Ordene os dados e defina:

x(1) ≤x(2)≤. . .≤x(n)

As quantidadesx(1),x(2), . . . ,x(n) s˜ao as estat´ısticas de ordem do conjunto de dados.

Encontre as estat´ısticas de ordem para o conjunto: {3; 4; 6; 4; 5; 7}

(9)

Mediana

Considere o conjunto{x1,x2, . . . ,xn}. A mediana ´e o ponto que divide o conjunto de dados ao meio, ou seja, ´e o ponto em que 50% das observa¸c˜oes est˜ao abaixo e 50% est˜ao acima.

Definimos a mediana da seguinte forma:

md(X) =

x(n+12 ), sen for ´ımpar

1 2

x(n2) +x(n2+1)

, sen for par

Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 7}.

Encontre a m´edia e a mediana para o conjunto: {3; 4; 6; 4; 5; 70}.

(10)

Mediana para dados condensados

Como encontrar a mediana em dados condensados?

Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi

x1 n1 f1 x2 n2 f2

... ... ... xk nk fk

Total n 1

Como calcular a mediana?

(11)

Mediana em dados condensados

Resposta: Exatamente da mesma forma que para dados brutos.

Considere agora a seguinte tabela de frequˆencia para intervalos de classe:

P. M´edio Freq Prop Intervalos de classe si ni fi

c0|−−c1 s1 n1 f1 c1|−−c2 s2 n2 f2

... ... ... ...

ck−1|−−|ck sk nk fk

Total n 1

Como calcular a mediana? Que suposi¸c˜oes devemos adotar?

(12)

Mediana em dados condensados

Resposta:

(1) Deve-se achar o ponto que separa ao meio a ´area do histograma.

(2) Devemos supor que os dados se distribuem uniformemente e mantemos a proporcionalidade da densidade de dados entre os retˆangulos.

Considere a seguinte tabela de frequˆencias:

Intervalos de classe si ni fi% di

1|−−2 1,5 1 12,5 12,5

2|−−3 2,5 2 25,0 25,0

3|−−4 3,5 3 37,5 37,5

4|−−|5 4,5 2 25,0 25,0

Total 8 100

Apresentar a tabela graficamente e calcular a mediana.

(13)

Moda

´E a observa¸c˜ao mais frequente no conjunto de dados.

Podem ocorrer mais de uma moda: bimodal, trimodal, etc.

(14)

Moda

Calcule a moda dos dados agrupados:

Idade ni fi naci fiac

17 9 0,18 9 0,18

18 22 0,44 31 0,62

19 7 0,14 38 0,76

20 4 0,08 42 0,84

21 3 0,06 45 0,90

22 0 0,00 45 0,90

23 2 0,04 47 0,94

24 1 0,02 48 0,96

25 2 0,04 50 1,00

Total n= 50

(15)

Quantis

Op-quantil ´e o valor que divide o conjunto de dados ordenados em duas partes onde a primeira (`a esquerda) concentra p100% dos dados e a segunda (`a direita) concentra (1−p)100% dos dados.

Ser´a denotado por q(p).

Os quantisq(0,25), q(0,50) e q(0,75) s˜ao conhecidos por 1o quartil, 2o quartil (ou mediana) e 3o quartil.

Para dados condensados, op-quantil ´e calculado de forma similar a mediana.

(16)

Quantis

Considere a seguinte tabela de frequˆencias:

Intervalos de classe si ni fi(100%) di

1|−−2 1,5 1 12,5 12,5

2|−−3 2,5 2 25,0 25,0

3|−−4 3,5 3 37,5 37,5

4|−−|5 4,5 2 25,0 25,0

Total 8 100

Apresentar a tabela graficamente e calcularq(p) para p= 0,10, p= 0,30,p = 0,60 e p= 0,90.

(17)

Quantis para dados brutos

Uma regra geral para calcular quantis ´e apresentada a seguir:

Seja{x1,x2, . . . ,xn}o conjunto de dados e {x(1),x(2), . . . ,x(n)}o conjunto de dados ordenado (suponha que todos os dados s˜ao diferentes).

DefinimosFe como a fun¸c˜ao acumulada emp´ırica dada por

Fe(x) =





















0, se x <x(1) 1/n, se x(1)≤x <x(2) 2/n, se x(2)≤x <x(3) 3/n, se x(3)≤x <x(4) ...

(n−1)/n, se x(n−1) ≤x <x(n)

1, se x ≥x(n)

(18)

Quantis

Note que precisamos alisar a fun¸c˜ao Fe, pois n˜ao poderemos encontrar todos os quantis usando essa fun¸c˜ao (ver o gr´afico).

Definiremos uma nova fun¸c˜ao ˜Fe suavizada tal que:

e(x) =





0, sex<x(1)

hi + (x−x(i))xhi+1−hi

(i+1)−x(i), sex∈[x(i),x(i+1)]

1, sex>x(n)

em quehi = i−0,n5 para i = 1,2, . . . ,n.

(19)

Quantis

Para encontrar op-quantil fazemos o seguinte:

I sep =hi, ent˜ao q(p) =x(i) para i = 1, . . . ,n;

I sep <h1, ent˜ao q(p) =x(1);

I sep >hnent˜ao q(p) =x(n).

I para valores de p entre (hi,hi+1) usamos a semelhan¸ca de triˆangulos:

hi+1−hi

p−hi = x(i+1)−x(i) q(p)−x(i) Temos como resposta que

q(p) = (1−gi)x(i)+gix(i+1) em quegi = hp−hi

i+1−hi.

(20)

Quantis para valores repetidos

Para amostra ordenadax(1),x(2), . . . ,x(k) cujos valores se repetem n1,n2, . . . ,nk utilizamos

q(p) =





x(1) sep <h11

x(i) sep ∈[hi−κi,hii]∀i qi(p) sep∈(hii,hi+1−κi+1)∀i x(n) sep >hn−κn

em que

qi(p) = (1−gi)x(i)+gix(i+1), hi = f

ac i +fi−1ac

2i = fi2n−1 e gi = h p−hi−κi

i+1−κi+1−hii.

Alertamos o leitor que a f´ormula acima ´e apenas uma aproxima¸c˜ao.

(21)

Variˆ ancia - Tabela de Frequˆ encias

Considere a tabela de frequˆencias abaixo Freq Prop Vari´avel ni fi

x1 n1 f1 x2 n2 f2

... ... ... xk nk fk

Total n 1

A variˆancia amostral ´e calculada fazendo Var(X) =SX2 =

k

X

i=1

(xi −x)¯ 2fi =

k

X

i=1

xi2fi −¯x2 e que

¯ x =

k

X

i=1

xifi.

(22)

Variˆ ancia - Tabela de Frequˆ encias

Considere agora a seguinte tabela de frequˆencia para intervalos de classe:

P. M´edio Freq Prop Intervalos de classe si ni fi

c0|−−c1 s1 n1 f1 c1|−−c2 s2 n2 f2

... ... ... ...

ck−1|−−|ck sk nk fk

Total n 1

A variˆancia amostral ´e calculada fazendo Var(X) =SX2

k

X

i=1

(si −¯s)2fi =

k

X

i=1

si2fi−¯s2 em quesi, para i = 1, . . . ,k ´e o ponto m´edio da classe.

(23)

Intervalo interquartil

O intervalo interquartil tamb´em ´e uma medida de variabilidade.

Ele ´e definido por

IQ= (q1,q3)

em queq1 =q(0,25), q3=q(0,75). Note que entreq1 e q3 est˜ao 50% de todas as observa¸c˜oes centrais.

Quanto maior a amplitude deIQ,dq=q3−q1, mais disperso ´e o conjunto de dados.

Note que o intervalo interquartil n˜ao ´e sens´ıvel a observa¸c˜oes extremas, pois ´e desconsiderado os 25% extremos inferiores e 25%

extremos superiores do conjunto de dados.

OBS: No livro do Magalh˜aes e Lima “No¸c˜oes de Probabilidade e Estat´ıstica”, o intervalo interquartil ´e definido porIQ =q3−q1.

(24)

Gr´ afico de Caixa ou Box-plot

Utilizamos o gr´afico de caixa, tamb´em conhecido como box-plot para visualizar alguns aspectos da distribui¸c˜ao dos dados (mediana, quartis, variabilidade, simetria).

A sua constru¸c˜ao basea-se no c´alculo das seguintes quantidades Ponto de corte superior min{q3+ 1,5dq,x(n)}

Terceiro quartil q3

Mediana q2

Primeiro quartil q1

Ponto de corte inferior max{q1−1,5dq,x(1)} em queq2 =q(0,50).

(25)

Boxplot

Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estat´ıstica B´asica.

(26)

Assimetria

A distribui¸c˜ao de um conjunto de dados pode ser sim´etrica, assim´etrica negativa (assimetria `a esquerda) ou assim´etrica positiva (assimetria `a direita).

Histogramas e Boxplots podem indicar visualmente a assimetria da distribui¸c˜ao dos dados.

Assimetria `a esquerda . . . ...

Sim´etrica . . ... ... ... . . Assimetria `a direita ... . . . . .

(27)

Assimetria

Temos a seguinte rela¸c˜ao intuitiva:

(1) m´edia <mediana<moda ⇒prov´avel assimetria `a esquerda.

(2) moda<mediana <m´edia ⇒prov´avel assimetria `a direita.

(3) moda = mediana = m´edia ⇒prov´avel simetria.

(28)

Coeficiente de Assimetria de Bowley

A assimetria de uma distribui¸c˜ao pode ser medida utilizando o seguinte coeficiente

gb= (q3−q2)−(q2−q1) q3−q1

A intui¸c˜ao dessa medida ´e vista no Boxplot.

(1) Segb<0 ent˜ao temos poss´ıvel assimetria `a esquerda;

(2) Segb>0 ent˜ao temos poss´ıvel assimetria `a direita;

(3) Segb≈0 ent˜ao temos poss´ıvel simetria.

(29)

Gr´ aficos de simetria

Se os dados s˜ao aproximadamente sim´etricos esperamos que as caudas inferiores e superiores tenham comportamentos similares.

Ou seja,

q(0.5)−x(i)≈x(n+1−i)−q(0.5)

em quei = 1, . . . ,n/2 sen for par e i = 1, . . . ,(n+ 1)/2 se n for

´ımpar.

Definindoui =q(0.5)−x(i) e vi =x(n+1−i)−q(0.5) podemos plotar um gr´afico de simetria entre u e v.

Se os dados s˜ao aproximadamente sim´etricos esperamos que os pontos se distribuam em torno de uma reta de 45o

Referências

Documentos relacionados

Trata-se de uma concretiza¸ c˜ ao do IAC quando se obt´ em a amostra (x 1 ,.. , x n ), o intervalo passa a ser num´ erico e a interpreta¸ c˜ ao conveniente ´ e: se obtivermos v´

Os dois cap´ıtulos anteriores apresentaram intervalos de confian¸ ca e testes de hip´ oteses para o parˆ ametro de uma ´ unica popula¸ c˜ ao (a m´ edia µ, a variˆ ancia σ 2 ou

De experiˆ encias anteriores, considera-se que a resistˆ encia ao desmoronamento de tais tijolos ´ e normalmente distribu´ıda com valor m´ edio superior ou igual a 200 kg e

Membro da comiss˜ ao julgadora de concurso na ´ area de Probabilidade do Departamento de Estat´ıstica do Instituto de Matem´ atica, Estat´ıstica e Computa¸c˜ ao Cient´ıfica

Caso n˜ ao tenhamos informa¸ c˜ oes suficientes, podemos utilizar informa¸ c˜ oes pessoais para criar uma probabilidade sobre a ocorrˆ encia do evento A..?. Probabilidade condicional

probabilidade m´ınima de pagar o empr´ estimo para que o Lucro seja positivo (usando um juros de 2%)?.. Vari´ avel

A amostra ´ e utilizada quando n˜ ao temos acesso a popula¸ c˜ ao toda e serve como base para inferir sobre quantidades de interesse relacionadas ` a popula¸ c˜ ao....

Utilizaremos dois gr´ aficos para representar a tabela de frequˆ encias para vari´ aveis qualitativas: gr´ aficos de barras e gr´ aficos em setores (ou tipo pizza).. Os gr´ aficos