• Nenhum resultado encontrado

Estatística-2018/2. Turma: Geografia

N/A
N/A
Protected

Academic year: 2021

Share "Estatística-2018/2. Turma: Geografia"

Copied!
41
0
0

Texto

(1)

Estatística-2018/2

(2)

Mostrar como o usar o R para:

calcular medidas de posição e

dispersão de um conjunto de

dados;

construir um boxplot.

(3)

A função apropriada do R para obter os quantis

de uma distribuição é a função quantile.

Se x é o vetor contendo os dados, e desejamos

determinar os três quartis, digitamos

quantile(x,c(0.25,0.5,0.75))

Se desejamos o quinto (5%) e o nonagésimo-quinto (95%) percentis, pedimos

quantile(x,c(0.05,0.95))

Em geral, q(p)quantile(x,p)

Determinação dos quantis de uma

distribuição usando o R

(4)

Exemplo dos salários:

 dados=read.table(“E:\\geografia\\ciaMB.txt”,header=T)

# calculando os quartis

quantile(dados$sal, c(0.25,0.5,0.75))

25% 50% 75%

7.5525 10.1650 14.0600

Pedindo a saída com duas casas decimais

round(quantile(dados$sal,c(0.25,0.5,0.75)),digits=2)

25% 50% 75%

(5)

 Continuação do Exemplo:

 Esquema dos cinco números:

 fivenum(dados$sal)  [1] 4.000 7.515 10.165 14.270 23.300  mean(dados$sal) # média  [1] 11.12222  median(dados$sal) #mediana  [1] 10.165  max(dados$sal) # máximo  [1] 23.3  min(dados$sal) #mínimo  [1] 4

(6)
(7)

Os dados no arquivo dados13bm.txt fornecem

emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995.

Fonte: Stabilizing The Atmosphere: Population,

Consumption and Greenhouse Gases.

Exemplo 1: Emissão de Dióxido de

Carbono

(8)

 dados=read.table(“c:\\flavia\\dados13bm.txt”,header=T)

 # na primeira coluna está o nome do país e, na segunda, o dado sobre emissão do país.

(9)

Determine os três quartis, os decis, a média e

o desvio-padrão das emissões registradas

para os 72 países em 1995.

Exemplo 1: Emissão de Dióxido de

Carbono (cont.)

(10)

names(dados) # nomes atribuídos as duas colunas do

conjunto de dados

"pais" "emissao"

quantile(dados$emissao,c(0.25,0.5,0.75))

# comando para retornar os quantis de 25%, 50% e 75%,

os três quartis.

25% 50% 75%

0.0675 0.4150 1.4725

Exemplo 1: Emissão de Dióxido de

Carbono (cont.)

(11)

quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9))

# comando para retornar os 9 decis, a saber, 10%, 20%, ..., 90%.

10% 20% 30% 40% 50% 60% 70% 80% 90%

0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Observe que nessa lista os valores estão arredondados com duas

casas decimais.

Exemplo 1: Emissão de Dióxido de

Carbono (cont.)

(12)

• > mean(dados$emissao)

• # retorna a média de emissões

• [1] 1.174167

• > var(dados$emissao)

• # retorna a variância

• 2.853036

• > sd(dados$emissao)

• #retorna o desvio padrão de emissões

• [1] 1.689093

• median(dados$emissao) # retorna a mediana de emissões

• [1] 0.415

Exemplo 1: Emissão de Dióxido de

Carbono (cont.)

(13)

> round(mean(dados$emissao),digit=2)

# retorna a média de emissões com duas casas

decimais

[1] 1.17

> round(sd(dados$emissao) ,digit=2)

#retorna o desvio padrão de emissões com duas casas

decimais

[1] 1.69

Exemplo 1: Emissão de Dióxido de

Carbono (cont.)

(14)

Histograma das emissões

Observe que a distribuição de

frequências de dados sobre emissão apresenta forte assimetria positiva

Observe também que há uma classe sem representantes nessa distribuição

(15)

Histograma das emissões: sugerindo

10 intervalos:

(0,0.33,0.67,1,1.33,1.67,2,3,4,6,10)

Observe que nesse histograma os intervalos têm comprimentos

diferentes.

Nesse caso devemos usar a escala de

densidade de

frequência dada pela razão da frequência com o comprimento do intervalo.

(16)

Observe que nessa figura tem-se Q2-Q1<Q3-Q2

Q2-x(1)<<x(n)-Q2 Q1-x(1)<<x(n)-Q3

(17)

 É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n).

 Estes cinco valores são importantes para se ter uma boa ideia da assimetria dos dados.

(18)

 Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter:

 (a) Q2- x(1)  x(n)-Q2;

 (b) Q2-Q1  Q3-Q2;

(c) Q1- x(1) x(n)-Q3;

(19)

O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o

vetor que contém os dados.

 Exemplo:

x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)

fivenum(x)

 [1] 1.0 2.0 3.5 5.5 10.0

(20)

summary(x)

 Min. 1st Qu. Median Mean 3rd Qu. Max.

 1.00 2.00 3.50 4.10 5.25 10.00

O comando summary(x), quando x é um vetor

numérico, produz as informações do esquema dos cinco números e a média.

(21)

 A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama,

conhecido como box plot.

A figura a seguir, ilustra o boxplot.

(22)
(23)

O retângulo no boxplot é traçado de tal maneira que suas bases têm alturas correspondentes aos primeiro e terceiro quartis da distribuição.

 O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil.

Assim, o retângulo do boxplot correponde aos 50% valores centrais da distribuição.

(24)
(25)

 Depois de desenhado o retângulo, traça-se um

segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor

observado que NÃO supera o valor de Q3+(1,5)DEQ.

 O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)DEQ.

(26)
(27)

 As observações que estiverem acima de Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ são chamadas pontos

exteriores e representadas por asteriscos.

 Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos.

(28)
(29)
(30)

Observações

 Não necessariamente

haverá a presença de pontos exteriores num

boxplot.

 Quando for este o caso, o esquema terá a seguinte aparência:

(31)

Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono:

boxplot(dados$emissao)

(32)
(33)
(34)

Observação: é possível construir vários boxplots na mesma função.

boxwex: controla a largura dos retângulos no boxplot.

O default é 0.8.

outline: valor lógico. Se T, os pontos exteriores são

assinalados (default). Se F, os pontos exteriores não são assinalados

Alguns argumentos da função

(35)

Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto

dados6bm.txt.

dados<-read.table(“c:\\flavia\\dados6bm.txt”,header=T)

Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico.

boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel

medio”,”mecanico”,”administrador”,”eng.eletrico”))

(36)

1 – nível médio 2 – mecânico

3 – administrador 4 – Eng. Elétrico

(37)

Cores

(38)

Boxplots horizontais

horizontal - valor lógico, se

T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.

(39)

ylim: controla a escala de valores main: título

sub: sub-título

names: vetor com os rótulos dos conjuntos de dados,

quando são pedidos mais de um boxplot.

pch: específica o caracter a ser usado nos pontos

exteriores. Ex.: pch=“*”.

(40)

Exemplo 3

Dados sobre temperaturas médias mensais. (dados5bm.txt)

Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar

(41)

Boxplots das temperaturas mensais de Ubatuba e Cananéia

Referências

Documentos relacionados

Para este ano, de acordo com mapa disponibilizado pelo Inmet (Figura 1), a precipitação total prevista para a maior parte da Bacia do Rio Doce irá variar de 20 a 40 mm,

À medida que acedemos à nossa natureza infinita, o tempo irá tornar-se mais completo na sua experiência enquanto nós vimos a incorporar O Tempo Todo num momento, desse modo

02 armários de aço, 02| Pintura Para armazena- estantes de madeira com anual mento de ali- portas, 01 armário de madeira mentos não com porta, engradados para | no início

6º Para liberação dos recursos financeiros captados e direcionados nos termos da alínea “a” do inciso I do artigo 2º, as OSCs - Organizações da Sociedade Civil,

Unindo todos esses fatores uma ótima opção para quem quer economizar na viagem para a Europa é ir nos meses de meia temporada, como dito anteriormente o mês mais barato para viajar

a) planilhas mensais (fig. 3): nestas planilhas são evidenciadas mês a mês as receitas obtidas para cada produto ofertado. Também são apresentados os desembolsos com os

v) Tratando-se de unidades de participação de fundos de investimento, utilizar-se-á o último valor disponível e divulgado à data de referência da valorização.

Comprovada a realização de voluntariado (estágio voluntário) em outras áreas do direito e/ou outros órgãos da Justiça além do Ministério Público, inclusive