• Nenhum resultado encontrado

Características Peculiares dos Dados Estatísticos

N/A
N/A
Protected

Academic year: 2021

Share "Características Peculiares dos Dados Estatísticos"

Copied!
21
0
0

Texto

(1)

Características Peculiares

dos Dados Estatísticos

2 . 1 . S U M Á R I O S G R Á F I C O S

2 . 2 . E S TAT Í S T I C A S D E S C R I T I VA S

(2)

Series Temporais e Dados de Corte

1. Para o exercício da previsão poderá lidar com dois grupos pontuais de dados. a) Series temporais e ou b) Dados de corte. 2. Geralmente os dados históricos consistiram numa sequencia de observações no tempo, a esta sequencia chamaremos de series temporais. Exemplo de vendas mensais, estoques diários da bolsa, taxas de juro semanais, lucros anuais, temperaturas máximas, colheitas anuais de cereais; 3. Na previsão, procuramos determinar como a sequencia temporal dos dados se vai comportar no futuro. Para tornar simples a apreciação, assumiremos como hipótese básica, de que o tempo das

observações é igualmente espaçado. Não é critico considerar esta

hipótese na medida em que grande parte das series temporais são medidas diária, mensal, trimestral ou anualmente.

(3)

Series Temporais e Dados de Corte

Países/Grupos regionais Unidade Valor

Sub-Saharan Africa Units CEMAC Units ... West African Economic and Monetary Union (WAEMU) Millions 44.792.230,00 Angola Millions 13.195.004,00 Botswana Millions 125.158,30 Burundi Millions 3.812.500,00 Cape Verde Millions 153.723,17 Comoros Millions 243.606,32 Congo, Democratic Republic of Thousands 36.984.800.000,00 Ethiopia Millions 866.921,10 Gambia, The Millions 32.498,19 Ghana Millions 93.415,89 Kenya Millions 4.730.801,00 Lesotho Millions 21.416,00 Madagascar Billions 23.397,00 Malawi Millions 1.924.110,08 Mauritius Millions 366.228,00 Mozambique Millions 482.233,43 Namibia Millions 122.817,06 Nigeria Millions 81.009.964,62 Rwanda Billions 4.929,00 Seychelles Millions 17.014,69 Sierra Leone Millions 21.317.382,46 South Sudan Millions 40.396,90 Swaziland Millions 44.645,98 Tanzania Millions 70.953.227,35 Uganda Billions 67.248,84 Zambia Billions 143,45 Exemplo de dados de Corte: PIB de países e grupos regionais da Africa SubSahara, medidos em diferente unidades de 2013

(4)

Series Temporais e Dados de

Corte

Exemplo de Series Temporais: Exportações Mensais de Angola

Pais Valor das Exportações de Angola

2013M12 5.514.074.619,58 2014M01 5.277.300.072,29 2014M02 5.210.805.608,98 2014M03 5.289.142.347,05 2014M04 5.046.155.128,94 2014M05 5.536.603.446,92 2014M06 5.580.511.954,85 2014M07 5.046.488.899,44 2014M08 5.671.504.947,67 2014M09 4.885.966.194,84 2014M10 4.686.746.762,98 2014M11 3.772.108.957,26 2014M12 3.246.228.173,93 2015M01 2.725.053.680,24 2015M02 2.754.730.798,46 2015M03 2.757.660.174,42 2015M04 3.299.174.096,59 2015M05 3.402.082.486,24 2015M06 3.362.165.772,55 2015M07 3.157.363.579,27 2015M08 2.502.962.976,41 2015M09 2.514.561.028,56 2015M10 2.492.654.370,18 2015M11 2.274.753.960,87 2015M12 1.914.329.823,92 2016M01 1.619.154.103,53 2016M02 1.556.594.146,35 2016M03 2.047.438.354,44 0.00 1.00 2.00 3.00 4.00 5.00 6.00 Bi lli on s Exportações Mensais de Angola

(5)

Series Temporais e Dados de Corte

Marcas Milhas Preço

Chevrolet Caprice V8 USA 18 14525 Chevrolet Lumina APV V6 USA 18 13995 Dodge Grand Caravan V6 USA 18 15395 Ford Aerostar V6 USA 18 12267 Ford Mustang V8 USA 19 12164 Mazda MPV V6 Japan 19 14944 Nissan Van 4 Japan 19 14799 Chevrolet Camaro V8 USA 20 11545 Acura Legend V6 Japan 20 24760 Ford LTD Crown Victoria V8 USA 20 17257 Mitsubishi Wagon 4 Japan 20 14929 Nissan Axxess 4 Japan 20 13949 Mitsubishi Sigma V6 Japan 21 17879 Nissan Stanza 4 Japan 21 11650 Buick Century 4 USA 21 13150 Mazda 929 V6 Japan 21 23300 Oldsmobile Cutlass Ciera 4 USA 21 13150 Oldsmobile Cutlass Supreme V6 USA 21 14495 Chrysler Le Baron Coupe USA 22 12495 Chrysler New Yorker V6 USA 22 16342 Eagle Premier V6 USA 22 15350 Ford Taurus V6 USA 22 13195 Nissan Maxima V6 Japan 22 17899 Buick Skylark 4 USA 23 10565 Oldsmobile Calais 4 USA 23 9995 Ford Thunderbird V6 USA 23 14980 Toyota Cressida 6 Japan 23 21498

Marcas Milhas Preço Buick Le Sabre V6 USA 23 16145 Nissan 240SX 4 Japan 24 13249 Ford Tempo 4 USA 24 9483 Subaru Loyale 4 Japan 25 9599 Chrysler Le Baron V6 USA 25 10945 Mitsubishi Galant 4 Japan 25 10989 Plymouth Laser USA 26 10855 Chevrolet Beretta 4 USA 26 10320 Dodge Daytona USA 27 9745 Honda Prelude Si 4WS 4 Japan 27 13945 Subaru XT 4 Japan 28 13071 Ford Probe USA 30 11470 Mazda Protege 4 Japan 32 6599 Eagle Summit 4 USA 33 8895 Ford Escort 4 USA 33 7402 Honda Civic CRX Si 4 Japan 33 9410 Subaru Justy 3 Japan 34 5866 Toyota Tercel 4 Japan 35 6488 Dados de corte. Preço, milhas, pais de origem de 45 automóveis do relatório de consumidores

(6)

Os Sumários Gráficos

Visualizacao de

1. O exercício simples e mais importante a fazer quando exploramos a natureza de dados, consiste na produção de gráficos dos dados em causa. As características básicas dos dados, incluindo o padrão e constatações incomuns nos dados são facilmente observadas num gráfico. Algumas vezes o gráficos permitem-nos discernir as variações decorrentes nos dados ao longo do tempo. 2. Exemplo, disputas industriais, mudanças no governo, facilmente podem ser identificadas nas series temporais. Os gráficos são o melhor instrumento para identificar o efeito destes eventos. Consequentemente, conhecendo-os incorporamo-los nos nossos modelos previsionais. 3. A natureza de dados vai determinar que tipo de gráficos serão mais apropriados.

(7)

Representações de dados no tempo e

padrões específicos das series temporais

1. Uma forma pratica de produzir gráficos é presenta-los ao longo do tempo. Os exemplos apresentados na aula passada, constituem um referencia. 2. A presentação dos dados o longo do tempo (time plot), imediatamente permite-nos identificar um padrão especifico dos dados, tendência ao longo do tempo, comportamentos sazonais, e ou outros comportamentos sistemáticos ao longo do tempo. A necessidade de identificar os vários padrões, permite incorporar esta informação no modelo estatístico. 3. A figura da produção de cerveja no slide seguinte ilustra o tamanho de dados e os períodos específicos em que os picos ocorrem.

(8)

Representações de dados no tempo e

padrões específicos das series temporais

120 130 140 150 160 170 180 190 200 Produção mensal de Cerveja na Austrália de Jan 1991 a Agosto de 1995

(9)

Representações de dados no tempo e

padrões específicos das series temporais

1. Um especto importante na escolha do método de previsão, consiste no conhecimento do padrões específicos dos dados , de tal modo que se escolha o método mais apropriado. Podemos distinguir quatro (4) tipologias de padrões nos dados estatísticos, horizontal, sazonal, cíclico e tendencial. 2. O padrão horizontal consiste no perfil de dados que flutuam em torno de uma média. Estas seria são igualmente denominadas por series estacionarias. Exemplo dos processos de produção contínuos.

3. Estamos em presença de um padrão Sazonal, quando a serie é

influencia por fatores sazonais, (exemplo, trimestralmente, mensalmente, diariamente, semanalmente). Vendas como gelados, consumo domiciliar de eletricidade, consumo de peru ou bacalhau em determinadas culturas. No gráfico seguinte, a produção de cerveja, eleva-se nos meses de novembro e dezembro, repetindo-se todos os anos

(10)

Representações de dados no tempo e

padrões específicos das series temporais

1. Um padrão cíclico ocorre quando os dados apresentam altos e baixos ao longo do tempo, que não ocorrem em períodos fixos As series económicas geralmente estão associadas flutuações que refletem comportamentos cíclicos ao longo do tempo. Exemplo a construção de casas, o fabrico ou venda de automóveis. 2. A distinção entre dados com padrão de natureza cíclica e dados de natureza sazonal, é que o ultimo apresenta um padrão de espaçamento constante e ocorre de modo regular, enquanto que os padrões ciclos observam um espaçamento variável. Geralmente espaçamentos dos padrões cíclicos chegam a ser muito mais longos.

3. O padrão de tendência temporal (trend), existe quando ocorre um

crescimento de longo prazo na serie, ou um decréscimo de longo prazo. Exemplo, vendas de uma companhia, variáveis das contas nacionais como PNB (Produto Nacional Bruto) dentre outras.

(11)

Representações de dados no tempo e

padrões específicos das series temporais

1. Alguns dados estatísticos são capazes de apresentar padrões mistos, tendência, sazonalidade, comportamento cíclico. Um dos grandes desafios no processo de previsão é lidar com series que apresentam uma variedade de padrões. 2. O gráfico do slide seguinte, consiste na decomposição anual da serie estatística do slide anterior, como pode observar, com a decomposição anual, consegue-se perceber de com suficiente compressão os picos em novembro e dezembro

(12)

Representações de dados no tempo e

padrões específicos das series temporais

115 125 135 145 155 165 175 185 195 205

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

Me ga lit ro s 1991 1992 1993 1994 1995

Representação da Sazonalidade relativa a produção de cerveja. Repare que a produção eleva-se em novembro e dezembro em preparação do versão do hemisfério sul, depois do inverno.

(13)

Representações Sazonais

Para series sazonais, recomenda-se identificar a natureza da sazonalidade produzir uma representação gráfica sazonal (Seasonal plot), consiste na projeção gráfica dos dados em relação aos períodos específicos em que se observa o comportamento sazonal. A representação gráfica da sazonalidade, permite identificar de modo claro a ocorrência da sazonalidade. 115 125 135 145 155 165 175 185 195 205

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

Me ga lit ro s 1991 1992 1993 1994 1995 120 130 140 150 160 170 180 190 200

(14)

Gráficos de Dispersão

(Scatter plots)

1. Os dados de automóveis expressos no slide #5, não são series temporais. Para estes dados, as representações sazonais, não são gráficos apropriados para analise. Para estes casos, usamos os gráficos de dispersão. 2. Assim no gráfico de dispersão na pagina seguinte, cada ponto no gráfico representa uma tipologia de veículos. Assim depreende-se que veículos com elevadas milhas por galão, são geralmente baratos que os veículos menos eficientes em termos de combustível e inversamente os veículos com baixa milhas por galão são geralmente quotados a preços superiores correspondente ao intervalo de $12mil a $18 mil. 3. Os dados de dispersão permitem-nos explora a relação entre as variáveis o que nos sugere que os modelos a utilizar tenham de incluir no modelo de previsão, as milhas como variável explanatória

(15)

Gráficos de Dispersão

(Scatter plots)

1,000 6,000 11,000 16,000 21,000 26,000 18 23 28 33 38 Pr eç o US $ Milhas (mpg)

Scatterplot do preço versus milhas de estatísticas automóveis

(16)

Sumários

Numericos

(17)

Sumário Gráfico e Estatísticas

descritivas computadas no Gretl

1. Em complemento aos gráficos, é de igual modo importante produzir um sumário numérico de estatísticas descritivas. 2. Para uma serie univariavel ou uma serie temporal singular, as mais comuns estatística descritivas são: a) Media b) O desvio padrão c) Variância

(18)

Sumário Gráfico e Estatísticas descritivas

computadas no Gretl

20 40 60 80 100 120 140 160 180 200 220 1973 1977 1981 1985 1989 PAU 30 40 50 60 70 80 90 100 110 120 130 1973 1977 1981 1985 1989 PUS 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1973 1977 1981 1985 1989 E 4 6 8 10 12 14 16 18 1973 1977 1981 1985 1989 IAU 4 6 8 10 12 14 16 1973 1977 1981 1985 1989 IUS 0,04 0,06 0,08 0,1 0,12 0,14 0,16 1973 1977 1981 1985 1989 ius2 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 1973 1977 1981 1985 1989 iau2 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1973 1977 1981 1985 1989 e2 3,8 4 4,2 4,4 4,6 4,8 5 lpus -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 le 4 4,2 4,4 4,6 4,8 5 5,2 5,4 lpau

(19)

Sumário Gráfico e Estatísticas

descritivas computadas no Gretl

Estatísticas Descritivas, usando as observações 1972:1 - 1991:1 Variável Média Mediana Mínimo Máximo

PAU 113,345 105,500 39,3000 214,500 PUS 80,3195 86,5000 38,5000 125,500 E 1,01974 1,08600 0,627400 1,48700 IAU 11,4181 11,9500 5,20000 16,4000

Variável Desvio Padrão C.V. Enviesamento Curtose Ex.

PAU 52,6322 0,464352 0,317924 -1,07758 PUS 26,7756 0,333364 -0,0747622 -1,35128 E 0,242478 0,237784 0,137463 -1,09661 IAU 2,70077 0,236535 -0,510428 -0,386265

Variável Perc. 5% Perc. 95% intervalo IQ Observações omissas

PAU 40,5600 207,550 87,1500 0 PUS 39,4600 121,140 48,0500 0 E 0,676030 1,48700 0,400050 0 IAU 5,49000 14,9750 4,09000 0

(20)

Identidades básicas do das Estatísticas Descritivas

(series univariáveis)

Media 𝑌 =1 2% 𝑌& valor que separa a metade maior e a metade menor de umaamostra Observação média se impar ; Media das duas observações médias se par. 𝑀𝐴𝐷 = 1 2% 𝑌&− 𝑌-𝑀𝑆𝐷 = 1 2% 𝑌&− 𝑌- / 𝑆/ = 1 𝑛 − 1% 𝑌&− 𝑌- / 𝑆 = 𝑆/ = 1 𝑛 − 1% 𝑌&− 𝑌- / Mediana Desvio absoluto da media

(mean absolute deviation)

Quadrado do desvio da media

(Mean square deviation)

Variância

(21)

Identidades básicas do das Estatísticas Descritivas

(Series bivariáveis)

Covariância Coeficiente de Correlação 𝐶𝑜𝑣45 = 1 𝑛 − 1% 𝑋&− 𝑋- 𝑌&− 𝑌-7 &89 𝑟45 = 𝐶𝑣𝑣45 𝑆4𝑆5 =

∑7&89 𝑋&− 𝑋- 𝑌&− 𝑌-∑7 𝑋&

Referências

Documentos relacionados

Em contrapartida, o teste de qPCR in house mesmo que não comparado ao teste de CHII CT-ID, apresentou resultados semelhantes ao qPCR Artus Plus, demonstrando-se um teste que pode

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

A análise biométrica por pontos amostrados em cada estação de coleta auxiliou na identificação das áreas em que há anormalidades (figura 3). Para a variável

c) Nominais: são variáveis que apresentam três ou mais categorias e estas não apresentam ordem alguma entre elas. Exemplo: tipo de sangue A, B, AB, O ou cor dos olhos marrom,

768 Notificação para comparecer em atendimento no Conselho Tutelar 323 Requisição de vaga para Ens. Fundamental (DRE

Localizado no extremo norte do Estado do Rio de Janeiro, o município de Campos dos Goytacazes apresenta fitofisionomias diversificadas, englobando florestas de baixadas estacionais

No gráfico de barras, o aluno foi pouco preciso na construção e não identificou o eixo das frequências nem definiu a escala nesse eixo; nos gráficos de barras empilhadas, os alunos

Then, after the analysis and comparison of the results obtained in the databases, a total of 26 genes in common were observed between patients with RPL and