• Nenhum resultado encontrado

Modelos lineares generalizados: um estudo sobre leilões de veículos

N/A
N/A
Protected

Academic year: 2021

Share "Modelos lineares generalizados: um estudo sobre leilões de veículos"

Copied!
11
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO PARANÁ

Departamento de Estatística

Modelos lineares generalizados: um estudo sobre leilões

de veículos

CE225 - Modelos Lineares Generalizados

Aline Benatti, GRR: 20149154 Andryas Waurzenczak, GRR: 20149125

(2)

Resumo

Neste trabalho investigou-se a relação entre o número de lances por veículo em leilões e variáveis associadas à características dos automóveis. A base de dados provém do Superbid, site que gerencia venda de bens por meio de leilões via internet. Para a modelagem, utilizou-se dois modelos: o modelo generalizado com distribuição binomial negativa (paramétrico) e o modelo não paramétrico Quasi-Poisson, dessa forma pode-se verificar qual modelo possuía o melhor ajuste dos dados para assim ser dada a continuidade da análise dos dados, constatou-se que o modelo paramétrico era mais conveniente para o estudo. Então, exploramos as possíveis relações entre as variáveis e por último, comparou-se as predições marginais, verificando como cada covariável contribuía com a variável resposta.

(3)

Sumário

1 Introdução 3

2 Materiais & Métodos 3

2.1 Material . . . 3

2.1.1 Conjunto de dados . . . 3

2.2 Métodos . . . 4

3 Modelagem 5 3.1 Análise Descritiva e Exploratória . . . 5

3.2 Modelo Linear Generalizado com Distribuição Binomial Negativa . . . 6

3.2.1 Seleção de variáveis . . . 6

3.3 Modelo Linear Generalizado Quasi-Poisson . . . 7

3.4 Comparação dos modelos ajustados . . . 9

4 Resultados 9 4.1 Predições marginais . . . 10

(4)

1 Introdução

O leilão é uma modalidade de venda ao público que se caracteriza por vender os bens materiais em questão a uma melhor oferta, ou seja, o bem mencionado é ofertado sem o estabelecimento de um valor pré-determinado e vendido a quem pague o melhor preço.

Comprar um veículo com valor até 30% menor do que o praticado no mercado é o que tem atraído consumi-dores para os leilões de carros. Associações do setor estimam que houve um aumento de 40% na procura por esse tipo de negócio no Brasil. Para especialistas, os carros mais novos vindos de financiadoras ou de frotas de veículos têm atraído mais consumidores para esse tipo de compra. Essa mudança ocorreu no último ano com o aumento da inadimplência. Frotistas e empresas de revenda ainda são os principais compradores, mas o cliente final também começa a ganhar destaque.1

Este artigo tem como foco de estudo o número de lances por veículo, avaliando variáveis relacionadas aos automóveis para com isso verificar o que os torna atrativos para compra e também, analisar quais variáveis têm maior importância para a decisão do consumidor dar um lance no veículo.

2 Materiais & Métodos

2.1 Material

Os dados utilizados são advindos do site Superbid2 que é um site fundado em 1999, sendo especializado na

avaliação e venda de ativos físicos por meio de leilões oficiais presenciais e via internet simultaneamente. A forma de coleta dos dados foi por meio webscraping3, que nada mais é que uma técnica de para extrair

dados de páginas websites.

O período de coleta vai de 15/09/2017 à 17/11/2017. Total de obsevações: 529.

Esse conjunto de dados possui ao todo 21 variáveis. 20 variáveis explicativas, sendo 17 variáveis categóricas, duas variáveis discretas e uma variável contínua.

A variável dependente (desfecho) estudada foi o número de lances por veículo.

2.1.1 Conjunto de dados

O conjunto de dados é apresentado da seguinte maneira:

• totLanc: Variável resposta que indica o número total de lances por carro. • pI: Variável contínua que indica o preço inicial do leilão.

• marca: Variável categórica com 5 níveis que aponta a marca do veículo. • anofab: Variável discreta definida entre os anos de 1997 - 2017.

• plest: Variável categórica que mostra a região onde o carro está registrado. • cor: Variável com 5 categorias que expressa a cor do veículo.

• comb: Variável categórica com 3 níveis que declara o tipo de combustível do carro. • portas: Variável com 3 categorias que indica quantas portas o automóvel possui. • camb: Variável politômica com 3 categorias que declara o tipo de câmbio do veículo. • vidros: Variável categórica com 3 níveis que indica a automatização dos vidros • bancos: Variável com 3 categorias que mostra o tipo de material do banco. • rodas: Variável dicotômica que indica o material da roda.

1http://www1.folha.uol.com.br/sobretudo/rodas/2017/04/1877530-cresce-procura-por-automoveis-em-leiloes-mas-compra-exige-cuidados.

shtml

2https://www.superbid.net/

(5)

• direção: Variável categórica com 3 níveis que declara o tipo de direção do veículo.

• arcond: Variável categórica com 3 níveis que aponta se o veículo possui ou não ar condicionado ou se está com defeito.

• apsom: Variável dicotômica que indica se possui aparelho de som no carro. • mecmotr: Variável com 3 categorias que mostra as condições do motor.

• pintura: Variável categórica que indica o estado (bom, regular, ruim) da pintura do veículo. • lataria: Variável categórica que aponta o estado (bom, regular, ruim) da lataria do veículo.

• tapfor: Variável com 3 categorias que indica a condição (bom, regular, ruim) da tapeçaria do veículo. • estpneus: Variável dicotômica que mostra o estado (regulares ou ruins) dos pneus.

• tempo: Variável discreta (em dias) que declara o tempo que o veículo ficou em leilão. Abaixo tem-se parte da base de dados:

Tabela 1: 6 primeiras linhas do conjunto de dados

totLanc pI marca anofab plest cor comb portas camb vidros 8 15500 outras 2011 rj prata flex 4 manual elétricos 22 12500 volkswagen 2012 rj branca flex 4 manual de/tm 23 14500 chevrolet 2009 rj preto flex 4 automatizado elétricos

1 3000 outras 2009 sp prata gasolina 4 automatizado elétricos 18 7500 volkswagen 2003 pr branca gasolina 4 manual elétricos 23 5000 volkswagen 2002 pr branca gasolina 2 manual

bancos rodas direcao arcond apsom mecmotr pintura lataria tapfor estpneus tempo

tecido liga-leve hidráulica sim sim funcionando bom bom bom regulares 20

tecido ferro hidráulica sim não funcionando bom bom bom regulares 20

courvin liga-leve hidráulica sim sim funcionando bom bom bom regulares 20

couro liga-leve hidráulica sim sim avariado regular regular ruim regulares 20

tecido hidráulica sim sim não testado regular regular regular regulares 13

tecido sim não testado regular regular regular regulares 13

2.2 Métodos

Para a análise de dados foi utilizado o software R. Primeiramente, foi realizada uma análise exploratória contendo a estatística descritiva do dados e a aglutinação de alguns fatores. Para verificar a relação entre número de lances e as demais covariáveis foi ajustado o modelo linear generalizado com distribuição Binomial Negativa , visualizado abaixo:

yi|xi∼ BN(µi, ϕ)

g(µi) = log(µi) = β0+ β1xi1+ β2xi2+ ... + β20xi20

Após isso, foi utilizado o método stepwise e retirado as variáveis do modelo as que não apresentaram rele-vância para o estudo. Após esse primeiro ajuste , não satisfeitos, procuramos um modelo melhor, tentando uma abordagem de quasi-verossimilhança. Por fim foram comparados os modelos e em seguida obtida as conclusões.

(6)

3 Modelagem

Nesta seção realiza-se todo o processo de análise dos dados, desde a parte descritiva dos dados até o ajuste final do modelo.

3.1 Análise Descritiva e Exploratória

Para começar a análise descritiva iniciaremos explorando as medidas de resumos. Tabela 2: Resumo dos dados

totLanc pI marca anofab plest cor comb portas camb vidros

Min. : 1.00 Min. : 195 outras : 81 Min. :1959 mg :225 outras : 96 diesel : 32 2 :138 automatizado:143 de/tm : 71

1st Qu.: 3.00 1st Qu.: 10500 chevrolet : 56 1st Qu.:2010 sp :184 branca :197 flex :384 3 : 14 avariado : 12 elétricos:276

Median : 8.00 Median : 24500 fiat :294 Median :2014 ms : 26 prata : 67 gasolina: 98 4 :361 manual :353 manuais :149

Mean : 10.77 Mean : 28702 volkswagen: 82 Mean :2013 rj : 25 preto : 74 NA’s : 15 NA’s: 16 NA’s : 21 NA’s : 33

3rd Qu.: 16.00 3rd Qu.: 35500 NA’s : 16 3rd Qu.:2015 pr : 24 vermelha: 73

Max. :106.00 Max. :375000 Max. :2017 (Other): 27 NA’s : 22

NA’s :18 NA’s : 18

bancos rodas direcao arcond apsom mecmotr pintura lataria tapfor estpneus tempo

couro :113 ferro :235 avariada : 3 avariado: 4 não :187 avariado : 14 bom :262 bom :272 bom :273 regulares:418 Min. : 4.00

courvin: 27 liga-leve:261 hidráulica:425 não :105 sim :316 funcionando:308 regular:207 regular:218 falta : 1 ruins : 88 1st Qu.: 7.00

faltam : 1 NA’s : 33 mecânica : 72 sim :394 NA’s: 26 não testado:188 ruim : 40 ruim : 20 regular:214 NA’s : 23 Median :10.00

tecido :361 NA’s : 29 NA’s : 26 NA’s : 19 NA’s : 20 NA’s : 19 ruim : 21 Mean :10.64

NA’s : 27 NA’s : 20 3rd Qu.:13.00

Max. :31.00

Pela Tabela 2 pode-se observar que em determinadas categorias, como por exemplo, portas, tapfor e direcao, temos níveis que aparecem com pouca frequência, o que pode acarretar em problemas de estimação dos parâmetros. Além disso é observa-se uma grande quantidade de NA's. Abaixo pode-se ver como se da essa proporção de NA's por coluna.

Tabela 3: Proporção de NA’s por coluna

totLanc pI marca anofab plest cor comb portas camb vidros bancos

0 0 0.03 0.03 0.03 0.04 0.03 0.03 0.04 0.06 0.05

rodas direcao arcond apsom mecmotr pintura lataria tapfor estpneus tempo

0.06 0.05 0.05 0.05 0.04 0.04 0.04 0.04 0.04 0

Outro ponto importante são as frequências dos veículos avariados. Para esse estudo iremos supor que itens preenchidos como avariados ou faltantes são fortes candidatos a NA's pois, em geral, quando um veículo tem algum dano suas reais condições são omitidas, por mais que seja proibido por lei omiti-las. Logo carros que tenham fatores com niveis avariados serão considerados NA's.

O novo conjunto de dados tem 458 linhas. Ou seja, 71 casos foram removidos. Também será aglutinado o fator plest em SP, MG, outros.

(7)

Em seguida o gráfico de frequência do número total de lances por veículo no conjunto de dados atualizado.

Frequência total do número de lances

0 20 40 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Número de Lances Frequência de lances

Figura 1: Frequênce da variável resposta

3.2 Modelo Linear Generalizado com Distribuição Binomial Negativa

Primeiramente foi ajustado um modelo aditivo com todas as covariáveis.

totLancei|xi∼ BN(µi, ϕ)

g(µi) = log(µi) = β0+βpIxi1+βmarcaxi2+βanof abxi3+βplestxi4+βcorxi5+βcombxi6+βportasxi7+βcambxi8+βvidrosxi9+

βbancosxi10+βrodasxi11+βdirecaoxi12+βarcondxi13+βapsomxi14+βmecmotrxi15+βpinturaxi16+βlatariaxi17+βtapf orxi18+

βestpneusxi19+ βtempoxi20

Este modelo apresentou Deviance nula igual à 678.3587975 com 457 graus de liberdade e Deviance residual igual à 482.6550638 com 424 graus de liberdade.

3.2.1 Seleção de variáveis

Em seguida foi utilizado o método de seleção de variáveis stepwise. O resultado encontra-se logo abaixo. O resumo do modelo selecionado pelo algoritmo stepwise.

(8)

Estimate Std. Error z value Pr(>|z|) (Intercept) 114.1388 37.0034 3.08 0.0020 marcachevrolet 0.0257 0.1624 0.16 0.8744 marcafiat -0.3241 0.1195 -2.71 0.0067 marcavolkswagen 0.3031 0.1492 2.03 0.0422 anofab -0.0552 0.0184 -3.00 0.0027 plestmg 0.2619 0.1114 2.35 0.0187 plestsp 0.4973 0.1132 4.39 0.0000 combflex -0.3940 0.1755 -2.25 0.0248 combgasolina -0.5129 0.1915 -2.68 0.0074 bancoscourvin -0.1704 0.2038 -0.84 0.4030 bancostecido -0.2816 0.1269 -2.22 0.0265 direcaomecânica -0.8047 0.1540 -5.22 0.0000 arcondsim -0.2293 0.1294 -1.77 0.0764 mecmotrnão testado 0.1838 0.1255 1.46 0.1430 pinturaregular -0.2587 0.1149 -2.25 0.0243 pinturaruim -0.9027 0.2462 -3.67 0.0002

Tabela 4: Resumo do modelo proposto pelo algoritmo stepwise

No primeiro gráfico abaixo, observa-se, que a linha em azul tem um decaimento suave da linha azul, mas em geral parece haver independencia. No gráfico de normalidade ao lado, tem-se uma leve fuga na cauda inferior. O terceiro gráfico, da homocedasticidade, verfica-se variância não homogenea. E por último uma alavancagem nos dados que podem ser devido a obsevações outliers.

431 270 456 −2 −1 0 1 2 3 1 2 3 Valor predito Resíduo

Indepedência

431 270456 −3 −2 −1 0 1 2 3 −2 0 2 Quantis teórico Resíduo obser v ado

Normal q−q

431 270 456 0.0 0.5 1.0 1.5 1 2 3 Valor predito

Raiz do resíduo obser

v ado

Homocedasticidade

431 71 428 −3 −2 −1 0 1 2 3 0.00 0.05 0.10 0.15 Leverage Resíduo de P earson

Resíduo de Pearson vs Leverage

Diagnóstico do modelo

Figura 2: Diagnóstico do modelo binomial negativo

3.3 Modelo Linear Generalizado Quasi-Poisson

Ajusta-se um modelo aditivo quase poisson.

totLancei|xi∼ P oisson(µi) Tem-se então que a V (µi) = ϕµ2i

(9)

Este modelo apresentou Deviance nula de 400.2831548 com 457 graus de liberdade e Deviance resíduo igual à 295.1657846 com 424. Como este modelo tem uma parte não parámetrica, deve-se tomar cuidado quanto as interpretações.

Ajustando o novo modelo com as mesmas variáveis explicativas do modelo com distribuição binomial negativa, proposto pelo stepwise . Três motivos são destacados por ter-se selecionado as mesmas variáveis explicativas. O primeiro é que devido esse modelo ser não parámetrico a log verossimilhança não é bem definida e portanto não pode-se utilizar o algoritmo stepwise, pois não é obtido um AIC. Outro motivo é que as variáveis significativas foram similares a do modelo com distribuição binomial negativa. E por último, para fins de comparação dos coeficientes.

Resumo do modelo quasi-poisson ajustado

Estimate Std. Error t value Pr(>|t|)

(Intercept) 115.3441 37.7144 3.06 0.0024 marcachevrolet 0.0420 0.1718 0.24 0.8068 marcafiat -0.3396 0.1244 -2.73 0.0066 marcavolkswagen 0.3023 0.1551 1.95 0.0519 anofab -0.0558 0.0187 -2.98 0.0030 plestmg 0.2913 0.1115 2.61 0.0093 plestsp 0.5300 0.1147 4.62 0.0000 combflex -0.4035 0.1874 -2.15 0.0318 combgasolina -0.5065 0.2035 -2.49 0.0132 bancoscourvin -0.1795 0.2126 -0.84 0.3989 bancostecido -0.2855 0.1313 -2.17 0.0302 direcaomecânica -0.7641 0.1530 -4.99 0.0000 arcondsim -0.2183 0.1343 -1.63 0.1047 mecmotrnão testado 0.1618 0.1278 1.27 0.2060 pinturaregular -0.2522 0.1165 -2.17 0.0309 pinturaruim -0.8778 0.2405 -3.65 0.0003

Tabela 5: Resumo do modelo quasi-Poisson Abaixo temos a análise do diagnóstico.

431 270 456 −2 −1 0 1 2 1 2 3 Valor predito Resíduo

Indepedência

431 270456 −3 −2 −1 0 1 2 3 −2 0 2 Quantis teórico Resíduo obser v ado

Normal q−q

431 456270 0.0 0.5 1.0 1.5 1 2 3

Raiz do resíduo obser

v ado

Homocedasticidade

71 431 428 −3 −2 −1 0 1 2 3 0.00 0.05 0.10 0.15 Resíduo de P earson

(10)

Pelo primeiro gráfico parece haver independência. Quanto a normalidade, parece haver um desajuste siste-mático conforme os quantis dos resíduos passam de -3 para 3. O mesmo comportamento é notado quanto a homocedasticidade e o gráfico de leverage vs resíduos, neste ajuste não temos aparentemente nenhum ponto de alavancagem.

3.4 Comparação dos modelos ajustados

modelo 1 Modelo ajustado com distribuição Binomial Negativa modelo 2 Modelo quasi-Poisson

marcachevrolet marcafiat marcavolkswagen anofab plestmg plestsp combflex combgasolina bancoscourvin bancostecido direcaomecânica arcondsim mecmotrnão testado pinturaregular pinturaruim −1.5 −1.0 −0.5 0.0 0.5 Coeficientes Model Modelo 1 Modelo 2

Comparação dos coeficientes

Figura 4: Comparação entre os coeficientes do modelo binomial negativo com o modelo quasi-poisson

4 Resultados

Temos então que escolher um entre dois modelos propostos. Ambos apresentaram ajustes similiares, com problemas de variância, também, similares. Contudo pelo último gráfico da seção anterior, fica evidenciado que a diferença entre os coeficiente dos dois modelos é bastante semelhante. Porém um tem uma distribuição de probabilidade bem especificada quanto outro não, e para escolhermos dentre estes dois modelos, utiliza-remos esse criterio. Opta-se então pelo modelo paramétrico. Ou seja, o modelo escolhido é o modelo linear generalizado com distribuição binomial negativa.

(11)

4.1 Predições marginais

marca effect plot

marca totLanc 8 10 12 14 16

outras chevrolet fiat volkswagen

anofab effect plot

anofab totLanc 10 15 20 25 30 35 40 2000 2005 2010 2015

plest effect plot

plest totLanc 6 7 8 9 10 11 12 13 outros mg sp

comb effect plot

comb totLanc 8 10 12 14 16 18

diesel flex gasolina

bancos effect plot

bancos totLanc 7 8 9 10 11 12 13

couro courvin tecido

direcao effect plot

direcao totLanc 4 5 6 7 8 9 10 hidráulica mecânica

arcond effect plot

arcond totLanc 8 9 10 11 12 13 não sim

mecmotr effect plot

mecmotr totLanc 8 9 10 11

funcionando não testado

pintura effect plot

pintura totLanc 4 6 8 10 12

bom regular ruim

Figura 5: Predições marginais

Pelo gráfico acima pode-se ver a contribuição de cada covariável, marginalmente, com a variável resposta.

5 Conclusão

Pode-se concluir, através da análise que os veículos mais requisitados são da marca Volkswagen. Tem-se também que veículos com combustível a diesel são mais disputados, isso se dá, provavelmente, por serem veículos como caminhonetes que são mais caros no mercado. Quanto ao modelo, o ajuste não se deu de forma satisfatória em nenhum dos dois modelos ajustados. Entretanto optou-se pelo modelo paramétrico

Referências

Documentos relacionados

Para completar essa investida, de compreensão em relação às abordagens sobre memória organizacional, realizamos uma pesquisa entre os trabalhos apresentados

A novel high-performance liquid chromatography-diode array detection method based on microextraction by packed sorbent (MEPS) as a sample preparation approach is described for

3.40 Evolução da velocidade: à esquerda encontra-se a solução exata de referência e à direita a solução obtida pelo Método de Godunov com o resolucionador de problemas de

A Figura 23 apresenta os espectros de absorvância dos dois filmes produzidos nesse trabalho, contendo nanopartículas de ouro reduzidas com citrato de sódio (NPs Au

Com esse foco, na década de 60 os japoneses desenvolveram a idéia denominada Controle de qualidade total CQT, que nos anos 80 evoluiu para o Controle da Qualidade em toda a empresa,

Ainda que toda pesquisa seja composta por múltiplos interlocutores, acaba-se por hierarquizar e justificar a escolha tomada frente a ou dentro das múltiplas e potencialmente

The effect of WSMoL and cMoL on protease, trypsin-like and α-amylase activities from gut of Rockfeller and Rec-R L 4 was evaluated since it has been reported that lectins may

O Projeto de Lei nº 7.639, de 2010, de que trata o presente artigo pretende, a rigor, agregar em uma única normatização as instituições comunitárias de educação superior,