• Nenhum resultado encontrado

Estado da Arte

No documento José Miguel Mota e Cunha (páginas 34-44)

Neste capítulo, serão descritas inúmeras plataformas web existentes capazes de fazer a previsão do valor e fiabilidade de automóveis, de modo a perceber o que já foi feito e o que pode ser melhorado.

Alguns exemplos de plataformas web que utilizam análises estatísticas para prever o valor de um determinado automóvel são a Kelley Blue Book [30], volantesic [31], autouncle [32], entre outros. Estas plataformas também serão descritas com maior detalhe neste capítulo. Em relação ao cálculo da fiabilidade de um automóvel, irão ser abordados dois métodos, o Vehicle Dependability Study [33] e o Reliability index [34].

Posto isso, serão abordadas duas plataformas cuja função consiste em fornecer ao uti-lizador informações de um determinado automóvel através do seu Vehicle Identification Number (VIN). As plataformas a serem abordadas são denominadas por autoDNA [35] e VINCheckInfo [36].

Por fim, serão também abordadas técnicas de aprendizagem computacional na previsão do valor de um automóvel, de modo a entender quais as características dos automóveis mais utilizadas nessa abordagem, e quais os algoritmos mais comuns e que obtêm melhores resultados.

3.1 Plataformas Web Existentes

Neste capítulo, será feita uma análise das duas plataformas web existentes mais conheci-das e completas, capazes de prever o valor de automóveis. Serão também descritas duas plataformas que classificam os automóveis em relação à sua fiabilidade de modo a abordar os dois índices de fiabilidade mais utilizados.

3.1.1 Kelley Blue Book

Desde 1926, o Kelley Blue Book (KBB) [30] é um dos nomes mais confiáveis da indústria automobilística.

Na sua plataforma web é possível consultar o preço de praticamente todos os automóveis existentes novos ou usados, a sua compra e venda, comparar dois deles, e ainda encontrar notícias e listas top 10 para se manter informado sobre o mundo automóvel.

Capítulo 3

Figura 3.1: Formulário para avaliar um automóvel na KBB [30].

Para obter uma avaliação de um automóvel, é necessário escolher diversas características do mesmo através do formulário da figura 3.1. Posto isso, é apresentado ao utilizador um intervalo de valores referentes ao automóvel avaliado.

Esses valores são determinados por um algoritmo criado pela KBB, que começa com uma análise completa de todos os dados recolhidos no próprio site, juntamente com tendências históricas, condições económicas atuais, desenvolvimentos do setor, sazonalidade e localiza-ção. Posto isto, os valores resultantes refletem a representação mais atual de um mercado em mudança.

A localização pode ser escolhida na última opção do formulário da figura 3.1, sendo uma vantagem da plataforma, dado que os preços dos automóveis variam significativamente com o local onde se encontram.

Na figura 3.2 podemos observar um exemplo da classificação de um automóvel na plata-forma KBB. Com esta classificação é disponibilizado um intervalo de valores que o auto-móvel pode ter e o valor tipicamente listado nos anúncios.

Em Portugal, a Volantesic [31] iniciou uma parceria com o KBB, mantendo praticamente todas as características, mudando apenas o visual.

Uma desvantagem destas plataformas, é o facto de os dados usados para a avaliação serem os anúncios das próprias plataformas, não havendo assim uma diversificação do mercado, podendo induzir o utilizador em erro com uma má avaliação.

3.1.2 Autouncle

A Autouncle [32] consiste numa plataforma web focada na compra e venda de automóveis. Porém, para facilitar os utilizadores na hora de escolher um valor na venda do seu auto-móvel, a Autouncle desenvolveu uma ferramenta para estimar um valor do automóvel a ser vendido.

Estado da Arte

Figura 3.2: Resultado de uma avaliação na KBB [30] .

Essa ferramenta consiste numa comparação estatística entre o automóvel a ser avaliado e automóveis que são semelhantes em preço, ano, quilometragem e equipamentos, sendo comparados em média em 100 características diferentes em cada carro.

Figura 3.3: Formulário para avaliar um automóvel na Autouncle [32].

Depois de escolher as características do automóvel através do formulário presente na figura 3.3, é possível receber o resultado por email ou ver directamente na página.

Capítulo 3

Esse resultado consiste num ficheiro com as diferentes características do automóvel, um valor intermédio para o mesmo, e uma tabela com intervalos de valores classificados como super preço, bom preço, preço justo, preço elevado e caro, como podemos ver na figura 3.4 A Autouncle partilha com a KBB a desvantagem de usar somente os dados da própria plataforma.

3.1.3 Vehicle Dependability Study

Vehicle Dependability Study (VDS) [33] consiste num estudo feito pela Global Automotive at J.D. Power de modo a calcular a fiabilidade de um automóvel.

Esse estudo passa por calcular o número de avarias que ocorreram nos últimos 12 meses em 100 automóveis com 3 anos. Ou seja, no estudo de 2019, os automóveis a teste foram modelos de 2016.

Posto isto, uma pontuação mais baixa, reflete um menor número de problemas, logo uma maior fiabilidade do automóvel.

Como os automóveis testados possuem sempre 3 anos, isso faz com que os automóveis com idades diferentes tenham de ser classificados com base nessa idade, fazendo uma classificação errada, pois um automóvel com 10 anos não terá a mesma fiabilidade de um automóvel com 3 anos.

Figura 3.5: Ranking da VDS de 2019 [33].

Na figura 3.5 podemos consultar as primeiras marcas presentes no ranking de 2019 feito pela VDS, onde a Lexus encontra se em primeiro lugar com 106 de pontuação.

3.1.4 Índice de Fiabilidade

O índice de fiabilidade [34] é um estilo comercial da Warranty Direct, uma marca do BNP Paribas Cardif e tem como finalidade classificar a fiabilidade de um automóvel.

O valor do índice de fiabilidade é calculado através do número de vezes que um carro falha, 20

Estado da Arte do custo de repará-lo, da quantidade média de tempo que passa fora da estrada devido a reparos, da idade e da quilometragem média do automóvel.

De modo a manter a integridade do índice, são usados no mínimo 50 automóveis na reali-zação do cálculo do índice de fiabilidade.

Tal como no VDS, a melhor classificação é a classificação com o menor valor.

Figura 3.6: Formulário da plataforma reliabilityindex [34].

Uma plataforma web que usa o índice de fiabilidade como medida é a reliabilityindex, onde é possível fazer uma pesquisa pela marca e modelo de um automóvel com o preenchimento do formulário presente na figura 3.6.

Figura 3.7: Resultado da plataforma reliabilityindex [34].

Como resultado, a plataforma devolve o índice de fiabilidade e uma média do custo das reparações do automóvel, como se pode ver no exemplo da figura 3.7. É possível também encontrar uma tabela com a probabilidade de uma determinada peça ter um problema. Por outro lado, um problema existente nesta plataforma é a falta da possibilidade de escolha do ano do automóvel, sendo só possível escolher um intervalo de tempo demasiado grande para o mercado automóvel. No exemplo da figura 3.7, podemos verificar que o intervalo mais recente é o de 2003 até 2019.

Capítulo 3

3.1.5 AutoDNA e VINCheck

A AutoDNA [35] e a VINCheck [36] são plataformas online que permitem ao utilizador ter acesso a um relatório completo de um determinado automóvel através do seu VIN. Em termos gerais, as duas plataformas são semelhantes, sendo possível obter características do automóvel como marca, modelo e ano até informações mais detalhadas como uma lista de equipamentos disponíveis. É também possível obter o histórico de vendas, registo de acidentes e fotografias do automóvel.

Apesar das várias semelhanças referidas anteriormente, a AutoDNA destaca-se por duas razões. A primeira, é a possibilidade de acesso à contagem dos quilómetros do automóvel e a respetiva data em que foi registado esse valor, permitindo verificar se em algum momento esses valores foram adulterados ou não. A segunda, é o acesso a uma base de dados de carros roubados, onde é possível verificar se o automóvel em questão foi dado como roubado, de modo a evitar a compra de um automóvel furtado.

Por outro lado, a VINCkeck tem a vantagem de ser grátis, ao contrário da AutoDNA, em que só é possível obter o relatório depois de efetuar um pagamento com um valor entre os 10 e os 30 euros.

Dados estes factos, é possível concluir que o acesso a este tipo de informações pode ser muito vantajoso, principalmente na hora de comprar um automóvel usado, porém, ainda não é possível obter um histórico completo e detalhado sobre manutenções e avarias de um automóvel em particular, de modo a possibilitar uma melhor análise dos acontecimentos ocorridos durante a vida útil de um determinado automóvel.

3.2 Previsão do Valor de Automóveis com Aprendizagem

Com-putacional

Neste sub-capítulo, irão ser abordadas técnicas de aprendizagem computacional usadas para prever o valor de automóveis usados.

Serão abordados temas como os dados e algoritmos utilizados nas abordagem descritas, analisando os resultados de modo a perceber quais as melhores abordagens, e a entender o que pode ser feito para melhorar os mesmos.

Em [37], o autor utilizou cinco modelos de aprendizagem computacional de forma a ten-tar prever o valor de automóveis usados. Para isso, o autor utilizou um dataset público disponível no website kaggle [38].

Inicialmente, o autor de [37] começou por limpar os dados, com a remoção de automóveis repetidos, com valores inferiores a 100$ e superiores a 100.000$ e por último, descartando automóveis com quilometragem inferior a 10 milhas e superiores a 300.000 milhas. Com este processo, o dataset inicial de 1.500.000 de linhas passou para aproximadamente 400.000 linhas. Posto isto, foi feita uma análise exploratória onde foi descoberto que os compradores têm preferência por automóveis com transmissão automática e que a condição do veículo tem bastante impacto no preço. Através do recurso à estatística, o autor provou a forte correlação da quilometragem com o preço do automóvel. Por fim, foi feito label encoding e aplicado min max para normalizar os valores do dataset numa determinada escala. Com o tratamento dos dados concluído, o autor de [37] procedeu à realização dos testes de modo a perceber qual o modelo com os melhores resultados. Para a realização dos

Estado da Arte testes, o autor dividiu o dataset em duas partes, 80% para treino e 20% para teste, e fez a comparação dos resultados obtidos com o modelo Random Forest, Ridge Regression, Lasso, Knn e xgboost. Segundo o autor, o melhor resultado foi obtido com o uso de Random Forest, obtendo um erro médio absoluto de 2.123. Esse valor foi melhorado para 2048 através do cálculo da variable importances, seguido da cumulative importance. Posto isso foram escolhidas 7 features que representam 90% de cumulative importance, sendo elas o ano, quilometragem, marca, tipo de tração, combustível, fabricante e cilindros.

Em [39], o autor tem como foco principal a previsão de preços de automóveis através do uso de Random forest. Semelhante ao artigo referido anteriormente, o autor utilizou um dataset público disponível no Kaggle [38], que por sua vez foi gerado a partir de scraping de anúncios de automóveis anunciados no ebay alemão [40]. O dataset é constituído por 370.000 carros usados e foi feito label encoding, remoção de valores nulos e outliers. Depois dos dados tratados, o autor de [39] realizou os testes para validar o modelo. Para encontrar o melhor número de decision trees foi utilizado grid search, chegando ao valor de 500. Para o max number features o utilizador usou o número de features existentes

no dataset (10). Com a utilização de cross validation o autor chegou ao resultado de r2

próximo de 84% com este modelo.

Em [41], o autor tinha como objetivo a criação de um website onde fosse possível ao utilizador prever o valor do seu automóvel. Para cumprir tal objetivo, o autor começou por recolher dados em vários websites de venda de automóveis com o uso de scraping. Depois de normalizar os dados recolhidos dos diversos websites, o dataset ficou constituído por 7 features, ano, marca, modelo, combustível, transmissão, quilometragem e o preço. Posto isto, o autor de [41] dividiu o dataset em duas partes, 70% para treino e 30% para teste, e registou os resultados dos testes com 3 modelos, Gradient Boosting, SVM e Naive Bayes. Segundo o autor, o melhor resultado foi obtido com o modelo Gradient Boosting obtendo um erro médio absoluto de 5%. Apesar de ser um erro bastante baixo, ao longo do artigo não é feita referência à quantidade de dados utilizados, o que pode resultar em overfitting no caso do dataset utilizado ter uma baixa dimensão.

Semelhante ao artigo citado anteriormente, em [42], o autor começou por recolher dados de anúncios de veículos à venda online em diversos websites ao longo de um mês. Com este processo foram recolhidos somente 200 anúncios de carros com 10 features, tais como ano, fabricante, marca, cilindrada, cor, tipo, transmissão, quilometragem e preço.

Apesar do dataset ser bastante pequeno, a abordagem utilizada em [42] distingue-se de todos os artigos referidos anteriormente pelo facto de utilizar uma rede neuronal. A rede desenhada pelo autor é constituída por uma camada de input com 10 neurônios, uma camada escondida com 2 neurônios, e por fim, a camada de output com um neurónio. De modo a testar esta rede neuronal, o autor utilizou cross validation com K Fold de 10. Segundo o mesmo, o erro médio absoluto obtido foi menor que 10% à semelhança do que foi obtido com o uso de Linear Regression e SVM.

Contrariamente às abordagens referidas anteriormente, onde todas utilizaram regressão para prever o valor de um automóvel, em [43], o autor tentou utilizar classificação de modo a prever o intervalo de preço a que um automóvel se encontra.

Inicialmente o autor de [43] recolheu dados de anúncios de automóveis online, que depois de processados, possuíam 800 carros e um total de nove features. Posto isso, foram criadas 13 categorias baseados nos preços dos automóveis.

Capítulo 3

para treino e 10% para teste, de modo a verificar o desempenho de três modelos, Random Forest, Knn e SVM. Segundo ao autor, o melhor resultado foi com a utilização de SVM com uma accuracy de 48%.

Devido aos maus resultados obtidos, o autor decidiu utilizar somente 3 classes, barato, médio e caro. Foram considerados automóveis baratos, os que possuíam valores entre 0 e 12000, médios com valores de 12000 e 24000, e caros os que possuíam valores superiores a 24000. Feitos novamente os testes, foi obtida uma accuracy próxima de 89%.

Apesar da accuracy ser relativamente alta, o intervalo do valor do automóvel também o era. Posto isso, o autor criou 3 novos modelos para classificar a que metade da classe pertence, isto é, no caso de um automóvel ser classificado como médio, o automóvel é classificado novamente de modo a classificar se o valor do carros é compreendido entre 12000 e 18000 ou entre 18000 e 24000, reduzindo assim o intervalo do valor do automóvel para metade. Os 3 novos modelos foram testados e, segundo o autor, a média da accuracy obtida nos 3 testes foi de aproximadamente 85%.

Além dos artigos referidos em cima, foram estudados outros, porém, não foram citados pelo facto de terem abordagens muito semelhantes às já referidas, ou por utilizarem datasets demasiados pequenos, não acrescentando assim valor a esta análise.

3.3 Conclusões

Como foi referido anteriormente, existe uma grande dificuldade em encontrar uma plata-forma em que seja possível avaliar um automóvel com elevada precisão, e que apresente uma possível evolução do preço ao longo do tempo.

Em termos gerais, as plataformas de avaliação de automóveis baseiam-se principalmente na comparação direta dos automóveis encontrados nas próprias plataformas de venda online usando métodos probabilísticos.

Uma melhoria da plataforma a desenvolver face a essas plataformas, é o uso de aprendiza-gem computacional que, como podemos ver no capítulo 3.2, é uma boa opção dado os bons resultados obtidos, melhorando a avaliação em relação às plataformas já existentes. Outra melhoria em relação as plataforma existentes, é o facto desta nova plataforma apresentar uma possível evolução do preço ao longo do tempo, algo que não acontece nas diversas plataformas existentes.

Para o desenvolvimento de um histórico individual de automóveis, onde é possível armaze-nar todos os eventos de um determinado automóvel, como manutenções, avarias, acidentes e trocas de proprietário, será utilizada uma Ledger Database. A criação deste histórico individual faz com que seja possível dificultar as fraudes, tais como a omissão de acidentes, manutenções em falta ou alteração do número de quilómetros do automóvel, aumentando a confiança na hora da compra ou venda do mesmo. Permite também uma melhoria signifi-cativa em relação às plataforma referidas em 3.1.5, gerando um histórico de um automóvel substancialmente mais completo.

Ao analisar as plataformas existentes referentes à fiabilidade de um automóvel, é visível que são demasiado minimalistas, em que um dos principais problemas das plataformas referidas em 3.1.3 e em 3.1.4, é o facto de o utilizador só poder escolher características como a marca e modelo do automóvel, deixando de parte características importantes como a idade e a quilometragem. Essa falta de opções faz com que a avaliação seja feita principalmente com

Estado da Arte base na marca e no modelo, e não sobre o automóvel em particular, fazendo com que a avaliação seja demasiado genérica.

Com a implementação do histórico individual de automóveis será possível armazenar dados de modo a possibilitar o cálculo da fiabilidade de um determinado automóvel, não só pela marca e modelo, mas também por todo o seu percurso, desde manutenções, avarias e quilometragem, tornando assim a avaliação mais independente da marca e modelo, e mais dependente da utilização do automóvel.

Devido ao maior número de dados armazenados sobre um determinado automóvel, o uti-lizador terá acesso a um vasto conjunto de dados e a uma maior precisão na avaliação da fiabilidade, permitindo que na hora de comprar um automóvel usado, tenha uma maior fa-cilidade em perceber se é uma boa escolha ou não, sabendo à partida se será um automóvel em que pode confiar ou que é propenso a futuros problemas.

Capítulo 4

No documento José Miguel Mota e Cunha (páginas 34-44)

Documentos relacionados