Universidade Federal do Paran´
a
Curso Estat´ıstica
Regress˜
ao para dados bin´
arios:
silhuetas de ve´ıculos
Jos´
e Paulo Miketen Maltaca GRR 20170396
Let´ıcia Vieira da Rocha GRR 20160221
Patr´ıcia Renata Diez GRR 20170392
Novembro de 2019
Conte´
udo
1 Resumo 2
2 Introdu¸c˜ao 2
3 Material e M´etodos 2
3.1 Dados . . . 2
3.2 An´alise Descritiva . . . 4
3.3 Modelo Linear Generalizado . . . 4
3.4 Sele¸c˜ao de Covari´aveis . . . 5
3.5 Poder Preditivo do Modelo . . . 5
4 Resultados e Discuss˜ao 6 4.1 An´alise Explorat´oria . . . 6
4.2 Ajuste do Modelo . . . 6
4.3 Predi¸c˜ao do Modelo . . . 8
5 Conclus˜ao 9
1
Resumo
Este trabalho almejou a ajustar um modelo para predizer, a partir de silhuetas de ve´ıculos, se eles correspondiam ou n˜ao a um ˆonibus. A base de dados contou com 18 vari´aveis de 846 observa¸c˜oes, e apresentaram forte colinearidade. Com vistas a tratar do problema, utilizaram-se o m´etodo dos compo-nentes principais (Mpca) e um modelo baseado no m´etodo stepwise (Mstep). Ambos se adequaram ao diagn´ostico de ajuste do modelo linear generalizado (GLM), mas o poder preditivo do primeiro modelo foi maior, n˜ao obstante a menor interpretabilidade dos parˆametros. Ambos n˜ao apresentaram problemas de diagn´ostico de ajuste, mas a variˆancia continuou inflacionada no modelo Mstep. Verificou-se tamb´em que alguns dos componentes foram dominados por vari´aveis que n˜ao foram significativas no modelo sa-turado, o que explica a falta de significˆancia do primeiro componente principal. O modelo escolhido para a realiza¸c˜ao das predi¸c˜oes foi o Mpca, o qual apresentou as caracter´ısticas adequadas como preditor.
2
Introdu¸
c˜
ao
O aprendizado de m´aquina (machine learning) ´e o processo pelo qual os computadores desenvolvem o reconhecimento de padr˜oes a partir de dados. Esse processo cria uma certa independˆencia para as m´aquinas, as quais a partir dos dados conseguem automatizar a constru¸c˜ao de modelos anal´ıticos e fazer ajustes sem terem sido explicitamente programadas para tanto. Bastante em voga no momento, o aprendizado de m´aquina vem sendo aperfei¸coado continuamente.
A base de dados sob an´alise nesse trabalho foi constru´ıda originalmente por J.P.Siebert entre os anos de 1986 e 1987 e parcialmente financiada pela Barr and Strout Ltd, uma empresa do Reino Unido pioneira na ´area de engenharia ´otica. Intitulada “Vehicle Silhouette” (silhueta de ve´ıculos) essa base de dados usada em aprendizado de m´aquina teve como principal objetivo estabelecer um m´etodo de distin¸c˜ao de objetos 3D a partir de uma imagem 2D. Assim, a partir de imagens 2D dos ve´ıculos algumas medidas caracter´ısticas de suas silhuetas foram armazenadas e ent˜ao foi constru´ıda uma ´arvore de decis˜ao por meio da qual o computador pode classificar a imagem em um dos seguintes ve´ıculos: ˆOnibus Duplo Deck, Van Chevrolet, Saab 9000 e Manta 400.
As caracter´ısticas das silhuetas dos ve´ıculos foram extra´ıdas pelo Sistema de Processamento de Ima-gens Hier´arquicas (HIPS) BINATTS capaz de extrair uma combina¸c˜ao de caracter´ısticas independentes de escala, usando medidas baseadas em variˆancia escalada, assimetria, curtose e medidas heur´ısticas, tais como: cavidades, circularidade, “retangularidade” e compacidade.
As imagens foram obtidas por uma cˆamera olhando para baixo no modelo de ve´ıculo a partir de um ˆangulo fixo de eleva¸c˜ao (34,2 graus em rela¸c˜ao `a horizontal). Os ve´ıculos foram colocados em uma superf´ıcie iluminada difusa (caixa de luz) e pintados de preto fosco para minimizar os destaques. As imagens foram capturadas usando um armazenamento de quadros CRS4000 conectado a um vax 750. Todas as imagens foram capturadas com uma resolu¸c˜ao espacial de 128x128 pixels quantificada para 64 n´ıveis de cinza. Essas imagens foram limiarizadas para produzir silhuetas bin´arias de ve´ıculos, negadas (para atender aos requisitos de processamento do BINATTS) e, posteriormente, submetidas a m´odulo HIPS para remover o ru´ıdo da imagem.
O presente trabalho teve como objetivo ajustar um modelo linear generalizado para dados bin´arios capaz de classificar o input das informa¸c˜oes de silhuetas de ve´ıculos como “ ˆOnibus” ou “N˜ao ˆOnibus” a partir das covari´aveis: compacidade, circularidade, distˆancia de circularidade, raz˜ao do raio, raz˜ao de aspecto dos eixos principal e menor, m´aximo comprimento da raz˜ao de aspecto dos eixos principal e menor, raz˜ao de dispers˜ao, “alongamento”, “retangularidade” dos eixos, m´aximo comprimento da “retangularidade” , variˆancias escaladas dos eixos principal e menor, raio de rota¸c˜ao escalado, curtoses sobre eixos principal e menor, assimetria dos eixos principal e menor e raz˜ao de cavidade.
3
Material e M´
etodos
3.1
Dados
Dispon´ıvel para acesso livre, a base de dados Vehicle Silhouette foi retirada do dom´ınio “mldata.io”, site que re´une diferentes bases de dados para aplica¸c˜oes de machine learning. Originalmente a base re´une 846 observa¸c˜oes e 19 vari´aveis. Para constru¸c˜ao do modelo bin´ario foi adicionada `a base a seguinte vari´avel resposta:
• Bus: vari´avel bin´aria, assume valor 1 se a silhueta do ve´ıculo corresponde `a de um ˆonibus ou 0 caso contr´ario.
A vari´avel acima foi baseada na seguinte vari´avel presente na base:
• Vehicle class: vari´avel qualitativa categ´orica de 4 n´ıveis. Realizada a transforma¸c˜ao para torn´a-la bin´aria “Bus”, direcionada para silhueta tipo Bus, assumindo o valor 1 se o ve´ıculo corresponder `a de um ˆonibus ou 0 caso contr´ario.
A seguir s˜ao apresentadas as covari´aveis do modelo saturado:
• Compactness: vari´avel cont´ınua, referente `a compacidade assume o valor resultante da f´ormula (per´ımetro m´edio )2/´area.
• Circularity: vari´avel cont´ınua, referente `a circularidade assume o valor resultante da f´ormula (raio m´edio)2/´area
• Distance circularity: vari´avel cont´ınua, referente `a distˆancia de circularidade assume o valor resul-tante da f´ormula ´area/(distˆancia m´edia da borda)2
• Radius ratio: vari´avel cont´ınua, referente `a raz˜ao do raio assume o valor resultante da f´ormula (raio m´aximo − raio m´ınimo)/raio m´edio.
• Pr.axis aspect ratio: vari´avel cont´ınua, referente `a raz˜ao do aspecto do eixo principal assume o valor resultante da f´ormula (eixo menor)/(eixo principal)
• Max.length aspect ratio: vari´avel cont´ınua, referente ao m´aximo comprimento do raio assume o valor resultante da f´ormula (comprimento perpendicular ao m´aximo comprimento)/(m´aximo com-primento)
• Scatter ratio: vari´avel cont´ınua, referente raz˜ao de dispers˜ao assume o valor resultante da f´ormula (in´ercia sobre o eixo menor)/(in´ercia sobre o eixo principal)
• Elongatedness: vari´avel cont´ınua, referente ao “alongamento” assume o valor resultante da f´ormula ´
area/(largura “encolhida”)2
• Pr.axis rectangularity: vari´avel cont´ınua, referente `a “retangularidade” do eixo principal assume o valor resultante da f´ormula ´area/(comprimento pr.eixo * largura pr.eixo)
• Max length rectangularity: vari´avel cont´ınua, referente `a “retangularidade” do comprimento m´aximo assume o valor resultante da f´ormula ´area / (comprimento m´aximo*comprimento perpendicular) • Scaled variance along major axis: vari´avel cont´ınua, referente `a variˆancia escalada ao longo do eixo
principal assume o valor resultante da f´ormula (segundo momento sobre menor eixo)/´area. • Scaled variance along minor axis : vari´avel cont´ınua, referente `a variˆancia escalada ao longo do
menor eixo assume o valor resultante da f´ormula (segundo momento sobre eixo principal)/´area. • Scaled radius of gyration: vari´avel cont´ınua, referente ao raio de rota¸c˜ao escalado assume o valor
resultante da f´ormula (mavar+mivar)/´area.
• Skewness about major axis: vari´avel cont´ınua, referente `a assimetria o eixo principal assume o valor resultante da f´ormula (terceiro momento sobre o eixo principal)/σ3
min.
• Skewness about minor axis: vari´avel cont´ınua, referente `a assimetria o menor eixo assume o valor resultante da f´ormula (terceiro momento sobre o menor eixo)/σ3
maj.
• Kurtosis about minor axis: vari´avel cont´ınua, referente `a curtose do menor eixo assume o valor resultante da f´ormula (quarto momento sobro eixo principal)/σ4
min.
• Kurtosis about major axis: vari´avel cont´ınua, referente `a curtose do eixo principal assume o valor resultante da f´ormula (quarto momento sobre o menor eixo)/σ4
maj.
• Hollows ratio: vari´avel cont´ınua, referente `a raz˜ao de cavidades assume o valor resultante da f´ormula (´area das cavidades)/(´area delimitada do pol´ıgono).
3.2
An´
alise Descritiva
Das 846 observa¸c˜oes 628 (74,23 % do total de ve´ıculos) n˜ao eram referentes a silhuetas de ˆonibus (ou seja, eram ou de uma Van Chevrolet, ou de um Saab 9000, ou ent˜ao de um Monta 400), enquanto que as demais 218 (25,77% do total de ve´ıculos) silhuetas identificavam um ˆonibus duplo deck. Entre as medidas das covari´aveis n˜ao h´a incompatibilidade de escala. A figura 1 mostra o boxplot de cada uma delas, verifica-se que os menores valores observados s˜ao das covari´aveis “skewness minor axis” e “kurto-sis minor axis” (valor m´ınimo = 0 unidade de medida), e que a maior m´edia (422 unidades de medida) e o maior valor observado (1028 unidades de medida) pertencem `a covari´avel “scaled variance minor axis”, al´em disso as covari´aveis “radius ratio”,”pr axis aspect ratio”,”max length aspect ratio” apresentam trˆes ou mais pontos extremos.
Figura 1: Boxplot das vari´aveis presentes na base
3.3
Modelo Linear Generalizado
Conforme elencado anteriormente, a vari´avel resposta neste estudo foi a Vehicle class “Bus” a qual assume valor bin´ario 1 quando a silhueta do ve´ıculo modelo for “Bus” e 0 quando n˜ao. Desta forma, devido `a natureza dos dados da vari´avel resposta, o m´etodo de Modelos Lineares Generalizados (MLG) fez-se necess´ario para uma modelagem que descrevesse bem o processo gerador dos valores observados.
Segundo Paula (2013), a ideia b´asica quanto `a utiliza¸c˜ao deste m´etodo consiste em ampliar as op¸c˜oes para a distribui¸c˜ao da vari´avel resposta de modo a permitir que ela perten¸ca `a fam´ılia exponencial de distribui¸c˜oes e ainda proporcionar maior flexibilidade para a rela¸c˜ao funcional entre a m´edia da vari´avel resposta e o preditor linear η. O modelo proposto considerou a distribui¸c˜ao binomial para a vari´avel resposta, as vari´aveis explanat´orias na forma de uma estrutura linear, e a fun¸c˜ao de liga¸c˜ao do tipo logito ln(µ/(1 − µ)), que une as vari´aveis, sendo o µ a propor¸c˜ao esperada de sucessos. Assim, a defini¸c˜ao do modelo fica dada por:
Yi/Xi∼ Binomial(µ, πi), i = 1, 2, . . . , n
Onde πi, ´e a probabilidade de ocorrˆencia (sucesso) de Yi e Xios vetores de covari´aveis associados `as
observa¸c˜oes. A especifica¸c˜ao do MLG ´e dada por:
g(πi) = ηi= β0+ β1xi1+ · · · + βpxip
3.4
Sele¸
c˜
ao de Covari´
aveis
Para realizar a sele¸c˜ao de covari´aveis do preditor linear do modelo foram utilizados os M´etodos Stepwise combinados com a Regulariza¸c˜ao Lasso, e o modelo baseado em An´alise de Componentes Principais, o que resultou em dois diferentes modelos.
O M´etodo Stepwise combina os m´etodos Backward e Forward : enquanto este inicia com o algoritmo com o modelo restrito e insere as vari´aveis sequencialmente que melhor se ajustam ao modelo, aquele inicia o modelo com todos os termos e seleciona para exclus˜ao o de menor contribui¸c˜ao para o ajuste proposto. No caso do stepwise, o algoritmo inicia com o modelo saturado e, a cada exclus˜ao, ´e analisada e verificada a possibilidade de inclus˜ao dos termos exclu´ıdos anteriormente, de modo que realiza todas as poss´ıveis combina¸c˜oes que tornam melhor o ajuste do modelo. Finaliza-se o processo quando n˜ao h´a mais possibilidade de inclus˜ao de termos exclu´ıdos pois nenhum possui for¸ca suficiente para entrar e nenhum outro para sair.
Neste estudo, a sele¸c˜ao de covari´aveis pelo stepwise foi baseada no Crit´erio BIC, que penaliza mais fortemente modelos mais complexos, possuindo o modelo final o menor BIC:
BIC = −2 ˆI + ln(n) ∗ p
Onde ˆI ´e o valor de log-verossimilhan¸ca maximizado, p ´e n´umero de parˆametros do modelo e n o n´umero de observa¸c˜oes da amostra.
O M´etodo de Regulariza¸c˜ao Lasso tem por objetivo ajustar o modelo de modo que as estimativas dos parˆametros sejam regularizadas em dire¸c˜ao a zero, ou seja, produz estimativas com menor variˆancia. Tamb´em usado quando h´a problemas de multicolinearidade, este m´etodo ´e baseado em penaliza¸c˜ao de primeira ordem e busca minimizar a seguinte fun¸c˜ao:
−1 n n X i=1 I(yi, β0+ x0iβ) + λ[(1 − α)||β||2+ α||β||1]
Sendo Lasso α = 1, temos a equa¸c˜ao equivalente a:
−1 n n X i=1 I(yi, β0+ x0iβ) + λ p X j=1 |βj|, λ ≥ 0
O parˆametro λ controla a intensidade da penaliza¸c˜ao. Para escolha de λ ´otimo foi realizado o processo de valida¸c˜ao cruzada de modo que identificasse o valor que produzisse menor erro quadr´atico m´edio. Quando λ = 0, n˜ao h´a efeito o termo de penaliza¸c˜ao, e as estimativas correspondem a m´axima verossimilhan¸ca, j´a quando λ → ∞, o termo ser´a t˜ao forte que as estimativas ficar˜ao pr´oximas de zero.
Al´em da sele¸c˜ao de covari´aveis, o estudo analisou e comparou entre as fun¸c˜oes de liga¸c˜ao Logito, Probito, Cauchy e Complemento Log-Log, a que fosse mais adequada, tendo por base a liga¸c˜ao que oferecesse o menor valor pelo Crit´erio BIC. Para o segundo modelo, foi empregada a An´alise de Compo-nentes Principais (PCA), a qual ´e uma t´ecnica multivariada que tem por objetivo obter um conjunto de novas covari´aveis, a partir das vari´aveis originais, de modo que um reduzido n´umero de novas vari´aveis possam ter capacidade de explanar a varia¸c˜ao dos dados. Este novo conjunto de vari´aveis s˜ao tais que o primeiro ´e aquele capaz de explicar a maior parte da varia¸c˜ao, o segundo explica a maior parte n˜ao explicada pelo primeiro, e assim sucessivamente.
Por fim, atrav´es dos gr´aficos de res´ıduos quant´ılicos aleatorizados e de Half-Normal Plots com enve-lopes simulados foi verificado o diagn´ostico de ajuste dos modelos.
3.5
Poder Preditivo do Modelo
Para a avalia¸c˜ao do poder preditivo dos modelos propostos, foi separada aleatoriamente em duas partes, uma por¸c˜ao dos dados para o ajuste e outra para a valida¸c˜ao. Estes ´ultimos foram usados para avaliar a predi¸c˜ao dos modelos. Para medir essa predi¸c˜ao foi usada a Curva ROC. Ela possibilita que seja analisado o poder preditivo associado a diferentes regras de decis˜ao por valores p0, permitindo ainda
que seja verificado conjuntamente a sensibilidade e especificidade para os valores de p0. Quanto mais
4
Resultados e Discuss˜
ao
4.1
An´
alise Explorat´
oria
A an´alise prim´aria da base de dados, que consiste de 18 vari´aveis, necessitou da redu¸c˜ao de sua dimens˜ao. Ap´os os processos de sele¸c˜ao Stepwise, chegaram-se a dez vari´aveis, descritas na tabela 1. Na an´alise dos boxplots (figura 1), pode-se notar uma dispers˜ao acentuada nas vari´aveis ”skew-ness major axis”, ”pr axis aspect ratio”e ””max length aspect ratio”. Antes da realiza¸c˜ao da an´alise, foi necess´aria a convers˜ao da vari´avel denotando os ve´ıculos como um fator de dois n´ıveis. Estes n´ıveis indicavam se o ve´ıculo era um ˆonibus ou n˜ao − escolheu-se o ˆonibus em rela¸c˜ao aos demais ve´ıculos em fun¸c˜ao de possuir maior frequˆencia dentre os quatro.
4.2
Ajuste do Modelo
N˜ao houve necessidade de transforma¸c˜ao das vari´aveis, sendo que os resultados do modelo log-linearizado saturado se assemelharam aos resultados do modelo saturado com as vari´aveis em n´ıvel. Foram testadas combina¸c˜oes quadr´aticas e elementos de intera¸c˜ao entre as vari´aveis, e o modelo linear se ajustou melhor em rela¸c˜ao aos demais. O fatores de infla¸c˜ao da variˆancia (VIFs) apontaram forte multicolinearidade. Como tentativa de corre¸c˜ao do problema, foi utilizado o m´etodo de regulariza¸c˜ao lasso. A regress˜ao oriunda dos procedimentos resultou em um baixo valor de ˆλ e apontou a retirada de duas vari´aveis1. Os coeficientes associados `as vari´aveis na regress˜ao lasso apresentaram valor similar aos
apresentados no modelo saturado, o que levou `a tentativa de regulariza¸c˜ao e sele¸c˜ao das vari´aveis por meio do procedimento Stepwise e an´alise por componentes principais.
Em rela¸c˜ao ao primeiro caso, realizou-se a sele¸c˜ao por meio do algoritmo Step, por meio de duas regress˜oes: forward e backward, utlizando-se o crit´erio Bayesiano de Schwarz (BIC). Dentre os dois modelos, o backward apresentou menor valor de BIC, resultando em um modelo com dez covari´aveis. Posteriormente, foi selecionada a fun¸c˜ao de liga¸c˜ao que apresentou menor valor pelo crit´erio de Schwarz, selecionando-se a fun¸c˜ao logito2. As vari´aveis selecionadas ainda apresentaram fator de variˆancia
infla-cionado. A remo¸c˜ao daquelas com maiores VIFs aumentou muito o erro, fazendo com que os pontos denotando os res´ıduos em fun¸c˜ao dos quantis te´oricos excedessem demasiadamente os envelopes de con-fian¸ca nos half-normal plots.
A solu¸c˜ao encontrada foi remover as vari´aveis de maior dispers˜ao, as quais foram skewness major axis, pr axis aspect ratio e max length aspect ratio. A tabela 1 exibe os resultados do modelo de regress˜ao selecionado (Mstep)3:
Tabela 1: Regress˜ao Mstep
Vari´avel Parˆametro Estimado Erro Padr˜ao p-valor Intercepto 25.741839 7.362029 0.000471*** distance circularity -0.343348 0.034572 2e-16*** radius ratio 0.002959 0.009394 0.752797 elongatedness -0.553669 0.066609 2e-16*** scaled radius gyration 0.044982 0.008819 3.38e-07*** skewness minor axis -0.252943 0.040747 5.38e-10*** kurtosis minor axis 0.019031 0.019243 0.322670 kurtosis major axis 0.718355 0.085416 2e-16*** hollows ratio -0.614777 0.071653 2e-16***
Pode-se notar pelos resultados que as vari´aveis ”radius ratio” e ”kurtosis minor axis” n˜ao foram significativas a 1% de significˆancia. A an´alise mostrou que distance circularity, elongatedness, skew-ness minor axis e hollows ratio apresentaram resposta negativa em rela¸c˜ao ao fato de a silhueta ser de um ˆonibus, o que denota que quanto mais ocos a figura tiver, mais assim´etrica for no menor eixo, maior
1As vari´aveis s˜ao ”max length rectangularity”e ”scatter ratio”
2As fun¸c˜oes de liga¸c˜ao logito, probito, cloglog e Cauchy apresentaram valores de 204.74, 207.06, 216.43 e 212.45,
respectivamente
a sua circularidade e mais alongada, menor a chance de ser um ˆonibus. Por outro lado, as vari´aveis ra-dius ratio, scaled rara-dius gyration e kurtosis major axis apresentaram coeficiente positivo, indicando que quanto maior a raz˜ao do raio, maior o raio de rota¸c˜ao escalado e maior a curtose do eixo maior, maior ´e a probabilidade de a vari´avel resposta ser um ˆonibus.
Os Half-normal plots evidenciaram que os res´ıduos encontram-se dentro dos envelopes de confian¸ca estipulados, assim como o fato de que os quantis amostrais seguem uma distribui¸c˜ao normal em rela¸c˜ao aos quantis te´oricos. O teste de Shapiro-Wilk apresentou 0,5735 como p-valor, significando tamb´em a distribui¸c˜ao normal dos res´ıduos.
Apesar de bem ajustado, o modelo ainda sofreu de elevada colinearidade, o que suscitou a utiliza¸c˜ao de uma an´alise de componentes principais como forma de debelar o problema. A figura 2 denota a influˆencia dos componentes, os quais s˜ao combina¸c˜oes lineares das vari´aveis do modelo, j´a ajustados pela sua escala.
Figura 2: An´alise de Componentes Principais
Ap´os sucessivas combina¸c˜oes de componentes, ajustou-se um modelo que melhor se comportou dentro dos half-normal plot, ao mesmo tempo que reduziu a deviance residual. Foram tamb´em realizados testes para verificar qual fun¸c˜ao de liga¸c˜ao mais reduziria o erro pelo crit´erio de Schwarz, sendo que os valores encontrados se assemelharam. Desta forma, com vistas `a possibilidade de compara¸c˜ao dos modelos, optou-se pela fun¸c˜ao de liga¸c˜ao logito. Os resultados encontram-se na tabela 24:
Tabela 2: Regress˜ao Mpca
Vari´avel Parˆametro Estimado Erro Padr˜ao p-valor Intercepto -1.33584 0.09860 2e-16*** CP1 0.03180 0.02777 0.25205 CP2 -0.45905 0.05386 2e-16*** CP3 0.14874 0.05623 0.00816** CP4 0.19134 0.09321 0.04009* CP5 0.78781 0.10548 8.09e-14*** ´
E poss´ıvel verificar que o primeiro componente n˜ao foi significativo, ao passo que CP2, CP5 e o intercepto foram significativos ao n´ıvel de significˆancia de 1%, CP3 foi significativo ao n´ıvel de 5% e CP4 o foi ao n´ıvel de 10%. Isso demonstra que a maior parte das vari´aveis correlacionadas, que detˆem 52% da variˆancia do modelo, n˜ao explicam o regressando. Isso ocorreu porque o primeiro componente ´e dominado pela vari´avel scaled variance minor axis, a qual foi n˜ao se apresentou significativa no modelo saturado.
A figura 3 mostra a qualidade dos ajustes dos dois modelos, denotados por ”Mstep”(modelo ajus-tado com m´etodo stepwise) e ”Mpca”(modelo ajustado pelo m´etodo de componentes principais). A an´alise mostra que possuem res´ıduos totalmente involucrados nos envelopes de confian¸ca, assim como a distribui¸c˜ao dos quantis amostrais seguem uma distribui¸c˜ao normal em rela¸c˜ao aos quantis te´oricos.
Figura 3: Half-normal plots e qqplots dos modelos
Como o modelo Mstep ainda apresentou fator de infla¸c˜ao de variˆancia elevado, utilizou-se somente o modelo Mpca como preditor.
4.3
Predi¸
c˜
ao do Modelo
Foram utilizados dados de valida¸c˜ao como forma de comprova¸c˜ao da capacidade de ajuste do modelo Mpca: retirou-se 1/3 da amostra para valida¸c˜ao. A figura 4 evidencia a curva ROC para o modelo ajustado, utilizando o ajuste completo: o valor encontrado sob a curva foi de 75%, o que indica a adequa¸c˜ao do modelo como preditor de quando o ve´ıculos ser´a um ˆonibus ou n˜ao:
Figura 4: Curva ROC ajustada
especificidades. A tabela 3 mostra as diferentes medidas associadas a cada uma das probabilidades:
Tabela 3: Sensibilidade e Especificidade
Probabilidade Sensibilidade Especificidade 0.3 0.65476190 0.7171717 0.5 0.27380952 0.9292929 0.7 0.02380952 0.9949495
Considerando-se, por exemplo, que uma empresa que gerencia estacionamentos deseja saber que tipo de ve´ıculo trafega em suas imedia¸c˜oes, ´e prefer´ıvel classificar o ve´ıculo como sendo um ˆonibus quando ele n˜ao ´e (Erro Tipo I), uma vez que ´e melhor alocar espa¸co e n˜ao utiliz´a-lo a n˜ao ter mais vagas. Logo, prefere-se uma maior sensibilidade a uma maior especificidade, o que indica que o ponto de corte de 0.3 ´
e mais indicado para esta situa¸c˜ao.
5
Conclus˜
ao
O modelo linear generalizado se mostrou o instrumento correto para a an´alise do problema, n˜ao obstante os problemas decorrentes da colinearidade forte entre as vari´aveis. As tentativas de regulariza¸c˜ao do problema resultaram em um modelo bem ajustado e com poder preditivo maior, ainda que ao custo de sua interptretabilidade. Nota-se tamb´em que o esfor¸co por captar medidas para avaliar a imagem resultante da silhueta dos ve´ıculos foi demasiado, uma vez que boa parte das medidas, contidas no primeiro componente, dominado pela vari´avel scatter ratio, foi n˜ao significativo.
Uma poss´ıvel extens˜ao deste trabalho seria a verifica¸c˜ao da probabilidade de a silhueta ser outro tipo de ve´ıculo, comparando o modelo que melhor se ajusta e as vari´avies que melhor comp˜oem a probabilidade de resposta a determinado fator.
6
Referˆ
encias
PAULA, Gilberto A. MODELOS DE REGRESS ˜AO com apoio computacional.Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo. S˜ao Paulo: 2013.