• Nenhum resultado encontrado

Grupo 7

N/A
N/A
Protected

Academic year: 2021

Share "Grupo 7"

Copied!
10
0
0

Texto

(1)

Universidade Federal do Paran´

a

Curso Estat´ıstica

Regress˜

ao para dados bin´

arios:

silhuetas de ve´ıculos

Jos´

e Paulo Miketen Maltaca GRR 20170396

Let´ıcia Vieira da Rocha GRR 20160221

Patr´ıcia Renata Diez GRR 20170392

Novembro de 2019

(2)

Conte´

udo

1 Resumo 2

2 Introdu¸c˜ao 2

3 Material e M´etodos 2

3.1 Dados . . . 2

3.2 An´alise Descritiva . . . 4

3.3 Modelo Linear Generalizado . . . 4

3.4 Sele¸c˜ao de Covari´aveis . . . 5

3.5 Poder Preditivo do Modelo . . . 5

4 Resultados e Discuss˜ao 6 4.1 An´alise Explorat´oria . . . 6

4.2 Ajuste do Modelo . . . 6

4.3 Predi¸c˜ao do Modelo . . . 8

5 Conclus˜ao 9

(3)

1

Resumo

Este trabalho almejou a ajustar um modelo para predizer, a partir de silhuetas de ve´ıculos, se eles correspondiam ou n˜ao a um ˆonibus. A base de dados contou com 18 vari´aveis de 846 observa¸c˜oes, e apresentaram forte colinearidade. Com vistas a tratar do problema, utilizaram-se o m´etodo dos compo-nentes principais (Mpca) e um modelo baseado no m´etodo stepwise (Mstep). Ambos se adequaram ao diagn´ostico de ajuste do modelo linear generalizado (GLM), mas o poder preditivo do primeiro modelo foi maior, n˜ao obstante a menor interpretabilidade dos parˆametros. Ambos n˜ao apresentaram problemas de diagn´ostico de ajuste, mas a variˆancia continuou inflacionada no modelo Mstep. Verificou-se tamb´em que alguns dos componentes foram dominados por vari´aveis que n˜ao foram significativas no modelo sa-turado, o que explica a falta de significˆancia do primeiro componente principal. O modelo escolhido para a realiza¸c˜ao das predi¸c˜oes foi o Mpca, o qual apresentou as caracter´ısticas adequadas como preditor.

2

Introdu¸

ao

O aprendizado de m´aquina (machine learning) ´e o processo pelo qual os computadores desenvolvem o reconhecimento de padr˜oes a partir de dados. Esse processo cria uma certa independˆencia para as m´aquinas, as quais a partir dos dados conseguem automatizar a constru¸c˜ao de modelos anal´ıticos e fazer ajustes sem terem sido explicitamente programadas para tanto. Bastante em voga no momento, o aprendizado de m´aquina vem sendo aperfei¸coado continuamente.

A base de dados sob an´alise nesse trabalho foi constru´ıda originalmente por J.P.Siebert entre os anos de 1986 e 1987 e parcialmente financiada pela Barr and Strout Ltd, uma empresa do Reino Unido pioneira na ´area de engenharia ´otica. Intitulada “Vehicle Silhouette” (silhueta de ve´ıculos) essa base de dados usada em aprendizado de m´aquina teve como principal objetivo estabelecer um m´etodo de distin¸c˜ao de objetos 3D a partir de uma imagem 2D. Assim, a partir de imagens 2D dos ve´ıculos algumas medidas caracter´ısticas de suas silhuetas foram armazenadas e ent˜ao foi constru´ıda uma ´arvore de decis˜ao por meio da qual o computador pode classificar a imagem em um dos seguintes ve´ıculos: ˆOnibus Duplo Deck, Van Chevrolet, Saab 9000 e Manta 400.

As caracter´ısticas das silhuetas dos ve´ıculos foram extra´ıdas pelo Sistema de Processamento de Ima-gens Hier´arquicas (HIPS) BINATTS capaz de extrair uma combina¸c˜ao de caracter´ısticas independentes de escala, usando medidas baseadas em variˆancia escalada, assimetria, curtose e medidas heur´ısticas, tais como: cavidades, circularidade, “retangularidade” e compacidade.

As imagens foram obtidas por uma cˆamera olhando para baixo no modelo de ve´ıculo a partir de um ˆangulo fixo de eleva¸c˜ao (34,2 graus em rela¸c˜ao `a horizontal). Os ve´ıculos foram colocados em uma superf´ıcie iluminada difusa (caixa de luz) e pintados de preto fosco para minimizar os destaques. As imagens foram capturadas usando um armazenamento de quadros CRS4000 conectado a um vax 750. Todas as imagens foram capturadas com uma resolu¸c˜ao espacial de 128x128 pixels quantificada para 64 n´ıveis de cinza. Essas imagens foram limiarizadas para produzir silhuetas bin´arias de ve´ıculos, negadas (para atender aos requisitos de processamento do BINATTS) e, posteriormente, submetidas a m´odulo HIPS para remover o ru´ıdo da imagem.

O presente trabalho teve como objetivo ajustar um modelo linear generalizado para dados bin´arios capaz de classificar o input das informa¸c˜oes de silhuetas de ve´ıculos como “ ˆOnibus” ou “N˜ao ˆOnibus” a partir das covari´aveis: compacidade, circularidade, distˆancia de circularidade, raz˜ao do raio, raz˜ao de aspecto dos eixos principal e menor, m´aximo comprimento da raz˜ao de aspecto dos eixos principal e menor, raz˜ao de dispers˜ao, “alongamento”, “retangularidade” dos eixos, m´aximo comprimento da “retangularidade” , variˆancias escaladas dos eixos principal e menor, raio de rota¸c˜ao escalado, curtoses sobre eixos principal e menor, assimetria dos eixos principal e menor e raz˜ao de cavidade.

3

Material e M´

etodos

3.1

Dados

Dispon´ıvel para acesso livre, a base de dados Vehicle Silhouette foi retirada do dom´ınio “mldata.io”, site que re´une diferentes bases de dados para aplica¸c˜oes de machine learning. Originalmente a base re´une 846 observa¸c˜oes e 19 vari´aveis. Para constru¸c˜ao do modelo bin´ario foi adicionada `a base a seguinte vari´avel resposta:

(4)

• Bus: vari´avel bin´aria, assume valor 1 se a silhueta do ve´ıculo corresponde `a de um ˆonibus ou 0 caso contr´ario.

A vari´avel acima foi baseada na seguinte vari´avel presente na base:

• Vehicle class: vari´avel qualitativa categ´orica de 4 n´ıveis. Realizada a transforma¸c˜ao para torn´a-la bin´aria “Bus”, direcionada para silhueta tipo Bus, assumindo o valor 1 se o ve´ıculo corresponder `a de um ˆonibus ou 0 caso contr´ario.

A seguir s˜ao apresentadas as covari´aveis do modelo saturado:

• Compactness: vari´avel cont´ınua, referente `a compacidade assume o valor resultante da f´ormula (per´ımetro m´edio )2area.

• Circularity: vari´avel cont´ınua, referente `a circularidade assume o valor resultante da f´ormula (raio m´edio)2area

• Distance circularity: vari´avel cont´ınua, referente `a distˆancia de circularidade assume o valor resul-tante da f´ormula ´area/(distˆancia m´edia da borda)2

• Radius ratio: vari´avel cont´ınua, referente `a raz˜ao do raio assume o valor resultante da f´ormula (raio m´aximo − raio m´ınimo)/raio m´edio.

• Pr.axis aspect ratio: vari´avel cont´ınua, referente `a raz˜ao do aspecto do eixo principal assume o valor resultante da f´ormula (eixo menor)/(eixo principal)

• Max.length aspect ratio: vari´avel cont´ınua, referente ao m´aximo comprimento do raio assume o valor resultante da f´ormula (comprimento perpendicular ao m´aximo comprimento)/(m´aximo com-primento)

• Scatter ratio: vari´avel cont´ınua, referente raz˜ao de dispers˜ao assume o valor resultante da f´ormula (in´ercia sobre o eixo menor)/(in´ercia sobre o eixo principal)

• Elongatedness: vari´avel cont´ınua, referente ao “alongamento” assume o valor resultante da f´ormula ´

area/(largura “encolhida”)2

• Pr.axis rectangularity: vari´avel cont´ınua, referente `a “retangularidade” do eixo principal assume o valor resultante da f´ormula ´area/(comprimento pr.eixo * largura pr.eixo)

• Max length rectangularity: vari´avel cont´ınua, referente `a “retangularidade” do comprimento m´aximo assume o valor resultante da f´ormula ´area / (comprimento m´aximo*comprimento perpendicular) • Scaled variance along major axis: vari´avel cont´ınua, referente `a variˆancia escalada ao longo do eixo

principal assume o valor resultante da f´ormula (segundo momento sobre menor eixo)/´area. • Scaled variance along minor axis : vari´avel cont´ınua, referente `a variˆancia escalada ao longo do

menor eixo assume o valor resultante da f´ormula (segundo momento sobre eixo principal)/´area. • Scaled radius of gyration: vari´avel cont´ınua, referente ao raio de rota¸c˜ao escalado assume o valor

resultante da f´ormula (mavar+mivar)/´area.

• Skewness about major axis: vari´avel cont´ınua, referente `a assimetria o eixo principal assume o valor resultante da f´ormula (terceiro momento sobre o eixo principal)/σ3

min.

• Skewness about minor axis: vari´avel cont´ınua, referente `a assimetria o menor eixo assume o valor resultante da f´ormula (terceiro momento sobre o menor eixo)/σ3

maj.

• Kurtosis about minor axis: vari´avel cont´ınua, referente `a curtose do menor eixo assume o valor resultante da f´ormula (quarto momento sobro eixo principal)/σ4

min.

• Kurtosis about major axis: vari´avel cont´ınua, referente `a curtose do eixo principal assume o valor resultante da f´ormula (quarto momento sobre o menor eixo)/σ4

maj.

• Hollows ratio: vari´avel cont´ınua, referente `a raz˜ao de cavidades assume o valor resultante da f´ormula (´area das cavidades)/(´area delimitada do pol´ıgono).

(5)

3.2

An´

alise Descritiva

Das 846 observa¸c˜oes 628 (74,23 % do total de ve´ıculos) n˜ao eram referentes a silhuetas de ˆonibus (ou seja, eram ou de uma Van Chevrolet, ou de um Saab 9000, ou ent˜ao de um Monta 400), enquanto que as demais 218 (25,77% do total de ve´ıculos) silhuetas identificavam um ˆonibus duplo deck. Entre as medidas das covari´aveis n˜ao h´a incompatibilidade de escala. A figura 1 mostra o boxplot de cada uma delas, verifica-se que os menores valores observados s˜ao das covari´aveis “skewness minor axis” e “kurto-sis minor axis” (valor m´ınimo = 0 unidade de medida), e que a maior m´edia (422 unidades de medida) e o maior valor observado (1028 unidades de medida) pertencem `a covari´avel “scaled variance minor axis”, al´em disso as covari´aveis “radius ratio”,”pr axis aspect ratio”,”max length aspect ratio” apresentam trˆes ou mais pontos extremos.

Figura 1: Boxplot das vari´aveis presentes na base

3.3

Modelo Linear Generalizado

Conforme elencado anteriormente, a vari´avel resposta neste estudo foi a Vehicle class “Bus” a qual assume valor bin´ario 1 quando a silhueta do ve´ıculo modelo for “Bus” e 0 quando n˜ao. Desta forma, devido `a natureza dos dados da vari´avel resposta, o m´etodo de Modelos Lineares Generalizados (MLG) fez-se necess´ario para uma modelagem que descrevesse bem o processo gerador dos valores observados.

Segundo Paula (2013), a ideia b´asica quanto `a utiliza¸c˜ao deste m´etodo consiste em ampliar as op¸c˜oes para a distribui¸c˜ao da vari´avel resposta de modo a permitir que ela perten¸ca `a fam´ılia exponencial de distribui¸c˜oes e ainda proporcionar maior flexibilidade para a rela¸c˜ao funcional entre a m´edia da vari´avel resposta e o preditor linear η. O modelo proposto considerou a distribui¸c˜ao binomial para a vari´avel resposta, as vari´aveis explanat´orias na forma de uma estrutura linear, e a fun¸c˜ao de liga¸c˜ao do tipo logito ln(µ/(1 − µ)), que une as vari´aveis, sendo o µ a propor¸c˜ao esperada de sucessos. Assim, a defini¸c˜ao do modelo fica dada por:

Yi/Xi∼ Binomial(µ, πi), i = 1, 2, . . . , n

Onde πi, ´e a probabilidade de ocorrˆencia (sucesso) de Yi e Xios vetores de covari´aveis associados `as

observa¸c˜oes. A especifica¸c˜ao do MLG ´e dada por:

g(πi) = ηi= β0+ β1xi1+ · · · + βpxip

(6)

3.4

Sele¸

ao de Covari´

aveis

Para realizar a sele¸c˜ao de covari´aveis do preditor linear do modelo foram utilizados os M´etodos Stepwise combinados com a Regulariza¸c˜ao Lasso, e o modelo baseado em An´alise de Componentes Principais, o que resultou em dois diferentes modelos.

O M´etodo Stepwise combina os m´etodos Backward e Forward : enquanto este inicia com o algoritmo com o modelo restrito e insere as vari´aveis sequencialmente que melhor se ajustam ao modelo, aquele inicia o modelo com todos os termos e seleciona para exclus˜ao o de menor contribui¸c˜ao para o ajuste proposto. No caso do stepwise, o algoritmo inicia com o modelo saturado e, a cada exclus˜ao, ´e analisada e verificada a possibilidade de inclus˜ao dos termos exclu´ıdos anteriormente, de modo que realiza todas as poss´ıveis combina¸c˜oes que tornam melhor o ajuste do modelo. Finaliza-se o processo quando n˜ao h´a mais possibilidade de inclus˜ao de termos exclu´ıdos pois nenhum possui for¸ca suficiente para entrar e nenhum outro para sair.

Neste estudo, a sele¸c˜ao de covari´aveis pelo stepwise foi baseada no Crit´erio BIC, que penaliza mais fortemente modelos mais complexos, possuindo o modelo final o menor BIC:

BIC = −2 ˆI + ln(n) ∗ p

Onde ˆI ´e o valor de log-verossimilhan¸ca maximizado, p ´e n´umero de parˆametros do modelo e n o n´umero de observa¸c˜oes da amostra.

O M´etodo de Regulariza¸c˜ao Lasso tem por objetivo ajustar o modelo de modo que as estimativas dos parˆametros sejam regularizadas em dire¸c˜ao a zero, ou seja, produz estimativas com menor variˆancia. Tamb´em usado quando h´a problemas de multicolinearidade, este m´etodo ´e baseado em penaliza¸c˜ao de primeira ordem e busca minimizar a seguinte fun¸c˜ao:

−1 n n X i=1 I(yi, β0+ x0iβ) + λ[(1 − α)||β||2+ α||β||1]

Sendo Lasso α = 1, temos a equa¸c˜ao equivalente a:

−1 n n X i=1 I(yi, β0+ x0iβ) + λ p X j=1 |βj|, λ ≥ 0

O parˆametro λ controla a intensidade da penaliza¸c˜ao. Para escolha de λ ´otimo foi realizado o processo de valida¸c˜ao cruzada de modo que identificasse o valor que produzisse menor erro quadr´atico m´edio. Quando λ = 0, n˜ao h´a efeito o termo de penaliza¸c˜ao, e as estimativas correspondem a m´axima verossimilhan¸ca, j´a quando λ → ∞, o termo ser´a t˜ao forte que as estimativas ficar˜ao pr´oximas de zero.

Al´em da sele¸c˜ao de covari´aveis, o estudo analisou e comparou entre as fun¸c˜oes de liga¸c˜ao Logito, Probito, Cauchy e Complemento Log-Log, a que fosse mais adequada, tendo por base a liga¸c˜ao que oferecesse o menor valor pelo Crit´erio BIC. Para o segundo modelo, foi empregada a An´alise de Compo-nentes Principais (PCA), a qual ´e uma t´ecnica multivariada que tem por objetivo obter um conjunto de novas covari´aveis, a partir das vari´aveis originais, de modo que um reduzido n´umero de novas vari´aveis possam ter capacidade de explanar a varia¸c˜ao dos dados. Este novo conjunto de vari´aveis s˜ao tais que o primeiro ´e aquele capaz de explicar a maior parte da varia¸c˜ao, o segundo explica a maior parte n˜ao explicada pelo primeiro, e assim sucessivamente.

Por fim, atrav´es dos gr´aficos de res´ıduos quant´ılicos aleatorizados e de Half-Normal Plots com enve-lopes simulados foi verificado o diagn´ostico de ajuste dos modelos.

3.5

Poder Preditivo do Modelo

Para a avalia¸c˜ao do poder preditivo dos modelos propostos, foi separada aleatoriamente em duas partes, uma por¸c˜ao dos dados para o ajuste e outra para a valida¸c˜ao. Estes ´ultimos foram usados para avaliar a predi¸c˜ao dos modelos. Para medir essa predi¸c˜ao foi usada a Curva ROC. Ela possibilita que seja analisado o poder preditivo associado a diferentes regras de decis˜ao por valores p0, permitindo ainda

que seja verificado conjuntamente a sensibilidade e especificidade para os valores de p0. Quanto mais

(7)

4

Resultados e Discuss˜

ao

4.1

An´

alise Explorat´

oria

A an´alise prim´aria da base de dados, que consiste de 18 vari´aveis, necessitou da redu¸c˜ao de sua dimens˜ao. Ap´os os processos de sele¸c˜ao Stepwise, chegaram-se a dez vari´aveis, descritas na tabela 1. Na an´alise dos boxplots (figura 1), pode-se notar uma dispers˜ao acentuada nas vari´aveis ”skew-ness major axis”, ”pr axis aspect ratio”e ””max length aspect ratio”. Antes da realiza¸c˜ao da an´alise, foi necess´aria a convers˜ao da vari´avel denotando os ve´ıculos como um fator de dois n´ıveis. Estes n´ıveis indicavam se o ve´ıculo era um ˆonibus ou n˜ao − escolheu-se o ˆonibus em rela¸c˜ao aos demais ve´ıculos em fun¸c˜ao de possuir maior frequˆencia dentre os quatro.

4.2

Ajuste do Modelo

N˜ao houve necessidade de transforma¸c˜ao das vari´aveis, sendo que os resultados do modelo log-linearizado saturado se assemelharam aos resultados do modelo saturado com as vari´aveis em n´ıvel. Foram testadas combina¸c˜oes quadr´aticas e elementos de intera¸c˜ao entre as vari´aveis, e o modelo linear se ajustou melhor em rela¸c˜ao aos demais. O fatores de infla¸c˜ao da variˆancia (VIFs) apontaram forte multicolinearidade. Como tentativa de corre¸c˜ao do problema, foi utilizado o m´etodo de regulariza¸c˜ao lasso. A regress˜ao oriunda dos procedimentos resultou em um baixo valor de ˆλ e apontou a retirada de duas vari´aveis1. Os coeficientes associados `as vari´aveis na regress˜ao lasso apresentaram valor similar aos

apresentados no modelo saturado, o que levou `a tentativa de regulariza¸c˜ao e sele¸c˜ao das vari´aveis por meio do procedimento Stepwise e an´alise por componentes principais.

Em rela¸c˜ao ao primeiro caso, realizou-se a sele¸c˜ao por meio do algoritmo Step, por meio de duas regress˜oes: forward e backward, utlizando-se o crit´erio Bayesiano de Schwarz (BIC). Dentre os dois modelos, o backward apresentou menor valor de BIC, resultando em um modelo com dez covari´aveis. Posteriormente, foi selecionada a fun¸c˜ao de liga¸c˜ao que apresentou menor valor pelo crit´erio de Schwarz, selecionando-se a fun¸c˜ao logito2. As vari´aveis selecionadas ainda apresentaram fator de variˆancia

infla-cionado. A remo¸c˜ao daquelas com maiores VIFs aumentou muito o erro, fazendo com que os pontos denotando os res´ıduos em fun¸c˜ao dos quantis te´oricos excedessem demasiadamente os envelopes de con-fian¸ca nos half-normal plots.

A solu¸c˜ao encontrada foi remover as vari´aveis de maior dispers˜ao, as quais foram skewness major axis, pr axis aspect ratio e max length aspect ratio. A tabela 1 exibe os resultados do modelo de regress˜ao selecionado (Mstep)3:

Tabela 1: Regress˜ao Mstep

Vari´avel Parˆametro Estimado Erro Padr˜ao p-valor Intercepto 25.741839 7.362029 0.000471*** distance circularity -0.343348 0.034572 2e-16*** radius ratio 0.002959 0.009394 0.752797 elongatedness -0.553669 0.066609 2e-16*** scaled radius gyration 0.044982 0.008819 3.38e-07*** skewness minor axis -0.252943 0.040747 5.38e-10*** kurtosis minor axis 0.019031 0.019243 0.322670 kurtosis major axis 0.718355 0.085416 2e-16*** hollows ratio -0.614777 0.071653 2e-16***

Pode-se notar pelos resultados que as vari´aveis ”radius ratio” e ”kurtosis minor axis” n˜ao foram significativas a 1% de significˆancia. A an´alise mostrou que distance circularity, elongatedness, skew-ness minor axis e hollows ratio apresentaram resposta negativa em rela¸c˜ao ao fato de a silhueta ser de um ˆonibus, o que denota que quanto mais ocos a figura tiver, mais assim´etrica for no menor eixo, maior

1As vari´aveis s˜ao ”max length rectangularity”e ”scatter ratio”

2As fun¸oes de liga¸ao logito, probito, cloglog e Cauchy apresentaram valores de 204.74, 207.06, 216.43 e 212.45,

respectivamente

(8)

a sua circularidade e mais alongada, menor a chance de ser um ˆonibus. Por outro lado, as vari´aveis ra-dius ratio, scaled rara-dius gyration e kurtosis major axis apresentaram coeficiente positivo, indicando que quanto maior a raz˜ao do raio, maior o raio de rota¸c˜ao escalado e maior a curtose do eixo maior, maior ´e a probabilidade de a vari´avel resposta ser um ˆonibus.

Os Half-normal plots evidenciaram que os res´ıduos encontram-se dentro dos envelopes de confian¸ca estipulados, assim como o fato de que os quantis amostrais seguem uma distribui¸c˜ao normal em rela¸c˜ao aos quantis te´oricos. O teste de Shapiro-Wilk apresentou 0,5735 como p-valor, significando tamb´em a distribui¸c˜ao normal dos res´ıduos.

Apesar de bem ajustado, o modelo ainda sofreu de elevada colinearidade, o que suscitou a utiliza¸c˜ao de uma an´alise de componentes principais como forma de debelar o problema. A figura 2 denota a influˆencia dos componentes, os quais s˜ao combina¸c˜oes lineares das vari´aveis do modelo, j´a ajustados pela sua escala.

Figura 2: An´alise de Componentes Principais

Ap´os sucessivas combina¸c˜oes de componentes, ajustou-se um modelo que melhor se comportou dentro dos half-normal plot, ao mesmo tempo que reduziu a deviance residual. Foram tamb´em realizados testes para verificar qual fun¸c˜ao de liga¸c˜ao mais reduziria o erro pelo crit´erio de Schwarz, sendo que os valores encontrados se assemelharam. Desta forma, com vistas `a possibilidade de compara¸c˜ao dos modelos, optou-se pela fun¸c˜ao de liga¸c˜ao logito. Os resultados encontram-se na tabela 24:

Tabela 2: Regress˜ao Mpca

Vari´avel Parˆametro Estimado Erro Padr˜ao p-valor Intercepto -1.33584 0.09860 2e-16*** CP1 0.03180 0.02777 0.25205 CP2 -0.45905 0.05386 2e-16*** CP3 0.14874 0.05623 0.00816** CP4 0.19134 0.09321 0.04009* CP5 0.78781 0.10548 8.09e-14*** ´

E poss´ıvel verificar que o primeiro componente n˜ao foi significativo, ao passo que CP2, CP5 e o intercepto foram significativos ao n´ıvel de significˆancia de 1%, CP3 foi significativo ao n´ıvel de 5% e CP4 o foi ao n´ıvel de 10%. Isso demonstra que a maior parte das vari´aveis correlacionadas, que detˆem 52% da variˆancia do modelo, n˜ao explicam o regressando. Isso ocorreu porque o primeiro componente ´e dominado pela vari´avel scaled variance minor axis, a qual foi n˜ao se apresentou significativa no modelo saturado.

(9)

A figura 3 mostra a qualidade dos ajustes dos dois modelos, denotados por ”Mstep”(modelo ajus-tado com m´etodo stepwise) e ”Mpca”(modelo ajustado pelo m´etodo de componentes principais). A an´alise mostra que possuem res´ıduos totalmente involucrados nos envelopes de confian¸ca, assim como a distribui¸c˜ao dos quantis amostrais seguem uma distribui¸c˜ao normal em rela¸c˜ao aos quantis te´oricos.

Figura 3: Half-normal plots e qqplots dos modelos

Como o modelo Mstep ainda apresentou fator de infla¸c˜ao de variˆancia elevado, utilizou-se somente o modelo Mpca como preditor.

4.3

Predi¸

ao do Modelo

Foram utilizados dados de valida¸c˜ao como forma de comprova¸c˜ao da capacidade de ajuste do modelo Mpca: retirou-se 1/3 da amostra para valida¸c˜ao. A figura 4 evidencia a curva ROC para o modelo ajustado, utilizando o ajuste completo: o valor encontrado sob a curva foi de 75%, o que indica a adequa¸c˜ao do modelo como preditor de quando o ve´ıculos ser´a um ˆonibus ou n˜ao:

Figura 4: Curva ROC ajustada

(10)

especificidades. A tabela 3 mostra as diferentes medidas associadas a cada uma das probabilidades:

Tabela 3: Sensibilidade e Especificidade

Probabilidade Sensibilidade Especificidade 0.3 0.65476190 0.7171717 0.5 0.27380952 0.9292929 0.7 0.02380952 0.9949495

Considerando-se, por exemplo, que uma empresa que gerencia estacionamentos deseja saber que tipo de ve´ıculo trafega em suas imedia¸c˜oes, ´e prefer´ıvel classificar o ve´ıculo como sendo um ˆonibus quando ele n˜ao ´e (Erro Tipo I), uma vez que ´e melhor alocar espa¸co e n˜ao utiliz´a-lo a n˜ao ter mais vagas. Logo, prefere-se uma maior sensibilidade a uma maior especificidade, o que indica que o ponto de corte de 0.3 ´

e mais indicado para esta situa¸c˜ao.

5

Conclus˜

ao

O modelo linear generalizado se mostrou o instrumento correto para a an´alise do problema, n˜ao obstante os problemas decorrentes da colinearidade forte entre as vari´aveis. As tentativas de regulariza¸c˜ao do problema resultaram em um modelo bem ajustado e com poder preditivo maior, ainda que ao custo de sua interptretabilidade. Nota-se tamb´em que o esfor¸co por captar medidas para avaliar a imagem resultante da silhueta dos ve´ıculos foi demasiado, uma vez que boa parte das medidas, contidas no primeiro componente, dominado pela vari´avel scatter ratio, foi n˜ao significativo.

Uma poss´ıvel extens˜ao deste trabalho seria a verifica¸c˜ao da probabilidade de a silhueta ser outro tipo de ve´ıculo, comparando o modelo que melhor se ajusta e as vari´avies que melhor comp˜oem a probabilidade de resposta a determinado fator.

6

Referˆ

encias

PAULA, Gilberto A. MODELOS DE REGRESS ˜AO com apoio computacional.Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo. S˜ao Paulo: 2013.

Referências

Documentos relacionados

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Caso a resposta seja SIM, complete a demonstrações afetivas observadas de acordo com a intensidade, utilizando os seguintes códigos A=abraços, PA=palavras amáveis, EP= expressões

Lernaea cyprinacea of Steindachnerina insculpta from Taquari River, municipality of Taquarituba, São Paulo State, Brazil.. Note the hemorrhagic area around the insertion point of

Como irá trabalhar com JavaServer Faces voltado para um container compatível com a tecnologia Java EE 5, você deverá baixar a versão JSF 1.2, a utilizada nesse tutorial.. Ao baixar

CAIXA, além do benefício previsto no parágrafo segundo da cláusula 26, o empregado que adotar ou obtiver guarda judicial para fins de adoção de criança fará jus

Não existem dados clínicos disponíveis para pacientes com alteração hepática grave (Child Pugh C) (ver itens “Contra-indicações” e “Características Farmacológicas”). -

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

Neste trabalho, utiliza-se um sensor de profundi- dade de um dispositivo de interface natural Microsoft Kinect TM para detectar os obstáculos presentes no es- paço de trabalho do