Modelo Extrator Manual de Imagens e Métodos Tradicionais

Os primeiros experimentos realizados tiveram como objetivo promover uma maior interação com as imagens e compreender suas características fundamentais.

Neste sentido, foram exercitados diferentes métodos de extração de caracterís- ticas das faces.

No contexto deste estudo, algumas avaliações preliminares mostraram que o extrator de características do tipo HOG , capaz de discriminar características relevantes do face(SAEED; AL-HAMADI, 2015) . Este extrator ressalta as variações de cor de forma a encontrar contornos, de modo que ele pode ser útil para determinar as diferentes posições da cabeça.

De maneira semelhante, foram realizados experimentos preliminares com di- ferentes classificadores tais como Árvores Aleatórias, Gradient Boosting, e K-Vizinhos (DONG et al., 2011) porém o algoritmo SVM (VASLI et al., 2016) apresentou o melhor resultado entre esses, considerando as características extraídas com HOG.

A Figura 5.1 apresenta o fluxo de processamento realizado para se determinar a zona do foco de visualização do motorista, com base nestes experimentos. A imagem é fornecida pela câmera. Neste caso, são consideradas as imagens coloridas e infravermelhas separadamente. A imagem colorida passa por um detector de faces (Seção 4.2) que retorna as posições de um retângulo onde a face se encontra. O vetor de características baseado no algoritmo HOG é extraído das imagens do rosto e também das imagens do rosto em conjunto com o contexto do veículo. Este vetor é enviado para um classificador treinado, que retorna a zona de visualização do motorista estimada.

Figura 5.1 – Arquitetura do primeiro modelo treinado utilizando métodos tradicionais de aprendizado de máquina e usando como entrada o vetor de características extraído via HOG.

Para extrair o vetor de características HOG, foi utilizada a função correspon- dente da biblioteca scikit-skimage, fornecendo-se como entrada imagens redimensionadas 96 x 96 pixels, com os seguintes parâmetros: 9 orientações, 8 x 8 pixels por célula, 1 x 1 para células por bloco e a normalização do bloco foi a L2. Para cada tipo de imagem (colorida, infravermelha e de profundidade) um vetor com 1152 valores foi gerado. Este

vetor é normalizado posteriormente.

Uma forma de analisar e visualizar se o vetor de características tem representa- tividade na separação das classes é fazer uma análise via o algoritmo T-SNE (t-distributed

Stochastic Neighbor Embedding) desenvolvido por Maaten e Hinton (2008). A Figura 5.2

mostra as visualizações geradas pelo T-SNE sobre os rótulos reais das imagens, tendo como entrada o vetor de características gerado pelo HOG. Podemos observar que o rótulo 2 (espelho retrovisor esquerdo), em alguns pontos, consegue ter uma separação perante os outros. Entretanto, os outros rótulos estão muito entrelaçados, sem uma separação evidenciada visualmente; especialmente, os rótulos 9 e 13 (painel de instrumentos e visão frontal do vidro, respectivamente). Este tipo de análise aponta previamente os potenciais pontos de confusão de algoritmos classificadores.

Figura 5.2 – Visualização T-SNE sobre as imagens coloridas à esquerda e sobre as imagens infravermelhas à direita. Em ambos os casos, o T-SNE foi executado sobre os dados reduzidos via PCA, sendo espelho retrovisor esquerdo(2), espelho retrovisor direito(6), painel multimídia(8), painel de instrumentos(9), espelho retrovisor central e visão frontal(13).

O treinamento utilizando SVM foi realizado via grid search, que é uma busca pelos melhores parâmetros de kernel (entre rbf e linear ), gamma (variando entre 0.01 até 0.0001) e o regulador C (entre 0.01 até 1000). Todos os modelos foram treinados utilizando o método de validação cruzada de 5-folds.

Dois modelos foram treinados:um modelo foi treinado com os vetores de ca- racterísticas HOG extraídos das imagens coloridas (RGB) e outro com os das imagens infravermelhas. Um outro modelo experimentado foi o SVM treinado com vetores de características com dimensões reduzidas via análise de componentes principais (em in- glês, Principal Component Analysis ou PCA)(ABDI; WILLIAMS, 2010). Neste caso, os vetores de características foram reduzidos de 1152 para 600 dimensões, mantendo uma representatividade de 95% da variância dos dados. Esta abordagem tipicamente permite reduzir a complexidade do modelo e também o tempo de processamento despendido para

HOG + SVM

HOG + PCA + SVM

Acurácia

Treino

Acurácia

Testes

Acurácia

Treino

Acurácia

Testes

RGB

99%

47%

99%

81%

IR

99%

53%

99%

80%

Tabela 5.1 – Tabela com a acurácia obtida durante treino e testes sobre as imagens RGB e IR utilizando os algoritmos tradicional de aprendizado de máquina.

o treinamento e classificação, mantendo ou aumentando a acurácia do modelo.

A Tabela 5.1 apresenta um resumo dos resultados de acurácia para os experimentos realizados. É possível observar que apesar da acurácia obtida no treinamento ser alta (99%), a acurácia obtida na base de testes no caso de vetores de características sem redução de dimensionalidade (HOG+SVM), foi de apenas 47% para as imagens coloridas e 53% para as imagens infravermelhas.

Analisando-se a matriz de confusão dos modelos treinados, apresentadas nas Figuras 5.3 e 5.4, ambos os modelos tiveram problemas em determinar o rótulo do painel de instrumentos(9), correspondente ao painel de instrumentos e ficaram enviesados com os rótulos do painel multimídia(8) e visão frontal(13). Todavia, obtivemos uma acurácia de mais de 80% dos dados com o auxilio do método PCA, um resultado 25% maior do que os obtidos com o vetor original. Podemos observar na matriz de confusão dos modelos utilizando PCA, na Figura 5.4, que quando temos um padrão de posição de cabeça bem definido, como no caso dos rótulos referentes ao espelho retrovisor esquerdo(2) e do espelho retrovisor direito(6), o modelo obtém maior sucesso. Porém, nos rótulos em que a posição da cabeça é praticamente a mesma, e a posição dos olhos se torna importante na definição do foco de visão, os modelos encontram os mesmos problemas e confundem estes pontos. Por exemplo, o rótulo painel de instrumentos é frequentemente confundido com a visão frontal do vidro e o rótulo do sistema multimídia com o espelho retrovisor central. Em ambos os modelos, cerca de 40% das imagens classificadas com o rótulo do painel multimídia(8) eram, na verdade, do rótulo do espelho retrovisor central(11).

O melhor classificador foi obtido com os seguintes parâmetros para o SVM: C igual a 15, gamma igual a 0,0001, kernel rbf, decisão via OvR (One vs Rest) ou um versus todos.

Figura 5.3 – Matriz de confusão dos modelos HOG+SVM, a esquerda o resultado das imagens coloridas e as imagens infravermelha a direita. Ambos os modelos apresentam viés para os rótulos do painel multimídia(8) e visão frontal(13).

Figura 5.4 – Matriz de confusão dos modelos HOG+PCA+SVM, a esquerda o resultado das imagens coloridas e as imagens infravermelha a direita. Modelos com melhor classificação que o anterior porém podemos observar o conflito entre os rótulos do painel multimídia(8) com o espelho retrovisor central(11) e entre o painel de instrumentos(9) com a visão frontal(13).

No que diz respeito ao desempenho do modelo, esta estratégia não é uma das mais eficientes, devido as várias etapas que temos que executar durante todo o processo. Tendo por base o computador definido na seção anterior, obtivemos um valor, utilizando a CPU, de cerca de 51 ms para o processamento de todo o fluxo, onde o extrator HOG leva em média 40 ms, a redução do vetor de características gasta cerca de 7 ms e classificador SVM estima o rótulo em cerca de 4 ms.

5.3 Modelo Extrator Manual de Imagens de Profundidade e Méto-

dos Tradicionais

No experimento deste modelo, foram utilizados os dados das imagens de profundidade de forma a buscar o aprimoramento da acurácia do modelo como um todo e avaliar como os dados das imagens de profundidade têm influência sobre o problema. A Figura 5.5 apresenta o processamento de dados realizado no experimento. O processo inicial consiste na leitura das imagens coloridas ou infravermelhas em conjunto com a imagem de profundidade fornecidas pela câmera. Reutilizando os mesmos módulos do experimento anterior (Seção 5.2), a imagem colorida passa por um detector de face e, em seguida, são extraídas as características da face das imagens coloridas e infravermelhas utilizando-se o algoritmo HOG. O passo adicional que é realizado neste experimento é a extração de vetor de características HOG das imagens de profundidade, seguindo o mesmo processo realizado por Saeed et al. (2015), ele apresenta em seu trabalho como o extrator HOG pode representar imagens de profundidade, inclusive como a concatenação das duas informações são melhores que os valores isolados. Após a geração de ambos os vetores, eles são concatenados e enviados para o classificador, que realiza a predição da zona de visualização do motorista.

O objetivo deste experimento foi avaliar se a fusão das informações de imagem colorida ou infravermelha com a informação de profundidade, aumenta a acurácia do modelo. Durante os experimentos constatou-se que não seria interessante testar as imagens coloridas, infravermelhas e de profundidade concatenadas, devido ao fato de não ser útil para uso em uma aplicação real, isso porque durante a coleta de imagens a noite as imagens coloridas não estariam disponível com uma qualidade aceitável por causa de falta de iluminação.

Figura 5.5 – Arquitetura do modelo baseado em algoritmo tradicional com o extrator de características HOG aplicado sobre as imagens de coloridas/infravermelhas e de profundidade juntas.

Os parâmetros utilizados para extrair o vetor de características HOG foi o mesmo visto na seção anterior, e foi aplicado para todos os tipos de imagens. Assim sendo, o vetor de características total para treinamento das imagens RGB+Profundidade e IR+Profundidade ficaram com o tamanho total de 2304, onde cada imagem representa 1152 elementos. Nesta arquitetura também utilizamos o algoritmo PCA para realizar a redução de dimensionalidade do vetor de dados e um novo modelo foi treinado, o mesmo valor de 95% da variância para representar os dados foi utilizado e desta forma reduzimos o vetor para 1200 elementos.

O algoritmo T-SNE foi aplicado ao novo conjunto de dados a fim de anali- sarmos o novo vetor de características e tentar identificar se alguma classe foi melhor separada. Na Figura 5.6 apresentamos o gráfico dos valores T-SNE obtidos para os dados dos vetores reduzidos via PCA. Os dados do rótulo referente ao espelho retrovisor esquerdo(2) foram os que mais ficaram separados perante os outros rótulos, similarmente ao que ocorreu anteriormente e da mesma forma, os outros rótulos permaneceram sem uma definição clara. O extrator HOG valoriza os contornos e regiões que apresentam va- riações abruptas de intensidade, que pode ajudar na distinção dos rótulos presentes em nosso trabalho.

Figura 5.6 – Visualização T-SNE sobre as imagens coloridas junto com a de profundidade a esquerda e sobre as imagens infravermelhas mais a de profundidade a direita. Em ambos os caso o T-SNE foi executado sobre os dados reduzidos via PCA. Onde, espelho retrovisor esquerdo(2), espelho retrovisor direito(6), painel multimídia(8), painel de instrumentos(9), espelho retrovisor central e visão frontal(13).

O treinamento realizado com as imagens colorida e infravermelha com as de profundidade seguiu os mesmos ritos que o modelo anterior, foi feito uma busca via

grid search exatamente com os mesmos parâmetros descritos anteriormente. O melhor

resultado obtido para os novos modelos se deram com os seguintes parâmetros, para o classificador SVM: C igual a 15, gamma igual a 0,0001, kernel igual a rbf, decisão via OvR(One vs Rest) ou um vs todos.

Sobre os resultados obtidos com os novos modelos treinados, podemos verificar na Tabela 5.2 que apesar de os modelos conseguirem uma acurácia de 99% durante a fase de treinamento, os modelos sem a redução de dimensionalidade dos dados obtiveram um resultado muito inferior aos modelos treinados com os dados reduzidos. O modelo treinado com as imagens coloridas foi o que obteve a maior diferença, aumentando de 17% para 83%. Este também foi o melhor resultado dentre os experimentos com SVM.

A análise das matrizes de confusão auxilia na compreensão dos resultados. Na figura 5.7, o modelo treinado concentrou sua predição somente nos rótulos do painel multimídia(8) e visão frontal do vidro(13), refletindo em um resultado ruim na acurácia total. O modelo com as imagens infravermelhas e de profundidade sem redução de dimensionalidade, também não apresentaram resultados satisfatórios e foi apenas um pouco melhor que o apresentado na seção anterior, pois classificou o rótulo do painel de instrumentos(9) além dos dois rótulos mencionados anteriormente. Quando analisamos os resultados dos dados das matrizes de confusão dos modelos treinados com os dados reduzidos via PCA (Figura 5.4), ambos os modelos conseguiram classificar de forma mais acurada os rótulos do espelho retrovisor esquerdo(2), espelho retrovisor direito(6) e painel multimídia(8), com mais de 90% de precisão apresentando, porém, alguns conflitos entre

HOG + SVM HOG + PCA + SVM Acurácia Treino Acurácia Testes Acurácia Treino Acurácia Testes RGB+Prof. 99% 17% 99% 83% IR+Prof. 99% 45% 99% 77%

Tabela 5.2 – Tabela com a acurácia obtida durante treino e testes das imagens RGB e IR concatenadas com as imagens de profundidade.

os rótulos do painel de instrumentos(9), espelho retrovisor central(11), e visão frontal do vidro(13). Podemos observar que o rótulo do painel multimídia(8) classificou mais de 37% das imagens de forma errada em ambos os modelos. Vale ressaltar que nos rótulos do painel multimídia(8) e espelho retrovisor central(11) a posição da cabeça é praticamente a mesma, alterando somente o ponto de visão e o mesmo acontece entre os rótulos painel de instrumentos(9) e visão frontal do vidro(13).

Em resumo, o modelo utilizando as imagens coloridas RGB combinado às imagens de profundidade, foi o que apresentou melhor desempenho, porque teve um acerto maior na classificação dos rótulos do painel de instrumentos(9), espelho retrovisor central(11), e visão frontal do vidro(13). Como o modelo é baseado em imagens coloridas, que são capturadas somente durante o dia, o modelo não pode ser considerado adequado para imagens capturadas durante a noite.

Figura 5.7 – Matriz de confusão dos modelos HOG+SVM, a esquerda o resultado das imagens coloridas e as imagens infravermelha a direita

Figura 5.8 – Matriz de confusão dos modelos HOG+PCA+SVM, a esquerda o resultado das imagens coloridas e as imagens infravermelha a direita

Em relação à velocidade de processamento do fluxo de dados deste modelo via CPU, o tempo para extrair o HOG continua o mesmo, todavia é multiplicado por 2, por causa da imagem colorida e de profundidade. Assim, tem-se 80 ms para gerar o vetor de características, 25 ms para executar a redução de dimensionalidade e o tempo gasto para o classificador SVM computar a predição é de 11 ms, totalizando 116 ms, ou seja, mais de duas vezes o tempo de execução total do modelo anterior para um acréscimo de apenas 2% na acurácia total (resultado RGB+Prof.) e este modelo não conseguirá trabalhar durante a noite.

5.4 Modelo Rede Neural treinada com Tipos de imagens diferentes

separadamente

As próximas arquiteturas avaliadas foram as redes neurais convolucionais. O fluxo de dados apresentado na Figura 5.9 detalha o processamento passo a passo. O fluxo se inicia pela entrada da imagem fornecida pela câmera, onde todos os tipos de imagens foram avaliados separadamente, ou seja, alguns modelos foram treinados utilizando somente as imagens coloridas, outros utilizaram somente as imagens infravermelhas ou as imagens de profundidade. Devido às características de generalização destas redes, alguns modelos foram treinados utilizando-se a todos os tipos de imagens simultaneamente.

O primeiro passo de processamento consiste no recorte (crop) das imagens de entrada (face somente ou face+contexto). Em seguida, as imagens são redimensionadas para o tamanho 128 x 128 pixels. Outro processo realizado foi a normalização dos dados das imagens para valores entre 0 e 1, isso foi realizado dividindo cada pixel da imagem

por 255 que é o maior número que cada pixel pode ter. Na sequência, a imagem é enviada para a rede neural e a zona de visualização é obtida no final do processo.

Figura 5.9 – Arquitetura empregada no modelo baseado em redes neurais utilizando somente um tipo de imagem por vez (RGB ou IR ou Profundidade)

Conforme discutido no Capítulo 4, as redes utilizadas foram: a rede VGG com 16 níveis (VGG16), a rede ResNet com 50 níveis (ResNet50), a rede SqueezeNet e a rede MobileNet versão 2. O processo de transferência de aprendizado foi utilizado em todas as redes, onde todos os níveis da rede foram retreinados utilizando-se o otimizador Adam (KINGMA; BA, 2014) com uma taxa de aprendizado de 0,0001, que é cerca de 1000 vezes menor do que parâmetro em que a rede foi originalmente treinada. A função de custo utilizada foi a de entropia cruzada por categoria (cetegorical cross entropy). Todas as redes foram retreinadas com os pesos iniciais de modelos pré-treinados na base de dados da ImageNet. A última camada das redes foram alteradas de uma camada densa de 1000 classes (classe ImageNet), para uma de 6 classes que são os diferentes pontos de zona de visualização do motorista. Todas as redes foram treinadas em 200 épocas, com batch de 32 imagens, ou seja a rede irá processar 32 imagens antes de realizar o backpropagation para atualizar os parâmetros da rede. Todavia, utilizamos o processo chamado de early

stop, que é um artifício utilizado para finalizar o treinamento caso a acurácia sobre os

dados de validação não aumentasse após 10 épocas. A maioria das redes apresentaram incremento de aprendizagem até aproximadamente a época 50.

A Figura 5.10 apresenta exemplos das curvas de acurácia e perda obtidas para o treinamento das redes VGG16 (gráficos superiores) e ResNet50 (gráficos inferiores), para imagens coloridas e infravermelhas, respectivamente. As curvas mostram que os modelos estão de fato aprendendo sobre as imagens dos motoristas fornecidos e que não estamos entrando em overfitting.

Figura 5.10 – Exemplo de duas redes neurais treinadas sobre os dados dos motoristas, na parte superior os dados da acurácia e função custo utilizando uma rede VGG16 sobre as imagens coloridas e na inferior a acurácia e função de custo utilizando uma rede ResNet50 sobre as imagens infravermelhas

Os resultados de acurácia das redes treinadas são apresentados na Tabela 5.3. Para as imagens coloridas (RGB) o melhor resultado foi obtido pela rede MobileNet, com acurácia de 87%. Este modelo também foi que obteve a melhor acurácia geral. Com exceção da rede ResNet50, todas as outras redes também obtiveram acurácia superior a 80% para imagens coloridas.

Para imagens infravermelhas, a rede SqueezeNet obteve a maior acurácia dentre as redes treinadas, com 85% de acurácia. Este pode ser considerado um resultado interessante uma vez que as imagens infravermelhas são as mais robustas à alteração de iluminação e podem ser utilizadas tanto durante o dia quanto à noite.

Os resultados com as imagens de profundidade foram os que apresentaram menor acurácia. Uma possível explicação para este desempenho é que estas imagens apresentam menor nível de detalhamento da face que os outros tipos de imagens e as redes convolucionais utilizadas foram pré-treinadas com imagens coloridas. Dentre as redes treinadas, destaca-se que a imagens de profundidade foi o menor de todos os modelos treinados, sendo o menor de todos a rede MobileNet v2 com uma acurácia de somente 36%, mostrando que a rede MobileNet v2 sofre mais com a menor quantidade de informações

VGG16 ResNet50 MobileNet v2 SqueezeNet MobileNet v2 Treino RGB+IR+PROF SqueezeNet Treino RGB+IR+PROF RGB 83% 76% 87% 83% 83% 83% IR 78% 80% 80% 73% 83% 85% PROF. 78% 80% 76% 73% 36% 76%

Tabela 5.3 – Tabela com a acurácia obtida durante treino e testes das imagens coloridas, infravermelhas e de profundidade utilizadas de forma separadas. Os modelos das duas últimas colunas foram treinados utilizando todas as imagens para treinamento. A rede MobileNet v2 apresentou o melhor resultado (87%) para as imagens RGB, já para as imagens infravermelhas a rede SqueezeNet treinada com todas as imagens foi melhor (85%) e a ResNet50 obteve a melhor acurácia nas imagens de profundidade (80%).

que as imagens de profundidade proveem. No entanto, destaca-se que todas as outras redes obtiveram acurácia superior a 70%.

A análise dos resultados rótulo a rótulo, dos melhores classificadores para imagens coloridas, infravermelhas e de profundidade é uma forma de verificar como nosso modelo treinado se comportou na classificação de cada classe e também com uma classe pode estar interferindo em outra, para isso iremos analisar a matriz de confusão destas redes.

A figura 5.11 apresenta a matriz de confusão destes modelos. A primeira imagem à esquerda superior da figura 5.11 é a matriz de confusão que representa o melhor modelo sobre as imagens colorida dos motoristas. Obtivemos uma acurácia de mais de 90% para os rótulos representando o espelho retrovisor esquerdo(2), espelho retrovisor direito(6), painel multimídia(8) e espelho retrovisor central(11), que mostra que o modelo treinado conseguiu definir e classificar muito bem estas classes, já os rótulos referente ao painel de instrumentos e visão frontal obtiveram uma acurácia bem parecida em torno de 70% para as imagens coloridas, podemos também observar na tabela que existe uma confusão entre estes rótulos, com o rótulo visão frontal do motorista(13) classificando 19% das imagens como painel de instrumentos(9) e o rótulo que representa o painel de instrumentos(9) classifica 14% das imagens incorretamente como pertencentes do rótulo da visão frontal do motorista(13). Estes são os pontos pertencentes ao painel de instrumentos do veículo(9) e a visão frontal do motorista para a fora do veículo(13), ou seja, a posição da cabeça do motorista é praticamente a mesma, com pequenas variações de elevação, e o olho em si que normalmente aponta para diferentes posições. O classificador também estima algumas imagens erroneamente como rótulo representado pelo espelho retrovisor esquerdo(2), mas que pertencem a outros rótulos.

A segunda matriz avaliada é referente as imagens infravermelhas, ela se encontra na parte superior a direita da figura 5.11, este modelo também conseguiu obter uma

No documento Sistema de detecção de zona de visão do motorista utilizando câmera de profundidade (páginas 65-82)