Classifica¸c˜ao das regi˜oes - Perceção visual semântica de uma vinha para auxílio à navegação

Para efetuar a classifica¸cão das regiões das imagens recolhidas pelo robô, inicialmente, é necessário efetuar o treino da SVM, ou seja, “ensinar-lhe” o que é ou não um tronco e, para tal, é necessário recolher imagens de treino dessas mesmas regiões. Nesta implementa¸cão, as imagens de treino têm um tamanho fixo de 100×30 pixeis, uma vez que é uma resolu¸cão que se adequa bem ao tamanho dos troncos das imagens recolhidas, como é poss´ıvel observar na figura4.12. Com este tamanho de janela e utilizando uma resolu¸cão de 640×480 pixeis, um tronco que se encontre a uma distância de um a dois metros do robô ocupa uma região de 60 % a 90 % dessa mesma janela.

Considere-se como exemplo a recolha de 5000 imagens de treino, onde 2500 são de troncos e 2500 são de outras regiões. É necessário que essas imagens estejam separadas por classes, ou seja, têm que ser criados dois grupos de imagens (data/true, com imagens das regiões dos troncos e data/false, com imagens de outras regiões), isto porque é necessário fornecer à SVM as imagens e a informa¸cão de qual dos grupos contém as imagens dos troncos e qual contém as imagens das outras regiões. Neste caso as imagens dos troncos serão definidas como sendo o grupo positivo e as outras imagens como sendo o grupo negativo.

O próximo passo consiste em obter o descritor para cada uma dessas imagens, utilizando um dos três descritores apresentados anteriormente e, depois disto, finalmente poderá ser feito o treino da SVM utilizando esses mesmos descritores. Terminado o treino da SVM pode passar-se então ao processamento das várias regiões da imagem, comparando o descritor dessas regiões com os descritores “aprendidos” pela SVM. Por outras palavras, numa situa¸cão real, o robô captura imagens da vinha e vai processando cada uma das regiões centradas nos keypoints, onde essas regiões irão ser comparadas com o conjunto de regiões já conhecidas do mesmo local, capturadas previamente e sobre as quais se aplicou o treino da SVM. Em cada região processada, a SVM fornece um grau de confian¸ca para a perten¸ca

(a) AgrobV14 (b) AgrobV15

Figura 4.12 – Janelas de dimens˜ao 100×30 pixeis sobrepostas nos troncos das imagens recolhidas pelas trˆes plataformas AgrobV1X.

dessa mesma região a cada uma das classes. Imagine-se que se está a processar uma região que pertence a um tronco e o maior grau de confian¸ca obtido é o de ele pertencer à classe troncos. Neste caso, está-se perante uma correta classifica¸cão, no entanto, se for processada uma outra região que também contenha um tronco, mas que desta vez o maior grau de confian¸ca seja de ela não pertencer à classe dos troncos, está-se perante uma classifica¸cão errada. Para obter uma medida efetiva do modelo de classifica¸cão, é poss´ıvel criar uma matriz de confusão que mostra o número de classifica¸cões reais vs. classifica¸cões preditas para cada classe, relativamente a um conjunto de dados. Para tal é necessário um conjunto de imagens de teste, ou seja, imagens também recolhidas pelo utilizador que vão servir para

medir o grau de efetividade da classifica¸cão da SVM. Não esquecendo o exemplo de classifica¸cão apresentado anteriormente, e considerando agora que no processamento de duas regiões que não contêm troncos estas são corretamente classificadas como outra região, está-se perante duas classifica¸cões corretas de regiões que não contêm troncos e de uma classifica¸cão correta e outra errada de uma região que contém troncos. Desta forma, a matriz de confusão obtida neste caso seria a que se encontra apresentada na figura 4.13.

Figura 4.13 – Matriz de confus˜ao obtida considerando o exemplo apresentado.

Chega-se assim à etapa final do ViTruDe onde, o resultado obtido irá ser a dete¸cão de mastros e troncos, de forma a auxiliar na tarefa de localiza¸cão e navega¸cão de robôs móveis em ambientes agr´ıcolas, mais propriamente em vinhas de patamares.

5

_{Testes e resultados}

Neste cap´ıtulo é feita uma apresenta¸cão dos testes realizados e dos resultados obtidos durante o desenvolvimento deste trabalho. É ainda feita uma compara¸cão entre esses os vários resultados, tendo em conta as condi¸cões em que cada teste foi realizado.

5.1 Imagens recolhidas no terreno

O treino, os teste e a valida¸c˜ao da abordagem ViTruDe foram realizados com dados reais, adquiridos em ambiente de vinha, utilizando as plataformas AgrobV14, AgrobV15 e AgrobV16.

Inicialmente foram recolhidas imagens na Quinta das Bateiras, situada em Ervedosa do Douro, distrito de Viseu (41◦₁₀′_29.8′′_{N 7}◦₃₂′_46.4′′_{W). Essas imagens foram}

recolhidas com a plataforma AgrobV14 utilizando uma cˆamara NoIR da Raspberry Pi sem filtro azul. Na figura5.1 encontra-se apresentado um exemplo de uma frame dessas imagens.

Mais tarde foram recolhidas imagens numa vinha situada em ´area agr´ıcola da UTAD, situada em Vila Real (41◦₁₇′_05.9′′_{N 7}◦₄₄′_10.3′′_{W). Essas imagens foram recolhidas}

Figura 5.1– Imagens recolhidas pelo AgrobV14 na Quinta das Bateiras.

com a plataforma AgrobV15 utilizando as cˆamara RGB, NoIR sem filtro azul e NoIR com filtro azul, todas elas da Raspberry Pi. Exemplos das imagens recolhidas por estas cˆamaras encontram-se apresentados na figura 5.2.

As últimas imagens foram recolhidas também numa vinha da área agr´ıcola da UTAD mas num local diferente do anterior (41◦₁₇′_12.9′′_{N 7}◦₄₄′_08.6′′_{W). Essas imagens}

foram recolhidas com a plataforma AgrobV16 utilizando uma câmara Mako G-125. Trata-se de uma câmara GigE industrial com um sensor CCD ICX445 da Sony, inclui Power over Ethernet (PoE), ou seja, a câmara é alimentada eletricamente através da porta Ethernet e possui um buffer de imagem de 64MB. Na figura 5.3

encontra-se apresentado um exemplo das imagem recolhidas por essa cˆamara. Todas estas imagens, bem como outros dados (e.g. LRF, IMU, GPS, entre outros) foram armazenados em ficheiros ROS bag aquando da sua recolha e o download dos mesmos pode ser efetuado em: http://agrob.inesctec.pt/downloads/

Durante a realiza¸cão deste trabalho, de forma a validar todas as técnicas imple- mentadas, foram efetuados vários testes, sendo que, para isso foi utilizada uma implementa¸cão da SVM baseada na biblioteca LIBSVM e todos eles foram realizados num computador portátil com processador Intel Quad Core i7-4700HQ (@ 2.4 GHz), 12 GB de memória RAM, e o sistema operativo Ubuntu 14.04 LTS.

(a) RGB. (b) NoIR sem filtro azul.

Figura 5.2– Imagens recolhidas pelo AgrobV15 na UTAD.

5.2 Testes realizados com imagens recolhidas pelo

AgrobV14

Os testes realizados inicialmente tiveram como objetivo descobrir qual o impacto da utiliza¸c˜ao de keypoints no tempo de processamento de cada frame e, para tal, foram utilizadas as imagens recolhidas atrav´es da plataforma AgrobV14. Para o treino da SVM, foram utilizadas 1200 imagens, sendo que 600 delas eram relativas a zonas da imagem com troncos e as outras 600 eram relativas a zonas da imagem sem troncos, cujo download pode ser efetuado em: http://agrob.inesctec.pt/downloads/. De cada uma destas imagens foi obtido o seu descritor para assim efetuar o treino

Figura 5.3 – Imagens recolhidas na UTAD pela plataforma AgrobV16 utilizando a cˆamara Mako G-125 sem filtro de infravermelho e com filtro azul.

da SVM, sendo que, estes primeiros testes foram realizados utilizando apenas o descritor hLBP by Colour.

Estes testes serviram também para obter uma estimativa preliminar da precisão do descritor e, para tal, recorreu-se à cria¸cão de uma matriz de confusão. Para a cria¸cão dessa matriz, foram utilizadas 240 imagens de teste, onde 120 representavam zonas com troncos e as restantes 120 representavam as regiões sem troncos.

O primeiro teste consistiu em processar as imagens no espa¸co de cor RGB, utilizando a SVM com um kernel do tipo RBF (com o parâmetro γ por defeito) e sem a utiliza¸cão de qualquer técnica de dete¸cão de keypoints, permitindo assim ter um ponto de referência para o tempo de processamento de cada frame. Embora não sejam utilizados keypoints, não foram processados todos os pixeis da imagem, uma vez que iriam ser obtidos tempos de processamento muito elevados. Desta forma, a cada itera¸cão eram incrementadas 10 unidades às coordenadas do pixel a processar, ou seja, cada vez que um pixel era processado, e tomando como exemplo o pixel (20,50), o próximo pixel a processar seria o que se encontrava na mesma coluna mas 10 pixeis a baixo, (20,60). Assim que se chegava ao fim de uma coluna passava- se para a coluna ao lado incrementando também 10 pixeis, passando para o pixel (30,00). Com esta configura¸cão, foi obtida a matriz de confusão apresentada na figura5.4, onde o erro na dete¸cão das regiões com troncos ronda os 15,83 % e o erro

na dete¸c˜ao das regi˜oes sem troncos ronda os 24,17 %.

Figura 5.4 – Matriz de confus˜ao obtida utilizando um kernel RBF e sem usar keypoints.

Relativamente à dete¸cão dos troncos pode verificar-se que bastantes troncos ficaram por detetar, como é poss´ıvel observar nas duas frames da figura5.5, em que nenhum dos troncos apresentados foi detetado. Ainda assim, em várias situa¸cões, os troncos foram corretamente detetados como se pode ver na figura 5.6.

Figura 5.5– Troncos n˜ao detetatos utilizando um kernel RBF e sem usar keypoints.

O facto de não ser utilizado qualquer tipo de técnica de dete¸cão de keypoints no processamento das frames, levou a que este se tornasse bastante lento. Este tipo de processamento não apresenta um desempenho eficaz uma vez que são processadas, várias vezes, áreas praticamente iguais. Utilizando como exemplo o tronco central

Figura 5.6– Troncos detetatos utilizando um kernel RBF e sem usar keypoints.

(dos detetados) presente na imagem do lado direito da figura5.6, onde pode observar- se que esse tronco ficou assinalado por oito retângulos quando apenas um ou dois seriam suficientes para cobrir toda a área do mesmo. Uma vez que a apresenta¸cão dos tempos de processamento de todas as frames do v´ıdeo não seria uma boa prática e seria bastante ma¸cador, a compara¸cão dos tempos de processamento entre as várias configura¸cões foi baseado na média dos tempos de processamento obtidos para 50 frames. Para a configura¸cão apresentada anteriormente, a média, o desvio padrão e o valor m´ınimo e máximo obtidos foram os seguintes:

• M´edia: 4,0036 seg/frame; • Desvio padr˜ao: 0,0471; • M´ınimo: 3,9326;

• M´aximo: 4,1328.

De forma a tornar o processamento das frames mais rápido, foram extra´ıdos keypoints das imagens onde, como já foi referido no cap´ıtulo anterior, essa extra¸cão consistiu, inicialmente, em encontrar pontos de interesse utilizando um detetor de arestas Canny, isto porque, é inútil tentar encontrar um tronco numa região onde nem sequer estas existam. De seguida foi implementada ainda a restri¸cão que

consiste em processar apenas os pixeis que se encontrem a uma distância euclidiana superior a 70 pixeis em rela¸cão ao pixel processado anteriormente, havendo assim uma diminui¸cão ainda maior do número de regiões a processar. Um caso bem exemplificativo de onde esta restri¸cão surtiu efeito encontra-se apresentado no tronco mais à esquerda na figura5.8, onde, os dois retângulos sobre ele, estão alinhados na horizontal e se encontram desfasados de 70 pixeis na vertical.

A matriz de confusão obtida utilizando esta “configura¸cão” foi a mesma da configura¸cão anterior, figura 5.4, tal como era de esperar, uma vez que a adi¸cão do detetor de arestas e da restri¸cão da distância não está relacionado com o treino da SVM e desta forma não influenciou a classifica¸cão das regiões.

Como era de esperar, os melhoramentos do algoritmo refletiram-se claramente no tempo de processamento, que foi drasticamente reduzido. Os novos valores da média, do desvio padrão e do valor m´ınimo e máximo obtidos foram os seguintes:

• M´edia: 0,2938 seg/frame; • Desvio padr˜ao: 0,0374; • M´ınimo: 0,2275;

• M´aximo: 0,3533.

Com o objetivo de diminuir ainda mais o tempo de processamento, foi adicionada ainda a restri¸cão do valor de LBP, ou seja, passaram assim a ser processados apenas os pixes que representem arestas, que se encontrem a uma distância superior a 70 pixeis do pixel processado anteriormente e que possuam um LBP de valor 34. Aplicando esta nova restri¸cão, os tempos de processamento diminu´ıram, obtendo-se assim os seguintes valores da média, do desvio padrão e do valor m´ınimo e máximo:

• M´edia: 0,2492 seg/frame; • Desvio padr˜ao: 0,0103;

• M´ınimo: 0,2189; • M´aximo: 0,2760.

Relativamente à dete¸cão dos troncos pode verificar-se que com esta configura¸cão, tal como na anterior, houveram bastantes troncos que ficaram por detetar e também bastantes troncos que foram detetados em zonas onde estes não existem, como é poss´ıvel visualizar na figura 5.7.

Figura 5.7– Troncos não detetados e troncos detetados onde estes não existem, utilizando um kernel RBF e usando a técnica de dete¸cão de keypoints baseada no detetor de arestas, na distância ao último pixel processado e no valor de LBP.

Ainda assim, num grande número de situa¸cões os troncos foram corretamente detetados, como se pode visualizar no caso apresentado na figura 5.8. Contudo, neste caso, ao contrário do anterior, os troncos não se encontram detetados por um grande número de retângulos, por exemplo, o tronco central (dos detetados) ainda da figura 5.8 foi detetado em apenas duas regiões (dois retângulos) que, como se pode ver, são suficientes para englobar todo o tronco, ao contrário do que tinha acontecido no caso anterior em que o mesmo tronco tinha sido detetado em oito regiões.

De seguida, foram ainda efetuados testes utilizando um outro tipo de kernel. Anteriormente estava a ser utilizado um kernel do tipo RBF e agora passou a ser utilizado um kernel linear. Relativamente `a matriz de confus˜ao obtida, neste caso,

Figura 5.8– Troncos detetados corretamente utilizando um kernel RBF e usando a técnica de dete¸cão de keypoints baseada no detetor de arestas, na distância ao último pixel processado e no valor de LBP.

poderia ser diferente, contudo, foi obtida uma matriz com os mesmo valores da obtida usando um kernel RBF. No que diz respeito aos tempos de processamento, foram obtidos tempos baixos uma vez que se trata de um tipo de kernel mais simples. Os valores obtidos para esta configura¸c˜ao foram os seguintes:

• M´edia: 0,1353 seg/frame; • Desvio padr˜ao: 0,0056; • M´ınimo: 0,1145;

• M´aximo: 0,1461.

Relativamente à dete¸cão dos troncos foi poss´ıvel verificar-se que, tal como em todas as configura¸cões anteriores, houveram bastantes troncos que ficaram por detetar, figura5.9, contudo foi detetado um maior número de troncos, como se pode observar na figura 5.10.

Em contrapartida, foram também detetados, em maior quantidade, troncos em zonas onde estes não existem (principalmente na região das folhas e dos muros), como é poss´ıvel visualizar nas frames apresentadas na figura 5.11.

Figura 5.9 – Troncos não detetados utilizando um kernel linear e usando a técnica de dete¸cão de keypoints do teste anterior.

Figura 5.10– Troncos detetados corretamente utilizando um kernel linear e usando a t´ecnica de dete¸c˜ao de keypoints do teste anterior.

Durante os testes até aqui realizados constatou-se que os mastros que sustentam os bardos das videiras são detetados com maior eficácia do que os troncos. Exemplos disso encontram-se nas duas frames da figura5.12, onde, por exemplo, na frame do lado direito existe um mastro que se encontra relativamente longe do robô e ainda assim foi detetado com sucesso. Isto deve-se ao facto de os mastros presentes nesta vinha serem todos praticamente iguais e de possu´ırem uma geometria mais regular que os troncos (que poderão ter diferentes diâmetros, que poderão ser retos, curvos, inclinados, entre outras varia¸cões). É de salientar que os mastros foram detetados como sendo troncos, uma vez que, fazem parte do conjunto de imagens de treino

Figura 5.11 – Troncos detetados em regiões onde estes não existem, utilizando um kernel linear e usando a técnica de dete¸cão de keypoints do teste anterior.

das regiões dos troncos. Caso seja necessário diferenciá-los, poderia ser criada uma classe apenas com imagens de mastros.

Figura 5.12 – Mastros que sustentam os bardos das videiras detetados com sucesso.

Ao longo da apresenta¸cão destes testes tem vindo a ser referido que há um grande número de troncos que não foram detetados e que foram detetados troncos onde estes não existem. Isto deve-se, em parte, ao facto de o classificador usado para treinar a SVM se basear na cor e, como as imagens têm uma tonalidade acastanhada essa informa¸cão de cor não permite efetuar a diferencia¸cão mais acertada. As imagens ficaram com este tom acastanhado devido ao facto de terem sido obtitas utilizando a câmara NoIR sem filtro azul. Desta forma foi efetuada a captura de

novas imagens com cores reais, com o intuito de verificar se a decisão da classe a que cada sub-imagem pertence irá ser melhor conseguida. Foram assim recolhidas novas imagens utilizando a câmara RGB da Rapberry Pi e dessas mesmas imagens foram seleccionadas 1000 imagens para o treino (500 das regiões dos troncos e 500 de outras regiões) e 300 para o teste da SVM (150 das regiões dos troncos e 150 de outras regiões. Utilizando a configura¸cão do teste anterior (kernel linear e dete¸cão de keypoints baseada no detetor de arestas, na distância ao último pixel processado e no valor do LBP), alterando apenas a câmara responsável pela captura das imagens, os resultados foram mais satisfatórios. A matriz de confusão obtida encontra-se apresentada na figura 5.13, onde o erro na dete¸cão das regiões com troncos desceu para os 4,67 % e o erro na dete¸cão das regiões sem troncos desceu para os 5,33 %

Figura 5.13 – Matriz de confusão obtida utilizando as imagens da câmara RGB e a configura¸cão do teste anterior.

O tempo de processamento de cada frame bem como o desvio padrão e valor máximo e m´ınimo para a configura¸cão utilizada foram os seguintes:

• M´edia: 0,0682 seg/frame; • Desvio padr˜ao: 0,0024; • M´ınimo: 0,0630;

Neste caso n˜ao se pode fazer uma compara¸c˜ao direta com os testes anteriores, uma vez que se tratam de imagens diferentes e, o menor tempo de processamento pode dever-se ao facto de ter sido detetada uma menor quantidade de keypoints.

Quanto aos resultados obtidos no processamento das frames, continuam a existir troncos que ficaram por detetar, figura5.14, principalmente nas regiões onde existem troncos mais irregulares, contudo em menor quantidade. O número de dete¸cões de troncos em regiões onde estes não existem, também foi reduzido drasticamente, sendo muito raras as vezes em que isto aconteceu.

Figura 5.14– Troncos não detetados utilizando as imagens da câmara RGB e a configura¸cão do teste anterior.

A dete¸cão dos troncos foi bastante bem conseguida uma vez que quase todos os troncos foram bem detetados, mesmo tendo uma estrutura bastante irregular, figura 5.15. Foram obtidos melhores resultados com estas imagens uma vez que o facto de estas possu´ırem mais informa¸cão de cor, levaram à cria¸cão de um descritor mais preenchido e, desta forma, mais detalhado e único para cada região, como é poss´ıvel observar nos dois descritores em forma de histograma apresentados na figura 5.16.

Figura 5.15 – Troncos detetados corretamente utilizando as imagens da cˆamara RGB e a configura¸c˜ao do teste anterior.

5.3 Testes realizados com imagens recolhidas pelo

AgrobV15

Mais tarde foram realizados novos testes mais exaustivos com imagens recolhidas utilizando o plataforma AgrobV15, sendo que, para o treino e teste da SVM, foram constru´ıdos seis conjuntos de dados diferentes. Esses conjuntos foram constru´ıdos utilizando as três configura¸cões de câmara já aqui referidas (RGB, NoIR sem filtro azul e NoIR com filtro azul). Em todas as configura¸cões as imagens recolhidas pelo

No documento Perceção visual semântica de uma vinha para auxílio à navegação de robôs (páginas 138-200)