Detecção de ultrapassagens veiculares irregulares através da análise de imagens

(1)

SUL

DEPARTAMENTO DE CIÊNCIAS EXATAS E ENGENHARIAS CURSO DE ENGENHARIA ELÉTRICA

MARCO AURÉLIO FURMANN

DETECÇÃO DE ULTRAPASSAGENS VEICULARES IRREGULARES ATRAVÉS DE ANÁLISE DE IMAGENS

Santa Rosa 2019

(2)

DETECÇÃO DE ULTRAPASSAGENS VEICULARES IRREGULARES ATRAVÉS DA ANÁLISE DE IMAGENS

Trabalho de Conclusão de Curso de Engenharia Elétrica, apresentado ao colegiado da Universidade Regional do Noroeste do Estado do Rio Grande do Sul – UNIJUÍ, como requisito parcial para obtenção do título de Engenheiro Eletricista.

Orientador: Prof. Me Mauro Fonseca Rodrigues

Santa Rosa 2019

(3)

DETECÇÃO DE ULTRAPASSAGENS VEICULARES IRREGULARES ATRAVÉS DA ANÁLISE DE IMAGENS

Este Trabalho de Conclusão de Curso foi julgado adequado para a obtenção do título de BACHAREL EM ENGENHARIA ELÉTRICA e aprovado em sua forma final pelo professor orientador e pelos membros da banca examinadora.

Santa Rosa, fevereiro de 2019.

Prof. Mauro Fonseca Rodrigues Mestre pela Universidade Federal de Santa Maria – Orientador

BANCA EXAMINADORA

Profª. Taciana Paula Enderle Mestre pela Universidade Federal de Santa Maria

(4)

AGRADECIMENTOS

Agradeço primeiramente a Deus, por ter me dado saúde e força para superar os obstáculos dessa jornada.

À minha esposa Karine, com quem amo partilhar a vida, pelo carinho e apoio incondicionais.

Aos meus familiares, em especial aos meus pais, Bronislau e Míria, pelo incentivo e apoio, e pelo exemplo de vida.

Ao meu orientador, Prof. Mauro Fonseca Rodrigues, pelo suporte oferecido na idealização desse trabalho, pelas suas correções e incentivos.

A todos os amigos, colegas e professores que convivi durante esses anos da graduação, pela amizade e companheirismo, e pelos conhecimentos compartilhados.

(5)

RESUMO

Furmann, Marco Aurélio. Detecção de ultrapassagens veiculares irregulares

através de análise de imagens. 2019. Trabalho de Conclusão de Curso. Curso de

Engenharia Elétrica, Universidade Regional do Noroeste do Estado do Rio Grande do Sul – Unijuí, Santa Rosa.RS, 2019.

Acidentes de trânsito compõem atualmente um problema de saúde global. Entre as mais diversas ocorrências, as colisões frontais ocorridas em pistas simples, são as responsáveis pelo maior número de mortes nas estradas brasileiras. Segundo levantamentos do Instituto de Pesquisa Econômica Aplicada (IPEA) no Brasil, essas colisões são causadas principalmente devido a manobras de ultrapassagem ilegais. O grande problema situa-se no fato de que não existem equipamentos eletrônicos consolidados destinados a fiscalizar esse tipo de infração, cabendo somente a um número insuficiente de agentes de campo. Nesse sentido, o presente trabalho visa desenvolver uma ferramenta de detecção automática de ultrapassagens veiculares irregulares, através da aplicação de técnicas de processamento e análise de imagens de tráfego. Para tanto, desenvolveu-se um algoritmo em plataforma MATLAB, o qual contempla basicamente processos matemáticos de manipulação e alteração de pixels, dados principalmente por segmentação e operações de morfologia matemática, de forma a detectar veículos e o tipo de faixa de uma rodovia. Ao final, é possível determinar se no trecho analisado a ultrapassagem é permitida ou não, e com isso também constatar se ocorre ou não uma ultrapassagem irregular.

Palavras-chave: Processamento de imagens digitais com MATLAB. Morfologia

(6)

ABSTRACT

Furmann, Marco Aurélio. Detection of irregular vehicular overtaking through

image analysis. 2019. Course Completion Work. Course of Electrical Engineering,

Regional University of the Northwest of the State of Rio Grande do Sul – Unijuí, Santa Rosa, 2019.

Traffic accidents currently comprise a global health problem. Among the most diverse occurrences, frontal collisions occurring on simple highways are responsible for the highest number of deaths on Brazilian roads. According to surveys by the Institute for Applied Economic Research (IPEA) in Brazil, these collisions are mainly caused by illegal overtaking maneuvers. The main problem is the fact that there are no consolidated electronic equipment to supervise this type of infraction, and only an insufficient number of field agents. In this sense, the present work aims to develop an automatic detection tool for irregular vehicular overtakings, through the application of traffic image processing and analysis techniques. For that, an algorithm was developed in MATLAB platform, which basically contemplates mathematical processes of manipulation and alteration of pixels, given mainly by segmentation and operations of morphology, in order to detect the type of track of a highway. At the end, it is possible to determine whether or not the overtaking is allowed in the analyzed section, and also to verify whether or not an irregular overtaking occurs.

Keywords: Digital imagem processing with MATLAB. Mathematical Morphology.

(7)

LISTA DE FIGURAS

Figura 1 - Ultrapassagem irregular em rodovia simples de mão dupla. ... 16

Figura 2 - (a) Um único sensor de aquisição de imagens. (b) Matriz de sensores. ... 17

Figura 3 - Processo de aquisição de uma imagem digital. ... 18

Figura 4 – Influência da variação dos parâmetros N, M e G na qualidade uma imagem monocromática. (a) 200 x 200 pixels/256 níveis (b) 100 x 100 pixels/ 256 níveis. (c) 25 x 25 pixels/ 256 níveis. (d) 200 x 200 pixels / 2 níveis. ... 20

Figura 5 - Sistema de coordenadas de uma imagem digital. ... 21

Figura 6 - Níveis de cinza (0 – 255). ... 21

Figura 7 – Imagem digitalizada com resolução de 100 pixels e 256 níveis de cinza. 22 Figura 8 - Decomposição dos três canais de cores de uma imagem RGB. ... 23

Figura 9 - Conceito de vizinhança de pixels. (a) Conectividade +4. (b) Conectividade x4. (c) Conectividade 8. ... 24

Figura 10 - Processamento Digital de Imagens... 25

Figura 11 - Níveis de processamento de imagens. ... 25

Figura 12 - Exemplo de histograma para uma imagem de 128 x 128 pixels, com 8 níveis de cinza. (a) Tabela de dados; (b) Histograma. ... 27

Figura 13 - Imagens monocromáticas e seus respectivos histogramas. (a) Imagem escura; (b) Imagem clara. ... 28

Figura 14 - Aplicação da técnica de expansão de histograma. (a) Imagem original e respectivo histograma; (b) Imagem com contraste aprimorado e novo histograma. . 29

Figura 15 - Aplicação da técnica de compressão de histograma. (a) Imagem original com respectivo histograma; (b) Imagem com contraste diminuído e novo histograma. ... 30

Figura 16 - Operação de convolução com máscaras. (a) Subárea de uma imagem; (b) Máscara 3 x 3. ... 31

Figura 17 - Máscara 3 x 3 genérica. ... 32

Figura 18 - Máscara para a detecção de pontos isolados. ... 33

Figura 19 – (a) Radiografia de uma lâmina de turbina de um motor de jato. (b) Imagem obtida após aplicação da técnica de detecção de pontos (ponto ampliado). ... 34

Figura 20 Máscara para detecção de linhas. (a) Horizontal (b) Vertical (c) +45º (d) -45º. ... 34

Figura 21 - Modelos de borda. (a) Ideal (b) Real. ... 35

Figura 22 - Borda real e representação de 1ª e 2ª derivadas. ... 35

Figura 23 - Máscaras detectoras de borda. (a) Roberts; (b) Prewitt. ... 36

Figura 24 - (a) Imagem original monocromática; (b) Realce de bordas utilizando o operador de Prewitt horizontal e vertical. ... 37

Figura 25 - (a) Máscara utilizada no cômputo do Laplaciano; (b) Imagem original monocromática; (c) Imagem após filtragem por (a). ... 38

Figura 26 - Histograma de níveis de cinza de uma imagem. ... 38

Figura 27 - Exemplo de imagem binarizada. ... 39

Figura 28 - (a) Imagem limiarizada; (b) Resultado da abertura sobre (a); (c) Resultado do fechamento sobre (b). ... 41

Figura 29 - Sistema de coordenadas para cálculo do Momento de um objeto. ... 43

Figura 30 - Sequência do PADI. ... 45

Figura 31 - Fluxograma resumido do algoritmo de detecção de ultrapassagens. ... 48

(8)

Figura 33 - Imagem base para elaboração do algoritmo de detecção. ... 49

Figura 34 – Situações simuladas. (a) Presença de faixa tracejada/seccionada amarela; (b) Condição de ultrapassagem irregular; (c) Condição normal de tráfego. ... 50

Figura 35 – Imagem adquirida da pista de mão dupla. ... 51

Figura 36 - Imagem da pista de mão dupla convertida para escala de cinza e respectivo histograma. ... 52

Figura 37 - Imagem com o brilho ajustado e respectivo histograma. ... 53

Figura 38 - Imagem com contraste ajustado e respectivo histograma. ... 54

Figura 39 - Região de interesse da pista e respectivo histograma. ... 55

Figura 40 - ROI da pista binarizada com Método de Otsu. ... 56

Figura 41 - ROI da pista com elementos desconexos (tachões) eliminados. ... 57

Figura 42 - Exemplos de elemento de estruturação do tipo 'line'. (a) LEN=9 e DEG=0. (b) LEN=3 e DEG=45; ... 57

Figura 43 - Elemento de estruturação criado para suavização das faixas. ... 58

Figura 44 - Sinalização horizontal da pista livre suavizada com erosão binária. ... 58

Figura 45 - Rotulação e total de objetos encontrados na ROI da pista. ... 60

Figura 46 - Indicação de presença de linha contínua na imagem adquirida. ... 60

Figura 47 - Imagem adquirida da pista de mão dupla. ... 61

Figura 48 - Imagem da pista de mão dupla e respectivo histograma. ... 61

Figura 49 - Imagem da pista de mão dupla com brilho ajustado. ... 62

Figura 50 - Imagem da pista de mão dupla com contraste ajustado. ... 62

Figura 51 - Seleção da região de interesse da pista de mão dupla e respectivo histograma... 63

Figura 52 - ROI da pista de mão dupla binarizada com Método de Otsu. ... 63

Figura 53 - ROI da pista de mão dupla com objetos desconexos eliminados. ... 64

Figura 54 - Sinalização da pista suavizada com erosão binária. ... 64

Figura 55 - Rotulação e número de objetos encontrados na ROI da pista de mão dupla. ... 65

Figura 56 - Indicação de linha tracejada - ultrapassagem permitida. ... 65

Figura 57 - Nova imagem adquirida da pista de mão dupla. ... 67

Figura 58 - Resultados obtidos após tarefas iniciais sobre Figura 57. (a) Conversão para escala de cinza; (b) Ajuste de brilho sobre (a); (c) Ajuste de contraste sobre (b). ... 67

Figura 59 - Resultados obtidos após processamento sobre Figura 58-c. (a) Seleção da ROI; (b) Binarização sobre (a); (c) Eliminação de objetos desconexos sobre (b); (d) Erosão binária sobre (c). ... 68

Figura 60 - Elementos de estruturação utilizados na dilatação binária. ... 68

Figura 61 - ROI da nova imagem após processo de dilatação binária sobre Figura 59(d). ... 68

Figura 62 - Indicação de condição normal (sem ultrapassagens detectadas). ... 69

Figura 63 - Nova imagem da pista com situação de descontinuidade de faixa. ... 70

Figura 64 - Conversão para escala de cinza. ... 70

Figura 65 - (a) Ajuste de brilho sobre Fig.64; (b) Ajuste de contraste sobre (a). ... 70

Figura 66 - (a) Seleção da ROI sobre Fig. 65-b; (b) Binarização utilizando Método de Otsu sobre (a); (c) Eliminação de objetos desconexos sobre (b); (d) Erosão binária sobre (c). ... 71

Figura 67 - Resultado da dilatação binaria realizado sobre Figura 66-d. ... 71

Figura 68 - Retorno dos pontos onde a descontinuidade foi detectada. ... 72

(9)

Figura 70 - ROI do objeto com contraste aprimorado e respectivo histograma... 73

Figura 71 - ROI do objeto binarizada. ... 73

Figura 72 - Elementos de estruturação utilizados na dilatação do objeto encontrado. ... 74

Figura 73 - (a) ROI do objeto com elementos desconexos eliminados; (b) Dilatação binária sobre (a). ... 74

Figura 74 – (a) Elemento de estruturação do tipo 'disk' utilizado no fechamento binário; (b) Elemento de estruturação do tipo ‘diamond’ utilizado na erosão binária. 75 Figura 75 – (a) Resultado de fechamento binário sobre Figura (73-b); (b) Erosão binária sobre (a). ... 75

Figura 76 - Apresentação da área e demais atributos do objeto encontrado. ... 76

Figura 77 - Condição de ultrapassagem irregular detectada. ... 76

Figura 78 – Parte I do Fluxograma completo. ... 88

Figura 79 - Parte II do Fluxograma completo. ... 89

(10)

LISTA DE ABREVIATURAS E SIGLAS

ADI Análise Digital de Imagens

A/D Analógica-Digital

Bitmap Mapa de bits

CCD Charge Coupled Device CID Charge Integrated Device

CNT Confederação Nacional do Transporte CONTRAN Conselho Nacional de Trânsito

IPEA Instituto de Pesquisa Econômica Aplicada JPG Joint Photographic Experts Group

MATLAB Matrix Laboratory

ONU Organização das Nações Unidas OMS Organização Mundial da Saúde

PADI Processamento e Análise Digital de Imagens PDI Processamento Digital de Imagens

PRF Polícia Rodoviária Federal ROI Region of Interest

SENAT Serviço Nacional de Aprendizagem do Transporte SEST Serviço Social do Transporte

(11)

1 INTRODUÇÃO ... 11 1.1 OBJETIVOS ... 12 1.1.1 OBJETIVO GERAL ... 12 1.1.2 OBJETIVOS ESPECÍFICOS ... 13 1.2 ESTRUTURA DO TRABALHO ... 13 2 REVISÃO BIBLIOGRÁFICA ... 15

2.1 ANÁLISE AUTOMÁTICA DE VEÍCULOS EM IMAGENS ... 15

2.2 IMAGEM ... 16

2.2.1 Aquisição e digitalização de imagens ... 17

2.2.2 Representação de imagens ... 18

2.2.3 Vizinhança e Conectividade de pixels ... 23

2.3 PROCESSAMENTO E ANÁLISE DIGITAL DE IMAGENS ... 24

2.3.1 Níveis de Processamento ... 25

2.4 TÉCNICAS DE TRANSFORMAÇÃO E ANÁLISE DE IMAGENS ... 26

2.4.1 Histograma de imagens ... 27

2.4.2 Operações de convolução com máscaras ... 30

2.4.3 Segmentação ... 32

2.4.4 Operações de Morfologia Matemática ... 40

2.4.5 Reconhecimento de objetos por características ... 42

2.5 MATLAB ... 44

3 METODOLOGIA ... 45

3.1 MÉTODO DE ABORDAGEM ... 45

3.2 TÉCNICAS DE PESQUISA ... 45

4 IMPLEMENTAÇÃO E ANÁLISE DE FUNCIONAMENTO DO ALGORITMO ... 49

4.1 DETECÇÃO DO TIPO DE SINALIZAÇÃO HORIZONTAL ... 50

4.1.1 Análise considerando a presença de faixa dupla continua ... 50

4.1.2 Análise considerando a presença de faixa tracejada/seccionada ... 61

4.2 DETECÇÃO DA DESCONTINUIDADE DE FAIXA ... 66

4.2.1 Análise considerando condição de normalidade (sem descontinuidade) ... 66

4.2.2 Análise considerando presença de descontinuidade de faixa ... 70

4.3 ANÁLISE DOS RESULTADOS ... 77

5 CONSIDERAÇÕES FINAIS ... 79

5.1 TRABALHOS FUTUROS ... 80

REFERÊNCIAS ... 82

APÊNDICE A – FLUXOGRAMA COMPLETO DO ALGORITMO ... 88

(12)

1 INTRODUÇÃO

Todos os anos milhões de pessoas morrem vítimas de acidentes de trânsito ao redor do mundo. Segundo a Organização Mundial da Saúde (OMS), em 2013 foram cerca de 1,2 milhões de pessoas que perderam suas vidas. Frente a isso, acidentes desse gênero passaram a compor um problema de saúde global segundo a Organização das Nações Unidas (ONU) (OMS, 2015).

No Brasil os números vêm aumentando desde 2009, colocando o país em primeiro lugar na América do Sul em número de óbitos no trânsito por habitante com cerca de 41.059 mortes em 2013 (OMS, 2015). Conforme Relatório de Pesquisa apresentado pelo Instituto de Pesquisa Econômica Aplicada (IPEA) em 2014 ocorreram 169.163 acidentes em estradas federais fiscalizadas pela Polícia Rodoviária Federal (PRF), totalizando 8.227 mortes e cerca de 100 mil feridos (BRASIL, 2015).

Ainda, segundo o relatório, entre as mais diversas ocorrências as colisões frontais ocorridas em pistas simples, foram as que caracterizaram o maior número de mortes, aproximadamente 92% (BRASIL, 2015). Nesse contexto, considerando a presença predominante de rodovias simples de mão dupla na malha viária brasileira (CNT; SEST; SENAT, 2017), ultrapassagens irregulares são um dos principais motivos que originam esse tipo de acidente.

Atualmente a fiscalização de trânsito no Brasil se concentra intensamente no “excesso” de velocidade, o que é evidenciado pelo crescente aumento de radares e dispositivos semelhantes nas rodovias. No entanto, esse aumento não tem mostrado resultado prático ao analisar as estatísticas de mortes no trânsito brasileiro nos últimos anos. Segundo Contesini (2015), os esforços deveriam se concentrar no sentido de aumentar a fiscalização principalmente de ultrapassagens indevidas, maior causadora de acidentes fatais, porém o maior problema é a falta de recursos e o número insuficiente de agentes.

A fiscalização das vias é realizada geralmente por agentes de trânsito posicionados em campo, muitas vezes utilizando de equipamentos eletrônicos como suporte. Mais recentemente, a partir de 2013, a Resolução nº 471 do Conselho Nacional de Trânsito (CONTRAN), autorizou o monitoramento em centrais de vídeo, dessa forma a fiscalização pode também ser realizada de forma remota (BRASIL, 2013).

(13)

Quanto à fiscalização eletrônica de trânsito, essa se divide em duas aplicações (MING, 2006):

• Aplicações metrológicas: medição do valor de uma grandeza física (velocidade) baseando-se na tecnologia de laços indutivos, a exemplo do radar fixo e da barreira eletrônica ou por meio de ondas eletromagnéticas (radar estático).

• Aplicações não metrológicas: não envolvem medição, apenas constatando ou identificando ocorrências. Por exemplo a fiscalização de invasão de semáforo vermelho ou de faixa exclusiva de ônibus. Nesse caso “a captura e o processamento de imagens constitui uma etapa importante no processo de fiscalização.” (MING, 2006).

Segundo Gupte e Masoud (2002 apud SANTOS, 2014) sistemas de fiscalização baseados em sensores com laços indutivos, laser e radar são tecnologias confiáveis e precisas já consolidadas, porém, sistemas coletores de dados baseados em imagem são mais versáteis, pois permitem, após aquisição, detectar várias informações ao mesmo tempo, além de possuírem maior alcance.

Tendo em vista o potencial do processamento de imagens em tarefas de monitoramento de tráfego de veículos e a diante da necessidade de uma maior fiscalização frente ao grave problema de acidentes no trânsito da sociedade atual, o presente trabalho visa desenvolver um sistema automático de detecção de ultrapassagens irregulares, através do processamento e análise de imagens de câmeras de monitoramento, com a finalidade de impulsionar o desenvolvimento desse tipo de tecnologia contribuindo para um trânsito mais seguro e com menos vítimas

1.1 OBJETIVOS

1.1.1 OBJETIVO GERAL

O presente trabalho tem como proposta desenvolver um sistema de detecção automática de infração de trânsito do gênero ultrapassagem, mais especificamente, elaborar um algoritmo que seja capaz de determinar quando um veículo realiza uma ultrapassagem na presença de linha dupla contínua ou simples contínua amarela.

(14)

1.1.2 OBJETIVOS ESPECÍFICOS

• Revisar a bibliografia em Processamento e Análise de imagens;

• Compreender conceitos de formação e representação de imagens digitais, tais como aquisição, resolução, topologia de pixels, entre outros.

• Retomar conceitos de programação no software Matrix Laboratory (MATLAB), explorando bibliotecas e comandos relacionados a visão computacional;

• Propor um método de detectar a ultrapassagem irregular em linha dupla contínua ou simples contínua amarela;

• Propor um método de detectar veículos a partir de uma imagem digital; • Realizar testes como o algoritmo implementado de forma a analisar o desempenho da aplicação desenvolvida.

1.2 ESTRUTURA DO TRABALHO

O presente trabalho está subdividido em 5 capítulos, incluindo a Introdução, conforme dados a seguir:

No Capítulo 1 tem-se a introdução do assunto. Destaca-se nessa etapa a justifica do tema a ser desenvolvido, assim como os objetivos gerais e específicos do estudo realizado.

No Capítulo 2 encontra-se a revisão da literatura. Nessa etapa são apresentados os conceitos de imagem, formas de aquisição, representação, e principais tipos utilizados. Também se têm evidenciado conceitos de processamento e análise de imagens, assim como as principais técnicas de transformação utilizadas nessa área.

No Capítulo 3 o método de abordagem e a técnica de pesquisa utilizada são apresentados. Trata-se de uma etapa que visa evidenciar a conexão entre os conceitos teóricos com o desenvolvimento do algoritmo, tratado no capítulo posterior. No Capítulo 4 tem-se a implementação do algoritmo de detecção de ultrapassagens. De maneira conjunta, é apresentada também a análise de funcionamento da ferramenta, através da descrição analítica das tarefas executadas. Os resultados obtidos também são avaliados.

(15)

No Capitulo 5, tem-se as considerações finais, na qual discute-se a funcionalidade da aplicação e a importância do presente estudo. Por fim, são sugeridos trabalhos futuros com o algoritmo.

(16)

2 REVISÃO BIBLIOGRÁFICA

2.1 ANÁLISE AUTOMÁTICA DE VEÍCULOS EM IMAGENS

Atualmente, ferramentas eficientes para observação e gerenciamento de tráfego de veículos são elaboradas a partir de sistemas baseados em imagem. Esses sistemas trouxeram grandes benefícios, de forma que ao adquirir e processar informações sobre o tráfego de veículos pode-se por exemplo: evitar congestionamentos, prevenir acidentes e detectar infrações

O processo de rastreamento de objetos tornou-se uma das tarefas mais importantes na área de visão computacional, dado que a base de qualquer aplicação envolvendo monitoramento de veículos advém da localização espacial do mesmo. Aliado a isso, tem-se difundido atualmente o estudo de métodos de detecção de ultrapassagem, principalmente a partir de câmeras embarcadas em veículos, como meio de alerta para o motorista em caso de ultrapassagem sobre seu veículo (SANTOS, 2014).

Conforme a Lei 9.503 (BRASIL, 1997, Anexo I) o termo ultrapassagem é definido como “movimento de passar à frente de outro veículo que se desloca no mesmo sentido, em menor velocidade e na mesma faixa de tráfego, necessitando sair e retornar à faixa de origem.”

“A ultrapassagem de outro veículo em movimento deverá ser feita pela esquerda, obedecida a sinalização regulamentar [..].” (BRASIL, Lei 9.503, 1997, Capítulo III, Art. 29).

Ainda, segundo o artigo 203 da Lei 9.503 (BRASIL, 1997) “Ultrapassar pela contramão outro veículo (Figura 1): [..] V – onde houver marcação viária longitudinal de divisão de fluxos opostos do tipo linha dupla contínua ou simples contínua amarela. Infração – gravíssima. Penalidade - multa (cinco vezes).”

(17)

Figura 1 - Ultrapassagem irregular em rodovia simples de mão dupla.

Fonte: Contesini, 2014.

Montanari (2015) argumenta que, em uma aplicação de rastreamento de objetos a detecção de um objeto em movimento em um vídeo é uma etapa essencial. Segundo ele, “O objetivo da detecção de objetos em movimento é localizar objetos em primeiro plano para extrair informações úteis ao sistema como trajetória, orientação e velocidade, etc.” (MONTANARI, 2015, p. 23). Sendo assim, essa técnica resume-se basicamente a segmentar, a partir de cenas de vídeo (quadros), os objetos em análise.

2.2 IMAGEM

De forma geral, segundo Niku (2013), uma imagem é a representação de uma cena real, seja em preto e branco, escala de cinza, colorida, seja na forma impressa ou digital. Sendo assim, devido essa natureza da imagem, uma representação completa de uma cena implica em uma imagem tridimensional, ou seja, com informações de largura, altura e profundidade.

No entanto as imagens podem também ser representadas omitindo informações de profundidade, o que caracteriza as imagens bidimensionais, as quais compõem a maioria das imagens que tratamos normalmente obtidas por câmeras (NIKU, 2013). Embora não possuam características de profundidade, essas imagens são extremamente úteis para diversas aplicações, como: extração de características, inspeção, navegação, incluindo a aplicação desenvolvida pelo presente trabalho.

(18)

2.2.1 Aquisição e digitalização de imagens

No processo de aquisição de imagens existem basicamente dois tipos de câmeras utilizadas: a analógica e a digital. As câmeras analógicas, muito utilizadas tempos passados como câmeras padrão em estações de televisão, não são mais comuns, embora ainda existam em algumas aplicações (NIKU, 2013).

Conforme Niku (2013), câmeras analógicas basicamente transformam uma imagem em um sinal contínuo de tensão ou corrente. Já as câmeras digitais, padrão atual, são baseadas na tecnologia de estado sólido, onde uma imagem é transformada em uma tensão amostrada no tempo, de forma discreta. No entanto, na área de Processamento e Análise Digital de Imagens (PADI), independentemente de a imagem ser obtida de forma analógica ou digital, a mesma é eventualmente digitalizada.

Segundo Gonzalez; Woods (2010), o processo de aquisição de uma imagem digital é realizado basicamente por sensores individuais (Figura 2(a)) dispostos em forma de uma matriz bidimensional, conforme representado na Figura 2(b). Sensores típicos, amplamente utilizados em câmera digitais, são o CCD (Charge Coupled Device – Dispositivo de Cargas Acopladas), e o CID (Charge Integrated Device – Dispositivo de Cargas Integradas).

Figura 2 - (a) Um único sensor de aquisição de imagens. (b) Matriz de sensores.

Fonte: Modificado de GONZALEZ; WOODS, 2010.

Primeiramente o sistema de aquisição (Figura 3(a)) coleta a energia de entrada - energia refletida de um elemento de uma cena, através de uma lente ótica e projeta em um plano imagem (Figura 3(b)) – plano focal da lente. O arranjo de sensores, que coincide com o plano focal, produz uma saída proporcional à integral

(19)

da luz recebida. Essa saída é então interpretada por circuitos digitais e analógicos e posteriormente digitalizada por um outro componente no sistema de aquisição de imagens. Finalmente, na saída do sistema, tem-se uma imagem digital (Figura 3(c)).

Figura 3 - Processo de aquisição de uma imagem digital.

Quanto ao processo de digitalização, eletronicamente este consiste em uma conversão analógica-digital (A/D), onde o número de amostras do sinal contínuo por unidade de tempo define a taxa de amostragem, responsável pela discretização espacial da imagem. O número de bits do conversor A/D define o número de tons de cinza de uma imagem monocromática, sendo assim responsável pela discretização em amplitude da imagem, em uma operação chamada quantização (MARQUES FILHO; VIEIRA NETO, 1999).

Do ponto de vista computacional, basicamente a intensidade da luz em cada pixel é convertida em uma coleção de 0 e 1 (forma binária), a qual é sequencialmente armazenada em uma memória, em um arquivo, geralmente no formato TIFF, JPG, Bitmap. Sendo assim, tendo constituído o arquivo da imagem em formato digital, pode-se acessar o mesmo, para tarefas simples de visualização, ou em rotinas de processamento de imagens, de forma a manipular os dados, salvando o resultado em um novo arquivo (NIKU, 2013).

2.2.2 Representação de imagens

Matematicamente, uma imagem digital pode ser definida como uma função bidimensional f (x, y). Nessa função x e y representam coordenadas espaciais, e a

(20)

amplitude de f em qualquer par de coordenadas (x, y) representa a intensidade ou nível de cinza (no caso de uma imagem monocromática) da imagem nesse ponto. Como trata-se de uma imagem digital, x, y, e os valores de intensidade de f são quantidades finitas e discretas (GONZALEZ; WOODS, 2010).

Outra forma de representação muito utilizada no processamento de imagens, consiste em considerar a imagem como uma matriz, onde, segundo Peres (2010, p. 5):

[...] os índices de linhas e colunas determinam um ponto na imagem e o correspondente valor do elemento da matriz identifica o nível de cinza naquele ponto. Os elementos dessa matriz digital são chamados de elementos da imagem, elementos da figura, pixels ou pels, estes dois últimos, abreviações de picture elements (elementos de figura). Quanto mais pixels uma imagem tiver melhor é a sua resolução e qualidade [..]

Sendo assim, na forma matemática, a matriz f (x,y) de N x M pixels, onde N representa a quantidade de linhas, e M representa a quantidade de colunas, é definida pela Equação 1 (GONZALEZ; WOODS, 2000, p. 22) :

𝑓(𝑥, 𝑦) = [ 𝑓(0,0) 𝑓(0,1) … 𝑓(0, 𝑀 − 1) 𝑓(1,0) 𝑓(1,1) … 𝑓(1, 𝑀 − 1) ⋮ 𝑓(𝑁 − 1,0) ⋮ ⋮ 𝑓(𝑁 − 1,1) … 𝑓(𝑁 − 1, 𝑀 − 1) ] (1)

Os valores de N, M e o número de tonalidades de cinza (G) permitido para cada pixel, são potências inteiras de dois, definidas no processo de digitalização (seção 2.2.1), e determinam a resolução de uma imagem, descrita na literatura como o grau de detalhes discerníveis. Suas respectivas funções matemáticas são definidas pelas equações 2, 3 e 4. O número de bits, b, para armazenar uma imagem é definido pelas Equações 5 e 6 (GONZALEZ; WOODS, 2000, p. 22).

𝑁 = 2𝑛 ₍₂₎

𝑀 = 2𝑘 (3)

𝐺 = 2𝑚 ₍₄₎

𝑏 = 𝑁 × 𝑀 × 𝑚 (5)

𝑏 = 𝑁2× 𝑚, 𝑠𝑒 𝑀 = 𝑁 (6)

Seja uma imagem de 128 (N) x 128 pixels (M) com 64 (G) níveis de cinza, por exemplo, substituindo na Equação (4) tem-se que:

(21)

𝐺 = 2𝑚 → 64 = 2𝑚 → 26 = 2𝑚 → 𝒎 = 𝟔

E como 𝑀 = 𝑁, substituindo N e m na Equação 6, encontra-se a quantidade de bits necessários para o armazenamento:

𝑏 = 1282_{× 6 = 98.304 𝑏𝑖𝑡𝑠}

Dessa forma, e observando a Equação 5, faz-se notar que os parâmetros N, M e G, influenciam diretamente na quantidade de memória necessária para o armazenamento e, por conseguinte, no processamento. Nesse sentido, quanto maiores forem esses parâmetros, melhor será a resolução da imagem, por outro lado, será necessária maior quantidade de memória e processamento para a manipulação dos dados (GONZALEZ; WOODS, 2000).

Na Figura 6, pode-se notar que a variação desses parâmetros implica diretamente no nível de detalhes visíveis. Observa-se que a imagem (Figura 4(a)), a qual apresenta uma maior resolução (maior número de pixels), apresenta também mais detalhes em comparação com a mesma imagem, representada na Figura 4(c) com menor resolução (GONZALEZ; WOODS, 2000; GOMES; QUEIROZ, 2001).

Figura 4 – Influência da variação dos parâmetros N, M e G na qualidade uma imagem monocromática. (a) 200 x 200 pixels/256 níveis (b) 100 x 100 pixels/ 256 níveis. (c) 25 x 25 pixels/

256 níveis. (d) 200 x 200 pixels / 2 níveis.

Fonte: GOMES; QUEIROZ, 2001.

• Topologia de pixels e sistema de coordenadas

Segundo Albuquerque et al. (2004), os pixels em uma imagem são organizados de forma a obter uma simetria quadrada, o que facilita a implementação eletrônica em sistemas de aquisição assim como dos sistemas de visualização de imagens. Este sistema de distribuição origina o conceito de conectividade de pixels, o qual será discutido posteriormente (seção 2.2.3).

(22)

Quanto a localização da origem do sistema de coordenadas, esse localiza-se no canto superior esquerdo, com eixo y invertido em relação ao padrão comum utilizado na matemática, conforme pode-se visualizar na Figura 5 (SCURI, 1999).

Figura 5 - Sistema de coordenadas de uma imagem digital.

Fonte: Modificado de REIS, 2014.

• Imagem monocromática

Em uma imagem monocromática a intensidade de f nas coordenadas (x, y) é chamada de Nível de Cinza (L) da imagem naquele ponto. O tom de cinza compreenderá valores, conforme determinado pela Equação 7 (MARQUES FILHO; VIEIRA NETO, 1999, p. 20):

𝐿_𝑚𝑖𝑛 ≤ 𝐿 ≤ 𝐿_𝑚𝑎𝑥 (7)

onde os valores de 𝐿𝑚𝑖𝑛 e 𝐿𝑚𝑎𝑥 são positivos e finitos, e definem a escala de cinza da imagem.

Usualmente o intervalo é deslocado numericamente para o intervalo dos inteiros [0, W], sendo L=0, denominado como pixel preto, L=W-1 denominado como pixel branco (MARQUES FILHO; VIEIRA NETO, 1999). Além disso L=256, o que resulta em uma variação possível de 256 tonalidades. Dessa forma, e conforme ilustrado na Figura 6, tons mais escuros se aproximam de 0 (preto), extrema esquerda, e tons mais claros de aproximam de 255 (branco), extrema direita (MATIAS, 2007).

Figura 6 - Níveis de cinza (0 – 255).

(23)

Na Figura 7, pode-se observar uma imagem digitalizada com uma resolução de 100 pixels (10 linhas x 10 colunas) e sua respectiva representação em formato matricial. Os valores da função f (x,y) representam a intensidade de luz de cada pixel, variando de 0 (preto) a 255 (branco), porém no caso da imagem apresentada estão descritos somente como forma de exemplificação, visto que não compatibilizam com as tonalidades apresentadas visualmente (PAZOS, 2002).

Figura 7 – Imagem digitalizada com resolução de 100 pixels e 256 níveis de cinza.

Fonte: PAZOS, 2002.

• Imagem colorida

Imagens coloridas são formadas pela adição de cores primárias (vermelho, verde e azul), compondo o padrão conhecido como RGB (Red, Green, Blue). Essas imagens necessitam de uma função 𝑓(𝑥, 𝑦) para cada banda de cor. Sendo assim são determinadas por: (SALES, 2014 apud QUEIROZ; GOMES, 2006):

𝑓(𝑥, 𝑦) = (𝑓𝑅(𝑥, 𝑦), 𝑓𝐺(𝑥, 𝑦), 𝑓𝐵(𝑥, 𝑦)) (8) onde as funções 𝑓_𝑅(𝑥, 𝑦), 𝑓𝐺(𝑥, 𝑦), 𝑓𝐵(𝑥, 𝑦), representam, respectivamente, os níveis de intensidade luminosa das cores, vermelha, verde e azul da imagem no ponto (x,y).

Para cada canal, conforme pode ser visualizado na Figura 8, o valor de intensidade é convertido em uma escala de cinza, a qual varia de 0 (preto) a 255 (branco). Devido a isso, uma imagem colorida pode ser descrita também como a composição de três imagens monocromáticas (SALES, 2014).

(24)

Figura 8 - Decomposição dos três canais de cores de uma imagem RGB.

Fonte: Modificado de GATTASS, 2015. 2.2.3 Vizinhança e Conectividade de pixels

O conceito de conectividade em uma imagem define as relações entre pixels vizinhos, determinando se eles estão “conectados” ou relacionados uns com os outros. Com isso é possível determinar se eles possuem propriedades semelhantes, como pertencer à mesma região ou objeto por exemplo, sendo, portanto, de grande utilidade em tarefas de reconhecimento de objetos na área de processamento e análise de imagens. (NIKU, 2013).

Seja um pixel p, de coordenadas (x, y), com 4 vizinhos horizontais e verticais, cujas coordenadas sejam (x+1, y), (x-1, y), (x, y+1) e (x, y-1). Esses pixels definem a chamada “4-vizinhança” ou “Conectividade +4” de p, designado 𝑁₄(𝑝) (Figura 9(a)).

A análise do pixel p em relação aos 4 pixels situados diagonalmente em 4 lados, cujas coordenadas são (x-1,y-1), (x-1,y+1),(x+1,y-1) e (x+1,y+1), constituem o conjunto 𝑁𝑑(𝑝), chamado “Conectividade x4” (Figura 9(b)).

Sendo assim, o relacionamento de um pixel p em relação a todos os 8 pixels ao seu redor define a “8-vizinhança” ou “Conectividade 8” de p, conforme Figura 9 (c) – Equação 9 (MARQUES FILHO; VIEIRA NETO, 1999; NIKU, 2013):

(25)

Figura 9 - Conceito de vizinhança de pixels. (a) Conectividade +4. (b) Conectividade x4. (c) Conectividade 8.

Fonte: Modificado de MARQUES FILHO; VIEIRA NETO, 1999.

2.3 PROCESSAMENTO E ANÁLISE DIGITAL DE IMAGENS

Define-se por Processamento Digital de Imagens (PDI) o conjunto de técnicas que utilizam operadores matemáticos para alterar pixels de imagens digitais. Essas alterações visam melhorar a imagem, corrigindo defeitos de aquisição ou destacando pontos e regiões de interesse. Sendo assim, o objetivo do PDI divide-se em dois pontos: o primeiro relacionado à modificação de uma imagem com a finalidade de facilitar sua visualização e o segundo relacionado à sua preparação para posterior análise computadorizada, compondo o processo de Análise Digital de Imagens (ADI) (GOMES, 2007).

A ADI é definida, segundo Niku (2013), como o conjunto de processos posterior a captura e processamento de uma imagem, nos quais informações são extraídas através de uma análise sobre seu conteúdo, possibilitando identificar objetos ou fatos relacionados com os objetos da imagem.

Em contraponto, Gonzalez; Woods (2010), argumenta que não existe um acordo em relação a delimitação das fronteiras em que o processamento de imagens termina e a análise de imagens começa, ou vice-versa. Isto é justificável pelo fato de que, por exemplo, uma determinada tarefa de processamento pode ser ajustada ou parametrizada após um processo anterior de análise da imagem (GOMES, 2007).

No entanto, “[...] existe um ponto lógico de sobreposição entre o processamento e a análise de imagens [...]” (GONZALEZ; WOODS, 2010, p. 1). Esse ponto, relacionado a área de reconhecimento de regiões ou objetos em uma determinada imagem, permite diferenciar esses dois conceitos. Sendo assim, pode-se concluir que, o PDI descreve processos nos quais as entradas e saídas são imagens (Figura 10). Já a ADI envolve processos cuja entrada é uma imagem e a saída é uma “descrição” dessa imagem (GONZALEZ; WOODS, 2010; SILVA, 1996).

(26)

Figura 10 - Processamento Digital de Imagens.

Fonte: Modificado de REIS, 2014.

No contexto da ADI é importante salientar que, embora o ser humano possua grandes capacidades no reconhecimento de objetos, a ADI torna-se superior no momento que proporciona medidas mais exatas, rápidas e precisas, além de possibilitar medições que seriam impossíveis de serem executadas e/ou determinadas manualmente (GOMES, 2007).

2.3.1 Níveis de Processamento

Quanto aos níveis de processamento de imagem, Gonzalez; Woods (2000) propôs uma divisão do espectro de análise de imagens basicamente em três áreas: Processamento de Baixo Nível; Processamento de Nível Intermediário e Processamento de Alto Nível, conforme pode-se visualizar na Figura 11.

Embora não existam fronteiras bem definidas, estas subdivisões fornecem um esquema de trabalho, facilitando a categorização de diversos processos necessários para o desenvolvimento de uma aplicação de análise automática de imagens (GONZALEZ; WOODS, 2000).

Figura 11 - Níveis de processamento de imagens.

(27)

A partir do Domínio do Problema, o Processamento de Baixo Nível consiste na Aquisição da Imagem, assim como descrito na seção 2.2.1, e no Pré-processamento, o qual inclui atividades como redução de ruído e realce de características de uma imagem. Sendo assim, tratam-se de funções automáticas, as quais não requerem qualquer inteligência por parte do sistema de análise (ALBUQUERQUE et al, 2004; GONZALEZ; WOODS, 2000).

Em seguida, conforme Gonzalez; Woods (2000), tem-se o Nível Intermediário de Processamento, o qual inclui os elementos de Segmentação e Representação e Descrição. Basicamente, a tarefa desses elementos resume-se a extrair e caracterizar componentes da imagem resultante do processo anterior. Devido a isso, esse nível necessita de inteligência envolvida para construção dos procedimentos.

Finalmente, no Processamento de Alto Nível é realizada a operação de Reconhecimento e Interpretação, onde predominam técnicas de reconhecimento por decisão teórica e métodos estruturais para o reconhecimento e interpretação de imagens baseados em inteligência artificial (GONZALEZ; WOODS, 2000).

Sendo assim, categoriza-se o desenvolvimento da presente aplicação de detecção de ultrapassagens veiculares irregulares como Processamento de Nível Intermediário, onde o processo de Segmentação, o qual será descrito na seção 2.4.3, torna-se fundamental para o correto funcionamento da aplicação.

2.4 TÉCNICAS DE TRANSFORMAÇÃO E ANÁLISE DE IMAGENS

Tendo em vista os níveis de processamento, assim como seus elementos constituintes, faz-se necessário um conjunto de técnicas de transformações de imagem de forma a realizar as diferentes etapas, possibilitando o desenvolvimento da aplicação de análise automática de imagem. Entre as técnicas envolvidas no processo, citam-se: análise de histograma, mascaramento, segmentação, detecção de bordas, operações de morfologia matemática, entre outras. (NIKU, 2013).

As seções seguintes apresentam os aspectos teóricos e práticos das técnicas propostas para o desenvolvimento do presente trabalho, as quais serviram de base para a implementação do algoritmo.

(28)

2.4.1 Histograma de imagens

O histograma de uma imagem é definido como “um conjunto de números indicando o percentual de pixels naquela imagem que apresentam um determinado nível de cinza.” (MARQUES FILHO; VIEIRA NETO, 1999, p. 55). Através dele obtém-se uma indicação quanto a qualidade de uma imagem, ou obtém-seja, nível de contraste e brilho médio (imagem clara ou escura). Matematicamente, cada elemento desse conjunto é determinado pela Equação 10:

𝑝_𝑟(𝑟𝑘) = 𝑛𝑘

𝑛

(10)

na qual: 0 ≤ 𝑟𝑘 ≤ 1; 𝑘 = 0,1, … , 𝐿 − 1, L é o número de níveis de cinza; 𝑛 é o número total de pixels da imagem; 𝑝_𝑟(𝑟_𝑘) representa a probabilidade do k-ésimo nível de cinza e 𝑛𝑘 é o número de pixels cujo nível de cinza corresponde a k.

Na Figura 12(a), a primeira coluna indica a intensidade, ou então o nível de cinza. A segunda coluna, apresenta a quantidade de pixels associado ao tom de cinza correspondente. Já na terceira coluna, representa-se a probabilidade de um pixel da imagem apresentar o nível de cinza correspondente. Na Figura 12(b), a representação gráfica do histograma é apresentada.

Figura 12 - Exemplo de histograma para uma imagem de 128 x 128 pixels, com 8 níveis de cinza. (a) Tabela de dados; (b) Histograma.

Em uma imagem monocromática, todos os elementos de um vetor de L (número de níveis de cinza) elementos são iniciados com zero. Então a imagem é percorrida pixel a pixel, incrementando-se a posição do vetor cujo índice corresponde ao tom de cinza do pixel visitado. Dessa forma, após percorrer toda imagem, cada

(29)

elemento do vetor armazenará o número de pixels cujo tom de cinza equivale ao índice do elemento. Finalmente, dividindo-se cada um desses elementos pelo total de pixels da imagem, estes valores são normalizados, gerando assim o histograma (MARQUES FILHO; VIEIRA NETO, 1999).

Pode-se notar na Figura 13(a), uma imagem predominantemente escura (brilho reduzido), o que se visualiza no histograma logo ao seu lado como uma grande concentração de pixels aproximando-se dos valores mais baixos da escala de cinza. Na Figura 13(b), tem-se uma imagem clara (brilho intensificado), o que se apresenta graficamente no histograma pela grande concentração de pixels com valores próximos ao limite superior da escala de cinza. Analisando-se os histogramas, verifica-se que em ambos os casos a maioria dos pixels concentra-se em uma estreita faixa de escala de cinza, o que as caracteriza como imagens de baixo contraste segundo a literatura de PADI. (MARQUES FILHO; VIEIRA NETO, 1999).

Figura 13 - Imagens monocromáticas e seus respectivos histogramas. (a) Imagem escura; (b) Imagem clara.

• Ajuste de contraste

A equalização do histograma, segundo Marques Filho; Vieira Neto (1999), consiste em redistribuir os valores de níveis de cinza dos pixels em uma imagem, com a finalidade de obter um histograma uniforme, onde o percentual de pixels de qualquer nível de cinza seja praticamente o mesmo. Como resultado tem-se a modificação do contraste da imagem.

(30)

Em algumas ocasiões ocorre a necessidade de aumento do contraste. Isso é justificável pelo fato de que imagens com baixo contraste dificultam o discernimento dos objetos em uma cena. Em outras aplicações, no entanto a operação de reduzir o contraste se faz necessária (MATIAS, 2007).

Para aumentar o contraste realiza-se a operação de expansão de histograma. Basicamente essa técnica consiste em multiplicar os níveis de cinza do pixel por um número. Com isso, enquanto os níveis de cinza máximos disponíveis não forem ultrapassados, no caso 255 (imagem monocromática), a faixa do histograma é estendida e tem-se o aumento do contraste (Figura 14). MARQUES FILHO; VIEIRA NETO, 1999; NIKU, 2013).

Figura 14 - Aplicação da técnica de expansão de histograma. (a) Imagem original e respectivo histograma; (b) Imagem com contraste aprimorado e novo histograma.

Para diminuir o contraste, realiza-se a operação inversa da anterior, aplicando a técnica de compressão de histograma. Basicamente o histograma original (Figura 15(a)) é modificado de forma que ocorra uma redução da diversidade de níveis de cinza na imagem, visto que esses passam a ocupar uma estreita faixa de valores, conforme histograma ilustrado na Figura 15(b). (MARQUES FILHO; VIEIRA NETO, 1999; NIKU, 2013).

(31)

Figura 15 - Aplicação da técnica de compressão de histograma. (a) Imagem original com respectivo histograma; (b) Imagem com contraste diminuído e novo histograma.

• Ajuste de brilho

A equalização do histograma também permite ajustar o brilho de uma imagem. Para realizar tal ajuste, basicamente todos os valores de cinza da imagem são aumentados ou diminuídos na mesma proporção. Sendo assim, ao adicionar um número, por exemplo, a todos os valores de cinza, tem-se como resultado um deslocamento à direita no histograma. Com isso, os pixels da imagem passam a ter níveis de cinza mais próximos do limite superior da escala (255 – branco). Dessa forma a imagem se torna mais brilhante (Figura 13(b)). O mesmo é válido para reduzir o brilho de uma imagem, no entanto, em ambos os casos, assim como a operação de ajuste de contraste, deve-se atentar ao limite da escala (0 ou 255) (NIKU, 2013).

2.4.2 Operações de convolução com máscaras

Em processamento de imagens, o conceito de convolução com máscaras é utilizado em inúmeras operações, tais como filtros, detecção de bordas, morfologia matemática, entre outras. Essas operações constituem processos no domínio espacial da imagem e dessa forma, acessam e operam sobre as informações de pixels individuais (MARQUES FILHO; VIEIRA NETO, 1999; NIKU, 2013).

Sendo assim, seja uma subárea de uma imagem (Figura 16(a)), na qual cada pixel é representado simbolicamente pelas letras A, B, C e assim sucessivamente, com seu respectivo nível de cinza e uma máscara ou núcleo 3 x 3, cujos valores em cada célula são indicados por m1 a m9 conforme ilustrado na Figura 16(b), a

(32)

sobreposição da segunda sobre a primeira, muda a imagem pixel por pixel (NIKU, 2013).

Figura 16 - Operação de convolução com máscaras. (a) Subárea de uma imagem; (b) Máscara 3 x 3.

Fonte: Modificado de NIKU, 2013.

A operação de convolução inicia no canto superior esquerdo da imagem, e como as primeiras e ultimas linhas não são afetadas, geralmente elas são ignoradas ou copiadas em uma camada adicional de linhas e colunas situada ao redor da imagem para posterior cálculo de seus novos valores.

Conforme Niku (2013, p. 301):

[...] Cada etapa consiste em sobrepor as células da máscara aos pixels correspondentes, multiplicando os valores das células da máscara pelos valores de pixel, somando os números, e normalizando o resultado. O resultado é substituído no centro da área de interesse. A máscara é movida sobre pixel por pixel e a operação é repetida até que a imagem seja completamente processada.

O primeiro processo de convolução para a imagem da Figura 16 é exemplificado pela Equação 11. O valor de R obtido é substituído no valor do pixel no centro do bloco o qual foi sobreposto, no caso F (NIKU, 2013).

𝑅 =(𝐴 × 𝑚1+ 𝐵 × 𝑚2+ 𝐶 × 𝑚3+ 𝐸 × 𝑚4+ 𝐹 × 𝑚5+ 𝐺 × 𝑚6+ 𝐼 × 𝑚7+ 𝐽 × 𝑚8+ 𝐾 × 𝑚9)

𝑆 (11)

onde S é determinado pela Equação 12:

𝑆 = |𝑚1+ 𝑚2+ 𝑚3+ ⋯ + 𝑚9| (12) Ainda, segundo Niku (2013), o valor de S na Equação 11, é denominado escala S ou fator de normalização, e deve ser diferente de zero. Sendo assim, caso a soma dos valores da máscara seja igual a zero, arbitra-se S=1 ou escolhe-se o maior número, de forma a obter a melhor imagem sem saturação.

(33)

2.4.3 Segmentação

O processo de segmentação de uma imagem consiste em subdividir uma imagem em suas partes ou objetos constituintes. Segundo Gonzalez; Woods (2000), em sistemas que necessitem identificar veículos em uma estrada, que é o caso do presente trabalho, o primeiro passo é a segmentação da estrada na imagem, seguida da segmentação dos elementos que constituem a estrada em objetos, os quais tenham um tamanho pertencente a uma faixa de tamanhos correspondente a um veículo. Nesse sentido, não existe a necessidade de segmentar objetos ou componentes que se encontram fora da estrada.

Na implementação de algoritmos de segmentação de imagens em escala de cinza (monocromáticas), duas abordagens são realizadas: descontinuidade, onde as principais áreas de interesse são a detecção de pontos isolados, linhas e bordas na imagem; e similaridade, a qual baseia-se em limiarização, crescimento, divisão e fusão de regiões (GONZALEZ; WOODS, 2000).

• Detecção de descontinuidades

O processo de segmentação por descontinuidade consiste em particionar a imagem através da detecção de mudanças bruscas nos níveis de cinza. Basicamente é realizada uma varredura na imagem através de máscaras, conforme descrito na seção 2.4.2. Com isso, é possível detectar os três tipos básicos de descontinuidades em imagens digitais: pontos, linhas e bordas.

Sendo assim, seja uma máscara genérica determinada conforme a Figura 17.

Figura 17 - Máscara 3 x 3 genérica.

Fonte: MARQUES FILHO; VIEIRA NETO, 1999.

A resposta da máscara em qualquer ponto é dada pela Equação 13 (GONZALEZ; WOODS, 2000, p. 296):

𝑅 = ∑ 𝑊𝑖𝑍𝑖 9

𝑖=1

(34)

na qual 𝑊𝑖 é o coeficiente da máscara e 𝑍𝑖 representa o nível de cinza do pixel. • Detecção de pontos

A detecção de um ponto em uma imagem resume-se à utilização de um operador de convolução (máscara), como por exemplo, a ilustrada na Figura 18. Observa-se que a máscara utilizada possui valor elevado na célula central e valores baixos nas outras células (GONZALEZ; WOODS, 2000; LIMA, 2009).

Figura 18 - Máscara para a detecção de pontos isolados.

Fonte: MARQUES FILHO; VIEIRA NETO, 1999.

Conforme Gonzalez; Woods (2000), partindo do princípio de que um ponto isolado possui nível de cinza completamente diferente do nível de cinza de seus vizinhos, um ponto é detectado na posição da máscara se a condição (Equação 14) for satisfeita:

| 𝑅 | > 𝑇 (14)

na qual 𝑇 representa um limiar não-negativo e 𝑅 é a resposta da máscara dada pela Equação 13.

Dessa forma, na imagem final, obtida após a aplicação da máscara, pixels brilhantes circundados por pixels mais escuros tornam-se mais destacados (MARQUES FILHO; VIEIRA NETO, 1999). Na Figura 19(a), nota-se uma porosidade no canto superior direito da imagem da lâmina da turbina, a qual, após a aplicação da técnica de detecção de ponto torna-se claramente visível (Figura 19(b)).

(35)

Figura 19 – (a) Radiografia de uma lâmina de turbina de um motor de jato. (b) Imagem obtida após aplicação da técnica de detecção de pontos (ponto ampliado).

• Detecção de linhas

De forma semelhante à detecção de pontos, o processo de detectar linhas em uma imagem também consiste basicamente da aplicação de máscaras de convolução. Nesse caso são utilizadas quatro máscaras (Figura 20), as quais possibilitam detectar linhas nas posições horizontal e vertical e nas diagonais de +45º e -45º. (GONZALEZ; WOODS, 2000; LIMA, 2009; MARQUES FILHO; VIEIRA NETO, 1999).

Figura 20 - Máscara para detecção de linhas. (a) Horizontal (b) Vertical (c) +45º (d) -45º.

• Detecção de bordas

Diferentemente do processo de detecção de pontos e de linhas, que utilizam a operação direta de varredura de imagens através de máscaras, o processo de detecção de bordas baseia-se na computação de um operador local diferencial. Trata-se da abordagem mais comum na detecção de descontinuidades, visto que pontos e linhas isoladas não ocorrem frequentemente em aplicações práticas (GONZALEZ; WOODS, 2000).

Segundo definição, “uma borda é o limite entre duas regiões com propriedades relativamente distintas de nível de cinza” (GONZALEZ; WOODS, 2000,

(36)

pg. 297). Idealmente uma borda envolve a transição entres dois níveis de intensidade, que ocorrem a uma distância de 1 pixel, conforme Figura 21(a). Entretanto, na prática, o comportamento da transição entre níveis designa um perfil de rampa, como a demonstrada na Figura 21(b), onde o conjunto de pontos conectados constitui um segmento de borda.

Figura 21 - Modelos de borda. (a) Ideal (b) Real.

Fonte: GONZALEZ; WOODS, 2010.

Sendo assim, seja o modelo real (perfil de rampa), o cálculo da primeira e segunda derivadas tem como resultado os formatos ilustrados na Figura 22. Percorrendo o perfil de intensidade horizontal da esquerda para a direita, a primeira derivada é positiva durante o crescimento da rampa, e torna-se zero nas áreas de intensidade constante. Para a segunda derivada, tem-se que esta é positiva no início da rampa, negativa no final dela e zero nos demais pontos (GONZALEZ; WOODS, 2010).

Figura 22 - Borda real e representação de 1ª e 2ª derivadas.

Com isso, através da magnitude da primeira derivada é possível detectar a presença de borda em um ponto de uma imagem, e o sinal da segunda derivada pode ser usado para detectar se um pixel se encontra no lado escuro ou claro de uma borda. Esses conceitos originam duas classes de operadores diferenciais: Diferenciador de

(37)

Primeira Ordem, e Diferenciador de Segunda Ordem (GONZALEZ; WOODS, 2010; MATIAS, 2007).

O Diferenciador de Primeira Ordem é definido como o Gradiente de uma imagem. Trata-se de um vetor que aponta na direção de mudança mais rápida (taxa de variação) de f (intensidade) na posição (x, y). Seus valores são calculados a partir da obtenção de derivadas parciais na posição de cada pixel (GONZALEZ; WOODS, 2010; MATIAS, 2007), conforme Equação (15):

∇𝑓 = 𝑔𝑟𝑎𝑑(𝑓) = [𝑔𝑥 𝑔_𝑦] = [ 𝜕𝑓 𝜕𝑥 𝜕𝑓 𝜕𝑦 ] (15)

Em termos práticos a aproximação digital das derivadas parciais é realizada filtrando f (x,y) com máscaras. Dessa forma, utilizando a operação de convolução com máscaras é possível determinar o valor do gradiente. Em seguida “o valor do gradiente em cada pixel é comparado com um limiar (threshold) em tons de cinza. A borda surgirá se o gradiente da função no pixel de coordenadas (x, y) exceder este valor de limiar” (MATIAS, 2007, p. 17).

Entre as principais máscaras utilizadas nesse processo estão as definidas como operador de Roberts (Figura 23(a)) e operador de Prewitt (Figura 23(b)).

Figura 23 - Máscaras detectoras de borda. (a) Roberts; (b) Prewitt.

Com os valores de 𝑔_𝑥 e 𝑔_𝑦 calculados, aproxima-se o valor do gradiente com valores absolutos, conforme Equação 16 (GONZALEZ; WOODS, 2000, p. 299).

(38)

Um resultado da aplicação do operador de Prewitt pode ser visualizado na Figura 24(b). Pode-se notar que, com a aplicação do operador as bordas são realçadas, e tornam-se de certa forma claramente visíveis na imagem.

Figura 24 - (a) Imagem original monocromática; (b) Realce de bordas utilizando o operador de Prewitt horizontal e vertical.

O Diferenciador de Segunda Ordem, conhecido como Laplaciano, utiliza da diferenciação espacial de segunda ordem para realçar as bordas de uma imagem. Assim como o Gradiente, o cômputo é realizado através de derivadas parciais em relação às coordenadas (x, y) da imagem (MATIAS, 2007). O Laplaciano de uma função bidimensional é definido pela Equação 17 (GONZALEZ; WOODS, 2000, p. 300). ∇2𝑓 = 𝜕 2_𝑓 𝜕𝑥2+ 𝜕2_𝑓 𝜕𝑦2 (17)

A aproximação digital, da mesma forma como a do Gradiente, é realizada através da filtragem da imagem através de uma máscara 3 x 3, conforme ilustrado na Figura 25(a). Também pode-se visualizar o resultado (c) da aplicação da mesma sobre a imagem (b).

(39)

Figura 25 - (a) Máscara utilizada no cômputo do Laplaciano; (b) Imagem original monocromática; (c) Imagem após filtragem por (a).

• Segmentação por similaridade

O processo de segmentação por similaridade baseia-se, assim como a detecção de descontinuidades discutida anteriormente, em uma propriedade básica dos valores de níveis de cinza de uma imagem. Nesse caso, levando em consideração a semelhança entre pixels, a abordagem é realizada através de processos de limiarização, divisão, fusão e crescimento de regiões. (GONZALEZ; WOODS, 2000).

O processo de Limiarização (Thresholding) consiste em dividir uma imagem diretamente em regiões com base nos valores de intensidade (níveis de cinza). Nesse sentido, seja o histograma (Figura 26), o qual representa a distribuição dos níveis de cinza em uma imagem 𝑓(𝑥, 𝑦), composta por objetos iluminados sobre um fundo escuro (GONZALEZ; WOODS, 2000).

Figura 26 - Histograma de níveis de cinza de uma imagem.

Nota-se (Figura 26) que os pixels no Histograma se organizam basicamente em dois grupos dominantes (modos). Dessa forma, através da seleção de um limiar

(40)

(T) é possível separar esses dois grupos. Basicamente é realizada uma varredura na imagem, pixel por pixel, rotulando-se cada pixel como sendo do objeto ou do fundo, levando em consideração se o nível de cinza daquele pixel for maior ou menor/igual a T (GONZALEZ; WOODS, 2000; MATIAS, 2007).

Um aspecto importante a ser observado é que o valor de T influencia diretamente na qualidade da imagem limiarizada. Nesse sentido, deve ser escolhido um valor ótimo para T de forma que a imagem não sofra limiarização inadequada, o que impossibilitaria a correta realização em posterior tarefa de análise (MATIAS, 2007).

A Limiarização é definida pela Equação 18, na qual 𝑓(𝑥, 𝑦) representa a imagem original (entrada) e 𝑔(𝑥, 𝑦) representa a imagem transformada (saída) (GONZALEZ; WOODS, 2000, p. 316).

𝑔(𝑥, 𝑦) = {1, 𝑠𝑒 𝑓(𝑥, 𝑦) > 𝑇 0, 𝑠𝑒 𝑓(𝑥, 𝑦) ≤ 𝑇

(18)

Em termo práticos, os pixels correspondentes ao objeto são rotulados como 0, o que representa o limite superior da escala de cinza (branco), e os correspondentes ao fundo são rotulados como 1 – limite inferior da escala de cinza (preto), conforme ilustrado na Figura 27. Devido a isso, a técnica de Limiarização de imagens também é conhecida como Binarização. (GONZALEZ; WOODS, 2000; MATIAS, 2007; SANTOS, 2014).

Figura 27 - Exemplo de imagem binarizada.

(41)

2.4.4 Operações de Morfologia Matemática

Em Processamento e Análise de Imagens, operações realizadas na forma dos componentes de uma imagem são denominadas operações de Morfologia Matemática, e possuem como base a teoria dos conjuntos (GONZALEZ; WOODS, 2000). Entre as operações principais envolvidas têm-se: dilatação, erosão, abertura e fechamento.

O objetivo principal dessas operações, aplicadas sobre imagens em escala de cinza ou binárias, é extrair componentes, os quais sejam úteis para representar e descrever a forma de uma região, como fronteiras por exemplo. Além disso, são utilizadas para reduzir informações extras presentes muitas vezes na imagem e que dificultam a tarefa de análise e reconhecimento de objetos (GONZALEZ; WOODS, 2000; NIKU, 2013).

“[...] Os conjuntos em morfologia matemática representam as formas dos objetos em uma imagem. [...] (GONZALEZ; WOODS, 2000, p. 370). Sendo assim, em uma imagem binária, por exemplo, a sua descrição completa é realizada através do conjunto de todos os pixels pretos, os quais compõem o espaço bidimensional de número inteiros Z2_{. Cada coordenada (x, y) dos pixels pretos compõe respectivamente} cada elemento do conjunto. No caso de uma imagem em escala de cinza a representação é realizada em Z3_{, onde dois componentes de cada elemento do} conjunto se referem às coordenadas do pixel (x, y) na imagem, enquanto o terceiro representa o valor discreto de intensidade (nível de cinza).

Uma operação de dilatação é descrita sucintamente como o processo de expandir os componentes de uma imagem, enquanto que a erosão denomina o processo inverso, ou seja, os componentes são reduzidos. Essas duas operações constituem a base da maioria das outras operações. Nesse sentido, uma operação de erosão, seguida de uma operação de dilatação é denominada abertura, conforme descrito na Equação 19 (GONZALEZ; WOODS, 2000, p. 373):

𝐴 ∘ 𝐵 = (𝐴 ⊝ 𝐵) ⨁ 𝐵 (19)

na qual 𝐴 ∘ 𝐵 representa a abertura de um conjunto A por um elemento estruturante B, 𝐴 ⊝ 𝐵 é a erosão de A por B, e o operador ⨁ simboliza a dilatação.

(42)

Uma operação de dilatação seguida de uma erosão é conhecida como fechamento. Sendo assim, o fechamento de A por um elemento estruturante B, simbolizado por 𝐴 ∙ 𝐵 é (GONZALEZ; WOODS, 2000, p. 374):

𝐴 ∙ 𝐵 = (𝐴 ⨁𝐵) ⊝ 𝐵 (20)

Na Figura 28(a), considerando que os dois objetos, representados por pixels brancos na imagem, correspondem a veículos trafegando em uma rodovia. Em uma tarefa de cálculo da área desses objetos, como forma de realizar o reconhecimento dos mesmos, pontos escuros em seus interiores, assim como pontos claros encontrados fora desses dificultam a análise. Esses pontos escuros, localizados no interior dos objetos, poderiam ser interpretados como não pertencentes ao objeto e pontos claros localizados fora deles poderiam ser interpretados como pertencentes, gerando um erro no cálculo da área, o que prejudicaria tarefas de interpretação e reconhecimento.

Conforme Santos (2014), a operação de abertura (Equação 19) é utilizada como forma de remover pequenos elementos desconexos indesejáveis em uma imagem, conforme pode-se visualizar na Figura 28(b). O fechamento (Equação 20) é utilizado como maneira de preencher espaços internos de elementos conexos, conectando dessa forma esses elementos próximos (Figura 28(c)). Sendo assim, com a utilização dessas técnicas facilita-se o reconhecimento de objetos por características, a ser descrito na seção seguinte.

Figura 28 - (a) Imagem limiarizada; (b) Resultado da abertura sobre (a); (c) Resultado do fechamento sobre (b).

(43)

2.4.5 Reconhecimento de objetos por características

Em uma determinada imagem, objetos podem ser reconhecidos por suas características, as quais podem incluir: Análise de histograma, onde através dos níveis de cinza máximo, médio ou mínimo, pode-se realizar uma comparação com uma base já conhecida e assim identificar um objeto em uma imagem; Características morfológicas, como área e perímetro de uma região da imagem, através de equações de momento e relação de aspecto, onde a relação mínima entre a largura e comprimento de um retângulo envolvendo um objeto é utilizada para reconhecimento do mesmo (NIKU, 2013).

• Momento de um objeto

Segundo Niku (2013), o momento de um objeto em uma imagem em escala de cinza pode ser determinado pela Equação 21.

𝑀_𝑎,𝑏 = ∑ 𝑥𝑎_𝑦𝑏_𝐼 𝑥,𝑦 𝑥,𝑦

(21)

na qual 𝑀_𝑎,𝑏 é o momento do objeto com índices a e b, x e y são as coordenadas de cada pixel, e 𝐼_𝑥,𝑦 é a intensidade do pixel.

Sendo uma imagem binária, 𝐼_𝑥,𝑦 (intensidade) possui apenas dois valores: 1 (ligado) para o objeto e 0 (desligado) para o fundo, sendo assim, apenas os pixels ligados são ativados e a Equação 21 resume-se à Equação 22 (NIKU, 2013, p. 325):

_𝑀

𝑎,𝑏 = ∑ 𝑥𝑎𝑦𝑏 𝑥,𝑦

(22)

O cálculo do momento é efetuado determinando primeiramente se o pixel pertence ao objeto (ligado). Em seguida é descrita a coordenada da localização do pixel para os valores de a e b dados. A localização é baseada na medida de distância de x e y em relação a um sistema de coordenadas (x1, y1) formados pela primeira linha e coluna da imagem, conforme pode-se visualizar na Figura 29. Finalmente, com o somatório da operação sobre toda imagem obtém-se o momento particular do objeto (NIKU, 2013).

(44)

Figura 29 - Sistema de coordenadas para cálculo do Momento de um objeto.

Fonte: NIKU, 2013.

Na Equação 22, com 𝑎 = 0 e 𝑏 = 0, o momento do objeto define-se por:

𝑀0,0 = ∑ 𝑥0𝑦0 𝑥,𝑦

(23)

Sendo assim, uma vez que todo número elevado à potência 0 é igual a 1, todos os 𝑥0𝑒 𝑦0 são iguais a 1, e portanto, o momento 𝑀_0,0 corresponde a soma de todos os pixels ligados, o que determina a área do objeto. Pode-se também determinar a localização do centroide do objeto, calculando a localização do centro da área em relação aos eixos x e y conforme as Equações 24 e 25 respectivamente (NIKU, 2013, p. 326): 𝑦̅ = ∑ 𝑦 á𝑟𝑒𝑎 = 𝑀_0,1 𝑀0,0 (24) 𝑥̅ = ∑ 𝑥 á𝑟𝑒𝑎 = 𝑀1,0 𝑀_0,0 (25)

Finalmente, conforme Niku (2013), pode-se concluir que, com a utilização das equações de momento, é possível identificar um objeto em uma imagem através da comparação da área do mesmo com uma área aproximada (conhecida). Além disso, é possível determinar a localização do mesmo dentro da imagem, o que constitui uma informação de grande valia no desenvolvimento de aplicações de rastreamento de objetos.