• Nenhum resultado encontrado

Avaliação de Descritores de Imagem

N/A
N/A
Protected

Academic year: 2021

Share "Avaliação de Descritores de Imagem"

Copied!
69
0
0

Texto

(1)

Avaliação de

Descritores de Imagem

André Tavares da Silva

(2)

Descritor

• O par descritor de imagem e função de distância descreve como as imagens de uma coleção estão distribuídas no espaço de características (medida).

(3)
(4)
(5)

Medidas de Avaliação

• Ao avaliar um novo descritor, os autores buscam medir:

– Velocidade/complexidade do processamento da extração de características;

– Separabilidade entre classes;

– Percentual de acertos em uma classificação; – Gráfico Precisão-Revocação;

(6)

Bases de Imagem

• http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm • http://www.cvpapers.com/datasets.html • http://lear.inrialpes.fr/data • https://computervisiononline.com/datasets • ...

(7)

Desafios

• Antigo VOC Pascal

(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/)

(https://sites.google.com/view/pasd)

• ImageNet (http://image-net.org/)

(8)

Desafios CVPR 2017

• http://activity-net.org/challenges/2017/index.html • http://www.vision.ee.ethz.ch/ntire17/ • http://vision.soic.indiana.edu/bright-and-dark-workshop-2017/ • http://davischallenge.org/challenge2017/index.html • http://www.visualqa.org/workshop.html • https://research.google.com/youtube8m/workshop.html • https://vuhcs.github.io/ • https://ibug.doc.ic.ac.uk/resources/first-faces-wild-workshop-challenge/ • http://jointscene.csail.mit.edu/ • http://podoce.dinf.usherbrooke.ca/challenge/tswc2017/ • https://sites.google.com/view/cvpr2017-bridges-nrsfm/home

(9)

Medidas de Avaliação

• Precisão • Revocação

• Precisão x Revocação

• Medida-F (F-measure, F1 score) • MAP

• Curva ROC • Acurácia

(10)

Avaliação simples

• Ao comparar dois descritores de imagem, o objetivo é verificar se as imagens consideradas parecidas (mais próximas) são realmente de uma mesma classe (tipo).

• Neste caso, observa-se as N imagens mais parecidas e verificamos quantas realmente são da mesma classe.

(11)

Precisão

• Precisão (também chamada de valor preditivo positivo) é a fração de instâncias recuperadas que são relevantes em um conjunto retornado pelo sistema.

• Suponha que um programa de computador para o reconhecimento de cães em cenas de um vídeo identifica 7 cães em uma cena contendo cães e alguns gatos. Se 4 das identificações estão corretas, mas 3 são gatos, a precisão do programa é 4/7.

(12)

Precisão

Precisão=imagens relevantes∩imagens recuperadas imagens recuperadas

Ou simplesmente: Precisão= imagensrelevantes recuperadas imagensrecuperadas

(13)

Precisão em K (P@k)

• Para sistemas modernos de busca (Web, CBIR, CBVR) com quantidade enorme de imagens (documentos), a precisão ao encontrar as k primeiras imagens (ou documentos na Web, por exemplo) é uma boa medida para avaliar o sistema e interessante para quem for utilizá-lo. P@10 (Precision at 10 - ou P10) corresponde ao número de resultados relevantes encontrados nas 10 primeiras imagens apresentadas.

• Alguns métodos apresentam como resultado a precisão em diferentes P@k (P10, P20, P30,…).

(14)

Revocação

• Revocação (também conhecida como

sensibilidade) é a fração de instâncias relevantes que são recuperadas. Tanto precisão quanto revocação (ou recall) são, portanto, bases para o estudo e compreensão da medida de relevância.

• Suponha que um programa de computador para o reconhecimento de cães em cenas de um vídeo identifica 7 cães em uma cena contendo 9 cães e alguns gatos. Se 4 das identificações estão corretas, mas 3 não, a sua revocação é 4/9.

(15)

Revocação

Revocação=imagens relevantes∩imagensrecuperadas imagensrelevantes

Ou simplesmente: Revocação=imagens relevantes recuperadas total de imagensrelevantes

(16)

Precisão x Revocação

• Ao tomar uma imagem de exemplo (query image) e fazer o sistema retornar as imagens mais similares de acordo com um descritor, a precisão diminui conforme a quantidade de imagens retornadas.

• É normal as primeiras imagens serem de uma mesma classe ou categoria (mesmo tipo de objeto) e depois aparecerem imagens similares mas de outro tipo. Em uma busca na Web, por exemplo, é comum que somente as “primeiras páginas” sejam realmente relevantes.

(17)

Curva Precisão x Revocação

• Dessa forma, as medidas de precisão e revocação variam conforme a busca vai avançando.

• Como comparar resultados de imagens cujas classes tenham diferentes números de elementos? • Por isso calcula-se a precisão em diferentes níveis

de revocação (0%, 10%, 20%,…,100%), gerando uma curva.

(18)
(19)

Medida-F

• A medida que combina precisão e revocação é a média harmônica de precisão e revocação, a tradicional F-measure ou F-score balanceada:

• Esta medida também é conhecida como medida F1, pois revocação e precisão são ponderadas uniformemente. A medida Fβ geral é:

• Duas medidas F normalmente utilizadas são a medida F2, que pondera a revocação com maior valor que a precisão e a medida F0.5, que

coloca mais ênfase na precisão do que a revocação.

F=2⋅ precisão⋅revocação precisão+revocação

F=1+β2⋅ precisão⋅revocação β2⋅precisão+revocação

(20)

Precisão Média e MAP

• Ao calcular a curva Precisão-Revocação, ao plotar a precisão p(r) como uma função da revocação r, podemos calcular a precisão média (Average precision) por:

• Para um conjunto de consultas (exemplos), podemos calcular a medida MAP (Mean Average Precision):

AP=

0 1 p(r )⋅r MAP=

1 Q AP (q) Q

(21)

Medidas de Avaliação

• As medidas de avaliação são normalmente medidas após um sistema de recuperação (busca) de informação ou classificação (reconhecimento);

• Po isso normalmente as comparações entre descritores são realizados em conjunto com um sistema de classificação para verificar quanto o sistema está acertando ou errando.

(22)
(23)
(24)
(25)

Verdadeiros/Falsos Positivos/Negativos

• Em um sistema com classificador, ele pode acertar ou errar qual o tipo de imagem (objeto) estamos tentando classificar/buscar.

– Caso a imagem seja corretamente classificada como sendo do tipo desejado, considera-se como sendo verdadeiro positivo (VP);

– Caso a imagem seja classificada como sendo do tipo desejado, mas seja de outro, é um falso positivo (FP);

– Caso a imagem seja classificada como sendo de outro tipo, mas seja do tipo correto, é um falso positivo (FP);

– Caso a imagem seja corretamente classificada como sendo de outro tipo, é um verdadeiro negativo (VN);

(26)

Matriz de Confusão

• Uma forma de visualizar os valores de VPs, FPs, VNs e FNs, é através de uma tabela:

VN FN

(27)

Matriz de Confusão

• A matriz da confusão é uma ferramenta usada tipicamente para verificar o erro do classificador para as diferentes classes. Cada coluna da matriz representa os tipos em uma classe predita e cada linha representar a classe real.

• O principal benefício da matriz da confusão verificar facilmente se o sistema está confundindo duas (ou mais) classes distintas.

(28)

Matriz de Confusão

Cachorro Gato Cavalo

Cachorro 25 15 0

Gato 9 15 5

(29)

Precisão

• Em uma tarefa de classificação, o coeficiente de precisão é o número de verdadeiros positivos (o número de itens corretamente rotulados como pertencentes aos positivos), dividido pelo número total de elementos identificados como pertencentes ao conjunto positivo (a soma de verdadeiros positivos e falsos positivos, que são itens incorretamente rotulados como pertencente ao conjunto).

• A precisão é a probabilidade de que uma imagem selecionada aleatoriamente seja relevante.

(30)

Precisão

Precisão=imagens relevantes∩imagens recuperadas imagens recuperadas

Ou: Precisão= TP

(31)

Revocação

• Em uma tarefa de classificação, o coeficiente de revocação é definido como o número de verdadeiros positivos, dividido pelo número total de elementos que pertencem aos positivos (a soma de verdadeiros positivos e falsos negativos, que são itens que não foram rotulados como pertencentes aos positivos, mas deveriam ter sido). • Revocação é a probabilidade de selecionar

(32)

Revocação

Revocação=imagens relevantes∩imagensrecuperadas imagensrelevantes

Ou: Revocação= TP

(33)

Acurácia

• Ela é relativa aos acertos na classificação. É a soma de verdadeiros positivos e negativos dividido pelo tamanho da base (ou dos dados classificados):

AP= VP+VN

(34)

Característica de Operação do Receptor

• Quando classificamos uma imagem usando um classificador binário (acerta ou erra), podemos alterar a característica do classificador para ser mais ou menos "rigoroso" ao rotular uma imagem (objeto) como sendo de uma determinada classe ou não.

• A Característica de Operação do Receptor (COR), ou Receiver

Operating Characteristic (ROC), ou simplesmente curva ROC, é uma

representação gráfica que ilustra o desempenho de um sistema classificador binário, mostrando como seu limiar de discriminação varia.

• É obtido pela representação da fracção de Verdadeiros Positivos dos Positivos Totais (RPV=PV/P) versus a fracção de Falsos Positivos dos Negativos Totais (RPF=PF/N), em várias configurações do limite. RPV é também conhecido como sensividade, e RPF é um menos a especificidade.

(35)

Curva ROC

• Usada para selecionar modelos ótimos de possibilidade e descartar as de qualidade inferior a partir do contexto de custo. Está relacionada com a análise de custo/benefício da tomada de decisão.

(36)
(37)

Descritores (exemplos)

• A seguir serão apresentados alguns tipos de descritores de Cor, Textura e Forma;

• Também são apresentados os resultados obtidos usando um busca simples, mostrando a curva média Precisão-Revocação a fim de comparar alguns descritores que serão apresentados e estudados ao longo da disciplina.

(38)

Descritores baseados em cor

• Na literatura existem quatro abordagens principais para a análise de cor:

– global

– baseada em regiões fixas – baseada em segmentação – local

(39)

Abordagem Global

• A abordagem global considera a informação de cor de uma imagem globalmente.

• Como nenhum particionamento ou pré-processamento da imagem é necessário durante a extração de características, descritores que seguem esta abordagem normalmente apresentam algoritmos de extração de características mais simples e rápidos.

(40)

Baseado em Regiões Fixas

• A abordagem baseada em regiões fixas divide a imagem em células de tamanho fixo e extrai informações de cor de cada célula separadamente.

• Esta abordagem codifica uma quantidade maior de informação espacial e, no entanto, descritores deste tipo normalmente geram vetores de características pouco compactos.

(41)

Baseado em Segmentação

• A abordagem baseada em segmentação divide uma imagem em regiões que podem variar em quantidade e tamanho de uma imagem para outra.

• Esta divisão é normalmente feita por um algoritmo de segmentação ou agrupamento de cores, aumentando a complexidade do processo de extração de características.

• Outra forma de segmentação é a realização de uma classificação dos pixels da imagem antes de se realizar a extração do vetor de características.

• Descritores deste tipo podem apresentar melhor eficácia, embora quase sempre apresentem maior complexidade computacional.

(42)

Locais

• A abordagem local usa algoritmos para a extração de características que encontram pontos de interesse na imagem e os caracterizam por informações invariantes a transformações como orientação e escala.

• Dessa maneira, o vetor de características contém informações sobre elementos locais da imagem.

(43)

Testes com descritores de cor

ETH80

(44)
(45)
(46)
(47)
(48)
(49)

Descritores baseados em textura

• Existem diversas abordagens para a extração de textura de uma imagem e elas variam nos trabalhos encontrados na literatura. Uma das taxonomias separa os tipos nos métodos:

– estatísticos – geométricos

– baseados em modelos

(50)

Estatísticos

• Uma das maneiras mais tradicionais para se analisar a distribuição espacial dos níveis de cinza de uma imagem é a análise estatística.

• Dessa maneira, é possível extrair informações estatísticas sobre os níveis de cinza de uma imagem, como por exemplo, a probabilidade de co-ocorrência de níveis de cinza em diferentes distâncias e orientações.

• Métodos que utilizam histogramas também caracterizam estatisticamente propriedades de textura de uma imagem.

(51)

Geométricos

• Analisam a textura por meio de "elementos de textura" ou primitivas.

• Esta análise é feita considerando-se as propriedades geométricas destas primitivas, como tamanho, forma, área e comprimento.

• Uma vez que as primitivas estejam identificadas em uma imagem, são extraídas delas regras de posicionamento que descrevem a textura.

• Este tipo de análise se torna difícil em texturas naturais pois tanto as primitivas quanto os padrões de posicionamento podem ser bastante irregulares.

(52)

Baseados em modelos

• Constroem um modelo que pode ser usado para descrever a textura ou sintetizá-la.

• Os parâmetros do modelo capturam as qualidades perceptivas essenciais de uma textura. Por exemplo, podem ser modelados elementos de textura como: um ponto claro ou um ponto escuro, uma transição horizontal ou vertical, cantos ou retas, etc.

• Descritores que seguem esta abordagem são bons para texturas bem definidas.

(53)

Processamento de sinais

• Podem ser usadas tanto filtragens no domínio espacial quanto filtragens no domínio da frequência.

• Propriedades são extraídas das imagens filtradas, como a densidade de bordas no caso de uma filtragem espacial, ou a média e desvio padrão dos valores no caso de uma filtragem no domínio da frequência.

• Descritores baseados em Fourier, Wavelets e filtros de Gabor se enquadram nesta abordagem.

(54)

Testes com descritores de textura

ETH80

(55)
(56)
(57)
(58)
(59)
(60)
(61)

Descritores baseados em forma

• Os descritores de forma podem ser divididos basicamente em duas abordagens:

– baseada em contorno • global • estrutural – baseada em região • global • estrutural

(62)

Baseado em contorno

• É mais popular na literatura, embora possa sofrer efeitos negativos na presença de ruído.

• Além disso, não é sempre que o contorno de uma forma está presente na imagem e, em algumas aplicações, o conteúdo da forma é mais importante do que o contorno.

(63)

Baseado em região

• Pode ser mais robusta na recuperação de formas por considerar a informação de toda a forma ao invés de considerar apenas a informação do contorno

• É a mais adequada para ser usada em aplicações de propósito geral.

(64)

Globais x Estruturais

• Os descritores globais consideram o contorno ou a região da forma como um todo, sem realizar divisões em subpartes.

• Os descritores estruturais dividem o contorno ou a região em segmentos e possibilitam a comparação parcial de formas, conseguindo, portanto, suportar oclusão de formas.

(65)

Globais x Estruturais

• Entretanto, os estruturais são mais complexos computacionalmente, especialmente para o cálculo de distância.

• Além disso, são mais sensíveis a ruído e necessitam de ajuste de parâmetros que dependem de informações das formas existentes na base de imagens, o que os torna impraticáveis em sistemas de propósito geral.

(66)

Forma e segmentação

• Um dos principais problemas envolvendo descritores de forma é relativa à segmentação das formas de uma imagem.

• A segmentação é ainda um problema em aberto. • Em bases de imagens com conteúdo conhecido

e controlado, é possível realizar ajustes de parâmetros de maneira a conseguir bons resultados de segmentação.

(67)

Forma e segmentação

• No entanto, em bases de conteúdo heterogêneo, os ajustes de parâmetros que satisfaçam todas as possíveis categorias de imagens são difíceis de serem realizados.

• Dessa maneira, torna-se impraticável o uso de descritores de forma que dependam de segmentação em um sistema de CBIR.

(68)

Testes com descritores de forma

ETH80

(69)

Referências

Documentos relacionados

Para se buscar mais subsídios sobre esse tema, em termos de direito constitucional alemão, ver as lições trazidas na doutrina de Konrad Hesse (1998). Para ele, a garantia

A Sementinha dormia muito descansada com as suas filhas. Ela aguardava a sua longa viagem pelo mundo. No entanto, sempre vivera junto ao pomar do António Seareiro e até

Combinaram encontrar-se às 21h

Quero ir com o avô Markus buscar a Boneca-Mais-Linda-do-Mundo, quero andar de trenó, comer maçãs assadas e pão escuro com geleia (17) de framboesa (18).... – Porque é tão

A bicharada já andava toda admirada, mas muito desconfiada!.

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

Segundo Éric Laurent, a psicose ordinária se caracteriza pela não resposta aos significantes-mestres tradicionais, manifestando o fim do poder do Nome-do-Pai como