Experimentos com Agrupamento de Pixels
6.7 Compressão de imagens
Tabela 6.8 Taxas de acerto para a classificação utilizando as bases artificiais e vários classificadores. Comparação entre PCA e Pedaços-por-Valor.
Base 1/100 PCA PV 1-NN 0,3067 ± 0,0627 0,3133 ± 0,0450 Naive Bayes 0,3000 ± 0,0505 0,3222 ± 0,0673 SVM 0,3422 ± 0,0526 0,3244 ± 0,0613 Árvore de Decisão 0,3356 ± 0,0245 0,3222 ± 0,0631 Base 10/1.000 PCA PV 1-NN 0,3944 ± 0,0846 0,9418 ± 0,0280 Naive Bayes 0,4271 ± 0,0916 0,9413 ± 0,0287 SVM 0,4118 ± 0,0896 0,6793 ± 0,1273 Árvore de Decisão 0,4000 ± 0,0877 0,9200 ± 0,0262 Base 100/10.000 PCA PV 1-NN 0,3342 ± 0,0054 1,0000 ± 0,0000 Naive Bayes 0,3400 ± 0,0220 1,0000 ± 0,0000 SVM 0,3487 ± 0,0612 0,6400 ± 0,0755 Árvore de Decisão 0,3351 ± 0,0163 1,0000 ± 0,0000
características com PCA fica em torno de 0,4 para os quatro classificadores. Com PV, a taxa de acerto é maior que 0,9 para 3 classificadores (1-NN, NaiveBayes e Árvore de decisão) e 0,67 para SVM. O desempenho do PCA não melhora na base 100/10.000, enquanto PV classifica corretamente todas as instâncias em três classificadores, e 0,64 com SVM.
6.7
Compressão de imagens
Os experimentos desta seção foram realizados em duas bases de face bem conhecidas: ORL (SAMARIA; HARTER, 1994) e Yale (PEREIRA; CAVALCANTI; TSANG, 2009), ambas des- critas na Seção 4.1. Este experimentos utilizam apenas a técnica Pedaços-por-Valor, pois a regiões definidas por elas aparentam ser mais adequadas para a representação e compressão de imagens. O algoritmo k-médias foi escolhido como método de agrupamento rígido, porque empiricamente mostrou-se mais rápido do que o algoritmo hierárquico aglomerativo (THEO- DORIDIS; KOUTROUMBAS, 2008). As configurações do algoritmo k-médias são estas: é utilizada a distância Euclidiana; os centróides iniciais são escolhidos a partir do conjunto de to-
dos os vetores-de-pixel aleatoriamente e sem repetição; se, em qualquer iteração, algum grupo tornar-se vazio, um pixel qualquer de outro grupo é movido para o grupo vazio.
No presente experimento, cada base de dados foi comprimida utilizando o método pro- posto, Pedaços-por-Valor (PV). Para cada conjunto de dados os primeiros cinco elementos de cada classe são selecionados para o conjunto de treinamento e o restante para conjunto de teste. O conjunto de treino é utilizado para se definir as regiões. As imagens de ambos os conjuntos (treino e teste) são representadas com a técnica proposta, a representação é o vetor de carac- terísticas. Este vetor é escrito como um arquivo que representa a imagem, este arquivo é a imagem comprimida.
Para medir a qualidade das imagens comprimidas foi utilizado o SSIM (índice de simila- ridade estrutural), proposto em (WANG et al., 2004). SSIM compara a imagem original com a imagem comprimida. Este método é muito robusto para se comparar o quanto uma imagem comprimida com perdas é semelhante à imagem original. O SSIM dá como saída um valor no intervalo [0;1], sendo 1 a melhor qualidade. O valor 1 só é alcançado quando as imagens são exatamente iguais. O SSIM é a média o índice de similaridade estrutural calculado para várias regiões da imagem. Em cada uma dessas regiões calcula-se a média, desvio padrão e covariância dos pixel entre duas imagens. Com estas estatísticas calcula-se o SSIM da região. A motivação para utilizar o SSIM é que este método avalia duas imagens de maneira similar ao sistema visual humano, sendo mais adequado do que outras métricas como MSE (Mean Squared Error). O SSIM é definido pela Equação 6.2.
SSIM(X ,Y ) = 1 q q
∑
j=1 LSSIM(xj, yj). (6.2)com q igual ao número de janela e SSIM Local (LSSIM) calculado para cada janela 11 × 11 da imagem:
LSSIM(x, y) = (2µxµy+C1)(2σxy+C2) (µ2
x+ µy2+C1)(σx2+ σy2+C2)
. (6.3)
C1= (0, 01×L)2e C2= (0, 03×L)2; L é o máximo valor de intensidade de um pixel (assumindo
que o menor valor é 0), no caso de imagens de 8 bits por pixel, este valor é 255; µx= ∑i=1p wixi;
pé o número de pixels na janela; σx=
q
6.7 COMPRESSÃO DE IMAGENS 137
é o peso atribuído a um pixel. Este peso é maior no centro da janela e menor à medida que se afasta do centro, de acordo com uma função Gaussiana de desvio padrão 1,5, com a restrição ∑i=1p wi= 1.
Uma vez que cada imagem utiliza 8 bits por cada pixel, o tamanho da imagem comprimida pode calculado pela Equação 5.19 é C(n, 8) = n bytes, na qual n é o número de características extraídas. O tamanho em bytes de cada imagem comprimida é igual ao número de regiões delimitadas na imagem. A taxa de compressão e a qualidade da imagem foram comparadas com um dos algoritmos de compressão com perdas para imagens estátidas, o JPEG (MURRAY; RYPER, 1996).
Para se estabelecer uma base de comparação entre PV e JPEG, cada imagem foi compri- mida com JPEG em três qualidades diferentes 1%, 5% e 100%. Os parâmetros 1% e 5% foram escolhidos para se obter máxima compressão do JPEG, e 100% para se obter máxima quali- dade. Após a compressão com JPEG cada imagem tem um tamanho diferente. Para a base ORL, o tamanho médio (em bytes) para cada parâmetro de compressão são 225, 270 e 6.158 bytes, para as qualidades JPEG 1%, 5%e 100%, respectivamente. Para a base Yale o tamanho médio das imagens comprimidas é 266, 357 e 7.254 bytes, para as qualidades 1%, 5%e 100%, respectivamente. Em seguida, as imagens originais também foram comprimidas com PV para se obter imagens com este tamanho médio de armazenamento. Por exemplo, para a base ORL cada imagem foi comprimida em três arquivos diferentes: um com 255 bytes, outro com 270 bytes e o último com 6.158 bytes. O mesmo foi realizado para a base Yale.
Deve-se lembrar que cada base precisa de um modelo para poder reconstruir as imagens comprimidas, este modelo é único para a base, o requisito máximo para armazenamento da base pode ser calculado pela Equação 5.20. Como exemplo toma-se a base ORL, esta possui 400 imagens (225 bytes por imagem), adicionando o modelo, é obtido um total de 100.304 bytes. Isto dá um tamanho médio de 251 bytes por imagem. De fato, cada imagem tem 225 bytes, mas o modelo tem 10.304 bytes, o qual dividido por 400 imagens dá um custo aproximado de mais 26 bytes por imagem. O modelo pode ser considerado como parte do algoritmo de descompressão. Para se aumentar a compressão total, o modelo pode ser comprimido com um algoritmo de compressão de imagem qualquer. Por estes motivos e para poder ter uma análise
(a) Original (b) 6.158 p. (c) 270 p. (d) 225 p. (e) JPG5% (f) JPG1%
(g) Original (h) 7.254 p. (i) 357 p. (j) 266 p. (k) JPG5% (l) JPG1% Figura 6.11 Imagens originais e imagens comprimidas para as bases ORL (a-f) e Yale (g-l). As imagens são comprimidas com Pedaços-por-Valor e JPEG. 6.158 p. Significa 6.158 pedaços (ou grupos).
mais simples, os custos com o modelo são desconsiderados. Também não são considerados possíveis métodos para compressão ou codificação do vetor de características, que é a imagem comprimida. Poderia ser utilizada codificação Huffman ou LZW para comprimir ainda mais cada imagem (MURRAY; RYPER, 1996).
Imagens comprimidas para cada qualidade JPEG e para Pedaços-por-Valor, de tamanho de armazenamento equivalente, pode ser vista na Figura 6.11 para ambas as bases. Nesta figura é possível comparar a imagem com 6.158 regiões com a imagem de entrada e concluir que não há diferença perceptual. De fato o índice de similaridade estrutural é de 0,995, enquanto 6.158 PV consomem os mesmo espaço de armazenamento que o JPEG para uma qualidade equivalente. O mesmo pode ser notado para 7.254 PV para a base Yale, não há diferença perceptual e o SSIM é 0,9967. Deve ser enfatizado que as imagens ORL da Figura 6.11 pertencem ao conjunto de teste. Isto significa que as imagens comprimidas nesta Figura não foram vistas durante o treinamento, etapa na qual são definidas as projeções. Apesar disto, a imagem de teste utiliza as mesmas regiões definidas para o conjunto de treino.
O SSIM médio para JPEG 100% e PV de tamanho de armazenamento equivalente é maior que 0,96 em ambos os conjuntos de dados, então a análise que se segue foca nos casos em que a compressão é maior. A Tabela 6.9 mostra que o intervalo de confiança para um nível de
6.7 COMPRESSÃO DE IMAGENS 139
confiança de 95% para 400 imagens da base ORL comprimida nas quatro formas (JPEG 1% e 5%, PV equivalentes). Este intervalo foi construído assumindo que os dados seguem uma distribuição t-Student. Pode ser notado que o SSIM para 225 PV é estatisticamente maior que o SSIM para JPEG 1% e 5%. Está claro que, para a base ORL, PV produz maior compressão e melhor qualidade quanto comparado o limite de compressão máxima do JPEG. A diferença é visível na Figura 6.11, na qual JPEG 1% e 5% deformaram a imagem, enquanto a compressão com PV perdeu detalhes da imagem mas manteve a estrutura geral.
Os mesmos efeitos podem ser notados para a base Yale, veja a Figura 6.11. A Tabela 6.9 mostra o intervalo de 95% de confiança para os valores de SSIM nas 165 imagens desta base. Para as quatro formas de maior compressão, é notado que as médias do SSIM para 266 PV é estatisticamente maior que o SSIM para JPEG 1%. O mesmo ocorre para 357 PV e JPEG 5%. Apesar de a diferença ser muito pouca entre os intervalos de confiança deve-se lembrar que este é um teste conservador. A hipótese de que ambas as médias são iguais seria rejeitada mesmo se houver uma pequena sobreposição entre os intervalos de confiança (SCHENKER; GENTLEMAN, 2001). Na Seção 4.2, a discussão sobre teste de hipótese com intervalo de confiança é um pouco estendida. Por hora pode-se afirmar com confiança que o SSIM médio do método proposto, quando utilizado para se obter alta compressão, obtém uma média maior do índice de qualidade SSIM do que a compressão JPEG.
Para o limite de compressão máxima do JPEG, o método proposto (PV) apresenta maior qualidade. A partir dos resultados da Tabela 6.9 é esperado que aumentando a compressão com PV o efeito no índice de qualidade SSIM não seja tão grande. De tal modo que o método proposto é capaz de comprimir imagens de uma base tanto quanto o JPEG na sua capacidade máxima de compressão máxima e com um qualidade melhor. Vale lembrar que o JPEG é um método de compressão complexo, enquanto o método proposto utiliza apenas a extração de características. Analogamente, o método proposto equivaleria ao JPEG escrever diretamente no arquivo os coeficientes da transformada discreta de cosseno, sem qualquer codificação ou quantização. Com isso é possível pensar que o método proposto para compressão ainda pode ser bastante melhorado.
Tabela 6.9 The Structural SIMilarity (SSIM) index , índice de similaridade estrutural para as imagens comprimidas com PV e JPEG.
Método de Tamanho SSIM (média ± desvio padrão; compressão (bytes) intervalo de 95% de confiança)
ORL JPEG 1% 225 0,6034 ± 0,0494; [0,5986; 0,6083] 225 Pedaços-por-Valor 225 0,7262 ± 0,0499; [0,7213, 0;7311] JPEG 5% 270 0,6906 ± 0,0337; [0,6873; 0,6939] 270 Pedaços-por-Valor 270 0,7407 ± 0,0481; [0,7360; 0,7454] JPEG 100% 6.158 0,9993 ± 0,0001; [0,9992; 0,9993] 6.158 Pedaços-por-Valor 6.158 0,9659 ± 0,0088; [0,9650; 0,9668] Yale JPEG 1% 266 0,5880 ± 0,0411; [0,5818; 0,5943] 266 Pedaços-por-Valor 266 0,6852 ± 0,0529; [0,6771; 0,6933] JPEG 5% 357 0,6982 ± 0,0351; [0,6928; 0,7036] 357 Pedaços-por-Valor 357 0,7154 ± 0,0501; [0,7077; 0,7230] JPEG 100% 7.254 0,9995 ± 0,0001; [0,9994; 0,9995] 7.254 Pedaços-por-Valor 7.254 0,9658 ± 0,0081; [0,9646; 0,9671]
6.8
Conclusão
Neste capítulo, foram avaliados os métodos de Agrupamento de Pixels propostos. Na Seção 6.1, os dois métodos que utilizam a metodologia de Agrupamento de Pixels, Pedaços-por-Valor e Pedaços-por-Posição, são comparados com métodos no estado da arte para classificação e extração de características no reconhecimento de faces. Os métodos propostos sobressaem-se quando comparadas as taxas de acerto. Na Seção 6.2 concluiu-se, para três bases de imagens de face, que 512 é um número de características adequado para o reconhecimento de faces com Pedaços-Por-Valor (PV).
Na Seção 6.3, são avaliadas as propostas de PV Fracionário. Também são avaliados o uso de outros classificadores além do 1-NN. Concluiu-se que o 1-NN é um classificador adequado para as bases avaliadas no reconhecimento de faces, e que o SVM pode também alcançar um
6.8 CONCLUSÃO 141
alto valor de acurácia. O métodos derivados de Pedaços-por-Valor Fracionário apresentaram acurácia semelhante aos métodos derivados de Autofaces Fracionárias. As versões fracionárias dos métodos podem aumentar a acurácia no reconhecimento de faces.
Na Seção 6.4, o método proposto mostrou-se muito robusto quando comparado ao PCA. Nesse experimento, apesar de serem utilizadas amostra de apenas poucas classes do conjunto de treino, não houve redução significativa na acurácia de PV. Na Seção 6.5, foi avaliado o efeito de não utilizar algumas características extraídas com PV. Concluiu-se que pode existir vantagem para o reconhecimento de faces, dependendo da base de dados.
A Seção 6.6, de experimentos com dados artificiais, mostra que PV pode agrupar variáveis provenientes da mesma distribuição. A média de variáveis provenientes da mesma distribuição aproxima a média populacional, fazendo com que as amostra fiquem mais similares umas das outras. Percebe-se que o excesso de características redundantes é um ponto positivo para a extração de características. O método proposto apresentou maior acurácia que PCA ou dados brutos em vários cenários e para vários classificadores. Entre algumas vantagens do método proposto, notou-se que a escala das variáveis originais é preservada. Esta foi uma deficiência identificada no PCA.
Na Seção 6.7, é analisado PV como método de compressão. Para tanto compara-se este método com o popular JPEG. Foi concluído que, o nível de degradação do JPEG é muito mais alto do que o de PV para o mesmo nível de compressão, observando altos níveis de compressão. Os experimentos deste capítulo validam que a metodologia de Agrupamento de Pixel é útil para se definir métodos de extração de característica e compressão de imagens. Alguns experimentos indicam que os métodos propostos ainda podem ser aprimorados. O presente capítulo também pode inspirar novos métodos, derivados daqueles apresentados.
C
APÍTULO7
Conclusões
A presente tese apresenta dois conjuntos de métodos de extração de características para reco- nhecimento de faces. O primeiro é uma extensão do PCA Fracionário e chama-se Autofaces Fracionário. O segundo é baseado em agrupamento de características, chama-se Agrupamento de Pixels e é motivada pelo fenômeno de que a redução das imagens pouco impacta em alguns problemas de reconhecimento de faces. A metodologia de Agrupamento de Pixels também é relevante pelo fato de quase não existir métodos no mesmo paradigma (agrupamento de carac- terísticas) aplicados ao reconhecimento de faces.
Os métodos de Autofaces Fracionários são uma fusão do método do Autofaces (PCA para dados de alta dimensionalidade) e da teoria da matriz de covariância fracionária. Além destes métodos, também são incluídas transformações não lineares antes da projeção dos dados. Estes métodos melhoram a taxa de reconhecimento de faces em relação aos métodos dos quais eles são derivados. Também foi analisado como estas projeções podem ser úteis para a visualização dos dados. Já foi realizada uma contribuição com uma das técnicas do Autofaces Fracionário Melhorado através de uma publicação (CARVALHO et al., 2014) e da extensão deste método (CARVALHO et al., 2015).
O Agrupamento de Pixels define uma estrutura chamada vetor-pixel. Esta estrutura pode ser de dois tipos. Um tipo contém apenas a posição do pixel na imagem. O outro tipo contém o valor de intensidade de um mesmo pixel para todas as imagens do conjunto de treinamento. A metodologia de Agrupamento de Pixels agrupa estes vetores definindo regiões na imagem e extrai uma característica como a média de uma região.
Para as bases de imagens de face utilizadas, concluiu-se que as imagens podem ser sufici- entemente representadas para o reconhecimento por 512 atributos. Cada um destes atributos é a média de intensidade de uma região. O método proposto também mostrou-se robusto quando poucas imagens estão disponíveis para se encontrar a projeção. Ainda apresentou acurácia até
70% maior que o PCA para classificação de padrões em bases artificiais. Com este método é possível reconstruir a imagem. Foi verificado que o método proposto pode ser utilizado para a compressão de imagens.
Como citado na introdução desta tese, o método de extração de características mais uti- lizado no reconhecimento de faces, Autofaces (TURK; PENTLAND, 1991), extrai caracte- rísticas como projeções lineares dos dados originais. Da mesma forma fazem Waveletfaces (CHIEN; WU, 2002) e PCA Fracionário (GAO; ZHOU; PU, 2013). Todos os métodos pro- postos também realizam extração de característica através de projeções lineares, isto pode ser verificado pelas equações de extração de características de cada técnica: Equação 3.9, Equação 3.14, Equação 3.16 e Equação 5.9. Sendo que a Equação 3.16 é compartilhada entre métodos das duas abordagens propostas: Autofaces Fracionário e Pedaços-por-Valor Fracionário. Todas estas equações seguem a forma mais geral descrita pela Equação 1.1.