Estado da arte
2.5 MALDIÇÃO DA DIMENSIONALIDADE
Tabela 2.5 Comparação entre os principais métodos de agrupamento de características.
Seção Algoritmo de Agrupamento Similaridade / Distância Tipos de Dados Seleção / Extração Superv. / Não-superv. Jiang, Liou e Lee (2011)
2.4.1 protótipo kernel texto extração superv. Song, Ni e Wang (2013)
2.4.2 grafo informação geral seleção superv. Sotoca e Pla (2010)
2.4.3 hierárquico informação geral seleção superv. Avidan (2002), Avidan e Butman (2004)
2.4.4 protótipo correlação imagens
/ faces extração não-superv. Bandyopadhyay et al. (2014)
2.4.5 grafo /
protótipo informação geral seleção não-superv. Jiang, Su e Lee (2011)
2.4.5 protótipo informação geral seleção ambos Jiang e Lee (2007)
2.4.5 protótipo informação texto extração ambos Jiang, Yin e Lee (2007)
2.4.5 hierárquico informação texto seleção superv. Covões et al. (2009), Jaskowiak et al. (2010)
2.4.5 protótipo correlação geral seleção não-superv. Covões e Hruschka (2011)
2.4.5 protótipo correlação
informação geral seleção ambos Covões e Hruschka (2009)
2.4.5 protótipo correlação
Tabela 2.6 Distâncias mínima e máxima das amostra até o centro. Quando o número de dimensões aumenta a razão entre estas duas distâncias tende a 1.
Dimensões Mínimo Máximo Min/Max 1 0,0000 0,2664 0,0000 10 0,0212 0,1329 0,1594 100 0,0600 0,0987 0,6083 1.000 0,0762 0,0883 0,8627 10.000 0,0800 0,0845 0,9466
são analisadas por Hastie et al. (HASTIE; TIBSHIRANI; FRIEDMAN, 2001).
Outros autores também analisam a maldição da dimensionalidade. Hughes (HUGHES, 1968) mostra que a taxa de classificação aumenta, para um classificador Bayesiano, quando o número de características aumenta até um certo limite. Quando são utilizadas mais caracterís- ticas do que o número ótimo, a acurácia média diminui. Chavez et al. (CHáVEZ et al., 2001) analisa este problema do ponto de vista da busca pelo vizinho mais próximo.
Para entender os efeitos deste método são propostos dois experimentos: um com dados ar- tificiais e outro com dados reais. A base artificial contém 100 amostras com 10.000 dimensões. Cada variável é proveniente de uma distribuição uniforme no intervalo [0; 1]. É calculada a dis- tância da amostra mais próxima e da mais distante do centro. Também é calculada a razão entre estas distâncias. Este procedimento é realizado selecionando as primeiras 1, 10, 100, 1.000 e 10.000 dimensões. Os resultados podem ser vistos na Tabela 2.6. Quanto maior o número de dimensões, diminui a razão entre a menor e maior distância de uma amostra para o centro. Este número parece tender a 1, isto é, a amostra mais próxima estão quase tão distante do centro quando a mais distante.
Para verificar se a maldição da dimensionalidade ocorre também com as imagens de face, que são o objeto deste trabalho, é proposto o seguinte experimento. Foram utilizadas as ima- gens da base de dados ORL, que contém 400 amostra e 10304 dimensões. A altura e largura da imagem foram reduzidas sucessivamente pela metade, reescalando a imagem como faz o mé- todo Waveletfaces, para projetar os dados em uma dimensão menor. Então a média dos índice de Silhouette (página 129) é calculado em cada caso. Este índice compara se um exemplo está mais próximo da sua própria classe ou de outra classe. O melhor valor para este índice é +1,
2.6 CONCLUSÕES 57
Tabela 2.7 Índice de Silhouette para a base ORL com as imagens no tamanho original e reduzido. Silhouette Altura Largura Dimensões
0,2283 92 112 10.304 0,2565 46 56 2576 0,2892 23 28 644 0,3230 12 14 168 0,3324 6 7 42 0,2826 3 4 12
indica que uma amostra está mais próxima, na média, da sua classe. O pior valor é −1 e indica que a amostra está mais próxima, na média, de outra classe. Os resultados são mostrados na Ta- bela 2.7. Percebe-se que o índice de Silhouette é maior para menos dimensões, exceto quando são utilizadas apenas 12 dimensões. Isto indica que as amostras em alta dimensão afastam-se igualmente uma das outras, tendendo a ficarem igualmente distante das amostra da sua classe e das amostras de outra classe.
2.6
Conclusões
No começo do capítulo consta uma breve revisão sobre reconhecimento de faces. Um elemento importante em um sistema de reconhecimento de faces é a extração de características. O foco deste trabalho é a extração de características holísticas, entre elas: Waveletfaces e Autofaces.
Foi analisado o método Waveletfaces de extração de características para reconhecimento de faces. Este método é equivalente a uma simples redução da imagem. Com este método percebeu-se que a acurácia no reconhecimento de faces não diminuía até certo ponto de redução das imagens. Conjecturou-se que isto se dá porque não se perde muita informação reduzindo-se a escala da imagem, pois uma região de pixels vizinhos é substituída pela sua média.
De forma simplificada, os pixels de uma imagem podem ser classificados como internos ou borda (GONZALEZ; WOODS, 2006). Os pixels internos têm seus vizinhos com intensidade semelhantes. Os pixels de borda possui um ou mais vizinhos com intensidade discrepante. Em qualquer imagem ampliada, as regiões de borda crescem linearmente. As regiões internas
crescem de em uma proporção quadrática.
Percebe-se que as regiões de borda são minoria, por isto pixels vizinhos geralmente cor- respondem a pixels de uma mesma região e têm suas intensidades altamente correlacionadas. Disto, Waveletfaces pode ser interpretado como um método que reduz a dimensão de uma amostra transformando grupos de pixel em apenas uma característica. Esta característica cor- responde à média do grupo de pixels com intensidades semelhantes.
Em seguida foi feita uma revisão sobre Análise dos Componentes Principais (PCA). Este é um método de referência para o reconhecimento de faces, através da técnica denominada Au- tofaces. Durante a revisão cuidadosa sobre PCA, percebeu-se que este método pode ressaltar o fenômeno percebido no Waveletfaces: grupo de características. Grupos de características al- tamente correlacionadas aparecem como apenas um componente relevante no PCA. Este com- ponente é aproximadamente a média das características do grupo. Também foi visto o método de PCA Fracionário e a Teoria da Matriz de Covariância Fracionária.
Foi notado tanto no Waveletfaces como no PCA que agrupar características produz bons resultados para classificação. Por isto, foi investigado na literatura métodos que seguem o paradigma de Agrupamento de Características para redução de dimensionalidade. Foram co- mentados mais de trinta métodos que seguem este paradigma. Realizou-se uma revisão mais detalhada em alguns destes.
Percebeu-se a maioria dos trabalhos realiza a tarefa de seleção de características. Apenas (AVIDAN, 2002; AVIDAN; BUTMAN, 2004; JIANG; LIOU; LEE, 2011; JIANG; LEE, 2007) realizam extração de características. Todos trabalham com dados de alta dimensionalidade. A maioria, dos que focam em algum tipo de dado, trabalha com dados de texto (classificação de texto), alguns trabalham com dados de DNA. Apenas (AVIDAN, 2002; AVIDAN; BUTMAN, 2004; SONG; NI; WANG, 2013) utilizam imagens, e estes utilizam imagens de faces. Apenas (AVIDAN, 2002; AVIDAN; BUTMAN, 2004) restringem-se a imagens: (AVIDAN, 2002) para classificação de faces e de automóveis; (AVIDAN; BUTMAN, 2004) para detecção de faces.
O método AutoSegmentos (AVIDAN, 2002) menciona paralelamente extrair características das regiões como os principais componentes ou como a média. Apresenta uma boa motivação para a utilização do PCA. Comenta que a média pode obter bons resultados (e na verdade obtém
2.6 CONCLUSÕES 59
os melhores resultados) mas não explica por que utilizar a média é bom. Este é uma aspecto de interesse desta tese, a utilização da média de uma região da imagem. Por que utilizar a média? Para esta tese, ideia é motivada pelo Waveletfaces. A interpretação do Waveletfaces com a transformada de Haar é que a média de cada região é extraída, pois o componente de baixa frequência na transformada de Haar é a média de duas amostras vizinhas.
E por que a média funciona para outros tipos de regiões? Existem várias possíveis expli- cações: (1) do ponto de vista de processamento de imagem a média de uma região extrai as baixas frequências da região, o mesmo princípio da transformada de Haar e do Waveletfaces; (2) o filtro espacial de média é um filtro passa-baixa; qualquer filtro passa-baixa tem todos os coeficientes positivos; (3) a média é a estatística que minimiza o erro médio quadrático (va- riância) de uma amostra, da mesma forma que o PCA minimiza o erro médio quadrático de representação; (4) é sabido que no PCA um subconjunto de variáveis altamente correlacio- nadas tem apenas um componente com autovalor alto, que tem essa forma pré-definida de ter todos os coeficientes positivos para as variáveis do grupo e coeficientes zero para as variáveis fora do grupo (JOLLIFFE, 2002).
Outro tópico relevante é a maldição da dimensionalidade. Este fenômeno também sugere explicações de porque a redução das imagens pode aumentar a taxa de reconhecimento. Quando maior a dimensão dos dados, as amostra vão ficando igualmente distantes das amostras de suas classe e de outras classes.
No capítulo seguinte, a Teoria da Matriz de Covariância Fracionária é aplicada ao método Autofaces e são propostos três métodos de extração de características para faces. Mais adiante, no Capítulo 5, é proposta uma metodologia, chamada Agrupamento de Pixel. Esta proposta é baseada em agrupamento de características para o reconhecimento de faces.