• Nenhum resultado encontrado

As melhores taxas de reconhecimento para as bases JAFFE, CK, CK+, MMI e CMU-PIE foram 91,17%, 96,97%, 94,96%, 86,64% e 85,22%, respectivamente. Todas as bases tiveram

taxas acima de 85%. A eficiência da técnica apresentada nesta Tese foi avaliada com a ob- tenção de resultados satisfatórios.

As Tabelas 4.53, 4.54, 4.55, 4.56 e 4.57 a seguir mostram uma comparação dos me- lhores resultados obtidos neste trabalho, para o reconhecimento de expressões faciais nas bases utilizadas nos experimentos, com outros métodos recentes da literatura, que também utilizaram a SVM para a classificação e a técnica de validação cruzada (cross-validation) para avaliação. Os resultados dos métodos apresentados nas tabelas de comparação foram ob- tidos nos artigos referenciados ao lado do nome de cada método, alguns resultados não foram disponibilizados nos artigos referenciados e por isso não são apresentados nas tabe- las de comparação.

Os resultados apresentados nas Tabelas 4.53, 4.54 e 4.55 foram obtidos utilizando oito

HOVs e tamanho de bloco 8×8 para o cálculo do MV. Os resultados apresentados nas Tabelas 4.56 e 4.57 foram obtidos utilizando quatro HOVs e tamanho de bloco 8×8 e 12×12, respectivamente.

Tabela 4.53: Comparação com outros métodos da literatura, utilizando a base de imagens JAFFE.

Método JAFFE 6-classes (%) 7-classes (%) LBP [21] 86,7±4,1 80,7±5,5 LDP [83] 85,8±1,1 85,9±1,8 Gabor [84] 85,1±5,0 79,7±4,2 LSDP [23] 92,3±1,6 89,2±2,8 LPTP [85] 90,2±1,0 88,7±0,5 LDNK[82] 92,3±1,7 89,2±2,8 LDNG 0,3;0,6;0,9[82] 92,9±0,1 90,6±0,4 LDNG 0,5;1,0;1,5[82] 92,4±0,3 88,7±0,2 LDNG 1,0;1,3;1,6[82] 93,4±0,4 90,1±0,2 Resultado da Tese 92,2±4,4 91,2±2,9

Foram calculados os intervalos de confiança (IC) de 99%1considerando as taxas médias

de reconhecimento obtidas para as 6 e 7-classes na base JAFFE, ou seja, na repetição de amostras dessas populações, em 99% dos casos a média µ (a média da população para a qual se deseja o IC) estará entre os valores calculados l1 (limite inferior do IC) e l2 (limite

superior do IC).

1Um intervalo de confiança é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o

Dados para o cálculo do IC para a base JAFFE (6-classes):

n(número de elementos da amostra) = 18 (foi escolhido aleatoriamente 1 dos 10 folds utilizados nos experimentos da base);

σ(desvio-padrão) = 4,4;

¯X (taxa média de acertos dos valores da amostra) = 94,44%; • 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base JAFFE (6-classes): 92, 02%6µ696, 86% para

99% de confiança.

Dados para o cálculo do IC para a base JAFFE (7-classes):

n= 21;

σ= 2,9; • ¯X = 90,48%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base JAFFE (7-classes): 89, 00%6µ691, 96% para

99% de confiança.

Tabela 4.54: Comparação com outros métodos da literatura, utilizando a base de imagens CK.

Método CK 6-classes (%) 7-classes (%) LBP [21] 92,6±2,9 88,9±3,5 LDP [83] 98,5±1,4 94,3±3,9 Gabor [84] 89,8±3,1 86,8±3,1 LSDP [23] 99,2±0,8 94,8±3,1 LPTP [85] 99,4±1,1 95,1±3,1 LDNK[82] 99,2±0,8 94,8±3,1 LDNG 0,3;0,6;0,9[82] 98,7±0,3 95,6±0,7 LDNG 0,5;1,0;1,5[82] 98,9±0,2 96,6±0,6 LDNG 1,0;1,3;1,6[82] 99,1±0,2 96,6±0,6 Resultado da Tese 97,2±1,1 97,0±1,7

Assim como foi feito para a base JAFFE, foram calculados os intervalos de confiança (IC) de 99% considerando as taxas médias de reconhecimento obtidas para as 6 e 7-classes na base CK.

n= 100;

σ= 1,1; • ¯X = 97,00%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base CK (6-classes): 96, 74% 6 µ 6 97, 26% para

99% de confiança.

Dados para o cálculo do IC para a base CK (7-classes):

n= 129;

σ= 1,7; • ¯X = 96,90%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base CK (7-classes): 96, 55% 6 µ 6 97, 25% para

99% de confiança.

Tabela 4.55: Comparação com outros métodos da literatura, utilizando a base de imagens CK+.

Método CK+ 7-classes (%) 8-classes (%) LBP [86] - 83,87(linear) 81,89(RBF) SIFT [86] - 86,39(linear) 87,31(RBF) HOG [86] - 89,53(linear) 88,61(RBF) Gabor [86] - 88,61(linear) 85,09(RBF) OR [86] - 91,44(linear) AURF [86] - 92,22(linear) AUDN [86] - 92,05(linear) SPTS [4] 50,4(não informado) -

CAPP [4] 66,7(não informado) -

SPTS+CAPP [4] 83,3(não informado) -

CLM [87] 74,4(não informado) -

CLM-SRI [88] 88,6(não informado) -

EAI [89] 82,6(não informado) -

LDNK[82] 82,0±0,8(linear) 82,3±0,8(RBF) - LDNG 0,3;0,6;0,9[82] 85,6±0,8(linear) 85,6±0,8(RBF) - LDNG 0,5;1,0;1,5[82] 89,0±0,7(linear) 89,0±0,7(RBF) - LDN1,0;1,3;1,6G [82] 89,3±0,6(linear) 89,3±0,7(RBF) - Resultado da Tese 95,3±1,2(RBF) 95,0±0,9(RBF)

Assim como foi feito para as bases JAFFE e CK, foram calculados os intervalos de con- fiança (IC) de 99% considerando as taxas médias de reconhecimento obtidas para as 7 e 8-classes na base CK+.

Dados para o cálculo do IC para a base CK+ (7-classes):

n= 136;

σ= 1,2; • ¯X = 95,49%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base CK+ (7-classes): 95, 25% 6 µ6 95, 73% para

99% de confiança.

Dados para o cálculo do IC para a base CK+ (8-classes):

n= 173;

σ= 0,9; • ¯X = 95,07%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base CK+ (8-classes): 94, 91% 6 µ6 95, 23% para

Tabela 4.56: Comparação com outros métodos da literatura, utilizando a base de vídeos MMI.

Método MMI

6-classes (%) 7-classes (%)

LBP [21], [86] 86,9(não informado) 52,9(linear) 50,4(RBF)

CPL [90] 49,4(não informado) -

CSPL [90] 73,5(não informado) -

AFL [90] 47,7(não informado) -

ADL [90] 47,8(não informado) -

SIFT [86] - 57,8(linear) 61,5(RBF) HOG [86] - 63,2(linear) 65,2(RBF) Gabor [86] - 56,1(linear) 57,6(RBF) CSPL [90] 73,5(não informado) - OR [86] - 68,4(linear) AURF [86] - 69,9(linear) AUDN [86] - 74,8(linear) LDNK[82] 92,9±3,0(linear) 93,8±3,1(RBF) - LDNG 0,3;0,6;0,9[82] 94,9±3,2(linear) 94,1±2,9(RBF) - LDNG 0,5;1,0;1,5[82] 95,2±2,7(linear) 94,6±3,2(RBF) - LDN1,0;1,3;1,6G [82] 95,5±3,0(linear) 94,1±3,9(RBF) - Resultado da Tese 92,8±2,7(RBF) 86,6±2,4(RBF)

Assim como foi feito para as bases de imagens anteriores, foram calculados os intervalos de confiança (IC) de 99% considerando as taxas médias de reconhecimento obtidas para as 6 e 7-classes na base MMI.

Dados para o cálculo do IC para a base MMI (6-classes):

n= 50;

σ= 2,7; • ¯X = 92,00%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base MMI (6-classes): 91, 11%6 µ6 92, 89% para

99% de confiança.

Dados para o cálculo do IC para a base MMI (7-classes):

n= 66;

σ= 2,4; • ¯X = 86,36%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base MMI (7-classes): 85, 67%6 µ6 87, 05% para

99% de confiança.

Tabela 4.57: Comparação com outros métodos da literatura, utilizando a base de imagens CMU-PIE.

Método CMU-PIE 2-classes (%) LBP [91] 93,5(não informado) LBPω[92] 90,3(não informado) LTP [93] 87,6(não informado) LDiP[83] 88,4(não informado) LPQ [94] 90,9(não informado) LDNK[82] 84,6±0,3(linear) 88,8±0,3(RBF) LDNG 0,3;0,6;0,9[82] 91,9±0,3(linear) 92,9±0,2(RBF) LDNG 0,5;1,0;1,5[82] 94,2±0,3(linear) 93,9±0,3(RBF) LDNG 1,0;1,3;1,6[82] 94,4±0,2(linear) 94,3±0,2(RBF) Resultado da Tese 85,2±0,9(RBF)

Assim como foi feito para as bases de imagens anteriores, foi calculado o intervalo de confiança (IC) de 99% considerando a taxa média de reconhecimento obtida para as 2-classes na base CMU-PIE.

Dados para o cálculo do IC para a base CMU-PIE:

n= 78;

σ= 0,9; • ¯X = 84,98%;

• 1−α=0, 99 ou alpha=0, 01.

Intervalo de confiança obtido para a base CMU-PIE (2-classes): 84, 74%6 µ 6 85, 22%

para 99% de confiança.

É possível observar que para o reconhecimento 7-classes (raiva, medo, alegria, surpresa, tristeza, nojo e neutra), o método proposto apresenta as melhores taxas de reconhecimento nas bases JAFFE, CK, CK+ e MMI. Para o reconhecimento 8-classes (que inclui a expressão facial de desprezo) na base CK+ também foi obtida a melhor taxa de reconhecimento dentre as técnicas utilizadas para comparação de resultados.

Entretanto, quando consideramos o reconhecimento 6-classes (que exclui a expressão facial neutra) nessas mesmas bases, apesar do aumento na taxa média de reconhecimento

o método proposto apresenta resultados um pouco inferiores a algumas das técnicas utili- zadas para comparação dos resultados. Na base JAFFE, a taxa média de reconhecimento foi inferior aos resultados apresentados em [23], [82]. Na base CK, a taxa média de reco- nhecimento do método proposto ficou abaixo das técnicas apresentadas em [23], [82], [83], [85]. Na base MMI, a taxa média de reconhecimento do método proposto ficou abaixo dos resultados obtidos por [82]. Quando considerado o reconhecimento de apenas 2-classes de expressões faciais (neutra e sorriso) na base CMU-PIE, a taxa média de reconhecimento foi inferior às taxas das demais técnicas. Indicando que a técnica apresentada neste trabalho tem a acuracidade do reconhecimento comprometida quando há variação na posição da face do indivíduo e a presença de ’obstáculos’ na face, como barba e óculos, e quando há variação de iluminação nas imagens.

Finalmente, também foram calculados os intervalos de confiança (IC) para validar a comparação dos resultados dos experimentos desta Tese e dos outros trabalhos da literatura apresentados nas Tabelas 4.53, 4.54, 4.55, 4.56 e 4.57, considerando os valores de desvio- padrão calculados. Os intervalos de confiança validam estatisticamente as taxas médias de reconhecimento obtidas para todas as bases de imagens utilizadas nos experimentos. Portanto, considerando que os intervalos de confiança são calculados a partir de amostras, é seguro afirmar que na repetição das amostras de uma população, em 99% dos casos a média µ estará entre os valores calculados l1 e l2em todas as bases.

CONCLUSÕES

"Aprendemos a voar como os pássaros e a na- dar como os peixes, mas não aprendemos a conviver como irmãos."

— Martin Luther King

N

Esta Tese, é abordado o problema do reconhecimento de emoções por meio de um

sistema automatizado. Dessa forma, a interação homem-máquina pode evoluir de forma significativa, pois se aproximaria da maneira como os seres humanos interagem entre si. Além disso, pessoas com algum tipo de transtorno, como o autismo, podem se beneficiar desse tipo de sistema aprendendo a reconhecer qual emoção está sendo manifestada por outro indivíduo. Considerando que uma das formas de manifestação de emoções em seres humanos são as expressões faciais, nesta tese é proposto um método de reconhecimento da expressões por variações na aparência de certas regiões da face, particularmente olhos e boca, provocadas pelo movimento dos músculos faciais.

Existem alguns tipos de características que podem ser analisados pelos sistemas de reco- nhecimento de expressões, como: textura, cor, forma e movimento. O movimento dos mús- culos faciais durante a mudança de uma expressão para a outra é praticamente o mesmo em todos os indivíduos. Portanto, é possível identificar a expressão facial analisando o movimento entre as expressões, independente da pessoa.

cularmente de expressões faciais, utilizando algoritmos de estimação de movimento por ca- samento de blocos. Esses algoritmos geralmente são utilizados em sistemas de codificação de vídeos para a eliminação de informação redundante (regiões de cenário, por exemplo) em uma sequência de imagens, possibilitando a compressão de vídeo. Um nova abordagem é apresentada, onde a extração de características das imagens é feita a partir de uma versão modificada da técnica de estimação ARSA, chamada MARSA (Modified Adaptative Reduction

of the Search Area). Também é apresentada neste trabalho uma nova forma de utilização de algoritmos de estimação de movimento: os vetores de movimento (MVs) são calculados a partir de duas imagens de uma mesma face (ou de faces similares), a expressão facial representada na imagem é conhecida no treinamento, mas desconhecida na fase de testes. A partir desses MVs são obtidas as coordenadas de movimento com maiores ocorrências nesses vetores, que serão utilizadas para gerar informação de classificação das expressões faciais. Para comprovar a eficiência e a assertividade do método proposto, foram realizados experimentos em cinco bases de imagens de faces utilizadas em diversos trabalhos da litera- tura recente sobre reconhecimento de expressões faciais: JAFFE, CK, CK+, MMI e CMU-PIE. Cada base de imagens (ou vídeos) possui características específicas, ou seja, o sistema de- senvolvido foi testado sob condições diferentes de iluminação, posição de câmera, variação de expressões, etc. Foi verificado que as bases com mais imagens (CK e CK+) apresentaram as maiores taxas de reconhecimento de expressões faciais, enquanto as bases com menos imagens (JAFFE e MMI) apresentaram taxas de reconhecimento menores. Isso ocorre pois quanto maior a quantidade de imagens na base, melhor para o treinamento do sistema. Contudo, a base de imagens CMU-PIE apresentou as menores taxas de reconhecimento de- vido à variação da posição das faces e da iluminação nas imagens.

Nos primeiros experimentos, foram utilizados os algoritmos de estimação de movi- mento por casamento de blocos Busca Exaustiva (FS - Full Search) e Redução Adaptativa da Área de Busca (ARSA - Adaptative Reduction of the Search Area). O primeiro é um algoritmo tradicional de estimação e compensação de movimento, foi o primeiro apresentado para uso na compressão de vídeos padrão MPEG (Moving Picture Experts Group) [96]. Depois do FS, foram apresentados diversos algoritmos para otimizar a estimação de movimento man- tendo a qualidade das imagens, dentre eles o ARSA, que propõe a redução adaptativa da área de busca para regiões da imagem com pouco ou nenhum movimento, como o cená- rio, por exemplo. Também foram apresentadas neste trabalho algumas alterações no ARSA

para adequá-lo à extração de movimento de expressões faciais, essas alterações resultaram uma versão modificada chamada MARSA e são listadas a seguir, resumidamente:

1. Utilização dos filtros de correlação ASEF (Average of Synthetic Exact Filters) para defi- nição das regiões dos olhos e da boca, apenas essas regiões são consideradas para a extração da característica movimento;

2. Redução dinâmica da área de busca para diminuir o número de pontos de busca, usando as características das expressões faciais: uma pequena área de busca é deter- minada para o bloco com pouco (ou nenhum) movimento (micro expressões) e uma grande área de busca para o bloco com maior quantidade de movimento (macro ex- pressões).

Os três algoritmos de estimação (FS, ARSA e MARSA) foram testados nos experimen- tos, confirmando o melhor desempenho do algoritmo MARSA em termos de acuracidade na classificação das expressões faciais e menor tempo de processamento, desde o treinamento do sistema até o uso para o reconhecimento da expressão em uma única imagem. Tam- bém é importante ressaltar que os algoritmos de estimação de movimento por casamento de blocos são de fácil implementação e ainda assim possibilitam a extração da característica movimento com uma alta acuracidade, o que contribui de forma significativa para a obten- ção de taxas de reconhecimento de expressões faciais compatíveis com outras técnicas da literatura mais complexas, como Deep Learning, por exemplo.

Os resultados apresentados nesta Tese foram comparados com outros trabalhos da lite- ratura, apresentando taxas médias de acerto no reconhecimento de expressões faciais equi- paráveis e até mesmo superiores, dependendo da base de imagens utilizada.

Este trabalho foi publicado no artigo Facial Expression Recognition Based on Motion Estima-

tion[97], apresentado na IJCNN 2016 (International Joint Conference on Neural Networks) [98].