MÉTODOS DE KERNEL EM ESTIMAÇÃO DE IDADES

(1)

MÉTODOS DE KERNEL EM ESTIMAÇÃO DE IDADES

Aluno: Daniel Coelho de Castro

Orientadores: Marley M. B. Rebuzzi Vellasco e Raul Queiroz Feitosa

Nota

Este trabalho está apresentado em formato de monografia, pois meu projeto de conclusão de curso foi baseado na pesquisa desenvolvida ao longo do estágio de Iniciação Científica.

Resumo

Como muitos problemas em visão computacional, a estimação de idades a partir de imagens faciais envolve um número elevado de atributos. Para viabilizar computacionalmente a aplicação de um método de regressão e eliminar a influência de atributos irrelevantes ou redundantes, é apropriada a realização de uma etapa intermediária de redução de dimensionalidade, que explore a estrutura dos dados de modo simplificar a tarefa de estimação.

Foram estudados os métodos de análise de componentes principais (PCA), análise discriminante linear (LDA) e aprendizado de subespaço através de ordenação de idades por pares (PAR) para a redução de dimensionalidade, aplicados ao problema de estimação de idades. Foram avaliadas comparativamente as variantes não lineares, baseadas em kernels, de PCA e LDA, KPCA e KDA, assim como uma de PAR, KPAR, que foi derivada neste trabalho. Resultados sugerem uma melhora significativa na acurácia da estimação das idades quando são aplicados os métodos não lineares em comparação com os métodos lineares correspondentes.

Palavras-chave: redução de dimensionalidade; métodos de kernel; regressão; estimação de idades

(2)

Sumário

1. Introdução ... 1

1.a. Objetivos ... 2

1.b. Organização ... 2

2. Fundamentos Teóricos ... 3

2.a. Extração de atributos ... 3

2.b. Métodos de kernel ... 4

2.b.i. Centralização do kernel ... 6

2.c. Redução de dimensionalidade ... 6

2.c.i. Análise de componentes principais ... 7

2.c.ii. Análise discriminante linear ... 9

2.c.iii. Aprendizado de subespaço através de ordenação de idades por pares ... 12

2.d. Regressão ... 16

2.d.i. Regressão linear ... 16

2.d.ii. Regressão por vetores de suporte ... 16

3. Procedimento Experimental ... 20

3.a. Banco de dados ... 20

3.b. Métricas... 20

3.b.i. Erro absoluto médio ... 20

3.b.ii. Escore acumulado ... 21

3.c. Metodologia experimental ... 21

3.c.i. Validação cruzada ... 21

3.c.ii. Significância dos resultados ... 22

3.c.iii. Ambiente experimental ... 22

4. Resultados e Discussão ... 23 4.a. Experimento 1 ... 24 4.b. Experimento 2 ... 25 4.c. Experimento 3 ... 29 5. Conclusão ... 30 Referências ... 31

Apêndice A. Extração de atributos ... 35

(3)

Notação 𝑘, 𝜆 Escalar 𝐱, 𝛂 Vetor-coluna 𝐗, 𝐀 Matriz 𝑚_𝑖, (𝐦)_𝑖 Elemento 𝑖 do vetor 𝐦 𝐾_𝑖𝑗, (𝐊)_𝑖𝑗 Elemento (𝑖, 𝑗) da matriz 𝐊 𝐾𝑖⋅, (𝐊)𝑖⋅ Linha 𝑖 da matriz 𝐊 𝐾_⋅𝑗, (𝐊)_⋅𝑗 Coluna 𝑗 da matriz 𝐊 𝐱̅, 𝛋̅ Vetor médio

⟨⋅,⋅⟩, ‖⋅‖ Produto interno Euclidiano do espaço de dados 𝒳 ⊆ ℝ_{a norma correspondente} 𝑑 e ⟨⋅,⋅⟩ℱ, ‖⋅‖ℱ Produto interno do espaço de atributos ℱ e a norma _{correspondente}

𝜔̂ Estimador/estimativa da grandeza 𝜔 (𝑎𝑖)𝑖=1𝑛 , (𝑎𝑖)𝑖 Sequência (𝑎1, 𝑎2, … , 𝑎𝑛) {𝑎𝑖}𝑖=1𝑛 , {𝑎𝑖}𝑖 Conjunto {𝑎𝑖|𝑖 = 1, … , 𝑛} [𝑛] Conjunto {1,2, … , 𝑛} 1_𝑛 Vetor 1𝑛 ∈ ℝ𝑛, (1𝑛)𝑖 = 1 𝑛 𝟏𝑛 Matriz 𝟏𝑛 ∈ ℝ𝑛×𝑛, (𝟏𝑛)𝑖𝑗 = 1 𝑛

(4)

1

1. Introdução

Com o avanço de técnicas de visão computacional e sua utilização cada vez mais frequente em biometria, o problema de estimação de idade de indivíduos a partir de imagens faciais tem despertado particular interesse nos últimos anos. Suas possíveis aplicações variam desde segurança e controle parental até entretenimento, marketing e interação humano-computador, sendo também possível aprimorar sistemas de reconhecimento facial existentes.

As primeiras iniciativas de pesquisa na área de estimação de idades foram baseadas em modelos puramente morfológicos de face [1, 2]. Posteriormente, popularizaram-se modelos estatísticos de aparência, conjugando forma e textura [3, 4]. Este tipo de modelo é o mais amplamente utilizado atualmente para a extração de atributos faciais.

Como muitos problemas em visão computacional, a estimação de idade envolve um número elevado de atributos, muitos dos quais potencialmente irrelevantes ou redundantes. Nesta situação, a aplicação direta de um método de regressão pode ser inviabilizada devido ao alto custo computacional, o que é comumente chamado de maldição da dimensionalidade [5]. Assim, é desejável a aplicação de alguma técnica de redução de dimensionalidade, que explore a estrutura inerente aos dados de modo a simplificar a tarefa de estimação. Por ser uma ferramenta fundamental em análise de dados, redução de dimensionalidade é uma área de pesquisa extremamente ativa, razão pela qual existem inúmeras técnicas desenvolvidas com este fim.

Alguns algoritmos partem da ideia de preservação de distâncias. Um dos métodos não lineares pioneiros deste tipo é o mapeamento de Sammon, que constrói as projeções dos dados minimizando explicitamente as distorções de distâncias entre os pontos [6]. Há também métodos baseados no lema de Johnson-Lindenstrauss [7], que buscam construir matrizes de projeção aleatórias com características apropriadas.

Outras técnicas se baseiam em grafos de vizinhança, que representam a estrutura do espaço de dados, construídos por um algoritmo como k-vizinhos mais próximos (kNN, k-nearest

neighbours), por exemplo. Isomap constrói uma projeção a partir de distâncias geodésicas

(custos de caminhos no grafo) [8]. LLE (Locally Linear Embedding) busca expressar cada ponto como uma combinação linear de seus vizinhos [9]. Automapas Laplacianos (Laplacian

eigenmaps) se baseiam nas autofunções do operador de Laplace-Beltrami no grafo [10].

Mapas de difusão aplicam a relação entre difusão de calor e cadeias de Markov para explicar as relações entre os dados [11].

Mapas auto-organizados de Kohonen (SOM, Self-Organizing Maps) também podem ser usados para redução de dimensionalidade, formando um modelo probabilístico de variáveis latentes para representar a relação do espaço de dados com o espaço reduzido [12]. Também baseada em redes neurais artificiais, a análise de distâncias curvilíneas (CDA) aplica uma análise similar ao mapeamento de Sammon, mas computando distâncias geodésicas [13]. Análise de componentes principais (PCA) e análise discriminante linear (LDA), apesar de serem técnicas lineares simples, são muito úteis e amplamente utilizadas. Existem também variantes não lineares destas, obtidas com funções de kernel [14], denominadas KPCA (kernel

PCA) e KDA (kernel discriminant analysis).

Em sua dissertação de Mestrado, José Bermúdez Castro propôs uma metodologia para a extração de atributos das imagens faciais, redução de dimensionalidade e regressão de idades

(5)

2 [15]. O processo de extração proposto gera 247 atributos no banco de dados estudado. Estes são, então, reduzidos com PCA, LDA e aprendizado de subespaço através de ordenação de idades por pares (PAR), um método supervisionado que explora a relação de mais velho-mais novo entre os indivíduos [16].

Devido à complexidade do processo de envelhecimento facial, todavia, algoritmos lineares como PCA, LDA e PAR podem não ser capazes de capturar fielmente os padrões de interação entre os atributos. Portanto, aprofundando a abordagem acima, foram avaliadas suas variantes não lineares, KPCA e KDA, e foi derivada uma nova variante para PAR, KPAR.

1.a. Objetivos Objetivo geral

- Investigar métodos não lineares para a estimação de idade a partir de fotos.

Objetivos específicos

- Derivar uma variante baseada em kernel do algoritmo de aprendizado de subespaço através de ordenação de idades por pares.

- Comparar o desempenho de métodos lineares de redução de dimensionalidade com suas versões baseadas em kernel.

1.b. Organização

Esta monografia está estruturada em cinco capítulos. O capítulo 2 inclui uma breve introdução à teoria de kernels e descreve em detalhes os fundamentos dos métodos estudados. O capítulo 3 apresenta o banco de dados utilizado e o protocolo experimental que foi empregado. O capítulo 4 detalha os resultados obtidos e o capítulo 5 apresenta um resumo das conclusões e indica futuras direções de desenvolvimento.

(6)

3

2. Fundamentos Teóricos

Neste capítulo, serão apresentados os algoritmos que foram aplicados e avaliados neste trabalho. Primeiramente, é dada uma visão geral do processo de extração de atributos que foi utilizado para processar o banco de dados de imagens (2.a). Em seguida, são apresentadas sucintamente a teoria de kernels e sua relevância para métodos de aprendizado de máquina (2.b). Na seção seguinte, detalham-se os métodos de redução de dimensionalidade estudados, bem como a derivação de suas variantes não lineares baseadas em kernels (2.c). Por fim, é dada uma breve descrição dos métodos de regressão empregados (2.d).

2.a. Extração de atributos

Foi utilizado para este trabalho o procedimento de extração de atributos adotado em [15]. Dada uma imagem facial, o processo completo consiste fundamentalmente de quatro etapas:

1. Detecção da face

2. Localização dos pontos fiduciais 3. Alinhamento

4. Extração de atributos

Figura 1. Exemplo de instância do modelo de forma usado na etapa de extração de atributos

Como o foco deste projeto está na análise dos atributos uma vez que já tenham sido extraídos das imagens, os detalhes sobre os algoritmos utilizados em cada uma destas etapas e as respectivas referências são apresentados à parte, no Apêndice A.

Aplicando-se o processo acima a um banco de imagens, obtém-se uma matriz de dados 𝐗, contendo 𝑛 instâncias 𝐱𝑖 com 𝑑 atributos, que chamaremos de conjunto de dados de entrada e

será o ponto de partida para todos os métodos estudados: 𝐗 = (𝐱₁, … , 𝐱_𝑛), 𝐱_𝑖 ∈ 𝒳 Aqui, 𝒳 ⊆ ℝ𝑑_{denotará o espaço de dados de entrada.}

Adicionalmente, definiremos 𝐱̅ como o ponto médio global, sendo 1_𝑛 ∈ ℝ𝑛, (1_𝑛)_𝑖 = 1

(7)

4 𝐱̅ = 1 𝑛∑ 𝐱𝑖 𝑛 𝑖=1 = 𝐗1_𝑛 (1) 2.b. Métodos de kernel

Para explorar relações complexas entre os dados, pode não ser suficiente trabalhar diretamente no espaço dos dados de entrada. Muitas vezes, é interessante aplicar alguma forma de mapeamento para outro espaço que reflita de modo mais natural sua estrutura. Em alguns casos, pode-se aplicar uma transformação não linear através do pré-processamento dos dados. No entanto, algumas transformações podem ter custo proibitivo em termos de tempo de processamento e espaço de armazenamento. Por exemplo, uma transformação polinomial de grau 𝑝 sobre dados de dimensão 𝑑 é capaz de gerar (𝑑 + 𝑝 − 1

𝑝 ) termos monomiais. Em uma tarefa de OCR, onde valores típicos com bons resultados são 𝑝 = 7, 𝑑 = 282 = 784, esta abordagem produziria 3,7 × 1016 atributos [17].

Uma alternativa é definir tal mapeamento de forma implícita, através de uma função de kernel apropriada. Prova-se que, satisfeitas algumas propriedades (as condições de Mercer, que garantem que o kernel será simétrico definido positivo [14]), uma função de kernel 𝑘 define univocamente um espaço de Hilbert de reprodução (EHR, ou Reproducing Kernel Hilbert

Space – RKHS, em inglês) [18]. Sendo 𝒳 o espaço original dos dados de entrada e ℱ um

espaço vetorial de atributos, a definição deste EHR induz intrinsicamente um mapeamento 𝜑: 𝒳 → ℱ, através de um produto interno:

𝑘: 𝒳2 → ℝ, 𝑘(𝐱, 𝐲) = ⟨𝜑(𝐱), 𝜑(𝐲)⟩_ℱ (2)

Uma propriedade importante de um EHR, e que o diferencia de espaços de Hilbert convencionais, é a de que suas funções podem ser avaliadas em todo ponto (ou seja, em todas as instâncias de dados), o que torna possível utilizá-lo em problemas de aprendizado [18]. Em [14], é apresentada em detalhes uma discussão sobre a caracterização formal e propriedades de funções de kernel, sob a ótica da análise funcional. Adicionalmente, um estudo aprofundado sobre a interpretação e as propriedades geométricas dos dados no espaço de atributos e sua relação com o espaço de entrada pode ser encontrado em [19].

Do ponto de vista do aprendizado de máquina, a observação essencial é a de que, se um algoritmo linear depender apenas de produtos internos entre instâncias, pode-se transpô-lo não linearmente para um espaço de atributos ℱ, através de uma função de kernel. Esta, por sua vez, representará um produto interno em ℱ e evitará a especificação explícita do mapeamento não linear 𝜑. Este procedimento é conhecido como “truque do kernel” (kernel trick, em inglês) [20].

A seguir são expostas algumas funções de kernel típicas, para o caso 𝒳 ⊆ ℝ𝑑_{[14, 17]:}

𝑘(𝐱, 𝐲) = ⟨𝐱, 𝐲⟩𝑝, 𝑝 ∈ ℕ Polinomial homogênea: 𝜑 apresenta apenas os monômios de grau 𝑝, e.g. 𝑝 = 2: 𝜑(𝑥1, 𝑥2) = (𝑥12, √2 𝑥1𝑥2, 𝑥22).

𝑘(𝐱, 𝐲) = (⟨𝐱, 𝐲⟩ + 𝑐)𝑝, 𝑝

∈ ℕ, 𝑐 > 0 Polinomial não homogênea: 𝜑 apresenta todos os monômios _{de grau inferior ou igual a 𝑝, e.g. 𝑝 = 2: 𝜑(𝑥}

(8)

5 (𝑥₁2, √2 𝑥1𝑥2, 𝑥22, √2𝑐 𝑥1, √2𝑐 𝑥2, 𝑐). 𝑘(𝐱, 𝐲) = exp (−‖𝐱 − 𝐲‖ 2 2𝜎2 ) , 𝜎 > 0

Função de base radial (RBF) Gaussiana: codifica dissimilaridades, dependendo apenas da distância entre os dados. Tem efeito de filtro, reduzindo a influência de ruídos de alta frequência [18].

𝑘(𝐱, 𝐲) = tanh(𝜗⟨𝐱, 𝐲⟩ + 𝛿)

Tangente hiperbólica: é atraente por sua relação com Redes Neurais. Embora não seja formalmente uma função de kernel, é aplicada com sucesso na prática [21].

De modo geral, a fase de treinamento de algoritmos baseados em kernel pode ser expressa em função de uma matriz de kernel 𝐊. Esta matriz contém os produtos internos entre todas as instâncias de treinamento no espaço de atributos, sendo chamada uma matriz de Gram:

𝐊 ∈ ℝ𝑛×𝑛, 𝐾𝑖𝑗 = ⟨𝜑(𝐱𝑖), 𝜑(𝐱𝑗)⟩_ℱ = 𝑘(𝐱𝑖, 𝐱𝑗) ⇔ 𝐊 =

1 𝑛𝚽

𝑇_𝚽 ₍₃₎

Seja 𝐰 um elemento do espaço vetorial gerado pelos dados de entrada em ℱ. Ele pode, por definição, ser descrito como uma combinação linear dos mesmos:

𝐰 = ∑ 𝛼_𝑖𝜑(𝐱_𝑖)

𝑛

𝑖=1

= 𝚽𝛂 (4)

A partir desta expansão, é fácil mostrar que a projeção de uma instância 𝐱 ∈ 𝒳 do conjunto de dados (mapeada para o espaço de atributos: 𝜑(𝐱) ∈ ℱ) sobre uma direção arbitrária 𝐰 ∈ ℱ pode ser expressa somente em termos da função de kernel e dos coeficientes da expansão de 𝐰, valendo-se da linearidade do produto interno:

⟨𝐰, 𝜑(𝐱)⟩_ℱ = ⟨∑ 𝛼_𝑖𝜑(𝐱_𝑖) 𝑛 𝑖=1 , 𝜑(𝐱)⟩ ℱ = ∑ 𝛼_𝑖⟨𝜑(𝐱_𝑖), 𝜑(𝐱)⟩_ℱ 𝑛 𝑖=1 = ∑ 𝛼_𝑖𝑘(𝐱_𝑖, 𝐱) 𝑛 𝑖=1 = 𝛂𝑇𝛋(𝐱) (5) ⟨𝐰_𝑘, 𝐰_𝑙⟩_ℱ = ⟨∑ 𝛼_𝑘𝑖𝜑(𝐱_𝑖) 𝑛 𝑖=1 , ∑ 𝛼_𝑙𝑗𝜑(𝐱_𝑗) 𝑛 𝑗=1 ⟩ ℱ = ∑ ∑ 𝛼_𝑘𝑖𝛼_𝑙𝑗⟨𝜑(𝐱_𝑖), 𝜑(𝐱_𝑗)⟩ ℱ 𝑛 𝑗=1 𝑛 𝑖=1 = ∑ ∑ 𝛼𝑘𝑖𝛼𝑙𝑗𝑘(𝐱𝑖, 𝐱𝑗) 𝑛 𝑗=1 𝑛 𝑖=1 = ∑ ∑ 𝛼𝑘𝑖𝛼𝑙𝑗𝐾𝑖𝑗 𝑛 𝑗=1 𝑛 𝑖=1 = 𝛂_𝑘𝑇𝐊𝛂𝑙 (6) ‖𝐰‖_ℱ2 _{= ⟨𝐰, 𝐰⟩} ℱ = 𝛂𝑇𝐊𝛂 (7)

No restante deste trabalho, por simplicidade, os elementos de ℱ (𝐰_𝑘, 𝛗_𝑖, 𝜑(𝐱) etc.) serão denotados como vetores, embora ℱ possa ser um espaço de dimensão infinita. Neste caso, a notação 𝛗𝑇_{deve ser entendida como o operador ⟨𝛗, ⋅ ⟩}

ℱ, para um dado elemento 𝛗 ∈ ℱ, e

todas as operações matriciais, como seus equivalentes funcionais. Além disso, será adotada a seguinte notação simplificada:

(9)

6 𝛗_𝑖 = 𝜑(𝐱_𝑖) ∈ ℱ Mapeamento da 𝑖-ésima instância para o espaço de _{atributos ℱ} 𝚽 = (𝛗₁, … , 𝛗_𝑛) ∈ ℱ𝑛 Mapeamento do conjunto de dados para o espaço de _{atributos ℱ}

𝛗̅ =1 𝑛∑ 𝛗𝑖

𝑛

𝑖=1

= 𝚽1_𝑛 ∈ ℱ Mapeamento médio para o espaço de atributos ℱ 𝛋(𝐱)

= (𝑘(𝐱₁, 𝐱), … , 𝑘(𝐱_𝑛, 𝐱))𝑇 ∈ ℝ

𝑛 Projeção da instância 𝐱 sobre cada um dos padrões de

treinamento, no espaço de atributos ℱ

𝛋𝑖 = 𝛋(𝐱𝑖) = (𝐊)⋅𝑖 ∈ ℝ𝑛 Projeção da 𝑖-ésima instância sobre os demais padrões de _{treinamento no espaço de atributos ℱ}

𝛋 ̅ = 1

𝑛∑ 𝛋𝑖

𝑛

𝑖=1

= 𝐊1𝑛 ∈ ℝ𝑛 Projeção média de cada padrão de treinamento sobre os _{demais no espaço de atributos ℱ}

𝐰 = ∑ 𝛼_𝑖𝛗_𝑖

𝑛

𝑖=1

= 𝚽𝛂 𝐰 ∈ ℱ

𝛂 ∈ ℝ𝑛

𝐰: Direção arbitrária do espaço de atributos ℱ

𝛂: Vetor de coeficientes da expansão de 𝐰 sobre os atributos dos padrões de treinamento

2.b.i. Centralização do kernel

Sabe-se que o bom desempenho de alguns métodos, como PCA (item 2.c.i), depende da centralização das instâncias. Porém, apesar de havermos assumido até aqui que o mapeamento 𝜑 era centrado, ou seja, ∑𝑛𝑖=1𝜑(𝐱𝑖) = 𝟎ℱ, em geral não é possível garantir que isto aconteça,

já que 𝜑 não é especificado explicitamente. Assim, se a centralização for necessária, ela deve ser aplicada ao kernel diretamente. Em resumo, as transformações de centralização se escrevem como a seguir (desenvolvimento completo no Apêndice B.1):

𝑘′_(𝐱 𝑖, 𝐱) = 𝑘(𝐱𝑖, 𝐱) − 𝛋𝑖𝑇1𝑛 − 1𝑛𝑇𝛋(𝐱) + 1𝑛𝑇𝐊1𝑛 𝛋′_{(𝐱) = 𝛋(𝐱) − 𝐊1} 𝑛 − 𝟏𝑛𝛋(𝐱) + 𝟏𝑛𝐊1𝑛 𝐊′ ₌ _𝐊 _{− 𝐊𝟏} 𝑛 − 𝟏𝑛𝐊 + 𝟏𝑛𝐊𝟏𝑛 (8) Adicionalmente, se definirmos uma matriz 𝐉 = 𝐈 − 𝟏_𝑛, podemos escrever, de forma simplificada:

𝛋′_{(𝐱) = 𝐉(𝛋(𝐱) − 𝛋}_̅), _𝐊′_{= 𝐉𝐊𝐉} ₍₉₎

2.c. Redução de dimensionalidade

Métodos lineares de redução de dimensionalidade, de modo geral, buscam determinar um mapeamento para um subespaço linear do espaço de dados, de dimensão inferior:

𝐱 ↦ 𝐳, 𝐱 ∈ ℝ𝑑, 𝐳 ∈ ℝ𝐾, 𝐾 < 𝑑

Este subespaço deve ser capaz de caracterizar a estrutura do problema sem que haja significativa perda de informação. Uma vez definida uma base de tal subespaço,

(10)

7 preferencialmente ortogonal, os dados podem ser representados simplesmente por suas projeções sobre cada vetor da base.

No caso de operarmos sobre o espaço original de entrada 𝒳, buscamos uma base de vetores {𝐰𝑘}𝑘=1𝐾 , dispostos em uma matriz 𝐖𝐾:

𝐖_𝐾 = (𝐰₁, … , 𝐰_𝐾), 𝐰_𝑘 ∈ 𝓧

As projeções sobre uma única componente, sobre a base inteira e a transformação total do conjunto de dados são expressas, respectivamente, por:

𝑧_𝑘= ⟨𝐰_𝑘, 𝐱⟩, 𝐳 = 𝐖_𝐾𝑇𝐱, 𝐙 = 𝐖_𝐾𝑇𝐗 (10) Se, por outro lado, utilizarmos um kernel, operando implicitamente no espaço de atributos ℱ, gostaríamos de obter uma base em ℱ:

𝐖_𝐾 = (𝐰₁, … , 𝐰_𝐾), 𝐰_𝑘 ∈ ℱ

Entretanto, como a estrutura de ℱ, definida pelo mapeamento não linear 𝜑, não pode manipulada explicitamente, não temos meios de determinar diretamente a base 𝑾_𝐾. O que buscaremos, portanto, é um conjunto de vetores de coeficientes {𝛂𝑘}𝑘=1𝐾 que descrevam os

elementos de 𝑾_𝐾 (cf. equação (4)):

𝐀𝐾 = (𝛂1, … , 𝛂𝐾), 𝛂𝑘 ∈ ℝ𝑛

Neste novo cenário, as transformações serão dadas por:

𝑧𝑘 = ⟨𝐰𝑘, 𝜑(𝐱)⟩𝓕= 𝛂𝑇𝑘𝛋(𝐱), 𝐳 = 𝐖𝐾𝑇𝜑(𝐱) = 𝐀𝑇𝐾𝛋(𝐱),

𝐙 = 𝐖_𝐾𝑇𝚽 = 𝐀𝑇_𝐾𝐊 (11)

Assim, as técnicas de redução de dimensionalidade estudadas neste trabalho se propõem a determinar bases 𝐖_𝐾 – ou seus coeficientes de expansão 𝐀_𝐾 – de subespaços que satisfaçam certas propriedades, descritas em detalhe nos itens a seguir.

Nesta seção, serão discutidos os algoritmos de análise de componentes principais (2.c.i), análise discriminante linear (2.c.ii) e aprendizado de subespaço através de ordenação de idades por pares (2.c.iii), juntamente com suas versões com kernel.

2.c.i. Análise de componentes principais

Introduzida por Karl Pearson em 1901, a análise de componentes principais (PCA, Principal

Component Analysis) constitui uma abordagem fundamental no estudo estatístico de dados

[22]. Através dela, pode-se extrair as direções do espaço que contêm a maior parte da variabilidade dos dados, de modo que seja possível projetá-los sobre este subespaço com perda mínima de informação.

Obtém-se a estimativa amostral da matriz de covariância dos dados, calculada sobre os padrões de treinamento: 𝐒 = ℂov(𝐱̂_𝑖) = 1 𝑛∑(𝐱𝑖 − 𝐱̅)(𝐱𝑖− 𝐱̅) 𝑇 𝑛 𝑖=1 (12)

(11)

8 A variância dos dados ao longo de uma direção arbitrária 𝐰 do espaço é dada pelo seguinte quociente de Rayleigh:

𝑅(𝐒, 𝐰) =𝐰

𝑇_𝐒𝐰

𝐰𝑇_𝐰 (13)

Esta função equivale a 𝐰𝑇_{𝐒𝐰, sujeita à restrição 𝐰}𝑇_{𝐰 = 1, e o que desejamos é encontrar}

seus pontos críticos. Calculando os pontos críticos de seu Lagrangeano, obtemos: ℒ(𝐰, 𝜆) = 𝐰𝑇𝐒𝐰 − 𝜆(𝐰𝑇𝐰 − 1) ⇒ ∇𝐰ℒ(𝐰, 𝜆) = 2𝐒𝐰 − 2𝜆𝐰 = 𝟎 𝐒𝐰 = 𝜆𝐰 (14) Portanto: 𝑅(𝐒, 𝐰) =𝐰 𝑇_𝐒𝐰 𝐰𝑇_𝐰 = 𝜆 𝐰𝑇_𝐰 𝐰𝑇_𝐰= 𝜆 (15)

De (14), concluímos que os pontos críticos são os autovetores da matriz de covariância 𝐒 e, de (15), que cada autovalor é a variância na direção de seu respectivo autovetor. Desta forma, mostramos que a base do subespaço buscada é o conjunto de autovetores com maiores autovalores – as componentes principais.

O número de componentes, 𝐾, i.e. a dimensionalidade do subespaço reduzido, pode ser escolhido a priori ou definido como o número mínimo de componentes que expliquem uma dada proporção 𝜂 ∈ (0,1) (e.g. 90%, 99%) da variância dos dados, tendo em mente que 𝕍ar(𝐱̂ = tr(𝐒) = ∑_𝑖) 𝑑_𝑖=1𝜆_𝑖: ∑ 𝜆_𝑖 𝐾−1 𝑖=1 ≤ 𝜂 ∑ 𝜆_𝑖 𝑑 𝑖=1 ≤ ∑ 𝜆_𝑖 𝐾 𝑖=1 ou ∑ 𝜆𝑖 𝐾−1 𝑖=1 ∑𝑑𝑖=1𝜆𝑖 ≤ 𝜂 ≤∑ 𝜆𝑖 𝐾 𝑖=1 ∑𝑑𝑖=1𝜆𝑖 , 𝜆_𝑖 ≥ 𝜆_𝑖+1 (16) Cabe ressaltar que se trata de um método não supervisionado, ou seja, as classes não são consideradas nos cálculos. Esta limitação significa que, apesar de a base encontrada representar bem o conjunto de dados como um todo, ela não será necessariamente ideal para separar as diferentes classes.

2.c.i.I. PCA com kernel

Sendo PCA uma ferramenta estatística simples e muito útil na análise de espaços de dimensionalidade elevada, é natural considerarmos sua aplicação ao espaço de atributos. Obtém-se, assim, o método de análise de componentes principais com kernel (KPCA, Kernel

Principal Component Analysis) [23, 24].

Consideremos a matriz de covariância amostral no espaço de atributos1:

𝚺 = ℂov(𝛗̂𝑖) = 1 𝑛∑ 𝛗𝑖𝛗𝑖 𝑇 𝑛 𝑖=1 = 1 𝑛𝚽𝚽 𝑇 ₍₁₇₎

1_{Note que estamos assumindo que {𝛗}

𝑖}𝑖 estão centrados. Caso contrário, deve ser aplicado o

(12)

9 Visto que os autovetores 𝐰_𝑘 de 𝚺 devem pertencer ao espaço gerado por {𝛗_𝑖}_𝑖=1𝑛 , podemos considerar, em vez do problema de autovalores 𝚺𝐰𝑘 = 𝜆𝑘𝐰𝑘, o sistema de equações a seguir

[23]: 𝛗_𝑙𝑇𝚺𝐰_𝑘 = 𝜆_𝑘𝛗_𝑙𝑇𝐰_𝑘, ∀𝑙 ∈ [𝑛] ⇔ 𝚽𝑇_𝚺𝐰 𝑘 = 𝜆𝑘𝚽𝑇𝐰𝑘 (18) Substituindo (4) e (17) em (18), obtemos: 𝚽𝑇(1 𝑛𝚽𝚽 𝑇_{) (𝚽𝛂} 𝑘) = 𝜆𝑘𝚽𝑇(𝚽𝛂𝑘) ∴ 1 𝑛(𝚽 𝑇_𝚽)(𝚽𝑇_𝚽)𝛂 𝑘= 𝜆𝑘(𝚽𝑇𝚽)𝛂𝑘 (19) Finalmente, substituindo (3): 𝐊2_𝛂 𝑘 = 𝑛𝜆𝑘𝐊𝛂𝑘 (20)

Como as soluções da equação

𝐊𝛂_𝑘 = 𝜈_𝑘𝛂_𝑘, 𝜈_𝑘 = 𝑛𝜆_𝑘 (21)

satisfazem o problema (20), basta resolver este problema de autovalores para determinar os vetores de coeficientes 𝛂𝑘. Adicionalmente, a restrição de que ‖𝐰𝑘‖ℱ = 1 equivale a impor

‖𝛂𝑘‖ = 1 √𝜈⁄ 𝑘: ‖𝐰_𝑘‖_ℱ = 1 ⇔ 1 = 𝐰_𝑘𝑇𝐰_𝑘 = ∑ 𝛼_𝑘𝑖𝛼_𝑘𝑗𝛗_𝑖𝑇𝛗_𝑗 𝑛 𝑖,𝑗=1 = 𝛂_𝑘𝑇𝐊𝛂_𝑘 = 𝜈_𝑘𝛂_𝑘𝑇𝛂_𝑘 ⇔ ‖𝛂𝑘‖ = 1 √𝜈𝑘 (22)

Do mesmo modo que em PCA linear, retemos apenas os autovetores correspondentes aos 𝐾 maiores autovalores.

2.c.ii. Análise discriminante linear

A análise discriminante linear (LDA, Linear Discriminant Analysis) ou análise discriminante de Fisher (FDA, Fisher Discriminant Analysis) é uma técnica supervisionada que busca uma combinação linear de atributos, i.e., uma direção do espaço de dados, que melhor caracterize as distinções entre as classes do problema [25, 26].

Como se trata de um método baseado em classes, adotaremos a seguinte notação1_:

𝐗_𝑐 = (𝐱₍₁₎𝑐 , … , 𝐱_(𝑛

𝑐)

𝑐 _{) ,} _𝐱 (𝑖)

𝑐 _{∈ 𝒳,} _{𝑐 ∈ [𝐶]}

Dividimos, assim, o conjunto 𝐗 em 𝐶 classes disjuntas e exaustivas, {𝐗_𝑐}_𝑐=1𝐶 , cada uma contendo 𝑛𝑐 instâncias, 𝐱(𝑖)𝑐 . No caso específico deste trabalho, estabeleceu-se uma classe

para cada idade presente no banco de dados, em valores inteiros. Denotaremos, também, 𝐱̅_𝑐 como o ponto médio de cada classe 𝑐:

(13)

10 𝐱̅𝑐 = 1 𝑛𝑐 ∑ 𝐱_(𝑖)𝑐 𝑛𝑐 𝑖=1 (23) Definamos as matrizes de dispersão intraclasse, interclasse e total, respectivamente [27]:

𝐒𝑤 = 1 𝑛∑ ∑(𝐱(𝑖) 𝑐 _{− 𝐱̅} 𝑐)(𝐱(𝑖)𝑐 − 𝐱̅𝑐) 𝑇 𝑛𝑐 𝑖=1 𝐶 𝑐=1 = 1 𝑛∑ 𝑛𝑐ℂov(𝐱(𝑖) 𝑐 ₎ ̂ 𝐶 𝑐=1 (24) 𝐒𝑏 = 1 𝑛∑ 𝑛𝑐(𝐱̅𝑐− 𝐱̅)(𝐱̅𝑐 − 𝐱̅) 𝑇 𝐶 𝑐=1 (25) 𝐒_𝑡 = 1 𝑛∑(𝐱𝑖− 𝐱̅)(𝐱𝑖 − 𝐱̅) 𝑇 𝑛 𝑖=1 = ℂov(𝐱̂ _𝑖) (26)

Mostra-se que 𝐒_𝑡 = 𝐒_𝑤+ 𝐒_𝑏 (Apêndice B.2.i).

Deseja-se determinar um subespaço sobre o qual a separação entre as classes seja máxima e a dispersão entre os elementos de uma mesma classe seja mínima, o que pode ser traduzido como a maximização do seguinte quociente de Rayleigh generalizado:

𝐽(𝐰) = 𝐰 𝑇_𝐒 𝑏𝐰 𝐰𝑇_𝐒 𝑤𝐰 (27) Aplicando um argumento semelhante a (13)-(14), a solução que maximiza (27) pode ser encontrada a partir do problema de autovalores generalizados a seguir:

ℒ(𝐰, 𝜆) = 𝐰𝑇_𝐒

𝑏𝐰 − 𝜆(𝐰𝑇𝐒𝑤𝐰 − 1) ⇒ ∇𝐰ℒ(𝐰, 𝜆) = 2𝐒𝑏𝐰 − 2𝜆𝐒𝑤𝐰 = 𝟎

𝐒_𝑏𝐰 = 𝜆𝐒_𝑤𝐰 (28)

Se 𝐒_𝑤 for inversível, o problema (28) se reduz a um de autovalores: (𝐒_𝑤−1_𝐒

𝑏)𝐰 = 𝜆𝐰 (29)

De forma similar ao método de PCA, selecionamos os 𝐾 autovetores mais representativos de 𝐒_𝑤−1𝐒_𝑏 para construir o subespaço.

Quando o problema for subamostrado, ou seja, a dimensionalidade for maior do que o número de amostras (𝑑 > 𝑛), as matrizes de dispersão serão singulares. Neste caso, LDA não pode ser aplicado diretamente. Para lidar com o problema da singularidade, uma alternativa é adicionar uma constante de regularização à diagonal de 𝐒_𝑤, cujo valor ótimo pode ser estimado por validação cruzada:

𝐒̃𝑤 = 𝐒𝑤+ 𝜖𝐈, 𝜖 > 0 (30)

Esta abordagem, conhecida como análise discriminante linear regularizada (RLDA,

Regularized Linear Discriminant Analysis), garante que a matriz de dispersão intraclasse será

(14)

11 coeficientes pequenos, esta regularização tem também o efeito de reduzir o viés amostral na estimação dos autovalores [20, 28].

2.c.ii.I. Análise discriminante com kernel

O racional por trás da LDA se estende facilmente ao espaço de atributos, constituindo um método conhecido como análise discriminante com kernel (KDA, Kernel Discriminant

Analysis), discriminante de Fisher com kernel (KFD, Kernel Fisher Discriminant) ou análise

discriminante não linear (NLDA, Nonlinear Discriminant Analysis) [20, 29]. Novamente, será adotada uma notação específica para divisão em classes:

𝛗_(𝑗)𝑐 = 𝜑(𝐱_(𝑗)𝑐 ), 𝛗̅_𝑐 = 1 𝑛𝑐 ∑ 𝛗_(𝑗)𝑐 𝑛𝑐 𝑗=1 (31) 𝛋_(𝑗)𝑐 = 𝛋(𝐱_(𝑗)𝑐 ), 𝛋̅_𝑐 = 1 𝑛𝑐 ∑ 𝛋_(𝑗)𝑐 𝑛𝑐 𝑗=1 (32) Sejam as matrizes de dispersão inter- e intraclasse no espaço de atributos ℱ, respectivamente:

𝚺𝑏= 1 𝑛∑ 𝑛𝑐(𝛗̅𝑐− 𝛗̅ )(𝛗̅𝑐 − 𝛗̅ ) 𝑇 𝐶 𝑐=1 (33) 𝚺_𝑤 = 1 𝑛∑ ∑(𝛗(𝑗) 𝑐 _{− 𝛗}_̅ 𝑐)(𝛗(𝑗)𝑐 − 𝛗̅𝑐) 𝑇 𝑛𝑐 𝑗=1 𝐶 𝑐=1 (34) Definamos matrizes 𝐌 e 𝐍 como a seguir1_:

𝐌 =1 𝑛∑ 𝑛𝑐(𝛋̅𝑐 − 𝛋̅)(𝛋̅𝑐 − 𝛋̅) 𝑇 𝐶 𝑐=1 (35) 𝐍 = 1 𝑛∑ ∑(𝛋(𝑗) 𝑐 _{− 𝛋}_̅ 𝑐)(𝛋(𝑗)𝑐 − 𝛋̅𝑐) 𝑇 𝑛𝑐 𝑗=1 𝐶 𝑐=1 (36) Segue que (Apêndice B.2.iii):

𝐰𝑇_𝚺

𝑏𝐰 = 𝛂𝑇𝐌𝛂 (37)

𝐰𝑇𝚺𝑤𝐰 = 𝛂𝑇𝐍𝛂 (38)

Por fim, aplicando a mesma lógica da LDA, buscamos uma base que maximize a dispersão interclasse e minimize a dispersão intraclasse, porém, desta vez, no espaço de atributos:

1_{A definição da matriz 𝐍 foi apresentada na forma acima por motivos de clareza e}

consistência de notação. Em [20] e [29], é dada a definição equivalente 𝐍 =1

𝑛∑ 𝐊𝑐(𝐈 − 𝐶

𝑐=1

(15)

12 𝐽(𝐰) = 𝐰 𝑇_𝚺 𝑏𝐰 𝐰𝑇_𝚺 𝑤𝐰 ⇒ 𝐽(𝛂) =𝛂 𝑇_𝐌𝛂 𝛂𝑇_𝐍𝛂

As soluções serão novamente dadas pelo problema de autovalores:

𝐌𝛂 = 𝜆𝐍𝛂 ∴ (𝐍−1𝐌)𝛂 = 𝜆𝛂 (39)

De forma análoga a (30), pode-se aplicar regularização no caso de 𝐍 ser singular:

𝐍̃ = 𝐍 + 𝜖𝐈, 𝜖 > 0 (40)

2.c.iii. Aprendizado de subespaço através de ordenação de idades por pares

O algoritmo de aprendizado de subespaço através de ordenação de idades por pares (PAR), proposto em [16], tem o objetivo de extrair um subespaço que incorpore a relação de mais novo/mais velho entre pares de indivíduos. Isto é realizado através de uma sequência de problemas de otimização com restrições, requerendo que as componentes caracterizem a ordenação de idades de subconjuntos disjuntos de pares de indivíduos e sejam ortogonais. Seja o conjunto de dados composto pelos atributos 𝐱_𝑖 e as idades 𝑎_𝑖:

{(𝐱_𝑖, 𝑎_𝑖)}_𝑖=1𝑛 _, _𝐱

𝑖 ∈ ℝ𝑑, 𝑎𝑖 ∈ ℕ

Sejam 𝛀 o conjunto de todas as restrições obtidas do conjunto de treinamento e 𝛀_𝑘 o subconjunto de restrições relacionado à direção (atributo) 𝐰_𝑘 do subespaço:

𝛀 = {(𝑠, 𝑡) ∈ [𝑛]2|𝑎_𝑠 > 𝑎_𝑡}, 𝛀_𝑘 ⊆ 𝛀 (41) Estabelece-se que os atributos de ordenação {𝐰𝑘}𝑘=1𝐾 devem satisfazer três propriedades:

i. Cada atributo deve satisfazer um subconjunto das restrições:

𝐰_𝑘𝑇𝐱_𝑠 > 𝐰_𝑘𝑇𝐱_𝑡, ∀(𝑠, 𝑡) ∈ 𝛀_𝑘 (42) ii. Não deve haver atributos de ordenação redundantes:

𝐰_𝑘𝑇𝐰_𝑙 = 0, 𝑘, 𝑙 ∈ [𝐾], 𝑘 ≠ 𝑙 (43)

iii. As restrições devem ser utilizadas ao máximo:

𝛀_𝑘∩ 𝛀_𝑙 = ∅, 𝑘, 𝑙 ∈ [𝐾], 𝑘 ≠ 𝑙 (44)

Com o objetivo de minimizar as disparidades entre os valores dos atributos de instâncias de mesma idade e obedecendo às propriedades i e ii, formula-se o seguinte problema de otimização: 𝐖𝐾 = arg min 𝐰𝑘 𝑘∈[𝐾] ∑ ∑ ∑ ‖𝐰_𝑘𝑇𝐱𝑖 − 𝐰𝑘𝑇𝐱𝑗‖ 𝑖,𝑗 𝑎𝑖=𝑎𝑗=𝑎 𝑎 2 𝐾 𝑘=1 s.a. 𝐰_𝑘𝑇_𝐱 𝑠− 𝐰𝑘𝑇𝐱𝑡 > 0 𝑘 ∈ [𝐾], ∀(𝑠, 𝑡) ∈ 𝛀𝑘 𝐰_𝑘𝑇_𝐰 𝑙 = 0 𝑘, 𝑙 ∈ [𝐾], 𝑘 ≠ 𝑙 (45)

(16)

13 O problema (45) não é convexo, devido às restrições quadráticas de ortogonalidade. Portanto, para que ele seja tratável, em vez de buscarmos a base inteira simultaneamente, separamos o problema original em subproblemas, determinando cada 𝐰𝑘 sequencialmente.

𝐰1 = arg min 𝐰 ∑ ∑ ‖𝐰𝑇𝐱𝑖 − 𝐰𝑇𝐱𝑗‖ 2 𝑖,𝑗 𝑎𝑖=𝑎𝑗=𝑎 𝑎 s.a. 𝐰𝑇𝐱_𝑠 − 𝐰𝑇𝐱_𝑡 > 0 ∀(𝑠, 𝑡) ∈ 𝛀₁ (46) 𝐰𝑘 = arg min 𝐰 ∑ ∑ ‖𝐰𝑇𝐱𝑖 − 𝐰𝑇𝐱𝑗‖ 2 𝑖,𝑗 𝑎𝑖=𝑎𝑗=𝑎 𝑎 s.a. 𝐰𝑇_𝐱 𝑠 − 𝐰𝑇𝐱𝑡 > 0 ∀(𝑠, 𝑡) ∈ 𝛀𝑘 𝐰𝑇_𝐰 𝑙= 0 𝑙 ∈ [𝑘 − 1] (47)

Definamos a matriz 𝐋 como a seguir1_:

𝐋 ∈ ℝ𝑛×𝑛_, _{𝐋 = 𝐃 − 𝐒,} _𝑆 𝑖𝑗 = { 1, se 𝑎_𝑖 = 𝑎_𝑗 0, c.c. , 𝐷_𝑖𝑗 = {∑ 𝑆𝑖𝑘 𝑛 𝑘=1 , se 𝑖 = 𝑗 0, c.c. (48)

Definamos as matrizes 𝐂_𝑘 referentes a cada subconjunto de restrições2 𝛀

𝑘= {(𝑠(𝑖)𝑘 , 𝑡(𝑖)𝑘 )}_𝑖=1 𝑟𝑘 : 𝐂𝑘 ∈ ℝ𝑟𝑘×𝑛, (𝐂𝑘)𝑖𝑗 = { 1, se 𝑗 = 𝑠_(𝑖)𝑘 −1, se 𝑗 = 𝑡_(𝑖)𝑘 0, c.c. (49) Deste modo, substituindo (48) e (49) no problema (46), este pode ser expresso de forma mais compacta, em notação matricial:

𝐰₁= arg min

𝐰

𝐰𝑇_𝐗𝐋𝐗𝑇_𝐰

s.a. 𝐂1𝐗𝑇𝐰 ≻ 0

(50) Similarmente, para os problemas (47), referentes às direções de projeção 𝐰_𝑘 restantes, fazemos:

1_{Considerando um grafo 𝐺}

= = (𝑉, {{𝑠, 𝑡}|𝑎𝑠 = 𝑎𝑡}), 𝑉 = {(𝐱𝑖, 𝑎𝑖)}𝑖=1𝑛 , constata-se que 𝐒

corresponde a sua matriz de adjacências, 𝐃, a sua matriz de graus e 𝐋 = 𝐃 − 𝐒, portanto, a sua matriz Laplaciana.

2_{As restrições 𝛀 induzem um grafo direcionado 𝐺}

> = (𝑉, 𝛀) = (𝑉, {(𝑠, 𝑡)|𝑎𝑠 > 𝑎𝑡}). 𝐂𝑘𝑇

corresponderia, portanto à matriz de incidência de um subgrafo 𝐺_>𝑘 _{= (𝑉, 𝛀}

(17)

14 𝐰_𝑘 = arg min 𝐰 𝐰𝑇_𝐗𝐋𝐗𝑇_𝐰 s.a. 𝐂𝑘𝐗𝑇𝐰 ≻ 0 𝐖_𝑘−1𝑇 𝐰 = 𝟎_𝑘−1 (51)

onde 𝐖_𝑘−1 = (𝐰₁, … , 𝐰_𝑘−1) e 𝟎_𝑘−1 é o vetor nulo de ℝ𝑘−1_.

Assim, definimos o algoritmo de aprendizado de subespaço: Entradas: 𝐗 = (𝐱1, … , 𝐱𝑛), 𝐚 = (𝑎1, … , 𝑎𝑛)𝑇, 𝐾, 𝛀

Calcular L de acordo com (48)

Obter 𝛀₁ com Algoritmo 2, 𝛀 ← 𝛀 ∖ 𝛀₁ 𝐰₁ ← arg min_𝐰{𝐰𝑇_𝐗𝐋𝐗𝑇_{𝐰 | 𝐂}

1𝐗𝑇𝐰 ≻ 0}

𝐖₁ ← (𝐰₁) Para 𝑘 ← 2 até 𝐾

Obter 𝛀_𝑘 com Algoritmo 2, 𝛀 ← 𝛀 ∖ 𝛀_𝑘 𝐰_𝑘 ← arg min_𝐰{𝐰𝑇_𝐗𝐋𝐗𝑇_{𝐰 | 𝐂}

𝑘𝐗𝑇𝐰 ≻ 0, 𝐖𝑘−1𝑇 𝐰 = 𝟎𝑘−1}

𝐖_𝑘 ← (𝐖_𝑘−1 | 𝐰_𝑘) Parar se 𝛀 = ∅ Saída: 𝐖𝐾

Algoritmo 1. Aprendizado de subespaço por ordenação de idades

Agora resta apenas estabelecer um meio para definir {𝛀𝑘}𝑘, de modo a respeitar a propriedade

iii. Adicionalmente, determina-se que cada indivíduo seja usada apenas uma vez como mais velho (conjunto 𝐸) e uma vez como mais novo (conjunto 𝑌), para evitar que uma mesma pessoa seja apresentada múltiplas vezes.

Entrada: 𝛀 = {(𝑠_𝑖, 𝑡_𝑖)}_𝑖=1𝑟

𝚯 ← ∅, 𝐸 ← {𝑖}_𝑖=1𝑛 , 𝑌 ← {𝑖}_𝑖=1𝑛

Ordenar 𝛀 segundo um critério escolhido: 𝛀̃ = ((𝑠_(𝑖), 𝑡_(𝑖)))

𝑖=1 𝑟 Para 𝑖 ← 1 até 𝑟 Se 𝑠_(𝑖) ∈ 𝐸 ∧ 𝑡_(𝑖) ∈ 𝑌 𝚯 ← 𝚯 ∪ {(𝑠_(𝑖), 𝑡_(𝑖))}, 𝐸 ← 𝐸 ∖ {𝑠_(𝑖)}, 𝑌 ← 𝑌 ∖ {𝑡_(𝑖)} Parar se 𝐸 = 𝑌 = ∅ Saída: 𝚯

Algoritmo 2. Seleção de restrições

Os autores apresentam critérios diversos de ordenação dos pares, baseados em diferentes premissas: idades mais próximas (NFS, Nearest age First Search), idades mais distantes (FFS, Furthest age First Search), aparências mais semelhantes (SFS, Similar appearance

First Search) e aleatório (RS, Random Search).

A métrica de ordenação para NFS e FFS é simplesmente a diferença de idades,

(18)

15 e, para SFS, é a distância entre os vetores de atributos1_,

𝜇_SFS(𝑠, 𝑡) = ‖𝐱𝑠− 𝐱𝑡‖2, ∀(𝑠, 𝑡) ∈ 𝛀. (53)

É proposta, ainda, uma extensão deste algoritmo para aprendizado semi-supervisionado, possibilitando o enriquecimento do modelo baseado em amostras sem informação de idade. Esta abordagem não foi explorada neste projeto.

2.c.iii.I. Aplicação de um kernel

Com base na equação (5), tem-se que: 𝐰𝑇_𝛗

𝑗 = 𝛂𝑇𝛋𝑗 ⇒ 𝚽𝑇𝐰 = 𝐊𝑇𝛂 (54)

Deste modo, substituindo 𝐱_𝑖 por 𝛗_𝑖 (𝐗 por 𝚽) no problema (50), este se reescreve como: 𝛂₁ = arg min

𝛂

𝛂𝑇𝐊𝐋𝐊𝑇𝛂

s.a. 𝐂₁𝐊𝑇_{𝛂 ≻ 0} (55)

Para as direções de projeção 𝐰𝑘 restantes, fazemos, utilizando o resultado (6):

𝐖_𝑘−1𝑇 𝐰 = ( 𝐰₁𝑇_𝐰 ⋮ 𝐰_𝑘−1𝑇 𝐰 ) = ( 𝛂₁𝑇_𝐊𝛂 ⋮ 𝛂_𝑘−1𝑇 𝐊𝛂 ) = 𝐀𝑇_𝑘−1𝐊𝛂, 𝐀_𝑘−1= (𝛂₁, … , 𝛂_𝑘−1) (56) O problema (51) se torna, portanto:

𝛂𝑘 = arg min 𝛂 𝛂𝑇𝐊𝐋𝐊𝑇𝛂 s.a. 𝐂_𝑘𝐊𝑇𝛂 ≻ 0 𝐀𝑇_𝑘−1𝐊𝛂 = 𝟎𝑘−1 (57)

Adicionalmente, é preciso adaptar a métrica de ordenação do critério SFS, (53): 𝜇_SFS(𝑠, 𝑡) = ‖𝛗_𝑠 − 𝛗_𝑡‖_ℱ2 _{= ‖𝛗}

𝑠‖ℱ2 + ‖𝛗𝑡‖ℱ2 − 2⟨𝛗𝑠, 𝛗𝑡⟩ℱ

= 𝐾𝑠𝑠+ 𝐾𝑡𝑡− 2𝐾𝑠𝑡, ∀(𝑠, 𝑡) ∈ 𝛀

(58) Comparando (55) e (57) com a versão linear, (50) e (51), pode-se observar que sua estrutura geral é muito similar:

𝐰₁ = arg min 𝐰 𝐰𝑇_𝐗𝐋𝐗𝑇_𝐰 s.a. 𝐂1𝐗𝑇𝐰 ≻ 0 𝛂₁ = arg min 𝛂 𝛂𝑇_𝐊𝐋𝐊𝑇_𝛂 s.a. 𝐂1𝐊𝑇𝛂 ≻ 0 𝐰𝑘 = arg min 𝐰 𝐰𝑇𝐗𝐋𝐗𝑇𝐰 s.a. 𝐂𝑘𝐗𝑇𝐰 ≻ 0 𝐖_𝑘−1𝑇 _{𝐰 = 𝟎} 𝑘−1 𝛂𝑘 = arg min 𝛂 𝛂𝑇𝐊𝐋𝐊𝑇𝛂 s.a. 𝐂_𝑘𝐊𝑇𝛂 ≻ 0 𝐀𝑇_𝑘−1𝐊𝛂 = 𝟎𝑘−1

A principal vantagem do uso de um kernel, neste caso, é que se pôde introduzir uma transformação não linear dos dados sem alterar a complexidade do problema de otimização,

1_{Podemos interpretar (52) e (53) como atribuições de pesos às arestas do grafo 𝐺}

(19)

16 que continua sendo quadrático com restrições lineares e com o mesmo número de variáveis e restrições.

Uma vantagem adicional, essencial do ponto de vista experimental, é que pode ser feita uma comparação mais justa com os outros métodos não lineares descritos (KPCA e KDA) do que se fosse usada sua versão linear original. Por compartilharem a mesma estrutura de não-linearidade, os três algoritmos podem ter seu desempenho comparado operando sobre o mesmo espaço de atributos, ou seja, com as mesmas funções de kernel.

2.d. Regressão

2.d.i. Regressão linear

Seja um modelo clássico de regressão linear múltipla:

𝑦_𝑖 = 𝛽₀+ ∑ 𝛽_𝑗𝑥_𝑗𝑖 𝐾 𝑗=1 + 𝜀_𝑖, { 𝔼(𝜀𝑖|𝐱𝑖) = 0 𝔼(𝜀_𝑖2|𝐱_𝑖) = 𝜎2 𝔼(𝜀_𝑖𝜀_𝑗|𝐱_𝑖, 𝐱_𝑗) = 0, 𝑖 ≠ 𝑗 (59)

Os coeficientes {𝛽𝑗}𝑗=0𝐾 podem ser estimados por mínimos quadrados ordinários (MQO).

Assumindo-se a correta especificação da forma funcional do modelo e as hipóteses listadas para os erros, mostra-se que os estimadores de MQO são não tendenciosos, consistentes e eficientes, pelo teorema de Gauss-Markov [30]. Em particular, são considerados os melhores estimadores lineares não tendenciosos.

Sua formulação e implementação simples, aliados às suas boas propriedades estatísticas, fazem da regressão linear por MQO uma boa candidata para aplicação neste trabalho.

2.d.ii. Regressão por vetores de suporte

O desenvolvimento do conceito de máquinas de vetores de suporte (SVM), devido principalmente às contribuições de Vladimir Vapnik e coautores, representou uma revolução no campo de reconhecimento de padrões e aprendizado de máquina supervisionado [31, 32]. Em sua essência, SVMs são métodos cujas fronteiras de decisão estão “apoiadas” sobre um número limitado de instâncias de treinamento, chamadas de vetores de suporte. Um dos principais atrativos de algoritmos baseados em SVM é o fato de sua estrutura permitir a incorporação de não-linearidade através de um kernel.

Embora a formulação original fosse voltada para classificação [33], a adaptação de sua lógica para problemas de regressão é bastante direta. Esta abordagem é conhecida como regressão por vetores de suporte (SVR) [17].

Consideremos inicialmente o caso simples de uma função linear:

𝑓(𝐱) = ⟨𝐰, 𝐱⟩ + 𝑏, 𝐱, 𝐰 ∈ 𝒳, 𝑏 ∈ ℝ (60)

Desejamos encontrar a função mais plana possível que aproxime bem os dados. Aqui, definiremos tal “achatamento” a partir da norma de 𝐰, o que nos leva ao seguinte problema de otimização:

(20)

17 min 𝐰,𝑏 1 2‖𝐰‖ 2 s. a. |𝑦𝑖− 𝑓(𝐱𝑖)| ≤ 𝜀 ≡ min 𝐰,𝑏 1 2‖𝐰‖ 2 s. a. 𝑦𝑖− ⟨𝐰, 𝐱𝑖⟩ − 𝑏 ≤ 𝜀 ⟨𝐰, 𝐱𝑖⟩ + 𝑏 − 𝑦𝑖 ≤ 𝜀 (61)

As restrições do problema (61) significam que buscamos uma função 𝑓 que seja capaz de aproximar todos os valores 𝑦_𝑖 com precisão 𝜀, uma margem estrita. No entanto, este problema pode ser inviável ou talvez queiramos permitir alguns erros para melhorar a robustez do modelo. Para tratar destes casos, relaxamos as restrições, introduzindo as variáveis de folga 𝜉_𝑖(∗) e um custo 𝐶 associado à sua violação1_{. Chegamos, assim, à formulação de margens}

flexíveis, semelhante à descrita originalmente em [33]: min 𝐰,𝑏,𝜉_𝑖(∗) 𝑖∈[𝑛] 1 2‖𝐰‖ 2_{+ 𝐶 ∑(𝜉} 𝑖 + 𝜉𝑖∗) 𝑛 𝑖=1 s. a. 𝑦𝑖 − ⟨𝐰, 𝐱𝑖⟩ − 𝑏 ≤ 𝜀 + 𝜉𝑖 : 𝛼𝑖 ⟨𝐰, 𝐱𝑖⟩ + 𝑏 − 𝑦𝑖 ≤ 𝜀 + 𝜉𝑖∗ : 𝛼𝑖∗ 𝜉_𝑖(∗) ≥ 0 : 𝜂_𝑖(∗) (62)

A constante 𝐶 > 0 mede o compromisso que deve ser feito entre o achatamento de 𝑓 e a tolerância a erros. É, portanto, uma forma de controlar o poder de generalização versus o viés do modelo buscado. Este novo termo de custo em (62) corresponde a uma função de perda 𝜀-insensível, que penaliza apenas os resíduos de regressão maiores do que 𝜀:

𝜉_𝑖+ 𝜉_𝑖∗ = {0, se |𝑦𝑖 − 𝑓(𝐱𝑖)| ≤ 𝜀

|𝑦_𝑖− 𝑓(𝐱_𝑖)| − 𝜀, c.c. (63)

Figura 2. Ilustração da faixa 𝜀-insensível. Os pontos com contorno preto são vetores de suporte, que têm contribuição não nula para a função de custo. Vemos que a forma da função de custo da SVR (direita) é

fundamentalmente diferente da regressão linear, que é quadrática (MQO).

Do ponto de vista prático, o problema (62) pode ser resolvido mais facilmente em sua forma dual, que, como será apresentado posteriormente, possibilitará o uso de uma função de kernel [17]. Para obter o problema dual, calcula-se o Lagrangeano, definindo-se as variáveis duais 𝛼_𝑖(∗), 𝜂_𝑖(∗)≥ 0:

(21)

18 ℒ =1 2‖𝐰‖ 2_{+ 𝐶 ∑(𝜉} 𝑖+ 𝜉𝑖∗) 𝑛 𝑖=1 − ∑(𝜂_𝑖𝜉_𝑖+ 𝜂_𝑖∗𝜉_𝑖∗) 𝑛 𝑖=1 − ∑ 𝛼_𝑖(𝜀 + 𝜉_𝑖− 𝑦_𝑖 + ⟨𝐰, 𝐱_𝑖⟩ + 𝑏) 𝑛 𝑖=1 − ∑ 𝛼_𝑖∗(𝜀 + 𝜉_𝑖∗_{+ 𝑦} 𝑖 − ⟨𝐰, 𝐱𝑖⟩ − 𝑏) 𝑛 𝑖=1 (64)

Como condição necessária de otimalidade, as derivadas do Lagrangeano com relação às variáveis primais devem se anular no ponto ótimo, logo:

∇_𝐰ℒ = 𝐰 − ∑(𝛼_𝑖 − 𝛼_𝑖∗)𝐱_𝑖 𝑛 𝑖=1 = 0 (65) 𝜕ℒ 𝜕𝑏= ∑(𝛼𝑖 ∗_{− 𝛼} 𝑖) 𝑛 𝑖=1 = 0 (66) 𝜕ℒ 𝜕𝜉_𝑖(∗) = 𝐶 − 𝛼𝑖 (∗) − 𝜂_𝑖(∗)= 0 ₍₆₇₎

Com estas condições e eliminando 𝜂_𝑖(∗), o problema dual se escreve finalmente como: max 𝛼_𝑖(∗) 𝑖∈[𝑛] −1 2 ∑ (𝛼𝑖− 𝛼𝑖 ∗_)(𝛼 𝑗− 𝛼𝑗∗)⟨𝐱𝑖, 𝐱𝑗⟩ 𝑛 𝑖,𝑗=1 − 𝜀 ∑(𝛼_𝑖+ 𝛼_𝑖∗) 𝑛 𝑖=1 + ∑ 𝑦_𝑖(𝛼_𝑖− 𝛼_𝑖∗) 𝑛 𝑖=1 s. a. ∑(𝛼𝑖 − 𝛼𝑖∗) 𝑛 𝑖=1 = 0 0 ≤ 𝛼_𝑖(∗)≤ 𝐶 (68)

Inspecionando as demais condições de otimalidade, obtidas pelo teorema de Karush-Kuhn-Tucker (KKT) [34, 35], podemos tirar algumas conclusões relevantes:

𝛼_𝑖(𝜀 + 𝜉𝑖 − 𝑦𝑖+ ⟨𝐰, 𝐱𝑖⟩ + 𝑏) = 0 (69)

𝛼_𝑖∗(𝜀 + 𝜉_𝑖∗_{+ 𝑦}

𝑖 − ⟨𝐰, 𝐱𝑖⟩ − 𝑏) = 0 (70)

(𝐶 − 𝛼𝑖)𝜉𝑖 = 0 (71)

(𝐶 − 𝛼_𝑖∗)𝜉_𝑖∗ = 0 (72)

Primeiramente, temos que 𝛼_𝑖 e 𝛼_𝑖∗_{são complementares, ou seja, não podem ser}

simultaneamente não nulos. O resultado mais importante, porém, é o de que:

|𝑦𝑖 − 𝑓(𝐱𝑖)| < 𝜀 ⇔ 𝛼𝑖 = 𝛼𝑖∗ = 0 (73)

Isto significa, em resumo, que as instâncias dentro da margem de erro não terão qualquer impacto sobre a regressão.

(22)

19 Por fim, a condição (65) tem uma consequência notável:

𝐰 = ∑(𝛼𝑖 − 𝛼𝑖∗)𝐱𝑖 𝑛 𝑖=1 ⇒ 𝑓(𝐱) = ∑(𝛼𝑖− 𝛼𝑖∗)⟨𝐱𝑖, 𝐱⟩ 𝑛 𝑖=1 + 𝑏 (74)

Ou seja, tendo em vista a propriedade (73), 𝐰 pode ser inteiramente especificado por uma combinação linear de um número reduzido de padrões de treinamento. Esta representação esparsa é a chamada expansão em vetores de suporte.

2.d.ii.I. Aplicação do kernel à SVR

Agora suponhamos que desejamos utilizar, em vez da função linear original, (60), uma função não linear com a seguinte forma:

𝑓(𝐱) = ⟨𝐰, 𝜑(𝐱)⟩_ℱ+ 𝑏, 𝐱 ∈ 𝒳, 𝐰 ∈ ℱ, 𝑏 ∈ ℝ, 𝜑: 𝒳 → ℱ (75) Com esta nova formulação não linear, o problema de otimização (68) se reescreve como:

max 𝛼_𝑖(∗) 𝑖∈[𝑛] −1 2 ∑ (𝛼𝑖 − 𝛼𝑖 ∗_)(𝛼 𝑗− 𝛼𝑗∗)⟨𝜑(𝐱𝑖), 𝜑(𝐱𝑗)⟩_ℱ 𝑛 𝑖,𝑗=1 − 𝜀 ∑(𝛼𝑖 + 𝛼𝑖∗) 𝑛 𝑖=1 + ∑ 𝑦𝑖(𝛼𝑖 − 𝛼𝑖∗) 𝑛 𝑖=1 s. a. ∑(𝛼_𝑖− 𝛼_𝑖∗) 𝑛 𝑖=1 = 0 0 ≤ 𝛼_𝑖(∗) ≤ 𝐶 (76 )

Convenientemente, analisando o problema acima, podemos observar que a dependência sobre os padrões de treinamento aparece apenas no termo ⟨𝜑(𝐱_𝑖), 𝜑(𝐱_𝑗)⟩_ℱ. Como discutido na seção 2.b, sobre métodos de kernel, sabemos que basta especificar uma função de kernel apropriada para definir 𝜑 implicitamente. Tais produtos internos podem, portanto, ser substituídos pelos elementos da matriz de kernel, 𝐾_𝑖𝑗:

max 𝛼_𝑖(∗) 𝑖∈[𝑛] −1 2 ∑ (𝛼𝑖 − 𝛼𝑖 ∗_)(𝛼 𝑗− 𝛼𝑗∗)𝐾𝑖𝑗 𝑛 𝑖,𝑗=1 − 𝜀 ∑(𝛼_𝑖 + 𝛼_𝑖∗) 𝑛 𝑖=1 + ∑ 𝑦_𝑖(𝛼_𝑖 − 𝛼_𝑖∗) 𝑛 𝑖=1 s. a. ∑(𝛼_𝑖 − 𝛼_𝑖∗) 𝑛 𝑖=1 = 0 0 ≤ 𝛼_𝑖(∗)≤ 𝐶 (77)

Deste modo, a condição de otimalidade implicará que a função de regressão também poderá ser expressa apenas em termos da função de kernel, 𝑘(⋅,⋅):

𝐰 = ∑(𝛼_𝑖 − 𝛼_𝑖∗)𝜑(𝐱𝑖) 𝑛 𝑖=1 ⇒ 𝑓(𝐱) = ∑(𝛼_𝑖 − 𝛼_𝑖∗)𝑘(𝐱𝑖, 𝐱) 𝑛 𝑖=1 + 𝑏 (78)

(23)

20

3. Procedimento Experimental

Neste capítulo, serão tratados os aspectos experimentais desta monografia. Serão descritas as características do banco de dados utilizado, as métricas de desempenho avaliadas e a metodologia experimental adotada.

3.a. Banco de dados

Os métodos estudados neste trabalho foram avaliados no banco de dados FG-NET1_{[36]. Este}

banco de imagens contém 927 imagens faciais, pertencentes a 82 indivíduos diferentes. Existem de 6 a 18 fotos de cada indivíduo em idades distintas, e as idades estão compreendidas entre 0 e 69 anos.

A Figura 3 mostra o histograma das idades dos indivíduos presentes em FG-NET. Nota-se que uma parcela significativa dos indivíduos está concentrada na faixa de 0 a 30 anos, com poucas pessoas ultrapassando os 50 anos.

Aplicando o procedimento descrito em [15] às imagens do banco de dados FG-NET, foram extraídos 247 atributos.

Figura 3. Distribuições de idades no banco de dados FG-NET 3.b. Métricas

Para avaliação dos resultados, serão utilizadas as mesmas métricas de desempenho utilizadas com frequência em trabalhos relacionados [15, 38, 39]: os erros absolutos médios por ano, por década e global e o escore acumulado, apresentadas a seguir.

3.b.i. Erro absoluto médio

Define-se o erro absoluto médio global (MAE, do inglês Mean Absolute Error) como

1_{O banco de dados FG-NET não está mais disponível publicamente na data da redação desta}

monografia (junho de 2015). A página Web do grupo de pesquisa responsável por seu desenvolvimento pode ser encontrada em <http://www-prima.inrialpes.fr/FGnet/>.

(24)

21 MAE =1 𝑛∑|𝑎𝑖 − 𝑎̂𝑖| 𝑛 𝑖=1 , (79)

onde 𝑎_𝑖 e 𝑎̂_𝑖 são as idade real e estimada, respectivamente, do indivíduo 𝑖.

Para contemplar as especificidades do ajuste para indivíduos com diferentes idades, definimos também medidas locais, os erros absolutos médios por década (MAE/D) e por ano (MAE/y):

MAE/D(𝑑) = 1 |𝒟_𝑑| ∑ |𝑎𝑖− 𝑎̂𝑖| 𝑖∈𝒟𝑑 , 𝒟_𝑑 = {𝑖 ∈ [𝑛]| ⌊𝑎𝑖 10⌋ = 𝑑} (80) MAE/y(𝑎) = 1 |𝒴_𝑎|∑ |𝑎𝑖− 𝑎̂𝑖| 𝑖∈𝒴𝑎 , 𝒴_𝑎 = {𝑖 ∈ [𝑛]|𝑎_𝑖 = 𝑎} ₍₈₁₎ Aqui, 𝒟𝑑 e 𝒴𝑎 são os conjuntos de indivíduos da década 𝑑 e com idade 𝑎, respectivamente, e

|⋅| denota a cardinalidade destes conjuntos.

3.b.ii. Escore acumulado

O escore acumulado (CS, do inglês Cumulative Score) é definido por CS(𝜀) =1 𝑛∑ ℎ(|𝑎𝑖 − 𝑎̂𝑖| − 𝜀) 𝑛 𝑖=1 , ℎ(𝑡) = {1, 𝑡 ≤ 0 0, 𝑡 > 0, (82) onde 𝜀 é um nível de tolerância de erro determinado.

Esta métrica avalia a proporção de indivíduos cuja idade pôde ser estimada a diferentes patamares de precisão. Note que, por construção, ∀𝜀,CS(𝜀) ∈ [0,1].

3.c. Metodologia experimental 3.c.i. Validação cruzada

Para avaliar o poder de generalização dos algoritmos, adotamos uma estratégia de validação cruzada. Nesta abordagem, o conjunto de dados é dividido em certo número de subconjuntos. Então, cada parte é usada sequencialmente como conjunto de teste e o restante como conjunto de treinamento. Todos os modelos são aplicados sobre as mesmas partições do conjunto de dados.

A validação cruzada é uma ferramenta que nos permite, assim, estimar a variação de métricas de desempenho calculadas sobre diferentes amostras do conjunto de dados, com o objetivo de mensurar a sensibilidade do modelo à amostragem e sua capacidade de generalização.

No caso da estimação de idades, cuidado deve ser tomado na amostragem, pois se espera que haja forte correlação entre atributos extraídos de fotos de um mesmo indivíduo. Se algumas de suas imagens fossem usadas para treinamento e outras para teste, isto introduziria um viés na estimação e uma consequente invalidação das métricas obtidas.

Para contornar este problema, portanto, a validação cruzada foi feita sobre os conjuntos de indivíduos distintos, e não sobre o total de imagens. Assim, garantimos que todas as fotos de uma mesma pessoa sejam usadas a cada vez ou para treinamento, ou para teste.

(25)

22 Uma estratégia diferente que pode ser utilizada é a validação cruzada deixando uma pessoa de fora (LOPO, do inglês Leave-One-Person-Out), o que significa que cada indivíduo é usado uma vez para teste. Como o banco de dados FG-NET contém informações de 82 indivíduos diferentes, todos os algoritmos são executados 82 vezes.

3.c.ii. Significância dos resultados

Após a realização dos experimentos, as métricas de erro coletadas para cada modelo foram comparadas e suas diferenças testadas para significância estatística. Como estas foram calculadas individualmente sobre os mesmos grupos de dados, deve ser aplicado um teste para amostras pareadas.

Sejam dois métodos, A e B. Desejamos testar se a métrica de erro (MAE global, neste caso) para A é consistentemente melhor que a de B em diferentes amostras, baseando-nos nos resultados empíricos obtidos em cada uma das 𝑁 iterações da validação cruzada. Isto se traduz em testar se a diferença pontual 𝑑𝑖 = MAE𝑖𝐴− MAE𝑖𝐵 entre as métricas obtidas para os

dois métodos é estatisticamente significante.

Como a distribuição das diferenças é desconhecida, é aconselhável a aplicação de um teste de hipótese não paramétrico. Adicionalmente, considerando que 𝑁 é pequeno para MORPH 2, não podemos confiar em testes t, por exemplo, pois não temos como garantir a normalidade das diferenças.

No entanto, temos a certeza de que as diferenças serão simétricas, sob a hipótese nula de que os métodos produzem o mesmo erro, em média [40]. Assim, somos capazes de aplicar o teste de Wilcoxon pareado (teste de postos com sinal, signed-rank test) unilateral, para determinar se as diferenças têm mediana negativa [41]. Fora a simetria, este teste não faz nenhuma suposição quanto à distribuição das diferenças.

Um p-valor abaixo do nível de significância 𝛼 = 5% nos fará, portanto, concluir que o método A produz erros significativamente menores do que o método B.

3.c.iii. Ambiente experimental

Os experimentos foram realizados em MATLAB R2012b (8.0.0.783) 64 bits, executando em uma máquina com sistema operacional Windows 7 Professional SP1 de 64 bits, processador Intel® Core™ i7-4770 @ 3.40 GHz e 16 GB de RAM.

(26)

23

4. Resultados e Discussão

Inicialmente, para fins de visualização, os seis métodos foram treinados sobre o banco de dados FG-NET completo, com apenas 𝐾 = 3 componentes. As projeções são mostradas abaixo.

Figura 4. FG-NET reduzido a três dimensões, com PCA e KPCA. As cores dos pontos representam as idades, variando de azul, para os mais novos, até vermelho, para os mais velhos.

(27)

24

Figura 6. FG-NET reduzido a três dimensões, com PAR e KPAR

Como havíamos suposto, PCA e KPCA não parecem ter sucesso em representar as diferenças de idades (Figura 4), devido ao fato de serem métodos não supervisionados. Os demais métodos aparentam capturar, em certa medida, o gradiente de idades (Figura 5 e Figura 6), com destaque para KPAR.

Cabe a ressalva de que esta análise informal é puramente ilustrativa. É muito provável que haja proporções substanciais de informação referente às idades nas componentes que foram omitidas.

4.a. Experimento 1

Foi feita uma varredura paramétrica para determinar os parâmetros ótimos de cada algoritmo, com base no MAE global médio obtido por regressão linear. Este experimento foi realizado com validação cruzada em 10 vezes no banco de dados FG-NET. Não foi aplicada LOPO devido ao elevado custo computacional dos métodos PAR e KPAR, pois estes seriam treinados 82 vezes para cada escolha de parâmetros. Não foi aplicada regularização a LDA e KDA (𝜖 = 0) e os métodos de kernel utilizaram RBF Gaussiana.

Para o método PCA, fizemos a varredura do parâmetro 𝜂, a proporção da variância retida. Para KPCA, como a dimensão deste modelo não é 𝑑, mas sim 𝑛 – lembrando que a matriz de covariância 𝚺 tem tamanho 𝑛 × 𝑛 –, consideramos mais apropriado determinar diretamente o número de componentes a utilizar, 𝐾. Caso contrário, estaríamos permitindo uma “redução” a um número de dimensões maior do que o original.

O único parâmetro a ser ajustado para LDA e PAR é o número de componentes, 𝐾.

Para os métodos de kernel, KPCA, KDA e KPAR, é necessário determinar, adicionalmente, a largura do kernel Gaussiano, 𝜎.

(28)

25

Tabela 1. Parâmetros ótimos dos modelos, obtidos empiricamente por validação cruzada

PCA 𝜂 = 98% KPCA 𝐾 = 200, 𝜎 = 15 LDA 𝐾 = 2 KDA 𝐾 = 70, 𝜎 = 15 PAR 𝐾 = 50, KPAR 𝐾 = 50, 𝜎 = 15

Note que o mesmo kernel ótimo foi determinado para KPCA e KDA, uma RBF Gaussiana com 𝜎 = 15. Isto sugere que o espaço de atributos induzido por este kernel incorpora uma estrutura favorável à estimação de idades. Como a estimação do modelo KPAR é muito custosa (da ordem de 12 segundos por componente, para cada iteração da validação cruzada), foi utilizado o mesmo kernel e a varredura foi feita apenas sobre valores de 𝐾.

Vale ressaltar que, durante a realização deste experimento, KDA encontrou problemas de estabilidade numérica com kernels muito amplos (𝜎 ≥ 40).

4.b. Experimento 2

Uma vez determinadas empiricamente as configurações de parâmetros com melhores resultados, os algoritmos foram treinados sobre os mesmos conjuntos de dados, novamente com validação cruzada. Novamente, devido ao custo dos métodos PAR e KPAR, foi utilizado o esquema de validação cruzada em 10 vezes no banco FG-NET.

Realizamos regressão linear e SVR (linear, sem kernel). Determinamos empiricamente o valor do parâmetro 𝜀 = 1 e empregamos 𝐶 = 𝑎̅ + 3𝑠𝑎, onde 𝑎̅ é a média amostral e 𝑠𝑎 é o

desvio-padrão amostral das idades, como proposto em [43].

Como controle, foram feitas também regressões sobre os atributos originais, sem redução de dimensionalidade, aqui referidas como “Base”.

Observando a Figura 7 e a Figura 8, fica nítido que a ausência de um número expressivo de exemplos de indivíduos mais velhos no banco de dados (cf. Figura 3), especialmente acima de 40 anos, inviabiliza a estimação da idade de pessoas nesta faixa etária.

(29)

26

Figura 7. MAE/D para o experimento 2, com regressão linear. Aqui, a base e o topo das caixas indicam o primeiro e o terceiro quartis, o traço vermelho indica a mediana, as barras indicam o menor e o maior valor,

limitados a 1,5 vezes a amplitude interquartis (IQR), e os círculos são valores extremos fora desta faixa.

(30)

27

Figura 9. Escore acumulado para o experimento 2, com regressão linear

(31)

28

Tabela 2. p-valores dos testes para as diferenças entre os métodos no experimento 2, com regressão linear

PCA KPCA LDA KDA PAR KPAR Base

PCA - 0.9863 0.6875 0.9932 0.0098 0.9990 0.3125 KPCA 0.0186 - 0.3848 0.9580 0.0029 0.9932 0.0654 LDA 0.3477 0.6523 - 0.9863 0.0068 0.9980 0.0322 KDA 0.0098 0.0527 0.0186 - 0.0010 0.9990 0.0010 PAR 0.9932 0.9980 0.9951 1.0000 - 1.0000 0.9863 KPAR 0.0020 0.0098 0.0029 0.0020 0.0010 - 0.0010 Base 0.7217 0.9473 0.9756 1.0000 0.0186 1.0000 -

A linha de cada método apresenta os resultados dos testes para determinar se este produz erros menores do que os demais, dispostos nas colunas. O sombreamento indica significância a 5%. Em negrito, os métodos de kernel com seus respectivos métodos lineares originais.

A Tabela 2 mostra que os métodos de kernel superaram significativamente seus equivalentes lineares. Curiosamente, enquanto o método PAR linear produziu erros maiores do que todos os demais, KPAR foi o mais preciso. Isto pode também ser confirmado pelos escores acumulados na Figura 9.

Também é importante ressaltar que LDA, KDA e KPAR (e mesmo KPCA, marginalmente, a 10%) produziram melhores resultados do que a regressão sem nenhuma redução de dimensionalidade. Esta constatação é essencial, caso contrário não haveria sentido em aplicar nenhum destes métodos.

Tabela 3. p-valores dos testes para as diferenças entre os métodos no experimento 2, com SVR

PCA KPCA LDA KDA PAR KPAR Base

PCA - 0.9678 0.9863 0.9932 0.5000 0.8389 0.2783 KPCA 0.0420 - 0.9033 0.9199 0.0049 0.0420 0.0244 LDA 0.0186 0.1162 - 0.4606 0.0029 0.0098 0.0049 KDA 0.0098 0.0967 0.5771 - 0.0098 0.0244 0.0020 PAR 0.5391 0.9971 0.9980 0.9932 - 0.7539 0.2461 KPAR 0.1875 0.9678 0.9932 0.9814 0.2783 - 0.1611 Base 0.7539 0.9814 0.9971 0.9990 0.7842 0.8623 -

No caso da aplicação de SVR, os resultados foram menos contundentes. Dentre os métodos de kernel, apenas KPCA superou seu correspondente linear, em termos do MAE global. Uma possível explicação para este aparente fracasso dos métodos KDA e KPAR, contrastando com o êxito obtido na regressão linear, é a de que foram utilizados os mesmos parâmetros para a SVR no espaço de dados e no espaço de atributos. É plausível imaginar que as naturezas distintas destes espaços conduzam a escolhas de parâmetros ótimos diferentes.

(32)

29

4.c. Experimento 3

Com o objetivo de obter resultados mais específicos, foi feito um terceiro experimento, com regressão linear e validação cruzada LOPO em FG-NET. Foram considerados apenas os modelos PCA, KPCA, LDA e KDA, uma vez que testes deste porte para PAR e KPAR não foram considerados factíveis no presente trabalho.

Figura 11. MAE/y para o experimento 3

Fica evidente, na Figura 11, que o desempenho de todos os métodos se deteriora a partir de 30 anos. A regressão sem redução (Base) é a que apresenta menores erros de estimação para pessoas mais velhas. Isto pode ser interpretado sob a ótica de que os métodos de redução, por terem sido treinados com pouquíssimos exemplos de pessoas mais velhas, apresentam um viés desfavorável a este grupo.

(33)

30

5. Conclusão

Kernels são uma ferramenta ao mesmo tempo simples e muito poderosa. Com uma pequena modificação, uma classe ampla de técnicas lineares de aprendizado de máquina pode se tornar não linear. A especificação da função de kernel fornece um grau de flexibilidade que permite a incorporação de conhecimento prévio sobre o domínio de aplicação ou até mesmo uma compreensão mais profunda sobre a natureza e estrutura dos dados.

Ao rompermos com a rigidez de modelos lineares, podemos obter modelos mais flexíveis e robustos, capazes de explorar de forma mais natural a riqueza do espaço de dados.

Com esta motivação, foi obtido com sucesso um algoritmo baseado em kernel a partir do método PAR. Isto foi possível porque, assim como PCA e LDA, PAR opera apenas em função de produtos internos entre instâncias de dados, de modo que os mapeamentos para o espaço de atributos não precisam ser calculados explicitamente.

As varreduras paramétricas indicaram que a escolha do parâmetro de escala do kernel Gaussiano 𝜎 = 15 produziu bons resultados para os três métodos de kernel estudados. Este fato sugere que o espaço de atributos induzido por tal kernel capturou os padrões de envelhecimento de forma mais satisfatória do que o espaço de dados original.

Os experimentos revelaram que, utilizando regressão linear, os modelos não lineares geraram erros significativamente menores do que os modelos lineares correspondentes. Estes resultados não se reproduziram com SVR, possivelmente devido a uma má parametrização. Experimentos cuidadosos de varredura dos parâmetros da SVR poderão determinar a validade desta hipótese.

Estão previstos experimentos de mais larga-escala com o banco de dados MORPH, que conta com dezenas de milhares de fotos de mais de treze mil indivíduos, entre 16 e 77 anos [37]. Testes com este banco de dados maior permitirão a avaliação do desempenho de estimação de idades para pessoas de idade mais avançada. Também poderá ser contemplada a construção de um modelo hierárquico, treinando um modelo de classificação em diferentes faixas etárias e modelos de regressão específicos para cada uma destas.

Futuramente, poderão ser feitos testes com diferentes classes de kernels e outros métodos de redução de dimensionalidade. Experimentos posteriores também poderão avaliar comparativamente a utilização de métodos de kernel apenas na etapa de redução, na etapa de regressão ou em ambas.