• Nenhum resultado encontrado

4.3 Máquina de Vetores de Suporte

4.3.2 Máquina de Vetores de Suporte Aplicada a Problemas Multi-Classes

A Máquina de Vetores de Suporte foi inicialmente desenvolvida para problemas de classificação envolvendo duas classes (classificação binária). No entanto, problemas do mundo real, que normalmente possuem mais do que duas classes, contribuíram para o desenvolvimento de estratégias para classificação multi-classes. Entre as técnicas mais utilizadas encontram-se a um-contra-todas (do inglês one-againt-all – OAA ) e um-contra-

um (do inglês one-againt-one – OAO) (WIDODO; YANG, 2007).

No primeiro método, OAA, um modelo SVM é obtido para cada classe 𝑖 = 1, . . . , 𝐼. O 𝑖-ésimo modelo SVM é treinado fazendo todas as amostras da 𝑖-ésima classe rotuladas como +1, e todas as demais amostras rotuladas como −1. Logo, para cada amostra de treinamento 𝑥𝑛, sendo 𝑛 = 1, . . . , 𝑁 , existe uma classe correspondente 𝑡𝑛 ∈ {1, . . . , 𝐼}. Portanto, para treinar o modelo para a 𝑖-ésima classe, basta resolver o seguinte problema de otimização: 1 2 ⃒ ⃒ ⃒ ⃒ ⃒ ⃒w 𝑖⃒⃒ ⃒ ⃒ ⃒ ⃒ 2 + 𝐶 𝑁 ∑︁ 𝑛=1 𝜉𝑛𝑖 (4.49)

no qual 𝐶 corresponde ao parâmetro de penalização. Este problema deve ser minimizado considerando as seguintes restrições:

𝑡𝑛{(w𝑖)T𝜑(𝑥𝑛) + 𝑏𝑖} ≥ 1 − 𝜉𝑛𝑖 if 𝑡𝑛= 𝑖, (4.50)

𝑡𝑛{(w𝑖)T𝜑(𝑥𝑛) + 𝑏𝑖} ≥ −1 + 𝜉𝑛𝑖 if 𝑡𝑛̸= 𝑖, (4.51)

𝜉𝑛𝑖 ≥ 0, 𝑛 = 1, . . . , 𝑁. (4.52)

Já no caso do método OAO, 𝐼(𝐼 − 1)/2 modelos são gerados utilizando dados de treinamento que correspondem a duas classes diferentes. Logo, para treinar cada modelo de ambas 𝑖-ésima e 𝑗-ésima classes, recorre-se ao seguinte problema de classificação binária:

1 2 ⃒ ⃒ ⃒ ⃒ ⃒ ⃒w 𝑖𝑗⃒⃒ ⃒ ⃒ ⃒ ⃒ 2 + 𝐶 𝑁 ∑︁ 𝑛=1 𝜉𝑛𝑖𝑗 (4.53)

no qual 𝐶 corresponde ao parâmetro de penalização. Este problema deve ser minimizado considerando as seguintes restrições:

Capítulo 4. Algoritmos e Técnicas de Classificação 41

𝑡𝑛{(w𝑖𝑗)T𝜑(𝑥𝑛) + 𝑏𝑖𝑗} ≥ −1 + 𝜉𝑛𝑖𝑗 if 𝑡𝑛 ̸= 𝑖, (4.55)

𝜉𝑛𝑖𝑗 ≥ 0, 𝑛 = 1, . . . , 𝑁. (4.56)

Para executar a classificação usando todos os 𝐼(𝐼 − 1)/2 classificadores, as decisões podem ser tomadas usando a seguinte estratégia: se sinal((w𝑖𝑗)T𝜑(x)) + 𝑏𝑖𝑗) indicar que x pertence à classe 𝑖, então um voto é computado para esta classe. Caso contrário, à classe

𝑗 é incrementada de um. Finalmente, a classe à qual pertence a amostra x é a que obtiver

o maior número de votos. Esta abordagem baseada em votação é chamada de estratégia

Max Win (WIDODO; YANG, 2007).

4.3.3

Métodos de Kernels

O conceito de kernel foi introduzido inicialmente por Aizerman et al. (1964) em um contexto de método de funções potenciais, assim chamadas devido à analogia com eletrostática. Após alguns anos, foi reintroduzido em aprendizado de máquinas por Boser

et al. (1992), no contexto de classificadores baseados em margens, dando origem à técnica

de Máquinas de Vetores de Suporte (SVM).

Como apresentado pelo método de SVM, vários modelos de parametrização lineares podem ser redefinidos por uma ‘representação-dual’ equivalente na qual as previsões são baseadas em uma combinação linear de uma função de kernel avaliada pelos pontos do conjunto de treinamento. Conforme demonstrado na Seção 4.3, modelos baseados em um mapeamento 𝜑(x) de um espaço de características fixo e não-linear apresentam uma função de kernel definida pela seguinte relação

𝑘(x, x) = 𝜑(x)T𝜑(x). (4.57)

Através desta definição, é possível verificar que o kernel é uma função simétrica de seus argumentos de forma que 𝑘(x, x) = 𝑘(x, x).

O exemplo mais simples de uma função de kernel é obtido considerando a iden- tidade de mapeamento do espaço de características da forma 𝜑(x) = x, que resulta em

𝑘(x, x) = xTx, conhecido como kernel linear. Existem vários outros formatos de fun-

ções de kernel. Dentre os mais utilizados encontra-se o kernel estacionário, que leva em consideração apenas a diferença entre os argumentos, de forma que 𝑘(x, x) = 𝑘(x − x′). Outra importante especialização são os kernels homogêneos, também conhecidos como funções de bases radiais, que dependem apenas da magnitude da distância (tipicamente Euclidiana) entre os argumentos, de forma que 𝑘(x, x) = 𝑘(||x − x′||).

Capítulo 4. Algoritmos e Técnicas de Classificação 42

4.3.3.1 Funções de Base Radial

Como mencionado anteriormente, as funções de bases radiais têm sido largamente aplicadas como função de kernel. Inicialmente introduzida para a interpolação de funções exatas (POWELL, 1987), esta função tem a propriedade de cada função base depen- der apenas da distância radial (tipicamente Euclidiana) de um centro 𝜇𝑗, de forma que

𝜑𝑗(x) = ℎ(||x − 𝜇𝑗||).

Dado um conjunto de dados de vetores de entrada {x1, . . . , x𝑁} com os respectivos valores alvo {𝑡1, . . . , 𝑡𝑁}, o objetivo é encontrar uma função 𝑓 (x) que ajusta de maneira exata todos os valores alvo, de forma que 𝑓 (x𝑛) = 𝑡𝑛, para 𝑛 = 1, . . . , 𝑁 . Isto pode ser alcançado expressando 𝑓 (x) como uma combinação linear de funções de base radial, em que cada uma é centrada em cada ponto do conjunto de dados, resultando na expressão

𝑓 (x) =

𝑁 ∑︁ 𝑛=1

𝑤𝑛ℎ(||x − x𝑛||). (4.58)

Os coeficientes 𝑤𝑛 podem ser obtidos através do método dos mínimos quadrados, e por existir o mesmo número de coeficientes e restrições, o resultado é uma função que ajusta todos os valores alvos de forma exata. Porém, em aplicações que envolvem o reconhecimento de padrões, os valores alvos são geralmente ruidosos e a interpolação exata torna-se indesejável uma vez que leva a uma solução overfitted.

Outra motivação para as funções de base radial vem da consideração do problema de interpolação quando as variáveis de entrada (em vez dos alvos) são ruidosos (BISHOP, 1995). Se o ruído das variáveis de entrada x é descrito por uma variável 𝜉 que tem uma distribuição 𝜈(𝜉), então a função de erro da soma-de-quadrados pode ser descrita como

𝐸 = 1 2 𝑁 ∑︁ 𝑛=1 ∫︁ {𝑦(x𝑛+ 𝜉) − 𝑡𝑛}2𝜈(𝜉)𝑑𝜉. (4.59)

Usando o calculo de variações, pode-se otimizar com relação à função 𝑦(x) para obter

𝑦(x) =

𝑁 ∑︁ 𝑛=1

𝑡𝑛ℎ(x − x𝑛) (4.60)

na qual as funções base são dadas por

ℎ(x − x𝑛) =

𝜈(x − x𝑛) ∑︀𝑁

𝑛=1𝜈(x − x𝑛)

. (4.61)

É possível notar que existe uma função base para cada ponto do conjunto de dados. Este modelo é conhecido como o modelo de Nadaraya-Watson. Quando a distribuição do ruído 𝜈(𝜉) é isotrópica, a função depende apenas de ||𝜉|| e sua base é radial.

Capítulo 4. Algoritmos e Técnicas de Classificação 43

4.4

CONSIDERAÇÕES FINAIS SOBRE O CAPÍTULO

Neste capítulo, discutiram-se detalhes sobre duas diferentes técnicas de classifi- cação: o GMM e o SVM. Foram detalhadas as deduções matemáticas e procedimentos necessários para estimar os modelos usados para representar o sistema de classificação, assim como o procedimento de diagnóstico baseado nestes modelos.

44

5 MODELAGEM EXPERIMENTAL

5.1

CONSIDERAÇÕES INICIAIS

Neste capítulo, apresenta-se a fundamentação teórica relativa à Metodologia de Projeto de Experimentos, com foco na Metodologia de Superfície de Resposta.

A finalidade deste capítulo é fornecer uma visão geral sobre esta técnica que possi- bilita a criação e análise de projetos de experimentos capazes de dar consistência estatística aos resultados experimentais.