Predição Estruturada no Aprendizado Supervisionado

Dentro do contexto de aprendizado supervisionado, a predição estruturada tam- bém necessita de um conjunto de treinamento, um conjunto de testes e busca o ajuste de pesos do vetor 𝑤.

Dado um conjunto de treinamento 𝑆 = {(𝑥𝑖, 𝑦𝑖), 𝑖 = 1, . . . , 𝑚} formado por uma coleção de pares, sendo cada par formado por uma amostra representada por um objeto estruturado 𝑥𝑖 e uma solução estruturada desejada 𝑦𝑖 deseja-se obter um vetor de parâmetros 𝑤 tal que a hipótese ℎ𝑤(𝑥𝑖) da equação 2.2 seja justamente o 𝑦𝑖, par de 𝑥𝑖:

𝑎𝑟𝑔𝑀 𝑎𝑥𝑦∈𝑌𝑖{𝑤𝑇.𝑓 (𝑥𝑖, 𝑦)} = 𝑦𝑖, 𝑖 = 1, . . . , 𝑚, (3.2) sendo 𝑌𝑖o espaço de saída de todas as soluções possíveis dependente do objeto estruturado

Capítulo 3. Predição Estruturada e Funções de Restrição 33

1, . . . , 𝑚}. Note que 𝑌𝑖 ⊇ 𝑌𝑆. Ou seja, o aprendizado do vetor de parâmetros 𝑤 permite que a melhor solução encontrada para cada par da coleção reflita a solução proposta no conjunto de treinamento.

Embora a cardinalidade de 𝑌𝑖 possa ser muito elevada, é possível, através da uti- lização do conceito de margem para problemas estruturados, resolver de forma eficiente a determinação do falso-exemplo 𝑦. Seja a margem 𝛾𝑦𝑖,𝑦 de uma amostra (𝑥𝑖, 𝑦𝑖) sobre algum 𝑦 ∈ 𝑌𝑖 interpretada como:

𝛾𝑦𝑖,𝑦 =

𝑤𝑇_{.𝑓 (𝑥}

𝑖, 𝑦𝑖) − 𝑤𝑇.𝑓 (𝑥𝑖, 𝑦) ||𝑤||2

, 𝑦 ∈ 𝑌𝑖, (3.3) onde, se 𝑦 = 𝑦𝑖, tem-se margem 0. Note também que deve-se ter 𝑤 ̸= 0, evitando desse modo que ||𝑤||2 seja igual a zero. É importante observar que 𝑤/||𝑤||2 é um vetor unitário.

A Figura 5 ilustra o caso mais simples para o cálculo do 𝛾𝑦𝑖,𝑦, em um espaço euclidiano de duas dimensões.

Figura 5 – Interpretação geométrica de 𝛾𝑦𝑖,𝑦 para o caso simples, onde 𝑓 (𝑥𝑖, 𝑦) retorna coordenadas no plano cartesiano.

A dificuldade de se utilizar este conceito de margem em técnicas de predição está no fato de ser necessário calcular cada 𝑓 (𝑥𝑖, 𝑦) e então compará-lo com todos os 𝑓 (𝑥𝑖, 𝑦𝑖) para cada instância 𝑖. O número de comparações a serem efetuadas caem no caso exponencial. Contudo, não há necessidade de se calcular a margem de cada elemento 𝑦𝑖 do conjunto de treinamento em relação a todos os outros elementos 𝑦 ∈ 𝑌𝑖 possíveis. Basta saber qual a menor margem 𝛾𝑖 para (𝑥𝑖, 𝑦𝑖), dado determinado 𝑤𝑇, se comparada juntamente com todos os outros elementos 𝑦 ∈ 𝑌𝑖 e 𝑦 ̸= 𝑦𝑖, em outras palavras, o quanto a classe verdadeira

vence sobre as erradas. Formalmente, segundo (TASKAR, 2004):

𝛾𝑖 =

𝑀 𝑖𝑛𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑥𝑖, 𝑦𝑖) − 𝑤𝑇.𝑓 (𝑥𝑖, 𝑦)} ||𝑤||2

, ∀𝑦 ∈ 𝑌𝑖. (3.4) Esta definição é inspirada no conceito de margem geométrica de (VAPNIK,1998) e semelhante a definição de (LEITE; NETO,2007) visto na seção1.2e principalmente nas

Capítulo 3. Predição Estruturada e Funções de Restrição 34

definições de margem para os problemas multi-classe vistos em (CRAMMER; SINGER, 2001) e (WESTON; WATKINS,1998). A Figura6ilustra um caso simples para o cálculo do 𝛾𝑖, em um espaço euclidiano de duas dimensões. Note que 𝑤

𝑇

||𝑤||2 é um versor de tamanho

1, desse modo, o que determina o tamanho de 𝛾𝑖. 𝑤 𝑇

||𝑤||2 é o próprio 𝛾𝑖, ou seja,

𝑤𝑇

||𝑤||2 determina

somente a direção do vetor.

Figura 6 – Interpretação geométrica de 𝛾𝑖 para o caso simples, onde 𝑓 (𝑥𝑖, 𝑦) retorna co- ordenadas no plano cartesiano.

Observe novamente a equação 3.2, onde o argumento desejado que maximiza a função é o próprio 𝑦𝑖. Tem-se então que neste aprendizado supervisionado, 𝑤𝑇 refletirá a solução 𝑦𝑖, proposta no conjunto de treinamento 𝑆, se resultar em uma margem 𝛾𝑖 ≥ 0. Com base nesta afirmação, é possível empregar uma outra definição para margem, o qual pode ser vista em (TSOCHANTARIDIS et al.,2005):

𝛾𝑖 =

𝑤𝑇_{.𝑓 (𝑥}

𝑖, 𝑦𝑖) − 𝑀 𝑎𝑥𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑥𝑖, 𝑦)} ||𝑤||2

, ∀𝑦 ∈ 𝑌𝑖. (3.5)

Note que com a restrição de 𝛾𝑖 ≥ 0, ou seja, 𝑤𝑇.𝑓 (𝑥𝑖, 𝑦𝑖) ≥ 𝑤𝑇.𝑓 (𝑥𝑖, 𝑦), ∀𝑦 ∈

𝑌𝑖, a equação 3.5 é equivalente a 3.4. Logo, ao minimizar a diferença em 3.4, se está implicitamente calculando o 𝑦 que resulta no máximo em3.5e o subtraindo de 𝑤𝑇.𝑓 (𝑥𝑖, 𝑦𝑖). Para simplificar a notação, visto que 𝑥𝑖 é o mesmo em ambas as parcelas, tem-se que 𝑓 (𝑥𝑖, 𝑦𝑖) = 𝑓 (𝑦𝑖) e 𝑓 (𝑥𝑖, 𝑦) = 𝑓 (𝑦), de modo que a equação 3.5 toma a forma:

𝛾𝑖 =

𝑤𝑇.𝑓 (𝑦𝑖) − 𝑀 𝑎𝑥𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)} ||𝑤||2

, ∀𝑦 ∈ 𝑌𝑖. (3.6)

Dado esta definição para 𝛾𝑖 e considerando que se deseja obter uma margem de separação 𝛾𝑖 ≥ 0, o objetivo deste aprendizado supervisionado é achar uma função

Capítulo 3. Predição Estruturada e Funções de Restrição 35

𝑔(𝑥𝑖, 𝑦𝑖) = ⟨𝑤, 𝑓 (𝑥𝑖, 𝑦𝑖)⟩, através do aprendizado do vetor de parâmetros 𝑤𝑇, cujo valor para 𝑦𝑖 resulte numa solução em 𝑔 maior ou igual a todos os outros possíveis 𝑦 ∈ 𝑌𝑖 em 𝑔.

𝑤𝑇.𝑓 (𝑦𝑖) ≥ 𝑀 𝑎𝑥𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)}. (3.7) Alternativamente, se não for restringido o valor de 𝑦 ̸= 𝑦𝑖, tem-se que o cálculo do máximo deve corresponder exatamente ao valor da outra parcela, pois o máximo em

𝑦 ∈ 𝑌𝑖 deve corresponder ao próprio 𝑦𝑖, conforme definido em 3.2:

𝑤𝑇.𝑓 (𝑦𝑖) = 𝑀 𝑎𝑥𝑦∈𝑌𝑖{𝑤𝑇.𝑓 (𝑦)}, (3.8) onde a margem 𝛾𝑖 em 3.6 valerá sempre 0.

Foi tratado até aqui o caso onde o objetivo, visto em3.2, é que o argumento máximo reflita o 𝑦𝑖 do conjunto 𝑆. Porém, caso fosse desejado que 𝑦𝑖 retratasse o argumento mínimo, a estrutura seria análoga:

𝑎𝑟𝑔𝑀 𝑖𝑛𝑦∈𝑌𝑖{𝑤𝑇.𝑓 (𝑦)} = 𝑦𝑖 (3.9) 𝛾𝑖 = 𝑀 𝑖𝑛𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)} − 𝑤𝑇.𝑓 (𝑦𝑖) ||𝑤||2 , ∀𝑦 ∈ 𝑌𝑖, (3.10) 𝑤𝑇.𝑓 (𝑦𝑖) ≤ 𝑀 𝑖𝑛𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)}, (3.11) onde ocorre somente a inversão das parcelas, de modo a permanecer uma margem 𝛾𝑖 ≥ 0. Tem-se agora tanto a opção de se minimizar possíveis custos em um objeto estruturado quanto a de maximizar suas recompensas, dependendo somente do contexto no qual o problema geral estará inserido.

Observe que o problema de 𝑀 𝑎𝑥𝑦∈𝑌𝑖{𝑤𝑇.𝑓 (𝑦)} ou então de 𝑀 𝑖𝑛𝑦∈𝑌𝑖{𝑤𝑇.𝑓 (𝑦)} é um problema de otimização convexa em 𝑤, se 𝑓 for uma função convexa (SCHRIJVER, 2003), o que torna sua complexidade polinomial. Como será visto no decorrer deste tra- balho, através de exemplos, em vários casos é de fácil solução, tal como um problema de caminho mínimo sobre um grafo de estados.

Ao se considerar a margem de todos os 𝛾𝑖 e supondo que todas elas sejam maiores que zero, a margem de separação final 𝛾𝑧 obtida será dada por:

𝛾𝑧 = 𝑀 𝑖𝑛{𝛾𝑖}, ∀𝑖. (3.12) Considere ∀𝑖 = 1, . . . , 𝑚.

É possível também, como sugere (TASKAR, 2004) ao afirmar que aumenta a eficiência do algoritmo de predição, definir uma função de perda 𝑙𝑖(𝑦) = 𝑙𝑖(𝑦𝑖, 𝑦) que escalona a margem geométrica de 𝛾 em função de um falso-exemplo 𝑦 e de sua relação à amostra 𝑦𝑖: 𝛾𝑖 = 𝑤𝑇_{.𝑓 (𝑦} 𝑖) − (𝑀 𝑎𝑥𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)} + 𝑙𝑖(𝑦)) ||𝑤||2 , ∀𝑦 ∈ 𝑌𝑖, (3.13)

Capítulo 3. Predição Estruturada e Funções de Restrição 36

Então, para 𝛾𝑖 ≥ 0, tem-se:

𝑤𝑇.𝑓 (𝑦𝑖) ≥ 𝑀 𝑎𝑥𝑦∈𝑌𝑖,𝑦̸=𝑦𝑖{𝑤𝑇.𝑓 (𝑦)} + 𝑙𝑖(𝑦), ∀𝑦 ∈ 𝑌𝑖. (3.14)

Note que a recompensa de 𝑤𝑇_{.𝑓 (𝑦}

𝑖) deve ser maior que o valor da alternativa

𝑤𝑇.𝑓 (𝑦) escalonado pela função de perda 𝑙𝑖(𝑦), ou seja, se o valor advindo da função de perda é pequeno, então requer-se que a função em 𝑦𝑖 tenha um valor levemente maior que os outros 𝑦 ∈ 𝑌𝑖. Alternativamente, se o valor retornado por 𝑙𝑖(𝑦) é grande, então é requerido que a recompensa em 𝑦𝑖 deveria ser substancialmente mais alta que em 𝑦.

Para um problema de minimização de custos:

𝑤𝑇.𝑓 (𝑦𝑖) ≤ 𝑤𝑇.𝑓 (𝑦) − 𝑙𝑖(𝑦), ∀𝑦 ∈ 𝑦𝑖, (3.15)

Pode-se também relaxar a margem inserindo variáveis de folga 𝜉, como em outros problemas de aprendizado, como por exemplo em (CRAMMER; SINGER,2001) e (WES- TON; WATKINS, 1998), a fim de permitir erros no conjunto de treinamento, tanto na formulação com a função de perda 3.13, quanto nas formulações sem a mesma. Embora seja necessário um cuidado maior ao se utilizá-la juntamente com a função de perda, para que uma não acabe tirando o propósito da outra. Neste caso seria interessante estudar o problema em específico e analisar também a possibilidade de um 𝜉(𝑦𝑖, 𝑦). Deste modo, o relaxamento da margem poderia estar associada a alguma característica importante da estrutura, enquanto 𝑙𝑖(𝑦) atuaria como perda associada a alguma outra caraterística específica.

𝑤𝑇.𝑓 (𝑦𝑖) ≥ 𝑤𝑇.𝑓 (𝑦) + 𝑙𝑖(𝑦) − 𝜉, ∀𝑦 ∈ 𝑦𝑖. (3.16)

Alternativamente para minimização:

𝑤𝑇.𝑓 (𝑦𝑖) ≤ 𝑤𝑇.𝑓 (𝑦) − 𝑙𝑖(𝑦) + 𝜉, ∀𝑦 ∈ 𝑦𝑖. (3.17)

No documento Uma abordagem de predição estruturada baseada no modelo perceptron (páginas 35-39)