Modelagem preditiva para avaliação de desempenho de pessoas utilizando o método Support Vector Machine

(1)

UNIVERSIDADE FEDERAL FLUMINENSE – UFF

ESCOLA DE ENGENHARIA

DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO

MODELAGEM PREDITIVA PARA AVALIAÇÃO DE DESEMPENHO DE PESSOAS UTILIZANDO O MÉTODO SUPPORT VECTOR MACHINE

AUTORA: THAYNÁ ABREU RIBEIRO ORIENTADOR: PROF. VALDECY PEREIRA

NITERÓI

Julho / 2020 TERÓI Dezembro / 2019

(2)

THAYNÁ ABREU RIBEIRO

Modelagem preditiva para avaliação de desempenho de pessoas utilizando o método Support Vector Machine

Projeto final apresentado à Universidade Federal Fluminense como requisito parcial para obtenção do título de Engenheiro de Produção.

ORIENTADOR: VALDECY PEREIRA, D.SC.

Niterói, RJ 2020

(3)

(4)

THAYNÁ ABREU RIBEIRO

Modelagem preditiva para avaliação de desempenho de pessoas utilizando o método Support Vector Machine

Projeto final apresentado à Universidade Federal Fluminense como requisito parcial à obtenção do título de Engenheiro de Produção.

Aprovado em 08 de julho de 2020

BANCA EXAMINADORA

_______________________________________________________ Prof. Valdecy Pereira D.Sc. – Orientador

Universidade Federal Fluminense

_______________________________________________________ Prof. Emmanuel Paiva de Andrade, D.Sc.

Universidade Federal Fluminense

_______________________________________________________ Prof. Marcos Costa Roboredo, D.Sc

(5)

AGRADECIMENTOS

Gostaria de agradecer imensamente e dedicar este trabalho aos meus pais, Gilson da Silva Ribeiro e Luci Abreu Ribeiro. Agradeço à minha mãe por sempre me incentivar aos estudos e me fazer entender desde a infância que só a educação é emancipatória. Ao meu pai, agradeço por sempre colocar meus estudos em primeiro lugar, antes mesmo de si. Este trabalho e o diploma universitário adquirido por meio dele, serão os primeiros de nossa família. Por sempre estarem ao meu lado nesta conquista, muitas vezes até sem entender, a eles serei eternamente grata.

Agradeço à todos os professores que tive na Universidade Federal Fluminense, e também a todos durante a minha educação. Foi o trabalho destes profissionais que viabilizou a formação de uma Engenheira de Produção. Sem eles não haveriam engenheiros, médicos, advogados ou qualquer profissão, e tão pouco haveria sociedade.

Em especial gostaria de agradecer ao meu orientador Valdecy Pereira, nesta jornada, de não só elaborar um Trabalho de Conclusão de Curso, mas se dispor a ensinar tanto à uma aluna sem conhecimento prévio no tema. Sem ele este trabalho não seria possível.

Por fim, gostaria de agradecer a mim por ter persistido durante todos esse anos de estudo. Quando muitas vezes o cenário pareceu impossível, respirei fundo e mirei neste momento final. Hoje sei que essa longa jornada de muito aprendizado é na verdade apenas o começo.

(6)

RESUMO

A avaliação de desempenho de pessoas é um processo essencial nas organizações, necessário para o desenvolvimento de carreira e gestão nas organizações. Aliado a isto o momento atual é de largo desenvolvimento tecnológico, com o uso da Inteligência Artifical sendo cada vez mais usado na gestão de negócios. Por isto este trabalho se propoe a desenvolver uma ferramenta para agir sobre estes dois pontos, com o objetivo de contruir um modelo preditivo para determinar se uma pessoa será promovida ou não, dada uma base de dados com informações sobre o histórico de realizações e perfil do funcionário.

O modelo foi desenvolvido utilizando a técnica de aprendizado de máquina supervisionado denominada Support Vector Machine. A construção do modelo passou por uma etapa inicial utilizando um SVM de Margens Rígidas para avaliar a viabilidade do uso do método. A etapa seguinte, para a constução do modelo final constituiu a elaboração de um SVM de Margens Suaves, com validação do modelo utilizando diferentes amostras de dados para obter o modelo com a predição final.

Após os resultados finais, ambos os modelos foram comparados para avaliação dos impactos da mudança na técnica utilizada, onde pode-se concluir que de fato o modelo perde um pouco precisão quando realiza uma flexibilização das margens, o que é esperado visto que há uma penalização às classificações erradas. Além disso foi realizada uma análise de sensibilidade nos parâmetros do modelo de Margens Suaves, avaliando os efeitos na acurácia geral e nas medidas de desempenho.

Palavras-Chaves: Avaliação de Pessoas, Gestão de Pessoas, Support Vector Machine,

(7)

ABSTRACT

The people assessment is an essential process in organizations, necessary for the career development and management of organizations. Allied to this, in this moment is happening a large technological development, with the use of Artificial Intelligence being increasing in business management. Therefore, this work proposed work in these two points, to create a predictive model to determine whether a person will be promoted or not, given a database with information on the history of achievements and the profile of the employee.

The model was developed using the technique Support Vector Machine, Supervised Machine Learning method. The model development has a first stage using a Support Vector Machine with Hard Margin to assess the method feasibility. The next stage constitutes in developer a Support Vector Machine with Soft Margins, with model validation using different samples to get the final prediction model.

After the final results, both models were compared for performance evaluation between the two in the techniques used, where can be concluded that in fact the model loses a little precision when it makes the margins more flexible, which is expected since there is a penalty for wrong classifications. In addition, a sensitivity analysis was performed on the parameters of the Smooth Margins model, evaluating the effects on general accuracy and performance measures.

Keywords: People Assessment, People Management, Support Vector Machine,

(8)

SUMÁRIO

1 INTRODUÇÃO ... 10

1.1 PROBLEMA E HIPÓTESE DO ESTUDO ... 11

1.2 OBJETIVOS DO ESTUDO ... 12

1.3 DELIMITAÇÕES DO ESTUDO ... 12

1.4 ESTRUTURA DO TRABALHO ... 13

2 REFERENCIAL TEÓRICO ... 14

2.1 APRENDIZADO DE MÁQUINA ... 14

2.2 ALGORITMOS DE APRENDIZADO SUPERVISIONADO ... 18

2.3 SUPPORT VECTOR MACHINE (SVM) ... 21

2.3.1 SVM COM MARGEM RÍGIDA ... 22

2.3.2 SVM COM MARGEM SUAVE ... 26

2.3.3 SVM NÃO LINEAR – FUNÇÕES DE KERNEL ... 29

2.4 AVALIAÇÃO DE DESEMPENHO DO MODELO ... 34

2.4.1 MATRIZ DE CONFUSÃO ... 34

2.4.2 PRECISÃO, RECALL E F1-SCORE ... 35

2.4.3 CURVA ROC ... 36

3 METODOLOGIA ... 39

3.1 BASE DE DADOS E PROGRAMA ... 39

3.2 TRATAMENTO DA BASE DE DADOS ... 41

3.2.1 TRATAMENTO DAS VARIÁVEIS ... 41

3.2.2 BALANCEAMENTO DE DADOS ... 42

3.3 AVALIAÇÃO DE DESEMPENHO ... 43

3.4 APLICAÇÃO DO SUPPORT VECTOR MACHINE ... 43

3.5 ESTRUTURA DO MODELO DE PREDIÇÃO ... 44

4 ANÁLISE DE RESULTADOS ... 46

4.1 RESULTADOS SVM DE MARGENS RÍGIDAS SEM VALIDAÇÃO ... 46

4.2 RESULTADOS SVM DE MARGENS SUAVES COM VALIDAÇÃO ... 47

5 CONCLUSÃO ... 50

6 REFERÊNCIAS BIBLIOGRÁFICAS ... 52

(9)

LISTA DE TABELAS

Tabela 1 - Conjunto de dados de exemplo na forma atributos-classe. ... 19

Tabela 2 - Representação de uma matriz de confusão 2 × 2. ... 35

Tabela 3 – Descrição dos atributos que compõem o dataset. ... 40

Tabela 4 – Report do resultado da classificação do primeiro modelo. Fonte: Elaboração

própria ... 47

Tabela 5 – Matriz de Confusão do primeiro modelo. Fonte: Elaboração própria ... 47

Tabela 6 - Tabela comparativa com acurácia média de 100 modelos variando o tamanho da

amostra e o valor do parâmetro C. Fonte: Elaboração própria ... 48

Tabela 7 - Comparativa do Report dos resultado da classificação gerada após os 100 modelos

em cada combinação do Parametro C e tamanho da amostra... 49

Tabela 8 - Compatativo das Matrizes de Confusão gerada no após os 100 modelos em cada

(10)

LISTA DE FIGURAS

Figura 1 - Fluxograma da hierarquia do Aprendizado de Máquina. ... 16

Figura 2 - Gráfico da definição de um hiperplano para classificação de um conjunto de dados

com duas classes com margens rígidas. Os vetores B e F são os suportes para delimitar as

margens. Fonte: Elaboração própria ... 23

Figura 3 - Gráfico de definição de um hiperplano para a classificação de um conjunto de

dados com duas classes com margens suave. Fonte: Elaboração Própria ... 29

Figura 4 - Gráficos da transformação polinomial de 𝑅2 → 𝑅3 de um conjunto de exemplos.

Fonte: Elaboração própria ... 30

Figura 5 – Gráficos do hiperplano separador do conjunto de dados em 𝑅3 (Visão em 𝑅2 ) e

visão do hiperplano separador linearizardo em 𝑅2, respectivamente. Fonte: Elaboração

própria ... 31

Figura 6- Gráfico de exemplo de uma Curva ROC. Fonte: Elaboração própria ... 37

Figura 7 - Gráfico da curva ROC do modelo com Margens Rígidas sem validação. Fonte:

(11)

1 INTRODUÇÃO

O processo de avaliação de desempenho de pessoas nas organizações consiste em uma das principais funções de gestão de pessoas, assim como preocupar-se em melhorar o seu desenvolvimento continuamente e recompensá-las (CHIAVENATO, 2008). A avaliação de pessoas consiste na utilização de métodos quantitativos e qualitativos pelas organizações para avaliar o desempenho dos colaboradores, a fim de que os resultados individuais se convertam em desempenho para a organização garantindo que o planejado será atingido.

Chiavenato (2008), ressalta também que segundo a gestão moderna de pessoas é necessário que haja uma integração entre a função de gestor e gestor de pessoas, de forma que as avaliações de desempenho e feedbacks são realizadas não mais por uma área externa e sim pelo gestor direto do colaborador, incluindo o próprio e os seus pares. A literatura dispõe de um acervo generoso de ferramentas que propiciem aos avaliadores formas objetivas e estruturadas de realizar tais funções.

Ainda assim, a constante evolução das formas de trabalho, principalmente a partir do século XVIII com o surgimento das fábricas, as significativas mudanças geradas pela globalização na década de 1990 e o constante ritmo de inovação nos negócios numa era de tranformação digital das empresas traz questionamentos sobre os novos desafios da gestão de pessoas nos dias atuais (TACHIZAWA, PARADELA E FORTUNA, 2006). Um destes desafios é a necessidade por instrumentos que propiciem aos gestores uma forma estruturada e objetiva de realizar a avaliação dos colaboradores.

Para Dejours (2012), o trabalho decorre da subjetividade humana e por isso não pertence ao mundo visível. Somente o que é visível pode ser avaliado, exposto a verificação de resultados e à uma apreciação objetiva. Sobre este racíocinio, Dejour conclui em seu texto que não sabemos e não podemos avaliar quantitativamente e objetivamente todo o trabalho, e na verdade a avaliação de pessoas será na verdade uma avaliação de resultados do trabalho. Esta conclusão é de extrema importância para o desenvolvimento deste trabalho. A ferramenta aqui proposta é quantitativa e objetiva, mas não intui de maneira alguma em eliminar a subjetividade da avaliação de pessoas, pois este é um processo marcado pela subjetividade humana dada a dimensão intersubjetiva que decorre das suas partes, gestor e colaborador. Sobre esta ótica, a motivação aqui é construir um modelo que sirva de instrumento no processo avaliatório que seja capaz de utilizar a inteligência artificial para fornecer informações para a tomada de decisão de

(12)

gestores, contribuindo e potencializando o processo de avaliação de pessoas pautado em resultados.

A motivação deste trabalho se faz oportuna com o momento de transformações digitais aceleradas e a necessidade de processamento de dados cada vez maiores estruturados ou não, o Big Data, vivido pelas organizações. O uso de Big Data e o seu processamento realizado por meio de inteligência artificial no gerenciamento de pessoas tem sido denominado People Analytics. O People Analytics pode ser definido em três dimensões (FRANCISCO, SILVA & MARTINEZ,2013):

i. O descritivo que consiste na identificação e análise de dados para encontrar correlações entre pessoas, fatos e resultados, sendo um modo já largamente usado que ganha eficiência com o uso do data mining.

ii. O preditivo que modela históricos de dados e estatísticas para realizar previsões acerca dos colaboradores e impacto nas organizações por meio de análise de probabilidades. O uso do data mining na construção de modelagens preditivas pode ser usado desde a seleção de candidatos adequados aos perfis das vagas até a seleção para promoção de colaboradores.

iii. O prescritivo para quando as análises dos dados e os modelos são capazes de superar as previsões e realizar opções de sugestões aos tomadores de decisão baseados nas estatísticas a fim de otimizar a escolha e os resultados das organizações.

Assim este trabalho se pauta sobre a perspectiva preditiva do People Analytics para otimizar a tomada de decisão em processos de avaliação de pessoas por meio da construção de um modelo preditivo utilizando o Support Vector Machine e avaliando as diferenças de desempenho do modelo com suas variantes.

1.1 PROBLEMA E HIPÓTESE DO ESTUDO

Ao considerar os métodos de avaliação de pessoas em sua maioria qualitativos, faz sentido pensar em uma medição quantitativa para avaliar a efetividade dos critérios de avaliação de uma empresa utilizados para promoção de pessoas e a capacidade das empresas de avaliar com certo grau de precisão o desempenho de pessoas. Desta forma cabe a indagação:

(13)

Pode-se determinar por meio de métodos de inteligência artificial construir um modelo de predição para a promoção de funcionários e assim contribuir para o processo de avaliação de pessoas ?

E são propostos como questionamentos secundários para este estudo as seguintes indagações: dado o método Support Vector Machine utilizado neste trabalho, qual a precisão deste modelo? O modelo é preciso o suficiente ? O que ocorre com a precisão do modelo quando utilizadas variações do método ?

1.2 OBJETIVOS DO ESTUDO

O objetivo geral deste estudo é construir um modelo preditivo capaz de determinar, dado um conjunto de critérios, se um funcionário será promovido. Utilizando o método computacional de aprendizado de máquina Support Vector Machine para construção deste modelo. Um segundo objetivo deste estudo é avaliar comparativamente o desempenho do modelo, quando aplicado outras vertentes do Support Vector Machine.

1.3 DELIMITAÇÕES DO ESTUDO

Primeiramente é importante estabelecer que construir modelos de predição, assim como o próprio nome remete, consta em realizar uma previsão assumindo uma posição baseado em estatísticas. Ou seja, atribuir correlações entre dados e probabilidades de ocorrência de fenômenos. Assim um modelo de predição é sujeito a erros, de modo que este trabalho se propõe a construir um modelo com indicadores da avaliação do método para garantir a confiabilidade da predição, o que não implica em cem por cento de acerto. O intuito deste trabalho é construir um modelo de predição para avaliação de pessoas eficiente utilizando o método de Support Vector Machine de forma a construir um ferramental quantitativo para auxiliar a tomada de decisão de gestores de pessoas.

Sobre esta perspectiva, é importante ressaltar que a construção deste modelo possui um foco quantitativo. O objetivo aqui é ter uma abordagem quantitativa sobre os dados de forma a gerar informações precisas sobre o desempenho de colaboradores para que os gestores e especialistas em desempenho sejam capazes de realizar de maneira mais objetiva e consistente a análise qualitativa inerente a tomada de decisão de avaliação de pessoas.

No que tange a questão técnica do aprendizado de máquina, este trabalho prioriza elucidar o método Support Vector Machine e suas variantes aqui utilizado. Desta maneira

(14)

o estudo se limita a abordar de maneira introdutória outros conceitos importantes como o Aprendizado de Máquina Supervisionado e Não Supervisionado, Overfitting e

Underfitting e indicadores de avaliação de pessoas.

1.4 ESTRUTURA DO TRABALHO

O presente trabalho de Projeto Final é composto por 5 capítulos.

O Capítulo 1 abrange as motivações do estudo, assim como o seu objetivo, a definição da questão problema bem como a delimitação da pesquisa.

O Capítulo 2 compreende o referencial teórico do estudo abrangendo a explicação do método computacional Support Vector Machine, incluindo os desdobramentos do método com sua variantes e medidas de avaliação do modelo, assim como a explicação de conceitos mais amplos da Ciência de Dados nos quais o modelo está compreendido.

No Capítulo 3 é apresentada a metodologia sob a qual este trabalho foi elaborado, que aborda a identificação dos dados e o tratamento, incluindo o processo de construção do modelo de predição e sua avaliação.

No Capítulo 4 são descritos os resultados deste trabalho, abordando os resultados das medidas de predição das variantes do método Support Vector Machine para encontrar o modelo mais preciso.

Por fim o Capítulo 5, apresenta a conclusão deste trabalho e são apresentadas as recomendações para estudos futuros.

(15)

2 REFERENCIAL TEÓRICO

Neste presente tópico são discutidos os principais referenciais teóricos que embasam esse estudo, abrangendo os conceitos de Algoritmos de Aprendizado Supervisionado e Algoritmos de Classificação de dados, onde há o aprofundamento do

Support Vector Machine (SVM) e seu funcionamento, assim como das medidas de

avaliação do desempenho do modelo.

Na seção 2.1 é apresentada uma introdução sobre o Aprendizado de Máquina.

Na Seção 2.2 é apresentado o conceito dos Algoritmos de Aprendizado Supervisionado utilizados para Classificação.

Na Seção 2.3 é apresentado o método de Support Vector Machine (SVM).

Na Seção 2.4 são apresentadas as medidas de avaliação de desempenho do modelo. As medidas utilizadas neste trabalho foram: Matriz de Confusão, Acurácia, Precisão, Recall, F1-Score e Curva ROC.

2.1 APRENDIZADO DE MÁQUINA

A área de conhecimento da Inteligência Artifical que compreende as técnicas computacionais para construção de sistemas capazes de adquirir conhecimento de forma automática e produzir inferências sobre um fenômeno, denomina-se Aprendizado de Máquina (MONARD & BARANAUSKAS, 2003). Ao serem expostos à um conjunto de dados que representam as variáveis e a solução de um determinado problema, os Sistemas de Aprendizado de Máquina são capazes de tomar decisões baseados nas inferências indutivas que fazem sobre o conjunto de dados.

Torna-se importante aqui definir o conceito de indução ao tratar sobre os Sistemas de Aprendizado de Máquina. A indução é uma forma de raciocínio de generalização partindo de uma ou mais hipóteses iniciais derivadas do conjunto de dados que o algoritmo foi exposto. Ou seja, consiste num método de obtenção de conclusões genéricas sobre um determinado conjunto de dados utilizado como exemplo. A inferência indutiva é um dos principais métodos para construção de conhecimento e assim ser capaz de realizar predições sobre o fenômeno estudado. Nos Sistemas de Aprendizado de Máquina o processo de inferência indutiva é composto por duas etapas. A primeira é o processo de indução propriamente dito onde o algoritmo estabelece as relações funcionais entre as variáveis independentes, denominadas atributos, e as variáveis dependentes, as

(16)

classes. A segunda etapa é da dedução que utiliza a relação identificada na etapa de indução para realizar a classificação do conjunto de dados. (SEMOLINI, 2002)

Existem alguns paradigmas utilizados para construção de modelos de Aprendizado de Máquina, como Simbólico, Estátıstico, Baseado em Exemplos, Conexionista, Genético, entre outros. Esta seção irá se ater a explicar brevemente o paradigma estatístico, por ser aquele que engloba o método Support Vector Machine (SVM), baseado na Teoria do Aprendizado Estatístico (VAPNIK,1995), objeto de estudo deste trabalho. A idéia principal dos modelos estatísticos é encontrar boas aproximações que sejam capazes de representar a indução das classes do modelo.

Em geral, tais modelos estatísticos são baseados em parametrizações, ou seja, encontrando parâmetros com valores apropriados para representar o modelo. Por exemplo, no caso de modelos que realizam classificações lineares, entende-se que as classes serão combinações lineares dos valores atribuídos, desta forma a classe a ser identificada representa uma combinação linear que melhor faz a aproximação do conjunto de dados que se deseja realizar a classificação. O método Bayesiano é um bom exemplo de método estatístico, por utilizar um modelo probabilístico tendo conhecimento anterior e combinando a exemplos de treinamento para concluir a probabilidade do conjunto do representar uma hipótese (MITCHELL,1998).

Os Sistemas de Aprendizado que utilizam a inferência indutiva se dividem em duas classes: os Supervisionados e Não Supervisionados. No Aprendizado Não Supervisionado, a máquina é responsável por analisar os dados oferecidos como treino para encontrar padrões e identificar agrupamentos de dados semelhantes, denominados

clusters, de forma a realizar a classificação dos dados. Já nos sistemas de Aprendizado

Supervisionado, o algoritmo indutor recebe um conjunto de dados de treinamento como exemplo para ser capaz de identificar as relações entre as variáveis independentes e os rótulos das classes pertencentes. Desta forma, a máquina é capaz de identificar a classe de novos dados não rotulados. Os conceitos de Aprendizado Supervisionado serão aprofundados na próxima seção.

(17)

Os problemas de classificação são aqueles que o objetivo do modelo é atribuir um rótulo previamente conhecido a um conjunto de dados ainda não visto pelo modelo. O princípio do método é treinar um modelo com exemplos de n atributos e sinalizando os

m estados que aquele conjunto de dados pode assumir. Um exemplo prático seria construir

um modelo que apresenta à máquina n conjuntos de dados de uma lista de ingredientes e determina se a receita é de bolo ou de muffin. Ainda no aprendizado supervisionado, outra categoria de problemas a serem resolvidas com supervisão são os modelos de regressão. A regressão é um método estatístico para determinar a probabilidade de ocorrência de uma variável objetivo dada a correlação entre n variáveis de conjunto. Como a própria definição do termo, as regressões são utilizadas em casos que as variáveis objetivo são contínuas e se está interessado em encontrar uma probabilidade de ocorrência da classe. Por exemplo determinar a chance de chuva num dia dado um conjunto de variáveis como temperatura média do dia, umidade do ar, velocidade do vento, entre outros.

Se no Aprendizado Supervisionado o modelo assimila um conjunto de dados para tomar decisões baseado em informações alvo, no Aprendizado Não Supervisionado isto não ocorre. Mesmo utilizando um mesmo conjunto de dados que um modelo supervisionado, o objetivo das máquinas não supervisionadas é tirar conclusões a respeito do conjunto de dados, podendo caracterizá-los, mas não é o objetivo principal realizar classificações.

Aprendizado de máquina

Supervisionado _{Supervisionado}Não

Classificação Regressão Clusterização Associação Sumarização

Figura 1 - Fluxograma da hierarquia do Aprendizado de Máquina. Fonte: Elaboração Própria

(18)

A clusterização é um do métodos utilizados com este objetivo. Neste método os conjuntos são agrupados por similaridade em clusters. Cabe aqui dizer que similaridade é análogo a distância, isto é, quanto mais próximo no conjunto de espaço estão os vetores de características mais similares eles são (PROVOST&FAWCETT, 2016). Neste mesmo raciocínio um cluster é um agrupamento de vetores de dados semelhantes. Assim o objetivo de métodos de clusterização é garantir clusters cada vez mais homogêneos com dados o mais similares possíveis e clusters o mais heterogêneos possíveis entre si, ou seja o mais distantes possíveis (SANCHES, 2003). Nas empresas de tecnologia moderna como as de serviços de streamings de séries e filmes, utiliza-se a clusterização para fazer o agrupamento em gêneros específicos de produções similares.

Já os métodos de associação são largamente utilizados para realizar recomendações de compras por redes varejistas em seus e-commerces, de modo que se um cliente compra um modelo de celular são oferecidos a ele a sugestão de compra dos acessórios deste mesmo modelo. As regras de associação identificam padrões de relacionamento entre itens de um dado domínio e a frequência de determinados itens numa base de dados transacional. Supondo um modelo que deseja verificar a existência de regras de associação 𝑋 → 𝑌 de um dado domínio, onde X é o antecedente da regra e Y o consequente, que no caso do exemplo de compra seria se o cliente compra X então também compra Y. Para verificar a regra é preciso que o modelo receba como entrada alguns parâmetros (TAN, STEINBACH & KUMAR, 2006):

i. A base de dados transacionais, que é composta de itens em que as transações são subconjuntos do domínio sobre o qual deseja-se verificar a existência de associações;

ii. O suporte, que vem a ser a relação percentual entre o número de transações que ocorrem na base transacional que contém a 𝑋 ∪ 𝑌 e o número total de transações. iii. A confiança que relaciona o número de ocorrências de 𝑋 ∪ 𝑌 nas transações que

contém X.

Ainda sobre a perspectiva de realizar averiguações sobre uma base de dados, os métodos de sumarização são aplicados de forma a identificar e descrever características de interesse em um dado conjunto. Um exemplo seria evidenciar o perfil socioeconômico dos assinantes de uma revista de uma dada região do Brasil (GOLDSCHIMIDT & PASSOS, 2005). A sumarização é frequentemente utilizada em mecanismos de análise

(19)

exploratória, construção de relatórios a respeitos do conjunto de dados e no pré-processamento de dados no cálculo de métricas estatísticas como por exemplo mínimo, máximo, média, moda, mediana e desvio padrão amostral. Para variáveis categóricas o processamento de dados inválidos é feito pela distribuição de freqüência dos conjuntos de exemplos. A sumarização pode ser aplicada de maneira ainda mais robusta com as técnicas de visualização de dados para obter conclusões rápidas e intuitivas sobre os dados, como a utilização de diagramas baseados em proporções, diagramas de dispersão, histogramas e mapa de correlação entre variáveis (SFERRA & CORRÊA).

2.2 ALGORITMOS DE APRENDIZADO SUPERVISIONADO

Como visto no item anterior, no Aprendizado Supervisionado tem-se a atuação de um agente externo que delimita e apresenta o conjunto de dados a serem utilizados como exemplos de aprendizagem para a máquina, na forma: entrada, saída desejada (HAYKIN,1999). O algoritmo então extrai representações que delimitam e classificam o conjunto de dados a partir dos exemplos. O objetivo é que a representação gerada seja capaz de produzir predições corretas para novas entradas não apresentadas previamente.

O processo de indução de um classificador, conduzido em algoritmos de aprendizado supervisionado, a partir de um conjunto de exemplos compostos por vetores de atributos (ou tuplas) que descrevem o exemplo e irão determinar sua classe. Um exemplo é definido na forma (𝑥_𝑖𝑗, 𝑦_𝑖), onde 𝑥_𝑖𝑗 é o i-ésimo exemplo do j-ésimo atributo e 𝑦_𝑖 a componente que atribui o rótulo de classe da i-ésima tupla do exemplo. Comumente o conjunto de exemplos se divide em dois subconjuntos: os exemplos que serão utilizados como conjunto de treinamento, para que o algoritmo indutor seja capaz de aprender como se comportam os dados e o conjunto de teste que são utilizados para fazer as medidas de precisão do modelo.

(20)

𝑋₁ 𝑋₂ ... 𝑋_𝑗 Y 𝑋11 𝑋12 ... 𝑋1𝑗 𝑌1 𝑋₂₁ 𝑋₂₂ ... 𝑋_2𝑗 𝑌₂ . . . . . . ... ... ... . . . . . . 𝑋_𝑖1 𝑋_𝑖2 ... 𝑋_𝑖𝑗 𝑌_𝑖

Tabela 1 - Conjunto de dados de exemplo na forma atributos-classe. Fonte: Monard e Baranauskas (2003, p.44)

As classes são a representação de um fenômeno de um conjunto de dados sobre os quais deseja-se fazer inferências. Para um dataset em que as classes assumem valores discretos a questão da predição define-se como uma classificação, enquanto que um dataset composto por classes que assumem valores contínuos, o modelo se caracteriza como uma regressão. Um modelo com k número de classes, é definido como binário quando 𝑘 = 2, e multiclasse quando 𝑘 > 2. A pesquisa deste trabalho é realizada sobre um modelo de classificação binário, com classes discretas.

Uma vez realizado aprendizado sobre o conjunto de treino obtém-se um classificador – também rotulado como modelo, hipótese ou preditor – capaz de realizar a predição de um novo conjunto de dados não antes visto. Sendo o exemplo um vetor do tipo (𝑥_𝑖𝑗, 𝑦_𝑖), pode ser entendido como uma função 𝑓(𝑥_𝑖) = 𝑦_𝑖. Assim, o objetivo do classificador é produzir um função h(𝑥𝑖) que se se aproxime de f(𝑥𝑖). Para isto, é interessante utilizar medidas para avaliar o desempenho do modelo por meio da dispersão das classes previstas, aprendidas pela interação com o conjunto de treino, e a classe dos exemplos do conjunto de teste. As medidas mais comuns para avaliação da precisão do modelo são a taxa de erro e a sua acuracidade, definidas como:

i. Taxa de erro – err(h) err(h) = 1 𝑛∑ ||𝑓(𝑥𝑖) ≠ ℎ(𝑥𝑖)|| 𝑛 𝑖=1 (1) Onde, ‖𝐸‖ = {1, 𝑠𝑒 𝑎 𝑒𝑥𝑝𝑟𝑒𝑠𝑠ã𝑜 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎. 0, 𝑠𝑒 𝑎 𝑒𝑥𝑝𝑟𝑒𝑠𝑠ã𝑜 é 𝑓𝑎𝑙𝑠𝑎 }

Medida simples, também conhecida como Risco Empírico, utilizada para avaliar a taxa de erro das predições do modelo, ou seja, a dispersão entre as classes previstas e as classes do exemplo do conjunto de teste.

(21)

ii. Acurácia – acc(h)

Também conhecida como precisão, é dada como a proporção de decisões corretas tomadas pelo classificador. É o complementar da taxa de erro, sendo definida por (PROVOST & FAWCETT, 2016):

Acc(h) = 1 – err(h) (2)

Ambas são métricas de avaliação comuns utilizadas em modelos de aprendizados supervisionado, pois reduzem o desempenho do classificador a um número simples e de fácil entendimento. Entretanto são métricas simplistas que não permitem explorar outras dimensões do modelo (PROVOST, FAWCETT, KOHAVI. 1998).

Ao abordar o aprendizado de máquina supervisionado, é importante ressaltar os conceitos de overfitting e underfitting em modelos de generalização a partir da indução de um conjunto de exemplos. O sobreajuste (overfitting) ocorre quando o modelo se ajusta em demasia ao conjunto de exemplos do treinamentos, havendo uma diminuição significativa da taxa de erro do conjunto de treinamento, entretanto a taxa de erro no conjunto de teste aumenta (MONARD & BARANAUSKAS, 2003). Isto ocorre devido ao aumento da complexidade do modelo que se tornar capaz de fazer predições cada vez mais precisas em dados semelhantes ao do conjunto de treinamento, mas a perde em exemplos minimamente distintos. É natural pensar que em um modelo complexo, capaz de propor previsões muito precisas, a existência do efeito de overfitting seja prejudicial dado que o desempenho do modelo sofre degradação permitindo que sejam captadas correlações falsas no conjunto de treinamento a medida que generalizações incorretas são geradas (PROVOST & FAWCETT, 2016). Para evitar o sobreajuste existem diversos mecanismos para diferentes modelos de generalização como a Validação Cruzada. Também Provost & Fawcett, em 2016, definem um modelo generalista para evitar o sobreajuste e controle de complexidade do modelo, o teste de retenção aninhada. Tal método consiste na separação do conjunto de treinamento em dois subconjuntos, denominados sub-treinamento e conjunto de validação. Sob o primeiro são construídos n modelos de predição, com diferentes complexidades e sobre o conjunto de validação são realizadas os testes para avaliação do desempenho de cada um dos n modelos. Assim utiliza-se o próprio conjunto de dados para controle de complexidade do modelo, selecionando o que possuir o melhor desempenho.

(22)

De maneira análoga ao overfitting, no que tange complexidade e precisão do modelo, o underfitting, é o efeito quando ocorre o contrário: o modelo é pobre em conjunto de treinamentos de forma que a complexidade do modelo não é suficiente para realizar predições. Ou seja, existem-se poucos exemplos representativos da realidade e modelo tem um desempenho ineficiente pois não consegue obter generalizações suficientes o que também resulta em correlações falsas. Assim o método de teste de retenção aninhada se concentra em achar a complexidade ideal para que o modelo não tenha efeitos de overffiting ou underfitting.

2.3 SUPPORT VECTOR MACHINE (SVM)

Os algoritmos de aprendizagem de máquina baseado no método estatístico têm o objetivo de determinar limites de decisão que produzam uma separação ótima entre classes por meio da minimização dos erros (VAPNIK, 1995). Dentro desta classe de algoritmos de aprendizado supervisionado, consta o Suppport Vector Machine (SVM), método computacional utilizado para reconhecimento de padrões e classificação de dados. Desenvolvidas por Boser, Guyon e Vapnik em 1992. O SVM é uma ferramenta para predição de classificação e regressão que se propõe a maximizar a acuracidade da predição e ao mesmo tempo evitar o overfitting sobre os conjuntos de teste (JAKKULA,2006). O SVM é um sistema elaborado segundo a Teoria Estatística de Aprendizagem de Vapnik (1995), onde a classificação consiste na delimitação das regiões num espaço 𝑅𝑛_{de cada classe, sendo assim, dado um novo conjunto de exemplos, a} máquina será capaz de classificar a que região o conjunto pertence. Tal delimitação do espaço é dada pela identificação de um hiperplano capaz de separar as classes.

Sabe-se que um espaço em 𝑅𝑛 abriga infinitos hiperplanos, como será possível então determinar aquele que melhor é capaz de realizar a classificação do conjunto de dados? Este é o desafio do SVM. Primeiramente, a definição do hiperplano ótimo é aquele que minimiza as expectativas de erro geradas pela generalização das predições, o que em termos geométricos significa maximizar as margens do hiperplano que irão conter os vetores de suporte, que são aqueles exemplos mais próximos possíveis do hiperplano utilizados como fronteira da classe de dado e que são utilizados para determinar as margens. Portanto o SVM trata-se de um método de otimização matemática (MATTERA et al.,1999).

(23)

SVMs lineares sãoz utilizado em casos de conjunto de dados em que as classes

são linearmente separáveis, enquanto os casos que não são separáveis são utilizadas SVMs Não Lineares. Ambos são métodos com processos de otimização quadráticas, o que os difere é o hiperplano classificador gerado, que será linear ou não.

2.3.1 SVM COM MARGEM RÍGIDA

Partindo do pressuposto de um conjunto de dados em que as classes são linearmente separáveis, defini-se SVMs que irão realizar a classificação dos dados por meio de um hiperplano com margens rígidas. Admite-se um conjunto de treinamento T com n dados 𝑥𝑖 ∈ X e seus respectivos rótulos 𝑦𝑖 ∈ Y, em que X constitui o espaço dos dados e Y = {−1,+1}. T é linearmente separável, ou seja, é possível separar as suas classes -1 e +1 por um hiperplano (SMOLA & SCHÖLKOPF , 2002). Um hiperplano pode ser descrito pela equação (3)

𝑓(𝑥) = 𝑤. 𝑥 + 𝑏 = 0 (3)

Onde 𝑤 ∈ X, é o vetor normal do plano e 𝑤. 𝑥 é produto escalar dos vetores 𝑤 e 𝑥. E ainda 𝑏

‖𝑤‖ é a distância do hiperplano em relação à origem, onde ‖𝑤‖ é a norma euclidiana do vetor normal ao hiperplano, que para duas variáveis é dado por:

‖𝑤‖= √(𝑤₁)2+ (𝑤₂)2 (4) A equação (3) divide o espaço 𝑅𝑛 dos conjuntos de dados X em duas regiões 𝑤. 𝑥 + 𝑏 > 0 e 𝑤. 𝑥 + 𝑏 < 0. A classificação dos conjuntos de dados dessa região podem então ser obtidas por meio da função sinal 𝑔(𝑥) = 𝑠𝑔𝑛 (𝑓(𝑥)), tal que:

(24)

Como já citado neste estudo é possível obter um conjunto infinito de hiperplanos por meio da multiplicação de w e b por uma constante, o plano canônico é então definido por aqueles aquele em os vetores de exemplos mais próximos satisfação a equação

|𝑤. 𝑥𝑖+ 𝑏| = 1 (6)

Assim 𝑦_𝑖 ∈ {−1,1} e o hiperplano canônico definido em (6) satisfaz a seguinte relação:

{ 𝑠𝑒 𝑤. 𝑥𝑖 + 𝑏 ≤ −1, 𝑠𝑒 𝑦𝑖 = −1

𝑠𝑒 𝑤. 𝑥_𝑖 + 𝑏 ≥ +1, 𝑠𝑒 𝑦_𝑖 = +1 (7)

As inequações de (7) podem ser combinadas de forma que o espaço caracterizado pelo hiperplano é definido por

𝑦𝑖(𝑤. 𝑥 + 𝑏) ≥ 1 (8)

w.x + b = 0 w.x + b = 1

w.x + b = -1

Figura 2 - Gráfico da definição de um hiperplano para classificação de um conjunto de dados com duas classes com margens rígidas. Os vetores B e F são os suportes para delimitar as margens.

(25)

Seja então um ponto 𝑥₁ no hiperplano 𝐻₁: 𝑤. 𝑥₁+ 𝑏₁ = +1 e um ponto 𝑥₂ no hiperplano 𝐻₂: 𝑤. 𝑥₂+ 𝑏₂= −1, projetando 𝑥₁− 𝑥₂ na direção w, perpendicular ao hiperplano separador 𝑤. 𝑥 + 𝑏 = 0, é possível obter a distância entre os hiperplanos 𝐻1 e 𝐻₂ (SMOLA & SCHÖLKOPF , 2002), conforme a equação (9).

𝑑 = |𝑏1−𝑏2| √𝑤12+𝑤22

(9)

Como 𝑤. 𝑥1+ 𝑏1 = +1 e 𝑤. 𝑥2+ 𝑏2 = −1, a diferença entre as duas equações resume a distância entre os dois planos há:

𝑑 =

|1−(−1)|

√𝑤12+𝑤22

=

2

‖𝑤‖ (10)

O objetivo desta dedução é chegar ao comprimento do vetor projetado dos dois hiperplanos que contém os vetores de suporte, a distância dos destes dois hiperplanos ao hiperplano separador é dada por 2

‖𝑤‖

. Uma vez que w e b foram definidos de forma que

não houvessem outros vetores de suporte entre exemplos entre 𝐻1 e 𝐻2 e o hiperplano

separador 1

‖𝑤‖ é a distância mínima entre o hiperplano separados e os conjuntos de treinamento. Assim o processo de classificação do SVM se resume a uma otimização matemática de minimização de ‖𝑤‖, tal qual:

Min 𝑤𝑖

‖𝑊‖

𝑠. 𝑎

(11)

𝑦_𝑖(𝑤. 𝑥 + 𝑏) ≥ 1 ∀𝑖, 𝑖 = 1 … 𝑛

O problema de otimização matemática obtido é do tipo quadrático, ou seja, problemas em que a função objetivo é quadrática e as restrições são lineares. As restrições representam cada entrada de exemplos do conjunto de treinamento e garantem que não haja dados entre as margens de separação das classes. Daí obtém-se a nomenclatura de

SVM com margens rígidas.

Dito isso, uma aplicação do SVM que irá trabalhar com conjuntos de treinamento extensos na ordem da centena de milhares de exemplos onde cada exemplo se tornará uma restrição, este se tornará um problema que acarretará em grande esforço computacional de forma que prejudicaria o desempenho do modelo. Com sorte os

(26)

problemas de otimização quadrática possuem uma enorme variedade de soluções já conhecidas na teoria matemática. Visto que para o problema de minimização de uma função quadrática é convexo, os pontos que satisfazem as restrições formam um conjunto convexo, que possuem um único mínimo global. O Teorema de Lagrange é uma boa alternativa para solucionar o primal do problema de minimização de ‖𝑤‖.

Nos problemas convexos, o Teorema de Lagrange permite uma descrição dual. Dado um problema primal de otimização, é possível descrever um problema relacionado

D do mesmo tipo, o problema dual, em que os Multiplicadores de Lagrange de P são parte

da solução de D, e os Multiplicadores de Lagrange de D estão contidos na solução de P (GILL, MURRAY, WRIGHT, 1981). Assim se y é a solução do problema dual D, a solução do problema primal P pode ser determinada a partir de y também. Em geral o dual requer menos esforço computacional por simplificar o problema, uma vez que cada restrição do primal se torna uma variável do dual e as variáveis do primal se tornam as restrições do Dual, sendo mais fácil do que operar sob restrições de desigualdade.

Os multiplicadores de Lagrange 𝛼_𝑖 são parâmetros, associados tanto às restrições quanto a função objetivo do primal que irão compor a função Lagrangiana da seguinte forma:

𝐿(𝑤, 𝑏, 𝛼) = ‖𝑤‖− ∑𝑛 𝛼_𝑖(𝑦_𝑖(𝑤. 𝑥 + 𝑏) − 1)

𝑖=1

(12)

Esta função deve ser minimizada, o que necessariamente implica em maximizar as variáveis 𝛼_𝑖 e minimizar w e b (MULLER et al., 2001). Desta forma o máximo local desta função encontra se no ponto 𝑑𝐿

𝑑𝑏= 0 e 𝑑𝐿

𝑑𝑤= 0. A resolução da função neste ponto é tal que ∑𝑛_𝑖=1

𝛼

_𝑖

𝑦

_𝑖

= 0

e w = ∑𝑛_𝑖=1

𝛼

_𝑖

𝑦

_𝑖

𝑥

_𝑖

. Feita as devidas substituições na função

Lagrangiana 12 temos que o dual define-se como um problema de otimização da seguinte forma: 𝑚𝑎𝑥 ∑ 𝛼_𝑖 𝑛 𝑖=1 −1 2∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝑋𝑖 𝑇_𝑋 𝑗 𝑛 𝑗=1 𝑛 𝑖=1 𝑠. 𝑎 (13) 𝛼𝑖 ≥ 0 ∀𝑖, 𝑖 = 1 … 𝑛

(27)

∑ 𝛼_𝑖𝑦_𝑖 = 0 𝑛

𝑖=1

∀𝑖, 𝑖 = 1 … 𝑛

Considere 𝛼 a solução do dual e as variáveis w e b as soluções do primal. Por meio do valor de 𝛼, w pode ser determinado por meio da substituição na equação (12). O parâmetro b é deﬁnido por 𝛼 e por condições de Kühn-Tucker, provenientes da teoria de otimização com restrições e que são satisfeitas no ponto ótimo. Desta forma temos para o dual:

𝛼𝑖(𝑦𝑖(𝑤. 𝑥𝑖 + 𝑏) − 1) = 0 ∀𝑖, 𝑖 = 1 … 𝑛 (14) Nesta equação, 𝛼 assume o valor diferente de 0 somente para os pontos que estão sobre os hiperplanos 𝐻₁ e 𝐻₂, pois são os pontos mais próximo dos hiperplano utilizado como classificador, ou seja estão justamente nas margens rígidas do modelo. Os dados de valor 𝛼_𝑖 > 0 são os aqui já denominados vetores de suporte (SVs, do Inglês

Support Vectors) e podem ser considerados os dados mais informativos do conjunto de

treinamento, pois somente eles participam na determinação da equação do hiperplano separador (BURGES, 1998).

Com os valores dos vetores de suporte encontrado é possível determinar o valor de b. O valor de b é calculado a partir da média dos valores encontrados da diferença entre o valor de 𝑦_𝑖 e de ∑_𝑥_𝑗_∈𝑆𝑉𝛼_𝑖𝑦_𝑖𝑥_𝑖, pela quantidade de vetores suporte pertencente ao conjunto SV (conjunto composto por todos os vetores de suporte, ou seja, valores para qual 𝛼 > 0 ), de acordo com a equação (15).

𝑏 = 1

𝑛𝑆𝑉∑ (

1

𝑦𝑗 − ∑𝑥𝑗∈𝑆𝑉𝛼𝑖𝑦𝑖𝑥𝑖. 𝑥𝑗)

𝑥𝑗∈𝑆𝑉 (15)

E como resultado final a função do classificador é dada por:

𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 (∑_𝑥_𝑖_{∈ 𝑆𝑉}𝑦_𝑖𝛼_𝑖𝑥_𝑖. 𝑥 + 𝑏) (16)

2.3.2 SVM COM MARGEM SUAVE

No tópico anterior desta seção, foram abordadas as técnicas matemáticas utilizadas para determinação de um hiperplano com margens rígidas, ou seja, para conjunto de dados linearmente separáveis sem admitir exemplos de dados de treinamento entre o hiperplano e suas margens. Entretanto, a maioria do conjunto de dados que representam a realidade dos fenômenos não apresentam comportamento suficientemente

(28)

linear para que as classes sejam separáveis. Isto se dá pela presença de ruídos e outliers na base de dados ou até mesmo pelo comportamento dos dados que representam um problema difícil de ser representado de forma cartesiana.

Para estes casos pode-se utilizar uma extensão das SVMs, nas quais são adicionadas variáveis de folga para que haja um limite de tolerância para que um exemplo viole as restrições impostas no primal. Este é o conceito de SVM com Margem Suave

Segundo Smola et al., 1999, a introdução das variáveis de folga nas restrições do primal, para todo 𝑖 = 1, … , 𝑛 ocorre da seguinte forma:

𝑦_𝑖(𝑤. 𝑥𝑖 + 𝑏) ≥ 1 − 𝜀𝑖, 𝜀𝑖 ≥ 0 , ∀𝑖, 𝑖 = 1 … 𝑛 (17) A introdução da variável de folga 𝜀_𝑖, representa um erro de classificação do modelo para valores maiores que 1, sendo o seu somatório o limite de erros aceitos (Burges, 1998). Este limite impõe a aceitação para vetores de treinamento entre os hiperplanos das margens 𝐻₁ e 𝐻₂, de forma que erros de classificação do modelo possam ser aceitáveis sobre um custo C (C parameter, em inglês), que representa uma variável de controle ao atribuir peso aos erros do modelo de acordo com sua complexidade. Quanto maior o valor de C, o modelo tem maior ou menor tolerância aos erros de classificação. Ou seja, penaliza mais ou menos a ocorrência do erro na função objetivo. Introduzidas essas variáveis o primal do problema de otimização de um SVM com margens suaves passa a ser definido da seguinte forma:

‖𝑤‖+ 𝐶. ∑ 𝜀𝑖 𝑛 𝑖=1 𝑠. 𝑎 (18) 𝑦_𝑖(𝑤. 𝑥 + 𝑏) ≥ 1 − 𝜀𝑖 ∀𝑖, 𝑖 = 1 … 𝑛 𝜀𝑖 ≥ 0 ∀𝑖, 𝑖 = 1 … 𝑛

Este problema continua sendo um modelo de otimização quadrático, de forma que a solução passa pela construção de um dual com a aplicação de um função Lagrangiana de derivadas parciais nulas, método semelhante ao desenvolvimento da resolução de SVM com margens Rígidas na seção 2.3.1 deste capítulo, diferindo somente na variável 𝛼 que é restringida pelo custo C . Nesta lógica obtemos o seguinte modelo dual, que consiste numa maximização:

(29)

𝑚𝑎𝑥 ∑ 𝑎_𝑖 𝑛 𝑖=1 −1 2∑ ∑ 𝑎𝑖𝑎𝑗𝑦𝑖𝑦𝑗𝑋𝑖 𝑇_𝑋 𝑗 𝑛 𝑗=1 𝑛 𝑖=1 𝑠. 𝑎 (19) 𝑎_𝑖 ≥ 0 ∀𝑖, 𝑖 = 1 … 𝑛 𝑎𝑖 ≤ 𝐶 ∀𝑖, 𝑖 = 1 … 𝑛 ∑ 𝑎𝑖𝑦𝑖 𝑛 𝑖=1 = 0 ∀𝑖, 𝑖 = 1 … 𝑛

Se 𝛼 é a solução do problema dual acima, e 𝑤 e 𝑏 são as soluções do primal (18), a determinação de w pode ser encontrada pela solução de (19) e 𝜀𝑖 é encontrado na equação (20).

𝜀_𝑖 = 𝑚𝑎𝑥{0, 1 − 𝑦_𝑖. ∑𝑛_𝑗=1𝑦_𝑗𝛼_𝑖𝑥_𝑗𝑥_𝑖 + 𝑏} (20) O cálculo de 𝑏 se dá de maneira análoga ao método com margens rígidas (equação 15), sendo obtido por meio da média dos vetores de suporte, com a diferença que neste método o conjunto SV é composto também pelos vetores classificados corretamente mas entre as margens. (SMOLLA & SCHÖLKOPF, 2002).

𝑏 = 1

𝑛𝑆𝑉∑ (

1

𝑦𝑗 − ∑𝑥𝑗∈𝑆𝑉𝛼𝑖𝑦𝑖𝑥𝑖. 𝑥𝑗)

𝑥𝑗∈𝑆𝑉 (15)

Por fim é importante estabelecer mais um ponto de diferenciação entre as SVMs com margens rígidas das SVMs de margem suave. No primeiro caso, existe somente um caso de Vetores de Suporte, aqueles em que o valor 𝛼 > 0 , formadores dos hiperplanos que definem as margens. Já nos modelos de margem suave são definidos 3 tipos de vetores suporte (PONTIL & VERRI, 1998):

i. Se 𝛼 < 𝐶, então 𝜀_𝑖 = 0, logo os vetores de suporte estão sobre as margens e são considerados livres

ii. Se 𝛼 = 𝐶, então define-se 3 casos de vetores de suporte baseado no valor de 𝜀_𝑖: a. 1º Caso 𝜀𝑖 > 1, são erros de treinamento

b. 2º Caso 0 < 𝜀_𝑖 ≤ 1, e os pontos foram classificados corretamente, mas estão entre as margens.

(30)

c. 3º Caso em que 𝜀𝑖 = 0, pontos sobre a margem, sendo um caso raro de

SV

Conforme o gráfico 2.2 Os pontos B e D foram utilizados como vetores de suporte para definição das margens e os ponto F e C são os vetores classificados entre as margens do hiperplano, caso em que 0 < 𝜀_𝑖 ≤ 1

.

2.3.3 SVM NÃO LINEAR – FUNÇÕES DE KERNEL

Nas duas seções anteriores deste trabalho foram explicitados os métodos de

SVMs para solucionar problemas com conjunto de exemplos linearmente separáveis,

considerando modelos com aceitação de um certo nível de erro nas classificações. Entretanto na maioria dos fenômenos, os conjunto de dados não são linearmente separáveis. Segundo, Boser, Guyon e Vapnik desenvolveram em 1992 um método para classificadores por meio da aplicação de Funções de Kernel. São funções de transformação, que moldam o espaço de um conjunto de exemplos para um espaço de dimensões elevadas chamado espaço de características (feature space) de forma que seja possível realizar a separação das classes do conjunto de dados por meio de um hiperplano, em que no espaço original não é possível realizar tal distinção linear.

Figura 3 –

Figura 3 - Gráfico de definição de um hiperplano para a classificação de um conjunto de dados com duas classes com margens suave.

(31)

Para aplicação das Funções de Kernel, define-se uma função de transformação tal qual a equação (21) , onde N > n, que reconhece as entradas 𝑥_𝑖 ∈ 𝑅𝑛_{do conjunto de} dados e o transforma para o espaço 𝑅𝑁_{que contém o conjunto de características.}

ɸ ∶ 𝑅𝑛 _{→ 𝑅}𝑁 ₍₂₁₎

Como exemplo vamos utilizar a transformação polinomial de um conjunto de exemplos 𝑅2 → 𝑅3 onde:

ɸ(𝑥) = ɸ(𝑥_1,𝑥₂) = (𝑥₁2, √2𝑥1𝑥2, 𝑥22 ) (22)

Substituindo a equação (22) na equação (3) que define o hiperplano de separação obtém-se:

𝑓(𝑥) = 𝑤. ɸ(𝑥) + 𝑏 = 𝑤₁𝑥₁2_{+ 𝑤}

2√2𝑥1𝑥2+ 𝑤3𝑥22+ 𝑏 = 0 (23)

Nesta nova configuração é possível realizar a aplicação da SVM linear sobre o problema, sendo interessante a utilização do método com margens suaves, para que haja aceitação de ruídos e outliers no modelo de classificação, visto que há uma probabilidade de ocorrência dado a natureza não linear do conjunto de exemplos. Assim após a repetição do método obtém-se o seguinte problema dual, onde ɸ(𝑥𝑖). ɸ(𝑥𝑗) é o produto escalar dos dados no espaço de características (sem perda de generalidade o produto escalar ɸ(𝑥_𝑖). ɸ(𝑥_𝑗) passa a ser designado por uma função do Kernel 𝐾(𝑋𝑖𝑇𝑋𝑗) =

ɸ(𝑥𝑖). ɸ(𝑥𝑗)):

Figura 4 - Gráficos da transformação polinomial de 𝑅2 _{→ 𝑅}3_{de um conjunto de exemplos.}

(32)

𝑚𝑎𝑥 ∑ 𝛼𝑖 𝑛 𝑖=1 −1 2∑ ∑ 𝛼𝑖𝛼𝑗𝛼𝑖𝑦𝑗 𝑛 𝑗=1 𝐾(𝑋𝑖𝑇𝑋𝑗) 𝑛 𝑖=1 𝑠. 𝑎 (24) 𝑎𝑖≥ 0 ∀𝑖, 𝑖 = 1 … 𝑛 𝑎𝑖≤ 𝐶 ∀𝑖, 𝑖 = 1 … 𝑛 ∑ 𝑎𝑖𝑦𝑖 𝑛 𝑖=1 = 0 ∀𝑖, 𝑖 = 1 … 𝑛

De maneira análoga ao outro dois desenvolvimentos nos tópicos anteriores deste capítulo, obtém-se a seguinte função do classificador:

𝑔(𝑥) = 𝑠𝑔𝑛(𝑓(𝑥)) = 𝑠𝑔𝑛 (∑ 𝛼₁′_𝑦 𝑖 𝑥𝑖 ∈ 𝑆𝑉 𝐾(𝑋𝑖 𝑇_𝑋 𝑗) + 𝑏′) (25) e 𝑏′= 1 𝑛_{𝑆𝑉∶ 𝛼′< 𝐶}∑ ( 1 𝑦𝑗 𝑥𝑖 ∈ 𝑆𝑉: 𝛼′<𝐶 − ∑ 𝛼1 ′_𝑦 𝑖 𝑥𝑖 ∈ 𝑆𝑉 𝐾(𝑋𝑖 𝑇_𝑋 𝑗)) (26)

Dado a complexidade, e o nível de abstração para o cálculo de espaços de característica de altas, até mesmo infinitas dimensões o problema se resume ao Truque

de Kernel: a solucionar o produto escalar ɸ(𝑥_𝑖). ɸ(𝑥_𝑗) . Este resultado é obtido facilmente por meio das funções de Kernel, as quais recebem dois valores 𝑥𝑖 e 𝑥𝑗 do conjunto de entradas e resulta no produto escalar ɸ(𝑥_𝑖). ɸ(𝑥_𝑗). Desta forma é comum a utilização de funções de Kernel sem conhecer a função de transformação, o que não é um impedimento, dado a simplicidade de resolução das funções de Kernel. Seu uso é viável

Figura 5

Figura 5 – Gráficos do hiperplano separador do conjunto de dados em 𝑅3 (Visão em 𝑅2 ) e visão do

hiperplano separador linearizardo em 𝑅2_{, respectivamente.}

(33)

se são funções contínuas, simétricas e obedecem às condições estabelecidas por Mercer em 1909: deve ser capaz de gerar matrizes K semi positivas em que cada elemento 𝐾_𝑖𝑗 = (𝑥_𝑖, , 𝑥_𝑗), para todo i = 1,..., n.

As funções de Kernel mais utilizadas na resolução de SVMs são os Polinomiais, os Gaussianos ou RBF (Radial-Basis Function), e os Sigmoidais. Entretanto a literatura define uma vasta coleção de funções de Kernel a serem utilizadas nos infinitos conjuntos de dados que refletem os fenômenos que ocorrem. A seleção da Função que mais se adequa irá depender do conhecimento em relação aos dados e comportamento dos mesmos, e do tipo de informação é necessária extrair dos dados .

Neste trabalho foram listadas as principais funções de Kernel:

a) LINEAR

É a mais simples das Funções de Kernel , que são polinômios de grau 1, são as funções utilizadas nas SVMs de Margem Rígida e Suave.

𝐾(𝑥_𝑖, 𝑥_𝑗) = 𝑥_𝑖𝑥_𝑗+ 𝑏 (27)

b) POLINOMIAL

São funções para transformação polinomial de grau d. Os parâmetros de ajuste são o grau d do polinômio e o coeficiente angular a. Esta função é utilizada em dados normalizados.

𝐾(𝑥_𝑖, 𝑥_𝑗) = (𝑎(𝑥_𝑖𝑥_𝑗) + 𝑏)𝑑 (28)

c) GAUSSIANA

Como citado neste tópico é uma função do tipo RBF (Radial-Basis Function), onde o parâmetro de ajuste é o fator sigma. Por isso o seu ajuste é crucial, pois se superestimado a exponenciação pode ser comporta de maneira extremamente linear de forma que a dimensão dos espaços de características perde sua não linearidade. Por outro lado, um baixo dimensionamento de sigma faz com que o modelo se torne extremamente sensível a ruídos do conjunto de treinamento

(34)

d) EXPONENCIAL

Também uma função RBF (Radial-BasisFunction), que difere da Gaussiana apenas pela norma não sendo elevada ao quadrado, mas que requer a mesma precaução em relação à estimação do parâmetro sigma.

𝐾(𝑥_𝑖, 𝑥_𝑗) = 𝑒𝑥𝑝‖𝑥𝑖−𝑥𝑗‖

2𝜎2 (30)

e) LAPLACIANA

Também uma função RBF (Radial-Basis Function), similar à função exponencial, entretanto menos sensível ao parâmetro sigma.

𝐾(𝑥_𝑖, 𝑥_𝑗) = 𝑒𝑥𝑝‖𝑥𝑖−𝑥𝑗‖

𝜎 (31)

f) ANOVA

Também uma função RBF (Radial-Basis Function), sendo um bom método para modelos de regressão multidimensional. A função ANOVA apresenta uma boa solução para a limitação enfrentada pelo modelo polinomial em relação aos recursos e eficiência computacional até um determinado grau d, sendo a partir de polinômios de graus superiores a da utilização do ANOVA.

𝐾(𝑥_𝑖, 𝑥_𝑗) = ∑𝑛𝑘=1𝑒𝑥𝑝 (−𝜎(𝑥𝑘− 𝑦𝑘)2)𝑑 (32)

g) SIGMOIDAL

Também conhecida como Tangente Hiperbólica, é uma função RBF (Radial-Basis Function), largamente utilizada em redes neurais. O que não restringe seu uso em SVMs.

𝐾(𝑥𝑖, 𝑥𝑗) =𝑡𝑎𝑛ℎ 𝑡𝑎𝑛ℎ (𝑎𝑥𝑖𝑥𝑗 + 𝑐) (33)

h) RACIONAL QUADRÁTICO

É uma função alternativa a função Gaussiana, que exige menos esforço computacional quando esta se torna extremamente custosa para o modelo.

𝐾(𝑥𝑖, 𝑥𝑗) = 1 −

‖𝑥𝑖−𝑥𝑗‖2

‖𝑥𝑖−𝑥𝑗‖2+𝑐 (34)

(35)

É uma função RBF (Radial-Basis Function) utilizada para fazer transformações para 𝑅2. 𝐾(𝑥𝑖, 𝑥𝑗) = 2 𝜋(− ‖𝑥𝑖−𝑥𝑗‖ 𝜎 ) − 2 𝜋 ‖𝑥𝑖−𝑥𝑗‖ 𝜎 √1 − ( ‖𝑥𝑖−𝑥𝑗‖ 𝜎 ) 2 (35) j) ESFÉRICA

Similar a função circular, é utilizada para fazer transformações em 𝑅3.

𝐾(𝑥_𝑖, 𝑥_𝑗) = 1 − 3 2 ‖𝑥𝑖−𝑥𝑗‖ 𝜎 + 1 2( ‖𝑥𝑖−𝑥𝑗‖ 𝜎 ) 2 (36)

2.4 AVALIAÇÃO DE DESEMPENHO DO MODELO

Nos sistemas de aprendizado supervisionado, além do objetivo principal ser a predição de classes, é preciso avaliar a eficácia do modelo. Na seção 2.2 deste capítulo foram abordadas as métricas que medem o nível de eficácia e taxa de erro de modelos. Este tópico se propõe a aprofundar os conhecimentos sobre medidas de avaliação de desempenho de modelo, se debruçando sobre as métricas utilizadas na elaboração do modelo deste trabalho. As medidas utilizadas foram sobre a perspectiva de avaliação em relação a classificação de exemplos, previsibilidade de acerto das classes e taxa de acurácia geral dos modelos.

2.4.1 MATRIZ DE CONFUSÃO

Antes de definir a matriz de confusão propriamente dita é preciso definir a noção de confusão em classificadores. Confusão nada mais é do que uma identificação errada de uma classe, ou seja, quando a classe prevista pelo modelo é diferente do exemplo testado.

Partindo deste ponto, Provost e Fawcett (2016) irão definir matriz de confusão como uma matriz n × n de um problema com n classes, onde as colunas são as classes reais e as linhas são as classes previstas. Cada exemplo do modelo possui uma classe real e uma classe prevista, onde cada exemplo irá ocupar uma célula da matriz. Por exemplo considera-se uma matriz 2 × 2, onde os rótulos de classes são Positivos ou Negativos, e a classificação se dá na forma “Sim, é positivo” ou “Não, é positivo”. A diagonal da matriz é composta pela decisões corretas tomadas pelo classificador, enquanto os pólos são os exemplos falso negativos (positivos classificados como negativos) ou falso

(36)

positivos (negativos classificados como positivos). Um classificador ideal possui esses valores iguais a 0, visto que este classificador não comete erros.

Na modelagem do SVM cabe ao cientista de dados realizar a avaliação de tolerância ao erro e se necessário a diferenciação entre os tipos de erro, atribuindo custos a eles, considerando um modelo com margens suaves.

Positivo Negativo

Predição Positivo Verdadeiro Positivo Falto Positivo Predição Negativo Falso Negativo Verdadeiro Negativo

Tabela 2 - Representação de uma matriz de confusão 2 × 2. Fonte: Provost e Fawcett (2016, p.190).

2.4.2 PRECISÃO, RECALL E F1-SCORE

Partindo das inferências das classificações realizadas pelo modelo podem ser realizadas outras medidas de análise das classes. Três indicadores eficientes para avaliar o desempenho do modelo em relação a cada classe são: Precisão, Recall e F1-Score (WEISS & KULIKOWSKI, 1991)

Já foi discutido neste capítulo, a taxa de erro geral do modelo (número de predições incorretas) e pode ser denominada como Precisão. Esta seção aborda a métrica Precisão sobre a perspectiva da classe, ou seja, avaliando a taxa de acerto de uma classe especificamente. Retomando a representação da matriz de confusão da Tabela 2.2, por efeitos de simplicidade para compreensão das medidas, define-se as variáveis FN: Número de decisões falsos negativos e FP: Número decisões falsos positivos tomadas pelo modelo; TP e TF como o Número de decisões Positivo e Negativo tomadas corretamente pelo classificador, e por fim N = FP + FN + TP + TF como o total de decisões tomadas pelo classificador.

Encontra-se a Precisão de uma classe dado o número de classificações corretas feitas sobre ela, sobre o total de classificações tomadas em relação a classes, corretas e incorretas:

Precisão Positivos: 𝑇𝑃

𝐹𝑝+𝑇𝑃 (37)

Precisão Negativos: 𝑇𝑁

(37)

Enquanto que o Recall ou sensibilidade de uma classe, é a medida para determinar o quanto as medidas em relação a uma classe estão corretas. O Recall é determinado considerando o total de decisões corretas tomadas sobre uma classe em relação a todas as decisões corretas tomadas em relação à ela mais as atribuídas erradamente a outra classe.

Recall Positivos: 𝑇𝑃

𝐹𝑁+𝑇𝑃 (39)

Precisão Negativos: 𝑇𝑁

𝐹𝑃+𝑇𝑁 (40)

Ainda assim pode parecer um pouco qualitativa a avaliação de tais medidas, pois surgem questionamentos ao avaliar o modelo. É mais importante ter uma alta Precisão ? ou um bom Recall ? É evidente que um bom desempenho em uma só destas duas medidas não evidencia um bom desempenho geral do modelo. Desta forma se faz necessário a utilização de uma terceira métrica, denominada F1-Score, ou ainda F-Mesure, que representa a média harmônica entre a Precisão e o Recall. O F1-Score é uma medida interessante pois realiza justamente a ponderação entre a Precisão e o Recall.

F1 – Score: 2 × 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 . 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜+𝑅𝑒𝑐𝑎𝑙𝑙 (41)

2.4.3 CURVA ROC

Tendo conhecimento sobre os possíveis resultados de decisão de um classificador faz sentido realizar a avaliação do classificador sobre a relação entre a taxa de falsos positivos e verdadeiros positivos.

Antes é preciso introduzir os conceitos de Valor Esperado e Curvas de Lucro. Em estatística, o valor esperado ou lucro de um modelo, é uma média dos valores que podem ser assumidos por um classificador ponderados pela probabilidade de ocorrência da decisão. Provost & Fawcett (2016) propõem uma abordagem de avaliação de classificador sobre a perspectiva do valor esperado dado um determinado tamanho do conjunto de exemplos. Um mesmo classificador resulta em diferentes matrizes de confusão se varia o tamanho do conjunto de exemplos, desta forma é possível traçar uma curva da relação entre o tamanho do conjunto de exemplos e o lucro esperado para a classificador de acordo com a matriz de confusão gerado por aquele conjunto de exemplos. Esta relação denomina-se Curva de Lucro. Tais curvas são abordagens interessantes para realizar uma análise comparativa entre diferentes modelos de

(38)

classificação para um mesmo conjunto de dados, e encontrar o ponto ótimo de um classificador em relação as suas taxas de decisões tomadas corretamente.

Entretanto um cenário com diversos classificadores, onde os dados podem ser voláteis de um momento de uso para o outro, faz sentido utilizar uma abordagem de

avaliação capaz de acomodar as incertezas e variações do modelo. Esta visão pode ser fornecida com a utilização de um gráfico denominado Características do Receptor da Operação (do inglês, ROC – Receiver Operating Characteristics) (Sweet, 1988). A Curva

ROC é estabelecida pela representação de um desempenho de um classificador em relação

às taxas de falso positivo (eixo x) e verdadeiro positivo (eixo y). Por convenção determina-se os eixos sobre a perspectivas das classes positivas, mas não impedimento ou perda de generalidade ao utilizar as ocorrências de falso negativo como eixo x e verdadeiro negativo como eixo y.

No espaço da curva ROC é importante determinar alguns pontos:

i. A diagonal principal, do ponto (0,0) a (1,1), representa a aleatoriedade. Ou seja, adivinhar uma classe. Se um classificador se posiciona nesta diagonal significa que ele tem a mesma probabilidade de retornar falso positivo ou verdadeiro

Figura 6- Gráfico de exemplo de uma Curva ROC. Fonte: Elaboração própria

(39)

positivo, sendo um classificador aleatório que se move pela diagonal, mas sem produzir classificações confiáveis

ii. O ponto (0,0) representa o caso em que o classificador nunca toma uma decisão, nem verdadeiro positivo, nem falso positivo. Em contrapartida o ponto (1,1) representa a estratégia de só tomar decisões corretas com a mesma probabilidade de só tomar decisões incorretas.

iii. O ponto (0,1) representa a classificação perfeita, onde todas as decisões são tomadas corretamente, sem nenhum falso positivo. Na direção oposta o ponto (1,0) representa um classificar ineficiente onde nenhum das decisões é tomada corretamente.

Elucidado esses pontos fica evidente perceber que um bom classificador é aquele que está acima da reta diagonal de aleatoriedade, e aquele que se encontra abaixo da diagonal classificar pior que um modelo que classifica ao acaso. Ao comparar diferentes classificadores aquele que representa o melhor desempenho é o que se encontra o mais próximo do ponto (1,0).

Ainda sobre as Curvas ROC é interessante fazer um observação sobre elas. A área sob a curva AUC (area under the curve) representa um resumo estatístico sobre o classificador. Esta medida é útil para resumir em um único número o desempenho do classificador, variando de zero a um. Representa de maneira geral a probabilidade da decisão de um verdadeiro positivo ser tomada em relação ao falso positivo.