k Vizinhos mais Próximos (k NN) - Tipos de Classificadores

2 Referencial Teórico

2.4 Tipos de Classificadores

2.4.4 k Vizinhos mais Próximos (k NN)

O k -NN, também chamado de algoritmo do vizinho mais próximo, é um dos mais simples e mais utilizados algoritmos de aprendizado. Esse algoritmo classifica um novo exemplo calculando a distância entre as k instâncias mais próximas a ele. Portanto, o mesmo pode ser descrito da seguinte forma: Suponhamos um conjunto D de tuplas de

treinamento. Cada elemento de D é uma tupla (x1;x2;...;xn;c), onde c é a classe à qual

essa tupla pertence. Cada tupla (x1;...;xn) pode ser vista como um ponto num espaço N-

dimensional. Seja Y = (y1;...;yn) uma nova tupla, ainda não classificada. A fim de classificá-

la, calculam-se as distâncias de Y a todas as tuplas de treinamento e consideram-se as k tuplas de treinamento mais próximas de Y . Dentre essas k tuplas, verifica-se qual a classe que aparece com maior frequência. Sendo assim, a tupla Y será classificada dentro dessa classe mais frequente. Normalmente, o cálculo da distância entre duas tuplas é realizado utilizando a distância euclidiana (KUNCHEVA, 2014).

O algoritmo k -NN assume que todos os padrões mais similares encontrados são equi- valentemente relevantes. Por esse motivo, a precisão da predição do modelo pode ser deteriorada. Uma solução para esse problema é fazer com que, entre as instâncias mais similares encontradas, as que estiverem mais próximas da nova instância possuam pesos maiores no modelo (DUDA; HART; STORK, 2000). Por basear-se apenas na distância, normalmente euclidiana, entre as instâncias de treinamento, pode-se afirmar que o k -NN é um algoritmo conceitualmente muito simples, porém com grande complexidade computacional, uma vez que para cada instância são calculadas as distâncias a todas as demais. Assim, se utilizado em grandes bases de dados, pode se tornar inviável devido ao longo tempo de processamento (WITTEN; FRANK; HALL, 2011).

Além disso, o k -NN é bastante sensível a ruídos. Como solução para esse problema, pode-se utilizar a estratégia de escolher alguns números k fixos, pequenos que são aloca- dos e usados juntos para determinar a classe via voto majoritário; no entanto, o tempo computacional, inevitavelmente, aumenta. Outra forma de resolver o mesmo problema é escolher, seletivamente e criteriosamente, as instâncias adicionadas à base de dados (WITTEN; FRANK; HALL, 2011).

2.5 Comitês de Classificadores

O aumento da complexidade e ampla aplicabilidade dos sistemas de classificação leva- ram a investigações de muitas abordagens e metodologias. Mesmo assim, há uma percep- ção de que nenhum classificador é considerado completamente satisfatório para uma tarefa particular; portanto, a ideia de combinar diferentes métodos para melhorar o desempenho surgiu como uma possibilidade muito promissora (NASCIMENTO; COELHO; CANUTO, 2014). Esta combinação é denominada comitês de classificadores, também conhecidos como sistemas multiclassificadores ou ensembles.

Comitês de classificadores é um campo de pesquisa dentro da inteligência artificial, mais especificamente, dentro de aprendizado de máquina e consiste em treinar vários classificadores para realizar conjuntamente uma tarefa comum. Em tarefas de classificação, um ensemble incorpora vários submodelos chamados classificadores base, que geralmente são obtidos treinando um algoritmo de aprendizado básico (árvore de decisão, rede neural, k vizinhos mais próximos, entre outros). Os comitês podem ser contruídos baseados no mesmo algoritmo de aprendizagem produzindo comitês homogêneos ou utilizando vários algoritmos gerando comitês heterogêneos (GHARROUDI, 2017).

A ideia de comitês de classificadores é criar e combinar vários modelos indutivos para o mesmo domínio, obtendo melhor qualidade de previsão. O principal desafio para o sucesso de um comitê é gerar classificadores base diversificados e de bom desempenho. Portanto, para criar cada classificador base é importante observar as seguintes orientações: usar um conjunto de treinamento divergente do mesmo domínio, utilizar algoritmos distintos, no caso dos comitês heterogêneos, escolher diferentes configurações de parâmetros do algoritmo, acionar execuções independentes de um algoritmo não determinístico (CICHOSZ, 2015).

Existe uma grande variedade de comitês de classificadores propostos na literatura e que foram aplicados em diversos campos, tais como: medicina (CHOI et al., 2016; HASAN; GHOLAMHOSSEINI; SARKAR, 2017), astronomia (PHAM et al., 2016) e ciências naturais

(NIJHAWAN; RAMAN; DAS, 2018).

2.5.1 Métodos de Combinação

Conforme citado anteriormente, sistemas multiclassificadores são sistemas para clas- sificação de padrões baseados na combinação de saídas de um conjunto de diferentes classificadores, chamados classificadores base. Essa combinação tem como objetivo obter sistema mais eficiente que os classificadores individuais em termos de acurácia.

Um sistema multiclassificador é, portanto, formado por um conjunto de classificadores base e uma função para a combinação das saídas desses classificadores. Assim, após a geração do conjunto de classificadores base, o passo seguinte é a escolha dos métodos para combinação de suas saídas. Há um vasto número de métodos de combinação de classificadores na literatura, podendo ser agrupados em três tipos principais: fusão, seleção e híbrido (Tsymbal et al., 2005).

ficadores componentes do sistema na construção da resposta final, ou seja, a classificação final resulta da opinião coletiva dos classificadores participantes. Já na combinação de classificadores baseada em seleção, a resposta final do sistema é dada pelo classificador base mais capacitado para o padrão de entrada dado. O método híbrido utiliza tanto a abordagem baseada em fusão quanto em seleção.

Neste trabalho serão utilizados dois métodos de combinação (soma e voto, explicados adiante), ambos baseados em fusão. A escolha de métodos baseados em fusão foi feita devido ao aproveitamento das informações de todos os classificadores. Além disso, os métodos baseados em fusão são mais utilizados do que os baseados em seleção e os híbridos. Os métodos de combinação podem ser ponderados ou não. A diferença básica entre esses métodos é que os ponderados permitem que sejam atribuídos pesos para cada um dos classificadores base, enquanto os não ponderados não permitem. Serão usados neste trabalho, a princípio, dois métodos sem ponderação: soma e voto. Estes métodos serão descritos a seguir.

2.5.1.1 Soma

Soma é um dos métodos de combinação mais simples e mais utilizados. Nesse método, uma vez que os classificadores base tenham gerado as saídas para um padrão, todas as saídas de cada classificador para cada uma das classes são somadas e a classe vencedora é aquela que possuir o maior valor absoluto.

O método da soma permite que sejam atribuídos pesos para cada um dos classificadores base. Quando são utilizados diferentes pesos para cada um dos classificadores, estão sendo atribuídos diferentes graus de influência de cada classificador à saída geral do sistema. Nesse caso, o método é chamado de soma ponderada.

2.5.1.2 Voto

Um método de combinação de classificadores frequentemente utilizado é o método voto, também conhecido por voting ou votação. Ao utilizar esse método sua combinação é feita através da votação dos resultados de cada classificador ao ser apresentado um novo exemplo.

Assim como o método da soma, este método pode atribuir pesos aos classificadores base, sendo então chamado de votação ponderada (Sinoara et al., 2002). A votação sem peso, também chamada de votação por maioria, é um método simples, porém robusto

(Bernardini, 2002). Neste trabalho, será utilizada a votação por maioria, a votação ponderada poderá ser utilizada em um trabalho futuro.

2.6 Considerações Finais

Este capítulo iniciou apresentando os principais conceitos associados à área de aprendizado de máquina, entre eles, os tipos de aprendizado supervisionado e não supervisionado. No aprendizado supervisionado, os métodos tratam da construção de indutores com o objetivo de realizar inferências a partir de um conjunto de instâncias de treinamento para os quais se conhece a priori as classes às quais essas instâncias pertencem. Enquanto isso, no aprendizado não-supervisionado, os métodos recebem como entrada instâncias das quais não se conhece a priori a classe a que elas pertencem.

Em seguida, apresentou-se as principais características do aprendizado semissupervisionado, bem como os algoritmos self-training e co-training. O aprendizado semissupervisionado representa a junção do aprendizado supervisionado e não-supervisionado e tem como objetivo reduzir a necessidade de uma grande quantidade de dados rotulados, quando somente um pequeno conjunto de instâncias rotuladas está disponível. Sendo assim, a atribuição de rótulos a instâncias não-rotuladas é realizado por meio de um processo automático utilizando algoritmos de apredizado semissupervisionado, tais como self-training e co-training. A principal diferença entre esses dois algoritmos é que o co- training divide o conjunto de dados em dois subconjuntos com visões distintas.

Dentre as limitações dos algoritmos self-training e co-training, está a definição da quantidade de instâncias a serem incluídas no conjunto de dados rotulados a cada iteração. Sendo assim, este trabalho explora a ideia de criar um limiar de confiança flexível que seleciona, a cada iteração, as instâncias que farão parte do conjunto dos rotulados.

Por conseguinte, foram apresentados os principais conceitos associados à classificação de dados, que é um processo de extração de informações por meio de categorização, a partir de um conjunto de dados bruto. Além disso, foram explicados os quatro tipos de classificadores utilizados neste trabalho, Naive Bayes, árvore de decisão, Ripper e k -NN.

Adicionalmente foi explicado sobre comitês de classificadores, que exploram a ideia de que diferentes classificadores, especialistas ou módulos de reconhecimento podem oferecer informações complementares sobre padrões a serem classificados, melhorando a efetividade do processo de reconhecimento como um todo. Por fim, foram explicados os métodos de combinação usados neste trabalho, soma e voto, que servem para combinar as saídas dos

No documento Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado (páginas 39-45)