Considera¸ c˜ oes finais - – Estrat´ egia de recomenda¸c˜ ao serendipitosa para o algoritmo ens

Algoritmo 11 – Estrat´ egia de recomenda¸c˜ ao serendipitosa para o algoritmo ensemble de

2.4 Considera¸ c˜ oes finais

O propósito deste cap´ıtulo foi apresentar conceitos sobre sistemas de recomenda¸cão, incluindo as arquiteturas de recomenda¸cão. Também foram apresentadas as vantagens e desvantagens da arquitetura baseada em conteúdo, principal interesse deste trabalho, além de no¸cões básicas sobre medidas de qualidade de uma recomenda¸cão. Tendo em vista o problema da baixa serendipidade em recomenda¸cões e a proposta de tratá-lo usando técnicas de agrupamento, o próximo cap´ıtulo apresenta conteúdos a respeito de agrupamento e ensemble de agrupamentos.

3 Ensemble de agrupamento

Diversos conjuntos de dados com grande volume de dados e alta dimensionalidade têm sido criados devido aos avan¸cos das tecnologias de produ¸cão e armazenamento de dados e, também, ao crescimento do uso de aplica¸cões (JAIN, 2010). Consequentemente, surge a necessidade de melhorar os métodos de análise que permitem processar, compreender e sumarizar automaticamente os dados. Os algoritmos de aprendizado de máquina têm sido utilizados nesse contexto visando melhorar as análises sobre esses dados.

Segundo Michalski, Carbonell e Mitchell (2013), aprendizado é descrito como o processo que inclui a aquisi¸cão de novos conhecimentos, o desenvolvimento de habilidades motoras e cognitivas por meio de instru¸cões ou práticas, a organiza¸cão de conhecimento em geral, as representa¸cões efetivas e a descoberta de novos fatos e teorias mediante observa¸cões e experimenta¸cões. O estudo e a modelagem computacional de processos de aprendizado constitui o contexto de aprendizado de máquinas cuja defini¸cão é destacada em Mitchell (1997) como:

“Um programa de computador aprende a partir de um elenco de experiências E, relacionadas a uma classe de tarefas T e dispondo de uma medida de desempenho M, se seu desempenho medido por M junto à tarefa T melhora com o elenco de experiências E. ”

Existem diversos paradigmas de aprendizado dentro da área de aprendizado de máquina, dentre eles, os paradigmas de aprendizado supervisionado e aprendizado não supervisionado. De forma resumida, a diferen¸ca entre tais paradigmas está relacionada a existência ou não de dados rotulados. No aprendizado supervisionado, uma cole¸cão de dados rotulados (pré classificados) é fornecida, enquanto no aprendizado não supervisionado, a cole¸cão de dados fornecida não possuem rótulos (JAIN; MURTY; FLYNN, 1999).

Em conformidade com Nilsson (1996), o objetivo do aprendizado supervisionado é encontrar uma fun¸cão hipotética que seja capaz de prever, em grande parte, a classe dos dados. Para alcan¸car tal fim, ele utiliza o resultado obtido pela fun¸cão e compara esse resultado com os rótulos dos dados. Já o objetivo do aprendizado não supervisionado é atribuir rótulos simbólicos1 _{aos dados, todavia, ele apenas utiliza as caracter´ısticas dos}

dados, sem ter conhecimento da classe real dos dados em seu processo.

O agrupamento é definido como uma metodologia importante na análise exploratória de dados, sendo poss´ıvel encontrar diversos métodos de agrupamento reportados na literatura (WU; LEAHY, 1993). Seu objetivo principal é encontrar os padrões gerais de distribui¸cão do conjunto de dados e disponibilizar uma visualiza¸cão mais eficiente por meio de grupos derivados do conjunto original (ZHANG; RAMAKRISHNAN; LIVNY, 1996).

A figura 7 ilustra o objetivo da tarefa de agrupamento, o qual est´a representado pela descoberta de grupos divididos em cores. O lado esquerdo representa um conjunto de nove dados X e o lado direito apresenta os trˆes grupos formados: x1, x2 e x3 coloridos em

azul; x4, x5 e x6 colorido em verde; e x7, x8 e x9 coloridos em amarelo.

Figura 7 – Exemplo de agrupamento de dados

Fonte: Fernando Henrique da Silva Costa, 2018

A principal fun¸cão da tarefa de agrupamento é resumir os dados, oferecendo um meio para produzir uma descri¸cão sobre eles. A partir disso, torna-se poss´ıvel proceder com tarefas de nomea¸cão (todos os objetos de um mesmo grupo recebem o mesmo nome ou rótulo), exibi¸cão da organiza¸cão presente nos dados dos dados, e predi¸cão. (HARTIGAN, 1975). Assim, os algoritmos de agrupamento organizam objetos em grupos, de forma que os objetos pertencentes ao mesmo grupo sejam mais semelhantes entre si quando comparados com aqueles que estão organizados em grupos diferentes (IAM-ON et al., 2011).

Segundo Peres et al. (2012), o agrupamento estuda as rela¸c˜oes de similaridade entre os dados, de forma que determine quais dados formam quais grupos. Estes s˜ao formados visando maximizar a similaridade entre os dados de um grupo (similaridade intra-grupo) e minimizar a similaridade entre dados de grupos diferentes (similaridade inter-grupos). Formalmente, dado o conjunto de dados de entrada X, situado no espa¸co <m _{(X ∈ <}m₎

de m dimensões, é esperado encontrar uma fun¸cão como apresentada na equa¸cão 1, em que W é um vetor de parâmetros ajustáveis por meio de um algoritmo de agrupamento que determina k grupos no conjunto de dados X, G = {G1, ..., Gk}, sendo k ≤ n e n o

F : <mxW → G (1) Em Fern e Lin (2008), os autores discutem que algoritmos de agrupamento desen- volvidos com base em diversas medidas de similaridade ou de distância, mesmo quando aplicados aos mesmos dados, produzem resultados que são diferentes entre si. Além disso, esses algoritmos possuem a deficiência em conceder solu¸cões satisfatórias em dados com alta dimensionalidade (JING; TIAN; HUANG, 2015). Diante destes fatos, motiva-se a elabora¸cão de ensembles de agrupamento, com o intuito de melhorar os resultados obtidos para tarefas de agrupamento.

Um ensemble é definido como um “multi aprendiz” simples e efetivo. A integra¸cão de resultados obtidos por componentes, que representam instâncias diferentes de solu¸cão para um problema, em apenas um resultado, melhora a acurácia e a robustez da solu¸cão global para uma tarefa (STREHL; GHOSH, 2002). Tal integra¸cão de resultados é observado em uma pessoa que busca opiniões de terceiros antes de tomar uma decisão importante. As opiniões individuais são ponderadas e depois combinadas chegando a uma decisão final (POLIKAR, 2006).

A figura 8 ilustra um exemplo de um ensemble. Inicialmente, um conjunto de entrada é apresentado para os p componentes do ensemble, os quais podem ser classificadores, regressores (LIMA, 2004) ou algoritmos de agrupamento (NALDI; FACELI; CARVALHO, 2009), a depender da tarefa sob resolu¸cão. Cada um dos componentes gera uma sa´ıda diferente. Essas sa´ıdas, então, são combinadas por uma estratégia a fim de produzir uma sa´ıda final.

Figura 8 – Exemplo de um ensemble

Dois passos distintos, porém correlacionados, são necessários para o desenvolvimento de um ensemble, tanto paras as tarefas de aprendizado supervisionado quanto para aprendizado não supervisionado. O primeiro passo diz respeito a gera¸cão dos componentes, os quais devem ser precisos e diversificados (ZHOU, 2015), e o segundo passo equivale em uma estratégia de combina¸cão das solu¸cões produzidas.

A técnica utilizada nesta pesquisa é o ensemble de agrupamento. De acordo com Fern e Brodley (2004), esse paradigma tem como objetivo combinar as solu¸cões de agrupamento de cada componente sobre um determinado conjunto de dados com o propósito de melhorar o desempenho da tarefa proposta e apresentar uma solu¸cão geral.

O desenvolvimento de ensemble de agrupamentos segue os mesmos estágios que o desenvolvimento de ensemble de aprendizado supervisionado, em que há a necessidade de seguir geralmente duas etapas. Os passos a serem seguidos, de acordo com Liu, Liao e Liao (2015), são:

1. a gera¸cão de um conjunto de parti¸cões de agrupamentos, ou a gera¸cão de componentes do ensemble, por meio dos algoritmos de agrupamento individuais (diferentes algoritmos ou o mesmo algoritmos com diferentes parâmetros de inicializa¸cão); 2. a combina¸cão de tal conjunto por meio de uma fun¸cão de consenso, a fim de conseguir

um resultado final superior.

Com o intuito de definir um ensemble de agrupamento, foi utilizada a nota¸cão com base no trabalho de Strehl e Ghosh (2002). Tal defini¸cão é apresentada da seguinte forma: dado um conjunto de dados X = {x1, x2, ..., xn}, um particionamento desses n dados em k

grupos ´e representado por uma matriz de r´otulos λ ∈ ℵn_{. Um algoritmo de agrupamento}

representado por Φ fornece, como sa´ıda, uma matriz de rótulos dado as tuplas de dados. A figura 9 ilustra essa defini¸cão, considerando λf inal a matriz de rótulos gerada pelo ensemble

de agrupamentos.

No documento Ensemble de agrupamentos para sistemas de recomendação baseados em conteúdo (páginas 40-44)