Recomendação de objetos de aprendizagem de línguas baseada em inteligência de enxames

(1)

Programa de P ós-Graduaç ão em Computaç ão

Dissertac¸ ˜ao

Recomendaç ão de Objetos de Aprendizagem de L´ınguas baseada em Intelig ência de Enxames

Paulo de Almeida Afonso

(2)

Recomendaç ão de Objetos de Aprendizagem de L´ınguas baseada em Intelig ência de Enxames

Dissertaç ão apresentada ao Programa de P ós-Graduaç ão em Computaç ão da Universi-dade Federal de Pelotas, como requisito par-cial à obtenç ão do t´ıtulo de Mestre em Ci ência da Computaç ão

Orientador: Prof. Dr. Paulo Roberto Ferreira Jr. Coorientador: Prof. Dr. Rafael Vetromille-Castro

(3)

(4)

(5)

AFONSO, Paulo de Almeida. Recomendaç ão de Objetos de Aprendizagem de L´ınguas baseada em Intelig ência de Enxames. 2016. 99 f. Dissertaç ão (Mestrado

em Ci ência da Computaç ão) – Programa de P ós-Graduaç ão em Computaç ão, Centro de Desenvolvimento Tecnol ógico, Universidade Federal de Pelotas, Pelotas, 2016. Este trabalho prop õe a aplicaç ão de t écnicas de intelig ência de enxames para a recomendaç ão de objetos de aprendizagem de l´ınguas. No melhor de nosso conhe-cimento, n ão se pode encontrar na literatura trabalhos espec´ıficos de recomendaç ão deste tipo de objeto. As abordagens existentes s ão voltadas para a recomendaç ão de objetos de aprendizagem de modo gen érico, sem considerar os aspectos que norteiam o aprendizado de l´ınguas. Nesse sentido, foi realizado um estudo sobre os elementos essenciais que definem um objeto de aprendizagem de l´ınguas e as

principais abordagens utilizadas em sistemas de recomendac¸ ˜ao de uso geral. O

estudo considerou a hip ótese de aplicaç ão em um reposit ório desenvolvido com base em princ´ıpios pedag ógicos comunicativos e levou em consideraç ão o car áter complexo da aprendizagem de l´ınguas. A tarefa de recomendaç ão nesse contexto prev ê a exist ência de m últiplas conex ões conceituais entre os objetos, que s ão constru´ıdas à medida que o sistema é utilizado, e ocorre atrav és da aplicaç ão do algoritmo de Otimizaç ão por Col ônia de Formigas. Como forma de validar a soluç ão proposta foram implementados, al ém da abordagem proposta, dois dos algoritmos de recomendaç ão de uso geral mais empregados atualmente. Considerando que um objeto de aprendizagem de l´ınguas tem como objetivo principal ser um faci-litador do processo de integraç ão de compet ências gramatical, sociolingu´ıstica e estrat égica, dois aspectos essenciais devem ser considerados durante o processo de recomendaç ão: a capacidade de combinar um objeto com outro e a reusabilidade, de forma mais espec´ıfica, a possibilidade de sua aplicaç ão em diferentes contextos de aprendizagem. Dessa forma, os resultados obtidos a partir dos experimentos de-monstraram que a soluç ão proposta mostra-se eficiente para o contexto de aplicaç ão a que se prop õe.

Palavras-chave: Intelig ˆencia de enxames, Objetos de Aprendizagem, Objetos de

(6)

AFONSO, Paulo de Almeida. Recommendation of Learning Objects Language based on Swarm Intelligence. 2016. 99 f. Dissertaç ão (Mestrado em Ci ência da

Computaç ão) – Programa de P ós-Graduaç ão em Computaç ão, Centro de Desenvolvi-mento Tecnol ógico, Universidade Federal de Pelotas, Pelotas, 2016.

This work proposes the application of swarm intelligence to recommend language learning objects. To the best of our knowledge, one cannot find in the literature specific works addressing the recommendation of this kind of object. Existing approaches are focused to recommend general learning objects without considering the aspects that guide the learning of languages. In this sense, a study of the essential elements that define a language learning object and the main approaches used in the mentioned general-use recommender systems was conducted. The study considered the appli-cation of our approach in a repository developed based on communicative teaching principles and took into account the complex nature of language learning. The recom-mendation in this context considers the existence of multiple conceptual connections among objects, which are built as the system is used, and are driven by the application of an algorithm based on Ant Colony Optimization. In order to validate our approach, we also implemented two of the general recommendation algorithms most widely used currently. Whereas a language learning object aims to be a facilitator of grammatical skills integration process, sociolinguistic and strategic, two essential aspects must be considered during the recommendation process: the ability to combine an object with another and its reusability, more specifically, the possibility of its application in different learning contexts. Thus, the results obtained from the experiments demonstrated that the proposed approach is efficient for the application context that it is proposed.

Keywords: Swarm Intelligence, Learning objects, Language Learning objects,

(7)

Figura 1 OAL - Metadados em uma ontologia comunicativa . . . 20

Figura 2 SWARM - Experimento da ponte com ramos de tamanhos iguais . 36 Figura 3 SWARM - Experimento da ponte com ramos de tamanhos diferentes 37 Figura 4 ACO - Exemplo de construç ão de uma soluç ão por uma formiga . . 39

Figura 5 ACO - Seleç ão do pr óximo caminho - processo estoc ástico . . . . 39

Figura 6 DICA - Comparac¸ ˜ao entre temas . . . 48

Figura 7 Exemplo de um grafo de citac¸ ˜oes . . . 52

Figura 8 ACO - Exemplo de construç ão de uma soluç ão por um usu ário. . . 57

Figura 9 ACO - Seleç ão do pr óximo caminho pelo usu ário. . . 58

Figura 10 ACO - Representac¸ ˜ao do relacionamento entre OALs. . . 58

Figura 11 ACO - Construç ão de uma soluç ão. . . 59

Figura 12 BALL - Estrutura da tabela Objetos . . . 65

Figura 13 BALL - Estrutura da tabela conex ˜oes entre objetos . . . 66

Figura 14 BALL - Conex ˜oes entre objetos . . . 66

Figura 15 BALL - Estrutura de tabelas para armazenamento de recomendac¸ ˜oes 67 Figura 16 BALL - Tela inicial do sistema . . . 68

Figura 17 BALL - Resultado da busca por palavra-chave . . . 68

Figura 18 BALL - Tela de download . . . 69

Figura 19 Gr áfico resultante da 1ª etapa de simulaç ão . . . 72

Figura 22 Exemplo de c ´odigo utilizado para popular a interface DataModel . . 76

Figura 23 Exemplo de c ódigo para recomendaç ão baseada em usu ário . . . 77

Figura 24 Exemplo de conex ˜oes resultantes dos experimentos . . . 78

Figura 25 Intensidade das conex ˜oes . . . 78

Figura 26 Gr áfico de recomendaç ões geradas pelo sistema . . . 80

Figura 27 Percentual de recomendaç ões, geradas pelos tr ês algoritmos, con-sideradas relevantes para os usu ários I, J e K . . . 82

Figura 28 Percentual de recomendaç ões consideradas relevantes, para os usu ários I, J e K, em relaç ão ao n úmero total de recomendaç ões esperadas . . . 83

Figura 29 Percentual de recomendaç ões inadequadas para os usu ários I, J e K 83 Figura 30 Percentuais obtidos a partir da an álise dos tr ês algoritmos . . . 84

(8)

Tabela 1 Recomendac¸ ˜ao baseada em filtragem colaborativa . . . 29

Tabela 2 e-LORS - Categorias descritoras . . . 46

Tabela 3 e-LORS - Campos do LOM e dimens ˜oes de prefer ˆencias . . . 46

Tabela 4 Ex. de recomendaç ões e valores utilizados no c álculo da medida swarm . . . 61

Tabela 5 N úmero de objetos acessados na 1ª simulaç ão . . . 72

Tabela 6 N úmero de objetos acessados na 2ª etapa de simulaç ão . . . 73

Tabela 7 Dados utilizados na simulac¸ ˜ao final . . . 74

Tabela 8 N úmero de objetos acessados na 3ª etapa de simulaç ão . . . 75

Tabela 9 Ex. de dados de acesso, resultantes das 3 etapas de simulac¸ ˜ao . . 76

Tabela 10 Valores associados `as conex ˜oes . . . 79

Tabela 11 Exemplo de recomendaç ões para os usu ários I, J e K . . . 79

Tabela 12 Recomendaç ões realizadas a partir da interaç ão dos usu ários I, J e K 80 Tabela 13 Classificaç ão do resultado da recomendaç ão de um item para um usu ário . . . 82

Tabela 14 Valores obtidos a partir da an álise das recomendaç ões . . . 82

(9)

BALL Banco de Atividades para a Aprendizagem de L´ınguas.

BIOE Banco Internacional de Objetos Educacionais

CLT Communicative Language Teaching

CA Classification Accuracy

IEEE Institute of Electrical and Electronics Engineers

LE L´ıngua Estrangeira

LOM Learning Object Metadata

MEC Minist ério da Educaç ão

MIT Massachusetts Institute of Technology

MAE Mean Absolute Error

MSE Mean Squared Error

NMAE Normalized Mean Absolute Error

OA Objetos de Aprendizagem

OE Objetos Educacionais

OAL Objetos de Aprendizagem de L´ınguas

OIE Organizac¸ ˜ao dos Estados Ibero-americanos

PA Prediction Accuracy

RELPE Rede Latino-americana de Portais Educacionais

RMSE Root Mean Squared Error

SI Swarm Intelligence

SR Sistemas de Recomendac¸ ˜ao

SEV Standard Error Variance

TF-IDF Term Frequency - Inverse Document Frequency

(10)

1 INTRODUC¸ ˜AO . . . . 12

2 FUNDAMENTAÇ ÃO TE ÓRICA . . . . 16

2.1 Objetos de Aprendizagem . . . . 16

2.2 Objetos de Aprendizagem de L´ınguas . . . . 19

2.3 Sistemas de Recomendac¸ ˜ao . . . 21

2.3.1 Recomendaç ão Baseada em Conte údo . . . 23

2.3.2 Recomendac¸ ˜ao Colaborativa . . . 27

2.3.3 Recomendac¸ ˜ao H´ıbrida . . . 31

2.4 Intelig ˆencia de Enxames . . . . 33

2.4.1 Otimizaç ão por Col ônia de Formigas . . . 35

2.4.2 Algoritmo ACO (Ant Colony Optimization) . . . 37

2.5 Apache Mahout . . . . 40

2.5.1 T écnicas de Recomendaç ão . . . 41

2.5.2 Clusterizac¸ ˜ao . . . 41

2.5.3 Classificac¸ ˜ao . . . 42

2.5.4 Recomendac¸ ˜oes com Mahout . . . 42

3 TRABALHOS RELACIONADOS . . . . 44

3.1 Recomendac¸ ˜ao de Objetos de Aprendizagem . . . . 44

3.2 Recomendaç ão de Objetos Associados à Diferentes Contextos . . . 49

4 ACO APLICADO À RECOMENDAÇ ÃO DE OBJETOS DE APRENDIZA-GEM DE LÍNGUAS . . . . 56

4.1 Abordagem utilizada . . . . 56

4.2 Aplicac¸ ˜ao do algoritmo ACO . . . 57

5 ESTUDO DE CASO . . . . 63

5.1 BALL - Banco de Atividades para Aprendizagem de L´ınguas . . . . . 63

5.2 Prot ´otipo . . . . 64

6 EXPERIMENTOS E RESULTADOS . . . . 71

6.1 Descric¸ ˜ao dos experimentos . . . 71

6.2 Resultados obtidos . . . 77

6.3 Avaliaç ão das recomendaç ões . . . . 81

7 CONCLUS ˜OES . . . . 85

(11)

ANEXO A LISTA DE OBJETOS ACESSADOS . . . . 94

ANEXO B RECOMENDAÇ ÕES REALIZADAS A PARTIR DA INTERAÇ ÃO DOS USU ÁRIOS I, J E K . . . . 99

(12)

A utilizaç ão de recursos online tem se tornado cada vez mais presente na educaç ão, quer seja no âmbito do ensino à dist ância ou presencial. Diante disso no-vas formas de ensino e aprendizagem surgiram, assim como diferentes possibilidades de desenvolvimento de conte údos por meio de objetos de aprendizagem (CAZELLA et al., 2012). Objetos de aprendizagem (OA) podem ser definidos como componen-tes de um tipo de instruç ão baseada em computador, fundamentada no paradigma orientado a objetos (WILEY, 2003). Essa caracter´ıstica é evidenciada pela possibili-dade de criaç ão de pequenos componentes (em relaç ão a um curso completo) que podem ser reutilizados em diferentes contextos de aprendizagem. Em uma definiç ão mais abrangente, segundo o mesmo autor, um OA pode ser conceituado como qual-quer entidade, digital ou n ão-digital, que pode ser utilizada, reutilizada ou referenciada durante o processo de aprendizagem apoiado pela tecnologia. Como exemplo pode-mos citar conte údos multim´ıdia, conte údos instrucionais, objetivos de aprendizagem, softwares e ferramentas de software instrucionais, pessoas, organizaç ões ou eventos. Com base nesses conceitos, pode-se perceber que esses recursos encontram-se dis-pon´ıveis na Internet, por ém de forma descentralizada, espalhados por toda a rede, o que dificulta o processo de localizaç ão e recomendaç ão. Como consequ ência desta descentralizaç ão, deixam de lado seu principal objetivo: auxiliar o processo de ensino e aprendizagem.

A f ácil localizaç ão, recomendaç ão adequada desses materiais e a disponibilizaç ão de recursos em diferentes formatos, al ém de facilitar a pesquisa, proporciona melhor compreens ão do tema que est á sendo pesquisado. Um dos principais desafios do educador é a seleç ão e organizaç ão desses materiais digitais.

Os reposit órios de objetos de aprendizagem foram criados para esta finalidade, possibilitando a busca e agregaç ão de objetos em um mesmo sistema. Tal carac-ter´ıstica proporciona maior facilidade à realizaç ão de consultas atrav és da divis ão por

´areas, conte ´udos e tipos de objetos (CAZELLA et al., 2012).

Diante deste contexto, atrav és da presente proposta espera-se contribuir para a produç ão e localizaç ão de Objetos de Aprendizagem de L´ınguas (OAL) a partir da

(13)

constituiç ão de um reposit ório, desenvolvido com base em uma ontologia fundamen-tada pelos princ´ıpios da CLT, voltado n ão somente para o desenvolvimento lingu´ıstico mas tamb ém para a formaç ão (continuada) de professores.

Sabe-se no entanto que os reposit órios de aprendizagem, apesar de apresenta-rem a informaç ão de forma centralizada, muitas vezes n ão possuem sistemas que recomendem recursos educacionais semelhantes ou complementares (VIEIRA; NU-NES, 2012). Em funç ão disso, acabam por sobrecarregar o usu ário com informaç ões que na maioria das vezes n ão possuem conte údos relevantes para o tema que est á sendo pesquisado.

Os Sistemas de Recomendaç ão (SR) surgiram como proposta para soluç ão deste problema. Eles funcionam como filtros de informaç ão, auxiliando o usu ário na busca e seleç ão de conte údo com base em seu perfil. As recomendaç ões s ão realizadas a partir da an álise de diferentes aspectos, como: prefer ências do usu ário, semelhança entre conte údos j á acessados, avaliaç ão dos usu ários, entre outros. Um dos grandes desafios deste tipo de sistema é conceber a combinaç ão apropriada entre as expec-tativas dos usu ários e os itens a serem recomendados. A definiç ão e descoberta do tipo de relacionamento de interesses é o problema em quest ão (CAZELLA; NUNES; REATEGUI, 2010).

No melhor de nosso conhecimento, n ão se pode encontrar na literatura trabalhos espec´ıficos relacionados à recomendaç ão de Objetos de Aprendizagem de L´ınguas. As abordagens existentes s ão voltadas para a recomendaç ão de objetos de aprendi-zagem de modo gen érico, sem considerar os aspectos que norteiam a aprendiaprendi-zagem de l´ınguas. Dessa forma, a partir do desenvolvimento do reposit ório de OAL, tem-se como principal objetivo deste trabalho propor uma estrat égia para recomendaç ão, le-vando em consideraç ão os aspectos pedag ógicos ligados a essa classe de objetos e o car áter complexo da aprendizagem de l´ınguas.

A Intelig ência Artificial oferece uma s érie de t écnicas que podem ser aplicadas na busca pela soluç ão de problemas complexos em diversas áreas. Entre as quais est ão, por exemplo, o estabelecimento de rotas de ve´ıculos, o escalonamento de produç ão na ind ústria e o projeto de circuitos integrados. Tais t écnicas podem oferecer soluç ões para a localizaç ão e recomendaç ão adequada de objetos de aprendizagem quando aplicadas a SR. Nesse contexto, o presente trabalho aborda a aplicaç ão de t écnicas de Intelig ência de Enxames para a recomendaç ão de Objetos de Aprendizagem de L´ınguas (OAL).

O modelo proposto baseia-se na combinaç ão de t écnicas colaborativas e baseadas em conte údo em um único sistema de recomendaç ão h´ıbrido baseado em regras, onde a recomendaç ão propriamente dita se d á atrav és da aplicaç ão do Algoritmo de Otimizaç ão por Col ônia de Formigas.

(14)

proposta em um reposit ório desenvolvido com base em princ´ıpios pedag ógicos comu-nicativos, atentando para o car áter complexo da aprendizagem de l´ınguas. Durante o desenvolvimento desta dissertaç ão foi conclu´ıda parte da implementaç ão deste repo-sit ório, disponibilizando recursos suficientes para a inserç ão e catalogaç ão de objetos de aprendizagem. Entretanto, a tarefa de popular o reposit ório com uma quantidade de OAL adequada para realizaç ão dos experimentos, demandaria muito tempo. Como soluç ão para o problema, foi desenvolvido um prot ótipo de sistema web populado com dados obtidos do Banco Internacional de Objetos Educacionais (BIOE).

Apesar dos objetos utilizados nos experimentos n ão terem sido constru´ıdos com base na ontologia aqui prevista, a proposta do presente trabalho n ão foi inviabilizada. Os experimentos foram realizados de forma controlada e contaram com o aux´ılio de um professor especialista da área de Letras, e tr ês professoras de ingl ês em formaç ão, bolsistas de iniciaç ão cient´ıfica, vinculadas ao projeto do Programa de P ós-Graduaç ão em Letras (mestrado) da Universidade Federal de Pelotas.

Os resultados obtidos a partir dos experimentos demonstraram que a soluç ão pro-posta se mostra eficiente para o contexto de aplicaç ão a que se prop õe, uma vez que retornou resultados mais relacionados ao termo consultado pelos usu ários do que outros modelos. Outrossim, proporcionou o estabelecimento de rotas, constru´ıdas atrav és da aplicaç ão do conhecimento obtido de forma impl´ıcita por meio da interaç ão dos usu ários com o sistema.

O conte údo do presente trabalho segmenta-se em seis partes distintas e com-plementares, al ém desta introduç ão: O Cap´ıtulo 2 oferece uma vis ão geral sobre os conceitos relacionados ao tema da pesquisa, abordando conceitos relacionados aos Objetos de aprendizagem, Objetos de Aprendizagem de L´ınguas, bem como suas principais caracter´ısticas e definiç ões. Tamb ém s ão abordados conceitos relaciona-dos aos Sistemas de Recomendaç ão, apresentando sua arquitetura, classificaç ões e as principais t écnicas utilizadas no processo de recomendaç ão. Por fim, s ão apre-sentados os conceitos relacionados ao Apache Mahout, à Intelig ência de Enxames e o Algoritmo de Otimizaç ão por Col ônia de Formigas, cujas t écnicas s ão aplicadas na busca pela soluç ão proposta no presente trabalho; O cap´ıtulo 3 apresenta os trabalhos relacionados que serviram de embasamento para an álise a viabilidade de aplicaç ão da soluç ão proposta. Nesse contexto, foram analisados dois grupos de trabalhos: Recomendaç ão de Objetos de Aprendizagem e Recomendaç ão de Objetos associa-dos à diferentes contextos; O cap´ıtulo 4 descreve o Sistema de Recomendaç ão pro-posto por este trabalho. A abordagem utilizada para desenvolvimento do sistema é apresentada na primeira seç ão do cap´ıtulo. S ão definidos os dados de entrada a serem utilizados, as t écnicas e o tipo de filtragem adotados, os algoritmos implemen-tados e a forma como os dados de entrada e os dados armazenados s ão combinados pelos algoritmos no processo de recomendaç ão, resultando na sa´ıda do sistema; O

(15)

cap´ıtulo 5 trata da aplicaç ão do Sistema de Recomendaç ão. Apresenta as carac-ter´ısticas do prot ótipo desenvolvido, o local e a forma de coleta dos dados utilizados para realizaç ão dos experimentos, bem como a estrutura criada para armazenamento das informaç ões. S ão apresentadas as telas e a forma de utilizaç ão do sistema, a me-todologia utilizada no processo de recomendaç ão e exemplos de c ódigos utilizados na implementaç ão; O cap´ıtulo 6 apresenta a descriç ão dos experimentos realizados para verificar a viabilidade do modelo proposto. S ão apresentados os procedimentos rea-lizados, as pessoas envolvidas e a interpretaç ão dos resultados obtidos; Finalmente, o cap´ıtulo 7 apresenta as principais conclus ões acerca do que foi realizado durante o desenvolvimento da soluç ão proposta e os trabalhos futuros previstos.

(16)

Este cap´ıtulo oferece uma vis ão geral sobre os conceitos relacionados ao tema da pesquisa. As seç ões que o comp õem abordam conceitos relacionados aos Objetos de aprendizagem, Objetos de Aprendizagem de L´ınguas, bem como suas principais caracter´ısticas e definiç ões. Tamb ém s ão abordados conceitos relacionados aos Sis-temas de Recomendaç ão, apresentando sua arquitetura, classificaç ões e as princi-pais t écnicas utilizadas no processo de recomendaç ão. Por fim, s ão apresentados os conceitos relacionados à Intelig ência de Enxames e o Algoritmo de Otimizaç ão por Col ônia de Formigas, cujas t écnicas s ão aplicadas na busca pela soluç ão proposta no presente trabalho.

2.1 Objetos de Aprendizagem

Objetos de Aprendizagem s ão elementos essenciais de um modelo conceitual para a criaç ão e distribuiç ão de conte údo. Seu principal objetivo é melhorar o desempenho humano em relaç ão ao processo de ensino e aprendizagem (HODGINS, 2002). Com-preendidos como entidades digitais ou recursos educacionais, podem ser acessados via internet, armazenados, distribu´ıdos, compartilhados, modificados e recombinados com outros, formando m ódulos independentes de instruç ão, para serem utilizados on-line ou off-on-line (SOARES, 2009). Trata-se de um tipo de instruç ão baseada em com-putador, fundamentada no paradigma orientado a objetos. Essa caracter´ıstica pode ser percebida pela possibilidade de criaç ão de pequenos componentes chamados de objetos, que podem ser utilizados e reutilizados em diferentes contextos de aprendi-zagem (WILEY, 2003).

Na an ´alise realizada por MCGREAL (2004), um estudo das diferentes terminolo-gias utilizadas para conceituar um OA revela que quatro significados distintos podem ser percebidos:

• Qualquer objeto - Um Objeto de Aprendizagem pode ser caracterizado como

qualquer entidade, digital ou n ão digital, que pode ser utilizada, reutilizada ou referenciada durante o processo de ensino e aprendizagem. Essa definiç ão,

(17)

extremamente ampla, considera que o uso que se faz de um objeto é que o torna, ou n ão, um OA. Nesse contexto, do ponto de vista te órico, qualquer objeto utilizado para aprendizagem pode ser considerado um OA.

• Qualquer objeto digital - A restric¸ ˜ao imposta pela necessidade de um OA ser

digital deve-se às caracter´ısticas inerentes a estes objetos, que s ão particu-larmente associadas à ambientes virtuais. Apesar de ser mais restrita, essa definiç ão deve considerar os objetivos para os quais s ão elaborados os objetos. • Qualquer objeto com prop ósito educacional - Essa definiç ão n ão faz distinç ão

entre um objeto digital ou n ão-digital. Nesse caso, um objeto pode ser conside-rado um OA desde que possa ser utilizado para apoiar atividades de aprendiza-gem: um livro, uma p ágina na web, um microsc ópio ou at é mesmo uma calcula-dora. QUINN; HOBBS (2000), prev ê ainda a utilizaç ão de blocos ou pedaços de conte údo educacional, considerando qualquer tipo de m´ıdia, digital ou n ão, que possam ser agrupados e utilizados para compor uma disciplina ou at é mesmo um curso completo.

• Qualquer objeto digital com objetivo educacional - Um OA pode ser

caracteri-zado como um arquivo digital cuja aplicaç ão é voltada para fins pedag ógicos. Tal arquivo deve incluir internamente, ou de forma associada, sugest ões para sua utilizaç ão de forma adequada (SOSTERIC; HESEMEIER, 2002). Nesse con-texto, um objeto torna-se um OA quando é projetado para ser utilizado de forma individual ou combinado com outros objetos de m´ıdia, tendo como prop ósito prin-cipal promover e facilitar a aprendizagem.

Apesar das discuss ões, os dois conceitos, digital ou n ão, tem se perpetuado ao longo dos anos, dividindo as prefer ências dos autores. Apesar disso, existe uma tend ência maior para determinaç ão do conceito de um OA como uma entidade digital (LEFFA, 2006).

Para o prop ósito deste trabalho ser á adotada a definiç ão de (MCGREAL, 2004), que caracteriza um OA como qualquer recurso digital reutiliz ável. Este OA pode ser encapsulado em uma aula, ou conjunto de aulas, agrupados em unidades, m ódulos, cursos ou programas e deve ter um prop ósito educacional. Para MCGREAL (2004), a realidade consiste em aceitar a limitaç ão de que os Objetos de Aprendizagem devem ser recursos digitais. O autor observa que, embora isso possa comprometer sua usa-bilidade, tal limitaç ão n ão impede um OA de referenciar objetos n ão-digitais externos. Al ém das terminologias acima descritas, os diversos estudos realizados t êm des-tacado carater´ısticas inerentes aos objetos que contribuem para a definiç ão de um conceito mais claro sobre um OA. Estas caracter´ısticas s ão granularidade,

(18)

reusabili-dade, interoperabilidade e recuperabilidade e ser ˜ao descritas a seguir segundo a vis ˜ao de (LEFFA, 2006):

• Granularidade - Refere-se ao termo utilizado para definir o tamanho das

estrutu-ras que comp õem um OA. Por exemplo, quanto menor o objeto (maior granulari-dade), mais f ácil ser á sua combinaç ão com diferentes Objetos de Aprendizagem. Esta definiç ão tem sido um dos grandes desafios para os pesquisadores, pois impacta diretamente na capacidade de combinar um objeto com outro (WILEY, 2003). Apesar de n ão existirem padr ões ou crit érios para definir a granulari-dade, uma forma de determin á-la é atrav és do tempo utilizado para execuç ão de uma atividade LEFFA (2006). Para VETROMILLE-CASTRO et al. (2013), um OA pode ser considerado como tendo a granularidade adequada, quando esta permitir a reutilizaç ão e interoperabilidade do recurso a um n´ıvel considerado relevante para o processo de aprendizagem.

• Reusabilidade - Significa reaproveitar o objeto constru´ıdo em diferentes

contex-tos de aprendizagem, combinando-o com outros objecontex-tos e recriando-o à medida que for necess ário. Nesse contexto, a reusabilidade sugere a reduplicaç ão do mesmo objeto tornando-o mais aprimorado e eficiente ao processo de aprendi-zagem. Para que haja reusabilidade, o objeto deve evoluir à medida do tempo, de forma a adaptar-se à constante evoluç ão tecnol ógica.

• Interoperabilidade - ´E a capacidade de resposta e funcionalidade do OA inde-pendente do ambiente digital em que se encontra. A evoluç ão do objeto e sua capacidade de ser adapt ável é que o levar ão a interoperabilidade.

• Recuperabilidade - Refere-se `a facilidade de acesso ao OA. Significa

proporci-onar ao usu ário, no menor tempo poss´ıvel, informaç ão útil e que atenda às suas necessidades. Este acesso é realizado atrav és de uma esp écie de catalogaç ão do objeto. A catalogaç ão é realizada utilizando-se descritores, tamb ém chama-dos de metadachama-dos1_{do objeto.}

Durante o desenvolvimento de Objetos de Aprendizagem t êm-se atribu´ıdo maior atenç ão aos aspectos tecnol ógicos do que à aspectos pedag ógicos. Dessa forma, para o ensino e aprendizagem de l´ınguas, faz-se necess ário um embasamento te órico diferenciado, que possua a relaç ão adequada com a aprendizagem de l´ınguas es-trangeiras e com ênfase na comunicaç ão (VETROMILLE-CASTRO et al., 2013). Nesse contexto, surgem os Objetos de Aprendizagem de L´ınguas (OAL), descritos na pr óxima seç ão.

1_{Metadados s ão comumente descritos como dados sobre dados. No contexto de aplicaç ão deste}

(19)

2.2 Objetos de Aprendizagem de L´ınguas

Um Objeto de Aprendizagem de L´ınguas (OAL) pode ser definido como um

OA preparado especificamente para o ensino e aprendizagem de l´ınguas. Sua

implementaç ão tem por objetivo promover e desenvolver a compet ência comunica-tiva. Para este fim, deve ser fundamentado nas teorias do Ensino Comunicativo de

L´ınguas (CLT2) (VETROMILLE-CASTRO et al., 2013).

A definiç ão de um OAL deve ser norteada por aspectos de design de usabilidade e usabilidade pedag ógica (VETROMILLE-CASTRO, 2003). Deve ter como objetivo principal a capacidade de facilitar a integraç ão de compet ências gramatical, socio-lingu´ıstica e estrat égica, caracter´ısticas particularmente ligadas ao ensino e à apren-dizagem de idiomas (VETROMILLE-CASTRO et al., 2012). Tais aspectos consideram caracter´ısticas relacionadas à instruç ão, orientaç ão e feedback de atividades. Essas caracter´ısticas, al ém de proporcionarem a interaç ão com o aluno, s ão componentes essenciais no desenvolvimento da compet ência comunicativa.

A compet ência comunicativa pode ser definida como uma caracter´ıstica emergente da combinaç ão entre o conhecimento e a habilidade necess ária para a comunicaç ão. O conhecimento, que pode ser consciente ou inconsciente, refere-se à informaç ão que disp õe um indiv´ıduo sobre dada linguagem e sobre outros aspectos de sua utilizaç ão, enquanto a habilidade refere-se a forma como um indiv´ıduo pode usar o conhecimento em comunicaç ão real (CANALE; SWAIN, 1980; CANALE, 1983).

O trabalho de CANALE; SWAIN (1980) desencadeou uma s érie de discuss ões vol-tadas para o desenvolvimento da compet ência comunicativa. Foram apresentados cinco princ´ıpios essenciais necess ários para guiar um programa de ensino de l´ınguas estrangeiras atrav és de uma abordagem comunicativa. Estes princ´ıpios foram adapta-dos aos OAL, e s ão descritos a seguir, segundo a vis ão de (VETROMILLE-CASTRO et al., 2013):

• Um Objeto de Aprendizagem de L´ınguas deve ter como objetivo principal a capacidade de proporcionar a integraç ão de compet ências gramaticais, socio-lingu´ısticas e estrat égicas;

• Objetos de Aprendizagem de L´ınguas devem focar-se na necessidade de comunicac¸ ˜ao dos alunos;

• Devem proporcionar a interaç ão dos alunos em situaç ões reais e significativas de comunicaç ão, sejam elas de produç ão e/ou compreens ão oral e/ou escrita. Considera-se como real, situaç ões que, apesar de n ão estarem realmente ocor-rendo no processo de ensino, representam ou retratam poss´ıveis eventos de uso comunicativo da l´ıngua fora do contexto da sala de aula;

(20)

• Devem atentar para a forma da L´ıngua Estrangeira (LE) em situaç ões de comunicaç ão, conduzindo o aluno do impl´ıcito ao expl´ıcito no uso da l´ıngua; • E por fim, devem possuir aspectos socio-lingu´ıstico-culturais da LE e dos alunos,

afim de facilitar a aprendizagem e uso da l´ıngua.

Objetos de Aprendizagem fundamentados com base nos princ´ıpios acima descri-tos, podem ser considerados mais do que OAs voltados para o ensino e aprendizagem de l´ınguas. Dada sua especificidade, podem ser caracterizados como artefatos ela-borados com o prop ´osito de desenvolver a compet ˆencia comunicativa dos estudantes (VETROMILLE-CASTRO et al., 2013).

Em seu trabalho, VETROMILLE-CASTRO et al. (2013) aborda a elaboraç ão de uma ontologia fundamentada pelos princ´ıpios da CLT. Esta ontologia foi constitu´ıda atrav és de metadados elaborados a partir da definiç ão de uma estrutura de linguagem t écnica e principalmente comunicativa (Figura 1). Segundo o autor, a construç ão de um reposit ório de Objetos de Aprendizagem de L´ınguas, norteado por esta ontologia, al ém de ser um recurso importante para estudantes de l´ınguas, significa a concepç ão de uma ferramenta para a formaç ão continuada de professores de l´ınguas.

Figura 1: OAL - Metadados em uma ontologia comunicativa Fonte: VETROMILLE-CASTRO R.; PEREIRA; RAMIRES (2013)

Os metadados apresentados na Figura 1 funcionam como descritores com informaç ões relacionadas aos OAL, utilizados para facilitar sua indexaç ão e

(21)

identificaç ão em reposit órios. Dessa forma, percebe-se que a adoç ão de uma on-tologia poder á ser utilizada como um recurso importante durante o processo de de-senvolvimento de um sistema para recomendaç ão de OAL.

2.3 Sistemas de Recomendac¸ ˜ao

A revis ão da literatura demonstra que as opini ões de diferentes autores convergem para o mesmo conceito acerca de um Sistema de Recomendaç ão: uma ferramenta ou conjunto de t écnicas que, independente do escopo ao qual est á inserido, tem como prop ósito principal, atrav és da tarefa de recomendaç ão, prover ao usu ário informaç ões e serviços que sejam relevantes, úteis e atendam às suas necessidades (RICCI et al., 2010; ZHOU et al., 2008; BURKE, 2002, 2007; MAHMOOD; RICCI, 2009; RESNICK; VARIAN, 1997).

Os Sistemas de Recomendaç ão surgiram em meados de 1990, a partir de uma ideia cujo prop ósito era auxiliar na busca de conte údo online mais útil e relevante, utilizando para tanto, a opini ão das pessoas (JANNACH et al., 2010).

O sistema de correio experimental Tapestry introduziu a ideia de filtragem colabo-rativa e mostrou como a utilizaç ão de dados, adquiridos de forma impl´ıcita ou expl´ıcita, baseados no comportamento dos usu ários, poderiam ser aplicados para a criaç ão de filtros pessoais. Alguns anos depois, diferentes sistemas como GroupLens (RESNICK et al., 1994), Ringo do MIT (SHARDANAND; MAES, 1995) e Bellcore Video Recom-mender (HILL et al., 1995), adotaram t écnicas semelhantes para a recomendaç ão de itens relacionados a diferentes contextos, como filmes, m úsicas, artistas e not´ıcias, to-mando por base as prefer ências dos usu ários. No ambiente de aprendizagem online, por exemplo, os SR s ão aplicados de forma a recomendar materiais de aprendiza-gem de interesse dos alunos. Podem ser caracterizados como agentes de software inteligentes, cujas recomendaç ões s ão baseadas nas atividades, aç ões ou estilos de aprendizagem, descobertos a partir da an álise de padr ões de navegaç ão (ZHUHA-DAR et al., 2009).

Em aplicaç ões voltadas para o com ércio eletr ônico e websites, diferentes t écnicas s ão empregadas na tentativa de otimizar a tarefa de recomendaç ão e ofertar produtos de interesse aos clientes, objetivando, desse modo, sua fidelizaç ão e consequente aumento da lucratividade (CAZELLA; NUNES; REATEGUI, 2010). Como exemplos de websites bastante conhecidos que utilizam SR, podemos destacar Amazon.com, YouTube, Netflix, Yahoo, Tripadvisor, Last.fm, e IMDb (RICCI; ROKACH; SHAPIRA, 2011).

A tarefa de recomendaç ão consiste em estimar classificaç ões para itens que ainda n ão foram vistos ou avaliados pelos usu ários. Normalmente, essa estimativa se d á atrav és de classificaç ões atribu´ıdas à outros itens, al ém de outras informaç ões

(22)

re-lacionadas ao conjunto de dados dispon´ıveis para avaliaç ão. Dessa forma, dada a possibilidade de classificar itens que ainda n ão foram avaliados e, considerando que tal classificaç ão baseia-se em avaliaç ões de itens relacionados ao grupo de interesses de um determinado usu ário, a recomendaç ão pode ser realizada atrav és da seleç ão de itens que obtiveram a melhor classificaç ão estimada.

De maneira formal, segundo ADOMAVICIUS; TUZHILIN (2005), o problema de recomendaç ão pode ser representado atrav és da seguinte equaç ão:

∀c ∈ C, s’c = arg max

s∈S u(c, s) (1)

Onde C representa o conjunto de todos os usu ´arios e S o conjunto de todos os itens poss´ıveis que podem ser recomendados.

Considerando que o conjunto de dados, tanto em S quanto em C, pode ser sig-nificativamente grande, u representa uma funç ão que mede a utilidade do produto s para o usu ário c, ou seja, u : c × s → R, onde R é um conjunto totalmente ordenado (por exemplo, n úmeros inteiros ou n úmeros reais n ão-negativos em um determinado intervalo). Ent ão, para cada usu ário c ∈ C, queremos escolher tal item s0 ∈ S que maximize a utilidade para o usu ário.

A medida de utilidade u de um item para o usu ário depende do escopo da aplicaç ão, podendo ser obtida atrav és de classificaç ões feitas pelo usu ário, ou atrav és de uma funç ão de utilidade, calculada de forma arbitr ária, como uma funç ão de utili-dade baseada no lucro, por exemplo.

Cada caracter´ıstica do usu ário c ∈ C, como sexo, idade, renda, entre outras, pode ser utilizada para a definiç ão de um perfil. Em uma abordagem mais simples, o perfil do usu ário pode conter apenas um único elemento, como seu identificador na base de dados, por exemplo. De forma an áloga, cada elemento s ∈ S, é definido por um conjunto de caracter´ısticas ou atributos que representam o objeto. Assim, em um SR de livros, onde S é uma coleç ão de livros, cada exemplar pode ser representado por diferentes caracter´ısticas ou atributos como t´ıtulo, descriç ão, formato, editora, etc.

O principal problema em um SR, deve-se ao fato de que a utilidade u n ão é definida em todo o espaço de C × S, mas sim em apenas um subconjunto dele. Ou seja, a utilidade baseia-se apenas em itens previamente classificados pelos usu ários, como um subconjunto de filmes j á vistos, por exemplo. Sendo assim, a utilidade u deve ser propagada para todo o espaço de C × S, atrav és da aplicaç ão de m étodos de aprendizagem de m áquina, teoria da aproximaç ão e/ou heur´ısticas (ADOMAVICIUS; TUZHILIN, 2005).

De maneira geral, em um SR as recomendaç ões s ão realizadas tomando-se por base caracter´ısticas relevantes ao escopo do sistema (ZAINA, 2010). Consequen-temente, os m étodos utilizados na implementaç ão e sua interface gr áfica, tamb ém

(23)

devem ser desenvolvidos de forma personalizada. Dessa forma, deve-se conside-rar os itens a serem recomendados para geconside-rar recomendaç ões úteis e eficazes aos usu ários (RICCI et al., 2010). Nesse contexto, os SR podem ser classificados de acordo com a abordagem de recomendaç ão utilizada, constituindo tr ês categorias dis-tintas: recomendaç ão baseada em conte údo, recomendaç ão colaborativa e sistemas h´ıbridos, descritos a seguir.

2.3.1 Recomendaç ão Baseada em Conte údo

A recomendaç ão baseada em conte údo consiste em recomendar itens seme-lhantes àqueles que um determinado usu ário gostou no passado (BALABANOVIć; SHOHAM, 1997). Atrav és da an álise de descriç ões de itens busca-se identificar aque-les de maior interesse para o usu ário.

A abordagem baseada em conte údo originou-se das pesquisas na área de recuperaç ão da informaç ão (CAZELLA; NUNES; REATEGUI, 2010). Embora neces-site de informaç ões adicionais sobre os itens e as prefer ências do usu ário, n ão exige um grande n úmero de usu ários ou hist órico de classificaç ões, sendo poss´ıvel gerar recomendaç ões mesmo se houver apenas um único utilizador (JANNACH et al., 2010). Devido aos significativos avanços realizados pelas comunidades de recuperaç ão e filtragem da informaç ão e, considerando a import ância de v árias aplicaç ões base-adas em texto, atualmente diversos sistemas baseados em conte údo s ão focados na recomendaç ão de itens que cont ém informaç ões textuais, como documentos, web-sites, mensagens e not´ıcias (ADOMAVICIUS; TUZHILIN, 2005). Segundo o mesmo autor, a melhoria associada às tradicionais abordagens de recuperaç ão da informaç ão deu-se atrav és da utilizaç ão do perfil do usu ário. Essa abordagem possibilitou realizar recomendaç ões com base em informaç ões relacionadas aos gostos, prefer ências e necessidades do usu ário. As informaç ões podem ser obtidas de duas formas:

• Implicitamente - com base na an álise de comportamento, como uma pesquisa realizada em busca de algum item, padr ões de navegaç ão ou itens que o usu ário j á adquiriu, por exemplo.

• Explicitamente - atrav és de question ários ou atribuiç ão de notas associadas aos itens recomendados.

Sistemas de Recomendaç ão baseados em conte údo geralmente s ão constitu´ıdos de m étodos (PAZZANI; BILLSUS, 2007):

• para descric¸ ˜ao dos itens a serem recomendados;

• para a criaç ão de um perfil do usu ário que representa os itens que s ão de seu interesse;

(24)

• para a comparaç ão entre os itens e o perfil do usu ário a fim de determinar o que deve ser recomendado.

De maneira formal, a utilidade u(c, s) do item s para o usu ário c é estimada com base na utilidade u(c, si)atribu´ıda pelo usu ário c à items si ∈ S que s ão similares ao item

s(ADOMAVICIUS; TUZHILIN, 2005).

Assim, considerando Content(s) o perfil de um item, ou seja, um conjunto de atributos que caracterizam o item s, este valor é utilizado para determinar a im-port ância do item para fins de recomendaç ão, calculado de forma geral atrav és da avaliaç ão de um conjunto de caracter´ısticas do item s. A partir da obtenç ão do perfil do usu ário, associado aos itens de sua prefer ência, o item ou conjunto de itens, cujo perfil Content(s) melhor atende às suas necessidades é utilizado na recomendaç ão. Uma t écnica bastante utilizada em SR baseados em conte údo é a indexaç ão de frequ ência de termos. Nessa abordagem, informaç ões relacionadas aos documentos e necessidades dos usu ários s ão descritas na forma de vetores com uma dimens ão para cada ocorr ência de uma palavra na base de dados (CAZELLA; NUNES; REATE-GUI, 2010).

Uma das medidas mais conhecidas para especificar pesos de palavras-chave em recuperaç ão da informaç ão é a medida TF-IDF (Term Frequency - Inverse Document Frequency), que pode ser representada da seguinte maneira:

Supondo que N é o n úmero total de documentos que podem ser recomendados para os usu ários e que a palavra ki aparece em ni documentos.

Considerando que fi,j ´e o n ´umero de vezes em que a palavra ki aparece no

docu-mento dj. Ent ão T Fi,j, a frequ ência do termo (ou frequ ência normalizada) da palavra

ki no documento dj, pode ser definida como:

T Fi,j =

fi,j

maxzfz,j

(2) onde o m áximo é calculado sobre a frequ ência fz,j de todas as palavras kz que

aparecem no documento dj.

Entretanto, palavras que aparecem em muitos documentos n ão s ão úteis na distinç ão de relev ância entre um documento e outro. Dado esse fato, a medida de frequ ência inversa do documento (IDFi) é muitas vezes utilizada em combinaç ão

com a frequ ˆencia simples do termo (T Fi,j). A medida de frequ ˆencia inversa para a

palavra ki pode ser definida como:

IDFi = log

N ni

(3)

Assim, o peso TF-IDF para a palavra ki no documento dj pode ser definido da

(25)

wi,j = T Fi,j × IDFi (4)

O conte ´udo do documento dj pode ser definido como:

Content(dj) = (w1j, . . . wkj)

A frequ ência que uma determinada palavra ocorre em um documento ou em uma consulta realizada pelo usu ário, corresponde a um componente do vetor. Dessa forma, os vetores de documentos mais relevantes para o usu ário s ão aqueles mais pr óximos aos vetores de consulta.

A definic¸ ˜ao de similaridade pode ser formalizada estabelecendo

ContentBasedP rof ile(c) como sendo o perfil do usu ´ario c, que pode ser

obtido atrav és da an álise de conte údo dos itens previamente avaliados pelo usu ário. ContentBasedP rof ile(c) pode ser definido como um vetor de pesos (wc1, . . . , wcj)onde cada peso wci denota a import ância do termo ki para o usu ário

cutilizando-se a medida TF-IDF.

Em sistemas baseados em conte údo a funç ão utilidade u(c, s) é geralmente defi-nida conforme a Equaç ão 5 (ADOMAVICIUS; TUZHILIN, 2005):

u(c, s) = score(ContentBasedP rof ile(c), Content(s)) (5)

A representac¸ ˜ao na forma de vetores (TF-IDF) de pesos e termos ~wc e ~ws pode

ser adotada tanto para ContentBasedP rof ile(c) como para Content(s). Do mesmo modo, a funç ão utilidade u(c, s) geralmente é representada na literatura de recuperaç ão de informaç ão por algum tipo de pontuaç ão heur´ıstica sobre vetores ~wc

e ~ws, como por exemplo, a medida de similaridade do cosseno, representada na

Equaç ão 6, onde K é o n úmero total de palavras no sistema:

u(c, s) = cos( ~wc, ~ws) = ~ wc. ~ws || ~wc||2 × || ~ws||2 = PK

i=1wi,cwi,s

q PK i=1w 2 i,c q PK i=1w 2 i,s (6)

Assim, o c álculo da medida de similaridade do cosseno pode ser obtido consi-derando o cosseno do ângulo formado pelos vetores que representam os documen-tos (termos e frequ ências). A descriç ão de interesses do usu ário ocorre atrav és da aquisiç ão de informaç ões fornecidas pelo pr óprio usu ário ou por meio de aç ões, como aquisiç ão, visualizaç ão e seleç ão de itens (CAZELLA; NUNES; REATEGUI, 2010).

Um exemplo adotado por ADOMAVICIUS; TUZHILIN (2005) aborda o perfil de um usu ário cuja caracter´ıstica principal é a leitura de artigos online relacionados ao tema bioinform ática. T écnicas de recomendaç ão baseadas em conte údo podem

(26)

recomen-dar outros artigos relacionados ao tema bioinform ática para o usu ário c. Uma vez que estes artigos ter ão mais termos relacionados ao tema bioinform ática (por exem-plo genoma, sequenciaç ão, prote ômica) do que os artigos sobre outros assuntos, ContentBasedP rof ile(c), conforme definido pelo vetor ~wc, ir á representar tais

ter-mos ki com pesos elevados wic. Consequentemente, um SR utilizando o cosseno ou

uma medida de similaridade relacionada atribuir ´a maior utilidade u(c, s) `a artigos que

tem termos em ~ws com maior peso ponderado e menor utilidade `aqueles em que o

termo bioinform ´atica possui um peso menor.

Dada a necessidade de estabelecer uma similaridade entre os itens, como no exemplo acima descrito, a filtragem baseada em conte údo tende a ser indicada para a recomendaç ão de itens textuais, como artigos ou documentos, onde a an álise de termos em comum é mais facilmente executada.

Com base na an álise dos trabalhos de SHARDANAND; MAES (1995) e BALA-BANOVIć; SHOHAM (1997), ADOMAVICIUS; TUZHILIN (2005) destaca as seguintes limitaç ões associadas aos SR baseados em conte údo:

• An álise de conte údo limitada: Abordagens baseadas em conte údo s ão

limita-das pelos recursos explicitamente associados aos objetos a serem recomenda-dos. Conte údo multim´ıdia, por exemplo, como imagens gr áficas, áudio e v´ıdeo s ão dif´ıceis de serem analisados de forma autom ática. Da mesma forma, a recomendaç ão de itens como roupas ou brinquedos tamb ém poderia ser rea-lizada atrav és desta abordagem. Entretanto, é necess ário identificar atributos associados aos objetos, como peso, preço, marca, entre outros, o que na pr ática pode ser trabalhoso ou dificultado pela limitaç ão de recursos.

Documentos baseados em texto s ão mais f áceis de serem analisados, por ém, dois itens distintos que s ão representados pelo mesmo conjunto de carac-ter´ısticas ou palavras-chave n ão podem ser distinguidos pelo sistema, como por exemplo, um artigo bem escrito e um mal escrito que utilizam os mesmos termos. • Super especializaç ão: Considerando que SR baseados em conte údo tendem

a recomendar itens que o usu ário gostou ou avaliou positivamente no passado, o usu ário est á limitado a receber apenas recomendaç ões semelhantes àquelas que j á foram classificadas e possuem uma pontuaç ão elevada em relaç ão ao seu perfil. Outro problema a ser considerado é que, dependendo do contexto de aplicaç ão, a recomendaç ão de itens muito semelhantes aos que o usu ário j á visualizou pode n ão ser positiva, como uma not´ıcia diferente descrevendo o mesmo evento, por exemplo.

Para ADOMAVICIUS; TUZHILIN (2005) uma caracter´ıstica desej ável em um SR é a diversidade de recomendaç ões, ou seja, o sistema deve ser capaz de

(27)

apresentar uma variedade de opç ões ao usu ário, n ão apenas um conjunto ho-mog êneo de alternativas.

• Problema do novo usu ´ario: Tendo em vista a necessidade de conhecer as

prefer ências do usu ário, para que a recomendaç ão seja realizada de forma confi ável, um SR baseado em conte údo necessita que os itens a serem re-comendados possuam um certo n úmero de classificaç ões. Portanto, um novo usu ário, com poucas ou nenhuma avaliaç ão sobre os itens, provavelmente n ão receber á recomendaç ões precisas.

2.3.2 Recomendac¸ ˜ao Colaborativa

A recomendac¸ ˜ao colaborativa foi desenvolvida para complementar a

recomendaç ão baseada em conte údo (BALABANOVIć; SHOHAM, 1997). Seu

diferencial é caracterizado pelo fato de n ão estar ligada às caracter´ısticas do objeto, ou seja, compreender ou reconhecer o conte údo dos itens, torna-se dispens ável (CAZELLA; NUNES; REATEGUI, 2010).

Ao contr ário dos m étodos de recomendaç ão com base em conte údo, SR colabo-rativos tentam prever a utilidade de itens para um determinado usu ário. Para tanto, deve-se tomar por base itens previamente avaliados por outros usu ários. O sistema reconhece semelhanças entre os usu ários a partir de um conjunto de avaliaç ões ou recomendaç ões de objetos, gerando novas recomendaç ões baseadas neste relacio-namento (BURKE, 2002). Para CAZELLA; NUNES; REATEGUI (2010) a ideia principal consiste em explorar a troca de experi ências entre pessoas que possuem interesses em comum. Esta t écnica permite lidar com qualquer tipo de conte údo, n ão apenas aqueles observados no passado. Ela possibilita que os itens sejam avaliados por diferentes usu ários, o que pode melhorar o desempenho do sistema em relaç ão ao processo de recomendaç ão (BALABANOVIć; SHOHAM, 1997).

Sistemas de recomendaç ão colaborativos geram previs ões ou recomendaç ões

para um determinado usu ´ario de um ou mais itens. De maneira formal, a

recomendac¸ ˜ao colaborativa pode ser representada da seguinte maneira (ADOMAVI-CIUS; TUZHILIN, 2005):

a utilidade u(cj, s)do item s para o usu ´ario c ´e estimada com base na utilidade

u(cj, s)por aqueles usu ários cj ∈ C que s ão semelhantes ao usu ário c.

O termo usu ário pode ser atribu´ıdo à qualquer pessoa respons ável pelo

pro-vimento de classificaç ões para um sistema. Geralmente este termo é utilizado

para referenciar pessoas que utilizam um sistema para receber informaç ões, como recomendaç ões, por exemplo. Entretanto pode referir-se tamb ém àqueles que forne-cem dados (classificaç ões) utilizados na produç ão de informaç ões.

(28)

O termo item refere-se a qualquer coisa para a qual um ser humano pode atri-buir uma classificaç ão, como livros, CDs, artigos de jornal ou destinos de f érias. As classificaç ões por sua vez, podem assumir diferentes formas (SCHAFER et al., 2007): • Classificaç ões escalares - podem ser classificaç ões num éricas, como as 5

es-trelas previstas no MovieLens ou classificac¸ ˜oes ordinais, como concordo, neutro, discordo, discordo totalmente.

• Classificaç ões Bin árias - modelo de classificaç ões com opç ões entre

concor-dam/discordam ou bom/ruim.

• Classificaç ões Un árias - pode indicar que um usu ário tenha observado ou

com-prado um item, ou n ˜ao avaliou o item de forma positiva.

Assim, a tarefa principal consiste na previs ão de utilidade de um item para um determinado usu ário. Esta previs ão d á-se atrav és da utilizaç ão de uma base de dados, constitu´ıda a partir de avaliaç ões de uma amostra ou populaç ão de outros usu ários.

A aus ência de uma classificaç ão indica que n ão se tem informaç ões sobre o usu ário para o item. Sendo assim, o usu ário deve atribuir uma pontuaç ão para cada item experimentado de forma a classific á-lo em um conjunto de itens de seu interesse. Esta pontuaç ão pode ser atribu´ıda de forma expl´ıcita ou impl´ıcita (BREESE; HECKER-MAN; KADIE, 1998):

• Expl´ıcita - ocorre atrav és da interaç ão direta do usu ário com o sistema. O

usu ário expressa sua prefer ência por um item, geralmente atrav és de uma es-cala num érica discreta, como a classificaç ão de um filme como bom ou ruim em uma escala de um a cinco, por exemplo.

• Impl´ıcita - d á-se atrav és da interpretaç ão de comportamento, ou seleç ões do

usu ário para imputar um voto ou prefer ência. Para tanto, pode basear-se em dados de navegaç ão, hist órico de compras, entre outros tipos de padr ões de acesso à informaç ão. O sistema infere prefer ências do usu ário a partir de suas aç ões, n ão sendo exigido que o mesmo avalie de forma expl´ıcita o item.

O sistema de recomendaç ão de filmes MovieLens (GOOD et al., 1999) é um exem-plo de aplicaç ão baseado em filtragem colaborativa. A partir de pontuaç ões atribu´ıdas à filmes j á assistidos, o sistema encontra usu ários com gostos semelhantes para re-comendar filmes que ainda n ão tenham visto.

Um usu ário do MovieLens atribui classificaç ões à filmes atrav és de uma pontuaç ão que varia de uma (1) a cinco (5) estrelas, onde uma (1) significa que o filme é muito ruim e cinco (5) é a melhor classificaç ão atribu´ıda, indicando que o usu ário gostou e recomenda o filme. Em seguida o sistema utiliza as classificaç ões para recomendar

(29)

outros filmes que podem ser de interesse do usu ário, ou ainda, para realizar previs ões acerca de como o usu ário poderia avaliar outros filmes.

A classificaç ão consiste na associaç ão entre os usu ários e os itens, geralmente por meio de algum valor. Uma maneira de visualizar classificaç ões é como uma ma-triz. Esta matriz pode ser representada por uma tabela onde cada linha representa um usu ário, cada coluna representa um filme espec´ıfico e o valor na intersecç ão de uma linha e uma coluna representa o valor de classificaç ão atribu´ıdo pelo usu ário. A aus ência de uma pontuaç ão de classificaç ão nesta interseç ão significa que o usu ário ainda n ão avaliou o item (SCHAFER et al., 2007).

A Tabela 1 reproduz de forma pr ática o funcionamento da filtragem colaborativa. Neste exemplo, para recomendar um filme ao usu ário seis (6), deve-se procurar outros usu ários com prefer ências semelhantes. Neste caso, os usu ários um (1) e dois (2) j á assistiram filmes que o usu ário seis (6) tamb ém assistiu (Filme 2). Portanto, pode-se recomendar ao usu ário seis (6) filmes que estes dois outros usu ários j á assistiram, mas que o usu ário seis (6) ainda n ão assistiu, como os Filmes 1 e 5.

A decis ão sobre a recomendaç ão destes itens deve ainda basear-se no hist órico de avaliaç ões comuns e o valor de prediç ão calculado a partir das classificaç ões atribu´ıdas pelos usu ários.

Tabela 1: Recomendac¸ ˜ao baseada em filtragem colaborativa

Usu ´ario Filme 1 Filme 2 Filme 3 Filme 4 Filme 5 Filme 6

1 x R(x) 2 R(x) x 3 x x x 4 x 5 x x 6 ? x ?

Fonte: Adaptada de CAZELLA; NUNES; REATEGUI (2010)

A t écnica de filtragem colaborativa pode ser definida em tr ês passos, descritos conforme a seguir, segundo a vis ão de (CAZELLA; NUNES; REATEGUI, 2010):

• Calcular o peso de cada usu ário em relaç ão à similaridade ao usu ário alvo (m étrica de similaridade).

• Classificar um subconjunto de usu ários com maior similaridade (vizinhos) para utilizar na prediç ão.

• Normalizar as avaliaç ões e computar as prediç ões ponderando as avaliaç ões dos vizinhos com seus pesos.

(30)

A definiç ão da similaridade pode ser obtida atrav és da aplicaç ão de diferentes coe-ficientes de similaridade como Coseno, Pearson, entre outros. A Equaç ão 7 apresenta o coeficiente de correlaç ão de Pearson (amplamente abordado na literatura sobre SR) e adotado tamb ém pelo GroupLens (RESNICK et al., 1994), um dos primeiros siste-mas de filtragem colaborativa:

coorab = P i(rai − ra)(rbi− rb) pP i(rai − ra)2 P i(rbi− rb)2 (7) Onde:

• coorab é a correlaç ão do usu ário alvo a com um dado usu ário b;

• rai é a avaliaç ão que o usu ário ativo a atribuiu para o item i;

• rbi é a avaliaç ão que o usu ário ativo b atribuiu para o item i;

• ra é a m édia de avaliaç ões do usu ário ativo a, em comum com o usu ário b;

• rb é a m édia de avaliaç ões do usu ário ativo b, em comum com o usu ário a.

Segundo CAZELLA; NUNES; REATEGUI (2010) é preciso mais de uma avaliaç ão em comum para que o ´ındice seja útil, com resultados variando entre um (1) para similaridade total, e menos um (-1) para total dissimilaridade.

A prediç ão é calculada independentemente do coeficiente empregado para o c álculo de similaridade. D á-se atrav és de uma m édia ponderada das avaliaç ões dos vizinhos que apresentaram um coeficiente de similaridade aceit ável, tomando-se por base o limiar adotado. A equaç ão a seguir apresenta o c álculo da prediç ão segundo a vis ão do mesmo autor:

pai = ra + Pn b=1(rbi− rb) ∗ coorab Pn b=1|coorab| (8) Onde:

• coorab é a correlaç ão do usu ário alvo a com um determinado usu ário b;

• pai é a prediç ão de um item i para um usu ário alvo a;

• ra é a m édia de avaliaç ões do usu ário alvo a aos itens que foram pontuados por

todos os seus usu ´arios similares;

• rbi é a avaliaç ão que o usu ário alvo b atribuiu para o item i;

(31)

O algoritmo de filtragem colaborativa mais conhecido e que faz uso das t écnicas acima descritas é o algoritmo do vizinho mais pr óximo, que pode ser dividido em duas classes ou abordagens distintas: baseado em usu ário e baseado em item (SCHAFER et al., 2007).

• Baseado em usu ário: Gera recomendaç ões para um determinado usu ário com

base em avaliaç ões de usu ários semelhantes. Se um usu ário n é semelhante a um usu ário u, dize-se que n é um vizinho de u.

• Baseado em item: Gera recomendac¸ ˜oes com base na similaridade entre os

itens. A previs ão para um item deve ser baseada em avaliaç ões de um usu ário para itens semelhantes.

A principal vantagem associada à utilizaç ão da filtragem colaborativa é a possibilidade de apresentar aos usu ários recomendaç ões inesperadas, ou seja, recomendaç ões de itens que n ão foram ativamente pesquisados. Al ém disso, pro-porciona a formaç ão de comunidades de usu ários atrav és da an álise de similaridade entre seu gostos e interesses (CAZELLA; NUNES; REATEGUI, 2010).

Apesar das vantagens anteriormente citadas, em sistemas colaborativos, uma quest ão importante a ser observada é a coleta de informaç ões dos usu ários, que pode apresentar as seguintes limitaç ões (ADOMAVICIUS; TUZHILIN, 2005):

• Problema do novo item: Sistemas colaborativos geram recomendac¸ ˜oes

basea-dos nas prefer ências basea-dos usu ários. Deste modo, at é que um novo item tenha um n úmero significativo de avaliaç ões, o sistema n ão ser á capaz de recomend á-lo de forma eficiente.

• Problema de pontuaç ões esparsas: d á-se quando o n úmero de avaliaç ões é

muito inferior em relaç ão ao n úmero de classificaç ões necess árias. Al ém disso, para o usu ário com gostos incomuns em comparaç ão ao resto da populaç ão, n ão existir á outros usu ários com gostos semelhantes, levando à recomendaç ões pobres.

• Problema do novo usu ´ario: Assim como em sistemas baseados em conte ´udo,

para fazer recomendaç ões precisas, o sistema depende de avaliaç ões pr évias para aprender as prefer ências do usu ário. A maioria das t écnicas utilizadas para contornar este problema utiliza a abordagem h´ıbrida, combinando a filtragem baseada em conte údo e a filtragem colaborativa.

2.3.3 Recomendac¸ ˜ao H´ıbrida

Um sistema h´ıbrido baseia-se na combinaç ão de t écnicas de recomendaç ão, obje-tivando suprir limitaç ões particularmente associadas a cada t écnica (RICCI; ROKACH; SHAPIRA, 2011), (ADOMAVICIUS; TUZHILIN, 2005).

(32)

A combinaç ão de t écnicas para otimizaç ão de resultados n ão é algo novo. BURKE (2002) j á atentava para o fato de que as t écnicas de recomendaç ão conhecidas possu´ıam pontos fortes e fracos. Desta forma, sua combinaç ão de diferentes ma-neiras, constitui em uma abordagem bastante utilizada por muitos pesquisadores na tentativa de otimizar o processo de recomendaç ão.

As diferentes formas de combinar m ´etodos colaborativos e baseados em conte ´udo em um SR H´ıbrido podem ser classificadas da seguinte forma segundo ADOMAVI-CIUS; TUZHILIN (2005):

• Implementaç ão de m étodos de colaboraç ão e baseados em conte údo se-paradamente, combinando suas previs ões: Consiste na combinaç ão de

recomendaç ões, adquiridas a partir de SR individuais, em uma recomendaç ão final. A principal vantagem na utilizaç ão desta abordagem é a possibilidade de realizar ajustes em ambas as t écnicas de forma separada, beneficiando a recomendaç ão final (CLAYPOOL et al., 1999). Outra forma, seria avaliar as recomendaç ões com base em alguma m étrica de qualidade ou, de maneira in-dividual, utilizando a que melhor atende às necessidades do usu ário (TRAN; COHEN, 2000).

• Incorporando algumas caracter´ısticas baseadas em conte ´udo em uma abordagem colaborativa: Nesta abordagem, diferente de uma abordagem

pu-ramente colaborativa, baseada em classificaç ões feitas pelo usu ário, o vetor de recomendaç ões é aumentado tomando-se por base tamb ém o perfil do usu ário (BALABANOVIć; SHOHAM, 1997). Assim, utiliza-se tamb ém o hist órico relacio-nado aos itens de sua prefer ência, e n ão apenas as classificaç ões, para calcular a similaridade entre dois usu ários.

• Incorporando algumas caracter´ısticas colaborativas em uma abordagem baseada em conte údo: Consiste na utilizaç ão de t écnicas para reduç ão de

dimensionalidade em um grupo de perfis com base em conte údo. Um exem-plo pode ser visto em (SOBOROFF; NICHOLAS, 1999), que utiliza a indexaç ão sem ântica latente para criar uma vis ão colaborativa de uma coleç ão de perfis do usu ário.

• Construç ão de um modelo unificador geral que incorpora tanto carac-ter´ısticas baseadas em conte údo e colaborativas: Esta abordagem

su-gere a utilizaç ão de caracter´ısticas peculiares à cada t écnica, combinando recomendaç ões colaborativas e baseadas em conte údo em único recomenda-dor baseado em regras, (BASU et al., 1998). A recomendaç ão propriamente dita, d á-se atrav és da utilizaç ão de alguma heur´ıstica ou regra probabil´ıstica

(33)

(AN-SARI; ESSEGAIER; KOHLI, 2000; POPESCUL; PENNOCK; LAWRENCE, 2001; SCHEIN et al., 2002).

2.4 Intelig ˆencia de Enxames

O termo intelig ência de enxames surgiu no final de 1980 como refer ência à siste-mas rob óticos celulares nos quais um conjunto de agentes simples em um determi-nado ambiente interagem com base em regras locais (CASTRO, 2007). Atualmente, diversas abordagens t êm sido propostas atrav és da modelagem de comportamento de enxames de animais e insetos como formigas, cupins, abelhas, p ássaros e peixes. A Intelig ência de Enxames (SI) é uma t écnica para o desenvolvimento de algo-ritmos de otimizaç ão projetados com base no comportamento coletivo e na

auto-organizac¸ ˜ao dos insetos sociais (BONABEAU; DORIGO; THERAULAZ, 1999). O

termo enxame é utilizado para designar um grupo de animais, tais como um cardume de peixes, um bando de p ássaros ou col ônias de insetos, como formigas, cupins, abe-lhas, entre outros, que executam comportamento coletivo.

A auto-organizaç ão pode ser caracterizada como um agrupamento din âmico de regras, cujas respostas às interaç ões de baixo n´ıvel de seus elementos menos com-plexos, resultam em padr ões complexos em um n´ıvel global (BOFFO; FERREIRA JR; BAZZAN, 2007). A aplicaç ão destas regras deve tomar por base apenas informaç ões locais, sem demais refer ências para o n´ıvel global ou macrosc ópico (FERREIRA JR; BOFFO; BAZZAN, 2007). Esta emerg ência de novos padr ões, sem supervis ão, é a caracter´ıstica fundamental de sistemas complexos.

A auto-organizaç ão consiste em quatro princ´ıpios b ásicos (BONABEAU; DORIGO; THERAULAZ, 1999)

1. Feedback positivo - s ˜ao regras comportamentais capazes de promover a

criaç ão de estruturas. Recrutamento e reforço tais como assentamentos de tri-lhas a seguir (caracter´ısticos de algumas esp écies de formigas), ou danças (em abelhas) podem ser mostrados como exemplos de respostas positivas.

2. Feedback negativo - Utilizado para contrabalanc¸ar o feedback positivo. Ajuda a

estabilizar o padr ão coletivo, podendo assumir a forma de saturaç ão, exaust ão, ou competiç ão. Tomando-se o forrageamento como exemplo, o feedback ne-gativo pode decorrer do n úmero limitado de forrageiras dispon´ıveis, saciedade, aglomeraç ão, concorr ência, ou exaust ão da fonte de alimentos.

3. Flutuaç ões - A aleatoriedade al ém de proporcionar o surgimento de estruturas

emergentes, é muitas vezes considerada crucial. Assim como permitem a des-coberta de novas soluç ões, as flutuaç ões, tais como passeios aleat órios, erros ou altern ância de tarefas aleat órias entre indiv´ıduos do enxame, s ão vitais para

(34)

a criatividade e inovaç ão. Elas podem atuar como sementes das quais as es-truturas de n úcleos emergem. Como exemplo, podemos citar forrageiras que se perdem em uma col ônia e encontram novas fontes de alimentos ainda n ão exploradas.

4. Variedade de interaç ões - A variedade de interaç ões é fundamental para a

auto-organizaç ão. Os agentes devem ser capazes de fazer uso de suas pr óprias informaç ões, bem como de informaç ões provenientes de outros agentes. Dessa forma, as informaç ões e os dados poder ão ser propagados pela col ônia.

Os agentes em um enxame se comportam sem supervis ão e cada um deles tem um comportamento estoc ástico relacionado à sua percepç ão do ambiente (KARA-BOGA; AKAY, 2009). Uma col ônia de insetos, por exemplo, com centenas de milhares de membros, opera sem qualquer coordenaç ão expl´ıcita. Um agente possui apenas informaç ão local simples, sendo incapaz de avaliar as necessidades da col ônia.

A principal caracter´ıstica do comportamento emergente é a plasticidade na divis ão do trabalho dentro da col ônia (ROBINSON, 1992). O ambiente e seus recursos s ão utilizados de maneira eficaz atrav és do uso da intelig ência coletiva, respondendo às mudanças de condiç ões internas e externas.

As caracter´ısticas principais que comp õem um sistema de intelig ência de enxame s ão (MILLONAS, 1994):

• Proximidade - deve haver interac¸ ˜ao entre os agentes do enxame;

• Qualidade - os agentes devem ser capazes de avaliar seus comportamentos,

respondendo a fatores de qualidade no ambiente, tais como seguranc¸a local ou qualidade de produtos alimentares;

• Diversidade - permite ao sistema reagir a situac¸ ˜oes inesperadas, utilizando seus

recursos de maneira adequada;

• Estabilidade - o comportamento de um agente n ão deve mudar a cada flutuaç ão

do ambiente;

• Adaptabilidade - capacidade de adequaç ão a variaç ões ambientais, alterando

seu comportamento quando a economia ou o investimento de energia for conve-niente.

Entre as abordagens mais populares em intelig ência de enxames, pode-se desta-car o algoritmo de otimizaç ão por col ônias de formigas, descrito na seç ão a seguir.

(35)

2.4.1 Otimizaç ão por Col ônia de Formigas

Apesar da simplicidade de seus agentes, col ônias de formigas, assim como ou-tros grupos de insetos sociais, constituem sistemas distribu´ıdos que apresentam uma organizaç ão altamente estruturada (DORIGO; DI CARO; GAMBARDELLA, 1999). Essa organizaç ão emergente do comportamento coletivo resulta na realizaç ão de tarefas complexas que na maioria das vezes n ão poderiam ser executadas por um único agente. Como exemplo, podemos observar o alto n´ıvel de estruturaç ão que uma col ônia de formigas pode atingir.

Outro comportamento a ser observado é o forrageamento. Particularmente a forma como as formigas encontram o caminho mais curto entre seu ninho e a fonte de ali-mentos. Tal caracter´ıstica est á relacionada ao conceito de estigmergia - uma forma de comunicaç ão indireta, utilizada por insetos sociais para coordenar suas atividades DORIGO; BONABEAU; THERAULAZ (2000).

Estigmergia foi o termo adotado por GRASS É (1959) para definir o est´ımulo dos agentes atrav és da performance alcançada. Ele observou que os insetos s ão capazes de responder aos chamados est´ımulos significativos, que ativam uma reaç ão geneti-camente codificada (GRASS É, 1946). Em insetos sociais como cupins e formigas os efeitos dessas reaç ões podem atuar como novos est´ımulos, tanto para o agente que os produziu, como para outros indiv´ıduos da col ônia.

A estigmergia possui duas caracter´ıstica principais (DORIGO; BIRATTARI; ST ¨UTZLE, 2006):

• É uma forma indireta, n ão-simb ólica de comunicaç ão, mediada pelo ambiente: insetos trocam informaç ões modificando seu meio ambiente;

• As informaç ões s ão locais: elas s ó pode ser acessadas por aqueles agentes que visitam o local em que a informaç ão est á dispon´ıvel (ou sua vizinhança imediata). O princ´ıpio b ásico da estigmergia pode ser descrito como um rastro no ambiente deixado pelo agente durante a realizaç ão de alguma tarefa. Esse rastro torna-se um est´ımulo para a realizaç ão de tarefas subsequentes, tanto para o agente que o deixou quanto para outros agentes da col ônia. Esta mediaç ão atrav és do ambiente garante que as tarefas sejam executadas de forma ordenada, sem qualquer tipo de controle, planejamento, ou interaç ão direta entre os agentes (HEYLIGHEN, 2011). Nesse con-texto, uma classe de mecanismos estigm érgicos, particularmente, os chamados algo-ritmos de otimizaç ão por col ônia de formigas, vem sendo amplamente explorados na tentativa de encontrar soluç ões para uma variedade de problemas computacionais.

Em algoritmos de formigas os agentes s ão denominados formigas artificiais. A coordenaç ão entre os agentes é obtida atrav és da exploraç ão do mecanismo de comunicaç ão estigm érgico (DORIGO; BONABEAU; THERAULAZ, 2000).