• Nenhum resultado encontrado

Jornal Personalizado: Sistema MyNewsPaper

Processo de Indexação

7 Casos de Estudo com Base na Metodologia Proposta

7.1 Jornal Personalizado: Sistema MyNewsPaper

7.1.1 Motivação

Criar um jornal feito à medida de cada utilizador, onde apenas são apresentadas as notícias do seu interesse e ordenadas por ordem de preferência é a motivação para o MyNewsPaper. Um sistema que dado um conjunto de necessidades de informação estáveis (perfil do utilizador) produza de forma automática a informação noticiosa de um conjunto de utilizadores registados.

7.1.2 Objectivo

O objectivo do MyNewsPaper é construir um jornal à medida dos interesses do utilizador, podendo este escolher as fontes de informação, a periodicidade dos eventos, o tipo de informação que deseja, mas também definir a informação em que realmente não está interessado e que não pretende receber. Como fonte de informação é usado o jornal “Público” <www.publico.pt>, sendo possível acrescentar outras fontes de

usar apenas uma fonte de informação). A Figura 7.2 ilustra o diagrama de pacotes das vistas propostas para o modelo conceptual do sistema MyNewsPaper, bem como o objectivo da sua criação.

Figura 7.2: Sistema MyNewsPaper

7.1.3 Vista de Casos de Utilização

L e ito r D e fin e o P e rfil In tro d u z o s Te rm o s E s c o lh e a s C a te g o ria s e Te rm o s n u m E s p a ç o C la s s ific a d o E s c o lh a d e u m a C o m u n id a d e R e c e b e R e c o m e n d a ç õ e s d o S is te m a E s c o lh e a P a s s w o rd D e fin e a P e rio d ic id a d e E d ito ra V a lid a ç ã o d a C o m u n id a d e d e U tiliz a d o re s E s c o lh e a s F o n te s d e In fo rm a ç ã o F a z R e tro a c ç ã o s o b re o s R e s u lta d o s C ria e g e re o S is te m a C la s s ific a ç ã o p a ra J o rn a is D e fin e n ú m e ro m á x im o d e n o tíc ia s « e x te n d » « e xte n d » « e x te n d » « e x te n d » « e xte n d » « e x te n d »

Figura 7.3: Casos de uso do sistema MyNewsPaper.

Os IR-Actors, ilustrados na Figura 7.3 são:

A Editora (IR-Authority), que cria e gere o sistema de classificação (secções) para um jornal e valida as comunidades identificadas pelo sistema.

O Leitor (IR-User), que recebe recomendações de notícias relevantes, escolhe os jornais (fontes de informação), produz retroacção aos resultados obtidos e define o perfil através da:

o Definição da periodicidade dos eventos. o Definição do número máximo de notícias. o Definição da palavra-chave. « IR -S y ste m » M yN e w s P a p e r + V i sta C a so sU ti l i z a çã o + V i sta In fo rm a çã o + V i sta P ro c e sso s O b j e cti vo : C ri a r u m j o rn a l p e rso n a l i z a d o .

o Definição dos termos do perfil através de uma das seguintes opções: (1) introdução de termos livres; (2) escolha de termos ou categorias num sistema de classificação; (3) escolha da comunidade que mais lhe interessa.

7.1.4 Vista de Informação

« IR -U se rP ro fi l e » P e rfilU tiliz a d o rJ o rn a l - se cç ã o [*]: S tri n g - n ú m e ro m a x n o tíc i a s: In t « IR -C o m u n i ty » C o m u n id a d e J o rn a is « IR -C l a ssi fi e d S y ste m » S is te m a C la s s ific a ç ã o J o rn a l - se c ç ã o [*]: S tri n g « IR -R e su l t» R e c o m e n d a ç ã o « IR -C o l l e ti o n » J o rn a lP u b lic o - se c ç ã o : S tri n g « IR -In d e x » Ín d ic e J o rn a lP u b lic o - se c ç ã o : S tri n g « IR -P ro c e ss» R o b o tL a rb in - U R L : S tri n g « IR -S y ste m » M yN e w s P a p e r i d e n ti fi c a ç ã o c o m u n i d a d e + o u tp u t n o tíc i a s re l e v a n te s + o u tp u t p ro d u z > + i n p u t ín d i c e p ro c e sso i n d e x a ç ã o + i n p u t n e c e ssi d a d e s d e i n fo rm a ç ã o p e rfi l c e n tra l c o m u n i d a d e te rm o s + c a te g o ri a s

Figura 7.4: Vista de Informação do sistema MyNewsPaper.

A informação necessária para o funcionamento do sistema MyNewsPaper encontra-se ilustrada na Figura 7.4, a qual é composta pela colecção, índice, sistema de classificação, perfil do utilizador, comunidade e resultado.

A Colecção é criada pelo robot de pesquisa Larbin, que esta configurado para ir buscar diariamente, toda a informação disponível, ao endereço <jornal.publico.pt/

ano/mês/dia/secção>. Deriva da classe abstracta colecção e é formada pelo conjunto

de notícias de cada secção (documento). Estes documentos são identificados pela data, secção e referência interna. Apenas se considerou a informação textual.

Índice Jornal Público, obtido pelo processo de indexação o qual deriva da classe

abstracta ÍndiceEspecífico. Contém referência ao documento inicial (notícia é guardada sob a forma data-secção-referência_interna). Os títulos são identificados e é lhes atribuída uma frequência dez vezes superior. Foram removidas as stop words do Português e os termos foram radicalizados com base no algoritmo de Porter para Português implementado pelo Snowball. São guardados na base de dados os termos

identificados como representativos e o respectivo peso, sendo este calculado com base na Fórmula F2.5.

Sistema de Classificação, foi construído com base no facto de a informação num jornal

se encontrar de uma forma geral, organizada por temas (secções). O Público on-line apresenta a seguinte estrutura (ano de 2004) <url/ano/mês/dia/secção>, sendo a

secção o conjunto de temas disponíveis: (1) Nacional; (2) Mundo; (3) Espaço Público; (4) Sociedade; (5) Ciências; (6) Cultura; (7) Desporto; (8) Economia; (9) Media; (10) Local Lisboa; (11) Local Porto; (12) Local Minho. Estas secções correspondem às categorias principais do Sistema de classificação. Nesta fase inicial do sistema não foram definidos outros níveis.

Perfil do Utilizador, deriva da classe abstracta PerfilUtilizador onde se define:

endereço de correio electrónico, palavra-chave, periodicidade, número máximo de notícias, fonte de informação (jornal, ainda não disponível) termos positivos do perfil, obtidos por uma das três formas disponíveis: (1) introdução livre de termos; (2) escolha de uma comunidade; (3) escolha de categorias no espaço classificado. O Utilizador pode ainda definir um perfil negativo, sobre temas noticiosos nos quais não tem interesse em receber informação.

A informação de quais as temáticas mais procuradas é valiosa para produtores de informação e é obtida através da identificação de comunidades. Devidamente explorada esta informação pode ser usada para fins comerciais, num sistema aberto na Internet. Recorde-se que o sistema funcionou em modo fechado, tendo sido simulados um conjunto de interesses fictícios de diferentes utilizadores.

O sistema MyNewsPaper recebe a informação dos processos descritos na vista de processos, apresentando os resultados obtidos pelo perfil positivo menos os obtidos pelo perfil negativo, limitado ao número máximo de notícias pré-definido. Com base no processo de retroacção pode alterar-se o perfil do utilizador. As notícias são apresentadas por ordem da medida de relevância.

Resultados

O protótipo do MyNewsPaper foi testado durante dois meses, tendo sido criados 12 utilizadores, 8 dos quais foram criados com interesses semelhantes (Desporto; Futebol); tendo sido explorada a identificação de comunidades e a sugestão de novos termos para os perfis. O sistema, numa fase inicial, começou por falhar a identificação de alguns documentos relevantes, por falta de termos nos perfis. Este problema foi ultrapassado à medida que o sistema, com base nos processos de retroacção implementados, foi expandido termos nos perfis. Foram encontrados novos termos (e.g., desporto+futebol+porto (perfil inicial) aos quais foram acrescentados os nomes dos

jogadores, dos treinadores e dos dirigentes).

Outro aspecto positivo do protótipo é a apresentação de resultados por ordem de relevância dos documentos fazendo com que os utilizadores identifiquem efectivamente as notícias mais relevantes.

7.1.5 Vista dos Processos

Os processos encontram-se descritos na Figura 7.5, criados de forma a atingir os objectivos propostos.

O processo de indexação é igual ao definido na classe abstracta do processo de indexação.

O processo de retroacção do utilizador foi implementado com base na Fórmula F2.12, a qual altera os pesos dos termos ou acrescentando novos termos ao perfil do utilizador.

Figura 7.5: Vista de Processos do sistema MyNewsPaper.

O ProcessoComparação implementou o processo vectorial baseado no produto interno de vectores (representativos dos documentos e dos perfis dos utilizadores) sob a fórmula lnu-ltc (Fórmulas F2.5 e F2.7). O processo de comparação usa o perfil positivo e o

« IR -M a tch i n g P ro c e ss» P ro c e s s o C o m p a ra ç a o + F 2 .1 3 () « IR -A l g o ri th m » ln u -ltc + F 2 .7 () + F 2 .5 () « IR -O p ti m i za ti o n P ro c e ss» R e tro a c ç ã o U tiliza d o r + F 2 .1 2 () « P ro c e sso » G e s tã o E v e n to s - p e ri o d i ci d a d e : In t - n ú m e ro m a xn o tíci a s: In t « IR -In d e xP ro ce ss» P ro c e s s o In d e x a ç ã o J o rn a lP u b lic o + c o n v e rso rfo rm a to () + re m o v e rsto p l i stw o rd () + ra d i c a l i za çã o () + e sta tísti ca () + i d e n ti fi ca d o rca m p o () Ín d i c e a l te ra p e rfi l tri g g e r 1 1

negativo. O mesmo produto interno entre perfis de utilizador serve para identificar comunidades. O valor do produto interno para o qual o documento é considerado relevante é função do número de notícias escolhido e é optimizado em função da retroacção recebida (Ferreira, 2005c).

O processo GestãoEventos é responsável pela gestão dos eventos do sistema. Envia com base na periodicidade definida, a informação considerada relevante pelo sistema por correio electrónico para o utilizador. O sistema garante um nível elementar à privacidade do utilizador, pois os seus dados pessoais estão protegidos por um mecanismo seguro de login e palavra-chave. Apenas o administrador pode visualizar os dados do perfil sem, no entanto, poder fazer a associação ao utilizador.

7.2 Identificação de Programas de Televisão: MyTV (Guia