Sistema para Recuperar Informações de Blogs

a mineração de texto para extrair informação útil em um processo de enriquecimento de ontologias. Por outro lado, encontramos os seguintes problemas neste trabalho: a necessidade de criar um crawler específico para cada motor de busca, e um conjunto de dados pequenos (96 documentos, sendo 48 para cada categoria) foi usado na montagem do experimento.

A abordagem apresentada nesse trabalho se diferencia das obras acima referidas, principalmente porque:

• O framework proposto é independente de plataforma, ou seja, ele não tem que criar um crawler separado para cada host de blog;

• Algoritmos de extração de conteúdo são capazes de identificar o conteúdo textual relevante a partir de blogs independente do seu host. Além disso, foi demonstrado que a fase de pré-processamento teve um grande impacto nos resultados de classifi- cação, em que o nosso melhores resultados de classificação (precisão = 91,3% e cobertura = 89,2%).

6.4 Sistema para Recuperar Informações de Blogs

Os principais sistemas que procurar trabalhar com blogs encontrados na literatura podem serão divididos em dois blocos. O primeiro tem os sistemas Blogscope (Bansal and Koudas, 2007), Blogranger (Fujimura et al., 2006) e BlogTrackers (Agarwal et al., 2009), eles possuem serviços para obter informações dos blogs, porém não foram criados pensando em variabilidades. O segundo blog são frameworks, assim como o RetriBlog. Neste bloco temos os sistemas (Chau et al.,2009) e BlogHarvest (Joshi,2006). A seguir cada um desses sistemas são mais detalhados.

O Blogscope (Bansal and Koudas,2007) é um sistema de análise de grandes volumes de dados on-line, atualmente é aplicado à análise da Blogosfera. Ele indexa a Blogosfera e extrai informações a fim de auxiliar a análise interativa e descoberta de informações. O processo de crawler funciona da seguinte forma:

1. Recebe uma lista dos blogs atualizados na última hora1;

2. Utiliza um classificador baseado na técnica de redes bayesianas para remover spans; 3. Armazena os dados em um banco de dados relacional e cria um index para ajudar

na busca.

Além disso a sistema oferece os serviços de detecção de tags, suporte on-line para análise OLAP, interface de navegação nos blog, e extração de resumo.

O Blogranger (Fujimura et al.,2006) é uma ferramenta de busca de blogs baseada em múltiplas interfaces. Ela oferece quatro interfaces diferentes, duas para pesquisa tag, e outras para blogueiro e pesquisa reputação. As interfaces são facilmente alteradas, elas funcionam como um filtro que classifica o resultado da pesquisa baseada na intenção da pesquisa. Esta ferramenta apresenta um crawler relativamente simples, mas oferece serviços de análises sentimento de blog, detecção de tag, e uma interface de busca que são bastante interessantes.

O BlogTrackers (Agarwal et al., 2009) é uma aplicação Java que fornece uma plataforma unificada para o usuário fazer crawler e analisar os dados dos blog. Ele concede ao usuário, a liberdade de escolher os dados de interesse e ajuda na efetivamente a analisá-los. O crawler funciona da seguinte forma: i) recupera links para blogs; ii) Extraí o conteúdo principal usando expressão regular; iii) Armazena em um bando de dados relacional e cria um índice. Além disto, ela fornece serviços como recomendação tag, classificação e possui uma interface de visualização.

Em (Chau et al.,2009) é proposto um framework para mineração blog. Este fra- meworké composto por um crawler de blogs, um analisador de blog, um analisador de conteúdo do blog, um analisador de rede do blog, e um visualizador do blog. O processo de crawler tem as seguintes etapas:

1. Se conecta a sites especializados2para conseguir links de blogs;

2. Extrai informações dos blogs como nome de pessoas, nomes de produtos, informa- ções de tempo;

3. Extrai tags dos postagens;

4. Armazena as informações obtidas nas etapas anteriores. Além disto, possui um módulo de visualização para o usuário.

O BlogHarvest (Joshi,2006), como já foi dito, é um framework para busca e mi- neração de blogs que extrai os interesses dos blogueiros e recomenda blogs com temas similares. O processo do crawler funciona da seguinte maneira:

1. Recupera links de blogs de sites especializados3;

2_{Por exemplo technorati e google blogs} 3_{por exemplo technorati}

6.4. SISTEMA PARA RECUPERAR INFORMAÇÕES DE BLOGS

2. Para cada tipo de blog é criado uma regra (manualmente) que encontre o conteúdo principal;

3. Identifica as tags do blog;

4. Utiliza serviços de análise de sentimento (para dizer se o post fala bem ou mal do conteúdo da postagem) e agrupamento de usuários (para futuras recomendações); 5. Indexa os blogs.

Além disto, ele fornece uma interface que ajuda na navegação do usuário.

A principal diferença do RetriBlog para esses trabalhos é a utilização de técnicas de engenharia de software na implementação do sistema. De todos os trabalhos apresentados apenas o BlogHarvest apresenta de alguma forma um sistema que fornece para o usuário pontos de variação. Todos os outros possuem os componentes bastante acoplados. Como foi dito na seção3.7o RetriBlog possui vários pontos de variação e foi implementando usando componentes o que acarreta nas vantagens descritas na seção4.4.

Outra diferença fundamental é que nenhum dos trabalhos utiliza serviços de pré- processamento. Além disto, os serviços de extração do conteúdo apresentados são baseados em expressão regular ou regras manualmente produzidas. Desta forma eles são fortemente acoplados a apenas um tipo de blog, ou seja, para cada novo tipo de blog o usuário deve criar uma nova regra de extração.

Os serviços em comum foram os de indexação, recomendação/detecção de tag e classificação de blogs. Por outro lado, serviços de análise de sentimento, análise OLAP e extração de resumo são serviços disponibilizados por estas ferramentas que o RetriBlog não contempla.

Por fim, alguns dos trabalhos apresentados possuem interfaces enquanto o RetriBlog não disponibiliza. Isso se deve ao fato de que o sistema proposto neste trabalho é voltado para o desenvolvedor e não para o usuário final. Por isso o módulo de interface não fez parte inicialmente do projeto. A Tabela6.2faz um resumo da comparação.

Tabela 6.2 Comparação dos Trabalhos Relacionados e o RetriBlog

Sistema Pontos de Variabilidade Componentes Indexação

RetriBlog sim desacoplados sim

Blogscope não acoplados sim

Blogranger não acoplados não

BlogTrackers não acoplados sim

(Chau et al.,2009) não acoplados não BlogHarvest sim levemente acoplados sim

Sistema Extração de Conteúdo Análise de sentimento Recomendação de tag

RetriBlog Automática não sim

Blogscope não não sim

Blogranger não sim sim

BlogTrackers manual não sim

(Chau et al.,2009) manual não sim

BlogHarvest manual sim sim

Sistema análise OLAP extração de resumo Pré-processamento Classificação

RetriBlog não não sim sim

Blogscope sim sim não sim

Blogranger não não não sim

BlogTrackers não não não sim

(Chau et al.,2009) não não não não

7

Conclusão

O trabalho apresentou o RetriBlog, um framework para criar blog crawlers usando uma abordagem centrada na arquitetura e que segue o modelo de implementação COSMOS*.

As principais contribuições do trabalho foram: i) Construção de mecanismos para recuperar informação na blogosfera (blog crawlers); ii) Implementação de algoritmos para extração de conteúdo em páginas HTML; iii) Criação de serviços de recomendação de tags para blogs; iv) Avaliação da influencia da utilização de algoritmos de extração de conteúdo e pré-processamento no desempenho de classificação de páginas HTML; v) Criação de um framework centrado na arquitetura; vi) Utilização de componentes seguindo o modelo COSMOS*; vii) Criação de estudos de caso para avaliar as possíveis vantagens de criar um software centrado na arquitetura e seguindo o modelo COSMOS*.

A adoção do desenvolvimento centrado na arquitetura possibilita um melhor controle da complexidade do desenvolvimento e proporciona um consequente ganho na curva de aprendizado. O uso de componentes de software, em especial o modelo COSMOS*, proporciona uma melhor rastreabilidade entre arquitetura de software e código, o que facilita a identificação de falhas e a identificação dos eventuais pontos de evolução do software, o que representa uma potencial redução nos custos de manutenção.

Do ponto de vista funcional, o framework proposto se diferencia dos trabalhos relacionados pela presença de uma etapa de pré-processamento, que aumenta a qualidade do resultado final através da limpeza dos dados antes da extração da informação propri- amente dita e disponibiliza serviços de extração de conteúdo, recomendação de tag e classificação.

7.1 Trabalhos Futuros

1. Utilização de um dataset maior para avaliar os algoritmos de extração de conteúdo, recomendação de tags, classificação, assim como o sistema como um todo; 2. Calcular métricas como tempo de execução de cada algoritmos e custo computaci-

onal para ajudar os usuários a escolher adequadamente os algoritmos que melhor atende os requisitos da aplicação dele;

3. Criação de novos estudos de caso em outros domínios como e-commerce e e- government;

4. Criar uma aplicação voltada para o usuário final, utilizando uma interface simples de ser usada;

5. Criar uma avaliação mais detalhada com relação a outras ferramentas da literatura; 6. Aplicação do sistema no projeto BlogSpread. Projeto em parceria com universida-

des da Alemanha que visa determinar a disseminação do meme na blogosfera; 7. Aplicação do sistema com funcionalidades em francês no sistema AGATHE. Este

sistema busca extrair informações de domínios específicos da Web. O RetriBlog entraria para melhorar a parte de recuperação de informação do sistema.

No documento RetriBlog: um framework centrado na arquitetura para criação de blog crawlers (páginas 93-98)