Nos dias atuais, o volume de notícias publicadas na web cresce aceleradamente, de maneira que se torna difícil para uma pessoa acompanhar toda a informação disponibilizada. Tendo em vista o grande volume de informações apresentadas ao público, diversos trabalhos na literatura têm realizado pesquisas relacionadas ao tratamento automatizado das notícias.

Neste trabalho foram realizados estudos que visavam tratar a notícia, bem como o acesso a esta. Para isso foram realizadas duas propostas. A primeira propõe o reconhecimento de entidades nomeadas em notícias de governo, onde a tarefa de Reconhecimento de Entidades Nomeadas é caracterizada como um problema de identificar e classificar nomes próprios em textos, incluindo localizações, tais como Brasil e Rio de Janeiro; pessoas, tais como Dilma e Miriam; e organizações, tais como Ministério da Educação e Ministério da Cultura.

A tarefa de Reconhecimento de Entidades proposta nesse trabalho teve seu escopo reduzido à notícias de governo redigidas na língua portuguesa. Com a redução do escopo e o uso do Linear-Chain Conditional Random Field foi observado um notável ganho de desempenho em relação aos resultados obtidos por um sistema de reconhecimento de entidades genérico. Essa observação fornece evidências de que ao limitar o escopo dos textos utilizados há uma redução na complexidade das características intrínsecas ao problema, facilitando o processo de aprendizado.

Além disso, como fruto deste trabalho foi concebido a Coleção de Notícias de Governo – UFRJ, que demonstrou ser uma importante base para o treinamento de entidades nomeadas devido aos bons resultados obtidos após sua utilização. A Coleção de Notícias de Governo – UFRJ é uma coleção de notícias retiradas de sites do governo brasileiro, criada exclusivamente para este trabalho. As notícias foram anotadas manualmente com o auxílio de uma mestranda em Ciência da Informação da Universidade Federal Fluminense (UFF).

A segunda proposta propõe a concepção do Integrador de Notícias de Governo, cujo objetivo é manter uma base centralizada de notícias do governo que possa ser facilmente acessada por outros sistemas. Ele atua como um Portal Web em que os leitores em vez de humanos são programas que consomem os metadados e as fontes são páginas da web.

92 Nesse trabalho a arquitetura do Integrador de Notícias de Governo foi modelada e implementada. O uso do Integrador foi validado em um estudo de caso, de modo que este foi utilizado em um projeto do Ministério de Planejamento chamado Portal de Notícias de Governo com a finalidade de fornecer ao Portal uma base de notícias constantemente atualizada com as notícias publicados nos mais diversos sites de interesse.

O Portal de Notícias do Governo é uma iniciativa que envolve a cooperação da SLTI/MP, SECOM/PR, COPPE/UFRJ e SERPRO. O seu objetivo é atender às necessidades da SECOM, da SRI e prover ao público um ambiente intuitivo e robusto para a pesquisa de notícias publicadas nos sites do governo.

Como trabalhos futuros, este trabalho sugere a expansão da Coleção de Notícias de Governo – UFRJ com novas categorias, novos tipos de relacionamentos entre entidades e novos exemplos, a fim de prover uma base cada vez mais robusta. Além disso, a tarefa de reconhecimento de Relações entre Entidades Nomeadas é um problema não solucionado no meio científico e que precisa ser mais explorado.

Outra importante sugestão neste trabalho é a inclusão de ontologias na representação semântica das notícias. Por exemplo, por meio do reconhecimento de entidades e de algumas de suas relações é possível popular automaticamente uma ontologia através da leitura das notícias conforme elas vão sendo publicadas. Então, posteriormente, essas ontologias podem ser utilizadas para a realização de inferências sobre as notícias.


