Densidade informativa - SIMILARIDADE SEMÂNTICA

3.2 SIMILARIDADE SEMÂNTICA

3.2.1 Densidade informativa

Outro fator que incide sobre a noção de maior ou menor resolução semântica dos algoritmos e das bases de dados, destinados a mensurar a percepção de importância dos temas, predicados e agendas entre usuários de sistemas e ambientes informativos da Web, refere-se à densidade informativa, que segundo Barbosa (2007a, p.239), no contexto do Jornalismo Digi- tal em Base de Dados, é assegurada por uma oferta informativa mais abrangente e diversifica- da.

No contexto da operacionalização da percepção de importância de temas, predicados e agendas, a densidade informativa auxilia o pesquisador a compreender o contexto em que tais informações aparecem ou a partir dos quais tais temáticas se inserem.

Em outras palavras, podemos dizer ainda que a densidade informativa diz respeito ao grau de adequação mínima que os sistemas e ambientes informativos da Web oferecem em termos de informação relevante destinada a operacionalizar a percepção de importância dos temas, predicados e agendas, e que serão discutidos de acordo com cada sistema e ambiente selecionado, no contexto dos desafios para as pesquisas em agenda-setting assente em bases de dados e algoritmos da Web.

Uma baixa densidade informativa constitui, portanto, um desafio para pesquisadores, no que diz respeito a encontrar significado relevante por meio de palavras-chave, das tags e de posts, através de processos de mineração.

Consideramos que as definições de percepção de importância dos temas, predicados e agendas trazem consigo um alto grau de complexidade, uma vez que demandam, em grande parte, o conhecimento acerca de processos que perpassam a operação de algoritmos destinados a mensurar a similaridade semântica entre diversas variáveis relativas ao paradigma. Nes- se sentido, a contribuição da nossa pesquisa reside em traduzir a lógica de funcionamento des- ses processos, uma vez que nos resulta impossível discutir as operações algorítmicas das quais

derivam tais processos.

O uso de bases de dados e algoritmos suscita o desenvolvimento de medidas de se- melhança semântica, que se estendem para além dos procedimentos de análise de conteúdo das respostas, que têm sido tradicionalmente agrupadas e classificadas em temas de maior a- brangência (por exemplo, “eleições” categorizada na temática “política”, ou “inflação”, categorizada como “economia”).

Se, por um lado, novas formas de classificar e distribuir conteúdos, tais como as tags ou etiquetas, ampliam o escopo de temas para além de seções outrora formais e limitantes, tais como Política, Cidade, Economia, Entretenimento e Mundo, por outro lado, dificultam so- bremaneira a codificação das unidades de análise ou dos temas dos quais derivam os conteú- dos produzidos e difundidos na Web, uma vez que as tags ou etiquetas se expandem para além de classificações estanques como as que foram relacionadas acima.

Aspectos relativos à abundância de informação e à diversidade de estilos e de autori- a, além do problema de uniformização dos dados para coleta, incidem sobre a resolução se- mântica em sistemas e ambientes informativos da Web para a proposição de desenhos metodo- lógicos destinados a investigar a percepção de importância dos temas e predicados.

As informações produzidas, difundidas, acessadas e buscadas na Web geralmente são estruturadas de acordo com um modelo de dados específico, e podem ser definidas pelo uso de um conjunto de palavras-chave equiparadas com descritores ou com o texto completo dos documentos. No entanto, de acordo com Peis, Herrera-Viedma e Castillo (2009, p.184), esses serviços têm algumas limitações, uma vez que os processos de comunicação entre agentes e entre agentes e usuários são prejudicados pelas diversas formas como a informação é repre- sentada. Além disso, a heterogeneidade na representação da informação inviabiliza sua reutili- zação em outros processos e por outras aplicações.

Nesse sentido, uma possível solução para superar essas deficiências seria, segundo os autores, melhorar e enriquecer a representação da informação utilizando um vocabulário comum e um modelo de dados que fosse interpretado tanto pelos seres humanos quanto pelos próprios agentes de software.

Tais limitações guardam semelhança com muitos dos problemas encontrados nos processos de indexação e recuperação de documentos da Web: a diversidade de estilos de au- toria torna muito mais difícil de classificar documentos de acordo com um critério comum, uma vez que, em um único tópico, podem-se encontrar facilmente páginas escritas ou catego- rizadas através de tags por qualquer pessoa. Hoje, qualquer pessoa pode criar uma página na Web com elevados valores de produção, sugerindo uma rica diversidade de produtores e usuá-

rios, para além do problema de múltiplos significados (EASLEY e KLEINBERG, 2009, p.406).

Até a primeira metade do século passado, a gestão dos serviços de informação foi um domínio quase exclusivo de bibliotecários, arquivistas e profissionais de documentação. Os documentos pesquisados tendiam a ser escritos por profissionais que usavam estilo e vocabu- lário controlados (EASLEY e KLEINBERG, 2009). Com a introdução dos computadores, na segunda metade do século XX, a adaptação contínua dos processos de trabalho às novas tec- nologias e a criação da Web, na década de noventa, significaram a incorporação de novas dis- ciplinas (nomeadamente, a teoria da recuperação de informações) para esse ambiente, uma vez que todo mundo converte-se em autor e pesquisador em potencial.

Como consequência da popularização da Web, os problemas em torno de recuperação de informação aumentaram em escala e complexidade, culminando na proliferação de muitas investigações focadas no desenvolvimento de tecnologias e métodos de organização e de ges- tão da informação documental (CODINA, PEDRAZA-JIMÉNEZ e ROVIRA, 2009, p.43).

[...] atividades de busca e de classificação constituem-se um problema difícil de resolver para computadores em qualquer configuração, não apenas para a Web. O campo da recuperação de informação tem lidado com este problema há décadas antes mesmo da criação da Web: sistemas de recuperação auto- mática de informações a partir da década de 1960 foram projetados para buscar repositórios de artigos de jornal, artigos científicos, patentes, resumos jurídicos e outras coleções de documentos em resposta a consultas por palavras-chave. Sistemas de recuperação de informação sempre tiveram de lidar com o problema das palavras-chave, que são um mecanismo muito limitado para expressar a necessidade de informações complexas. Para além do fato de que uma lista de palavras-chave é curta e inexpressiva, enfrenta-se ainda o problema de sinonímia (múltiplas formas de se referir à mesma coisa, de modo que a sua busca por receitas com cebolinha falhou porque a receita que você queria chamou-a de „cebolas verdes‟) e polissemia (que significa múl- tiplos significados para o mesmo termo, de modo que a sua busca de infor- mações sobre o animal chamado jaguar, produz os primeiros resultados so- bre automóveis, jogadores de futebol, e um sistema operacional para o Apple

Macintosh131 (EASLEY e KLEINBERG, 2009, p.405).

131 No original: “[...] search is a hard problem for computers to solve in any setting, not just on the Web. Indeed, the ﬁeld of information retrieval has dealt with this problem for decades before the creation of the Web: automated information retrieval systems starting in the 1960s were designed to search repositories of newspaper articles, scientiﬁc papers, patents, legal abstracts, and other document collections in response to keyword queries. Information retrieval systems have always had to deal with the problem that keywords are a very limited way to express a complex information need; in addition to the fact that a list of keywords is short and inexpressive, it suffers from the problems of synonimy (multiple ways to say the same thing, so that your search for recipes involving scallions fails because the recipe you wanted called them “green onions”) and polysemy (multiple meaning for the same term, so that your search for information about the animal called a jaguar instead produces results primarily about automobiles, football players, and an operating system for the Apple Macintosh”.

Codina, Pedraza-Jiménez e Rovira (2009) explicam que, apesar dos avanços impor- tantes oferecidos pelas novas tecnologias, o usuário da Web ainda não dispõe de tecnologia adequada para permitir o processamento e o acesso à informação documental contida em sí- tios de maneira confiável, em função de alguns aspectos: a Web é um sistema descentralizado e heterogêneo, divergindo dos cenários com os quais as disciplinas clássicas relacionadas à documentação e recuperação de informação estavam acostumadas a lidar.

Easley e Kleinberg (2009) argumentam que um dos maiores desafios que a Web traz para os processos contemporâneos de recuperação de informação, antes marcado pelo problema da escassez, diz respeito ao problema da abundância ou dos filtros, uma vez que, dentre um enorme número de documentos, poucos são os realmente relevantes. Além disso, os indi- víduos que executarem a pesquisa vão querer verificar somente algumas páginas.

A Web apresenta ainda novos tipos de problemas. Um deles é a natureza dinâmica e em constante mudança do conteúdo que circula na rede, de modo que, se houver algum acontecimento de grande relevância, os motores de busca estão sujeitos a não recuperarem em tempo real os documentos que reproduzem tal acontecimento no momento em que foi dispo- nibilizado na rede. Em resposta a esse tipo de problema, o Google e outros grandes motores de busca construíram sistemas especializados de busca de notícias que coletam artigos de modo mais ou menos contínuo, a partir de um número relativamente fixo de fontes noticiosas, de maneira a ser capaz de responder a consultas sobre notícias minutos depois de elas aparece- rem. Ainda hoje, tais recursos de busca de notícias estão apenas parcialmente integrados à parte central da interface do motor de busca Google, e a sítios emergentes da Web, tais como o Twitter, que continuam a preencher os espaços existentes entre o conteúdo estático e de sen- sibilização em tempo real (EASLEY e KLEINBERG, 2009, p.406, 407).

No documento Agenda-Setting assente em bases de dados e algoritmos: bases conceituais e metodológicas para operacionalizar a percepção de importância de temas, predicados e agendas de usuários de sistemas e ambientes informativos da web (páginas 151-154)