Mineração de dados - Procedimentos para tratamento de informação

3.2 SIMILARIDADE SEMÂNTICA

3.2.2 Procedimentos para tratamento de informação

3.2.2.1 Mineração de dados

A mineração de dados, também conhecida como data mining, ou simplesmente DM, refere-se a um conjunto de técnicas computacionais, visando a transformar determinados dados em conhecimentos relativos ao conjunto sistêmico que eles representam (COLLE, 2002). De acordo com Colle (2002, p.68), grandes bases de dados podem conter muita “informação oculta” a qual, por sua vez, torna-se importante conhecer. Os métodos de DM podem encontrar essas informações e transformá-las em conhecimentos oportunos, sejam estes de natureza retrospectiva (histórica), prospectiva (projeções) ou “abrangente” (com vistas a entender o que está acontecendo), de modo a auxiliar empresas, organizações e poder público na tomada de decisões. Nesse sentido, o DM é essencialmente um método de exploração e descoberta.

Colle (2002) sistematiza três razões pelas quais DM tem se popularizado cada vez mais: a) o crescente volume de dados gerenciados em toda uma organização (aqui nos referi- mos ao volume de dados produzidos e disseminados entre usuários de determinados sistemas e ambientes informativos da Web, através dos quais podemos operacionalizar a metáfora do agendamento); b) as limitações humanas para analisar dados a partir de relações muti- variáveis; c) o baixo custo da aprendizagem automática (Machine Learning).

Embora os processos de DM não eliminem completamente a participação humana para resolver tarefas, suas técnicas simplificam o trabalho de modo significativo, permitindo que um analista (que não seja necessariamente um estatístico ou programador) gerencie o processo de extração de conhecimento a partir de dados (COLLE, 2002, p.69).

DM não é simplesmente uma aplicação computacional da qual existe no mercado várias „versões‟: é essencialmente um método de trabalho que pode recorrer a múltiplas aplicações, algumas mais adequadas do que outras em determinado caso. Também não é uma técnica cuja aplicação leve automati- camente a um resultado: é [...] um método de descoberta interativa [...], especialmente adequado em um cenário onde não se tem a menor idéia do que

poderia ser o produto da investigação. Por isso, é especialmente adequado nos casos em que as técnicas clássicas de análise estatística são inaplicáveis. [...] Ferramentas de DM não trazem por si só nenhuma solução. Tudo depende do conhecimento e da criatividade por parte do analista. (COLLE, 2002, p.71)136

Os métodos de DM são variados e os softwares existentes geralmente incluem um conjunto de programas que funcionam de maneiras diferentes e oferecem diferentes tipos de resultados, principalmente acompanhados de formas visuais para destacar as relações desco- bertas. Esses métodos podem ser agrupados em duas categorias baseadas nas características estruturais dos dados: a) manipulação de dados estruturados (para as quais o analista deve sa- ber ou definir previamente o formato de cada campo de dados); ou b) manipulação de dados não estruturados, tais como texto (arquivos de qualquer formato, bases de dados textuais ou imagens digitalizadas) (COLLE, 2002, p.69).

Embora a mineração de dados inclua algumas vezes técnicas estatísticas e algumas técnicas relativamente simples de Data Warehousing137, com o objetivo de facilitar a consulta e a produção de relatórios, Colle explica que, quando se fala em DM, geralmente refere-se a formas mais avançadas, que são basicamente agrupadas em dois principais modos de opera- ção: OLAP e KDD (COLLE, 2002, p.71).

O OLAP, ou Online Analytical Processing (Processamento Analítico On-line), cen- tra-se em uma base de dados, em relação à qual o computador pode responder rapidamente a uma série de consultas relacionadas às combinações de variáveis. Em vez de considerar a BD em formato bidimensional (como uma planilha tradicional), o OLAP permite considerar cada uma de suas colunas como um eixo em um cubo multidimensional.

136 No original: “La DM no es una simple aplicación computacional de la cual existirán en el mercado varias “versiones”: es esencialmente un método de trabajo, que puede recurrir a múltiplas aplicaciones, siendo alguna más adecuada que otras en un caso determinado. Tampoco es una técnica cuya aplicación lleve en forma automática a un resultado: es […] un método de descubrimiento interactivo (p. 16), especialmente adecuado en un escenario en que no se tiene la menor idea de cual podría ser el producto de la investigación. Por lo tanto es especialmente adecuado en los casos en que las técnicas clásicas de análisis estadístico resultan inaplicables. […] las herramientas de DM no entregan nunca por sí sola ninguna solución. Todo depende del conocimiento de ellas por parte del analista y de la creatividad del mismo”.

137 Data Warehousing diz respeito a procedimentos destinados ao gerenciamento de repositórios de dados de uma organização armazenados eletronicamente, projetados para facilitar a comunicação e análise. Uma base de dados nesses moldes abriga dados em formatos padronizados, consistentes, completos e integrados, provenientes de vários sistemas operacionais em uso pertencentes a uma determinada organização, estruturados de forma a atender especificamente às necessidades de informação e análise. Essa definição de Data Warehousing está focada no armazenamento de dados, embora algumas concepções sobre o mesmo procedimento incluam técnicas relacionadas à DM, uma vez que, no processo de gerenciamento dos dados, figuram também técnicas de recuperação e análise, extração, transformação e transferência de dados para gerenciamento de um repositório, bem como o uso de ferramentas para gerenciar e recuperar metadados. O objetivo principal desses esforços é proporcionar acesso fácil aos dados especificamente preparados, que podem ser usados para tomadas de decisão, produção de relatórios gerenciais, consultas, sistemas de informação executiva e mineração de dados. Disponível em: <http://sensacom.com/web_glossary.html>. Acesso em: jan. 2010.

Para cada dimensão, também chamada atributo ou variável138, o OLAP calcula e re- gistra os resultados, classificando-os e segmentando-os, eventualmente, de forma interativa, permitindo uma visualização rápida de informações que correspondem a essas classificações, caso o usuário saiba que tipo de pergunta deverá ser feita, o que nem sempre acontece, segun- do o autor.

Colle (2002) explica que uma das limitações do método OLAP é que ele não resolve o problema das relações que podem existir entre os valores de um atributo e de outro atributo que permitiriam, por exemplo, descobrir qual o fator mais crítico ou preponderante que explica uma determinada situação. Nesse sentido, os analistas podem recorrer a uma metodologia mais avançada, chamada KDD, ou Knowledge Discovery in Database (Descoberta de Conhe- cimento em Bases de Dados).

Como o próprio nome sugere, KDD destina-se a extrair conhecimentos mais apro- fundados, escondidos em bases de dados, e requer, portanto, ferramentas mais avançadas, de- senvolvidas a partir de avanços no campo da inteligência artificial e, mais precisamente, do que Colle (2002) chama machine learning (aprendizagem de máquina). As propriedades de aprendizagem artificial em KDD permitem análises destinadas a descobrir relacionamentos significativos, padrões repetitivos e anomalias escondidas nos dados.

Colle (2002) explica ainda que, através desse método, o analista não precisa pressu- por ou planejar perguntas para a base de dados, uma vez que o próprio software procura au- tomaticamente todos os potenciais conhecimentos a serem extraídos. A metodologia KDD não se relaciona com a extração de informações a partir de registros acumulados óbvios (como fazem os motores de busca na Web), mas diz respeito a um certo tipo de “metainformação”, que relaciona de forma inesperada – ou difíceis de encontrar – os valores de múltiplas variá- veis em um grande número de registros (COLLE, 2002, p.67-68).

Vale mencionar, a título de exemplo de procedimento que utiliza a metodologia KDD, o sistema Memetracker (<http://memetracker.org/>), que, ao analisar cerca de 900.000 notícias e posts de weblogs extraídos diariamente de 1 milhão de fontes on-line, operacionali- za a proeminência dos temas difundidos na Web, observando o marco temporal das agendas dos media informativos e de weblogs, a partir da construção de mapas que fornecem pistas sobre o ciclo noticioso do dia.

138 As variáveis ou atributos são características que definem ou elementos que distinguem um determinado objeto. Exemplos de atributos ou variáveis seriam “autor" e “título” para os livros, “marca” e “modelo” para os carros, “data” e “lugar” para um evento noticioso, e assim por diante. Escolher os atributos apropriados para descrever os objetos constitui um dos primeiros passos na etapa da “modelagem” dos dados (COLLE, 2002, p.50).

O sistema rastreia citações e frases que aparecem com maior frequência e que circu- lam praticamente intactas pela Web, ao longo do tempo, através de todo um espectro de notí- cias on-line, como mostra a figura 7, possibilitando-nos observar como diferentes matérias competem diariamente pela cobertura de sítios de notícias e de weblogs, e como certos temas persistem enquanto outros desaparecem rapidamente.

Leskovec, Bakstrom e Kleinberg (2009) mostram, através de métodos de DM, como uma abordagem de monitoramento de tais frases pode fornecer um quadro coerente represen- tativo do ciclo de notícia, que tem sido objeto de interpretação qualitativa, mas que “nunca foram capturados com precisão suficiente para permitir uma análise quantitativa efetiva”139 (2009, p.1).

Nessa pesquisa com o Memetracker, os autores rastrearam 1.600.000 sítios dos me- dia tradicionais e blogs, em um período de três meses, com o total de 90 milhões de artigos e links, encontrando um conjunto de padrões temporais persistentes relativos aos ciclos de notí- cias. Dentre os resultados, os autores observaram um atraso típico de 2 horas e 50 minutos entre os picos de atenção para uma frase difundida nos media e nos blogs, respectivamente, com comportamentos divergentes em torno do pico global e do padrão de discussão entre os media noticiosos e os blogs. Os autores também desenvolveram e analisaram um modelo ma- temático para o tipo de variação temporal que o sistema apresenta.

Figura 7: Marco temporal das frases mais citadas durante a campanha presidencial norte- americana de 2008, minerado pelo aplicativo Memetracker. Acesso em: 31 mar. 2010.

3.3 OPERACIONALIZANDO A AGENDA DE USUÁRIOS ASSENTE EM BASES DE

No documento Agenda-Setting assente em bases de dados e algoritmos: bases conceituais e metodológicas para operacionalizar a percepção de importância de temas, predicados e agendas de usuários de sistemas e ambientes informativos da web (páginas 156-160)