• Nenhum resultado encontrado

Segundo estudo do Internacional Data Corporation (IDC) (EBENEZER; DURGA, 2015), 90% de todo o conteúdo produzido pela humanidade é formado por dados não estru- turados. Com o advento das redes socais como Facebook, Twitter e WhatsApp, o volume de dados não estruturados tem aumentado vertiginosamente, dando forte impulso para o desenvolvimento de aplicações em mineração de textos.

Desenvolver sistemas que resolvam problemas reais usando os métodos da mi- neração de textos exige conhecimento que vai além do domínio da técnica, envolvendo desafios que vão desde o desenvolvimento de software até a interface humano-computador, que visam dar escalabilidade e usabilidade à aplicação.

No entanto, inúmeros sistemas já foram criados e aplicados. A seguir, será apresentada uma lista de algumas destas aplicações, ilustrando não apenas um panorama da área, mas também ressaltando alguns dos campos práticos com grandes afinidades aos modelos de extração de informação elaborados neste trabalho.

∙ Rastreamento de tópicos: é a atividade de acompanhamento e apresentação de informação baseada em um tópico ou palavra-chave fornecido por um usuário. O mecanismo de rastreamento, geralmente, toma as decisões com base nas atividades do usuário, como a visualização de documentos, visitas a websites ou outros ma- teriais que foram em algum momento consultados. Um exemplo de uma aplicação gratuita de rastreamento de tópicos é a ferramenta disponível pelo Google chamada Google Alertas3, que permite ao usuário escolher palavras-chave e os notifica quando

surge alguma notícia relacionada.

Capítulo 3. Mineração de Textos 73

Há inúmeras áreas em que o rastreamento de tópicos pode ser utilizado. Nas em- presas, ele pode gerar alertas quando um concorrente aparece nas notícias. Isso permite que acompanhem as inovações em produtos concorrentes ou mudanças no mercado. Também pode ser aplicado na indústria médica por profissionais à procura de novos tratamentos para doenças e acompanhamento dos últimos avanços. Pes- soas no campo da educação também poderiam se beneficiar com alertas das últimas referências em sua área de pesquisa (ALLAN, 2012).

Apesar da versatilidade e inúmeros campos de aplicação, a tecnologia de rastrea- mento de tópicos possui alguns desafios a serem superados, como a dificuldade de compreender o contexto de uma palavra (problema da desambiguação) e a seleção adequada do tipo de informação que o usuário deseja visualizar. As abordagens mais atuais visam superar estas limitações a partir de uma análise do comportamento vir- tual do usuário através do seu histórico de leitura, acessos e cliques em conteúdos da web (LAVRENKO; CROFT, 2001).

∙ Extração de palavras-chave: palavras-chave são sequências de uma ou mais pa- lavras que fornecem uma representação compacta do conteúdo de um documento. São amplamente utilizadas para realizar buscas dentro de sistemas de RI, pois são fáceis de definir, revisar, lembrar e compartilhar. Em geral, são independentes de qualquer corpus e podem ser aplicadas em vários corpora e sistemas de RI (ROSE et al., 2010).

Com o aumento do conteúdo de informação online, a extração de palavras-chave tem se tornado uma importante tarefa para mecanismos de pesquisa, categoriza- ção de textos, geração de resumo e detecção de tópicos. A extração manual de palavras-chave é uma atividade extremamente difícil e demorada, senão impossível em grandes coleções de textos, como por exemplo quando se quer definir os tópicos de todas as notícias publicadas no período de um dia. Por este motivo, a extra- ção automática de palavras-chave é uma das principais aplicações da extração de informação.

Em geral, a arquitetura de um sistema de extração de palavras-chave é composta por 3 etapas (CHIEN, 1997):

1. Coleta dos dados: consiste em gerar um documento de textos ou artigos. As fontes podem ser as mais diversas, por exemplo, páginas HTML quando se deseja tratar notícias ou artigos científicos quando se deseja catalogá-los. 2. Extração de palavras-chave: o segundo passo consiste em utilizar alguma téc-

nica de mineração de dados para avaliar as palavras do documento. As téc- nicas mais simples e rápidas envolvem apenas a contagem de palavras, como o método TF-IDF (Term Frequency - Inverse Document Frequency). Métodos

supervisionados e não supervisionados também podem ser utilizados, conside- rando as particularidades e limitações de cada um.

3. Seleção das palavras-chave: os métodos de avaliação das palavras geram pesos para os termos do documento. A última etapa consiste em interpretar estes termos e definir um limiar de representatividade, gerando uma lista final de palavras-chave.

Métodos clássicos de extração de palavras-chave, como os métodos estatísticos, apre- sentam resultados satisfatórios, bem como a vantagem de serem independentes da língua. Porém, principalmente pelo fato de desconsiderarem o contexto, seu de- sempenho apresenta um claro limite. Atualmente, métodos supervisionados e não supervisionados têm apresentado desempenho superior ao de métodos estatísticos (GUPTA, 2017).

∙ Sumarização Extrativa: é o processo de seleção das informações mais importantes de um documento e posterior organização para que seja gerado um resumo mantendo as suas ideias principais.

O grande desafio da sumarização é que, embora os computadores sejam capazes de identificar pessoas, lugares e tempo, ainda é difícil ensinar um programa a analisar semântica e interpretar significados. Geralmente, quando seres humanos resumem um texto, todo o conteúdo é lido previamente para um entendimento completo e contextualizado e, em seguida, gera-se o sumário destacando as ideias principais. Uma vez que computadores não possuem os recursos de linguagem humana, métodos alternativos tentam reproduzir uma atividade semelhante. Uma das estratégias mais utilizadas adota métodos estatísticos que consideram a posição das palavras como informação importante para análise de contexto e geração dos sumários (GUPTA et al., 2009).

Em documentos semi-estruturados, os algoritmos de sumarização podem procurar rótulos que indicam pontos-chave para se estabelecer um resumo, como em artigos científicos, nos quais podem localizar as “conclusões” ou “metodologia”, e assim saber onde selecionar as frases que comporão o sumário. Por este motivo, a suma- rização extrativa é uma ferramenta de grande utilidade no meio acadêmico, sendo que pesquisadores podem receber resumos de técnicas, metodologias, resultados en- tre outros. Outras áreas também se beneficiam da sumarização extrativa, como é o caso da área médica, em que buscas sobre tratamentos e doenças poderiam se tornar mais rápidas e eficientes se um resumo do que há de mais relevante na área pudesse ser gerado.

∙ Outras aplicações: Weiss et al. (2015) descrevem uma detalhada lista de aplicações em mineração de texto, entre as quais se destacam: a filtragem de e-mail para

Capítulo 3. Mineração de Textos 75

organização e categorização das mensagens e detecção de spams; a web semântica, que consiste na organização inteligente do conteúdo web; a mineração de dados em redes sociais, como o Twitter e Facebook, com o objetivo de desvendar padrões de comportamento ou conhecer o conteúdo relevante; a análise de sentimentos, que consiste em classificar conteúdos escritos por usuários como positivos ou negativos; a bioinformática, auxiliando pesquisadores a explorar conhecimento avançado de forma eficiente; e aplicações em segurança, através do monitoramento em tempo real de documentos e conteúdos e no desenvolvimento de algoritmos de criptografia.

3.4

Conclusão do Capítulo

A mineração de texto refere-se ao processo de descoberta de conhecimento em documentos em bases de dados não estruturadas. O presente capítulo apresentou um panorama deste campo, abordando a metodologia de extração de informação em textos denominada KDT, uma adaptação do processo de Descoberta de Dados em Banco de Dados Estruturados, o qual divide a atividade de extração de conhecimento em 4 etapas bem definidas.

A primeira etapa consiste na seleção e preparação dos dados, e é denominada “Representação Textual”, dado que o documento não estruturado precisa ser organizado para que algoritmos de mineração de dados possam extrair padrões de interesse. Uma vez obtida esta representação, na etapa seguinte, ocorre o pré-processamento do documento, indexando, normalizando e removendo conteúdo sem relevância. A terceira etapa, a mais importante de todo processo, consiste em aplicar alguma técnica de mineração de dados para busca de padrões e informação útil. Diversas técnicas foram brevemente descritas neste capítulo, apresentando a vastidão de métodos e abordagens para o tratamento dos dados. A quarta e última etapa trata da apresentação, interpretação e visualização dos padrões extraídos pelo algoritmo de mineração de dados, entregando aos usuários finais e administradores a informação e conhecimento útil.

A aplicabilidade da mineração de textos foi explorada ao final desse capítulo. Inúmeros problemas do mundo real já se beneficiam dos métodos desenvolvidos e, dada a gigantesca quantidade de informação textual produzida atualmente, muitos outros desafios aparecerão, fazendo da área um promissor campo de pesquisa.

O processo KDT, bem como suas técnicas, fundamentaram o desenvolvimento da metodologia do Extrator da Opinião Pública. A tarefa de extração da opinião rele- vante, além de seguir os passos da abordagem, inspira-se em algumas aplicações, como os sumarizadores extrativos e extratores de palavras-chave. No entanto, ao contrário dos métodos mais utilizadas para mineração de textos, o EOP utiliza-se de abordagens não supervisionadas, como as redes complexas, para extrair a informação relevante.

Este capítulo encerra os fundamentos teóricos básicos deste trabalho. A pró- xima seção tratará de apresentar o projeto e-Ágora, um conjunto de métodos e algoritmos para obtenção da opinião pública.

77

Parte II

4 Projeto e-Ágora: a Ágora e a Metodologia

da Ação Comunicativa

O surgimento das Tecnologias de Informação e Comunicação foi um marco no desenvolvimento de sistemas que vêm transformando as relações da sociedade con- temporânea. Enquanto os smartphones popularizam o acesso à internet, aplicações como as redes sociais, aplicativos de Mensagens, entre outros, têm transformado a forma de os sujeitos se relacionarem, diminuindo as barreiras espaço-temporais e virtualizando os contatos sociais.

Este processo extrapola as esferas da subjetividade e transforma as institui- ções sociais, implicando em novos desafios para (sobre)vivência de importantes conquistas da sociedade. Neste contexto, a democracia, como um pilar de sustentabilidade de uma grande quantidade de governos na atualidade, encontra-se em um movimento de trans- mutação com destino ainda incerto.

Portanto, olhar para a democracia e seus procedimentos neste novo momento da sociedade é também uma tarefa de gerar, ou ao menos propor, caminhos que tragam luz aos rumos desta transformação em prol do fortalecimento dos valores democráticos. Neste sentido, este trabalho busca dar um passo nesta caminhada, refletindo sobre a de- mocracia nos dias atuais e propondo algumas alternativas de aprimoramento dos processos democráticos através do desenvolvimento de tecnologias contextualizadas e embasadas no pensamento sociológico.

O projeto e-Ágora (uma alusão às Ágoras - expressões máximas da esfera pública na urbanística da Grécia Antiga), proposta deste trabalho, é a concretização destes objetivos. Fundamentado na teoria da democracia deliberativa, propõe desenvolver tecnologias que possibilitem a construção coletiva da opinião, em um espaço virtual, plural e crítico que reflita os valores de uma esfera pública e reproduza a ação comunicativa.

Três frentes compõem o e-Ágora: a primeira, denominada Ágora, propõe o desenvolvimento de uma plataforma web que reproduza um espaço de participação política segundo os princípios da esfera pública; a segunda, denominada Extrator de Opinião Pública (EOP) , é fruto do desenvolvimento de algoritmos de mineração de textos que irão dar suporte ao processo de construção coletiva da opinião pública, identificando temas e informação relevante nos conteúdos da Ágora; por fim, a terceira frente, denominada Metodologia da Ação Comunicativa (MAC), consiste no desenvolvimento de uma proposta que reproduza na prática a ação comunicativa, definida na teoria habermasiana, através do uso sistemático da Ágora e do EOP.

Capítulo 4. Projeto e-Ágora: a Ágora e a Metodologia da Ação Comunicativa 79

Apesar de cada frente possuir seus próprios desafios teóricos e práticos, os projetos são interdependentes e se complementam. A Figura 3 ilustra como os elementos da Ágora, o EOP e a MAC se relacionam no processo de construção da opinião pública. A Ágora, através de seus elementos de participação cidadã, como os fóruns de debate, as questões discursivas e as enquetes e votações, fornece o conteúdo para o Extrator de Opinião Pública, o qual tem sintetiza e revela os desejos e anseios da comunidade. A Metodologia da Ação Comunicativa fornece um protocolo de uso destes elementos em prol da construção do consenso e validação dos conteúdos extraídos, resultando na opinião pública.

Figura 3 – Esquema de integração das três frentes do projeto e-Ágora: os usuários res- ponderão à questões discursivas e participarão de debates. O conteúdo gerado será processado pelo EOP, o qual extrairá temas e informações relevantes. Este conteúdo será validado a partir de votações cujo objetivo será determinar o consenso das proposições. Por fim, a opinião pública é expressa pelo conteúdo consensual.

Dois capítulos tratarão de apresentar cada projeto do e-Ágora, relacionando as implementações com as fundamentações teóricas e detalhando os aspectos técnicos e práticos. No presente capítulo, será apresentada a Ágora, destacando o processo de criação da plataforma como um sistema web, e a Metodologia de Ação Comunicativa como uma proposta teórica e prática de estabelecer um procedimento de consulta da opinião pública. Já o Extrator de Opinião Pública será tema do próximo capítulo.