A Descoberta de Conhecimento - e-Ágora : métodos e algoritmos para a construção da opinião públ

Segundo Gantz e Reinsel (2012), até 2020, a humanidade terá produzido 40 trilhões de gigabytes de informação. Dessa cifra astronômica, uma parte significativa se

1 _{Em Extração da Informação, textos podem ser classificados em 3 categorias: estruturados, não-}

estruturados ou semi-estruturados. Um documento estruturado segue um formato padrão de escrita de tal forma que a informação pode ser completamente extraída usando regras baseadas em delimitadores (por exemplo, textos em HTML). Documentos não-estruturados são formados por sentenças em alguma linguagem natural, o que impossibilita a extração de informação usando regras de formatação. Já os documentos semi-estruturados apresentam algum grau de estruturação, porém, com alguma irregularidade na formatação, como sentenças em linguagem natural com ausência de delimitadores (por exemplo, as referências bibliográficas).

encontrará nos mais diversos banco de dados, uma vez que a acelerada virtualização atinge desde simples transações nas áreas de telecomunicações e finanças até o armazenamento de gigantescos volumes de dados públicos e privados em grandes corporações como Google, Facebook, governos entre outros.

O grande volume de informação exige que os mecanismos de processamento de descoberta de conhecimento tornem-se cada vez mais eficientes. Para isto, faz-se necessária a automação destes processos através do uso de softwares e computadores. Segundo Fayyad et al. (1996), o ritmo dramático de coleta e acúmulo de dados na sociedade contemporânea exige, em caráter de urgência, uma nova geração de teorias computacionais e ferramentas que auxiliem os seres humanos na extração de informação útil. Estas teorias e ferramentas são os objetos de estudo do campo da Descoberta de Conhecimento.

De acordo com Frawley et al. (1992, p. 58), a Descoberta de Conhecimento:

É a extração não-trivial da informação implícita, previamente desconhecida e potencialmente útil. Dado um conjunto de fatos (dados) 𝐹 , uma linguagem 𝐿, e alguma medida de certeza 𝐶, define-se um padrão como uma afirmação 𝑆 em 𝐿 que descreve uma relação entre um subconjunto 𝐹 𝑠 de 𝐹 com uma certeza 𝑐, tal que 𝑆 é mais simples (em algum sentido) do que a enumeração de todos os fatos em 𝐹 𝑠. Um padrão de especial interesse (de acordo com uma medida de interesse imposta pelo usuário) e certa o suficiente (novamente, de acordo com o critério do usuário) é chamado de conhecimento. A saída de um programa que monitora o conjunto de fatos em um banco de dados e produz padrões nesse sentido é denominada conhecimento descoberto.

A área da Descoberta de Conhecimento divide-se em duas abordagens: a Des- coberta de Conhecimento em Dados Estruturados, também denominada KDD (Knowledge Discovery in Databases); e a Descoberta de Conhecimento em Dados não Estruturados, da qual a abordagem KDT faz parte. Ambas serão tratadas nos próximos tópicos.

3.1.1 Descoberta de Conhecimento em Dados Estruturados

Fayyad et al. (1996) foram pioneiros no campo da Descoberta do Conhecimento em Dados Estruturados2 ao definir KDD como a área do conhecimento que se preocupa com o desenvolvimento de métodos e técnicas de extração, análise e interpretação de dados. Segundo os autores, o objetivo principal do processo de KDD é promover um

2 _{As categorias de classificação de documentos também são utilizadas para classificação de dados, se-}

guindo as mesmas definições. Dados estruturados são aqueles que contém alguma organização que permite serem recuperados integralmente. Dados não estruturados não possuem qualquer informação sobre seu conteúdo armazenado. Além de textos livres, arquivos de vídeo, áudio e imagens também se incluem nessa categoria. Já dados semi-estruturados possuem características de ambas as categorias anteriores.

Capítulo 3. Mineração de Textos 57

mapeamento de dados de baixo nível (os quais são muito volumosos para compreensão e entendimento) em outras formas que podem ser mais compactas (por exemplo, pequenos relatórios), mais abstratas (por exemplo, uma descrição dos métodos que geram os dados), ou mais úteis (por exemplo, um modelo preditivo que estima valores de casos futuros). No centro do processo está a utilização de métodos específicos de mineração de dados para a descoberta e extração de padrões.

O processo de descoberta de conhecimento em dados estruturados rapidamente englobou metodologias de diversas áreas do conhecimento, como os métodos estatísti- cos, de inteligência artificial, de visualização, computação paralela, entre outros. Tal fato aconteceu, em parte, pelo desenvolvimento de uma metodologia robusta o suficiente para descrever claramente passos e requisitos a seguir, como também flexível o suficiente para abarcar distintas áreas e paradigmas do conhecimento.

A abordagem KDD vai além da simples mineração de dados, pois refere-se ao processo geral de descoberta do conhecimento útil, enquanto a mineração de dados é apenas uma etapa deste processo. Fayyad et al. (1996) alertam que a aplicação cega da mineração de dados pode ser uma atividade perigosa (a qual denomina “drenagem de dados”), levando facilmente à descoberta de padrões sem sentido. Assim, como forma de orientar a descoberta de conhecimento, propôs a metodologia KDD.

Segundo Fayyad et al. (1996), a metodologia KDD envolve um conjunto de fases genéricas para serem aplicadas nos mais diversos problemas de extração de conhecimento. São elas: identificação do problema; pré-processamento; enriquecimento dos dados; mineração de dados; e o pós-processamento (avaliação, validação e apresentação do conhecimento). O processo KDD promove uma significativa interação entre estas etapas, e não se trata necessariamente de um processo linear, podendo envolver retornos às etapas anteriores se assim for necessário. O diagrama básico do processo está ilustrado na Figura 1. Segue uma descrição de cada etapa:

1. Identificação do problema: nesta primeira fase, deve-se realizar um estudo do domínio da aplicação com o objetivo de identificar as metas a serem alcançadas pelo processo KDD. Este estudo pode envolver a consulta de literatura específica, um levantamento do estado da arte, e até mesmo a consulta a especialistas. O conhecimento adquirido servirá como referência para todas as outras etapas. No pré-processamento, as técnicas de seleção, preparação e limpeza dos dados deverão ser bem conhecidas para o tratamento adequado do banco de dados. Para a etapa de enriquecimento e mineração de dados, os métodos teóricos e computacionais escolhi- dos deverão gerar adequadamente os modelos de análise. Já no pós-processamento, o conhecimento desta etapa servirá como critério de avaliação e validação dos resultados extraídos, verificando se o conhecimento obtido é de fato útil ao usuário

Figura 1 – Etapas do processo KDD.

final.

2. Pré-processamento: usualmente, os bancos de dados não se encontram em um formato adequado para a extração do conhecimento. Por este motivo, é necessário seu preparo para a aplicação das técnicas de mineração de dados. Tipicamente, o pré-processamento envolve as seguintes atividades sobre os dados brutos: integração e uniformização, transformação, limpeza, seleção e adequação do volume. A primeira atividade refere-se à obtenção dos dados brutos nas diversas bases disponíveis, se- guida de uma uniformização e integração em uma única fonte de dados. O processo de transformação envolve a adequação dos dados à técnica que será utilizada pos- teriormente na sua mineração. A terceira atividade, a limpeza, preza pela garantia da qualidade dos dados. Nesta etapa, erros de digitação podem ser corrigidos, um analisador ortográfico pode ser executado, ou valores inválidos podem ser excluí- dos. A última atividade, a seleção e adequação do volume, só é necessária quando há limitações de espaço em memória ou tempo de processamento. Porém, uma vez aplicada, é importante garantir que as características do conjunto de dados original não sejam alteradas por excesso de redução do volume.

3. Enriquecimento de dados: esta etapa consiste em agregar aos dados pré-processados alguma informação ou atributo que possa contribuir no descobrimento de conhecimento. Em geral, são informações que não estão no banco de dados, mas que são de conhecimento do analista, e possibilitam melhorias na qualidade dos dados e/ou

Capítulo 3. Mineração de Textos 59

uma melhor eficácia do algoritmo de mineração.

4. Mineração de dados: é um campo de pesquisa multidisciplinar que engloba di- versas tecnologias para extração de dados em grandes volumes. Destacam-se a Re- cuperação de Informação, a Inteligência Artificial, o Aprendizado de Máquina, a Estatística, as Redes Neurais, o Reconhecimento de Padrões, a Computação de Alto Desempenho, a Visualização de Dados, entre outras.

Segundo Fayyad et al. (1996), a mineração de dados é a etapa mais importante do processo KDD, e envolve desde a construção de modelos até a identificação de pa- drões válidos, compreensíveis e potencialmente úteis. É uma atividade que abrange diversos passos de execução, inclusive etapas que podem necessitar do julgamento humano para avaliação dos melhores resultados. Por este motivo, é importante que os padrões sejam descritos em alguma linguagem compreensível aos seus usuários. Um sistema de extração de conhecimento pode envolver diversos métodos de mi- neração de dados, denominados “métodos híbridos”. Cada passo, devido aos seus distintos objetivos, pode requerer um algoritmo diferente. Estes algoritmos poderão ser executados diversas vezes e em diferentes momentos, em um processo iterativo, até que os resultados atinjam, ou ao menos se aproximem, das metas estabelecidas. 5. Pós-processamento: os padrões encontrados na etapa de mineração de dados nem sempre representam de fato um conhecimento útil. Por este motivo, é interessante realizar uma avaliação que descarte os resultados que não são relevantes.

Inúmeras medidas foram criadas com o objetivo de auxiliar o analista de dados a validar os padrões e compreender qual conhecimento estão representando. Estas métricas podem tanto avaliar a qualidade do resultado como o desempenho de um método/sistema. Alguns exemplos são a precisão, revocação, medida-F, cobertura, sensitividade, confiança e erro.

Outros métodos que não envolvam medidas também podem ser utilizados, como a avaliação por especialistas ou juízes humanos. Porém, de acordo com Rino e Pardo (2003), apesar de muitas vezes ser mais eficiente, o uso de especialistas humanos pode encarecer o processo de análise e ainda incluir um indesejado elemento subjetivo. Por fim, o pós-processamento também pode incluir uma etapa final de visualiza- ção e apresentação dos resultados. Frequentemente, os padrões obtidos não estão adequadamente organizados para a plena compreensão do usuário final. Nestes casos, programas de visualização de dados são úteis para uma melhor apresentação e aproveitamento do conhecimento extraído.

O processo KDD foi inicialmente descrito para a extração de conhecimento em dados estruturados. Porém, a versatilidade da proposta possibilitou uma adaptação

para a obtenção de conhecimento em dados não-estruturados, como os textos. O próximo tópico abordará este tema.

3.1.2 Descoberta de Conhecimento em Dados não Estruturados

A Descoberta de Conhecimento em Dados não Estruturados consiste na ex- tração de características ou padrões em dados não estruturados, como textos. De acordo com Weiss et al. (2015), os métodos adotados na mineração de dados são semelhantes aos adotados na mineração de textos, ou seja, a obtenção de conhecimento segue os mesmos passos do processo KDD, inclusive podendo compartilhar os mesmos métodos e algoritmos.

Embora as etapas da KDT sejam similares às da KDD, podem ser necessárias algumas adaptações nos algoritmos de extração de dados para um tratamento correto de textos. Tais adaptações são decorrentes de algumas dificuldades relacionadas ao tratamento de textos: a natureza não estrutural, heterogênea e distribuída dos documentos; a dependência do contexto; e a dependência ou ambiguidade de algumas línguas. Além disso, a diversidade de fontes (por exemplo, textos de intranets, redes sociais, banco de dados documentais, censos, relatórios corporativos, publicações, e-mails, entre outras) dificulta ainda mais seu tratamento computacional (TORRE et al., 2018)

Porém, dois conceitos diferenciam o processo KDT do KDD: (1) a mineração de dados caracteriza-se por extrair informações implícitas, desconhecidas no banco de dados original, mas potencialmente úteis. (2) Já na mineração de textos, a informação que se deseja extrair já está explícita no documento-fonte, porém, ou ainda não está classificada em termos de relevância/utilidade, ou não está expressa de uma forma que seja possível o processamento automático (WITTEN et al., 2016).

Tal como o KDD, o processo KDT também engloba um campo multidisciplinar que inclui áreas como a Recuperação de Informação, Análise Textual, Extração de Informação, Sumarização Extrativa e Categorização e Classificação de textos.

No documento e-Ágora : métodos e algoritmos para a construção da opinião pública no contexto da teoria da democracia deliberativa (páginas 55-60)