• Nenhum resultado encontrado

3.2 A Mineração de Textos e o Processo KDT

3.2.1 Etapa de Representação dos Textos

Após a identificação do problema e definição das metas a serem atingidas, o próximo passo, e ponto-chave da mineração de textos, é extrair um conjunto de dados estruturados de uma coleção de textos.

A informação contida em um texto, como um documento não estruturado, encontra-se em uma estrutura complexa implícita (MANN; THOMPSON, 1988). Por este motivo, é necessário encontrar uma representação estruturada que permita a aplicação de técnicas de mineração de dados, ao mesmo tempo que preserve a informação semân- tica implícita tanto quanto o possível. Esta tarefa, executada antes da etapa de pré-

processamento, gera uma representação estruturada dos textos denominada documento intermediário (TAN et al., 1999).

Há inúmeras representações para os documentos intermediários, as quais são designadas segundo as necessidades do algoritmo de mineração de textos. Uma das mais comumente utilizadas é o “saco de palavras” (bag of words) e suas variantes, que consiste em uma coleção de termos significativos que aparecem nos textos, classificados segundo a frequência das palavras ou outra medida de qualidade (WALLACH, 2006).

Porém, gerar documentos intermediários não é uma tarefa simples, uma vez que pode ocasionar perda de informação, fazendo desta etapa um ponto sensível para o sucesso da extração de conhecimento. Torre et al. (2018) citam alguns problemas deste processo, associados à natureza da análise de dados não estruturados, dentre os quais se destacam:

1. A característica não estruturada do texto implica em uma estrutura não homo- gênea incapaz de ser processada automaticamente sem perda de informação. Este problema é visto, inclusive, em textos semi-estruturados, como os escritos em lin- guagem HTML.

2. A grande diversidade das fontes externas de repositórios reforça o caráter heterogê- neo e distribuído dos documentos, gerando problemas como o mencionado anterior- mente.

3. O multilinguismo, não somente em diferentes conjuntos de textos, mas também em um mesmo documento, é um grande desafio na tentativa de padronizar a informação a ser analisada.

4. A dependência do contexto também é um fator desafiador na representação textual. Dicionários, Corpora e diferentes ontologias podem ser necessárias para minimizar erros na preparação dos dados.

5. Por fim, as ambiguidades da linguagem natural expõem o último problema da repre- sentação textual. A identificação de frases ambíguas e palavras em textos escritos em linguagem natural é um problema em aberto na área de mineração de textos, uma vez que estas condições não são fáceis de detectar.

Segundo Torre et al. (2018), a extração dos documentos intermediários é uma etapa essencial no processo KDT devido a dois motivos: (1) dependendo da forma que se representam os dados, os resultados da mineração de textos poderão variar; (2) é o documento intermediário de define que tipo de informação será obtida na extração do conhecimento.

Capítulo 3. Mineração de Textos 63

O principal desafio na geração de documentos intermediários é localizar o nú- cleo que melhor expressa o conteúdo de uma coleção de textos. Para isto, faz-se necessário identificar similaridades em função da morfologia ou do significado dos termos nos textos. A área de RI fornece inúmeras técnicas para isto, sendo o principal campo de pesquisa para representação textual. Porém, as técnicas não se restringem à RI. Áreas como a Linguística Computacional e a Extração de Informação também fornecem importantes métodos de representação textual.

Abaixo segue uma breve descrição dos principais tipos de documentos inter- mediários segundo Torre et al. (2018):

∙ Saco de palavras (Bag of words): em uma representação baseada em saco- de-palavras, todas as palavras de um documento têm suas relações sintáticas e semânticas excluídas, gerando um conjunto de termos que poderão ser representadas através de modelos probabilísticos (contagem de palavras), booleanos (conjuntos de palavras operadas com conectivos booleanos) ou espaço-vetoriais (palavras são vetores com atributos).

∙ N-gramas (N-grams): é uma representação oriunda do campo da linguística com- putacional e da probabilidade formada pela sequência contígua de n itens, dada uma coleção de termos textuais. Estes itens podem ser letras, sílabas, palavras, concei- tos, frases ou até mesmo documentos completos. O n-grama é uma unidade de n itens adjacentes de um texto. Quando n = 1, denomina-se unigrama e, quando n = 2, bigrama. Por exemplo, considerando as letras como termos textuais, a palavra TEXTO possui quatro bigramas: T-E, E-X, X-T e T-O. A principal vantagem de uma representação desta forma é que ela não requer nenhuma preparação prévia das palavras e é muito comum nas atividades de recuperação da informação, tradu- ção e reconhecimento de fala, onde a linguagem é modelada pela probabilidade de aparecimento da palavra em uma sequência.

∙ Hierarquia conceitual (Concept Hierarchy): este tipo de representação per- mite determinar associações em diferentes níveis conceituais de uma coleção de textos ou um único documento. São úteis quando se deseja estruturar informações em categorias, promovendo sua busca e reutilização. Além disso, permitem formu- lar regras e relações de maneira abstrata e concisa, facilitando o desenvolvimento, o refinamento e a reutilização da base de conhecimento. No entanto, sua principal desvantagem é que o modelo gerado não é portável, ou seja, será necessário construir uma taxonomia diferente para cada documento da coleção.

∙ Grafos conceituais: um grafo conceitual é uma estrutura onde os nós representam conceitos e as arestas alguma relação entre eles. Um conceito pode ser representado por uma entidade, um atributo, um estado ou um evento.

∙ Dependência conceitual: é uma representação inspirada nos grafos conceituais, porém visa superar a dependência da linguagem destes últimos. Assim, o formalismo conceitual tende a definir regras independentemente da língua do texto.

∙ N-frases (N-phrases): semelhante ao N-gramas, porém a unidade textual são frases obtidas na coleção de textos.

∙ Documentos: neste caso, o documento na íntegra é a própria fonte de dados para os algoritmos de mineração de textos.

A escolha da representação textual está condicionada aos objetivos do processo KDT. Muitas vezes, faz-se necessário utilizar mais do que uma representação em um mesmo processo, principalmente quando se utilizam diferentes algoritmos de mineração de dados. A representação textual também não fica restrita apenas à etapa inicial, podendo ser requisitadas novas representações em outras etapas do processo KDT.

Uma vez definido o modelo mais apropriado, o próximo passo consiste no pré- processamento do corpus gerado.