Pr´ e-processamento de Dados - Considera¸c˜ oes Finais

2.5 Considera¸c˜ oes Finais

3.1.2 Pr´ e-processamento de Dados

Dados coletados, especialmente de ordem não-estruturada, não são apresentados de modo tratável por um sistema. Isto se deve pela vastidão e diversidade de fontes de informa¸cões, diferentes maneiras de organiza¸cão e armazenamento, e variedade de dom´ınios, por exemplo, textos em diferentes l´ınguas, ou que tratam tópicos não relacionados. Além disso, a quantidade de informa¸cão pode ser muito grande, esparsa ou apresentar ru´ıdos.

Dados podem ser vistos como objetos que contêm atributos, ou seja, propriedades ou caracter´ısticas (Amatriain et al., 2011). Ao se tratar de textos, pode-se dizer que dados são os documentos, enquanto que atributos são os termos que podem ser retirados desses documentos.

A etapa de pré-processamento de dados tem como enfoque transformá-los numa estrutura que o sistema seja capaz de processar. Além de organizar os dados em alguma estrutura padronizada, essa etapa tem como objetivo reduzir a quantidade de dados ne- cessária para processamento de tal maneira que as principais propriedades do conjunto de dados não sejam feridas. Outra importante funcionalidade é a diminui¸cão da quantidade de dados ruidosos.

A seguir é dada uma breve descri¸cão de como são efetuados os tratamentos citados acima. Para a redu¸cão do volume de dados a serem processados, há duas possibilidades: amostragem e redu¸cão de dimensionalidade.

Amostragem: Essa técnica é utilizada para a sele¸cão de um subconjunto relevante de dados inferior ao conjunto completo. A amostra deve ser capaz de representar todo o conjunto de maneira que suas propriedades não sejam perdidas. De outro modo, amostragem também é utilizada em algoritmos de aprendizado de máquina para a gera¸cão de dois conjuntos: treinamento, que irá permitir o aprendizado dos parâmetros; e teste, que será utilizado para a avalia¸cão do modelo obtido na fase de treinamento (Amatriain et al., 2011).

Existem várias maneiras de se realizar amostragem. Deve-se, primeiro, definir se ela é com ou sem reposi¸cão, ou seja, se dados selecionados permanecem ou são retirados do conjunto total. Definido isso, deve-se selecionar a técnica de amostragem. A mais simples consiste na sele¸cão aleatória de amostras, em que todos os dados pos-

suem mesma probabilidade de serem selecionados. Outra técnica, conhecida como valida¸cão cruzada, opera de maneira que conjuntos de treinamento e teste sejam constru´ıdos várias vezes e que o sistema seja avaliado em cada constru¸cão. Por fim, a acurácia do sistema é uma média das avalia¸cões realizadas. Há variantes da valida- ¸cão cruzada, como n-fold, em que os dados são divididos em n subconjuntos, sendo que n − 1 são utilizados para treinamento enquanto que um é usado para testes, revezando entre si n vezes; e leave-one-out, em que cada elemento é considerado um conjunto de treinamento ou teste. No que tange o escopo deste trabalho, a amostragem foi utilizada especialmente para a avalia¸cão e valida¸cão do trabalho. Aplicou-se a valida¸cão cruzada em n-folds nas bases de dados de recomenda¸cão e utilizou-se os subconjuntos gerados para avalia¸cão do sistema. Maiores detalhes sobre a avalia¸cão do sistema podem ser vistos na Se¸cão 5.1.3.

Redu¸cão de Dimensionalidade: Ao se analisar documentos textuais, deve-se construir um vocabulário. Esse vocabulário contém todos os termos utilizados no conjunto de documentos. Mesmo que se aplique heur´ısticas de elimina¸cão de termos no momento de indexa¸cão (Manning et al., 2008), muitos dos restantes podem não possuir relevância na representa¸cão de seus respectivos documentos, acarretando um gasto extra de espa¸co e processamento. Outro problema cr´ıtico é a esparsidade dos dados, especialmente numa representa¸cão baseada em matrizes termo por documento, tendo em vista que geralmente nos documentos há menos termos do que no vocabulário (Aggarwal e Zhai, 2012a).

Tendo isso em mente, as técnicas de redu¸cão de dimensionalidade buscam diminuir a quantidade de caracter´ısticas necessárias para o sistema, sem ferir as propriedades do conjunto de dados. A maneira mais simples de se remover caracter´ısticas irrele- vantes é a exclusão de termos comuns em uma cole¸cão de documentos. Tais termos costumam ser, principalmente, artigos e preposi¸cões de uma determinada l´ıngua, e são denominados stop-words. É comum desconsiderar tais palavras no processo de constru¸cão do vocabulário do sistema.

De modo similar, palavras extremamente incomuns também podem ser removidas, pois não agregam valor aos cálculos de similaridade (Aggarwal e Zhai, 2012b). Ou- tro argumento é que tais palavras podem surgir por erros ortográficos, tendo em vista que o conteúdo pode ter sido criado, por exemplo, a partir de comentários de usuários. Deste modo, é comum aplicar a técnica de redu¸cão de dimensionalidade baseada na frequência do documento (DF, do Inglês document frequency), em que conta-se o número de documentos em que cada termo está presente, e são removidos

aqueles que possuem poucas ou muitas ocorrˆencias, ou seja, possuem seu valor DF abaixo ou acima dos limiares inferior e superior definidos.

Além das técnicas heur´ısticas de remo¸cão de caracter´ısticas, como a baseada na frequência do documento, há técnicas que transformam as caracter´ısticas para um espa¸co de menor dimensionalidade, como a indexa¸cão semântica latente (LSI, do Inglês Latent Semantic Indexing), proposta por Deerwester et al. (Deerwester et al., 1988). Técnicas como essa não retiram caracter´ısticas que apresentam menor relevância através de uma heur´ıstica definida, mas as transformam em um conjunto menor que será uma representa¸cão funcional do original. A LSI faz uso da decomposi¸cão em valores singulares para gerar uma matriz aproximada de menor dimensionalidade. Enquanto que matrizes termo-documento costumam conter deze- nas de milhares de colunas e linhas (Manning et al., 2008), as matrizes aproximadas tendem a possuir apenas poucas centenas de dimensões, o que representa um número pequeno em rela¸cão ao original.

Redu¸cão de Ru´ıdos: Entende-se por ru´ıdo toda informa¸cão que está de alguma maneira representada erroneamente. Palavras escritas de modo errado em textos, por exemplo, são um tipo de ru´ıdo.

A atividade de redu¸cão de ru´ıdos almeja minimizar a presen¸ca destes para que não haja interpreta¸cões errôneas do conjunto de dados. Técnicas de redu¸cão de dimensionalidade costumam a realizar essa tarefa implicitamente, pois removem aquelas que tem pouco impacto no conjunto dos dados (Aggarwal e Zhai, 2012b). Neste trabalho, adotou-se em algumas das abordagens propostas uma métrica de redu- ¸cão de dimensionalidade similar ao DF, chamada de frequência do item (D’Addio e Manzato, 2014), pois cada item possui n documentos descritivos. Detalhes sobre esta métrica podem ser vistos na Se¸cão 4.3.1.

No documento Filtragem baseada em conteúdo auxiliada por métodos de indexação colaborativa (páginas 53-55)