2.5 Considera¸c˜ oes Finais
3.1.2 Pr´ e-processamento de Dados
Dados coletados, especialmente de ordem n˜ao-estruturada, n˜ao s˜ao apresentados de modo trat´avel por um sistema. Isto se deve pela vastid˜ao e diversidade de fontes de informa¸c˜oes, diferentes maneiras de organiza¸c˜ao e armazenamento, e variedade de dom´ınios, por exem- plo, textos em diferentes l´ınguas, ou que tratam t´opicos n˜ao relacionados. Al´em disso, a quantidade de informa¸c˜ao pode ser muito grande, esparsa ou apresentar ru´ıdos.
Dados podem ser vistos como objetos que contˆem atributos, ou seja, propriedades ou caracter´ısticas (Amatriain et al., 2011). Ao se tratar de textos, pode-se dizer que dados s˜ao os documentos, enquanto que atributos s˜ao os termos que podem ser retirados desses documentos.
A etapa de pr´e-processamento de dados tem como enfoque transform´a-los numa es- trutura que o sistema seja capaz de processar. Al´em de organizar os dados em alguma estrutura padronizada, essa etapa tem como objetivo reduzir a quantidade de dados ne- cess´aria para processamento de tal maneira que as principais propriedades do conjunto de dados n˜ao sejam feridas. Outra importante funcionalidade ´e a diminui¸c˜ao da quantidade de dados ruidosos.
A seguir ´e dada uma breve descri¸c˜ao de como s˜ao efetuados os tratamentos citados acima. Para a redu¸c˜ao do volume de dados a serem processados, h´a duas possibilidades: amostragem e redu¸c˜ao de dimensionalidade.
Amostragem: Essa t´ecnica ´e utilizada para a sele¸c˜ao de um subconjunto relevante de dados inferior ao conjunto completo. A amostra deve ser capaz de representar todo o conjunto de maneira que suas propriedades n˜ao sejam perdidas. De outro modo, amostragem tamb´em ´e utilizada em algoritmos de aprendizado de m´aquina para a gera¸c˜ao de dois conjuntos: treinamento, que ir´a permitir o aprendizado dos parˆametros; e teste, que ser´a utilizado para a avalia¸c˜ao do modelo obtido na fase de treinamento (Amatriain et al., 2011).
Existem v´arias maneiras de se realizar amostragem. Deve-se, primeiro, definir se ela ´e com ou sem reposi¸c˜ao, ou seja, se dados selecionados permanecem ou s˜ao retirados do conjunto total. Definido isso, deve-se selecionar a t´ecnica de amostragem. A mais simples consiste na sele¸c˜ao aleat´oria de amostras, em que todos os dados pos-
suem mesma probabilidade de serem selecionados. Outra t´ecnica, conhecida como valida¸c˜ao cruzada, opera de maneira que conjuntos de treinamento e teste sejam constru´ıdos v´arias vezes e que o sistema seja avaliado em cada constru¸c˜ao. Por fim, a acur´acia do sistema ´e uma m´edia das avalia¸c˜oes realizadas. H´a variantes da valida- ¸c˜ao cruzada, como n-fold, em que os dados s˜ao divididos em n subconjuntos, sendo que n − 1 s˜ao utilizados para treinamento enquanto que um ´e usado para testes, revezando entre si n vezes; e leave-one-out, em que cada elemento ´e considerado um conjunto de treinamento ou teste. No que tange o escopo deste trabalho, a amostra- gem foi utilizada especialmente para a avalia¸c˜ao e valida¸c˜ao do trabalho. Aplicou-se a valida¸c˜ao cruzada em n-folds nas bases de dados de recomenda¸c˜ao e utilizou-se os subconjuntos gerados para avalia¸c˜ao do sistema. Maiores detalhes sobre a avalia¸c˜ao do sistema podem ser vistos na Se¸c˜ao 5.1.3.
Redu¸c˜ao de Dimensionalidade: Ao se analisar documentos textuais, deve-se construir um vocabul´ario. Esse vocabul´ario cont´em todos os termos utilizados no conjunto de documentos. Mesmo que se aplique heur´ısticas de elimina¸c˜ao de termos no momento de indexa¸c˜ao (Manning et al., 2008), muitos dos restantes podem n˜ao possuir relevˆancia na representa¸c˜ao de seus respectivos documentos, acarretando um gasto extra de espa¸co e processamento. Outro problema cr´ıtico ´e a esparsidade dos dados, especialmente numa representa¸c˜ao baseada em matrizes termo por do- cumento, tendo em vista que geralmente nos documentos h´a menos termos do que no vocabul´ario (Aggarwal e Zhai, 2012a).
Tendo isso em mente, as t´ecnicas de redu¸c˜ao de dimensionalidade buscam diminuir a quantidade de caracter´ısticas necess´arias para o sistema, sem ferir as propriedades do conjunto de dados. A maneira mais simples de se remover caracter´ısticas irrele- vantes ´e a exclus˜ao de termos comuns em uma cole¸c˜ao de documentos. Tais termos costumam ser, principalmente, artigos e preposi¸c˜oes de uma determinada l´ıngua, e s˜ao denominados stop-words. ´E comum desconsiderar tais palavras no processo de constru¸c˜ao do vocabul´ario do sistema.
De modo similar, palavras extremamente incomuns tamb´em podem ser removidas, pois n˜ao agregam valor aos c´alculos de similaridade (Aggarwal e Zhai, 2012b). Ou- tro argumento ´e que tais palavras podem surgir por erros ortogr´aficos, tendo em vista que o conte´udo pode ter sido criado, por exemplo, a partir de coment´arios de usu´arios. Deste modo, ´e comum aplicar a t´ecnica de redu¸c˜ao de dimensionalidade baseada na frequˆencia do documento (DF, do Inglˆes document frequency), em que conta-se o n´umero de documentos em que cada termo est´a presente, e s˜ao removidos
aqueles que possuem poucas ou muitas ocorrˆencias, ou seja, possuem seu valor DF abaixo ou acima dos limiares inferior e superior definidos.
Al´em das t´ecnicas heur´ısticas de remo¸c˜ao de caracter´ısticas, como a baseada na frequˆencia do documento, h´a t´ecnicas que transformam as caracter´ısticas para um espa¸co de menor dimensionalidade, como a indexa¸c˜ao semˆantica latente (LSI, do Inglˆes Latent Semantic Indexing), proposta por Deerwester et al. (Deerwester et al., 1988). T´ecnicas como essa n˜ao retiram caracter´ısticas que apresentam menor relevˆancia atrav´es de uma heur´ıstica definida, mas as transformam em um con- junto menor que ser´a uma representa¸c˜ao funcional do original. A LSI faz uso da decomposi¸c˜ao em valores singulares para gerar uma matriz aproximada de menor dimensionalidade. Enquanto que matrizes termo-documento costumam conter deze- nas de milhares de colunas e linhas (Manning et al., 2008), as matrizes aproximadas tendem a possuir apenas poucas centenas de dimens˜oes, o que representa um n´umero pequeno em rela¸c˜ao ao original.
Redu¸c˜ao de Ru´ıdos: Entende-se por ru´ıdo toda informa¸c˜ao que est´a de alguma maneira representada erroneamente. Palavras escritas de modo errado em textos, por exemplo, s˜ao um tipo de ru´ıdo.
A atividade de redu¸c˜ao de ru´ıdos almeja minimizar a presen¸ca destes para que n˜ao haja interpreta¸c˜oes errˆoneas do conjunto de dados. T´ecnicas de redu¸c˜ao de dimen- sionalidade costumam a realizar essa tarefa implicitamente, pois removem aquelas que tem pouco impacto no conjunto dos dados (Aggarwal e Zhai, 2012b). Neste trabalho, adotou-se em algumas das abordagens propostas uma m´etrica de redu- ¸c˜ao de dimensionalidade similar ao DF, chamada de frequˆencia do item (D’Addio e Manzato, 2014), pois cada item possui n documentos descritivos. Detalhes sobre esta m´etrica podem ser vistos na Se¸c˜ao 4.3.1.