• Nenhum resultado encontrado

3.2 A Mineração de Textos e o Processo KDT

3.2.3 As Técnicas de Mineração de Textos

A mineração de textos é uma área interdisciplinar que envolve campos do conhecimento como o Aprendizado de Máquina, a Inteligência Artificial, o Processamento de Linguagem Natural, a Linguística Computacional, dentre outros. Esta diversidade de áreas implica em inúmeras técnicas com os mais variados paradigmas e aplicações que, simplificadamente, podem se resumir em três grupos: técnicas de clusterização, técnicas de classificação e técnicas de extração de informação.

3.2.3.1 Técnicas de Clusterização

O principal objetivo da clusterização é encontrar grupos de dados que apre- sentem alguma similaridade (BERKHIN, 2006). Cada grupo, ou cluster, é formado por objetos similares uns aos outros e dissimilares a objetos de outros grupos. Assim, a clus- terização é uma forma de modelagem na qual se busca uma função de similaridade que promova a separação dos dados em grupos. Existem inúmeros algoritmos de clusteriza- ção descritos na literatura científica, os quais, em geral, dividem-se em dois grupos: os métodos de clusterização hierárquica e os métodos de particionamento.

Na clusterização hierárquica, os grupos são formados progressivamente através de divisões sucessivas dos dados totais, gerando uma hierarquia expressa, usualmente, em uma estruturada de árvore. A abordagem de formação dos grupos pode ser bottom-up, em que, inicialmente, cada elemento de entrada é associado a um grupo e novos clusters vão sendo formados pela união dos já existentes segundo alguma medida de cálculo de similaridade; ou pode ser top-down, em que inicialmente há um único grupo que contém todos os dados e que, a partir de critérios pré-estabelecidos, vai se dividindo a cada passo de avaliação. Segundo Berkhin (2006), a vantagem da clusterização hierárquica está na facilidade de se determinar uma medida de similaridade e aplicá-la em qualquer tipo de atributo. Porém, possui como desvantagens a dificuldade de se estabelecer um critério de parada e a não iteratividade com grupos já formados.

Já na clusterização por particionamento, um conjunto de dados é dividido em k grupos, podendo k ser ou não um valor previamente conhecido. A divisão ocorre com modificações sucessivas da configuração dos grupos através de uma função-objetivo. Caso a configuração não satisfaça a função-objetivo, uma nova configuração é estabelecida com a migração dos elementos entre os grupos. Esse processo se repete sucessivamente até que se atinja um critério de parada. Os métodos de particionamento mais conhecidos são o k-means e o k-medoids, os quais particionam um conjunto de dados baseado na distância

Capítulo 3. Mineração de Textos 67

dos seus elementos. Uma vantagem deste método é que os grupos podem se modificar iterativamente até que se encontre o melhor ajuste à função-objetivo. Porém, apesar de haver alguns métodos de escolha, a decisão de quantos grupos irá se dividir o conjunto de dados muitas vezes deve ser tomada arbitrariamente.

Além dos métodos hierárquicos e de partição, atualmente é possível observar um crescimento de algoritmos que utilizam meta-heurísticas aplicados para o problema da clusterização, como os Algoritmos Genéticos (DING; FU, 2016), Algoritmos Imunológicos (CASTRO; ZUBEN, 2000), GRASP (CANO et al., 2002), Busca Tabu (CAO et al., 2015), Colônia de Formigas (İNKAYA et al., 2015), entre outros.

No contexto da mineração de textos, o uso de métodos de clusterização está relacionado à extração de conteúdo em uma coleção de documentos, como nas tarefas de seleção de palavras-chave e sumarização extrativa; ou então à separação de um conjunto de documentos em subconjuntos, em que cada documento compartilha algum atributo em comum, como na tarefa de separar artigos segundo a área da ciência a que eles se referem. 3.2.3.2 Técnicas de Classificação

As técnicas de classificação de textos têm por objetivo determinar a qual classe um documento pertence. Dado um conjunto de documentos já rotulados, o problema da classificação pode ser definido como a tarefa de encontrar um modelo de classificação (classificador) que, tendo conhecimento deste conjunto, seja capaz de atribuir correta- mente um rótulo a um novo documento. Esta classificação pode ser do tipo hard caso o classificador atribua explicitamente um rótulo, ou do tipo soft, caso o classificador atribua um valor de probabilidade ao documento em teste (MICHALSKI et al., 2013). Abaixo segue uma lista com alguns dos métodos mais utilizadas na classificação de textos.

∙ Método Naive Bayes: o algoritmo Naive Bayes é um classificador probabilístico de abordagem supervisionada fundamentado no “Teorema de Bayes”. Sua carac- terística principal está no fato de desconsiderar completamente a correlação entre atributos de uma classe, assumindo que esta possui apenas atributos bem definidos e independentes.

Devido a esta abordagem simplista de tratamento das características dos modelos, o classificador Naive Bayes é uma atraente metodologia, sendo amplamente utilizados nas mais diversas tarefas com razoável desempenho (KIM et al., 2006). Atualmente, diversas variações são pesquisadas em busca de classificadores mais eficientes (JI- ANG et al., 2016; TANG et al., 2016; DEY et al., 2016). Os destaques são os métodos que se utilizam de uma abordagem mista (FARID et al., 2014; CHEN et al., 2016). ∙ Classificador Vizinho mais Próximo (Nearest Neighbor Classifier): é um método probabilístico de abordagem supervisionada que utiliza como critério de

classificação uma medida de proximidade (geralmente em função da distância). A hipótese desta metodologia é que os documentos que pertencem a uma mesma classe estão probabilisticamente mais próximos segundo alguma medida de similaridade. A classificação do documento de teste é inferida a partir dos rótulos atribuídos aos documentos similares do conjunto de treinamento (ERTOZ et al., 2002).

∙ Classificadores de Árvores de Decisão (Decision Tree Classifiers): Uma Árvore de Decisão é um modelo estatístico utilizado em problemas de predição supervisionada, no qual um conjunto de atributos é usado para predizer o valor de um atributo de saída. Para a atividade de classificação, duas etapas são necessárias: (1) a árvore de decisão deve ser gerada a partir de um conjunto de treinamento e (2) a partir da árvore gerada, devem ser aplicados os testes de classificação dos novos dados (WITSCHEL, 2005).

Uma Árvore de Decisão busca encontrar uma solução dividindo o problema em subproblemas menores, formando um mapa dos possíveis resultados de uma série de escolhas. Geralmente, a Árvore de Decisão se inicia com um único nó, o qual representa o teste de um atributo. Os resultados são representados pelos seus ramos, que levam a novos testes formando novos nós. Este processo acontece de forma recursiva até que se atinja o nó folha (final), o qual fornecerá a classe do objeto. As árvores de decisão apresentam desempenho satisfatório na tarefa de classificação de documentos. Porém, quando associadas a outras técnicas, como a Naive Bayes (FARID et al., 2014) ou fuzzy (WAHIBA; AHMED, 2016), sua performance pode ser aprimorada.

∙ Métodos Fuzzy: um classificador fuzzy se utiliza do conceito de incerteza e im- precisão, descrito por Zadeh (1965), em que cada resultado é expresso pelo grau de pertinência com o conjunto de valores de saída. O processo de classificação trata de uma etapa de fuzzificação, na qual os valores de entrada numéricos são convertidos em valores linguísticos. Em seguida, regras de classificação fuzzy, também represen- tadas em forma linguísticas, são utilizadas para avaliação dos dados de entrada. Por fim, ocorre a defuzzificação, em que os dados avaliados são convertidos novamente em dados numéricos.

O principal desafio do processo fuzzy é determinar um método que produza ade- quadamente as regras de classificação. Diversos algoritmos foram propostos, com destaque para o FCM (Fuzzy C-means) (BEZDEK et al., 1984), o qual possui várias variantes para as mais diversas aplicações.

∙ Máquinas de Vetores de Suporte (Support Vector Machines - SVM): é um método matemático de classificação supervisionada, cuja ideia principal é construir um hiperplano para atuar como superfície de decisão de modo que a margem de

Capítulo 3. Mineração de Textos 69

separação entre os dados seja máxima. Uma vez encontrado este hiperplano que separe duas classes, a classificação torna-se trivial (JOACHIMS, 2001).

Porém, o uso de SVM não se restringe a padrões separáveis e espaços lineares. É possível buscar um hiperplano ótimo que minimize a probabilidade de erro de clas- sificação causado pela não separabilidade dos dados. Neste caso, denomina-se SVM de margem suave. Já nos casos em que não é possível dividir satisfatoriamente os dados de treinamento em um hiperplano, as SVM podem mapear seu conjunto de treinamento de seu espaço original para um novo espaço de maior dimensão, deno- minado espaço de características. A escolha apropriada da função de mapeamento faz com que o conjunto de treinamento mapeado possa ser separado por uma SVM linear (SMOLA; SCHÖLKOPF, 2004).

A possibilidade de uso para problemas de alta dimensionalidade tem sido um im- portante fator de popularização do método. Métodos SVM têm sido amplamente utilizados em diversos domínios que exigem a tarefa de classificação como reconhe- cimento de padrões (BURGES, 1998), detecção de rostos (ANAND; SHAH, 2016) e detecção de spam (HE et al., 2016).

3.2.3.3 Técnicas de Extração de Informação

A Extração de Informação (Information Extraction - IE) é o processo de extrair automaticamente informação em documentos não estruturados ou semi-estruturados de um domínio específico (KANYA; GEETHA, 2007). As técnicas de IE usualmente identifi- cam palavras, frases ou até documentos inteiros, revelando aquilo que se destaca segundo alguma medida de relevância. Dentre as possíveis aplicações estão os sistemas de suma- rização extrativa, extratores de palavras-chave, sistemas de reconhecimento de entidades nomeadas e extratores de relações.

Os sistemas de extração de informação não interpretam os textos em busca de algum conhecimento específico, mas sim analisam e buscam trechos (palavras ou parágra- fos) que possuam informações relevantes ao domínio em estudo. Desta forma, abordam um conjunto de textos isolando fragmentos que expressam a informação relevante. Em ge- ral, são calculadas medidas de relevância que atribuem pesos aos itens extraídos, gerando como saída uma tabela ou ranking.

A maioria das técnicas de Extração da Informação são baseadas em métodos estatísticos e de Aprendizado de Máquina. A seguir, é apresentada uma breve descrição de três métodos popularmente utilizados.

∙ Modelos Ocultos de Markov (Hidden Markov Models - HMM): são mo- delos estatísticos que consideram o sistema modelado um processo de Markov com parâmetros desconhecidos. Desta forma, o objetivo principal é determinar esses pa-

râmetros segundo as variáveis observáveis. Uma vez determinados os parâmetros, eles podem ser utilizados para novas análises no domínio do estudo (RABINER, 1989). Em um modelo de Markov clássico apenas os estados são observáveis, desta forma, os parâmetros a serem definidos são as probabilidades de transição do estado. Os HMM provaram ser uma abordagem útil para a análise de padrões estatísticos em uma ampla gama de aplicações, incluindo o reconhecimento de fala (SATORI et al., 2017), análise de sequência biológica (SALZBERG et al., 1998), detecção de pirataria de software (KAZI; STAMP, 2013) e detecção de malware (ANNACHHATRE et al., 2015).

∙ Campos Aleatórios Condicionais (Conditional Random Fields - CRF): é um modelo probabilístico amplamente utilizado no processamento de linguagem natural. Proposto por Lafferty et al. (2001), os CRF são uma variante dos Campos Aleatórios de Markov, um modelo gráfico não direcionado formado por um conjunto de variáveis aleatórias que possuem uma propriedade de Markov, segundo o qual cada variável aleatória pode ser condicionada a um conjunto de observações globais (MCCALLUM et al., 2000). Sua aplicação em extração de informação é vasta, porém bons resultados são obtidos em tarefas de extração de palavras-chave (ZHANG, 2008) e sumarização extrativa (SHEN et al., 2007).

∙ Métodos Estatísticos: pioneiros nos processos de análise de relevância de termos, são métodos baseados em cálculos simples que envolvem, em geral, a contagem da frequência de termos para a determinação da relevância das palavras (JONES, 1972). Pelo fato de serem simples, as análises baseadas em frequência costumam ser muito utilizadas, entregando resultados razoáveis com pouca complexidade computacional. Três métodos são comumente empregados: a contagem da frequência absoluta (Term Frequency), que contabiliza quantas vezes um termo aparece no texto; a frequência relativa (Relative Frequency), a qual leva em consideração o tamanho do documento no calculo da frequência de um termo; e a frequência inversa de documentos (Inverse Document Frequency), que é uma medida que avalia a relevância de um termo por uma função inversa do número de documentos em que ele ocorre.

Os métodos apresentados ilustram as principais técnicas utilizadas no processo KDT, porém, não se limitam a estas. A escolha da abordagem depende dos objetivos do problema que se deseja solucionar, bem como de variáveis como tempo de processamento, existência de conjunto de treinamento, escolha da representação textual, entre outras.

A mineração de textos é a principal etapa de extração de conhecimento em textos. No entanto, os resultados dos algoritmos nem sempre expressam com clareza para o usuário final o conhecimento revelado. Por este motivo, muitas vezes faz-se necessário

Capítulo 3. Mineração de Textos 71

uma etapa posterior de pós-processamento. O próximo tópico abordará esta última etapa do processo KDT.