Modelagem - Descoberta de conhecimento com o uso de text mining : cruzando o abismo de moore

Neste capítulo, discorreu-se sobre a modelagem - quarta etapa da CRISP-DM, considerada como mineração de dados em si.

Nessa etapa, foram selecionadas e aplicadas as técnicas de mineração de dados avaliadas como as mais apropriadas aos objetivos pretendidos. A criação de um modelo de teste permitiu construir um mecanismo para testar a qualidade e validar os modelos obtidos. Re- presentou a fase central da mineração, ou seja, a escolha, a parametrização e a execução de técnica(s) sobre o conjunto de dados analisados, criando-se modelos nos quais foram abordados tópicos de seleção de técnicas e algoritmos, testes do modelo, descrição detalhada do modelo adotado, bem como sua parametrização.

6.1 - Seleção da Técnica

Um processo de descoberta do conhecimento, como na DCT, envolve usualmen- te a combinação de diferentes tipos de problema. Neste o projeto, segundo a CRISP-DM, os principais problemas resolvidos com a DCT foram: Descrição e Sumarização dos Dados e Segmentação. Para tanto, em cada etapa foram selecionadas técnicas diferentes, relacionadas a seguir.

6.1.1 - Descrição dos Dados e Sumarização

Um dos problemas solucionados pela DCT foi o conhecimento mais abrangente do conteúdo dos dados da empresa. Para esse tipo de problema, fez-se uma abordagem híbrida, uma descrição das características dos dados da empresa.

Com a sumarização de determinados qualificadores nos textos, foi possível à empresa categorizar possíveis problemas. Em períodos de tempo, podem-se também verificar níveis de produção por categorias, pessoas, tipos, entre outros. Isso poderá servir à administra- ção para realçar e escalar possíveis problemas na linha de produção ou direcionamento de determinados assuntos tratados nas matérias.

Essa etapa, realizada no começo do projeto, serviu como base para as “primeiras descobertas” que permitiram explorar e conhecer melhor os dados analisados. Para isso foi uti- lizada a metodologia de Ah-Hwee Tan (Tan, 1999) apresentada na seção 4.2.2.

Tal como proposto, os dados foram exportados para um banco de dados relacio- nal. Usando-se essa forma intermediária, esses dados foram analisados e categorizados, sendo o resultado final obtido da análise de gráficos extraídos desse banco de dados os quais poderão também ser analisados pelas ferramentas de mineração de conhecimento para dados estrutura- dos.

6.1.2 - Segmentação

Verificados os objetivos da mineração e os dados disponíveis para o projeto, op- tou-se por lidar com técnicas usadas comumente para aprendizado não-supervisionado.

Fez-se um clustering nos textos da empresa, ou seja, agruparam-se objetos simi- lares em categorias distintas em que os objetos desse grupo detinham características comuns. Neste projeto, separam-se as matérias por grupos e em cada conjunto, determinadas palavras

Capítulo VI - Modelagem 90

eram compartilhadas. Desse modo, foi possível particionar uma grande coleção de documentos, isolando aqueles pertencentes a um mesmo assunto. Isso facilitou a identificação de documentos relevantes para o usuário. Aplicando-se técnicas adicionais, foi possível destacar o assunto ou conhecimento específico de cada grupo, facilitando o processo de recuperação de informações ou descoberta de conhecimento.

Com a análise desses agrupamentos, foi possível elaborar e explicar hipóteses. Baseado no conhecimento já apropriado pelo especialista, adquirido com a experiência nos dados da empresa ou ainda pelas informações fornecidas pela descrição e sumarização dos dados, pretende-se obter relações relevantes ao negócio da empresa.

Para a realização do clustering, foi escolhida a proposta de Palazzo, apresentada na pesquisa de Wives (Palazzo, 2000; Wives, 2000) e implementada na ferramenta Eurekha. Na Figura 6.1, é apresentada a seqüência adotada na condução dessa fase.

Obtidos os grupos e respectivos centróides, foi realizada uma análise deles, bus- cando extrair conhecimento com base nessas informações. Fez-se então uma categorização de assuntos abordados pela RADIOBRÁS. Essa categorização foi conduzida pelo especialista com base na metodologia apresentada por Halliman (2001) que usou, além das informações dos grupos, seu conhecimento.

Algumas tarefas citadas acima necessitaram da intervenção do usuário, tais co- mo: ajuste da lista de stopwords, a escolha do algoritmo e a definição do nível de similaridade. Para descoberta desses parâmetros e conseqüente validação do modelo, selecionou-se como grupo de testes, um conjunto menor de matérias que foi submetido ao software Eurekha para obtenção dos parâmetros necessários ao restante do projeto.

Figura 6.1 - Metodologia de agrupamento para DCT.

O Eurekha, usado para obter os clusters, fornece ao final do processo, arquivos textuais como relatórios de saída: (i) Relatório.txt - contendo os clusters encontrados, com a percentagem de distribuição dos textos, além dos centróides de cada grupo; e (ii) Clusters.txt - nomeia os arquivos contidos em cada grupo.

6.2 - Teste do modelo

A abordagem de solução, usada neste estudo de caso está relacionada a problemas exploratórios. Assim sendo, foram utilizados métodos de aprendizado não- supervisionado, visto que o objetivo era descobrir características implícitas nos dados de ma- neira a organizá-los. No aprendizado não-supervisionado, os padrões do conjunto de treinamento não apresentam uma pré-classificação associada, pois esta é desconhecida.

Capítulo VI - Modelagem 92

Deste modo, o teste para análise da qualidade e da validade do modelo, diferen- temente do método supervisionado que utilizou procedimentos de separação de conjunto de dados (dados de treinamento e de testes), foi elaborado pelo próprio especialista. Por meio dessa análise subjetiva ele avaliou o modelo mediante a observação dos grupos formados em relação ao conteúdo e a distribuição deles, conforme descrito a seguir.

6.3 - Modelo

Na validação do modelo, foram obtidos parâmetros utilizados pela ferramenta, de modo a permitir que o processo fosse mais bem direcionado para domínio dos dados exis- tentes no projeto.

O primeiro passo foi identificar as palavras que deveriam ser excluídas do pro- cesso de comparação entre os documentos - as stopwords. A ferramenta Eurekha incorpora grupos de stopwords comumente utilizadas (artigos, advérbios, interjeições, preposições, pro- nomes etc.). Ela permitiu ainda selecionar individualmente cada grupo, possibilitando que esse grupo de palavras fosse incluído ou não no processo. Foi possível, igualmente, acrescentar no- vos grupos ou palavras, de modo a personalizar o processo de análise dos textos de acordo com o domínio. Esse processo permitiu alcançar resultados mais acurados, reduzindo o núme- ro de características analisadas no processo.

Para executar esse teste e acrescentar possíveis stopwords, foram selecionadas as matérias produzidas no mês de fevereiro, contendo 2049 arquivos e cerca de 320.000 palavras. Esse mês foi escolhido por conter baixo número de notícias, levando-se em conta os problemas detectados na fonte de dados descritos na seção 5.3.1.

Na primeira execução, porém, o tempo de processamento foi maior que o desejado. Para a execução, na estação de trabalho, a geração da matriz de similaridade, que foi a

base para identificação dos clusters, tomou 40h36min39s e o tempo de processamento da iden- tificação tomou 3h10min.

Nessa fase, foram necessários vários ajustes e, conseqüentemente, para efeito de testes, esse tempo foi considerado inviável, pois seria preciso executar várias vezes a reidentificação dos clusters.

O grupo selecionado foi o mês de janeiro, com 240 arquivos e cerca de 35.000 palavras. Com isso, o teste foi realizado de forma mais rápida - 33min42s para geração da ma- triz de similaridade e cerca de 1min para identificação dos clusters.

Com a análise desse grupo menor de arquivos, foram identificadas as stopwords específicas para o processo e armazenadas em uma classe intitulada RADIOBRÁS.

Feita a seleção das stopwords, o processo seguinte foi a execução da ferramenta Eurekha para a construção da matriz de similaridade. Ao término dessa fase, a ferramenta permitiu selecionar quatro diferentes algoritmos para agrupamento de dados, bem como o GSM (Grau de Similaridade Mínimo) desejado.

Wives realizou estudos e análises comparativas entre esses algoritmos e diferen- tes valores para o GSM (Wives, 1999). Nesse estudo, o autor apresenta o algoritmo ‘Best-Star’ como sendo o melhor para identificação de relações entre objetos em que não é necessário que o usuário se preocupe com a escolha do GSM específico para coleção - GSM = 0 (zero).

Com o intuito de eleger a melhor configuração para o ambiente, foram testados os algoritmos disponíveis na ferramenta - ‘Stars’, ‘Full-Star’, ‘Best-Star’ e ‘Cliques’ com di- ferentes níveis de GSM. Os resultados desses testes são mostrados na Tabela 6.1. O tempo de processamento (Matriz), bem como o de processamento (Identificação dos clusters) permane- ceu constante. Respectivamente, 33min42s e cerca de 1min, na base de testes.

Capítulo VI - Modelagem 94

Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM.

Algoritmo GSM Nº de Grupos Nº de Grupos Unitários

Avaliação do Especialista

Best Star 0 77 0 Boa

Best Star 0,02 77 0 Boa

Best Star 0,05 77 11 Ruim

Cliques 0,05 72 15 Ruim

Full-Star 0,05 235 5 Péssima

Stars 0,05 40 17 Razoável

Stars 0,02 15 5 Muito boa

* Todos os testes foram realizados na mesma máquina: Pentium III dual 800 Mhz - 512 MB Ram

Os testes foram realizados com GSM igual ou inferior a 0,05, tendo em vista a ocorrência elevada de grupos unitários para valores acima desse patamar. Para GSM igual a zero, o único algoritmo apresentado capaz de identificar grupos por meio de relacionamentos naturais foi o ‘Best-Star’. Por isso, somente ele é apresentado com esse valor.

Os resultados desse teste foram submetidos ao especialista que os avaliou de forma subjetiva (‘boa’, ‘razoável’ etc), priorizando o aspecto de formação dos grupos em relação às matérias inseridas em cada um destes, analisando os assuntos tratados pelas maté- rias dentro de um mesmo grupo. Verificou-se também se dois ou mais grupos não tratavam de assuntos similares por meio da análise de seus respectivos centróides.

Como a pesquisa não visou à avaliação detalhada de qual o melhor algoritmo em relação ao tempo de processamento e sua acurácia, foram utilizadas como parâmetros, as me- didas apresentadas na pesquisa de Wives (1999).

Acerca dessa análise, foi eleito o algoritmo ‘Stars’ como GSM de ‘0.02’ para a coleção de dados do projeto. É importante salientar que a escolha desses parâmetros está dire- tamente ligada à coleção existente. É provável que esse nível de GSM e esse algoritmo não venham a identificar grupos coesos para outra coleção.

Outro critério de avaliação para escolha do algoritmo e do GSM foi a densidade dos grupos. A análise da quantidade de grupos unitários ocorreu pelo fato de que esses não

representaram, nesta pesquisa, ganho de conhecimento. Assim, um dos pontos considerados foi a relação de quanto menor o número de grupos unitários melhor seria a solução.

Com a seleção do algoritmo e do nível de GSM por meio da interação com a base de testes, o próximo passo foi sua utilização no restante da coleção.

Considerando o enorme tempo de processamento, defrontou-se, nessa etapa do projeto, com a viabilidade ou não dos processos que estavam sendo executados. Com esse problema, quanto aos tempos de execução, ficaria inviável dar continuidade à análise dos textos selecionados para o projeto. Por exemplo, nos servidores15, o tempo estimado para processamento foi de cerca de 562 horas para 5800 textos.

Com o intuito de sanar o problema, foram feitas diversas tentativas:

(i) Definição e configuração do limite de palavras comparadas por truncagem. Segundo

Wives (1999), um estudo indicou 50 palavras como boa escolha. Isto, porém não foi

fornecido na versão do Eurekha, disponibilizada para o projeto.

(ii) Alocação do processo em memória e aumento de prioridade da tarefa. Não resultou em melhorias visíveis.

(iii) Opção de utilizar outro software para selecionar melhor as palavras, truncar ou fazer

uma identificação de radicais. Não foi encontrado software para tal processo. Para

tanto, o processo de extração de stopwords foi revisto e a tabela devidamente atuali- zada.

(iv) Disponibilização de nova versão do software Eurekha. Cedida para o projeto a ver- são 3.0.1 beta;

Capítulo VI - Modelagem 96

Com essa nova versão, os tempos de processamento da matriz foram bastante o- timizados. Na Tabela 6.2, podem-se observar os tempos de execução das tarefas que têm o intuito de servir de base na criação de planos de projeto para DCT.

Tabela 6.2 - Tempos de execução das tarefas.

Mês (2001)

Tempo de Processamento (Matriz)

Tempo de processo (Identificação dos Clusters)

Máquina Janeiro 1m33s < 1 min I Fevereiro 1h10m7s ~9 hs I Março 8h47m50s ~180 hs I Abril 14h43m59s ~190 hs II Maio 16h44m42s ~210 hs II Junho 15h14m39s ~210 hs II Julho 9h1m3s ~120 hs II Agosto 13h20m57s ~130 hs II Setembro 39h26m17s ~290 hs III Outubro 9h45m1s ~200 hs II Novembro 17h20m8s ~180 hs II Dezembro 30h26m44s ~380 hs III

• Máquina I - Pentium III dual 800 Mhz - 512 MB Ram. • Máquina II - Pentium Xeon III dual 1 GHz 2 GB Ram. • Máquina III - Pentium III dual 550 MHz 512 Ram.

Como se vê, o tempo de execução dos processos tornou-se viável para a conti- nuação do projeto.

6.4 - Avaliação Técnica

Depois de realizado o clustering nas notícias veiculadas pela empresa, foi possí- vel verificar os resultados mediante observações do especialista. Essa análise foi efetuada de forma subjetiva, focalizada de acordo com o critério geral de interesse, guiada pelos conheci- mentos do especialista e pelos centróides obtidos dos grupos (Figura 6.2).

Figura 6.2 - Resultado do agrupamento de dezembro/01. Grupo Documentos Centróides

Cluster [1] 10% NUBLADO TEMPO REGIÃO CHUVA

Cluster [2] 36% MINISTRO PRESIDENTE DESENVOLVIMENTO GOVERNO

Cluster [3] 06% PRESIDENTE GOVERNO MINISTRO MILHÕES

Cluster [4] 16% PRESIDENTE GOVERNO MINISTRO FEDERAL

Cluster [5] 10% DÓLAR VENDA MINISTRO COMERCIAL

Cluster [6] 09% CENTO ALTA DÓLAR VENDA

Cluster [7] 04% PRESIDENTE FERNANDO HENRIQUE CARDOSO

Cluster [8] 02% BANCO ESTADO CENTRAL NESTA

Cluster [9] 02% COMISSÃO CÂMARA SENADO PLENÁRIO

Cluster [10] 01% FEDERAL UNIVERSIDADE REINICIA MACEIÓ

Cluster [11] 01% DÓLAR VENDA COMPRA COMERCIAL

Cluster [12] 00% INFORMOU PAULISTA AEROPORTO POLÍCIA

Cluster [13] 01% DÓLAR COMPRA VENDA COMERCIAL

Cluster [14] 00% REUNIÃO MINISTÉRIO RELATÓRIO CONSELHO

Cluster [15] 00% ENERGIA ANEEL MERCADO ELÉTRICA

Cluster [16] 00% SENADO PROJETO FOGOS CHAGAS

Cluster [17] 00% MAIORES BAIXA MILHÕES OPERA

Cluster [18] 00% CULTURA PRÊMIOS MINISTÉRIO ENTREGA

Cluster [19] 00% BRADESCO ESTADO CHUVAS VÍTIMAS

Cluster [20] 00% CORPO BLAKE ESTADO ÍNDIA

Cluster [21] 00% PUBLICA UNIÃO ÁLCOOL PORTARIA

Cluster [22] 00% RECIFE MACIEL PASSA REVEILLON

Cluster [23] 00% CENTRAL SETOR NOTA FISCAL

Cluster [24] 00% PETRÓPOLIS DEFESA CIVIL DUQUE

A avaliação foi feita com o levantamento de pressupostos dirigidos para confir- mação ou oposição de fatos que se referiram a acontecimentos de grande repercussão nacional ou internacional no período (2001). Conhecendo-se esses grandes assuntos, o ambiente foi ex- plorado, aplicando-se diferentes estratégias de observação e experimentação. Para tanto, foram usados exemplos para testar esses pressupostos, permitindo formular conceitos parciais. Pode- riam ser citados eventos como: campanhas de vacinação, campanhas educativas sobre AIDS e outras, atentado terrorista ao World Trade Center, campanha de combate às drogas no polígo- no da maconha, campanhas antiapagão, guerras, entre outros.

Com esse conhecimento, o especialista, pela observação, formulou pressupostos, criou critérios de classificação, estabelecendo hierarquias. Dessa forma, puderam-se detectar conceitos e categorizar os grupos de acordo com a medida de interação com o ambiente exter- no.

Capítulo VI - Modelagem 98

Para construção do modelo na ferramenta de mineração de texto, foram adota- dos os seguintes parâmetros:

(i) Técnica - Clustering (ii) Nível de GSM - 0.02;

(iii) Algoritmo selecionado- Stars.

6.5 - Síntese do Capítulo

Este capítulo discorreu sobre a quarta etapa da CRISP-DM. Foram obtidos, nessa fase do estudo de caso, os parâmetros e conseqüentes grupos, executando-se a técnica sele- cionada - clustering.

Pode-se considerar essa etapa como sendo a mineração dos dados em si, visto que ela é tida como núcleo do processo de descoberta de conhecimento.

Com as informações obtidas, pode-se passar para próxima etapa da CRISP-DM - avaliação, em que foram abordadas as tarefas ligadas ao pós-processamento.

Capítulo VII -

No documento Descoberta de conhecimento com o uso de text mining : cruzando o abismo de moore (páginas 89-100)