Descoberta de conhecimento com o uso de text mining : cruzando o abismo de moore

(1)

U

N

I

V

E

R

S

I

D

A

D

E

C

A

T

Ó

L

I

C

A

D

E

B

R

A

S

Í

L

I

A

Pró-Reitoria de Pós-Graduação e Pesquisa

Programa de Pós-Graduação Stricto Sensu em Informática Mestrado em Gestão do Conhecimento e da Tecnologia da Informação

Descoberta de Conhecimento com o uso

de

Text Mining

: Cruzando o Abismo de

Moore

Edilberto Magalhães Silva

(2)

Descoberta de Conhecimento com o uso

de

Text Mining

: Cruzando o Abismo de

Moore

Prof. Dr. Hércules Antônio do Prado e

Prof. Dr. Edilson Ferneda

Orientadores

Brasília-DF

2002

(3)

ii

Ficha Catalográfica

S586d Silva, Edilberto Magalhães

Descoberta de conhecimento com o uso de text mining: cruzando o abismo de Moore / Edilberto Magalhães Silva. – Brasília, 2002.

174 p.

Orientadores: Prof. Dr. Hércules Antônio do Prado e Prof. Dr. Edilson Ferneda.

Dissertação (mestrado) – Universidade Católica de Brasília, 2002.

1. Inteligência organizacional. 2. Text mining. 3. CRISP-DM. 4. KDT. 5. Aprendizagem organizacional. I. Título.

(4)

iii

Termo de Aprovação

Dissertação defendida e aprovada em 19 de dezembro de 2002, pela banca examinadora

constituída pelos professores:

______________________________________________

Prof. Dr. Hércules Antônio do Prado - Orientador

______________________________________________

Prof. Dr. Edilson Ferneda - Orientador

______________________________________________

Profa. Dra. Kira Maria Antonia Tarapanoff

______________________________________________

(5)

iv

Dedicatória

A meus pais, Paulo Roberto e Maria de Fátima pelo apoio incondicional, pelo amor, doação e educação dados ao filho que os ama muito.

A meus familiares, em especial, minhas irmãs, Cristiane e Ana Paula, pela cooperação e privação das horas de convívio tão importantes para mim em decorrência da dedicação a meus estudos.

A Júnior, Arthur, Eduardo, Marcos Vinnícius, Ana Clara e Lívia Maria os quais me sinto honrado em tê-los como afilhados.

(6)

v

Agradecimentos

A Deus que por tantos motivos reclamaria outra dissertação.

Aos administradores da RADIOBRÁS, Srs. Carlos Zarur e Luiz Antônio Duarte, pelo apoio, em especial, ao Sr. José Roberto Barrozo pela amizade, conselhos e gerenciamento no estudo de caso.

Aos professores Hércules Prado e Edílson Ferneda pela amizade, orientação e sugestões, indispensáveis para a elaboração desta pesquisa

A ajuda valiosa de Leandro Wives pela disponibilização dos estudos realizados na área de DCT e pelo fornecimento da ferramenta de mineração de texto Eurekha.

Ao Departamento de Ciência da Computação na pessoa do prof. Marcelo Ladeira, que franqueou minha participação no curso Mineração de Dados oferecido, no âmbito do projeto SARA - Saúde Apoiada em Raciocínio Automatizado (cooperação UFRGS/UnB/UCB). A participação no referido curso foi de vital importância para o desenvolvimento da aplicação de mineração de texto contida nesta dissertação.

(7)

vi

Epígrafe

(8)

vii

Sumário

Lista de Figuras ...x

Lista de Tabelas ...xi

Lista de Abreviaturas ...xii

Resumo ...xiii

Abstract ...xiv

Capítulo I - Introdução ...15

Capítulo II - Apresentação do Problema ...19

2.1 - Importância das Informações Textuais nas Organizações ...20

2.2 - Uso de mineração de textono mundo...21

2.3 - ‘Abismo’ de Moore ...21

2.4 - Colocação do Problema ...23

2.5 - Objetivos...23

2.6 - Caracterização e Articulação da Pesquisa...24

Capítulo III - O Estado da Arte da DCT ...25

3.1 - KDT - Knowledge Discovery in Text...25

3.1.1 – Extração da Informação...26

3.1.2 – Recuperação da Informação ...28

3.2 - Tecnologias para descoberta do conhecimento em Texto ...33

3.2.1 - Descobertas Reativa e Proativa...33

3.2.2 - Inteligência Competitiva ...35

3.2.3 - Tipos de Descoberta ...36

3.3 - Diferenças entre Mineração de texto eFerramentas de Busca ...37

3.4 - Síntese do Capítulo...39

Capítulo IV - Metodologia ...42

4.1 - CRISP-DM ...42

4.1.1 - Definição e Entendimento do problema...46

4.1.2 - Obtenção e Extração dos Dados...46

(9)

viii

4.1.4 - Engenharia dos Dados...47

4.1.5 - Engenharia do algoritmo...48

4.1.6 – Mineração ...48

4.1.7 - Interpretação e Validação dos resultados ...49

4.1.8 - Refinamento dos Dados e do Problema ...50

4.2 - Abordagens para DCT ...50

4.2.1 - Abordagem de Palazzo ...51

4.2.2 - Abordagem de Ah-Hwee Tan ...52

4.2.3 - Abordagem de Halliman ...53

4.3 - Abordagem Utilizada das Estratégias de DCT ...55

Capítulo V - Compreensão do Negócio e Pré-Processamento...57

5.1 - Compreensão do Negócio...57

5.1.1 - Objetivo do Negócio ...58

5.1.2 - Avaliação da Situação ...61

5.1.3 - Objetivos da Mineração de Dados...67

5.1.4 - Plano do Projeto ...68

5.2 - Entendimento dos Dados ...71

5.2.1 - Relatório Inicial da Coleção...71

5.2.2 - Descrição dos Dados ...73

5.2.3 - Exploração dos Dados...74

5.2.4 - Qualidade dos Dados...78

5.3 - Preparação dos Dados...79

5.3.1 - Seleção dos Dados ...79

5.3.2 - Limpeza dos Dados ...81

5.3.3 - Engenharia dos Dados...83

5.3.4 - Formatação dos Dados...86

Capítulo VI - Modelagem...88

6.1 - Seleção da Técnica ...88

6.1.1 - Descrição dos Dados e Sumarização...89

6.1.2 - Segmentação ...89

6.2 - Teste do modelo...91

6.3 - Modelo...92

6.4 - Avaliação Técnica ...96

(10)

ix

Capítulo VII - Pós-Processamento ...99

7.1 - Avaliação...99

7.1.1 - Avaliação do Modelo ...100

7.1.2 - Revisão dos Processos ...110

7.1.3 - Próximos passos ...112

7.2 - Aplicação...112

7.2.1 - Planejamento da Aplicação ...112

7.2.2 - Produção do relatório final ...113

7.2.3 - Revisão de projeto ...114

Capítulo VIII - Impactos do Conhecimento Adquirido na Gestão do Conhecimento ...116

8.1 - Gestão do Conhecimento e Impactos da Mineração de Textos ...117

8.2 - Modelo Genérico de Gestão do Conhecimento ...118

8.2.1 - Processos da Gestão do Conhecimento ...119

8.2.2 - Fatores Facilitadores da Gestão do Conhecimento ...122

8.3 - Contribuições da Mineração de Texto no Modelo de Gestão do Conhecimento ...123

8.3.1 - Na Gestão da Empresa ...124

8.3.2 - No Modelo Genérico de Gestão do Conhecimento...125

Capítulo IX - Conclusões e Trabalhos Futuros ...127

Capítulo X - Referências Bibliográficas...131

Anexo A - Autorização e Avaliação da RADIOBRÁS...134

Anexo B - Artigo no DM 2002...138

Anexo C - Artigo no KM Brasil 2002 ...149

(11)

x

Lista de Figuras

Figura 2.1 - Comparação de uso entre técnicas de mineração. ...21

Figura 2.2 - Ciclo de vida de adoção de tecnologia. ...22

Figura 3.1 - Etapas em uma indexação automática...31

Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM...44

Figura 4.2 - Processo completo da DCBD...45

Figura 4.3 - Abordagem de Palazzo...51

Figura 4.4 - Abordagem de mineração de texto segundo Ah-Hwee Tan. ...52

Figura 4.5 - Abordagem de Halliman. ...54

Figura 5.1 – Plano do projeto. ...68

Figura 5.2 - Interface do Eurekha. ...70

Figura 5.3 - Produção Mensal em 2001. ...73

Figura 5.4 - Formato-padrão do conteúdo textos...74

Figura 5.5 - Padrão de nomenclatura do arquivo-texto...74

Figura 5.6 - Incidência de palavras por mês (a)...76

Figura 5.7 - Incidência de palavras por mês (b)...76

Figura 5.8 - Utilitário de pesquisa textual...82

Figura 5.9 - Ciclo das tarefas da engenharia de dados...83

Figura 5.10 - Nomenclatura dos arquivos de C&T depois da engenharia dos dados...85

Figura 5.11 - Nomenclatura depois da formatação dos textos. ...86

Figura 6.1 - Metodologia de agrupamento para DCT. ...91

Figura 6.2 - Resultado do agrupamento de dezembro/01. ...97

Figura 7.1 - Resultado da categorização de dezembro/01...102

Figura 7.2 - Grandes assuntos abordados pelas notícias. ...102

Figura 7.3 - Evolução na incidência das principais palavras em 2001. ...103

Figura 7.4 - Palavras mais usadas...104

Figura 7.5 - Distribuição de tipos de notícias. ...105

Figura 7.6 - Distribuição geográfica no Brasil...105

Figura 7.7 – Categorias das notícias no período ...107

Figura 7.8 - Categorias das notícias por mês (a)...108

Figura 7.8 - Categorias das notícias por mês (b)...109

Figura 7.9 – Síntese metodológica do estudo de caso...110

Figura 8.1 - Processo geral de aprendizado. ...118

(12)

xi

Lista de Tabelas

Tabela 5.1 - Resumo da importação dos dados...72

Tabela 5.2 - Resumo dos dados importados. ...73

Tabela 5.3 - Total e média de palavras por texto. ...75

Tabela 5.4 - Palavras com maior incidência por mês em 2001...75

Tabela 5.5 - Resultado da limpeza de dados...82

Tabela 6.1 - Resultados dos testes de algoritmos x nível de GSM. ...94

(13)

xii

Lista de Abreviaturas

ASC II - American Standard Code for Information Interchange

C&T - Ciência e Tecnologia

CRISP-DM - CRoss-Industry Standard Process for Data Mining

DCBD - Descoberta de Conhecimento em Bases de Dados

DCT - Descoberta de Conhecimento em Texto

DM - Data Mining ou Mineração de Dados GSM - Grau de Similaridade Mínimo

IE - Information Extraction ou Extração da Informação IR - Information Retrieval ou Recuperação da Informação KDD - Knowledge Discovery in Databases

(14)

xiii

Resumo

Desde o final dos anos 80, um grande esforço de pesquisa vem sendo

desenvolvido com o intuito de se extrair padrões úteis e desconhecidos a partir do grande

volume de dados existente nas organizações. A primeira vertente de pesquisa explorou,

principalmente, dados estruturados. Mais recentemente, passou-se a dar mais atenção a dados

na forma de texto. Entretanto, passados alguns anos de pesquisa em mineração de texto,

observa-se que esse tipo de tecnologia ainda é pouco explorado. Considerando que a maior

parte das informações disponíveis está em forma textual e que nessa forma podem estar

escondidos padrões importantes questiona-se o porquê da pouca utilização de mineração de

texto. Para tentar responder essa questão, foram enumeradas como possíveis causas para a

carência de aplicações de text mining: (a) pouca usabilidade das ferramentas; (b) existência de poucos relatos de experiências de sucesso; e (c) falta de uma metodologia adequada. Neste

trabalho investigou-se o item (c) por meio de um estudo de caso real em uma empresa pública

de jornalismo (RADIOBRÁS). Desenvolveu-se uma aplicação de text mining sobre cerca de 55.000 notícias por ela produzida em 2001. Partindo da análise dos resultados obtidos

procurou-se demonstrar que é possível com o KDT – Knowledge Discovery in Text obter vantagens competitivas, apontando a existência de alternativas metodológicas adequadas para

a superação do chamado ‘abismo’ de Moore. Foram agregadas várias metodologias para KDT

juntamente com a CRISP-DM, originalmente desenvolvida para KDD – Knowledge Discovery in Database, verificando-se que é possível, na prática, reverter conhecimentos adquiridos com o KDT em benefício do melhoramento da eficiência organizacional.

(15)

xiv

Abstract

Since the late 80s a great effort has been developed aiming to the acquisition of previously unknown and useful patterns from the huge amount of data existing in the organizations. The initial focus of this research explored chiefly structured data. Most recently, attention has been given to data in the form of texts. After some years researching the text mining it is possible to assert that this kind of technology is still little explored. Considering the major part of the available information is in textual format and that it hides important patterns, the question is: why is text mining not properly explored? Trying to answer this question, some possible reasons were enumerated, such as: (a) weak usability of the tools; (b) non-existence of reports about successful experiences; and (c) lack of adequate methodology. This work investigated the item (c) through a case study on a real situation at RADIOBRAS, a Brazilian public journalism company. The Text Mining application was developed over 55,000 news in 2001. Considering the results, it is possible to show that, through the KDT - Knowledge Discovery in Text, it is possible to get competitive advantages, showing the existence of satisfactory methodological alternatives to overcome the “Chasm of Moore”. Besides the usual KDT techniques, other methodologies were applied. For example, CRISP-DM, originally developed to KDD (Knowledge Discovery in Database), guided the development process. By this approach, we could verify that it is possible to consider critically the acquired knowledge with KDT in order to benefit the improvement of the organizational efficiency.

(16)

Capítulo I -

Introdução

Sendo constantemente desafiadas a se adaptarem às mudanças ambientais, as

organizações estão levando em consideração, entre outros, as expectativas dos clientes, as

es-tratégias competitivas, os avanços tecnológicos, as condições instáveis na economia e na

sociedade.

As organizações podem ser vistas como sistemas de processamento de

informa-ções, alinhavadas na maioria de seus procedimentos administrativos. Assim, a Gestão do

Co-nhecimento pode, por sua vez, ser vista como o conjunto de atividades que busca desenvolver

e controlar todo tipo de conhecimento em uma organização a fim de apoiar seu processo

deci-sório em todos os níveis.

Nesse cenário, a geração e a fixação da inteligência organizacional1 têm-se

reve-lado como diferenciais competitivos que podem levar à gestão mais ágil dos negócios em

di-versos sentidos, não só no relacionamento da organização com os seus clientes como também

na adequação da sua estrutura de trabalho, entre outros.

1

“A inteligência organizacional é um ciclo contínuo de atividades que incluem o sensoriamento do ambiente, o desenvolvimento de percepções e a criação de significados por intermédio de interpretação, utilizando a memória sobre as

experiências passadas e escolhendo ações baseadas nas interpretações desenvolvidas”. (Choo apud Moresi, 2001a, p.44)

“A Inteligência organizacional refere-se à capacidade de uma corporação como um todo de reunir informação, inovar, criar

(17)

Capítulo I - Introdução 16

A importância da informação para a elaboração do conhecimento e,

conseqüen-temente, para a síntese da inteligência é largamente reconhecida, requerendo tratamento

ade-quado para obtenção de insights que levem à ativação dos processos mentais, atingindo assim

tal síntese.

Desde o final dos anos 80, pesquisadores em “DCBD - Descoberta de

Conheci-mento em Banco de Dados” vêm dedicando intensivos esforços na disponibilização de

ferra-mentas para a extração de padrões desconhecidos a partir de bancos de dados estruturados,

procurando fazer que essa tarefa seja a mais automatizada possível. Nesse sentido, importantes

avanços permitiram que com o uso da tecnologia fosse possível atravessar o usual “abismo”

existente entre a universidade e o mercado, interessado especialmente em ferramentas para

aplicação direta no processo de tomada de decisão e conseqüente aumento de agilidade e

com-petitividade.

Considerando que a tomada de decisão é um processo de investigação, de

refle-xão e de análise, justifica-se a necessidade de se obter informação qualitativa que contenha

alto valor agregado. Dentre as ferramentas disponíveis para isso destacam-se, aqui, as de

Mi-neração de Textos (Text Mining). Nota-se, no entanto, que tais ferramentas não têm apresenta-do um grau de utilização compatível com seu potencial de aplicação.

Neste trabalho, realizou-se um estudo de caso em uma empresa pública de

jorna-lismo - RADIOBRÁS - para a criação de inteligência organizacional com a aplicação de

fer-ramentas de mineração de texto. Para isso, baseada no questionamento do cumprimento do

papel social da empresa, procurou-se delinear o ambiente informacional sob o foco do modelo

genérico de gestão do conhecimento com análise de padrões extraídos do enorme volume de

(18)

Considerando que a RADIOBRÁS é uma importante empresa do Estado,

detendo papel relevante na divulgação dos atos da administração pública do País, fica evidente

a necessidade de uma avaliação embasada no conhecimento sobre os resultados de suas

ativi-dades, pois, como qualquer outra empresa, está sujeita à crescente exigência de

competitivida-de imposta às organizações mocompetitivida-dernas.

Na RADIOBRÁS, procurou-se desenvolver inteligência organizacional com a

aplicação de ferramentas de mineração de texto. Para isso, promoveu-se a análise do ambiente

informacional por meio de padrões extraídos do enorme volume de textos produzidos na

orga-nização, na veiculação de notícias sobre o governo federal brasileiro.

Para testar as hipóteses, aplicou-se a CRISP-DM (CRoss-Industry Standard Process for Data Mining), metodologia originalmente concebida para DCBD. Na aplicação dessa metodologia, foram utilizadas as matérias jornalísticas produzidas ao longo de 2001.

Diversas visões, interna e externa, sobre os rumos da organização foram obtidas

por meio de ferramentas para a extração de padrões em grandes quantidades de dados,

subsidiando os gestores na tomada de decisões. Essas visões, construídas para responder a

questões específicas, formaram um acervo de conhecimento num processo de aprendizagem

organizacional que gerou desdobramentos nos modos de gestão da organização.

Os resultados foram encaminhados à administração da empresa, permitindo

in-terpretações úteis para o conhecimento da organização.

Como nas organizações, a maior parte das informações encontra-se na forma

textual, desenvolvimentos recentes permitiram a extração de padrões relevantes desse tipo de

(19)

Capítulo I - Introdução 18

acordo com os assuntos abordados em suas notícias; e (v) avaliação da cobertura jornalística da empresa.

A apresentação do problema, abordando as motivações para desenvolvimento do

projeto, foi feita no Capítulo II. No Capítulo III, fez-se uma explanação sobre o estado da arte

da DCT, enfocando as tecnologias mais recentes sobre o assunto. As metodologias utilizadas

na pesquisa foram abordadas no Capítulo IV.

O estudo de caso aplicado na RADIOBRÁS, para melhor distribuição, foi

divi-dido em três capítulos. No Capítulo V, discorreu-se sobre (i) compreensão do negócio,

(ii) entendimento dos dados e (iii) preparação dos dados. No Capítulo VI, abordou-se a mode-lagem do projeto, incluindo a escolha e a definição das técnicas utilizadas no projeto. No

Capí-tulo VII, discorreu-se sobre as etapas de avaliação e aplicação do conhecimento, geradas no

estudo de caso.

No Capítulo VIII, foram abordados os impactos do conhecimento adquirido na

gestão do conhecimento com base nas informações obtidas do estudo de caso.

Finalmente, no Capítulo IX, apresentaram-se as contribuições deste trabalho, os

(20)

Capítulo II -

Apresentação do Problema

Vive-se em um mundo onde a mudança é a regra, o que implica uma constante

necessidade de adaptação e conseqüente busca por recursos de modo a superar as dificuldades

inerentes a tal adaptação.

Essa necessidade de adequação e o curto tempo de resposta requerido pelas

situações de mercado passaram a influenciar diretamente o funcionamento da organização que

deixa de agir somente em relação à sua posição junto aos seus concorrentes para atender

tam-bém ao seu planejamento estratégico.

No mundo moderno, a apropriação do conhecimento tem sido fator

imprescindível para a sobrevivência das empresas. Neste sentido, observa-se que grande parte

das informações encontra-se em forma não-estruturada. No entanto, poucas aplicações são

dirigidas a tal tipo de informação. Assim sendo, desta forma, questiona-se o porquê de as

vantagens das tecnologias de manipulação de informações não-estruturadas ( tais como

textos), não serem revertidas em benefício do melhoramento da eficiência organizacional tanto

quanto esperado.

Neste trabalho, enumeram-se algumas das possíveis razões para a existência de

um “abismo” entre a fase de desenvolvimento e a adoção de tecnologias de Mineração de

(21)

Capítulo II - Apresentação do Problema e Motivação 20

2.1 - Importância das Informações Textuais nas Organizações

A tarefa de suprir os administradores com os conhecimentos estratégicos em

tempo hábil tem-se tornado mais difícil devido, entre outros fatores, ao volume da informação

disponível. Estudiosos dessa área afirmam que nos anos de 2001 e 2002 a “quantidade de

in-formação produzida será maior que toda a inin-formação já criada pela humanidade até hoje”

(U-niversity of California, 2000).

Segundo Ah-Hwee Tan (1999), 80% das informações de uma organização

en-contram-se em forma textual apontando para a necessidade de extratores de conhecimento em

bases textuais.

Um processo capaz de gerar conhecimento a partir de dados estruturados é o

KDD - Knowledge Discovery in Database ou DCBD - Descoberta de Conhecimento em Bases de Dados. Esse processo combina diversas áreas da descoberta do conhecimento, tais como

Aprendizagem de Máquina, Reconhecimento de Padrões, Estatística e Inteligência Artificial,

com o objetivo de extrair, de forma automática, informação útil em bases de dados.

Diferentemente da DCBD, o KDT - Knowledge Discovery in Text ou DCT - Descoberta de Conhecimento em Texto lida com dados não-estruturados. Muitas pesquisas

têm sido direcionadas a DCT, por trabalhar com textos, considerada a forma mais natural de

armazenamento de informação (Tan, 1999).

A DCT combina técnicas de extração e de recuperação da informação,

proces-samento da linguagem natural e sumarização de documentos com os métodos de DM - Data Mining (Dixon, 1997). Não se encontram, todavia, metodologias que definam um plano de uso dessas técnicas (Wives, 2000), o que, segundo Loh (2000a), deixa uma lacuna sobre

como uma coleção textual deve ser investigada de forma automática ou semi-automática, a fim

(22)

2.2 - Uso de mineração de texto

no mundo

Segundo a pesquisa apresentada em Nuggets (2001) (Figura 2.1), text mining re-presenta atualmente apenas 2% das técnicas usadas regularmente para mineração de dados.

Mesmo sem apresentar caráter científico, essa pesquisa revelou que o uso da DCT ainda é

in-cipiente no mercado mundial. Se agregado o webmining, esse percentual sobe para 7%, o que é muito pouco se comparado com o volume de dados existente.

Fonte: Nuggets (Nuggets, 2001)

Figura 2.1 - Comparação de uso entre técnicas de mineração.

2.3 - ‘Abismo’ de Moore

Geofrey Moore op. cit. in Agrawal (2001) propõe um modelo (ciclo de vida) que descreve o comportamento dos consumidores de tecnologias em áreas emergentes (Figura

2.2). Esse modelo define cinco tipos de usuários: os inovadores, os adeptos iniciais, a maioria

(23)

Figura 2.2 - Ciclo de vida de adoção de tecnologia.

Os inovadores são os primeiros clientes em tudo o que é novo. Comprometidos

com a tecnologia, sentem prazer em dominar suas complexidades pelo simples fato de

explrá-las. Querem ter acesso à última palavra em inovação, além de serem influenciadores de

o-piniões.

Os adeptos iniciais são revolucionários dispostos a usar a descontinuidade de

qualquer inovação com expectativas de obter vantagem competitiva. Formam um grupo

im-portante para a inovação tecnológica, por ser o primeiro grupo capaz de trazer recursos para a

empresa fornecedora dessa tecnologia.

A maioria inicial não explora a tecnologia em si, como os inovadores e os

adep-tos iniciais, mas procura adotar inovações somente quando comprovada a utilidade dela e

quando referenciada por pessoas em quem confiam. Prefere a evolução ao invés da revolução

em termos de novos produtos.

A maioria tardia só investe em tecnologia quando é obrigada pelas

circunstân-cias. Cético e exigente esse grupo é sensível a preços.

Já os retardatários combatem as inovações tecnológicas e os entusiastas de

(24)

Essa classificação, bastante oportuna e realista, no entanto, não é a mais valiosa

contribuição do estudo de Moore. Sua principal constatação é a existência de um “abismo”

entre as fases (2) e a (3), ou seja, uma descontinuidade entre a introdução do produto no

mer-cado e sua consolidação como um produto de larga escala. É nesse “abismo”, segundo o autor,

que a maioria das empresas falha por não dispor do instrumental de marketing adequado para

lidar com a situação.

Uma das motivações deste trabalho foi a crença de que a mineração de texto

en-contra-se exatamente neste ponto. A partir daí, pôde-se levantar algumas razões do porquê de

a mineração de textos não ser ainda muito difundida, o que indica não ter atravessado ainda o

“abismo de Moore”: (i) falta de uma tecnologia adequada no que se refere à exigência de usa-bilidade; (ii) poucos relatos de experiência de sucesso; e (iii) inexistência de uma metodologia adequada para guiar os usuários nas aplicações de Mineração de texto;

2.4 - Colocação do Problema

Como visto, existe um enorme acervo de informações textuais nas organizações

que pode ocultar conhecimentos valiosos. Apesar disso, é incipiente o uso de tecnologias de

DCT. Questiona-se, neste trabalho, as razões para essa contradição.

2.5 - Objetivos

O objetivo deste trabalho foi estudar e propor alternativas para a travessia do

a-bismo de Moore pelas tecnologias de DCT. Para isso, este trabalho foi direcionado a

finalidade de:

(25)

(ii) Explorar a possibilidade de uso de uma metodologia de DCBD para desenvolver aplicações em DCT;

(iii) Mostrar a possibilidade de uso efetivo da mineração de texto por meio de um es-tudo de caso real.

2.6 - Caracterização e Articulação da Pesquisa

O problema consiste em verificar se o uso incipiente da tecnologia de DCT, em

face da enorme disponibilidade de texto nas organizações, deve-se à ausência de uma

metodo-logia adequada para o desenvolvimento de aplicações práticas.

Esse tipo de problema comporta, naturalmente, uma abordagem de solução

ba-seada em um estudo aplicado. Assim, a pesquisa foi articulada com base em um estudo de

caso no qual foram aplicadas diversas abordagens encontradas na literatura. O objetivo foi

transpor o ‘abismo’ de Moore com o uso desse ferramental e, dessa forma, descaracterizar o

mito da inexistência de metodologias adequadas para aplicações práticas de DCT como

(26)

Capítulo III -

O Estado da Arte da DCT

A descoberta do conhecimento ocorre por meio de complexas interações

reali-zadas entre o homem e uma base de dados, geralmente por meio uma série heterogênea de

fer-ramentas (Fayyad, 1996).

Segundo Stanley Loh op. cit. in Wives (2000), existem três grandes áreas que lidam com informações em grandes bases de dados: (i) Data Mining (Mineração de Dados) para dados estruturados - DCBD; (ii) IE - Information Extraction (Extração de Informações) para dados não-estruturados - DCT; e (iii) IR - Information Retrieval (Recuperação da Infor-mação) para textos ou palavras - DCT.

Neste capítulo, foram abordados os métodos, etapas, técnicas e modelos de

re-cuperação em DCT. Foi mostrada também a diferença entre DCT e ferramentas de busca,

tec-nologias comumente confundidas.

3.1 - KDT - Knowledge Discovery in Text

O KDT - Knowledge Discovery in Text ou DCT - Descoberta de Conhecimento em Texto, ao contrário da DCBD, lida com dados não-estruturados. Mais recentemente,

(27)

Capítulo III - Estado da arte do DCT 26

A DCT combina técnicas de extração, recuperação de informação,

processamento da linguagem natural e sumarização de documentos com os métodos de

DM - Data Mining (Dixon, 1997). Por lidar com dados não-estruturados, a DCT é considerada mais complexa que a DCBD.

Seu objetivo é extrair conhecimento de bases em que as ferramentas

usuais não são capazes de agirem, por não estarem equipadas, ou terem sido desenvolvidas

para soluções em dados estruturados (bancos de dados relacionais, por exemplo).

A DCT pode ser considerada um processo de DCBD para dados

não-estruturados como, por exemplo, aqueles encontrados na Internet ou ainda em organizações

que ultimamente, pela facilidade e barateamento de custos, vêm armazenando quantidades

crescentes de texto em meios magnéticos.

A necessidade de se extrair e recuperar informação desses meios é uma

constan-te tanto na vida das pessoas, como no conconstan-texto das organizações. No entanto, a dificuldade de

se fazer uso adequado das informações disponibilizadas, é quase sempre fonte de frustrações.

Suas principais áreas são a IE - Information Extraction (Extração de Informa-ções) e a IR - Information Retrieval (Recuperação da Informação).

3.1.1 – Extração da Informação

A área de IE estuda metodologias, técnicas e ferramentas que possam encontrar

dados específicos dentro de textos, extraindo automaticamente valores de atributos tais como

campos de um banco de dados. Em geral, as aplicações nessas áreas são dependentes do

domí-nio, isto é, só apresentam bom desempenho com certas classes de documentos. Essa área

(28)

encontrar textos e documentos relevantes, tendo como fundamento determinadas necessidades,

a IE busca encontrar informações dentro desses textos.

Segundo Gerald Kowalski op. cit. in Wives (1999), o objetivo de um processo de IE é o de transformar dados semi-estruturados ou não-estruturados em dados estruturados,

visando a armazená-los em banco de dados. Essa tarefa é considerada pré-processamento na

descoberta do conhecimento em textos.

Sumarização

Entre as técnicas da IE, a sumarização, tem o objetivo de extrair resumos de

tex-tos (ou de uma coleção de textex-tos), apresentando como resultado seus termos (palavras ou

fra-ses) mais importantes (Palazzo, 2000; Wives, 2000). Esse resumo oferece ao usuário uma

visão geral das informações contidas nos textos, permitindo-lhe identificar, sem ter de ler na

íntegra, os assuntos abordados pela coleção analisada.

Uma forma eficiente de sumarização empregada, geralmente, depois dos

proces-sos de agrupamento, é a análise de centróide2. Essa análise corresponde ao conjunto de

pala-vras mais significativas de determinado grupo (cluster) que são usados para identificá-lo.

Etapas de IE

Segundo Ralph Grishman op. cit. in Dixon (1997) existem três etapas no proces-so de extrair informação:

(i) Extração de fatos – cujo objetivo é encontrar fatos individuais no documento. Nessa fase, o conhecimento específico é crucial, devido à

possibili-dade de uso de técnicas de reconhecimento de padrões, a fim de encontrar os

2

(29)

tos procurados, tais como: Casamento de Padrões, Análise Léxica e Estruturas Sintática e Semântica;

(ii) Integração de Fatos - vista como o principal meio de analisar um pequeno fato em relação “à grande pintura” na qual se vê a formação e a interação entre os

fa-tos;

(iii) Representação do Conhecimento - é a forma como as informações extraídas dos documentos são colocadas à disposição do usuário. Entre os vários estilos de

re-presentação, a forma gráfica continua sendo a mais comum.

Para cada uma dessas etapas, existem diversas técnicas que podem ser usadas a

fim de atingir os objetivos propostos. Ralph Grishman op. cit. in Dixon (1997) afirma que em todas essas técnicas existe uma convergência para uso do processamento da linguagem natural,

técnicas avançadas de estatística e uso freqüente de redes neurais.

3.1.2 – Recuperação da Informação

A área de IR tem por objetivo localizar os documentos que contêm informações

relevantes para atender às necessidades definidas pelo usuário em uma consulta. Nesse caso, o

usuário precisa examinar os documentos resultantes dessa busca para encontrar a informação,

o que é uma tarefa demorada. Para localizar essas informações, faz-se uso da indexação,

efetu-ando uma busca mais rápida e eficiente. Essa indexação é considerada como um tipo de filtro

(Lancaster op. cit. in Wives, 2000) capaz de selecionar e identificar as características de um documento, extraindo os termos mais significativos e excluindo aqueles que não são

(30)

A indexação pode ser, segundo Ricardo Baesa Yates op. cit. in Wives (2000), de três formas:

(i) Tradicional - os termos descritivos dos documentos são selecionados manual-mente, especificando quais farão parte do índice;

(ii) Full-text - os termos que compõem o documento são usados como parte do índice;

(iii) Por parte do texto (tags) - a seleção dos termos é feita de forma automática. A indexação tradicional é comumente usada na área da Ciência da Informação,

em que o controle do índice é feito com intervenção humana. Isso facilita a organização em

topologias, agrupando as palavras mais importantes por determinada área de atuação, por

exemplo, o thesaurus automático3 .

Nesse tipo de indexação, o tempo para execução é mais longo. Levando-se em

consideração que o trabalho é realizado de forma manual, é possível que se cometam erros no

momento de inserir determinado termo ao grupo correspondente. Isso, aliado ao

desconheci-mento de tais grupos pelos usuários, pode gerar um resultado nulo em uma pesquisa, mesmo

que o termo conste na base de dados.

Na indexação total (full-text), a vantagem é ter todos os elementos dispostos em índices. Porém, para que isto ocorra, a indexação torna-se volumosa, requerendo muito espaço

para o armazenamento (William Frakes op. cit. in Wives, 2000). Uma forma de contornar esse problema é o uso de técnicas, como a lista invertida, árvores de TRIE 4 ou árvores de PAT5.

3

Nas pesquisas na área Banco de Dados Documentais (BDD), observa-se que o thesaurus é uma ferramenta bastante útil para a indexação e a recuperação de informações textuais e em sua grande maioria construídos manualmente. Nesse sentido,

Edberto Ferneda (Ferneda, 1997)apresenta um sistema para construção automática do thesaurus.

4

Estrutura em árvore, criada especialmente para indexar palavras usadas como um “dicionário”, em que cada nodo é um

(31)

A indexação via tags procura indexar apenas partes relevantes do texto (Anil Chakravarthy op. cit. in Wives, 2000). De forma automatizada, a ferramenta percorre o documento e localiza marcas que identificam os trechos mais importantes do texto os quais

são incluídos no índice.

Segundo Bernard Moulin op. cit. in Wives (2000), a procura das marcas (tags) pode ser feita de forma automática: (i) mediante o uso de documentos que utilizam macroes-truturas (cabeçalhos, títulos, capítulos); (ii) microestruturas - conteúdo lógico do texto, identi-ficando seus pontos principais (condições, exceções, referências); e (iii) uma camada de domínio com as demais informações do documento.

Formas de Indexação

Os índices mencionados no tópico anterior podem ser automáticos ou manuais.

No último caso, a elaboração é conduzida diretamente pela área de biblioteconomia. No

pri-meiro caso, os índices encontrados automaticamente são mais usados e mais relevantes por

serem mais ágeis.

Quando se lida com índices, deve-se levar em conta seu fator de

exaustividade. Esse fator mede a quantidade de assuntos distintos que determinado índice é

capaz de reconhecer. Para maior abrangência, o fator de exaustividade também é maior e,

nes-te caso, a precisão é inversamennes-te proporcional. Isto se deve ao fato de que mais palavras

po-dem levar ao mesmo item (Lancaster op. cit. in Wives, 2000).

Para análise de informações em textos, os índices são peças importantes, pois

eles são uma das formas de validar o desempenho e a precisão da recuperação da informação.

5

Estrutura parecida com a árvore de TRIE, em que o documento é visto como uma cadeia de caracteres e cada uma de suas

(32)

Na Figura 3.1, são apresentadas as etapas de um processo de indexação automática, segundo

Riloff op. cit. in Wives (2000).

Figura 3.1 - Etapas em uma indexação automática.

Essas etapas, segundo esse autor, não são rígidas, pois, dependendo do contexto,

a ordem de aplicação pode variar ou mesmo não ser utilizada. Resumidamente, essas fases

podem ser assim descritas:

(i) Identificação de termos

Consiste na aplicação de um parser6 que identifica as palavras importantes do texto, ignorando símbolos e caracteres de controle de arquivo ou de formatação. Envolve

tam-bém o uso de seqüências de caracteres a fim de validá-las (dicionário ou thesaurus).

Segundo Wives (2000), essa etapa deve considerar e tratar termos compostos

(por exemplo: processo judicial, processo computacional) por considerar que podem fazer

parte do mesmo índice para não perderem o significado que as palavras expressam quando

es-tão juntas.

6

Analisador léxico que consiste na conversão de uma cadeia de caracteres de entrada em uma cadeia de palavras ou token

(33)

(ii) Remoção de Stopwords

Para minimizar o esforço da elaboração do índice, faz-se a remoção das

chamadas stopwords. Essas palavras contribuem pouco para o significado de um texto. Usualmente artigos, preposições e advérbios são consideradas stopwords por serem bastante freqüentes e sua eliminação leva a uma redução entre 40% e 50% dos textos a serem

analisa-dos.

(iii) Normalização

Para atender a determinados objetivos, é importante a eliminação de variações

morfológicas de uma palavra. A identificação é efetuada através do radical de uma palavra.

Segundo William Frakes op. cit. in Wives (2000), existem diversas formas para se identificar esses radicais, como a lematização ou stemming.

A vantagem é que, em uma busca, o usuário não precisa se preocupar com a

classe da palavra, podendo ela aparecer no texto como um substantivo, um verbo ou um

adje-tivo. No entanto isto implica diminuição na precisão da pesquisa.

(iv) Seleção de Termos Relevantes

Deve-se considerar que em um texto as palavras têm níveis de destaque

distintos. Aquelas mais freqüentes, excetuando-se as stopwords, são mais importantes que ou-tras que aparecem com menos freqüência. Palavras encontradas nos tópicos em destaque,

co-mo títulos e ainda os substantivos, devem ser destacadas, pois são consideradas mais

relevantes.

Um dos recursos utilizados para descobrir a importância dessas palavras é

(34)

no qual ela aparece e que pode ser calculada pela freqüência absoluta7 ou pela freqüência

rela-tiva8.

Usando esses pesos ou sua posição sintática é possível então diminuir o índice

deixando-o mais consistente e com palavras relevantes.

3.2 - Tecnologias para descoberta do conhecimento em Texto

As tecnologias usadas na DCT não são consideradas inovadoras do ponto de

vis-ta de sua origem, uma vez que muivis-tas advêm da DCBD. O que é novo é seu uso para

descoberta do conhecimento em dados armazenados na forma de texto.

Isto não significa que a DCT utiliza somente técnicas da DCBD. A DCT inclui

quaisquer técnicas que possam ser usadas para buscar informação em dados não-estruturados.

Isto dependerá, entre outros fatores, de como se quer adquirir essa informação e da maneira

como se apresenta o problema.

3.2.1 - Descobertas Reativa e Proativa

Segundo Choudhury op. cit. in Loh (2000) a descoberta de conhecimento ocorre de dois modos: o reativo e o proativo.

No modo reativo, o objetivo é direcionado para a solução especificada pelo

usuário que, nesse caso, sabe como solucionar o problema. O usuário segue utilizando pistas

que deseja provar, direcionando o processo de descoberta. Ele sabe o que quer e tem idéia de

onde achar a resposta. Nesse modo, o usuário deve definir, da forma a mais precisa possível,

sua necessidade, o que muitas vezes contradiz o processo da descoberta. Na maioria das vezes,

7

Quantidade de vezes que o termo foi encontrado no texto.

8

(35)

o que acontece é o usuário não saber especificar as necessidades para resolução dos seus

pro-blemas.

No modo proativo, ao contrário, sem que haja uma intervenção inicial do

usuá-rio, as informações úteis para resolução do problema são encontradas automaticamente. Dessa

maneira, o problema é definido pelo usuário, mas a descoberta ocorre de modo

não-supervisionado. Uma expressão comum para definir o modo proativo é “diga-me o que há

de relevante nesse conjunto de dados”. Mesmo não tendo a intervenção inicial, o usuário

parti-cipa nesse processo exploratório com retroalimentação e interatividade no processo. Esse

mo-do assemelha-se à Mineração de Damo-dos na DCBD e poderia ter como exemplos de objetivos:

(i) criar parâmetros para entender o comportamento do consumidor; (ii) identificar afinidades entre as escolhas de produtos e serviços; (iii) prever hábitos de compras; (iv) analisar compor-tamentos habituais para detectar fraudes.

De maneira geral, poder-se-ia dizer que o processo da descoberta do

conheci-mento é realizado, mais freqüentemente, na forma proativa. Esse processo compõe-se das

se-guintes fases (Michael Goebel op. cit. in Wives, 2000):

(i) Entendimento do domínio de aplicação e definição do objetivo do processo de descoberta;

(ii) Aquisição ou seleção do conjunto de dados;

(iii) Integração e verificação do conjunto;

(iv) Limpeza dos dados (pré-processamento e transformação);

(v) Desenvolvimento de um modelo inicial ou construção de hipóteses;

(vi) Escolha e aplicação de métodos de mineração;

(vii) Visualização e interpretação dos resultados;

(36)

(ix) Uso e manutenção do conhecimento descoberto (tomada de decisão no domínio).

3.2.2 - Inteligência Competitiva

Em geral, quando usamos as técnicas do conhecimento proativo ou reativo,

es-tamos em busca de definição de estratégias e ações que devem ser realizadas em prol da

orga-nização. Esses são exatamente os objetivos da Inteligência Competitiva9 que, entre outros,

busca impulsionar o negócio da organização.

No uso da inteligência competitiva, as etapas são flexíveis, pois se devem

ade-quar aos objetivos da empresa. Isto só ocorrerá se ela tiver definidas suas necessidades reais.

Dependerá também das informações necessárias para estimular seu negócio, bem como da

de-finição das fontes dessas informações.

As atividades da Inteligência Competitiva visam a explorar e manter conhecido

o ambiente externo da organização. Nesse cenário, a Internet é considerada fonte importante

de informação, ajudando na busca de novos nichos de mercado e tecnologias inovadoras.

Loh (2000a) sugere como proposta para executar essas atividades em

dados não-estruturados, as seguintes etapas:

(i) Identificação da necessidade de informação - nessa etapa, devem-se identificar quais são as necessidades de informação de cada pessoa na empresa

(principal-mente dos tomadores de decisão), quais dessas informações a própria empresa

pode suprir e quais vão demandar dados externos;

9

“Inteligência Competitiva refere-se ao conjunto de atividades de monitoramento e de análise de dados do ambiente com o

objetivo de fornecimento de informações úteis ao processo decisório e de planejamento estratégico empresarial.” (GESID

apud Canongia 2001)

“A ‘Inteligência Estratégica’ enfatiza a busca de informações para a tomada de decisão e para o planejamento estratégico; ‘Inteligência para Negócios’ é o monitoramento de informação sobre negócios e mercados; ‘Inteligência Competitiva’ foca informações sobre produtos e serviços oferecidos por empresas similares; ‘Inteligência Tecnológica’ enfoca informações de

(37)

(ii) Identificação e análise de fontes de informação - uma vez conhecidas as neces-sidades de informação, torna-se importante identificar de quais fontes essas

in-formações podem ser recuperadas, podendo ser internas ou externas. No caso de

fontes externas, é importante que sejam identificados o formato, o tempo de

aces-so e o custo delas, assim como a forma de agregá-las às existentes na empresa;

(iii) Coleta - é a busca, em si, da informação ou dos dados nas fontes identificadas;

(iv) Filtragem - por causa da grande quantidade de dados e informações que podem ser coletadas, é possível que muitas não estejam relacionadas às necessidades

i-dentificadas

inicialmente. As informações irrelevantes devem ser descartadas e as relevantes

selecionadas;

(v) Distribuição - os dados ou as informações selecionadas devem ser encaminhadas às pessoas que expressaram sua necessidade;

(vi) Exploração - corresponde à transformação dos dados em informação e conheci-mento. Podendo-se utilizar ferramentas computacionais e métodos estatísticos de

análise;

(vii) Segurança - adquiridos os conhecimentos e informações, estes devem ser postos em prática (utilizados na tomada de decisão) e armazenados em algum local

se-guro com vistas a resguardar essas informações.

3.2.3 - Tipos de Descoberta

A área de aquisição do conhecimento engloba diversos tipos de descoberta, com

várias abordagens específicas para DCT. Segundo (Wives, 2000a) esses tipos de descoberta

(38)

(viii)Estruturas de textos; (ix)Clustering; (x) Classes de textos; (xi) Recuperação de informação; (xii)Associação entre textos; (xiv)Associação entre as características;

(xv) Hipertextos; (xvi) Manipulação de formalismo; (xvii) combinação de representações e;

(xviii) Comparação de modelos mentais.

É comum quando se abordam as tecnologias de DCT haver confusão inicial, por

acreditar-se que a descoberta de conhecimento no texto e o uso de ferramentas de busca são a

mesma coisa. Na seção 3.3, são estabelecidas as principais diferenças entre essas tecnologias.

3.3 - Diferenças entre Mineração de texto e

Ferramentas de Busca

A DCT é uma tecnologia recente, do ponto de vista de sua utilização no

mercado de mineração de dados (Tan, 1999) e, talvez seja essa a razão pela qual seus objetivos

serem, muitas vezes, confundidos com as ferramentas de busca na Internet (search engine). Essas ferramentas foram desenvolvidas e aperfeiçoadas para atender à crescente

necessidade de se encontrar dados na gigantesca massa de informação disponibilizada na

Internet. Seu uso e importância são incontestáveis, visto que sem elas ficaria muito difícil

lo-calizar, em pouco tempo, informações tão dispersas. Elas prestam um serviço fundamental de

procura rápida e indexação de informações, entretanto, seu escopo é diferente da mineração de

texto.

Para se verificar a necessidade de melhorar a análise em texto basta que se faça

uma busca, usando ferramentas como o altavista® ou google®. O resultado freqüente dessa busca é outro grande volume de dados. Comumente, escolhem-se os primeiros resultados que

são então analisados, visando a selecionar as informações necessárias. Pode-se afirmar que tal

procedimento é cabível para descobrir as informações, mesmo sendo uma tarefa que necessita

(39)

Quando se trabalha com uma pequena escala, esse procedimento é viável. Caso

haja necessidade de maior refinamento na busca de informações e essa escala aumenta,

torna-se necessário o uso de outra metodologia. Para quem necessita analisar diariamente

grandes volumes de dados como, por exemplo, pesquisadores, juízes, consultores e editores,

essa tarefa é impraticável (Tan, 1999).

A necessidade de melhoria da análise, nesse ambiente, torna-se ainda mais

rele-vante quando se verifica que há crescente aumento desse tipo de informação.

A principal diferença entre as ferramentas de busca e a mineração de texto é que

a primeira emprega o uso de busca exaustiva. Sua pesquisa é realizada com base em

palavras-chave que basicamente retornam a uma lista de documentos relevantes, ordenados

pela proporção em que esses termos são encontrados em determinado documento (por

exem-plo: página web, texto, arquivos pdf). Esse resultado é então analisado e requer sua leitura para

extração do conhecimento.

A mineração de texto, ao contrário, utiliza métodos de busca baseados em

análi-ses gramaticais e léxicas ou ainda técnicas de clustering (agrupamento). Isso permite descobrir conteúdos demonstrados por meio de palavras ou frases similares entre os documentos.

Além disso, a mineração de texto agrega técnicas de visualização de dados.

Es-sas técnicas permitem mostrar conceitos-chave e relações entre palavras e idéias. Partindo

des-sa visualização, é possível detalhar dados ou “trilhar” caminhos para outros documentos.

Em resumo, pode-se afirmar os seguintes pontos em relação à mineração de

texto:

(40)

(ii) Processa documentos eliminando a análise “manual” direta. Categoriza, classifica ou constrói árvores de tópicos e índices de documentos;

(iii) Provê identificação automática e indexação de conceitos entre os textos;

(iv) Apresenta, por meio de técnicas de visualização, o escopo global dos dados. Permite detalhamento quanto ao grau de relevância;

(v) Permite aos usuários fazerem associações, correlacionamentos e âncoras entre os documentos para posterior análise.

As duas tecnologias são essenciais para quem lida com grandes volumes de

da-dos não-estruturada-dos, pois oferecem suporte na busca de informações úteis em textos10 ou em

páginas web.

A mineração de textopermite, todavia, descobrir conceitos-chave e grupos

simi-lares de documentos, sem que haja necessidade prévia de leitura integral dos documentos.

3.4 - Síntese do Capítulo

Conforme enfatizado neste capítulo, a DCT é uma área que provê tecnologias

efetivas para descoberta de conhecimento em bases de dados não-estruturadas. Destarte, é

ob-tido conhecimento na forma de conceitos em que as ferramentas usuais de mineração não

es-tão aptas a fazê-lo.

Observa-se um vasto campo para desenvolvimento de aplicações de descoberta

de conhecimento em texto em função da quantidade e da disponibilidade de informações nas

organizações. As redes corporativas (intranets e extranets), bem como os diversos dados

pro-venientes dos mais variados sistemas oferecem uma rica fonte de conhecimento ainda não

ex-plorada totalmente.

10

(41)

A necessidade de exploração dessa fonte de informação é justificada por

inúme-ros fatores, entre os quais podem-se citar: (i) Concorrência acirrada; (ii) Quantidade crescente de informação de domínio público; (iii) Aumento na quantidade de informações armazenadas em meio magnético; (iv) Fontes inexploradas de dados não-estruturados; (v) Necessidade de conhecimento para tomada de decisão pelos administradores.

Nesse estudo, identificaram-se diversas técnicas de DCT muitas delas advindas

da DCBD que, por ser um segmento mais utilizado, está servindo como fonte de recursos e

referências.

Confrontando os diversos fatores estudados, verificou-se que as tecnologias de

DCT ainda são pouco aplicadas, se consideradas a enorme disponibilidade de dados textuais

existentes, como mostrado na pesquisa realizada pela School of Information Management and Systems at the University of California (University, 2000), onde foi feita uma projeção que para 2001 e 2002 seriam criadas e disponibilizadas mais informações do que em toda a história

da humanidade. Outro trabalho (Tan, 1999) indica que essas informações estarão, em sua

mai-oria, na forma não-estruturada.

A DCT encontra-se num momento em que precisa superar a lacuna entre o nível

acadêmico e o prático. É importante a aplicação de novos estudos de casos em situações reais.

Como foi visto, no entanto, as propostas de métodos, técnicas e ferramentas da DCT carecem

ainda de aperfeiçoamentos. É real o uso de técnicas de DCBD na DCT. Com essa visão, uma

proposta futura para estudos seria a agregação de metodologias usadas atualmente em dados

(42)

A DCT resgata tecnologias para serem usadas em ramos adjacentes ao texto. É o

caso do web mining, muito em foco atualmente. Suas derivações, como o XMLminer, tendem a crescer na mesma proporção que o uso da Internet.

Em síntese, pode-se inferir que a proposta da DCT está solidificada como

alter-nativa para extração do conhecimento no mundo dos negócios. Isto é confirmado se observado

como o ambiente das organizações direciona-se para uma geração cada vez maior de dados

(43)

Capítulo IV -

Metodologia

Como visto anteriormente, a área de DCBD - Descoberta do Conhecimento em

Bases de Dados e a DCT -Descoberta do Conhecimento em Texto são possíveis alternativas

para descoberta do conhecimento, contemplando respectivamente, dados estruturados e

textu-ais. A DCBD e a DCT objetivam encontrar, por meio de técnicas e algoritmos, padrões,

corre-lações ou similaridades entre dados. Devido à semelhança entre essas tecnologias de

descoberta de conhecimento, foi utilizada neste estudo de caso a metodologia CRISP-DM -

CRoss-Industry Standard Process for Data Mining, originalmente concebida para aplicações de DCBD.

Este capítulo inicia-se com a descrição da metodologia CRISP-DM e segue com

apresentação das metodologias de Palazzo, Ah-Hwee Tan e Halliman, para DCT. Ao final,

descreve-se a abordagem de uso de cada uma, procurando destacar as contribuições delas no

processo de descoberta do conhecimento no estudo de caso aplicado na RADIOBRÁS.

4.1 - CRISP-DM

Com o intuito de promover a padronização de conceitos e técnicas na busca de

(44)

CRISP-DM (CRoss-Industry Standard Process for Data Mining11) (Chapman, 2001). Esse grupo propôs uma metodologia como o mesmo nome, destinada a auxiliar administradores e

responsáveis no processo geral de planejar e executar a mineração de dados, englobando a

es-pecificação do processo até a apresentação dos resultados. Esse grupo era composto por três

empresas pioneiras no setor: a DaimlerChrysler, a SPSS (Data Mining) e a NCR (Data Warehouse).

Para a CRISP-DM, o ciclo de vida do processo de DCBD segue uma seqüência

de etapas, conforme mostrada na Figura 4.1. Essas etapas são executadas de forma interativa.

Assim, pelas entradas e respostas providas pelo usuário, a seqüência da execução pode ser

al-terada. O encadeamento das ações, dependendo do objetivo e de como as informações se

en-contram, permite retorno a passos já realizados. Essa metodologia é constituída de seis etapas:

(i) compreensão do negócio; (ii) compreensão dos dados; (iii) preparação dos dados; (iv) mo-delagem; (v) avaliação; e (vi) aplicação.

A Compreensão do Negócio procura identificar as necessidades e os objetivos

do negócio do cliente, convertendo esse conhecimento numa tarefa de mineração de dados.

Busca detectar eventuais problemas e/ou restrições que, se desconsideradas, poderão implicar

perda de tempo e esforço em obter respostas corretas para questões erradas. Essa tarefa

com-preende ainda descrição do cliente, seus objetivos e descrição dos critérios utilizados para

de-terminar o sucesso do seu negócio.

11

(45)

Capítulo IV - Metodologia 44

Figura 4.1 - Ciclo de vida de DCBD segundo a CRISP-DM.

A Compreensão dos Dados visa a identificar informações que possam ser

relevantes para o estudo e uma primeira familiarização com seu conteúdo, descrição,

qualidade e utilidade. A coleção inicial dos dados procura adquirir a informação com a qual se

irá trabalhar, relacionando suas fontes, o procedimento de leitura e os problemas detectados.

Nessa tarefa, descreve-se ainda a forma como os dados foram adquiridos, listando seu

forma-to, volume, significado e toda informação relevante. Durante essa etapa, são realizadas as

pri-meiras descobertas.

A Preparação dos Dados consiste numa série de atividades destinadas a obter o

conjunto final de dados, a partir do qual será criado e validado o modelo. Nessa fase, são

utili-zados programas de extração, limpeza e transformação dos dados. Compreende a junção de

tabelas e a agregação de valores, modificando seu formato, sem mudar seu significado a fim

de que reflitam as necessidades dos algoritmos de aprendizagem.

Na Modelagem, são selecionadas e aplicadas as técnicas de mineração de dados

(46)

para teste permite construir um mecanismo para comprovar a qualidade e validar os modelos

que serão obtidos. A modelagem representa a fase central da mineração, incluindo escolha,

parametrização e execução de técnica(s) sobre o conjunto de dados visando à criação de um ou

vários modelos.

A Avaliação do Modelo consiste na revisão dos passos seguidos, verificando se

os resultados obtidos vão ao encontro dos objetivos, previamente, determinados na

Compreen-são do Negócio, como também as próximas tarefas a serem executadas. De acordo com os

re-sultados alcançados, na revisão do processo, decide-se pela sua continuidade ou se deverão ser

efetuadas correções, voltando às fases anteriores ou ainda, iniciando novo processo.

A Aplicação é o conjunto de ações que conduzem à organização do

conhecimento obtido e à sua disponibilização de forma que possa ser utilizado eficientemente

pelo cliente. Nessa fase, gera-se um relatório final para explicar os resultados e as

experiências, procurando utilizá-los no negócio.

Uma vez que a CRISP-DM foi concebida para aplicações de DCBD, pode-se

confrontar essa metodologia com o trabalho desenvolvido por Prado (1998) que discorre sobre

o processo completo de Descoberta do Conhecimento em Banco de Dados (Figura 4.2). Essa

abordagem será explorada nas seções seguintes.

(47)

4.1.1 - Definição e Entendimento do problema

Quando se inicia um processo de DCBD, é fundamental saber aonde se quer

chegar e entender o problema de forma real. Esse entendimento caracteriza-se pela

materiali-zação do problema, com a identificação de objetivos que possam, de alguma forma, serem

mensurados. É imprescindível para o êxito do processo delinear a necessidade do cliente. Essa

fase, quando negligenciada, afeta irreversivelmente o processo de DCBD. Sendo assim,

deve-se aliar a extração do conhecimento à definição do problema ao longo de todo processo.

Segundo a CRISP-DM, essa fase do projeto envolve as tarefas de:

(i) levantamento dos objetivos do negócio; (ii) avaliação da situação; (iii) levantamento das metas da mineração; e (iv) execução do planejamento do projeto.

4.1.2 - Obtenção e Extração dos Dados

Essa fase visa, por meio do entendimento do problema, a adquirir uma coleção

de dados necessários para sua resolução. Procura-se entender e descobrir problemas na

quali-dade dos dados e/ou na sua padronização.

Geralmente, aplica-se datawarehousing com vistas a tornar disponíveis dados de fontes heterogêneas de diferentes formas e padrões, o que permite a vantagem de se ter uma

fonte de dados concisa e padronizada.

Segundo Prado (1998), para a execução dessa etapa, duas atividades são

empre-gadas:

(i) Exercício intelectual do analista e do especialista- definição dos atributos a se-rem considerados. Infelizmente, essa atividade é executada com alto grau de

(48)

(ii) Extração física dos dados das diversas fontes - atividade complexa por envolver muitos fatores, tais como: apresentação de arquivos em formatos diferentes dos

que constam na documentação, carência de padrão na codificação e versões

desa-tualizadas. Por causa disso, os analistas geralmente procuram incluir toda

infor-mação considerada útil a fim de não ser necessária reexecutar a atividade.

Segundo a CRISP-DM, podem-se definir as seguintes tarefas para essa fase:

(i) levantamento inicial dos dados; (ii) descrição inicial dos dados; e (iii) análise da qualidade dos dados.

4.1.3 - Limpeza e Exploração dos Dados

Essa fase tem como objetivo executar os passos necessários para a construção

do conjunto de dados a ser usado para extração do conhecimento. Procuram-se descobrir

in-formações novas, agrupar conjuntos importantes de dados, proporcionando a familiarização e

realizando um exercício de aproximação com esses dados.

Análises de veracidade também são executadas nessa fase. Segundo John

(1997), dependendo do aspecto que se quer analisar, podem ser observadas relações entre

atri-butos, verificando os resultados de objetivos predeterminados e como eles deveriam

comportar. Isso pode eliminar códigos ou padrões referidos a determinados campos que, fora

do limite esperado, bem como refletir resultados anômalos na mineração dos dados.

Essa fase do processo, conforme a CRISP-DM, é cumprida com a execução das

tarefas de: (i) seleção dos dados; e (ii) limpeza dos dados.

4.1.4 - Engenharia dos Dados

Servindo-se da base de dados, resultante das fases anteriores, verificar-se-á se é

(49)

subconjuntos tanto no que se refere a atributos quanto a termos de tuplas. A obtenção de

amos-tras significativas de dados deve ser feita com a aplicação de técnicas de estatística.

Uma técnica com esse propósito é apresentada por John (1997). Mediante a

construção de diversos modelos, com base em diferentes conjuntos de atributos, verifica-se o

modelo que obtém o melhor desempenho contra dados de teste. Assim, o analista e o

especia-lista podem escolher os atributos que apresentam melhor poder preditivo.

Segundo a CRISP-DM, essa fase corresponde às tarefas de: (i) engenharia dos dados; (ii) fusão dos dados; e (iii) formatação dos dados.

4.1.5 - Engenharia do algoritmo

Nessa fase, são selecionadas as técnicas e os algoritmos para o tipo de

minera-ção de dados mais adequados ao problema. Aqui também são selecionados os parâmetros mais

apropriados ao processo como, por exemplo, a tarefa de escolher o número de camadas em

uma rede neural por meio de várias tentativas.

De acordo com a CRISP-DM, essa fase consiste nas tarefas de: (i) seleção da técnica; e (ii) teste da técnica nos dados.

4.1.6 – Mineração

De acordo com Fayyad (1996) existem dois possíveis objetivos em um processo

de mineração: predição e descrição. O primeiro visa a estabelecer o valor de um ou mais

atri-butos em um banco de dados, tendo como base outros atriatri-butos presentes. Nesse objetivo, a

análise de qualidade é realizada via número de acertos em um total de casos testados.

O segundo tem como finalidade apontar padrões potencialmente interessantes

nos dados sem uma associação com um conceito inicial. Nesse caso, a análise de qualidade