Processo de descoberta de conhecimento em dados não-estruturados : estudo de caso para a inteligência competitiva

(1)

Processo de Descoberta de Conhecimento em Dados Não-Estruturados:

Estudo de Caso para a Inteligência Competitiva

José Marcelo Pereira de Araujo

Orientador: Prof. Dr. Rogério Alvarenga

Brasília

UNIVERSIDADE CATÓLICA DE BRASÍLIA – UCB

PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA – PRPGP

PROGRAMA DE PÓS-GRADUÇÃO STRICTO SENSU EM GESTÃO

(2)

José Marcelo Pereira de Araujo

Processo de Descoberta de Conhecimento em Dados Não-Estruturados:

Estudo de Caso para a Inteligência Competitiva

Dissertação apresentada ao Programa de Pós-Graduação Strictu Senso em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, como requisito parcial para a obtenção do grau de Mestre em Informática.

Orientador: Prof. Dr. Rogério Alvarenga

Brasília

(3)

AGRADECIMENTO

A Deus por me fortalecer, por me aconselhar nos momentos de decisão e por ter me

dado a oportunidade de estar desenvolvendo este trabalho.

A todos os meus familiares pela compreensão e suporte para a realização deste

projeto.

A todos os professores que me conduziram para a concretização do sonho de possuir

(4)

SUMÁRIO

RESUMO ... 9

ABSTRACT ... 10

1.2 Revisão da Literatura ... 13

1.3 Justificativa ... 20

1.4 Formulação do Problema ... 22

1.5 Objetivos ... 22

1.5.1 Geral ... 22

1.5.2 Específicos ... 23

1.6 Classificação Metodologia ... 23

1.7 Apresentação do Trabalho ... 25

2 REFERENCIAL TEÓRICO ... 26

2.1 Inteligência Competitiva ... 26

2.1.1 Suporte Computacional para Inteligência Competitiva ... 26

2.1.2. Contextualização ... 34

2.1.3 Necessidades da Inteligência Competitiva ... 37

2.1.4 A Importância da Informação para Inteligência Competitiva ... 41

2.1.5 O Papel da Recuperação de Informações para Inteligência Competitiva ... 44

2.1.6 Técnica de Análise Estratégica de Informações SWOT ... 46

2.2 Agentes Móveis ... 50

2.2.1 Contextualização ... 50

2.2.2 Aplicações dos Agentes Móveis ... 51

2.2.3 O papel do Agente Móvel na Recuperação de Informação ... 51

2.3 Descoberta de Conhecimento em Base de Dados ... 53

2.3.1 Descoberta de Conhecimento em Dados Não Estruturados ... 53

2.3.2 Mineração de Dados – Data Mining ... 55

2.3.3 Mineração de Dados – Text Mining ... 60

2.3.4 Agrupamentos (Clustering) ... 62

2.3.5. Aplicações de Text Mining ... 65

2.4 Redes Neurais Artificiais ... 66

2.4.1 Definições ... 66

2.4.2 Modelos não supervisionados ... 67

3. DESCRIÇÃO DAS FASES DO PROCESSO DE DESCOBERTA DO CONHECIMENTO ... 78

3.1 Requisitos de Modelo Conceitual ... 78

3.2 Coleta e Formatação de Textos ... 80

3.3 Transformação e Limpeza de Textos - Processo Text Mining ... 81

(5)

3.3.2 Stemming ... 83

3.3.3 Thesauros ... 84

3.4 Vetorização ... 86

3.5 Agrupamento de Textos – Rede Neural ART1 ... 87

4. ESTUDO DE CASO – Classificação de textos públicos não estruturados em quadrantes da Matriz SWOT (Oportunidades, Ameaças, Potencialidades e Fragilidades) de uma organização bancária ... 90

4.1 Apresentação do Estudo de Caso ... 90

4.2 Critérios de Classificação ... 90

4.3 Entendimento dos Dados ... 91

4.4 Preparo dos Dados ... 92

4.5 Modelagem do Conhecimento ... 93

4.6 Modelagem da Aplicação ... 96

4.6.1 Aplicação do modelo do Processo de Descoberta do Conhecimento em Textos não Estruturados. ... 96

5 ANÁLISE DOS RESULTADOS ... 100

5.1 Resultados da Preparação dos Textos não Estruturados ... 100

5.2 Resultados quanto ao Agrupamento dos Textos ... 105

5.3 Resultados relacionados à Inteligência Competitiva ... 113

6 CONCLUSÃO ... 118

ANEXO 1 – Textos sem formatação...137

ANEXO 2 – Textos formatados no padrão XML...147

ANEXO 3 – Textos após a retirada de Stopwords ...158

ANEXO 4 – Textos após a retirada de Stemmings ...161

ANEXO 5 – Textos após a sinonimização por meio do Thesauros ...164

ANEXO 6 – Lista de Stopwords ...167

ANEXO 7 – Lista de Stemmings ...172

ANEXO 8 – Thesauros ...173

ANEXO 9 – Tela inicial do programas em linguagem Java ...177

ANEXO 10 – Tela com os textos após a retirada das stopwords ...178

ANEXO 11 – Tela com os textos após a retirada dos stemmings ...179

(6)

LISTA DE FIGURAS

FIGURA 1 - Ciclo e Inteligência Competitiva...39

FIGURA 2 - Matriz SWOT...48

FIGURA 3 - Processo de Data Mining...57

FIGURA 4 - Processo de Text Mining...62

FIGURA 5 - Exemplo do K-Means...70

FIGURA 6 - Exemplo de Rede Neural SOM (Mapa de Kohonen)...72

FIGURA 7 - Arquitetura ART simplificada...76

FIGURA 8 - Processo de Descoberta do Conhecimento...78

FIGURA 9 - Fase 1 Coleta e Formatação de Informações...81

FIGURA 10 - Fase 2 Text Mining Retirada Stopwords...82

FIGURA 11 - Fase 2 Text Mining Identificação de Stemming...84

FIGURA 12 - Fase 2 Text Mining Thesauros...85

FIGURA 13 - Exemplo da Matriz vetor de textos...86

FIGURA 14 - Tela Inicial Ferramenta ARARA...89

FIGURA 15 - Matriz SWOT formato final ...99

FIGURA 16 - Textos no formato TXT...101

FIGURA 17 - Textos no formato XML...102

FIGURA 18 - Textos sem Stopwords, Stemmings e com análise do Thesauros...103

FIGURA 19 - Matriz vetor de textos...104

FIGURA 20 - Agrupamento ART1 com Vigilante a 0.90...107

FIGURA 21 - Agrupamento ART1 ajustado com Vigilante a 0.90 ...112

(7)

LISTA DE QUADROS

QUADRO 1 - Pesquisa de revisão de literatura quanto à construção do tema...13

QUADRO 2 - Pesquisa de revisão de literatura quanto à construção do tema...18

QUADRO 3 - Softwares para Inteligência Competitiva...31

QUADRO 4 - Diretrizes para desenvolvimento de Software para IC ...32

QUADRO 5 - Comparativo entre Ferramentas ...33

(8)

LISTA DE SIGLAS

‘ PUC - Pontifícia Universidade Católica

ABRAIC - Associação Brasileira dos Analistas de Inteligência Competitiva ARARA - Aprendizagem Automática e Análise de Dados

ART - Teoria da Ressonância Adaptativa

CSV - Comma-separated values

DM - Data Mining

DOC - Documento

ETO - Electronic Trading Opportunities

HTML - Hyper Text Markup Language

IC - Inteligência Competitiva

IEEE - Institute of Electrical and Electronics Engineers

KDD - Knowledge Discovery on Data Bases

KDT - Knowledge Discovery Text

PDC - Processo de Discoberta do Conhecimento

PDF - Portable Document Format

RDF - Resource Descripton Framework

RI - Recuperação de Informação RNA - Rede Neural Artificial

SAR - Synthetic Aperture Radar

SCIP - Society of Competitive Intelligence Professionals

SGML - Standard Generalized Markup Language

SOM - Seft Organizing Map

SWOT - Strengths, Weaknesses, Opportunities e Tthreats

TM - Text Mining

TXT - Texto

UnB - Universidade de Brasília USP - Universidade de São Paulo

WEB - World Wide Web

(9)

RESUMO

Processos de descoberta de conhecimentos em dados não estruturados, obtidos em

livros, documentos e relatórios eletrônicos, podem proporcionar a aquisição de

informações, para subsidiar processos de decisão e ações de Inteligência Competitiva. Para

descobrir conhecimento em dados não estruturados, é necessário obter os conceitos

dominantes das informações, ou seja, suas idéias centrais, para, então, classificá-las em

grupos. Essa classificação deriva da ocorrência dos vocábulos contidos nas informações. O

processo de descoberta de conhecimento em dados, em conjunto com um classificador

semântico inteligente, pode servir como facilitador na estruturação, análise, agrupamento e

classificação automática de informações constituídas em textos. A Inteligência Competitiva

se caracteriza como potencial usuário deste tipo de tecnologia, em razão do volume de

textos produzidos e veiculados em diversas mídias digitais, já que necessita de rapidez e

precisão na análise semântica da documentação produzida. Esta dissertação propõe um

processo de descoberta do conhecimento em dados não estruturados, utilizando a rede

neural artificial ART1 como classificador semântico. O intuito é o de potencializar a área

de Inteligência Competitiva com a classificação de textos, segundo o modelo de matriz

SWOT, caracterizando-se pela classificação dos textos nos quadrantes SWOT, que

envolvem fraquezas, fortalezas, vantagens e desvantagens sobre uma instituição. Além

disso, os resultados esperados envolvem uma metodologia processual adequada ao

desenvolvimento de um processo de descoberta do conhecimento, que esteja apoiada na

identificação e sabedoria de teorias e, bases de suporte aos processos de mineração de

dados. Desde modo, são esperados resultados que possam justificar os principais objetivos

desta pesquisa.

(10)

ABSTRACT

Processes of knowledge discovery in data not structured obtained from books, documents and electronic reports can provide the acquisition of information to subside processes of decisions and actions of Competitive Intelligence. To discover knowledge in data not structured, it is necessary to obtain the dominant concepts of information, that is, their main ideas to classify them in groups. This classification derives from the occurrence of vocabularies contained in information. The discovery process of knowledge in data together with a semantics intelligence classifier can serve as a facilitator in the structuration, analysis, grouping and automatic classification of information constituted in texts. The Competitive Intelligence characterizes as a potential kind of user of such technology, by reason of the bulk of produced texts and transmitted in several digital media since it demands velocity and accuracy in the semantics analysis of the produced documentation. This dissertation proposes a discovery process of the knowledge in data not structured, using the neural artificial Web ART 1 as a semantics classifier. The aim is to raise to a power the area of Competitive Intelligence with a classification of texts according to the source sample SWOT, characterizing by the classification of texts in the quadrants SWOT that involve weakness, fortress, advantages and disadvantages about an institution. Besides, the waited outcomes involve a processual methodology appropriate to the development of a discovery a process of knowledge that is supported process in the identification of wisdom theories and bases of support to the processes of data mining. Thus, results are waited in order to justify the main objectives of this research.

(11)

1. INTRODUÇÃO

1.1 Apresentação

O compartilhamento da informação, por meio de ambientes de troca de informação,

como WEB e alguns meios de comunicação, aproxima países, contribuindo para o aumento de negócios e a troca de informações. Este compartilhamento de informações volta à

atenção das empresas competitivas para as gestões estratégicas de mercado, da informação

e do conhecimento, tornando a informação aliada na redução e antecipação de riscos e

crises e no aumento da vantagem competitiva sustentável. A valorização da informação e

de seus conhecimentos pode subsidiar a crescente importância do processo de extração de

conhecimento em documentos não estruturados, dada a quantidade exponencial de

informações que trafegam em redes, como Internet e Intranet, circulando nos meios de comunicação, gabinetes, setores de empresas privadas e públicas. Descobrir conhecimento

útil e inovador pode representar o diferencial entre os que obterão sucesso, já que este

sucesso depende de vários fatores, entre os quais as formas de coletar, processar e aplicar

informações.

Neste contexto, descobrir conhecimentos em dados não estruturados obtidos em

livros, documentos e relatórios eletrônicos pode proporcionar a aquisição de informações

relevantes para subsidiar processos de decisão e ações de Inteligência Competitiva. Para

que textos não estruturados possam ser classificados como relevantes, é necessário

descobrir seus conceitos dominantes (idéia central), para poder classificá-los em grupos,

observando suas similaridades de idéias e conteúdos, com base nas ocorrências de seus

vocábulos.

No que se refere à análise, classificação e tratamento de dados não estruturados

(12)

descoberta de conhecimento em textos (Text Mining) com um classificador semântico inteligente. A junção destas duas técnicas pode gerar um processo capaz de analisar,

selecionar e identificar a relevância de uma informação, independentemente da variedade

de formatos (XML, SGML, HTML, DOC e PDF), da quantidade, do tamanho e origem da

informação.

A Inteligência Competitiva se caracteriza como potencial usuário deste tipo de

tecnologia, em razão do volume de textos produzidos e veiculados em diversas mídias

digitais, já que necessita analisar semanticamente a documentação produzida, com rapidez

e precisão, para que seja possível gerar conhecimento por meio da informação filtrada e

depurada. A análise de informações coloca a informação em um formato adequado para as

decisões táticas e estratégicas. É, ainda, a análise que dá um caráter exclusivo à informação,

pois a interpretação do que se faz está correlacionada às estratégias da empresa. Assim, a

leitura de uma informação é feita sob o prospecto de cada empresa, de suas necessidade, de

seus planos e metas estratégicas. Neste sentido, gerentes buscam informações sobre seus

negócios, visando à obtenção de vantagens competitivas, favorecendo a empresa em que

trabalham.

Esta dissertação propõe um processo de descoberta do conhecimento em texto (não

estruturado), baseado em processos de coleta e processamento de textos, utilizando a rede

neural artificial “ART1” como classificador semântico, com intuito de potencializar a área

de Inteligência Competitiva com a classificação de textos, segundo o modelo de

classificação da matriz SWOT, a qual se caracteriza como uma técnica de análise de

ambientes para o posicionamento de uma organização no mercado, além de verificar a sua

capacidade de competição, proporcionando ainda uma avaliação do ambiente de mercado

interno e dos impactos do ambiente de mercado externo sobre uma empresa, fornecendo

(13)

conclusão da análise SWOT deve levar a organização a concentrar-se nos seus pontos

fortes, reconhecer seus pontos fracos, aproveitar as oportunidades e proteger-se contra as

ameaças do ambiente externo.

1.2 Revisão da Literatura

Entre setembro de 2006 e março de 2007, foram usadas as fontes a seguir:

• Scirus (Science Direct)1_;

• ISI WEB of Knowledge2_e

• Proquest.3

Nas pesquisas, foram utilizadas palavras-chave relacionadas ao tema proposto e

combinações entre as mesmas. Os resultados obtidos são apresentados no Quadro 1.

Quadro 1: Pesquisa de revisão de literatura quanto à construção do tema

PALAVRAS-CHAVE SCIRUS ISI WEB

KNOWLEDGE

PROQUEST

Knowledge Discovery

Text

46.067 146 431

Knowledge Discovery

Text

Competitive

Intelligence 2.763 5 9

Knowledge Discovery

Text

Competitive Intelligence

SWOT

Matrix 42 0 0

Knowledge Discovery

Text

Competitive Intelligence

SWOT Matrix

Neural Network

ART1

0 0 0

Inicialmente, os resultados das pesquisas mostraram uma considerável quantidade

(14)

No entanto, conforme a utilização de novas combinações entre as palavras-chave, os

resultados sofreram importante redução em seu montante.

Na fonte de pesquisa ISI WEB, por exemplo, a contagem dos resultados mostrou-se pequena, os documentos encontrados estavam direcionados à Descoberta do Conhecimento

em bases de dados estruturados, ao Processamento da Linguagem Natural e não a textos

não estruturados, foco do presente trabalho. Além disso, os respectivos autores não

repercutiam entre os entendidos sobre a Descoberta de Conhecimento em Textos.

Nas outras fontes de pesquisa (Scirus e Proquest), os documentos encontrados com maior semelhança ao tema proposto neste trabalho referenciavam membros da IEEE

Computer Society’s (Transactions on knowledge and Data Engineering), além dos trabalhos relacionados à Association for Computing Machinery e de documentos retirados da EACL-2006 (11° Conferece of the European Chapter of the Association for Computational Linguistics). Dentre os trabalhos pesquisados destacam-se: Courseault (2004) que propõe uma metodologia para descobrir conhecimento em textos e bases de

dados direcionados à Inteligência Competitiva, utilizando técnicas de Text Mining e Análise de Informação para subsistir os processos decisórios de empresas. Esta metodologia é

realizada em seis fases: a primeira determina a técnica de monitoramento de informações; a

segunda, o tipo de informação desejado pelos gerentes; a terceira prevê a utilização de

algoritmo para identificar conceitos sinônimos nos textos; a quarta retrata o agrupamento de

textos; a quinta aborda uma análise estatística dos textos; a sexta e última apresenta os

resultados obtidos com as fases anteriores. Apesar da relevância deste trabalho, o mesmo

não analisa semanticamente os textos, abrindo uma lacuna quanto a relações semânticas

entre palavras chave de textos, fato abordado no presente trabalho; Por outro lado,

(15)

competitivos que surgem durante a análise estratégica, que formula a estratégia competitiva

de uma empresa. Além disso, o trabalho também procura esclarecer o relacionamento

existente entre o gerenciamento estratégico e o melhoramento competitivo.

Em complemento às pesquisas, foram consultados outros trabalhos acadêmicos,

como referencial de processos de descoberta do conhecimento em dados não estruturados.

Nesse sentido, Abutridy, Mellish & Aitken (2003) propõem um método para descobrir

conhecimento em textos baseados em algoritmos genéticos, Data Mining e Text Mining. O referido método é realizado em duas fases: na primeira, o algoritmo genético é treinado a

partir da informação inicial; a segunda diz respeito à utilização do processo de Text Mining

propriamente dito, onde é aplicada a técnica de sumarização no intuito de identificar

conhecimento nos textos. Apesar de sua relevância, este trabalho deixa uma lacuna quanto

à utilização de análises semânticas nos textos.

Outro trabalho proposto por Karanikas e Theodoulidis (2002) realiza uma

comparação entre os principais softwares e metodologias vinculadas à área Text Mining, identificando a função de cada técnica aplicada em um processo de descoberta em textos. O

trabalho, apesar de sua relevância, não deixa claro a composição de ideal de um processo

de descoberta do conhecimento, abrindo uma lacuna quanto à integração de técnicas de

Text Mining capazes de compor um processo de descoberta do conhecimento.

Jiang, Tan & Wang (2007) propõem duas técnicas para obtenção de conhecimento

em textos; a primeira chamada de Resource Descripton Framework – RDF visa à extração de relações semânticas entre palavras importantes de um texto, por meio do processamento

(16)

o qual é experimentado por meio de estudos empíricos em bases de dados e tem por

objetivo identificar relações semânticas entre palavras dos textos.

Tan (2002) descreve, em seu trabalho, o sistema Flexible Organizer for Competitive Intelligence, transformndo os resultados de consultas na Internet em portifólios de informações. O intuito deste sistema é classificar os portifólios em grupos por assuntos

pesquisados, utilizando o método User-Configurable Clustering. Isto viabilizaria a obtenção de novas informações com a re-estruturação dos portifólios. Esta pesquisa só

utiliza textos da WEB, abrindo lacuna quanto à utilização de textos armazenados em bases de dados ou nas estações de trabalho.

Chen et al (2002) desenvolveram o sistema Competitive Intelligence Spider no intuito de coletar e agrupar coleções de textos advindos da WEB em grupos por assuntos ligados à IC. O sistema ainda é comparado com outros dois métodos de obtenção de

informações da WEB; o Lycos e o Within-site Browsing. Segundo os autores, o CI Spider

tem melhor desempenho e eficácia que os outros dois métodos. Neste trabalho, tanto quanto

no de Tan (2002), existe somente a utilização de textos da WEB, abrindo possibilidades de exploração de textos em estações trabalho.

Oliveira et al (2004) apresentam um conjunto de técnicas de Text Mining como suporte na análise de informações negociais permutadas pelo sistema Electronic Trading Opportunities – ETO. O objetivo do trabalho é identificar conceitos nas informações geradas pelo ETO, o que levaria, em um segundo momento, a identificar padrões nos

respectivos conceitos e assim gerar informações estratégicas para a IC de uma empresa. A

relevância deste trabalho é absoluta. No entanto, expande-se uma lacuna quanto à análise

(17)

O trabalho proposto por Kongthon (2004) também é um bom exemplo da aplicação

de técnicas de Text Mining no âmbito da IC, consistindo no desenvolvimento do sistema

VantagePoint, o qual tem por objetivo extrair informações estratégicas de textos advindos da WEB que suportem tomadas de decisão. O sistema desenvolvido tem por base dois algoritmos para extração de informações; o primeiro para identificar relações entre termos

do texto e o segundo para compor um thesauros, utilizado no pré-processamento dos referidos textos.

Pesquisas complementares também foram realizadas em sites brasileiros, na tentativa de encontrar trabalhos relacionados a processos de descoberta do conhecimento

em textos, direcionados à IC. Neste sentido, as pesquisas foram realizadas nos sites:

• Universidade Pontifícia Católica – PUC Rio de Janeiro4_;

• Universidade de São Paulo – USP5_;

• Universidade de Brasília – UNB6_e

• Universidade Católica de Brasília – UCB7_.

Nas pesquisas, foram utilizadas palavras-chave relacionadas ao tema proposto e

combinações entre as mesmas. Os resultados obtidos são apresentados no Quadro 2.

(18)

Quadro 2: Pesquisa de revisão de literatura quanto à construção do tema

PALAVRAS-CHAVE PUC-RIO USP UNB UCB

Descoberta Conhecimento

Textos

19 29 9 83

Textos

Inteligência

Competitiva 0 0 0 5

Textos

Inteligência

Competitiva Matriz SWOT 0 0 0 0

Textos

Inteligência

Competitiva Matriz SWOT

Rede Neural

ART1 0 0 0 0

Os resultados das pesquisas não mostraram uma considerável quantidade de textos

sobre a Descoberta de Conhecimento em Textos e, conforme a utilização de novas

combinações entre as palavras-chave, não foram encontrados documentos relativos aos

assuntos abordados neste trabalho.

Na fonte de pesquisa PUC - Rio, por exemplo, a contagem dos resultados

mostrou-se pequena, os documentos encontrados estavam direcionados à Descoberta do

Conhecimento em bases de dados estruturados, em pesquisas médicas, também utilizando o

processamento de linguagem natural na identificação de relações semântica em textos e

rede neurais para o agrupamento de textos. No entanto, resultados quanto a documentos

relacionados à área de IC, os quais utilizassem processo de descoberta do conhecimento

não foram encontrados.

Na fonte UCB, os trabalhos pesquisados retratavam em sua maioria, temas como o

gerenciamento do conhecimento, gestão do conhecimento e trabalhos pertecentes a área de

Inteligência Competitiva, neste caso, os trabalho não abordavam a matriz SWOT como um

(19)

Nas outras fontes de pesquisa (USP e UNB), quanto aos documentos encontrados

com maior semelhança ao tema deste trabalho, destacam-se os trabalhos produzidos por

Loh (2001), onde a técnica de descoberta do conhecimento em textos, baseada em

conceitos, com o propósito de identificar características de alto nível em textos na forma de

conceitos, para depois realizar a mineração de padrões sobre estes conceitos. Embora este

comente outras estratégias de descoberta do conhecimento em textos, uma lacuna pode ser

observada quanto à utilização de uma rede neural na categorização de grupos dos padrões,

gerando conceitos identificados nos textos, os quais são direcionados à Inteligência

Competitiva.

Outro trabalho escrito Schiessl (2007) visa à aplicação de técnicas de Text Mining

na análise de dados, provenientes de textos relativos à qualidade no atendimento ao

consumidor realizado por uma instituição financeira. O trabalho aplica a descoberta do

conhecimento em textos, para criar agrupamentos automáticos de documentos, para que

posteriormente seja possível avaliar o grau de satisfação do cliente em relação aos produtos

e serviços oferecidos pela instituição financeira.

Já Wives (2002) apresenta um conjunto de técnicas, métodos e softwares

provenientes das áreas de recuperação de informação, IC e descoberta do conhecimento, no

intuito de coletar e analisar informações sobre o ambiente interno e externo de uma

empresa, para que a vantagem competitiva seja obtida por meio de produtos diferenciados.

Caputo (2006) desenvolveu um sistema computacional, baseado em métodos de

mineração de textos para análise de patentes industriais brasileiras, tendo por objetivo

analisar resumos de patentes, no intuito de descobrir novas tecnologias que ofereçam

vantagens competitivas, enfatizando o auxílio à tomada de decisão e antecipação de

(20)

Furtado (2004) também desenvolveu sistema computacional estruturado em

metodologias de mineração de textos. O foco do trabalho concentra-se em processar textos

de sites de instituições educacionais do ensino superior do Rio de Janeiro. Para isso, são aplicadas técnicas pertinentes à área da Descoberta de Conhecimento em Textos, visando à

obtenção de informações que proporcionem vantagens competitivas, auxiliando a tomada

de decisão no que se refere à concorrência.

Finalizando o trabalho, realizado por Gonçalves e Rezende (2001), faz-se uma

avaliação empírica dos principais algoritmos para extração do conhecimento: Nearest Neighbor; Naive Bayes; Decision Tree; Decision Rule; Decision Table and Support Vector Machines.

Para a análise dos citados algoritmos, o trabalho utilizou-se das fases do processo de

Text Mining, idealizado por Fayyad et al (1996).

1.3 Justificativa

A definição sobre IC, proposta por Coelho (1997), enfatiza a importância das

informações para as empresas, ressaltando a transparência das fontes de informação em

meios como Internet, Intranet, documentos, textos que transitam diariamente por e-mails,

etc. Neste sentido, descobrir conhecimento útil e estratégico nestas fontes de informação

faz parte da gestão estratégica da empresa. Brasiliano (2005) considera a informação como

inteligência útil e com valor similar ao capital. E como tal, tem valor produtivo, gerencial e

competitivo, possuindo custos quanto à sua coleta, armazenamento e disseminação. Além

de ser controlada na forma gerencial ou com o auxílio de computadores.

A importância da informação é evidenciada pelo seu papel na produção do

(21)

acumuladas, criados por um fluxo de informações, servindo como base para a tomada de

decisão e planejamento estratégico de negócio. No processo de IC, grande parte das

informações é obtida em fontes externas à empresa, que oferecem, na maioria dos casos,

informações dispostas em um formato sem estrutura ou semi-estruturado (informações

textuais) (FELDENS, 1998).

Esse tipo de informação textual não é tratado pelas ferramentas tradicionais de

descoberta de conhecimento, com características que tornam sua análise complexa (ZAN,

1998). Para que as etapas do processo de IC sejam aplicadas, são necessárias técnicas e

ferramentas computacionais desenvolvidas especificamente para tratar informações textuais

não estruturadas (GOEBEL; GRUENWALD, 1999).

Segundo Nonaka e Takeuchi (1997, apud LOH, 2000), um processo de descoberta do conhecimento é composto de fases: coleta, armazenamento, processamento, análise

semântica e classificação das informações. Adequar cada fase do processo de descoberta do

conhecimento à extração do conhecimento em informações textuais pode ser de grande

valia, já que informações deste tipo são facilmente coletadas e armazenadas, em função de

sua não estruturação e dos diversos formatos. Estatisticamente, 80% das informações de

uma organização estão disponíveis de forma textual não estruturada (TAN, 1999).

Existem várias técnicas que auxiliam a coleta, o processamento e a descoberta de

conhecimento em textos (LOH; WIVES, 2000). Entretanto, por ser ainda uma área recente,

as poucas ferramentas disponíveis são Softwares proprietários que não disponibilizam o processo de descoberta do conhecimento. Na maioria dos casos, as ferramentas apenas

encontram textos que podem conter informações relevantes (ferramentas de recuperação de

informação), deixando para os usuários a difícil tarefa de encontrar o conhecimento

(22)

1.4 Formulação do Problema

Como desenvolver um processo de descoberta de conhecimento útil e gerador de

vantagens competitivas em fontes de informação não estruturadas, capaz de servir como

opção ao suprimento das necessidades de processos decisórios vinculados à IC?

A prática da Inteligência Competitiva possibilita aos empresários o acesso a

informações que reduzem riscos, antecipam crises e melhoram seus produtos. Entretanto,

para se obter informações que subsidiam a tomada de decisão e posicionamento estratégico

de uma empresa, existem dificuldades quanto à grande quantidade de informações textuais

disponíveis no mercado, dificuldades de tratamento, análise e veracidade da informação.

As análises das informações do contexto mercadológico de uma organização são

referenciadas pelos estudiosos, como fatores de sobrevivência e competitividade em função

das informações angariadas no ato da execução destas análises, das constantes mudanças no

contexto competitivo e das potencialidades dos concorrentes.

A monitoração do fluxo de informações de negócios implica na análise do ambiente

externo e interno das organizações e, conseqüentemente, na interação de todos os atores e

variáveis que afetam o negócio da organização. O conhecimento sobre esse ambiente

competitivo suporta o processo estratégico de uma empresa, o qual necessita de

informações capazes de gerar vantagens competitivas e servir como subsídio à tomada de

decisão.

1.5 Objetivos

1.5.1 Geral

Propor um processo para descoberta do conhecimento em dados não estruturados,

(23)

visando potencializar a área de Inteligência Competitiva de acordo com classificações nos

quadrantes da matriz SWOT.

1.5.2 Específicos

• Identificar as ferramentas capazes de auxiliar no processo de Inteligência

Competitiva;

• Desenvolver programas em linguagem JAVA, capazes de realizar tarefas pertinentes

à área de Text Mining;

• Analisar o potencial do classificador;

• Observar os resultados obtidos como a realização do processo, indicando os pontos

fortes, fracos e os trabalhos futuros para o melhoramento do processo de descoberta

de conhecimento em Base de Dados e em textos não estruturados;

• Verificar o processo de descoberta do conhecimento em textos não estruturados na

área da IC;

• Conhecer e classificar semanticamente os significados dos quadrantes da matriz

SWOT;

• Criar as bases de dados de suporte aos processos de mineração de dados (Stopwords, Stemming e Thesauros) adequadas à classificação temática (Financeira – Bancária).

1.6 Classificação Metodologia

A pesquisa está classificada da seguinte forma:

• Quanto à natureza: Aplicada, pois objetiva gerar conhecimento para a aplicação

(24)

• Quanto à forma de abordagem do problema: Qualitativa, pois serão coletados

documentos em fontes de informações com respaldo de empresas vinculadas ao meio

financeiro em específico à rede bancária, as quais serão aplicadas nas fases do

processo desenvolvido neste trabalho;

• Quanto aos fins: Experimental, pois visa à construção de processo, método para

manipulação de uma realidade;

• Quanto aos meios: Bibliográfica e de Laboratório, pois será desenvolvido um

processo para a descoberta de conhecimento em base de dados e em textos não

estruturados, vislumbrando a possibilidade de obtenção de conhecimento útil e

aplicável ao âmbito da Inteligência Competitiva.

O presente estudo não pretende gerar ou agregar novos conceitos às teorias citadas

no item 2 deste trabalho (Referencial Teórico), as quais servem de base para o

desenvolvimento do processo descrito neste documento. Ainda no âmbito das limitações,

este estudo não pretende desenvolver o Agente Móvel para a coleta de informações e a rede

neural ART1 para a classificação de informações.

Esta análise visa à obtenção de coleções de informações, servindo de base para o

processo descrito aqui, por meio de um agente móvel capaz de trafegar em redes como

Internet, Intranet e redes internas de empresas. A coleção de informações pode ser formada de documentos, textos, livros e relatórios eletrônicos. O passo seguinte é envolver um

processo de Text Mining, uma vetorização dos textos e a classificação automática dos mesmos por meio da rede neural ART1.

O recurso tecnológico para o desenvolvimento deste trabalho contará com itens

(25)

pré-processamentos de textos não estruturados e tecnologias capazes de gerar e compilar

códigos da linguagem Java.

1.7 Apresentação do Trabalho

Este está estruturado em cinco capítulos. Inicialmente, trata-se, no capítulo 1, da

introdução com estudos referentes ao suporte computacional para IC, a descoberta de

conhecimento em textos, as limitações do trabalho, a contextualização do problema foco

deste trabalho, além dos resultados esperados, descrevendo também as principais

ferramentas que executam operações relacionadas à área de Text Mining que estejam associadas à área de IC. No capítulo 2, o referencial teórico esclarece as teorias como

Redes Neurais, Agentes Móveis, Text Mining, Inteligência Competitiva, evidenciando a relação entre as teorias citadas anteriormente com a área de IC; além de fomentar a presente

análise. No capítulo 3, na Metodologia do trabalho, detalha-se uma proposta para um

processo de descoberta do conhecimento em textos não estruturado, descrevendo as etapas

com suas respectivas atividades. São descritos também exemplos dos procedimentos

executados nas referidas fases, além de esclarecer os subsídios de entradas e saída de cada

fase do processo. Já no capítulo 4, são analisados os resultados obtidos com a realização da

validação do processo de descoberta do conhecimento. Estes resultados são mostrados por

meio de quadros que demonstram as fases do processamento dos textos não estruturados,

além da análise dos resultados obtidos com o agrupamento gerado pelas redes neurais

utilizadas aqui. No capítulo 5, são descritas as considerações finais sobre o trabalho,

indicando a possibilidade de realização dos objetivos iniciais deste trabalho, além da

(26)

2 REFERENCIAL TEÓRICO

2.1 Inteligência Competitiva

2.1.1 Suporte Computacional para Inteligência Competitiva

Atualmente, as empresas, em sua maioria, estão se virtualizando, ou seja, acessando

uma imensa quantidade de informações na WEB. Neste sentido, pode ser vantajoso para as empresas nos termos da Inteligência Competitiva – IC – o modo de coletar, analisar e

disseminar informações relevantes que permeiam o mercado. Segundo Wives (2002), a

coleta e análise de informações tem que ser cada vez mais rápida para que as decisões e

ações sejam tomadas antes da concorrência, sendo necessária a utilização de técnicas,

metodologias, ferramentas e Softwares que auxiliem esse processo.

Miller (2002) diz que a informação é essencial para Inteligência Competitiva,

baseando-se no conhecimento do negócio que um gerente deve ter de maneira formal e

sistemática. A IC é informação filtrada, depurada onde gerentes buscam a todo custo informações acerca de seus negócios, visando à aquisição de vantagens competitivas,

favorecendo a empresa em que trabalham. Desde modo, é necessário desenvolver processos

que facilitem a filtragem e depuração da informação.

Para a Society of Competitive Intelligence Professionals www.scip.org (SCIP), a IC é o processo da coleta, análise e disseminação ética de inteligência acurada, relevante,

específica, atualizada, visionária e viável em relação às implicações do ambiente dos

negócios, dos concorrentes e da organização em si.

NIC/UNB (1999) define IC como um processo sistemático de coleta e análise de

(27)

social, tecnológico, científico, mercadológico e regulatório, para ajudar na conquista dos

objetivos institucionais na empresa pública ou privada.

Um processo de IC pode ser beneficiado de Softwares e ferramentas que auxiliem o mesmo. No intuito de esclarecimento, a seguir são citados alguns dos Softwares mais conhecidos, os quais podem ser destinados à área de IC:

• PUZZLE: Este Software baseia-se em uma metodologia para IC, a qual está ligada ao processamento de informações antecipativas, qualitativas, incertas e

fragmentadas. O Software reagrupa todas as informações da vigília estratégica que foram coletadas pelos captadores. A partir disso, permite os recortes (ou

composições) e a validação progressiva das informações derivadas ou

subjetivamente elaboradas, aceitando informações nas diversas formas: texto,

imagem, voz e isto sem imposição de particularidades quanto à formatação

(VEGARA et al, 2005).

• GRAPEVINE SaaS: Software comercial. É utilizado para o processamento automático de dados destinado a aplicações financeiras, permitindo ainda a

distribuição inteligente de informações, as quais foram obtidas por meio de textos

retirados da WEB. Voltado também para fornecer representações significativas de informações e do processo de escuta do ambiente, o qual permite acesso a

informações inacessíveis. O Software foi desenvolvido pela Grapevine Technologies

(Austrália) (KILMURRAY, 2005).

• WINCITE: É um portal colaborativo, o qual permite o gerenciamento de bases de dados corporativas por meio da Intranet da empresa. Fornece segurança ao acesso à base de dados, além da possibilidade de acesso a outras ferramentas voltadas à área

(28)

desenvolvida pela Wincite Systems,Braun Technologies (POZZEBON; FREITAS, 2004).

• SEE-K: Este Software permite validar as competências essenciais de concorrentes, por meio da visualização dos portifólios dos mesmos. Esta visualização resulta em

resposta às seguintes perguntas: Qual a companhia de maior presença no mercado;

Quais as companhias mais flexíveis em questões de acordos; Quais as oportunidades

ainda não exploradas por minha companhia; e quais as categorias de produtos ainda

não exploradas. As respostas são retiradas de textos não estruturados, coletados em

Portais residentes na Internet. O Software analisa os textos, utilizando técnicas ligadas à área de Text Mining. Como resultado, o Software fornece uma árvore de conhecimento, onde são relatadas informações sobre competidores, steckholders e demais assuntos ligados à análise dos concorrentes (MARCHI, 2005).

• TEXT MINING SUÍTE: é um conjunto de ferramentas para Text Mining (mineração de textos), ou seja, para descoberta de conhecimento em informações textuais. O

Software permite a análise qualitativa dos textos, além da análise quantitativa (quantidade de textos em que a proporção referencia cada tema, além de descobrir

associações entre temas) (KLEIN, 2005).

• CONQUEST: Fornece um enfoque integrado para o manuseio e recuperação de informações de texto. Possui capacidade de busca do tipo lógica Booleana,

proximidade, relevância, questionamento, etc., funcionando em uma grande

variedade de tipos de equipamentos. Fornece ainda bases de dados repositórias de

informações extraídas de seus programas de análise. A ferramenta é utilizada para

manusear as informações de texto de toda a organização. Usualmente é integrado ao

(29)

• SPHINIX LÉXICA: Realiza a análise lexical para produção automática e gestão do léxico do texto. Aborda a navegação no texto a partir de elementos de léxico ou de

variáveis de contexto, extração de elementos do texto em função de seu conteúdo

lexical, busca de contexto, produção de verbatim (extratos de texto, segundo certo critério). Revisa e anota ascorreções e marcações do texto, agrupamento de palavras

ou expressões, exportação de textos extraídos do texto base. Produz Análise

sintática, busca da classe gramatical das palavras, lematização (mudança nas formas

derivadas – como plural – para a forma original – singular). Tem a disponibilidade

de executar funções estatísticas, contagem e desdobramento das ocorrências,

construção de tabelas lexicais, cálculo de indicadores lexicais e de especificidades.

Produz ainda a análise de dados textuais, produção de variáveis textuais, análise

fatorial, classificação e tratamento integrado de dados textuais e outros. Por fim,

gerencia base de dados, modificação automática dos níveis de análise (texto,

parágrafo, frase) e restrição das variáveis de contexto em função da seleção

(SPHINIX, 2006).

O presente trabalho buscou identificar nas ferramentas características de busca de

conhecimento para IC em textos não estruturados ou base de dados. Estas características

devem estar alinhadas ao ciclo de IC e às principais atividades de sistema de informações,

propostos Prescott & Miller (2002). Neste sentido, foram criados dois quadros: o primeiro

(Quadro 3), identificando as fontes de dados e os resultados apresentados pelas ferramentas,

e o segundo (Quadro 4) com perguntas, baseadas nas diretrizes propostas por Miller (2002),

no que se refere ao desenvolvimento de ferramentas para IC.

O quadro 4 mostra, de forma sucinta, a co-relação entre os principais Softwares

(30)

Softwares analisados atendeu às diretrizes. No entanto, quando o foco são as atividades para um sistema de IC, as ferramentas avaliadas, em sua maioria, não atenderam

(PRESCOTT; MILLER, 2002). Isto leva a perceber que a maioria dos Softwares não se preocupou em diagnosticar os pontos fortes e fracos dos concorrentes, em sugerir novas

oportunidades de mercado, em interagir com outros Softwares de IC já existentes na empresa ou até mesmo com diretrizes administrativas que facilitem a gerência da empresa.

Isto abre uma lacuna quanto a novas ferramentas destinadas à IC, as quais trabalhem sob

perspectiva de melhorar a análise sobre o mercado e concorrentes.

A pesquisa sobre ferramentas direcionadas a área de Text Mining, além do desenvolvimento de programas em linguagem JAVA para a execução das atividades de

Text Mining propostas neste trabalho, possibilitou realização de comparativo entre as funcionalidades das ferramentas para IC que realizam operações de Text Mining e os programas em JAVA aqui desenvolvidos. O Quadro 5 mostra o co-relacionamento entre as

principais atividades realizadas pelas referidas ferramentas e programas.

O quadro 5 faz perceber que algumas das ferramentas disponíveis no mercado, estão

mais focadas a área de IC, o que restringe a aplicabilidade na área de Text Mining, no entanto, ferramentas como Sphinix Léxica e Text Mining condicionam suas atividades

mais a área de Text Mining, realizam inclusive analise léxicas de textos, os programas em JAVA não realizam.

Por outro lado algumas das atividades realizadas pelos programas em JAVA, não

são encontradas nos portifólios de atividade da maioria das ferramentas, exemplo disto,

(31)

Quadro 3. Softwares para Inteligência Competitiva

Software Área Atuação Dados de

Entrada

Resultados apresentados pelo Software Origem

Informação PUZZLE - Inteligência

Competitiva - Text Mining

- Texto - voz - Imagem

- Reagrupamento de Informações; - Validação progressiva de Informações; - Permite múltiplos agenciamentos ou arranjos de informações;

- Verifica a coerência das informações reunidas;

- Acesso fácil e rápido às informações derivadas dos arranjos realizados pela ferramenta.

(VEGARA et al, 2005)

GRAPEVINE SaaS

- Inteligência Competitiva - Text Mining - Data Mining

- Texto - Sites - Base de Dados estruturadas

-Processamento automático de dados - Análise de Informações,

-Gerenciamento de integrado de documentos -Gerenciamento de conteúdo oriundo da WEB -Distribuição de informações

(KILMURRAY, 2005).

WINCITE - Inteligência Competitiva - Data Mining - Text Mining

- Documentos - Arquivos - Textos - Base de Dados estruturadas

- Integração de Informações - Integração de grupos de trabalho - Análise de informações

- Gerenciamento de Bases de dados estruturadas

- Emite relatórios de feedback

- Gerenciamento da Segurança da base de dados

(POZZEBON; FREITAS, 2004).

SEE-K - Inteligência Competitiva - Text Mining

- Sites - Textos

- Análise de Competências; - Análise de Concorrentes - Análise de Textos

-Análise de diferentes Portifólios -Análise Estratégica de Alianças com concorrentes (MARCHI, 2005) TEXT MINING SUÍTE - Inteligência Competitiva - Text Mining

- Textos - Documentos - Relatórios

- Análise qualitativa e quantitativa de textos - Monitoração de sites para IC

- Atividades de Text Mining - Análise de Conteúdo - Gerenciamento de Dados

(KLEIN, 2005)

CONQUEST Text Mining - Textos - e-mail

-Base repositória de dados -Gerenciamento informações

-Executa o processo de Recuperação de Informação

-Executa busca de informação do tipo; booleana, lógica, proximidade, relevância.

(CASTRO, 2000)

SPHINIX LÉXICA

Data Mining e Text Mining

- e-mail - Textos - Documentos - WEBsites - Base de dados

- Análise de discurso, mapas cognitivos, redes semânticas;

- Realiza análises avançadas e explorar dados textuais provenientes de todas as origens; - Análise de conteúdo, explorar o texto, codificar;

(32)

Quadro 4. Verificação dos Softwares para Inteligência Competitiva

Diretrizes

Softwares

Puzzle Grapevine

saas Wincite See-k

Text

min-ing suíte Conquest

Sphinix léxica

O Software produz

informação Qualificada? X X X X X X X

Destina-se aos tomadores de decisões e demais

participantes do processo de IC?

X X X X X X X

Coleta e disseminação informações quando solicitado pelo usuário?

X X X X X X X

Produz relatórios, gráficos com informações acerca dos resultados obtidos com a utilização da IC?

X X X X

A ferramenta produz dados

confiáveis? X X X X X X X

Contou com uma equipe da área de Inteligência, durante o desenvolvimento?

X X X X

Coleta, localiza e exibe documentos com variedades de formatos?

X X X X X X X

Consolida informações obtidas por meio da Internet, Intranet ou redes de comunicação externa?

X X X X X X X

Fornece acesso a outros Softwares da área de Inteligência da empresa?

X

Procura evoluir em paralelo às novas tendências da área de IC?

X X X X X X X

Alerta com a devida antecipação o surgimento de oportunidades e ameaças à empresa?

X X X X

Subsidia o processo de tomada de decisão estratégica da empresa?

X X X X X X X

Subsidia decisões táticas e

operações de negócios? X X X X

Avalia e monitora concorrentes, setores de negócios e tendências sociológicas e políticas?

(33)

Quadro 5. Comparativo entre Ferramentas.

Software Atividades de Text Mining Realizadas pelos Softwares

Atividades Realizadas pelos programas JAVA

Atividades não Realizadas pelos programas JAVA

Atividades não Realizadas pelos Softwares

Puzzle -Reagrupamento de Informações; -Verifica a coerência das informações reunidas.

- Processamento de textos em XML;

- Retirada de Stopwords dos textos; - Verificação de Stemmings nos textos;

- Sinonimização de Palavras; - Vetorização de textos.

-Verifica a coerência das informações reunidas.

-Retirada de Stopwords dos textos; - Verificação de Stemmings nos textos;

- Vetorização de textos.

Grapevine SaaS

-Processamento automático de dados;

- Analise de Informações.

Wincite - Análise de informações. - Processamento de textos em XML;

- Integração de Informações. - Processamento de textos em XML;

- Sinonimização de Palavras; - Vetorização de textos. SEE-K - Análise de Textos. - Processamento de textos em

XML;

Text Mining - Análise qualitativa e quantitativa de textos;

- Atividades de Text Mining; - Análise de Conteúdo;

- Sinonimização de Palavras; - Vetorização de textos. Conquest -Executa o processo de

Recuperação de Informação; -Executa busca de informação do tipo; booleana, lógica, proximidade, relevância.

- Executa busca de informação do tipo; booleana, lógica, proximidade, relevância.

-Executa busca de informação do tipo; booleana, lógica, proximidade, relevância.

Sphinix Léxica -Análise de discurso, mapas cognitivos, redes semânticas; -Realiza análises avançadas e explorar dados textuais provenientes de todas as origens; -Análise de conteúdo, explorar o texto, codificar;

-Aproximação lexical, -Lexicometria e análise dados textuais.

-Análise de discurso, mapas cognitivos, redes semânticas; -Realiza análises avançadas e explorar dados textuais provenientes de todas as origens; -Aproximação lexical; -Lexicometria.

(34)

processo de descoberta do conhecimento desenvolvimento. No entanto, ao que se refere as

ferramentas analisadas, suas respectivas aplicabilidades envolvem não somente a área Text Mining, mas também, a área de IC, o que faz com as mesmas não se tornem software específicos a área de Text Mining.

2.1.2. Contextualização

O avanço nos ambientes de troca de informações caracterizados principalmente pela

Internet e Intranet, além da globalização, minimizam as fronteiras entre países e serve como estopim para o aumento dos negócios e da quantidade de informações ao alcance de

todos (FURTADO, 2004). No entanto, segundo Junior (2003), a sobrevivência em

ambientes com elevados níveis de negócios e grandes quantidades de informação depende

da construção e aplicação de uma boa estratégia competitiva apoiada em inovações e

criatividade, o que exige da organização conhecer e antever o que representa ameaça ou

oportunidade a seu negócio.

A visão a respeito da sobrevivência empresarial é avaliada e enfatizada por Prescott

e Miller (2002), onde cada vez mais os estrategistas da gestão empresarial estão se apoiando na Inteligência Competitiva. Os profissionais de IC coletam, analisam e aplicam,

de forma legal e ética, informações relativas sobre as capacidades, deficiências e intenções

de seus concorrentes. Monitoram também os acontecimentos do ambiente competitivo

(como novos concorrentes ou novas tecnologias que podem alterar tudo). O seu objetivo é

obter informações que subsidiem o processo de tomada de decisões estratégicas e que

possam ser utilizadas para aumentar a competitividade da organização.

Em se tratando de IC, várias são as suas definições. Na visão de Kahaner (1996), é

(35)

atividades da concorrência e as tendências do setor específico e do mercado em geral, com

o propósito de levar a organização a atingir seus objetivos e metas.

A IC também é definida como um processo sistemático de coleta, tratamento,

análise e disseminação da informação sobre atividades dos concorrentes, tecnologias e

tendências gerais dos negócios, visando à subsidiação da tomada de decisão e atingir as

metas estratégicas da empresa (COELHO, 1999).

Já para NIC/UNB (1999), é um processo sistemático de coleta e análise de

informações sobre a atividade dos concorrentes e tendências gerais do ambiente econômico,

social, tecnológico, científico, mercadológico e regulatório, para ajudar na conquista dos

objetivos institucionais na empresa pública ou privada.

Segundo a ABRAIC (2001), é um processo informacional proativo que conduz para

melhor tomada de decisões, seja estratégica ou operacional. É um processo sistemático, que

visa à descoberta das forças que regem os negócios, reduz risco e conduzir o tomador de

decisão a agir antecipadamente, bem como proteger o conhecimento gerado.

Conforme Miller (2002), IC baseia-se no conhecimento do negócio que um gerente

deve ter de maneira formal e sistemática. É a informação filtrada, depurada, visando à obtenção de vantagens competitivas que favoreçam a empresa. Neste sentido, há

necessidade extrema de estabelecer processos que facilitem a filtragem e a depuração da

informação.

Tyson (1998) define a Inteligência Competitiva no contexto empresarial como um

processo sistemático, que transforma dados e informações aleatórias em conhecimento

estratégico. É o conhecimento da posição competitiva atual e dos planos futuros dos

(36)

como as influências econômicas, políticas e demográficas que tenham um impacto no

mercado.

Tarapanoff (2001) descreve a IC como uma metodologia que permite a tomada de

decisão e o monitoramento informacional do ambiente depois de sistematizado e analisado.

É um processo sistemático que transforma dados em conhecimento estratégico, utiliza

informações sobre tecnologia, meio ambiente, usuários, competidores, mercados, produtos,

Inclui também o monitoramento de informações externas que afetam o mercado da

organização.

Para Vaitsman (2001), a inteligência competitiva é um sistema constituído por

pessoas, equipamentos e procedimentos para reunir, selecionar, avaliar e distribuir

informações periódicas e necessárias, atuais e precisas para que a gerência de alto nível da

empresa possa tomar as suas decisões.

Neste trabalho, o conceito referência sobre IC foi definido por Gomes & Braga

(2004), que consiste no resultado da análise de dados e informações coletados do ambiente

competitivo da organização, os quais geram recomendações que consideram eventos

futuros e não somente relatórios para justificar decisões passadas. A IC tem o propósito de

identificar tendências mercadológicas, vantagens e desvantagens de concorrentes, além de

subsistir as tomadas de decisões.

Em um mundo globalizado, as empresas estão se virtualizando, ou seja, têm acesso

ao mesmo número infindável de informações. Neste sentido, o que pode levar as empresas

à vantagem competitiva é modo de coletar, analisar e disseminar informações relevantes

que permeiam as empresas. Segundo Leandro Wives (2002), a coleta e análise de

informações (em sua maioria textual) têm que ser rápida para que as decisões e ações sejam

(37)

ferramentas e Softwares que auxiliem esse processo. Os processos que auxiliam a descoberta de conhecimento em informações textuais estão vinculados a uma área

denominada Descoberta de Conhecimento em Textos – KDT – ou Text Mining.

Apesar do forte vínculo da IC com a descoberta de conhecimento em contextos

competitivos, é de suma importância frisar, segundo Miller (2002), que a IC de uma

empresa está alicerçada em um processo de inteligência. Os dados, quando organizados,

tornam-se informação; as informações, quando analisadas, transformam-se em inteligência.

A partir deste modelo, os profissionais da inteligência normalmente executam um processo,

ou ciclo, de quatro fases: 1) identificam as necessidades de inteligência dos principais

responsáveis pelas decisões em toda a empresa; 2) colhem informações sobre fatos relativos

ao ambiente externo de uma empresa em fontes impressas, eletrônicas e orais; 3) analisam e

sintetizam as informações; 4) disseminam a inteligência resultante entre os responsáveis

pelas decisões.

O foco do processo de decisão geralmente determina os objetivos do processo de

inteligência, concentrando-se nas perspectivas atuais e potenciais quanto a pontos fortes,

fracos, nas atividades organizacionais que tenham produtos ou serviços similares dentro de

um setor da economia.

2.1.3 Necessidades da Inteligência Competitiva

Segundo Prescott & Miller (2002), o ato de definir as reais necessidades de

inteligência de uma organização e fazê-lo de forma que seus resultados levem os executivos

a agir em conseqüência é um dos objetivos mais evasivos da IC. O uso de um processo de

identificação das necessidades gerenciais, sistematizado ou formal é uma maneira

(38)

necessária à identificação e à definição das necessidades reais de inteligência para empresa.

O autor ainda revela que a conceituação das verdadeiras necessidades de inteligência de

uma empresa tem início em um processo de IC, proporcionando foco e prioridade

necessários à condução de operações de inteligência eficazes na geração de inteligência

adequada.

Para Porter (1986), é preciso determinar uma metodologia para a decisão dos dados

particularmente cruciais e como podem ser analisados, podendo levar a uma compreensão

mais profunda de uma determinada indústria e de seus concorrentes, exigindo grande

volume de dados, alguns dos quais sutis e de difícil obtenção. A compilação dos dados para

uma análise sofisticada da concorrência requer mais do que trabalho duro: um mecanismo

organizado, algum tipo de sistema de inteligência.

A visão de Swaka (apud PRESCOTT & MILLER, 2002) sobre a necessidade das empresas em obter benefícios permanentes que rendam dividendos para o desenvolvimento

e a execução da estratégia consiste fundamentalmente em uma IC convertida em atividades

sistemáticas, contínuas que residam na organização. O ciclo do processo de IC, apresentado

na figura 1, mostra seus principais elementos. Entretanto, o autor deixa transparecer que

nenhuma das fases do processo se sustenta por si só, ou seja, todas são necessárias e

(39)

Figura 1. Ciclo de Inteligência Competitiva (PRESCOTT e MILLER, 2002)

As principais características das fases do processo de IC perpassam pela

identificação das necessidades dos responsáveis pelas principais decisões da empresa, pela

obtenção de informações relevantes a partir de fontes de informações (balanços

patrimoniais, relatórios de bancos, publicações internas, jornais, revistas, rumores, Internet

ou fornecedores) na identificação e análise de tendências significativas com base nas

informações previamente colhidas e finalizadas na disseminação do conhecimento obtido

por meio do processo de IC (MILLER, 2002).

A estruturação da IC em ciclos, como mostra a figura 1, deve-se ao aumento da

competição no mercado, o qual demanda uma velocidade enorme na identificação,

obtenção, tratamento, análise e disseminação de informação. Para que esta demanda seja

suportada, são necessárias ferramentas adequadas e com grande poder de contribuição para

(40)

Um sistema de IC em organização tem como propósito antecipar mudanças no

ambiente de negócio; descobrir concorrentes e aprender sobre mudanças políticas e

legislativas que possam aferir o negócio. Além disso, as informações, geradas por este

sistema, auxiliam a abertura e definição de um novo negócio e principalmente aumenta a

qualidade das atividades alianças estratégicas (GOMES & BRAGA, 2004).

Visando à eficácia do sistema de IC, as diretrizes para o seu desenvolvimento

assumem as seguintes características (MILLER, 2002):

• Produzir informação qualificada e não simplesmente redistribuir documentos;

• Servir simultaneamente aos usuários finais de inteligência (os responsáveis pelas

decisões) e aos participantes do processo (vendas, marketing, experts, etc.);

• Prover, ao mesmo tempo, resposta para cada caso (solicitação de curto prazo quanto

a uma coleta histórica, estática) e encaminhamento (detalhamento de temas

presentes, escolhendo textos de um fluxo de informações em constante mutação);

• Medir o sucesso com fornecimento de inteligência com foco e detalhada (não apenas

a simples informação);

• Proporcionar fator de confiança (mensuração da validade) a cada unidade

relacionada à fonte das informações;

• Ser acessível por meio dos sistemas primários de Software da organização;

• Contar com uma equipe de apoio de tempo integral, ou na inteligência ou na

tecnologia de informação da organização;

• Buscar, localizar e exibir documentos, contendo uma variedade de formatos e

(41)

• Consolidar a informação colhida na Internet, Intranet, redes externas (redes privadas de intercâmbio de informação entre duas ou mais empresas, quase sempre

fornecedores), e-mail, sistemas de informação locais (descentralizados) e próprios (centralizados);

• Evoluir constantemente em paralelo com as exigências representadas pelas

mudanças na inteligência da organização.

2.1.4 A Importância da Informação para Inteligência Competitiva

Hoje, com a globalização e a evolução das telecomunicações, as organizações

podem se comunicar de qualquer lugar ou país e ter acesso a várias culturas e ambientes,

aumentando sua capacidade de se colocar no mercado. O desafio é lidar com a incerteza, a

turbulência e a instabilidade desse mundo. Para isso, antecipar-se às mudanças, enxergar as

oportunidades, observar com olhos críticos o panorama sócio econômico configura-se

como uma boa solução. No entanto, monitorar esse fluxo de informações de negócios

implica analisar o ambiente externo e interno das organizações e, conseqüentemente,

interagir com todos os atores e variáveis que afetam o negócio da organização (GOMES &

BRAGA, 2004).

A necessidade de informação de negócios está mudando rapidamente. Nos últimos

anos, os esforços foram direcionados para melhorar a informação tradicional,

principalmente sobre o que está se passando na empresa. Ainda hoje, mais de 90% das

informações coletadas são sobre dados e eventos internos (DRUCKER, 1997).

A obtenção de informações relevantes se dá por meio de várias fontes, tanto internas

como externas. Os vendedores estão próximos dos clientes no dia a dia e provavelmente

(42)

fornecedor que também atende ao concorrente. Esses são apenas alguns exemplos de fontes

de informação internas e informais, ligadas ao conhecimento das pessoas (KAHAMER,

1996).

Outra fonte importante são as informações externas, isto é, aquelas publicadas por

meio de jornais, relatórios anuais, patentes, estatísticas, Internet, etc. Pode-se considerar, de acordo com Montalli & Campello (1997), como informações para negócios:

• Informações jornalísticas;

• Informações de empresa;

• Informações de indústrias ou de mercados;

• Dados de importação e exportação;

• Produtores e preços;

• Informações macroeconômicas;

• Informações de países;

• Legislações;

• Informações de patentes, etc.

Embora a atividade de coleta de informação para IC tenha seu foco inicial em

informações impressas geradas externamente, não deixa de ser extraordinária tudo sobre o

ambiente externo que existe na própria organização. Parte dela está contida nos bancos de

dados internos relacionados à questão cliente-produto, que são, em primeiro lugar, bancos

de dados relacionais estruturados de informações históricas. Esses dados podem ser

colhidos diretamente dos bancos de dados, das fontes, como sistemas de pedidos de