tempo. Compreendeu ainda a descrição do background do cliente, seus objetivos de negócio e uma descrição dos critérios utilizados para determinar o sucesso do seu negócio.
5.1.1 - Objetivo do Negócio
Background
A RADIOBRÁS tem como objetivo principal universalizar as informações refe- rentes a atos e fatos da administração pública federal.
Seus principais produtos e serviços são: (i) Rádio Nacional de Brasília - AM;
(ii) Rádio Nacional do Rio de Janeiro - AM; (iii) Rádio Nacional da Amazônia - OC; (iv) Rádio Nacional de Brasília - OC; (v) Rádio Nacional do Brasil - OC; (vi) Rede Nacional
de Rádio; (vii) TV Nacional - Canal 2; (viii) NBR - TV Nacional Brasil; (ix) Publicidade Legal; (x) Agência Brasil; (xi) Mídia Impressa; (xii) Sinopse; e (xiii) Portal da Cidadania.
A empresa opera cinco emissoras de rádio, uma de televisão aberta e outra por assinatura, um centro de produção de notícias e um serviço radiofônico via satélite. É hoje de- tentora do maior parque radiofônico da América Latina e quinto maior do mundo, cobrindo com seu sinal a quase totalidade do planeta.
Objetivos
A RADIOBRÁS - Empresa Brasileira de Comunicação S.A. é uma empresa pú- blica, dotada de personalidade jurídica de direito privado, organizada sob a forma de sociedade por ações, criada em 1975 e vinculada à Secretaria de Comunicação de Governo da Presidên- cia da República do Brasil.
De acordo com o Regimento Interno (RADIOBRÁS, 2001), constitui objeto da RADIOBRÁS:
(i) Divulgar as realizações do governo federal nas áreas econômica, política e social e difundir para o exterior conhecimento adequado da realidade brasileira, bem como implantar e operar emissoras e explorar serviços de radiodifusão;
(ii) Implantar e operar suas redes de repetição e retransmissão de radiodifusão, ex- plorando seus serviços, prestando serviços especializados, bem como promoven- do e estimulando a formação e o treinamento de pessoal especializado, necessário as suas atividades;
(iii) Recolher, elaborar, produzir, transmitir e distribuir, diretamente ou em colabora- ção com os meios de comunicação social, o noticiário, fotografias, boletins e pro- gramas, referentes a atos e fatos da Administração Pública Federal e outros de interesse público de natureza política, econômico-financeira, cívica, social, des- portiva, cultural e artística, mediante processos gráficos, fotográficos, cinemato- gráficos, eletrônicos ou quaisquer outros;
(iv) Distribuir a publicidade legal dos órgãos, entidades e sociedades integrantes da Administração Pública Federal, direta e indireta;
(v) Exercer outras atividades afins que lhe forem atribuídas pelo Ministro de Estado Chefe da Secretaria de Comunicação de Governo da Presidência da República.
Objetivos estratégicos
De acordo com o planejamento estratégico (RADIOBRÁS, 2001a), são objeti- vos estratégicos da empresa:
(i) Adequar seus instrumentos regulamentares e organizacionais; (ii) Adequar-se para a competitividade mercadológica;
Capítulo V – Compreensão do Negócio e Pré-Processamento 60
(iv) Promover permanente modernização tecnológica;
(v) Adotar mecanismos de mensuração e monitoramento de resultados das ativida- des;
(vi) Elevar níveis de qualidade e adequação de conteúdo, de modo a ampliar a abran- gência dos meios;
(vii) Preparar quadro funcional para atingir excelência em qualidade e produtividade.
Critérios para o Sucesso
A RADIOBRÁS não dispõe hoje, segundo seu diretor administrativo, de indica- dores nacionais que permitam quantificar com precisão o número de pessoas que usufruem seus produtos e serviços.
São relacionadas, a seguir, algumas questões importantes, referentes ao negócio da RADIOBRÁS:
(i) Estimar a distribuição de notícias por assunto (economia, política, social, despor- tiva, cultural e artística);
(ii) Avaliar difusão das notícias para o exterior da realidade brasileira;
(iii) Estimar a distribuição dos noticiários, boletins e afins referentes à administração pública federal;
(iv) Estimar e avaliar a distribuição da publicidade legal dos órgãos da administração pública federal;
(v) Levantar as atividades afins atribuídas pela Secretaria de Comunicação de Go- verno da Presidência da República e que não fazem parte das funções rotineiras da RADIOBRÁS.
(vi) Estimar o nível de universalização do acesso da sociedade ao conhecimento das informações sobre atos e fatos do governo federal.
Parte dessas questões, foram respondidas pelo especialista depois da análise das seguintes informações obtidas durante o processo de mineração:
(i) Percentagem de notícias por assunto (economia, política, social, desportiva, cul- tural e artística);
(ii) Quantidade de notícias referentes a atos e fatos da administração pública federal
(iii) Quantidade de notícias sobre determinado assunto em relação à data de sua dis- tribuição
(iv) Grupos homogêneos de texto e as palavras que o definem.
5.1.2 - Avaliação da Situação
Inventário dos Recursos
Os recursos disponíveis para o projeto abrangeram: pessoal (especialista de ne- gócios, especialista de dados, suporte técnico, “minerador” do conhecimento), dados (extração física, acesso aos dados operacionais), recursos computacionais (plataforma de hardware) e
software (ferramentas de mineração de texto, outros softwares relevantes). Pessoal
• Um gerente do projeto para avaliação e suporte necessários ao projeto - gerente; • Um analista para interagir com o software de mineração de texto - analista de
dados, co-gerente do projeto;
• Um coordenador de atividades de reportagens - especialista de negócio e avalia-
Capítulo V – Compreensão do Negócio e Pré-Processamento 62
• Um operador de grande porte e DBA do banco de dados (COBOL) - administra-
dor de dados;
• Um operador de grande porte e banco de dados COBOL - suporte técnico, ope-
rador de dados brutos. Dados
• Foram disponibilizados dados de janeiro de 1987 a dezembro de 2001;
• Os textos estavam disponíveis em meio magnético em um banco de dados textual (COBOL indexado);
• O banco de dados estava armazenado no computador de grande porte (HP 8200); • Foram distribuídos por unidades textuais na proporção de um arquivo-texto para
cada notícia;
• Indexados por data e por Status (Notícias Bloqueadas, Liberadas, Descartadas); • Arquivos textuais em formato ASCII puro sem formatação;
• Acesso aos dados restrito ao especialista de dados e ao operador de dados brutos;
Hardware
• HP 8200 (grande porte) - fonte dos dados textuais brutos;
• Um Pentium III 800 MHz 512 Ram (estação de trabalho) - processamento da fer- ramenta de mineração e repositório dos dados transferidos do grande porte; • Dois servidores Pentium Xeon III dual 1 GHz 2 GB Ram;
• Um servidor Pentium III dual 550 MHz 512 Ram;
Software
• Open VMS (grande porte); • COBOL (grande porte);
• Eurekha 2.0 (Personal Edition);
• Mononc Pro - Versão 2.0 (Build 227) - Demo
Requisitos e Suposições
A execução deste projeto, gerou grande expectativa dos diretores da empresa quanto ao conhecimento do conteúdo e dos conceitos expostos pela RADIOBRÁS em seus produtos.
O enfoque colocado por seu diretor administrativo-financeiro demonstrou a ne- cessidade de conhecer, em números, a universalização das notícias veiculadas pela empresa. Para ele, um fator de sucesso para o projeto é viabilização de se extrair os conceitos produzi- dos e veiculados pela empresa e o quanto disto está sendo “conhecido pela sociedade” e, as- sim, segundo ele, mostrar a realidade brasileira dos atos e fatos da Administração Pública Federal.
Para o presidente da RADIOBRÁS, um dos pontos de expectativa do projeto es- tá em estudar o conteúdo produzido e veiculado pela empresa. Com isto, seria possível certifi- car que se ela está cumprindo o papel estipulado pela Presidência da República.
Para atingir essas expectativas, o presidente nomeou uma especialista em notí- cias, incumbida de analisar os resultados da mineração de texto, bem como propor novos a- grupamentos ou dados para validar o conhecimento extraído.
A compreensão e a qualidade dos resultados foram avaliadas ao término da aná- lise dos dados, pelos gerentes do projeto e pela especialista de negócio, cabendo, ao final, a adequação por parte dos diretores da empresa.
A RADIOBRÁS liberou para o projeto o acesso ao acervo eletrônico e permitiu a análise e extração do conhecimento dele. Adicionalmente, o projeto ateve-se às notícias ve-
Capítulo V – Compreensão do Negócio e Pré-Processamento 64
rídicas e de domínio público disponibilizadas no site da empresa no endereço eletrônico http://www.radiobras.gov.br.
Nessa fase do projeto, não foram incluídas, para análise e extração do conheci- mento, as notícias não-escritas, as notícias em meio não-magnético, as notícias escritas em ou- tros idiomas, fotos e imagens. Dessa forma, foram analisadas tão somente todas as notícias escritas em português e disponíveis eletronicamente.
Limitações
A área de atuação foi o acervo de notícias em português produzido e veiculado no ano de 2001. Nesse período, uma limitação em relação à análise efetuada foi a falta de ma- térias (arquivos-texto) entre os dias 04/01/2001 (inclusive) até o dia 14/02/2001 (inclusive). Não foi possível importar esses 41 dias de produção devido à não-disponibilidade de notícias desses dias no servidor de grande porte.
Limitações de Recursos: (i) o projeto contou somente com uma ferramenta de mineração de
texto capaz de realizar o trabalho. A segunda ferramenta (text analyst) talvez não pudesse su- prir as necessidades, já que era uma cópia de avaliação; (ii) por ser um trabalho de cunho aca- dêmico, o projeto não foi dotado de recursos financeiros, priorizando-se ações que não envolviam custos;
Limitações de tecnologia: (i) a tecnologia empregada é nova e sua utilização na prática é tam-
bém recente. Assim era natural que ocorressem situações de entrave ou atraso até que se che- gasse a uma solução ideal, o que realmente oconteceu; (ii) a ferramenta utilizada para mineração de texto não é comercial, sendo fruto de pesquisa na área e resultado de uma disser- tação de mestrado. Limitações em relações a ela poderiam ocorrer, visto que um dos objetivos do projeto era analisar e propor sugestões para a ferramenta; (iii) o projeto propôs soluções
que abrangeram o domínio da mineração de texto, acarretando, portanto, que as soluções em- pregadas foram inseridas no domínio de ocorrência dessa tecnologia - aprendizado não- supervisionado.
Limitações de tamanho: (i) o projeto teve como foco de abrangência o acervo de notícias pro-
duzidas e disponibilizadas, em português, em meio magnético e na forma textual importada do grande porte; (ii) identificaram-se, de forma semi-automática, agrupamentos de notícias e pa- lavras-chave que compunham esses grupos; (iii) os conceitos, advindos da análise realizada pela especialista de negócios, fundamentaram-se no conhecimento extraído dos dados e con- seqüentes agrupamentos.
Limitações na abrangência dos dados: (i) os dados analisados foram as notícias produzidas e
disponibilizadas entre 01/01/2001 a 31/12/2001, embora houvesse uma lacuna entre os dias 04/01/2001 (inclusive) ao dia 14/02/2001 (inclusive); (ii) não foi objetivo do projeto mensurar a quantidade de informações disponibilizadas e, conseqüentemente, utilizadas pela população, mas sim avaliar os principais assuntos das notícias e os resultados de acordo com o objetivo traçado para empresa; (iii) foram analisadas somente as matérias escritas em português e que se encontravam em meio magnético no formato textual.
Riscos e Contingências
Riscos: (i) possibilidade de o projeto perder apoio político e/ou administrativo na execução de
suas etapas; (ii) não conseguir mensurar, estatisticamente, os tipos e a quantidade de notícias veiculadas por períodos de tempo; (iii) a ferramenta de mineração de texto ou hardware não suportar o volume de dados a serem analisados; (iv) a ferramenta de mineração de texto não conseguir comportar os dados textuais da empresa devido à forma, tamanho ou formatação deles; (v) não conseguir confrontar os agrupamentos e palavras-chave com os períodos históri-
Capítulo V – Compreensão do Negócio e Pré-Processamento 66
cos na busca de extrair os melhores conceitos; (vi) ter resultados finais que não atingissem as expectativas da cúpula administrativa da empresa (presidente e diretores).
Contingências: (i) Uso da importação de texto para banco relacional para facilitar o levanta-
mento da estatística dos dados (quantidade, tipo, período); (ii) usar outra ferramenta de mine- ração de texto; (iii) a busca por respaldo das ações ao longo da execução das etapas.
Terminologias
Os termos técnicos referentes ao trabalho são os seguintes:
• Acervo - Matérias liberadas para sociedade brasileira;
• PO - Sigla que identifica notícias relacionadas à Política;
• EC - Sigla que identifica notícias relacionadas à Economia;
• NA - Sigla que identifica notícias relacionadas ao Brasil (Nacional);
• CT - Sigla que identifica notícias relacionadas à Ciência e Tecnologia;
• FL - Flash, matérias curtas sobre determinado assunto;
• MA - Matéria longa sobre determinado assunto;
• ME - Matéria especial sobre determinado assunto;
• CL - Clipping;
• PT - Pauta de Foto;
• PA - Pauta.
Custos e Benefícios
No projeto, não foram agregados recursos financeiros, entre outros motivos, por haver uma congruência de ações: (i) pesquisa e elaboração de uma dissertação e (ii) necessi- dade de conhecimento mais abrangente sobre a produção da empresa, visando a atender as ex- pectativas dos administradores com o estudo e o levantamento dos conteúdos das matérias produzidas e disponibilizadas pela empresa.
Um dos principais benefícios foi a elevação do conhecimento sistêmico com a- nálise do conteúdo de um produto da RADIOBRÁS, confrontando os conhecimentos extraídos das notícias com os objetivos da empresa, traçados pela Presidência da República. Esse bene- fício poderá refletir-se na consolidação da empresa ou descobrir algum insight sobre o negócio que possa subsidiar o planejamento estratégico da RADIOBRÁS.
5.1.3 - Objetivos da Mineração de Dados
A extração de conhecimento servirá como base para análise do cumprimento do papel da empresa junto à sociedade brasileira, espera-se com o estudo:
(i) Selecionar as principais palavras empregadas nas notícias produzidas e disponibi- lizadas pela empresa;
(ii) Determinar os principais confrontos entre as notícias e conseqüentemente as pa- lavras-chave que compõem esses agrupamentos;
(iii) Separar as notícias em grupos, indicando os termos (palavras) mais importantes;
(iv) Identificar os principais conteúdos, com base na análise dos grupos de notícias e, quando possível, confrontá-los com fatos ocorridos no período estudado.
(v) Elaborar estatísticas das notícias por tempo, tipo, assunto e quantidade.
Critérios de Sucesso
(i) Quantificar as notícias por tipo, tempo e principais assuntos.
(ii) Extrair os conceitos produzidos e veiculados pela empresa, tendo como base a análise dos grupos de notícias;
(iii) Determinar a quantidade de matérias que trata sobre atos e fatos da administração pública federal.
Capítulo V – Compreensão do Negócio e Pré-Processamento 68
(iv) Estudar o conteúdo produzido e veiculado pela empresa, certificando que a RADIOBRÁS está cumprindo o papel estipulado pela presidência da república.
5.1.4 - Plano do Projeto
Na Figura 5.1, observa-se o plano do projeto seguido. Nele apresentaram-se as principais tarefas executadas, bem como o tempo estimado cada uma. Como forma de mensu- ração e controle, determinaram-se, no plano, os responsáveis pelas etapas que foram ordenadas de acordo com suas dependências.
As entradas e as saídas de cada fase, assim como as repetições e/ou os saltos de etapas especificadas na metodologia CRISP-DM, foram detalhadas conforme o curso do proje- to.
A análise geral do plano do projeto, bem como suas revisões, foram especifica- das na etapa de desenvolvimento - etapa VI do CRISP-DM.
Atividades Mês 1 Mês 2 Mês 3 Mês 4 Mês 5 Mês 6 Mês 7 Recursos
I - ENTENDIMENTO DO NEGÓCIO
1.1 - Definição de metas e recursos Rdb/Gp
1.2 - Migração dos Dados Ed/St
II – ENTENDIMENTO DOS DADOS Mc/Ed/Gp
III - PREPARAÇÃO DOS DADOS Mc/Ed
3.1 – Limpeza Mc/Ed
3.2 – Engenharia Mc/Ed
3.3 – Formatação Mc/Ed
IV – MODELAGEM
4.1 - Avaliação da técnica e ferramenta mineração de texto Mc
4.1.1 - Escolha do algoritmo Mc/Gp
4.1.2 - Definição do nível de similaridade Mc/Gp
4.1.3 - Extração dos grupos Mc/Gp
4.1.4 - Análise dos grupos Gp/Em
4.1.5 - Estatística da amostra (quantidade) Mc/Gp
4.2 - Execução da ferramenta de mineração de texto Mc
1.4.1 - Extração dos grupos Mc/Gp
1.4.2 - Análise dos grupos Gp/Em
1.4.3 - Estatística da amostra (quantidade) Mc/Gp
V – AVALIAÇÃO Gp/Em
VI – APLICAÇÃO Rdb
Legenda:
Ed Especialista de dados Mc Minerador do conhecimento En Especialista de negócio Rdb Responsável na empresa RADIOBRÁS Gp Gerentes do projeto St Suporte técnico
O projeto é focalizado em mineração de texto como técnica principal de desco- berta de conhecimento. Para execução dessa “mineração”, foi necessário o uso de ferramentas específicas que facilitaram a extração do conhecimento em dados na forma textual.
No mercado, há diversas ferramentas de mineração em texto (Nuggets, 2001). Uma ferramenta para mineração de texto é apresentada por Wives (1999) como parte de sua dissertação de mestrado. Sua interface pode ser vista na Figura 5.2.
Avaliação inicial das técnicas e ferramentas
A ferramenta Eurekha®, desenvolvida por Wives (1999), baseada nas análises e nas comparações de algoritmos de clustering, é apresentada como um protótipo de mineração de texto. Essa ferramenta agrega várias opções e parâmetros que podem ser definidos pelo u- suário, proporcionando-lhe, a obtenção de conhecimento (padrões, relacionamentos) com base em textos de forma interativa.
O uso dessa ferramenta é justificado por diversos fatores, tais como: (i) é um protótipo baseado na plataforma windows 9*; (ii) seu intuito inicial é acadêmico; (iii) é um
software inicialmente concebido como freeware; (iv) permite usar, sem limitação, conjunto de
texto em ASCII; (v) faz parte de um estudo continuado, visando a sugestões de melhorias nela ou nos procedimentos que advierem com seu uso.
Capítulo V – Compreensão do Negócio e Pré-Processamento 70
Figura 5.2 - Interface do Eurekha.
Essa ferramenta é considerada um protótipo para agrupamento de informações (objetos) textuais. Apresenta várias opções e parâmetros que podem ser definidos pelo usuário, além de apresentar diversas formas de análise dos resultados. Todavia, por ser um protótipo, tem algumas limitações que devem ser tratadas em algum trabalho futuro.
Eurekha foi desenvolvido com características de orientação a objetos. Dispõe de vários recursos, como disponibilização de escolha entre quatro diferentes algoritmos de agru- pamento: (i) best-star; (ii) cliques; (iii) full-star; (iv) stars. A ferramenta permite ainda: (i) de- finição e manipulação de stopwords; (ii) definição e manipulação de coleções de documentos,
(iii) definição dos atributos para o processo de agrupamento (cálculo de similaridades e gera-
ção de matriz de similaridades); (iv) visualização em forma gráfica dos clusters encontrados;
5.2 - Entendimento dos Dados
Essa etapa visou a identificar informações que pudessem ser relevantes para o estudo e uma primeira familiarização com seu conteúdo, descrição, qualidade e utilidade. A coleção inicial dos dados objetivou obter informação com a qual se trabalhou, listando suas fontes, o procedimento de leitura e os problemas detectados. Descreveu-se ainda a forma como os dados foram coletados, relacionando seu formato, volume, significado e toda a informação relevante. Aqui foram feitas as primeiras descobertas.
5.2.1 - Relatório Inicial da Coleção
Os dados, para viabilização do projeto, foram importados de uma base textual indexada em COBOL, armazenada no sistema de grande porte HP 8200. Os arquivos adquiri- dos estavam no servidor de “extração do conhecimento”, denominada como estação de traba- lho em formato ASC II puro e sem formatação.
Cada arquivo-texto correspondeu a uma matéria (notícia) na proporção de um texto para cada registro. Não foram importados arquivos defeituosos, arquivos de controle do sistema ou arquivos não constantes do acervo de notícias escritas em português.
Na Tabela 5.1, é apresentado um resumo e problemas ocorridos na importação dos dados (textos), bem como sua localização. Por ser a única fonte de dados, não foi conside- rada a necessidade de verificar possíveis ambigüidades de informações ou ainda a falta de re- gistros devido à mesclagem de dados.
Capítulo V – Compreensão do Negócio e Pré-Processamento 72
Tabela 5.1 - Resumo da importação dos dados.
Fonte Localização atual Problemas identificados
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/01 Quantidade de arquivos menor que o esperado para o mês de produção.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/02 Quantidade de arquivos menor que o esperado para o mês de produção.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/03 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/04 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/05 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/06 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/07 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/08 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/09 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/10 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/11 Sem problemas identificados.
COBOL/HP8200 RDBNM$ACERVO d:/sisnot/2001/12 Sem problemas identificados.
Os problemas identificados na importação dos dados foram repassados para o suporte técnico e para o especialista de dados. Pelas conclusões obtidas, verificou-se que o problema encontrava-se na fonte de dados que não apresentava mais os arquivos nos formatos e locais originais. Concluiu-se que a importação não interferiu no processo e que a situação dos arquivos na estação de trabalho espelhou as informações da fonte de dados.
Uma segunda fonte de dados dessas notícias estava disponível em formato ele- trônico na Internet (servidor Web da empresa), os dados passaram por uma transformação de txt para HTML. Como forma de manter segurança e a performance de acesso, os dados ficam armazenados nessa forma por tempo indefinido.
Observou-se, porém, a necessidade de elaborar processos adicionais para análise desses dados, tais como: limpeza de formatações, limpeza de conteúdos e tags adicionadas ao