• Nenhum resultado encontrado

A fase de coleta de dados ´e uma das mais trabalhosas de todo o processo de KDD. Essa fase freq¨uentemente envolve extrair dados de sistemas computacionais legados, ou seja, de sistemas antigos nos quais inexiste documenta¸c˜ao a respeito do projeto e da arquitetura do sistema. Dessa forma, por mais que o usu´ario e o especialista no dom´ınio saibam que uma determinada informa¸c˜ao est´a registrada nos sistemas da empresa, pode-se n˜ao saber exatamente onde e de qual forma essa informa¸c˜ao foi armazenada.

Os desafios encontrados em coletar os dados podem ser diminu´ıdos se a institui¸c˜ao em quest˜ao possuir um Data Warehouse. Data Warehouse ´e um reposit´orio de dados ge- ralmente constru´ıdo para dar suporte `as pessoas que tomam decis˜oes, tais como gerentes e diretores. Essa tecnologia tem sido largamente utilizada, uma vez que os bancos de dados transacionais n˜ao s˜ao considerados adequados para fornecer respostas para an´ali- ses estrat´egicas. Os bancos de dados transacionais, sobretudo os de projeto mais antigo, freq¨uentemente apresentam diversos problemas, tais como, problemas de falta de docu- menta¸c˜ao de projeto, problemas com inconsistˆencias e integridade de dados, entre outros. O Data Warehouse ´e periodicamente atualizado com dados de sistemas transacionais e/ou de fontes externas. Dados extra´ıdos de diferentes bancos de dados s˜ao integrados e sua consistˆencia ´e verificada, na medida do poss´ıvel, antes de serem carregados no Data Wa- rehouse. Dessa forma, o Data Warehouse pode ser uma boa fonte de dados para um projeto de KDD.

Independentemente se a institui¸c˜ao possui um Data Warehouse ou n˜ao, a fase de coleta de dados pode ser considerada uma das mais trabalhosas. Alguns desafios que podem ser encontrados nessa fase s˜ao (Pyle, 1999):

Problemas legais e ´eticos

Podem existir barreiras legais ou ´eticas que impe¸cam que dados sejam disponibili- zados para an´alise. Por exemplo, institui¸c˜oes financeiras possuem barreiras legais que, sob algumas circunstˆancias, impedem que dados referentes a movimenta¸c˜oes fi- nanceiras de clientes sejam disponibilizados. Ainda, podem existir raz˜oes ´eticas que restrinjam o acesso aos dados como ocorre, por exemplo, com dados que identifiquem pacientes na ´area m´edica e clientes na ´area legal;

Motivos estrat´egicos

Podem haver motivos estrat´egicos que impe¸cam o acesso `a parte dos dados ou at´e mesmo a algumas estat´ısticas sobre os dados. Por exemplo, Chan & Stolfo(1998b)

Seção 3.3: Coleta de Dados 39

descrevem uma an´alise para identifica¸c˜ao de opera¸c˜oes fraudulentas em cart˜oes de cr´edito na qual a distribui¸c˜ao das classes foi alterada. A propor¸c˜ao de opera¸c˜oes fraudulentas e n˜ao fraudulentas ´e uma informa¸c˜ao estrat´egica mantida em absoluto segredo pelas companhias de cart˜ao de cr´edito;

Raz˜oes pol´ıticas

Alguns dados podem pertencer a pessoas ou departamentos que pelos mais diversos motivos n˜ao ap´oiam a iniciativa de analisar esses dados. Essas pessoas podem impor restri¸c˜oes de acesso aos dados, atrasando ou inviabilizando a an´alise;

Formato dos dados

Por d´ecadas, dados tˆem sido gerados e armazenados em diferentes formatos. At´e mesmo computadores modernos utilizam in´umeros formatos para a codifica¸c˜ao de dados. Por exemplo, existem diversos formatos para m´ıdias (disquetes e fitas de dife- rentes tipos, CDROM, entre outros), e para codifica¸c˜ao de dados (ASCII, EBCDIC, etc.) que podem complicar a coleta de dados de fontes distribu´ıdas;

Conectividade

Para que os dados sejam analisados ´e necess´ario que eles estejam dispon´ıveis on-line e conectados ao sistema que ser´a utilizado nas an´alises. Tal conex˜ao pode ser feita de diversas formas, como por exemplo, rede de computadores, fitas, discos, etc. En- tretanto, sistemas antigos (legados) e propriet´arios podem dificultar a conectividade aos dados, uma vez que esses sistemas podem utilizar tecnologias obsoletas para a troca de informa¸c˜oes, as quais n˜ao est˜ao dispon´ıveis nos novos sistemas computaci- onais;

Bancos de Dados e Aplica¸c˜oes Obsoletas

Como mencionado anteriormente, v´arios sistemas transacionais que atualmente ope- ram em empresas foram projetados e desenvolvidos h´a v´arios anos. Nessa ´epoca, muitos dos m´etodos e t´ecnicas de Engenharia de Software ainda n˜ao haviam sido de- senvolvidos. Como resultado, existe pouca documenta¸c˜ao sobre como esses sistemas foram projetados, e esse fato dificulta ou impede que certos dados sejam localiza- dos e extra´ıdos de sistemas transacionais antigos. Al´em disso, algumas aplica¸c˜oes e sistemas gerenciadores de banco de dados podem n˜ao ter um tipo de dado equi- valente em outros sistemas, e unificar a representa¸c˜ao dos dados pode se tornar um problema complicado.

Granularidade

Um outro problema importante refere-se a granularidade dos dados. Granularidade ´e o n´ıvel de detalhe em que os dados s˜ao armazenados. Os sistemas transacionais

normalmente armazenam os dados com todo o detalhe poss´ıvel (tamb´em chamados de registros de transa¸c˜ao), para que esses sistemas possam realizar as suas tarefas. Entretanto, os Data Warehouses dificilmente armazenam os dados de forma deta- lhada, por motivos de desempenho. ´E comum que no processo de carga de um Data Warehouse os dados sejam totalizados antes de serem armazenados. Por exemplo, os dados de venda de produtos podem ser totalizados, e somente o total de vendas no dia, de um determinado produto, seja armazenado. Esse fato faz com que os Data Warehouses sejam capazes de armazenar, e serem consultados, sobre dados referentes a v´arios anos de movimento. A decis˜ao da granularidade em que os da- dos s˜ao armazenados ´e de extrema importˆancia, pois dados armazenados de forma sumarizada n˜ao podem ser transformados em dados detalhados novamente. Se por um lado as agrega¸c˜oes podem tornar um Data Warehouse mais ´agil e compacto, por outro lado, certas agrega¸c˜oes podem esconder detalhes dos dados que poderiam ser importantes em uma an´alise de MD.