• Nenhum resultado encontrado

COEFICIENTE DE VARIAÇÃO

8.1 LIMITES E POSSIBILIDADES DO PROTOCOLO DE MÉTODOS KDD

Embora as possibilidades sejam muitas, podem-se encontrar aplicações do KDD nas áreas de finanças e detecção de fraudes; saúde; marketing e vendas; jogos e esportes; recursos humanos; serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet; ciências; governo e muitas outras.

No âmbito da construção da mensuração do Desenvolvimento Social, a literatura traz poucas referências ao emprego do KDD. O processo basicamente tem sido empregado no setor governamental de arrecadação de impostos, visando aumentar a receita e detectar fraudes do tipo transferências de fundos para “lavagem” de dinheiro e sonegação de impostos, como no caso clássico da Angoss Software Corporation em que o governo dos Estados Unidos utilizou a ferramenta Knowledge Seeker em um sistema detector de fraudes fiscais.

Nesta pesquisa, diversas possibilidades do KDD foram identificadas:

i) O KDD mostra que é possível realizar estudos com múltiplas fontes de informação. Diante da complexidade do fenômeno desenvolvimento social e da situação atual das estatísticas oficiais e registros administrativos disponíveis, nenhuma fonte isolada seria suficiente;

ii) Diferentemente dos métodos empregados nos principais Sistemas e Índices de Desenvolvimento Social estudados nesta tese, o KDD permite identificar com clareza as fontes de informação que estão sendo usadas e quais seus pontos fortes e fracos. É importante destacar que omissões como essas, observadas em alguns índices estudados nesta pesquisa, só contribuem para minar a credibilidade e a possibilidade de reprodução do trabalho de mensuração;

iii) Como foi visto, grande parte dos Índices de Desenvolvimento Social estudados recorre a artifícios matemáticos para apresentar uma exatidão da medida maior do que realmente as escalas utilizadas para coletar os dados. Dentre os Índices e Sistemas de Indicadores analisados, em muitos casos, viu- se uma escala ordinal (menor exatidão) transformada equivocadamente numa escala de nível intervalar (maior exatidão). O KDD permite que sejam observadas as medidas apropriadas para cada tipo de escala de medida empregada nas variáveis disponíveis, permitindo atender aos pressupostos dos

algoritmos empregados e, consequentemente, uma maior aproximação do fenômeno;

iv) O aumento da clareza dos procedimentos proporcionados pelo KDD permite melhorar a mensuração em todos os níveis de qualidade da informação. A abordagem multidimensional do KDD permite captar a complexidade dos construtos e dos conceitos de uma maneira mais adequada que a das medidas existentes;

v) Finalmente, a mensuração deve ser completada pela etapa de disseminação dos resultados para análise ou avaliação política, seja pelo governo, sociedade civil ou entidades do terceiro setor.

Diante da ubiqüidade do KDD, é mais difícil identificar setores que não permitem sua aplicação do que aqueles que dela podem beneficiar-se, entretanto existem algumas barreiras que podem inviabilizar seu uso. Entre as principais, podem ser destacadas: necessidade de elevado conhecimento sobre o domínio a ser estudado; necessidade de grandes volumes de dados armazenados em poderosos servidores; e a complexidade das ferramentas de Data Mining (DM), além do desafio de preparar os dados para mineração. Dificilmente será possível encontrar uma base de dados já filtrada, limpa, integrada com dicionário de dados e elaborada com tamanho rigor técnico-científico necessários ao processo KDD; por fim e não menos importante, a dificuldade de se obter uma análise custo/benefício bem fundamentada do projeto de implantação do KDD , assim como do DM.

Também foram identificadas algumas limites do KDD:

Embora o estudo desenvolvido nesta tese tenha enfocado em todos foi de 168.370.893 habitantes, distribuídos nos 44.795.101 domicílios particulares permanentes existentes nos 5.561 municípios brasileiros, a jazida de dados “minerada” foi relativamente pequena e desatualizada (embora a mais recente disponível), contemplando apenas 15 indicadores de desenvolvimento social de 5.483 municípios. Apesar de ter sido feita a opção por “minerar” os dados do IBGE e do Ministério da Saúde e não por “minerar” um Data

Warehouse tradicional, foi possível delimitar uma base de dados pública (jazida de dados) de

porte e relevância e cumprir as principais etapas do KDD propostas pelos principais autores da área.

As tarefas de modelização e de elaboração de instrumentos de mensuração envolvem conhecimento para reconhecer e identificar a informação, assim sendo, a participação de equipes multidisciplinares é fundamental para o sucesso do processo. Além disso, o apoio computacional foi imprescindível devido à complexidade dos algoritmos e do volume de dados trabalhado. O uso de pacotes computacionais adequados a cada necessidade torna-se uma questão crucial.

Ficou evidenciado, durante a pesquisa, que as principais dificuldades na elaboração de instrumentos de mensuração de fenômenos sociais estão atreladas à definição de um modelo hipotético adequado e à seleção dos respectivos indicadores disponíveis em bases de dados públicas para caracterizar o fenômeno a ser estudado. Tanto a etapa de Prospecção, como a etapa de Mineração de Dados (mais complexa), demonstraram necessitar de conhecimento profundo da teoria e dos conceitos disponíveis como da técnica escolhida para mineração dos dados. Nesta tese, caracterizou-se a etapa de Prospecção como sendo de responsabilidade de um chamado “especialista de domínio” e a etapa de Mineração fico sob o encargo do aqui chamado “especialista em dados”.

A “jazida de dados” construída para esta pesquisa contemplou apenas os dados do Instituto Brasileiro de Geografia e Estatística e Ministério da Saúde de todos os 5.561 municípios brasileiros. Entretanto, esta “jazida”, poderia ter sido enriquecida com outras bases de dados públicas caso a escala de estudo fosse menor, estadual ou nacional, por exemplo. Este procedimento favoreceria a análise de outras dimensões do desenvolvimento social estudado.