&21+(&,0(172('$7(&12/2*,$'$,1)250$d2
6XSRUWHj'HFLVmRSDUD9LJLOkQFLD
(SLGHPLROyJLFDEDVHDGRHP0RGHOR3UHGLWLYR
GH6XUWRVGH'HQJXHXWLOL]DQGR5HGHV1HXUDLV
$UWLILFLDLV
Giovanni Gondim de Castro
6XSRUWHj'HFLVmRSDUD9LJLOkQFLD
(SLGHPLROyJLFDEDVHDGRHP0RGHOR3UHGLWLYR
GH6XUWRVGH'HQJXHXWLOL]DQGR5HGHV1HXUDLV
$UWLILFLDLV
Dissertação apresentada ao Programa de Pós-Graduação 6WULFWR6HQVX em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, como requisito parcial para obtenção do grau de Mestre em gestão do conhecimento e da tecnologia da informação.
Orientador: PROF. DR. ROGÉRIO ALVARENGA
Co-orientador: PROF. DR. HÉRCULES ANTÔNIO DO PRADO
Aos dois Anjos (,QPHPRULDP)que, passando pela minha vida, iluminaram-na com a sua presença e deixaram saudades profundas.
Ao Senhor Deus pela saúde, força, iluminação e imensa proteção, sem o qual nada é possível. Por me ter colocado em contato com pessoas fantásticas e por me agraciar com a oportunidade de participar de algo tão belo, e que por vezes esquecemos tão facilmente o quão maravilhoso é encontrar amigos em um ambiente de conhecimento.
À minha família pela paciência e compreensão, nas horas em que tive que me afastar em função dos trabalhos desta dissertação. E, em especial, aos meus pais, que sempre apoiaram, incentivaram e souberam passar aos filhos, valores de honestidade, paciência, perseverança e fé. Ao meu irmão Rogério e à minha namorada Lenita Meireles, agradeço profundamente pelo carinho.
Aos orientadores Rogério Alvarenga e Hércules Antônio do Prado, o meu agradecimento pelo incentivo e apoio, sem os quais a realização desta dissertação não teria sido possível.
À Gleycione Gundim Dutra, o meu muito obrigado pelo carinho e amizade gastos com um hóspede que esteve presente, diversas vezes, em sua residência.
À ‘Família Politec’ que, através de seus funcionários Hiraclis Nicolaidis Júnior, Nelson de Sousa e Silva Neto, Román Dario Cuattrin e Ricardo Ajax Dias Kosloski, me cativou, na cidade de Brasília.
Às amigas e funcionárias da Universidade Católica de Brasília, Janina Silva e Georgiane Pessoa Alcoforado Jordão, por todo apoio e incentivo.
A todos os colegas da COMDATA e da Secretaria Municipal de Saúde, que me auxiliaram, após a digitação de todas as tabelas, na conferência e validação dos dados.
Meus agradecimentos especiais ao Sr. Dr. Alaor Moacyr Dall'Antonia Júnior, pela autorização de doação dos parâmetros climáticos necessários, e aos meteorologistas do 10º DISME, pelo auxílio na adaptação da escala anemométrica de %HDXIRUW para esta dissertação.
I CLOSE MY EYES Eu fecho os meus olhos
ONLY FOR A MOMENT AND THE MOMENT’S GONE Somente por um momento e esse momento se vai
ALL MY DREAMS Todos meus sonhos
PASS BEFORE MY EYES IN CURIOSITY Passam diante dos meus olhos por curiosidade
DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento
SAME OLD SONG A mesma velha canção
JUST A DROP OF WATER IN A ENDLESS SEA Apenas uma gota d’água em um mar sem fim
ALL WE DO Todos nós
CRUMBLES TO THE GROUND AND WE REFUSE TO SEE Esfarelamos no chão embora recusemos a ver
DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento
DON´T HANG ON Não se perca
NOTHING LAST FOREVER BUT THE EARTH AND SKY Nada dura para sempre exceto o céu e a terra
IT SLIPS AWAY Ela se vai
AND ALL YOUR MONEY WON´T ANOTHER MINUTE BY E todo seu dinheiro não comprará outro minuto
DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento
DUST IN THE WIND Poeira ao vento
EVERYTHING IS DUST IN THE WIND Tudo é poeira ao vento
I
A Gestão da Vigilância Epidemiológica, para Dengue, pode ser realizada, através da inclusão de modelos preditivos que auxiliem ao gestor da área de saúde, na tomada de decisão, para o combate a epidemias (surtos). Com esse suporte, o tomador de decisões pode ter o apoio técnico necessário para designar seus limitados recursos humanos e financeiros, ao tratamento dos pacientes e ao combate ao vetor urbano brasileiro ($HGHV DHJ\SWL) dessas doenças. Existem modelos relatados que alcançaram algum sucesso na predição, em áreas como a financeira e a epidemiológica. Nesta dissertação, utilizou-se Descoberta de Conhecimentos em Base de Dados com Mineração de Dados, para realizar um estudo de caso, na construção de um modelo de predição, baseado em séries temporais, para a cidade de Goiânia-Go, e para comparar os resultados obtidos nesse modelo, com os do Diagrama de Controle, que é a técnica atual utilizada no Brasil.
Foram utilizados os dados do Sistema de Informações de Agravos de Notificação (casos confirmados) e a média dos parâmetros climáticos (definida D SULRULde duas semanas), coletados pelo 10º Distrito de Meteorologia daquela cidade, no período de 01/01/2001 a 30/04/2004, por semana epidemiológica.
O uso das séries temporais se deve à possibilidade de previsões de novos estados, a partir da análise dos valores passados. Consistem em medidas ou observações, obtidas a partir de um fenômeno, e que são realizadas seqüencialmente, sob um intervalo de tempo.
As séries produzidas foram representadas na forma de redes neurais artificiais, tipo MLP – 0XOWL/D\HU 3HUFHSWURQ, com algoritmo de aprendizado de retropropagação (EDFNSURSDJDWLRQ) e, nele, aplicada a técnica de janelamento. O modelo obtido possibilita a detecção prévia do início do surto, com margem de confiança satisfatória. Evidenciou-se a sazonalidade da série histórica de Dengue para o período, com valores, também, satisfatórios, que possibilitam e credenciam a aplicabilidade do modelo, na predição de surtos de Dengue, para a cidade de Goiânia-Go.
II
$
%675$&7
The management of epidemiological surveillance for Dengue or Yellow Fever can be performed by incorporating predictive models to help the health policy makers to take decisions concerning the control of epidemics (outbreaks). With this tool he may have the necessary technical support to allocate his limited human and financial resources to the patients care and/or the control of the Brazilian urban vector ($HGHV DHJ\SWL) for these diseases. Models have been reported reaching some success in predicting financial and epidemiological fields. In our thesis we have used Knowledge Database Discovery, with datamining, using temporal series, in order to build up a predictive model for the city of Goiania - Goias in central Brazil to compare results obtained by the Control Diagram that is the standard technique applied in epidemiological studies in Brazil.
We used data from Sistema de Informações de Agravos de Notificação (confirmed cases) and the mean of climatic parameters (defined a priori in two weeks) colleted by 10º Distrito de Meteorologia of this city, from the period of 01/01/2001 to 30/04/2004, by epidemiological week. All confirmed cases refer to Dengue since there was no report of Yellow Fever during the study period.
The use of temporal series aims to predict new values taking into account the analyses of previous values. The temporal series are measures or observations obtained from phenomena and which are sequentially produced in a time interval. The temporal series were represented in artificial neural networks format such as MLP – MultiLayer Perceptron as a EDFNSURSDJDWLRQ learning algorithmic using the windowing technique. The model obtained made possible an early warning of outbreak with reliable confidence limit. There was evidence of the seasonality of the Dengue temporal series, for the period, with satisfactory values that made possible to recommend this predictive model for Dengue outbreaks in municipality of Goiania-Goias.
.H\:RUGV Datamining; prediction; forecasting; series; windowing; dengue; artificial neural network
III
5(6802 ,
$%675$&7 ,,
/,67$'(),*85$69
/,67$'(48$'5269,,
/,67$'(48$'5269,,
/,67$'(7$%(/$6 9,,,
/,67$'(*5È),&26 ,;
/,67$'(6,*/$6;
/,67$'($%5(9,$d®(6;,,
,1752'8d2
1.1 EXPOSIÇÃO DO ASSUNTO...5
1.2 INTRODUÇÃO AO PROBLEMA...5
1.3 DEFINIÇÃO DA PESQUISA...7
1.4 DELIMITAÇÃO DA PESQUISA...7
1.5 JUSTIFICATIVA DA PESQUISA...8
1.6 REFERENCIAL TEÓRICO...8
1.7 OBJETIVOS...9
*HUDO (VSHFtILFRV 1.8 HIPÓTESE...10
+LSyWHVHSULQFLSDO +LSyWHVHVVHFXQGiULDV 1.9 ORGANIZAÇÃO DO DOCUMENTO...11
5(9,62'(/,7(5$785$ 2.1 DADOS, INFORMAÇÃO E CONHECIMENTO...12
2.2 GESTÃO DO CONHECIMENTO E TECNOLOGIA DA INFORMAÇÃO...14
2.3 SISTEMAS DE SUPORTE À DECISÃO...16
$X[tOLRjGHFLVmRFRPSXWDFLRQDO 2.4 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS...17
,QWURGXomR ÈUHDVGH$SOLFDomR 2.5 MINERAÇÃO DE DADOS...20
7pFQLFDVSUHGLWLYDVGD0' 3UREOHPDVGHVDILRVYDQWDJHQViUHDVGHDSOLFDomRHWpFQLFDVGD0' 2.6 CRISP-DM PARA MINERAÇÃO DOS DADOS...29
2.7 REDES NEURAIS ARTIFICIAIS...31
,QWURGXomR &DUDFWHUtVWLFDVHDUTXLWHWXUDVGDV51$V 5HGHV0XOWL/D\HU3HUFHSWURQ 2.8 GESTÃO DO CONHECIMENTO SOBRE OS EFEITOS DO CLIMA NA SAÚDE HUMANA...40
2.9 O MODELO DE NOTIFICAÇÃO BRASILEIRO...43
'LDJUDPDVGHFRQWUROH 2.10 DENGUE E SEU VETOR...45
'HQJXH 2.11 INQUÉRITOS SOROLÓGICOS...50
IV 0RGHOR$OHPmRGH6D~GH 2XWURVPRGHORVGHSUHGLomRHWUDEDOKRVHQFRQWUDGRV 7UDEDOKRVHQFRQWUDGRVUHODWLYRVDR%UDVLO 2XWUDVSXEOLFDo}HVUHIHUHQWHVD'HQJXH (VWXGRVHSLGHPLROyJLFRVHP*RLkQLD 0(72'2/2*,$
3.1 CARACTERIZAÇÃO DA PESQUISA...62
&ODVVLILFDomRGD3HVTXLVD
8QLYHUVRGD3HVTXLVD
3.2 MATERIAL E MÉTODOS...63
$ERUGDJHP$GRWDGD
'HVFULomRGRPpWRGR&5,63'0
&ROHWDGH'DGRV
5HSUHVHQWDomRGDDQiOLVHGRVGDGRV $QiOLVHGRVJUiILFRVHUHVXOWDGRVHQFRQWUDGRVQDSUHGLomR 3.3 MODELO PROPOSTO...66
3.4 ENTENDIMENTO DO NEGÓCIO...68
2EMHWLYRV
$YDOLDomRGRVUHFXUVRVDWXDLV 2EMHWLYRVDVHUHPDOFDQoDGRVSHODPLQHUDomRGHGDGRV 3.5 ENTENDIMENTO DOS DADOS...72
'DGRV,QLFLDLV
'HVFULomRGRVGDGRV
([SORUDomRGRVGDGRV
4XDOLGDGHGRVGDGRV
$VSHFWRVGD*&QRHQWHQGLPHQWRGRVGDGRV 3.6 PREPARAÇÃO DOS DADOS...101
3.7 MODELAGEM...102
3.8 APRESENTAÇÃO DOS RESULTADOS...116
$1È/,6('265(68/7$'26
&21&/86®(6(68*(67®(63$5$75$%$/+26)878526
5.1 CONSIDERAÇÕES FINAIS...121
5.2 DESTAQUES E CONTRIBUIÇÃO DA PESQUISA...121
5.3 SUGESTÕES PARA NOVOS TRABALHOS DE PESQUISA...123
5()(5Ç1&,$6%,%/,2*5È),&$6
*/266È5,2',&,21È5,2'(7(5026 $1(;2$62/,&,7$d2'('2$d2'('$'26$26(&5(7È5,2081,&,3$/'(6$Ò'('(
*2,Æ1,$*2
$1(;2%62/,&,7$d2'('2$d2'('$'26$2',5(72535(6,'(17('$&20'$7$
$1(;2&62/,&,7$d2'('2$d2'('$'26&/,0È7,&26$20,1,67e5,2'$
V
FIGURA 1 -PROCESSO DE CONSTRUÇÃO DE UMA BASE DE REGRAS DE UMA REGIÃO ADAPTADA DE
AGRAWAL E PSAILA (1995, PP.1-2, COM ALTERAÇÕES)...27
FIGURA 2 -REPRESENTAÇÃO DOS QUATRO NÍVEIS DA METODOLOGIA CRISP-DM(SPSS,2000,
P.09, TRADUÇÃO NOSSA)...30
FIGURA 3 -REPRESENTAÇÃO DO NÍVEL FASES DA CRISP-DM(SPSS,2000, P.13, TRADUÇÃO
NOSSA)...31
FIGURA 4 -COMPONENTES DO NEURÔNIO BIOLÓGICO (BRAGA; LUDERMIR; CARVALHO,
2000, P.06)...31
FIGURA 5 -COMPONENTES DO NEURÔNIO DE MCCULLOCH E PITTS (BRAGA; LUDERMIR;
CARVALHO,2000, P.09)...32
FIGURA 6 -ARQUITETURAS DE REDES NEURAIS ARTIFICIAIS –RETIRADA DE HAYKIN (2001,
PP.47-49) ...35
FIGURA 7 -FLUXO DE PROCESSAMENTO DO ALGORITMO %$&.3523$*$7,21...37
FIGURA 8 PREDIÇÃO DE VOLUME DE VENDAS DURANTE CINCO SEMANAS UTILIZANDO RNA COM
A TÉCNICA DE JANELAMENTO (BRAGA; LUDERMIR; CARVALHO,2000, P.226) ...38
FIGURA 9 - PREDIÇÃO REALIZADA POR ALVARENGA E OLIVEIRA JUNIOR E CARVALHO (2003,
P.19) ...39
FIGURA 10- GRÁFICO DA CURVA DE APRENDIZADO REALIZADA POR OLIVEIRA E ALVARENGA
(2003, P.10) ...40
FIGURA 11- GRÁFICO DA PREDIÇÃO REALIZADA POR OLIVEIRA E ALVARENGA (2003 P.11)...40
FIGURA 12- MUDANÇAS CLIMÁTICAS E SEUS EFEITOS NA SAÚDE HUMANA (OMS,2003D,P.30,
TRADUÇÃO NOSSA,COM ALTERAÇÕES) ...41
FIGURA 13– DIAGRAMA DE CONTROLE E CASOS NOTIFICADOS DE DENGUE POR SEMANA
EPIDEMIOLÓGICA, GOIÂNIA – GO, 2001(SIQUEIRA JUNIOR,2001, P.23)...45
FIGURA 14- ASPECTO DE UM $('(6$(*<37,(MUNSTERMANN,1995) ...46
FIGURA 15 ASPECTO DE UM $('(6$/%23,&786 (CRUZ,2004) ...46
FIGURA 16- TIPOS DE TRANSMISSÃO INDIRETA RECONHECIDA PARA DENGUE (OMS,2003D,
P.16, TRADUÇÃO NOSSA,COM ALTERAÇÕES)...47
FIGURA 17– PAÍSES COM PRESENÇA DE DENGUE EM 2003(OMS,2004C,P.74)...48
FIGURA 18- SOROTIPOS CIRCULANTES DO VÍRUS DA DENGUE POR ESTADOS, BRASIL, 2004(SVS,
2005,P.02)...49
FIGURA 19- FORMATO DE ENVIO DE DADOS DOS HOSPITAIS AO DEPARTAMENTO DE SAÚDE
PÚBLICA ALEMÃO (SCHUMANN; LÓPEZ; GRAW ,1998)...54
FIGURA 20- FORMATO DE ENVIO DE DADOS DOS HOSPITAIS AO DEPARTAMENTO DE SAÚDE
PÚBLICA ALEMÃO (SCHUMANN; LÓPEZ; GRAW,1998)...54
FIGURA 21- ÓBITOS OBSERVADOS E ESTIMADOS POR REGRESSÃO BINOMIAL NEGATIVA E REDE
NEURAL - CEARÁ, JULHO DE 1991 A DEZEMBRO DE 1995(PENNA,2004, P.355) ...56
FIGURA 22- CASOS RELATADOS DE DENGUE NO BRASIL NOS ANOS DE 1986 A 2003(SIQUEIRA
JÚNIOR,2005, P.49)...57
FIGURA 23- NÚMERO DE CASOS RELATADOS DE AGRAVO,ÓBITOS,HOSPITALIZAÇÕES E ANO DA
TIPIFICAÇÃO DOS CASOS DE DENGUE NO BRASIL (SIQUEIRA JÚNIOR,2005, P.50)...58
FIGURA 24-PREVALÊNCIA DE DENGUE EM GOIÂNIA, 2001(SIQUEIRAJÚNIOR(7$/, 2004) 61
FIGURA 25- DADOS PRELIMINARES DOS CASOS NOTIFICADOS DE DENGUE POR SEMANA
EPIDEMIOLÓGICA SEGUNDO REGIÃO, BRASIL, 2004(SVS,2005) P.01...66
FIGURA 26- DADOS PRELIMINARES DOS CASOS NOTIFICADOS DE DENGUE POR SEMANA
EPIDEMIOLÓGICA DA REGIÃO CENTRO-OESTE, BRASIL, 2003-2004(SVS,2005) P.5 ...67
VI
FIGURA 29– PERCENTUAL ANUAL DE REGISTROS DE DENGUE,APÓS SELEÇÃO, SINAN,
GOIÂNIA, JAN/2001 A ABR/2004 ...80
FIGURA 30- TIPOS E PERCENTUAL DE DENGUE, GOIÂNIA, 2001 A2004 ...80
FIGURA 31– PERCENTUAL DO TOTAL DAS RESPOSTAS NO CAMPO DENGUE DO SINAN, GOIÂNIA, 2001-2004 ...81
FIGURA 32- PERCENTUAL DO TOTAL DAS RESPOSTAS NO CAMPO VACINADO,SINAN, GOIÂNIA, 2001-2004 ...82
FIGURA 33- PERCENTUAL POR GÊNERO EM GOIÂNIA, IBGE,2000(A);PERCENTUAL POR GÊNERO NA ANÁLISE DO SINAN,GOIÂNIA, 2001 A 2004 ...83
FIGURA 34– CASOS CONFIRMADOS DE DENGUE VERSUS NÚMERO DE HABITANTES POR BAIRRO, GOIÂNIA, 2001 A 2004...84
FIGURA 35– PERCENTUAL DE FAIXA ETÁRIA POR ANO, SINAN,GOIÂNIA, 2001-2004 ...85
FIGURA 36– PERCENTUAL POR FAIXA ETÁRIA – GOIÂNIA, IBGE,2000(A) E PERCENTUAL DE CASOS CONFIRMADOS DE DENGUE – GOIÂNIA, SINAN,2001 A 2004...86
FIGURA 37– CASOS CONFIRMADOS DE DENGUE POR BAIRROS VERSUS CEMITÉRIOS EXISTENTES, GOIÂNIA, 2001-2004 ...87
FIGURA 38– CASOS CONFIRMADOS DE DENGUE VERSUS PERCENTUAL DE LOTES VAGOS POR BAIRROS, GOIÂNIA, 2001-2004...87
FIGURA 39- CASOS CONFIRMADOS DE DENGUE VERSUS PERCENTUAL DE ÁREA VERDE POR BAIRRO, GOIÂNIA, 2001-2004...88
FIGURA 40-CASOS CONFIRMADOS DE DENGUE VERSUS NÚMERO DE FEIRAS LIVRES SEMANAIS POR BAIRRO, GOIÂNIA, 2001-2004...89
FIGURA 41- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE HOSPITAIS POR BAIRRO, GOIÂNIA, 2001-2004 ...89
FIGURA 42- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE ESCOLAS, GOIÂNIA, 2001-2004 ...90
FIGURA 43- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE PRÉDIOS POR BAIRRO, GOIÂNIA, 2001-2004...91
FIGURA 44– PERCENTUAL DE CASOS CONFIRMADOS POR SEMANA EPIDEMIOLÓGICA, GOIÂNIA, 2001A2003...91
FIGURA 45– SÉRIE TEMPORAL DOS CASOS CONFIRMADOS DE DENGUE, GOIÂNIA, 2001 A 2004 93 FIGURA 46– DIAGRAMA DE CONTROLE DE DENGUE POR SEMANA EPIDEMIOLÓGICA, SMSGO, GOIÂNIA-2004 ...103
FIGURA 47- ARQUITETURA DE REDE UTILIZADA, NO ($6<113/86PARA PREDIÇÃO EPIDEMIOLÓGICA DE DENGUE...106
FIGURA 48– GRÁFICO DA CURVA DE APRENDIZADO – RODADA 1...106
FIGURA 49– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 1 ...107
FIGURA 50–GRÁFICO DA CURVA DE APRENDIZADO – RODADA 2 ...110
FIGURA 51– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 2...111
FIGURA 52– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...112
FIGURA 53– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...113
FIGURA 54– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...115
FIGURA 55– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...116
VII
QUADRO 1 -QUADRO DE TÉCNICAS DE MD DESENVOLVIDO A PARTIR DOS AUTORES FAYYAD E
PIATETSKY-SHAPIRO E SMYTH (1996);TURBAN E RAINER E POTTER (2004, P.159) E
DELMATER E HANCOCK (2001)...22
QUADRO 2 -DICIONÁRIO DE DADOS DA TABELA DO SINAN, REFERENTE A PESQUISAS SOBRE O DENGUE...73
QUADRO 3 -DICIONÁRIO DE DADOS SOBRE OS DADOS DO VETOR...75
QUADRO 4 -DICIONÁRIO DE DADOS DA SEPLAN...75
QUADRO 5 -DICIONÁRIO DE DADOS DA COMDATA ...76
QUADRO 6 -DICIONÁRIO DE DADOS DA TABELA REFERENTE AS SEMANAS EPIDEMIOLÓGICAS....77
QUADRO 7 -DICIONÁRIO DE DADOS DA TABELA REFERENTE AOS DADOS DO 10ºDISME ...77
QUADRO 8-CLASSIFICAÇÃO DOS PERÍODOS ENDÊMICOS E EPIDÊMICOS DE GOIÂNIA ANOS 2001 A 2004 ...98
QUADRO 9 -DICIONÁRIO DE DADOS DA TABELA CLASSIFICADORFINAL...101
QUADRO 10– ANÁLISE DOS CASOS CONFIRMADOS DE DENGUE, GOIÂNIA, 2001 A 2004 ...116
VIII
T 1 -T , ...79
TABELA 2 -ANÁLISE DOS RESULTADOS DA PREVISÃO FEITA ATRAVÉS DO DIAGRAMA DE CONTROLE DA SECRETARIA MUNICIPAL DE SAÚDE DE GOIÂNIA - GOIÁS, 2004...104
TABELA 3 – ANÁLISE DOS RESULTADOS DA PREVISÃO – TÉCNICA 1...106
TABELA 4 – ANÁLISE DOS RESULTADOS DA PREVISÃO - RODADA 2...110
IX
QUADRO DE GRÁFICOS 1 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS
CLIMÁTICAS DE 2001...94
QUADRO DE GRÁFICOS 2 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS
CLIMÁTICAS DE 2002...95
QUADRO DE GRÁFICOS 3 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS
CLIMÁTICAS DE 2003...96
QUADRO DE GRÁFICOS 4 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS
CLIMÁTICAS DE 2004...97
QUADRO DE GRÁFICOS 5 – TREINAMENTO PROPOSTO – RODADA 2 ...109
X 10º DISME 10º Distrito de Meteorologia
AMPLITUDE Amplitude térmica (medida diária, valor em Graus Celsius) CARESS (SLGHPLRORJLFDODQG6WDWLVWLFDO'DWD([SORUDWLRQ6\VWHP CARLOS &DQFHU5HJLVWU\/RZHU6D[RQ\
COMDATA Companhia de Processamento de Dados do Município de Goiânia CRISP-DM &URVV,QGXVWULDO6WDQGDUG3URFHVVIRU'DWD0LQLQJ
CSV &RPPD6HSDUDWHG9DOXH DBF 'DWD%DVH)RUPDW
DCBD Descoberta de Conhecimento em Banco de Dados
DH Dengue Hemorrágico
DSS 'HFLVLRQ6XSSRUW6\VWHP DW 'DWD:DUHKRXVLQJ EI Era da Informação EUA Estados Unidos da América EWS (DUO\:DUQLQJ6\VWHPV
FHD Febre Hemorrágica do Dengue FUNASA Fundação Nacional de Saúde
GC Gestão do Conhecimento
GIS *HRJUDSKLF,QIRUPDWLRQ6\VWHP HBR +DUYDUG%XVLQHVV5HYLHZ IA Inteligência Artificial
INEMET Instituto Nacional de Meteorologia KDD .QRZOHGJH'LVFRYHU\LQGDWDEDVHV MD Mineração de Dados
MGCTI Mestrado em Gestão do Conhecimento e da Tecnologia da Informação MLP 0XOWLOD\HU3HUFHSWURQ ouSHUFHSWURQPXOWLFDPDGDV
OMS Organização Mundial de Saúde
PD Índice pluviométrico ou precipitação (medida diária) PIB Produto Interno Bruto
RNAs Redes Neurais Artificiais
SAMC 6RXWKHUQ$IULFD0DODULD&RQWURO SAP Sistemas de Aviso Prévio
SEPLAN Secretaria Municipal de Planejamento SIG Sistema de Informação Geográfica SIG’S Sistemas de Informações Geográficas
SINAN Sistema de Informações de Agravos de Notificação SIR 6XVFHSWLEOH,QIHFWHG,PPXQH
SMS Secretaria Municipal de Saúde
SMS-GO Secretaria Municipal de Saúde de Goiânia-GO SSD Sistema de Suporte a Decisão
SUS Sistema Único de Saúde
TEMP Temperatura (média diária, valor em Graus Celsius)
TEMPMAX Temperatura máxima (medida diária, valor em Graus Celsius) TEMPMIN Temperatura mínima (medida diária, valor em Graus Celsius)
UBV Ultra Baixo Volume
XI
XII HJ (H[HPSOLJUDWLD), Por exemplo i.e. Isto é
,
1752'8d2
“Se GHVHQYROYLGD H DSOLFDGD FRP VXFHVVR D WHRULD H SUiWLFD GD JHVWmR GR FRQKHFLPHQWR VHWRUQDUi XPDGLVFLSOLQDIXQGDPHQWDO SDUD HOLPLQDU HVSDoRV TXHOHYHP DR DXPHQWR GH TXDOLGDGH QD VD~GH S~EOLFD SDUD WRGRV´ Dr. Ariel Pablos-Mendez, Diretor do Departamento de Gestão e Compartilhamento do Conhecimento, da Organização Mundial de Saúde, 2005.
([SRVLomRGR$VVXQWR
É necessário o suporte à decisão para vigilância epidemiológica, através de modelos preditivos, que possam auxiliar o gestor da área de saúde, na tomada de decisão. Assim ele pode designar seus limitados recursos humanos e financeiros para o tratamento dos pacientes e para o combate ao vetor urbano de Dengue.
Existem relatos de modelos já utilizados com algum sucesso, na predição, em áreas como a financeira (HJ ALVARENGA; OLIVEIRA JUNIOR; CARVALHO, 2003) e a epidemiológica (HJ GILL, 1923 DSXG Organização Mundial de Saúde, 2004b) que podem auxiliar no prognóstico de casos confirmados de Dengue através de técnicas regressivas de Redes Neurais Artificiais.
A grande vantagem desses modelos preditivos é o preço baixo, quando não, gratuito, das variáveis (i.e. dados eletrônicos) necessárias para predição. Justifica-se esta afirmativa, pois os dados (HJ tomada do vetor, casos notificados) são coletados de forma compulsória, por diversos órgãos municipais, estaduais e federais, em todo o território brasileiro.
Nesta dissertação será abordado um modelo preditivo com a granularidade de casos confirmados de Dengue que é maior que a convencional que trabalha com casos notificados.
,QWURGXomRDR3UREOHPD
cada ano. A habilidade de se predizer as interações entre o clima e as doenças infecciosas, também tem melhorado nos últimos anos. Existe a tendência de se desenvolver modelos que possibilitem a predição ou o monitoramento de epidemias. Se forem precisos, o seu valor é inestimável.
O clima tem influência na transmissão de muitas doenças. Algumas delas estão entre as que mais influenciam o número de óbitos, nos países em desenvolvimento (OMS, 2004b, p.08, 37). Especula-se que ondas de calor ou mudanças climáticas extremas possam causar impactos significantes na disseminação de doenças contagiosas (OMS, 2004b, p.10).
Sabe-se que algumas doenças infecciosas, principalmente as disseminadas por vetores (insetos), como o Dengue - estão geograficamente limitadas por padrões ambientais (HJ clima, vegetação) (OMS, 2004b, p.10). São tradicionalmente conhecidas como “doenças da pobreza” (PAIM, 2003, p.563) ou “doenças da modernidade” (ANDRADE; DANTAS, 2004, p.01) e estão relacionadas a populações de baixo poder aquisitivo e a países em desenvolvimento, (OMS, 2004b, p.37). (xistem algumas exceções FRPR a Austrália e &ingapura. Dentre estas doenças está o Dengue que é disseminado pelo seu vetor ($HGHV DHJ\SWL) e que possui influência sazonal (OMS, 2004b).
Na saúde pública, a epidemiologia é uma das áreas na qual o maior número de estudos e publicações encontrados referentes ao Dengue, é realizado através de inquéritos sorológicos e estudos estatísticos.
Os modelos de predição existentes e relatados (OMS, 2004b, 2003d, 2000, dentre outros), utilizam, basicamente, dados históricos para detectar padrões de comportamento e estimar seus valores no futuro. De forma genérica, empregam-se técnicas matemáticas e/ou estatísticas para representar a realidade, na qual foram criadas. As estatísticas têm sido usadas, com algum sucesso, para predição desses padrões.
Assim, a proposta é explorar o uso da técnica de janela de tempo, também conhecida como janelamento, sobre série de dados temporais para a construção de modelo preditivo que, com certa margem de confiança, consiga prever o número de casos confirmados que irão ocorrer em um determinado período, a partir dos dados notificados de Dengue, contidos no Sistema de Informações de Agravos de Notificação (SINAN) e de medidas climáticas de uma cidade, neste caso, foi escolhido como objeto de estudo os dados da cidade de Goiânia - Goiás.
Essa abordagem justifica-se por:
a) As instituições de saúde pública, em todo território brasileiro, notificam, ao longo dos anos e de forma compulsória, ao Departamento de Vigilância Sanitária da cidade a que pertencem e à Secretaria Estadual de Saúde de seu Estado, cerca de trinta e cinco (35) doenças diferentes, determinadas por lei (dentre elas, o os casos notificados de Dengue). As notificações são feitas na forma de registros padronizados de prontuários médicos e digitalmente guardadas no SINAN, através de uma coleção de dados disponíveis, na forma de banco de dados eletrônico (FUNASA, 2002);
b) O vetor (Aedes aegypti) da doença tem influência sazonal.
'HILQLomRGD3HVTXLVD
Predizer, por meio de um modelo baseado em Redes Neurais Artificiais, a ocorrência de surtos urbanos causados pelos vetores: PRVTXLWR$HGHVpossibilitando aos gestores da área de saúde, suporte à decisão, para o planejamento de combate a epidemias.
'HOLPLWDomRGD3HVTXLVD
Cria um modelo para predição urbana de surtos de Dengue (OMS, 2004b, p.17), e alimenta esse modelo com dados (i.e. parâmetros climáticos e pacientes confirmados) Prediz a ocorrência de surtos em uma região, (OMS, 2004b, pp.15-16) e avalia seu valor de predição (possibilita ao gestor, designar recursos humanos e/ou financeiros para o tratamento dos pacientes, campanhas informativas e educativas e combate do vetor da
1
doença em tela).
-XVWLILFDWLYDGD3HVTXLVD
A cada dia, gera-se grande quantidade de dados médicos (registrados em prontuários) e laboratoriais (resultados de exames) de pacientes atendidos por profissionais de saúde em hospitais ou laboratórios. Esses dados representam as condições médicas ou doenças que os pacientes apresentam e possibilitam a notificação de casos de doenças transmissíveis. A notificação é importante, especialmente na prevenção e disseminação de epidemias2 e pode ser feita de forma semanal, mensal e anual (SCHUMANN; CHAVEZ; GRAW, 1998, p.01; OMS, 2004b, p.27).
A análise rápida dos dados assegura suporte epidemiológico a gestores de saúde (OMS, 2004b), através de ações preventivas à disseminação ou ao surgimento de epidemias (CUMMINGS HWDO, 2004, p.345), através do combate ao vetor ou vacinação da população. Pode ser feita através de:
a) Técnicas de Mineração de Dados, para buscar os padrões de ocorrência e comportamento das doenças (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37);
b) Análise estatística ou de gráficos (OMS, 2004b, p.08,09).
Essa pesquisa utiliza os dados de exames laboratoriais e avaliações médicas do Sistema Único de Saúde Brasileiro (SUS), do qual setenta por cento (70%) da população brasileira depende (WESTPHAL, 2000, p.46) e fornece ao gestor da área de saúde bases para gerenciar seus limitados recursos humanos e financeiros.
5HIHUHQFLDO7HyULFR
Os Sistemas de Suporte à Decisão fornecem alternativa computacional aos gestores, para tomada de decisão, em problemas cuja solução não é trivial. Suas principais vantagens são (TURBAN; RAINER; POTTER, 2004):
a) Permitir tomadas de decisões a partir de grandes fontes (bases) de dados;
b) Superar os limites humanos no processamento e armazenamento de informações;
c) Reduzir os custos de pesquisa de um projeto;
d) Prover soluções com qualidade e em curto espaço de tempo.
A Mineração de Dados apresenta a possibilidade de gerar, através de tarefas/técnicas (HJ regressão e classificação) e aplicativos (VRIWZDUHV) específicos, informações preditivas que possam fornecer aos gestores, subsídios para tomada de decisão. Dentre estes VRIWZDUHVestão os que utilizam as Redes Neurais Artificiais para este fim (predição) (BRAGA; LUDERMIR; CARVALHO, 2000; ALVARENGA; OLIVEIRA JUNIOR; CARVALHO, 2003).
As Redes Neurais Artificiais são sistemas de processamento de informações distribuídos, compostos por elementos computacionais simples (i.e. neurônios artificiais) e, por serem inspiradas no cérebro humano, apresentam características como a capacidade de aprendizagem de padrões complexos de informações ou a de generalizar uma informação aprendida (BAETS; VENGOPAL, 1994 DSXG PASSARI, 2003; BRAGA; LUDERMIR; CARVALHO, 2000; HAYKIN, 2001; OLIVEIRA; ALVARENGA, 2003).
A OMS (2004b, 2003e, 2000b), enfatiza a necessidade de pesquisas que possam fornecer suporte à decisão, aos gestores da área de saúde, na predição e combate de surtos (RXWEUHDNV) de várias doenças que estão sob influência sazonal, incluindo as causadas por vetores. Em todo mundo, Dengue está entre as doenças que mais afetam a população dos países em desenvolvimento.
No Brasil, o combate e a prevenção de trinta e cinco doenças diferentes, é feito através do Modelo Brasileiro de Notificação. Esta notificação, nos hospitais públicos e estaduais, é feita através de preenchimento de formulários específicos que são enviados à Secretaria Municipal de Saúde e armazenados em forma digital no Sistema de Informações de Agravos de Notificação. Em relação a Dengue, que é uma destas doenças, o modelo é passivo e definido por lei. (FUNASA, 2002).
2EMHWLYRV
*HUDO
decisão no combate a epidemias de Dengue, utilizando Redes Neurais Artificiais para predizer o número de casos confirmados dessas doenças, em menor tempo e maior precisão do que a prática atual.
(VSHFtILFRV
Os objetivos específicos desta pesquisa são relacionados a seguir:
• Construção de uma base de conhecimentos epidemiológicos, a partir da análise de variáveis para diagnóstico e identificação do surto3a partir das seguintes fontes de dados:
a) Resultados de exames laboratoriais e avaliações médicas (Dengue), realizados nos laboratórios e consultórios do Sistema Único de Saúde (SUS) da cidade de Goiânia–GO, registrados no SINAN;
b) Índice pluviométrico, temperatura e umidade relativa do ar, de Goiânia, realizado pelo 10º DISME – Distrito de Meteorologia.
• Fornecer bases para a otimização dos recursos humanos e/ou financeiros utilizados na gestão epidemiológica de Dengue;
• Uso e avaliação da tecnologia baseada em RNAs como instrumento de análise e predição epidemiológica.
+LSyWHVH
+LSyWHVHSULQFLSDO
Um modelo de predição, baseado em Redes Neurais Artificiais, aplicando séries temporais, pode garantir maior precisão de resultados e melhor qualidade que o modelo atual utilizado pelo Sistema Brasileiro de Notificação, vigente para Vigilância Epidemiológica de Dengue.
+LSyWHVHVVHFXQGiULDV
O número de casos confirmados de Dengue em Goiânia-Go, neste período,
apresenta relação com:
a) Mudanças das variáveis climáticas (i.e. apenas algumas variáveis climáticas influenciam o surto);
b) Características urbanas (HJ percentual de área verde, número de prédios por bairro, número de cemitérios) e populacionais (sexo, habitantes por bairro e faixa etária) apresentadas em Goiânia-GO no período estudado.
2UJDQL]DomRGR'RFXPHQWR
O presente trabalho está estruturado em cinco (05) capítulos, a saber:
No Capítulo 1 – Introdução – apresentação das considerações iniciais: ao conhecimento sobre a interação entre o clima e a saúde; à definição do tema, delimitação da pesquisa, referencial teórico, justificativa, objetivos e hipóteses desta dissertação.
No Capítulo 2 - Revisão de Literatura – apresentação do referencial teórico sobre dados, informação e conhecimento. Na seqüência, aborda-se: Gestão do Conhecimento e Tecnologia da Informação; Sistemas de Suporte à Decisão; Mineração de Dados; Redes Neurais e Séries Temporais; efeitos do clima sobre a saúde humana; Modelo Brasileiro de Predição; Dengue, assim como, também, o vetor brasileiro reconhecido ($HGHVDHJ\SWL) e os estudos relatados, encontrados.
No Capítulo 3 – Metodologia – exposição dos procedimentos metodológicos para elaboração do trabalho, incluindo o processo de análise e modelagem de dados, para especificação do modelo neural e dos critérios de avaliação. Foi utilizada a metodologia &URVV,QGXVWULDO6WDQGDUG3URFHVVIRU'DWD0LQLQJ através da aplicação de um estudo de caso, na cidade de Goiânia–Go e posterior apresentação dos resultados encontrados no período estudado.
No Capítulo 4 - Apresentação e Análise dos Resultados.
5
(9,62'(
/
,7(5$785$
“O valor do conhecimento é intangível, o que para muitos pode não ter sentido, para outros pode ser a ‘invenção da pólvora’”. Autor desconhecido
'DGRV,QIRUPDomRH&RQKHFLPHQWR
Os dados “são fatos brutos, não organizados para transmitir um significado específico” (TURBAN; RAINER; POTTER, 2004, p.364). São importantes porque, através deles, é possível a criação da informação. O que permite a eficiência da informação é a qualidade dos dados, não a sua quantidade ou o seu conjunto.
Uma informação pode ser caracterizada através de conjunto de itens que tenham significado (TURBAN; RAINER; POTTER, 2004, p.364) e proporcionem um novo ponto de vista para a interpretação de eventos ou objetos, tornando visíveis, significados antes invisíveis. A compreensão de dados (HJ fatos, textos, gráficos, imagens estáticas, sons, etc.), por um indivíduo ou conjunto de indivíduos (organização) é uma informação. Esta informação se completa e, sem sobrecarga, pode ser usada como vantagem competitiva para tomada de decisão, no ambiente em que foi moldada (MORESI, 2000, pp.17-18).
“Essa informação pode não ser a mesma do ponto de vista de quem emitiu a mensagem, pois emissor e receptor são pessoas com experiências distintas” (LEMOS, 2003, p.07).
Pode-se considerar a informação como meio necessário para extrair ou construir o conhecimento, alterando-o ou reestruturando-o. É o produto capaz de gerar o conhecimento.
“Conhecimento não é dado e nem informação, mas está relacionado a ambos” (TEIXEIRA FILHO, 2001, p.21). “É mais valioso e poderoso do que os recursos naturais” (STEWART, 1998, p.XIII). É o resultado da interpretação, aprendizagem e utilização da informação para algum fim, especificamente para gerar novas idéias, resolver problemas ou tomar decisões (STEWART, 1998).
superior à capacidade de mobilizar os meios e recursos necessários à transformação desses dados, em informações e, dessas informações, em conhecimento. O significado da tríade (dados, informações e conhecimento) é bastante contextual e subjetivo. O que é informação para uma pessoa ou organização pode não passar de dados para outro ente qualquer. Além do fato de que o conhecimento depende de uma série de condições e de conceitos bastante abstratos como valor, reflexão, síntese e utilidade, entre outros (ALVARENGA; JUNIOR; CARVALHO, 2004, p.05).
Capturar e disseminar o conhecimento de uma instituição (organização) não é tarefa fácil. Embora existam diversos profissionais e técnicas de captura e disseminação, ambos (profissionais e técnicas) dependem, também, do interesse, comprometimento e dedicação das pessoas que compõe a organização, em representar e disseminar esse conhecimento. E aquela que representa e dissemina o conhecimento, tem a capacidade de gerar diferenciais competitivos importantes.
Por exemplo: para maximizar os lucros em pesquisas, uma organização que possua várias filiais, desenvolve diversos projetos simultâneos. Provavelmente os profissionais que compõem as equipes, enfrentam alguns problemas iguais ou semelhantes aos já ocorridos em projetos anteriores. Se as informações de solução dos problemas anteriores (técnicas aplicadas) estão mantidas e são compartilhadas dentro da organização, os especialistas dos novos projetos localizam as soluções e as aplicam de maneira rápida e eficaz. Outro exemplo interessante, no mesmo sentido, é o de compartilhar, vender ou comprar informações (soluções) sobre resolução de desafios, em projetos já enfrentados por outras organizações.
Deve-se ressaltar que o conhecimento pode ser dividido em tácito e explícito (NONAKA; TAKEUCHI, 1997, p.62; TURBAN; RAINER; POTTER, 2004, p.389). “O conhecimento tácito é pessoal, específico ao contexto e, assim, difícil de ser formulado e comunicado. Já o conhecimento explícito ou ‘codificado’, refere-se ao conhecimento transmissível em linguagem formal e sistemática” (POLANYI, 1966 DSXG NONAKA; TAKEUCHI, 1997, p.65). O segredo para aquisição do conhecimento está, dentre outros fatores, na experiência obtida através da convivência entre indivíduos (NONAKA; TAKEUCHI, 1997, p.69).
informação, diz respeito a ‘crenças’ e ‘compromissos’. O conhecimento é uma função de uma atitude, perspectiva ou intenção específica. Segunda, o conhecimento, ao contrário da informação, está relacionado à ‘ação’. É sempre o conhecimento ‘com algum fim’. E terceira, o conhecimento, como a informação, diz respeito ao ‘significado’. É específico ao contexto e relacional [...] consideramos o conhecimento como “um processo humano dinâmico de justificar a crença pessoal com relação à ‘verdade’” (NONAKA; TAKEUCHI, 1997, p.63).
*HVWmRGR&RQKHFLPHQWRH7HFQRORJLDGD,QIRUPDomR
A informação e o conhecimento são os diferenciais competitivos que atualmente são considerados os produtos econômicos mais valorosos que uma organização (empresa, instituição) pode possuir. Na verdade, o conhecimento tácito vem sendo usado nas organizações há muito tempo embora o reconhecimento de ele que pode e deve ser aplicado como vantagem competitiva, seja relativamente recente (TEIXEIRA FILHO 2001, p.22).
A Gestão do Conhecimento (GC), nesse sentido, atinge um campo multidisciplinar, que possibilita amplas implicações e aplicações em diversas áreas, pois permite que os pesquisadores possam se tornar profissionais geradores, mantenedores e disseminadores do conhecimento, em uma instituição (organização). A Tecnologia da Informação (TI), normalmente associada à GC, pode ser vista como o recurso básico para implantação da GC nas organizações (DRUCKER, 1999 DSXG LEMOS, 2003, p.06).
Na verdade a GC “é um tipo de gestão pelo qual o reconhecimento do conhecimento individual e organizacional é fator básico para atingir os resultados desejados de uma organização” (LEMOS, 2003, p.06). Deve ser difundida entre os funcionários (também conhecidos como multiplicadores) da organização de forma a maximizar a confiança no processo de geração, absorção de conhecimento e produtividade na organização (ARAUJO; FREIRE; MENDES, 1997).
organização” (TURBAN; RAINER; POTTER, 2004, p.389); ou F um conjunto de princípios e ferramentas para otimizar e integrar o processo criativo de criar, desenvolver e disseminar o conhecimento de forma estratégica e efetiva dentro da organização (OMS, 2005, p.02).
"Existe uma relação sinergética poderosa entre gestão do conhecimento e tecnologia; esta relação leva a retornos crescentes e sofisticação crescente, em ambas as frentes. À medida que a tecnologia de informação se torna nossa ferramenta pessoal e nossa conexão com os outros, aumenta nossa cobiça em acessar ainda mais informação e conhecimento de outras pessoas, e então demandamos ferramentas de TI ainda melhores e mais eficientes, que se tornam parte da forma como trabalhamos” (O'DELL; GRAYSON JR, 1998, p.30).
Embora GC seja um campo novo e em discussão (TURBAN; RAINER; POTTER, 2004, p.388), existe, no mercado, uma enorme quantidade de ferramentas que procuram gerenciar os conhecimentos das empresas. Infelizmente, nenhuma delas fornece um modelo que se adapte a todas.
A gestão e o compartilhamento do conhecimento, no que diz respeito aos sistemas de saúde, representam uma importante oportunidade para melhorar o atendimento e tratamento de pacientes, particularmente nos países em desenvolvimento, pois podem trocar experiências sobre campanhas preventivas e combate a doenças (OMS, 2005, p.01).
A OMS (2005, p.02), no sentido de relatar e pesquisar novas ferramentas e soluções criou o Departamento de Gestão e Compartilhamento do Conhecimento, que tem, como tarefa, a construção de uma rede global, visando o compartilhamento de informações de cunho médico e científico, entre todos os países. Sua estratégia é compartilhar as abordagens da própria OMS com a perícia em saúde, de forma a encontrar ou criar novas ferramentas e novas maneiras de se aplicar o conhecimento, aumentando, assim, em todo o mundo, a qualidade dos sistemas de saúde pública.
campanhas ou práticas preventivas dessa doença (OMS, 2005, p.02).
6LVWHPDVGH6XSRUWHj'HFLVmR
O decisor normalmente possui capacidade de conhecimento limitada, ao se deparar com problemas complexos e grandes. Sua habilidade não é suficiente para fornecer soluções que conduzam a resultados esperados e desejados (EIRMAN; NIEDERMAN; ADAMS, 1995; TURBAN; RAINER; POTTER, 2004, p.369). Assim, a tomada de decisão é um aspecto importante para a gerência no planejamento das atividades operacionais das organizações. É o ato final de um processo que visa resolver um problema ou um conjunto de problemas, em um domínio de aplicação (HENDRIKS; VRIENS, 1995; RAFAELI NETO, 2001).
Segundo Hendriks e Vriens (1995) e Rafaeli Neto (2001), os Sistemas de Suporte à Decisão fornecem a solução para problemas que no domínio geográfico, por exemplo, tendem a serem novos, complexos, grandes e mal estruturados. Sua complexidade se deve à interação de uma série de variáveis de natureza complexa (HJ natureza geográfica, técnica, organizacional, social, temporal, etc.).
2.3.1 $X[tOLRjGHFLVmRFRPSXWDFLRQDO
Os 'HFLVLRQ6XSSRUW6\VWHP±'66 ou Sistemas de Suporte à Decisão (SSD) são ferramentas computacionais que, através de consulta à base de dados, auxiliam aos gerentes na tomada de decisão (ADRIAANS; ZANTIGE, 1996, p.28; DELMATER; HANCOCK, 2001, p.88; PORTO; AZEVEDO, 1997 DSXG CARVALHO, 2003, p.23; TURBAN; ARONSON, 1998, p.267; TURBAN; RAINER; POTTER, 2004, pp.369-372).
Os SSD representam uma abordagem de auxílio computacional, baseada na intensa utilização de bases e modelos de dados, que proporcionam o diálogo entre o homem e o computador, na solução de problemas não triviais (CARVALHO, 2003, p.23; HAMMERS, 2002, p.01; TURBAN; RAINER; POTTER, 2004, pp.369-372).
gerencial; G seu objetivo é melhorar a efetividade das decisões e não a eficiência do processo de tomada de decisão (TURBAN; ARONSON, 1998; TURBAN; RAINER; POTTER, 2004, pp.369-372).
Os seus usuários podem utilizá-los em três tipos de configurações: D ativas (permite sugestões ou decisões); E passivas (não permite sugestões ou decisões); F cooperativas (permite que o responsável pelas decisões ou um técnico sob sua orientação, modifique, refine ou termine o processo de análise) (HÄTTENSCHWILER, 1999 DSXG GACHET, 2001, p.215).
Em um SSD, deve haver um profissional que domine o problema, para que, através de informações e concepção intelectual do assunto, possa obter um bom suporte à decisão (HÄTTENSCHWILER, 1999 DSXG GACHET, 2001, p.215).
O melhor SSD não é aquele que utiliza as melhores técnicas matemáticas ou de pesquisa a bases de dados, mas sim o que é capaz de induzir as melhores decisões. O SSD não tem o objetivo de encontrar a solução ótima, mas, sim, auxiliar ao gestor na escolha de uma alternativa satisfatória ao seu problema (PORTO; AZEVEDO, 1997 DSXG CARVALHO, 2003, pp.23-24; TURBAN; RAINER; POTTER, 2004, pp.369-372).
São exemplos típicos de SSD, os Sistemas de Informações Geográficas e os Sistemas Especialistas (TURBAN; ARONSON, 1998, TURBAN; RAINER; POTTER, 2004, p.372, 383). Citam-se como aplicações de SSD o: D Planejamento de mercado e pesquisa; exemplo: geração de um catálogo de vendas, a partir da estimativa das decisões de compra, que um consumidor pode fazer; E Planejamento estratégico e operações; exemplo: monitoração, análise e geração de fazer relatos das tendências sutis de mercado, o que pode auxiliar o gestor, a tirar proveito de campos ainda não explorados; F Suporte a vendas; exemplo: executivos de altos escalões recebem relatórios diários de vendas de produtos por região (TURBAN; ARONSON; 1998; TURBAN; RAINER; POTTER, 2004); e G A alocação de água para projetos de irrigação (CARVALHO, 2003).
'HVFREHUWDGH&RQKHFLPHQWRHP%DVHGH'DGRV
POTTER, 2004, p.132).
“A maioria das organizações internacionais produzem mais informações em uma semana que algumas pessoas podem ler em toda a sua vida” [...] “Existe um paradoxo no crescimento dos dados, quanto mais dados menos informação” (ADRIAANS; ZANTINGE, 1996, p.02, tradução nossa).
,QWURGXomR
A produção, coleta e armazenagem de dados, no mundo, aumentam em uma enorme velocidade, tornando impossível a análise adequada para transformá-las em informações úteis (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37). As bases de dados, que podem representar de 65 a 70% do espaço existente em disco (MOORE, 1999, p.01), estão crescendo em tamanho, de duas maneiras: pelo aumento de número de registros e pelo número de campos (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.38).
A transformação tradicional de dados em conhecimento usa análise manual e interpretação. É realizada por especialistas que, através de teorias e ferramentas, extraem informações úteis, a partir de dados digitais. Ao final do processo, os especialistas geram relatórios sobre seus estudos, para decisões ou planejamentos, fornecendo suporte à decisão. Essa maneira tradicional de gerar conhecimento é cara, lenta e altamente subjetiva (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.37-38; TURBAN; RAINER; POTTER, 2004, pp.130-132, 362-363).
devido ao grande número de produtos comerciais existentes e aos requisitos para operar essa ferramenta.
É inegável que diante das dificuldades acima listadas e do desgaste humano para analisar, manualmente, essa grande quantidade de dados, surge o desafio de desenvolver técnicas, ou aplicativos de automação, capazes de filtrar a informação necessária de grandes bases de dados e disponibilizá-la em formatos visualmente compreensíveis, que possam ser utilizados para solução de um problema (ADRIAANS; ZANTIGE, 1996, p.02; GOEBEL; GRUENWALD, 1999, p.20; MOORE, 1999, p.01).
Nem sempre dados garantem informação e informação traz conhecimento. O desafio é retirar a informação escondida nas bases de dados, de forma a utilizá-la em decisões (HAN; KAMBER, 2001, p.279; TURBAN; RAINER; POTTER, 2004, p.362). Soluções estão sendo pesquisadas e resultados estão sendo obtidos, através de técnicas oriundas da Inteligência Artificial (IA) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37), dentre elas, a Mineração de Dados.
O termo .QRZOHGJH 'LVFRYHU\ LQ 'DWDEDVHV (KDD) ou Descoberta de Conhecimento em Banco de Dados (DCBD) foi cunhado no primeiro encontro de pesquisadores da área ocorrido em 1995, em Montreal (ADRIAANS; ZANTINGE, 1996, p.05).
Foi definido como: “O processo de extração de conhecimento a partir dos dados registrados numa base de dados, extração esta não trivial de conhecimento implícito, previamente desconhecido e potencialmente útil, feita a partir dos dados registrados” (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.40, tradução nossa).
DCBD é o processo completo de descoberta de conhecimento, a partir de uma base de dados, e estabelece uma ênfase especial em encontrar padrões de dados, compreensíveis ou interessantes, que possam ser interpretados visando a criação de conhecimento (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.39-40; MEDEIROS OLIVEIRA, 2005, p.01; OLIVEIRA; ALVARENGA, 2003, p.02).
forma primitiva, em outras formas que serão: D mais compactas (HJ um pequeno relatório); E mais abstratas (HJ um modelo que possa ter sido concebido a partir de dados); F mais proveitosas (HJ um modelo de predição para estimativa de casos futuros) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37; NOON; HANKINS, 2001, p.01). “O centro do processo é a aplicação de métodos específicos de mineração de dados, para descoberta e extração de padrões” (AGRAWAL; PSAILA, 1995 DSXG FAYYAD; PIATETSKY-SHAPIRO, 1996).
2.4.2 ÈUHDVGH$SOLFDomR
Dentre outras áreas de aplicação de DCBD, citam-se as seguintes: D0DUNHWLQJ que procura identificar padrões de compras em consumidores, para a determinação dos produtos que serão colocados em locais vizinhos, maximizando, assim, a venda (venda cruzada); E Monitoração de fraudes eletrônicas em cartões de crédito, que possam indicar a atividade de lavagem de dinheiro; F Predição de problemas em projetos aéreos, através de relatos de falhas, a partir de agrupamentos; G Localização e classificação de problemas ocorridos em telecomunicações de maneira a evitar consultas a padrões já conhecidos; H Identificação e eliminação de redundância de dados; I Predição epidemiológica, possibilitando ao gestor da área de saúde, o planejamento de recursos para o atendimento a pacientes infectados ou para o combate ao vetor de uma determinada doença (dengue) (MEDEIROS OLIVEIRA, 2005, p.01; CASTRO; ALVARENGA; PRADO, 2004, p.83; CASTRO; ALVARENGA; PRADO, 2005, p.41; DELMATER; HANCOCK, 2001, p.270; FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.38-39; TURBAN; ARONSON, 1998, p.130; TURBAN; RAINER; POTTER, 2004, p.159; WANG; WEIGEND, 2004, p.457).
Existem várias propostas para o processo de DCBD, dentre elas as de Fayyad e Piatetsky-Shapiro e Smyth (1996), Adriaans e Zantinge (1996) e a de Kamp e Grupe (1997).
0LQHUDomRGH'DGRV
PIATETSKY-SHAPIRO; SMYTH, 1996, p.39).
Mineração de Dados (MD) pode ser definida como um processo automatizado que, a partir de grandes volumes de dados, gera um conjunto de regras significativas ou identifica informações (recursos ou tendências ou agrupamentos), que são dificilmente perceptíveis (BOSE; SUGUMARAN, 1999 DSXGCOFFIN HW DO, 2004, p.02; FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.39; FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992 DSXG ELDER, 2004, p.02; REIFER, 2002, p.14) e que podem ser utilizadas com o objetivo de suporte à decisão (HAN; KAMBER, 2002, p.279; WANG; WEIGEND, 2004, p.457; TURBAN; ARONSON, 1998; TURBAN; RAINER; POTTER, 2004, p.159).
Outras aplicações de MD são (TURBAN; RAINER; POTTER, 2004, p.383): D predição automatizada de tendências e comportamentos, através da automatização do processo de procura de informações (HJ compras realizadas por clientes no passado) em bancos de dados, para se prever alvos futuros (HJ seleção de clientes em potencial, para determinado produto a ser vendido); E detecção automática de padrões desconhecidos, anteriormente, através da análise dos dados de vendas com a identificação dos produtos, aparentemente, não relacionados, que geralmente são vendidos em conjunto, em um determinado dia da semana (HJ fraldas e cerveja em uma sexta-feira à noite). Existem diversos projetos em que a MD pode ser aplicada, dentre eles (ELDER, 2004, p.04): D avaliações de crédito; EPDUNHWLQJ;F predição de vendas; G detecção de fraudes.
Para Fayyad e Piatetsky-Shapiro e Smyth (1996, p.39), o objetivo da DM é a extração de conhecimento de alto nível, a partir de dados de baixo nível, contidos em grandes conjuntos de dados (HJ extrair conhecimento a partir de uma base de dados). Já para Delmater e Hancock (2001, p.04) o desafio é bem maior: o objetivo definido é o de extrair conhecimento de alto nível, a partir de dados de alto nível, o que é bem mais complexo (HJ extrair conhecimento de um GDWDZDUHKRXVH).
Na visão de Delmater e Hancock (2001, p.07), a análise da MD desenvolve modelos de dois tipos: D modelos para previsão (predição), que envolvem a utilização de uma parte ou de todo o conjunto de variáveis existentes, para prever valores desconhecidos ou futuros, de variáveis de interesse (HJ desastres naturais, índices de degradação ambiental, índice de reprodução de vetores, surtos); E modelos para descrição, que busquem padrões em um sistema de forma a torná-los interpretáveis.
Autores como Fayyad e Piatetsky-Shapiro e Smyth (1996, p.39), Medeiros Oliveira (2005, pp.13-14) e Turban e Rainer e Potter (2004, p.159) dizem que a mineração de dados possui várias técnicas (tarefas), dentre elas a classificação, a regressão, a clusterização e a sumarização.
As tarefas de classificação e a regressão são preditivas, já a clusterização e sumarização são descritivas. As descritivas se concentram em encontrar padrões que descrevam os dados de forma interpretável pelos seres humanos. As preditivas realizam inferências nos dados, para construir modelos que serão usados nas predições do comportamento de novos dados. Nesta dissertação serão abordadas apenas as técnicas preditivas.
No Quadro 1, para cada técnica relatada nas obras de Fayyad e Piatetsky-Shapiro e Smyth (1996) e Turban e Rainer e Potter (2004, p.159), foi especificado o tipo de modelo relatado por Delmater e Hancock (2001).
4XDGUR4XDGURGHWpFQLFDVGH0'GHVHQYROYLGRDSDUWLUGRVDXWRUHV)D\\DGH3LDWHWVN\6KDSLURH 6P\WK7XUEDQH5DLQHUH3RWWHUSH'HOPDWHUH+DQFRFN
Técnica Descrição dos modelos Tipo
Classificação
Pressupõe características definidoras de um grupo específico (como clientes que foram perdidos para concorrentes)
Preditiva
Regressão Prediz um valor numérico com base no comportamento histórico dos dados
Preditiva
Clusterização Possibilita gerar agrupamentos a partir de
semelhanças encontradas nos dados. Descritiva Associação Procura descobrir se existe algum padrão de
relacionamento entre itens existentes nos dados (como o conteúdo de um carrinho de compras)
2.5.1 7pFQLFDVSUHGLWLYDVGD0'
A classificação e a regressão são formas de análise de dados, que podem ser usadas para extrair dois tipos de modelos: D os que descrevem classes de dados importantes; E os que atuam na predição de tendência de dados futuros (HAN; KAMBER, 2001, p.279; PRADO, 1998, p.39; OLIVEIRA; ALVARENGA, 2003, p.03).
A predição visa estabelecer o valor de um ou mais atributos, em um banco de dados, a partir de outros atributos presentes [...] A abordagem preditiva não implica, necessariamente, na previsão de um valor futuro - ‘a característica importante é que ela faz uma adivinhação educada sobre o valor de um ou mais atributos desconhecidos, dados os valores de outros atributos conhecidos’ [JOH97] (PRADO, 1998, p.39).
Faz-se, então, necessária, a distinção entre as técnicas preditivas de classificação e regressão. Na classificação, cada registro (tupla) pertence a uma classe, entre um conjunto pré-definido de classes. A classe de uma tupla é indicada por um valor especificado pelo usuário, em um atributo objetivo. As tuplas consistem de atributos preditivos e um atributo objetivo, este último indicando a que classe esta tupla pertence (HAN; KAMBER, 2001, p.280). O atributo objetivo é do tipo categórico ou discreto (i.e. pode tomar apenas um valor dentro de um conjunto de valores discretos) (HJ {SIM, NÃO}; {01...10}; {POSITIVO, NEGATIVO, ZONACINZA}), determinando classes ou categorias.
O princípio da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo, de modo a desvendar um conhecimento que possa ser utilizado, para prever a classe de uma tupla desconhecida (OLIVEIRA; ALVARENGA, 2003, p.03).
Suponha que, em uma cidade, tenham ocorrido várias endemias ou epidemias de uma doença ou conjunto de doenças. Essas ocorrências, provavelmente foram registradas pela Secretaria Municipal de Saúde dessa cidade. Seria interessante utilizar esses dados, para prever a ocorrência de surtos de uma doença e, assim, possibilitar as autoridades competentes a planejar melhor seus limitados recursos (humanos/financeiros), desencadeando ações de vacinação ou combate ao vetor dessa doença, de forma a melhorar o atendimento aos pacientes e, até mesmo, amenizar o número de casos confirmados.
No caso de doenças com influência sazonal, a partir dos dados climáticos e epidemiológicos registrados, um algoritmo de regressão pode descobrir regras que possam prever o número de casos confirmados, em uma cidade. No caso da regressão, a informação do surto ocorrido (i.e. número de confirmados) é totalizada em um atributo (neste caso, o atributo objetivo). Uma vez que se tenha o atributo objetivo determinado, prepara-se o subconjunto de atributos preditivos, dentre aqueles existentes na base de dados. Claramente alguns atributos, tais como nome do paciente, raça, cor dos olhos, estatura, peso, dentre outros, são, de modo geral, irrelevantes para previsão do surto e, portanto, devem ser desconsiderados.
No caso da predição, para se medir o quão bom é o padrão encontrado (a chamada acurácia do modelo), basta verificar o número de acertos, em um total de casos testados (PRADO, 1998, p.39).
São esperadas duas reações distintas às predições: D Preparar-se para as conseqüências das mudanças ocorridas. Por exemplo, no caso de predição de um número alto de pacientes infectados por uma doença (HJ dengue), o gestor pode designar seus limitados recursos humanos/financeiros para o tratamento desses pacientes, em hospitais; E tomar medidas para reverter ou modificar as predições, reduzindo as incertezas com a produção de informações, evitando, assim, surpresas com a precipitação dos eventos. Se o cenário previsto é o de um surto, o gestor pode decidir tentar amenizá-lo, determinando que sejam incrementadas, ou iniciadas, campanhas de combate ao vetor. (CUMMINGS HW DO, 2004, p.345; HANKE; REITSCH 1995 DSXG PASSARI, 2003, p.08).
tradicionais, já que lida com grande quantidade de volume de dados e consegue gerar padrões para fenômenos complexos, que necessitam de muitos parâmetros. Por exemplo, a estatística, de modo geral, é orientada para a verificação e validação das hipóteses cognitivas e a maioria de suas técnicas requer o desenvolvimento de uma hipótese prévia. Já a MD busca padrões, nas bases de dados, que possam ser utilizados para algum fim. A grande vantagem da MD, em relação às técnicas estatísticas, é a possibilidade de explicitar informações, apenas do domínio de especialistas, escondidas nas bases, através da documentação gerada durante sua realização. Essas informações podem levantar hipóteses que não haviam sido descobertas, até aquele momento (PASSARI, 2003, pp 58-60).
3UREOHPDVGHVDILRVYDQWDJHQViUHDVGHDSOLFDomRHWpFQLFDVGD0'
Em relação aos problemas referentes à MD, os mais comuns são: D representação do conhecimento extraído; E complexidade da pesquisa; F seleção do método e técnica mais apropriada da mineração para a pesquisa (FAYYAD; SHAPIRO-PIATETSKY; SMYTH, 1996).
Além desses problemas, existem alguns desafios a serem vencidos, dentre eles: D o volume da base de dados: as bases, normalmente, possuem centenas de tabelas, com centenas de campos e talvez milhares de registros, o que pode resultar em uma variedade enorme de padrões, combinações e hipóteses; E dados inconsistentes: além de atributos com valores nulos, outros, importantes, podem estar ausentes das bases de dados, pois, na sua concepção, não foram projetadas para DCBD; F ruídos nas bases de dados: é um problema muito comum e grave, indicando que atributos importantes podem estar perdidos, com valores errados ou colocados em locais incorretos, na base de dados; Ginteração com o usuário: o profissional ou técnico de MD, deve procurar conhecimentos, a partir de hipóteses levantadas por seus clientes, que possam ser utilizados para explicar algum processo, na corporação, ou predizer ocorrências futuras; H representação da informação: se o conhecimento descoberto não for de fácil acesso e claramente compreendido pelo cliente, pode causar interpretações errôneas ou ambíguas (FAYYAD; SHAPIRO-PIATETSKY; SMYTH 1996b).
referentes à etapa de mineração de dados, em si (ADRIAANS; ZANTINGE, 1996).
A extração física de dados oriundos de diversas fontes é uma tarefa extremamente árida e tediosa, pois pode trazer surpresas desagradáveis, tais como: D ocorrência de exceções (HJ linhas de total no meio do arquivo); E apresentação de arquivos em formatos diferentes, o que exige sua reconstrução em formato desejado (HJ $FUREDW 5HDGHU 0LFURVRIW ([FHO 0LFURVRIW :RUG); F falta de padrão na codificação: instituições diferentes mantêm as mesmas informações, em cadastros diferentes e independentes (HJ a carteira de identidade, cartão de crédito, carteira de motorista) (PRADO, 1998, p.25).
É importante levar em consideração que: D é altamente improvável a existência de uma grande base de dados, sem a presença de algum tipo de ruído, erros ou inconsistência de dados; E mesmo que se tenha a sensação de que todas as dificuldades de extração foram superadas, a inclusão de versão atual de um arquivo, pode trazer erros tão grandes, que não há outra opção, a não ser recomeçar o processamento dos dados.
As técnicas e características de processamento mais comuns são (HAN; KAMBER, 2001, pp.105-142; PRADO, 1998, pp.28-29): D limpeza: preencher, corrigir ou eliminar dados sem informação; E integração: combinar vários dados, oriundos de várias bases, em um repositório final; F transformação de dados: alterar dados (consolidar) para o formato desejado; G redução dos dados: representar, de forma reduzida, o volume dos dados, sem perder a consistência ou a integridade.
A MD pode ser utilizada também para predição, nas seguintes áreas: D PDUNHWLQJ: busca os melhores clientes, para maximizar as vendas; E detecção de fraude em cartões de crédito; F desistência (perda) de clientes: prevê quais os prováveis clientes a saírem de empresa; G seguro e sistemas de saúde: antecipa quais clientes potenciais para novas apólices; H medicina: prevê e indica as terapias adequadas a cada doença, e a eficácia das drogas (TURBAN; RAINER; POTTER, 2004, p.161).
Além das vantagens e desvantagens já mencionadas, acrescentam-se:
a) A MD não necessita do processamento de todo o banco de dados, para a geração de regras. Basta que sejam analisadas faixas de dados distintas e desejadas, dessa base. Através dessa análise, as regras e suas faixas de confiança são geradas e adicionadas ou, ainda, alteradas, em uma base de regras (também conhecida como base de conhecimento). Através do acréscimo de novos registros na base de dados, a base de regras é atualizada com as regras geradas.
A busca de padrões de um local ou região específica pode ser feita e analisada, através da mudança dos valores existentes, em uma faixa de dados, extraídos de uma base de dados, conforme pode ser visto na Figura 1.
)LJXUD3URFHVVRGHFRQVWUXomRGHXPDEDVHGHUHJUDVGHXPDUHJLmRDGDSWDGDGH$JUDZDOH3VDLOD SSFRPDOWHUDo}HV
b) A Mineração de Dados possibilita, além de velocidade na solução de problemas, o preenchimento de informações, que podem ser a chave para decisões, em negócios importantes (ELDER, 2004, p.04).
não estão representados no universo necessário e, portanto, a informação obtida pode não ser confiável. Deve haver a preocupação com a completa representação e disponibilidade das informações, para quem precise delas (DRUCKER, 2001 in +DUYDUG%XVLQHVV5HYLHZ(HBR) p.18);
d) Os executivos e profissionais especialistas, a partir dos dados que possuem, precisam expressar corretamente a informação desejam alcançar. Assim, os responsáveis por gerá-la, não sobrecarregam o processo de transformação de dados em informação e conseguem fornecer o suporte a decisão (DRUCKER, 2001 LQ HBR, p.19);
e) Reunir, examinar e confirmar as informações extraídas, a partir de dados válidos, fornece uma análise sofisticada e possibilita conclusões que resistem a questionamentos críticos (ARGYRIS, 2001 LQ HBR, p.99,100);
f) Os custos associados com a coleção, processamento e armazenamento de tais tipos de recursos (informações), podem ser altos o que desencoraja o investimento na geração desta informação (DELMATER; HANCOCK, 2001, p.05);
g) Os pesquisadores, ou gerentes supõem que, o melhor modelo e as melhores respostas para um problema, foram encontrados, podendo decidir pelo encerramento da pesquisa o que pode impedir que um modelo mais preciso seja encontrado (ELDER, 2004, p.22).
Pode ser realizada, através de vários modelos e ferramentas específicas, como: D &URVV,QGXVWULDO 6WDQGDUG 3URFHVV IRU 'DWD 0LQLQJ CRISP-DM D HVFROKLGD SDUD HVWD SHVTXLVD E 6DPSOH ([SORUH 0RGLI\ 0RGHO $VVHVV 6(00$ F &RPPRQ$SURDFKHV'(/0$7(5+$1&2&.S.
Existem diversas ferramentas profissionais de mineração de dados, dentre elas, &OHPHQWLQH da SPSS4;(QWHUSULVH0LQHU da SAS5; (DV\QQ3OXV;,QWHOOLJHQW0LQHU da IBM7; 63OXV e ,QVLJKWIXO 0LQHU 2 da ,QVLJKWIXO &RUSRUDWLRQ8; 6HH& &XELVW e
4www.spss.com 5www.sasinstitute.com
6 www.easynn.com/easynnplus.html 7
0DJQXP 2SXV da RuleQuest59 e o R10. Academicamente, existem, também, alguns casos de soluções para 0', dentre eles, o :(.$11H R$5$5$.
&5,63'0SDUDPLQHUDomRGRVGDGRV
A metodologia CRISP-DM (DELMATER; HANCOCK, 2001, p.61; CHAPMAN HW DO, 1999 DSXG COSTA SOUSA, 2003, p.47; OLIVEIRA; ALVARENGA, 2003, p.02) foi concebida em 1996, como um guia passo a passo, para a MD, e propõe um modelo gratuito de processo padrão, para mineração de dados (SPSS, 2000).
Sua origem deve-se ao consórcio formado por quatro empresas de consultoria: 1&5 6\VWHPV (QJLQHHULQJ &RSHQKDJHQ 'DLPOHU&KU\VOHU $* 6366 ,QF. e 2+5$ Verzekeringen en Bank Groep (SPSS, 2000 p.2). A CRISP-DM tem como vantagem, não depender da área de negócio e da tecnologia a ser utilizada na MD, além da fácil aplicação rapidez, custos mais baixos, viabilidade e facilidade da gestão dos projetos de alta ou baixa envergadura de MD.
Na descrição dos quatro níveis da CRISP-DM, visto na Figura 2, é utilizado um modelo de processo hierárquico, composto por um conjunto de tarefas, descritas em níveis de abstração (SPSS, 2000, p.09):
a) Fases: neste nível, dividido em seis fases principais, estão as tarefas genéricas e os relacionamentos entre essas tarefas;
b) Tarefas genéricas: neste nível, são apresentadas de forma geral, para cobrir todas as situações possíveis da MD, mesmo aquelas não previstas (HJ novas técnicas de modelagem);
c) Tarefas especializadas: neste nível, estão as descrições de como as ações do nível genérico, devem ser executadas, em certas situações específicas (HJ limpeza dos dados);
8www.insightful.com 9www.rulequest.com 10www.r-project.org
11www.cs.waikato.ac.nz/~ml/weka/
d) Instância de Processos: neste nível, registram-se as ações, decisões e resultados de um projeto de MD.
)LJXUD5HSUHVHQWDomRGRVTXDWURQtYHLVGDPHWRGRORJLD&5,63'06366SWUDGXomRQRVVD
)LJXUD5HSUHVHQWDomRGRQtYHO)DVHVGD&5,63'06366SWUDGXomRQRVVD
5HGHVQHXUDLVDUWLILFLDLV
“A gestão eficiente de qualquer corporação, seja ela do setor público ou privado, industrial ou varejista, requer planejamento. Para um planejamento efetivo é necessário que se tenha uma expectativa precisa das condições futuras em que a corporação irá operar, e de como se relacionam os elementos condicionantes desta expectativa” (PASSARI, 2003, p.08).
2.7.1 ,QWURGXomR
O cérebro humano possui, como células fundamentais, aproximadamente 1011 neurônios. Cada neurônio é dividido em três seções distintas, conforme representado na Figura 4: D corpo da célula; E dendritos; Faxônio. Cada seção possui funções específicas, porém complementares (BRAGA; LUDERMIR; CARVALHO, 2000, pp.4-5; HAYKIN, 2001, pp.32-34).
Os dendritos têm por função, receber as informações (impulsos nervosos) de outros neurônios e conduzi-las até o corpo celular (soma). A informação é processada neste local e novos impulsos são gerados. Esses impulsos são transmitidos a outros neurônios, passando através do axônio, até os dendritos dos neurônios seguintes. O ponto de contato entre a terminação de um neurônio e o dendrito de outro, é chamado de sinapse. Entre a sinapse e o dendrito de vários outros neurônios, existe o espaço sináptico (AZEVEDO; BRASIL; OLIVEIRA, 2000, p.03; BRAGA; LUDERMIR; CARVALHO, 2000, p.06; HAYKIN, 2001, pp.32-34).
As $UWLILFLDO 1HXUDO 1HWZRUNV ou Redes Neurais Artificiais (RNAs) surgiram a partir do modelo de neurônios artificiais (SHUFHSWURQ), proposto por 0F&XOORFK e 3LWWV (1943 DSXG BRAGA; LUDERMIR; CARVALHO, 2000, p.06; AZEVEDO; BRASIL; OLIVEIRA, 2000, p.06; TURBAN; RAINER; POTTER, 2004, p.417). É uma simplificação do que se sabia, até então, sobre neurônio biológico. A composição (descrição) matemática de um neurônio artificial resultou em um modelo com Qterminais de entrada [ [ [Q (que simulam o papel dos dendritos) e, apenas, um terminal de saída \(simulando o papel do axônio). Para simular o comportamento das sinapses, os terminais de entrada possuir pesos acoplados Z Z ZQ, que podem possuir valores negativos ou positivos, dependendo das sinapses correspondentes, inibitórias ou excitatórias (HAYKIN, 2001, pp.36-38). “O efeito de uma sinapse particular L no neurônio pós-sináptico é dado por xiwi” (BRAGA; LUDERMIR; CARVALHO, 2000, p.08).
)LJXUD&RPSRQHQWHVGRQHXU{QLRGH0F&XOORFKH3LWWV%5$*$/8'(50,5&$59$/+2 S