• Nenhum resultado encontrado

Suporte à decisão para vigilância epidemiológica baseado em modelo preditivo de surtos de dengue utilizando redes neurais artificiais

N/A
N/A
Protected

Academic year: 2017

Share "Suporte à decisão para vigilância epidemiológica baseado em modelo preditivo de surtos de dengue utilizando redes neurais artificiais"

Copied!
161
0
0

Texto

(1)

&21+(&,0(172('$7(&12/2*,$'$,1)250$d­2

6XSRUWHj'HFLVmRSDUD9LJLOkQFLD

(SLGHPLROyJLFDEDVHDGRHP0RGHOR3UHGLWLYR

GH6XUWRVGH'HQJXHXWLOL]DQGR5HGHV1HXUDLV

$UWLILFLDLV

Giovanni Gondim de Castro

(2)

6XSRUWHj'HFLVmRSDUD9LJLOkQFLD

(SLGHPLROyJLFDEDVHDGRHP0RGHOR3UHGLWLYR

GH6XUWRVGH'HQJXHXWLOL]DQGR5HGHV1HXUDLV

$UWLILFLDLV

Dissertação apresentada ao Programa de Pós-Graduação 6WULFWR6HQVX em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, como requisito parcial para obtenção do grau de Mestre em gestão do conhecimento e da tecnologia da informação.

Orientador: PROF. DR. ROGÉRIO ALVARENGA

Co-orientador: PROF. DR. HÉRCULES ANTÔNIO DO PRADO

(3)

Aos dois Anjos (,QPHPRULDP)que, passando pela minha vida, iluminaram-na com a sua presença e deixaram saudades profundas.

(4)

Ao Senhor Deus pela saúde, força, iluminação e imensa proteção, sem o qual nada é possível. Por me ter colocado em contato com pessoas fantásticas e por me agraciar com a oportunidade de participar de algo tão belo, e que por vezes esquecemos tão facilmente o quão maravilhoso é encontrar amigos em um ambiente de conhecimento.

À minha família pela paciência e compreensão, nas horas em que tive que me afastar em função dos trabalhos desta dissertação. E, em especial, aos meus pais, que sempre apoiaram, incentivaram e souberam passar aos filhos, valores de honestidade, paciência, perseverança e fé. Ao meu irmão Rogério e à minha namorada Lenita Meireles, agradeço profundamente pelo carinho.

Aos orientadores Rogério Alvarenga e Hércules Antônio do Prado, o meu agradecimento pelo incentivo e apoio, sem os quais a realização desta dissertação não teria sido possível.

À Gleycione Gundim Dutra, o meu muito obrigado pelo carinho e amizade gastos com um hóspede que esteve presente, diversas vezes, em sua residência.

À ‘Família Politec’ que, através de seus funcionários Hiraclis Nicolaidis Júnior, Nelson de Sousa e Silva Neto, Román Dario Cuattrin e Ricardo Ajax Dias Kosloski, me cativou, na cidade de Brasília.

Às amigas e funcionárias da Universidade Católica de Brasília, Janina Silva e Georgiane Pessoa Alcoforado Jordão, por todo apoio e incentivo.

A todos os colegas da COMDATA e da Secretaria Municipal de Saúde, que me auxiliaram, após a digitação de todas as tabelas, na conferência e validação dos dados.

Meus agradecimentos especiais ao Sr. Dr. Alaor Moacyr Dall'Antonia Júnior, pela autorização de doação dos parâmetros climáticos necessários, e aos meteorologistas do 10º DISME, pelo auxílio na adaptação da escala anemométrica de %HDXIRUW para esta dissertação.

(5)

I CLOSE MY EYES Eu fecho os meus olhos

ONLY FOR A MOMENT AND THE MOMENT’S GONE Somente por um momento e esse momento se vai

ALL MY DREAMS Todos meus sonhos

PASS BEFORE MY EYES IN CURIOSITY Passam diante dos meus olhos por curiosidade

DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento

SAME OLD SONG A mesma velha canção

JUST A DROP OF WATER IN A ENDLESS SEA Apenas uma gota d’água em um mar sem fim

ALL WE DO Todos nós

CRUMBLES TO THE GROUND AND WE REFUSE TO SEE Esfarelamos no chão embora recusemos a ver

DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento

DON´T HANG ON Não se perca

NOTHING LAST FOREVER BUT THE EARTH AND SKY Nada dura para sempre exceto o céu e a terra

IT SLIPS AWAY Ela se vai

AND ALL YOUR MONEY WON´T ANOTHER MINUTE BY E todo seu dinheiro não comprará outro minuto

DUST IN THE WIND, ALL WHE ARE IS DUST IN THE WIND Poeira ao vento, tudo o que somos é poeira ao vento

DUST IN THE WIND Poeira ao vento

EVERYTHING IS DUST IN THE WIND Tudo é poeira ao vento

(6)

I

A Gestão da Vigilância Epidemiológica, para Dengue, pode ser realizada, através da inclusão de modelos preditivos que auxiliem ao gestor da área de saúde, na tomada de decisão, para o combate a epidemias (surtos). Com esse suporte, o tomador de decisões pode ter o apoio técnico necessário para designar seus limitados recursos humanos e financeiros, ao tratamento dos pacientes e ao combate ao vetor urbano brasileiro ($HGHV DHJ\SWL) dessas doenças. Existem modelos relatados que alcançaram algum sucesso na predição, em áreas como a financeira e a epidemiológica. Nesta dissertação, utilizou-se Descoberta de Conhecimentos em Base de Dados com Mineração de Dados, para realizar um estudo de caso, na construção de um modelo de predição, baseado em séries temporais, para a cidade de Goiânia-Go, e para comparar os resultados obtidos nesse modelo, com os do Diagrama de Controle, que é a técnica atual utilizada no Brasil.

Foram utilizados os dados do Sistema de Informações de Agravos de Notificação (casos confirmados) e a média dos parâmetros climáticos (definida D SULRULde duas semanas), coletados pelo 10º Distrito de Meteorologia daquela cidade, no período de 01/01/2001 a 30/04/2004, por semana epidemiológica.

O uso das séries temporais se deve à possibilidade de previsões de novos estados, a partir da análise dos valores passados. Consistem em medidas ou observações, obtidas a partir de um fenômeno, e que são realizadas seqüencialmente, sob um intervalo de tempo.

As séries produzidas foram representadas na forma de redes neurais artificiais, tipo MLP – 0XOWL/D\HU 3HUFHSWURQ, com algoritmo de aprendizado de retropropagação (EDFNSURSDJDWLRQ) e, nele, aplicada a técnica de janelamento. O modelo obtido possibilita a detecção prévia do início do surto, com margem de confiança satisfatória. Evidenciou-se a sazonalidade da série histórica de Dengue para o período, com valores, também, satisfatórios, que possibilitam e credenciam a aplicabilidade do modelo, na predição de surtos de Dengue, para a cidade de Goiânia-Go.

(7)

II

$

%675$&7

The management of epidemiological surveillance for Dengue or Yellow Fever can be performed by incorporating predictive models to help the health policy makers to take decisions concerning the control of epidemics (outbreaks). With this tool he may have the necessary technical support to allocate his limited human and financial resources to the patients care and/or the control of the Brazilian urban vector ($HGHV DHJ\SWL) for these diseases. Models have been reported reaching some success in predicting financial and epidemiological fields. In our thesis we have used Knowledge Database Discovery, with datamining, using temporal series, in order to build up a predictive model for the city of Goiania - Goias in central Brazil to compare results obtained by the Control Diagram that is the standard technique applied in epidemiological studies in Brazil.

We used data from Sistema de Informações de Agravos de Notificação (confirmed cases) and the mean of climatic parameters (defined a priori in two weeks) colleted by 10º Distrito de Meteorologia of this city, from the period of 01/01/2001 to 30/04/2004, by epidemiological week. All confirmed cases refer to Dengue since there was no report of Yellow Fever during the study period.

The use of temporal series aims to predict new values taking into account the analyses of previous values. The temporal series are measures or observations obtained from phenomena and which are sequentially produced in a time interval. The temporal series were represented in artificial neural networks format such as MLP – MultiLayer Perceptron as a EDFNSURSDJDWLRQ learning algorithmic using the windowing technique. The model obtained made possible an early warning of outbreak with reliable confidence limit. There was evidence of the seasonality of the Dengue temporal series, for the period, with satisfactory values that made possible to recommend this predictive model for Dengue outbreaks in municipality of Goiania-Goias.

.H\:RUGV Datamining; prediction; forecasting; series; windowing; dengue; artificial neural network

(8)

III

5(6802 ,

$%675$&7 ,,

/,67$'(),*85$69

/,67$'(48$'5269,,

/,67$'(48$'5269,,

/,67$'(7$%(/$6 9,,,

/,67$'(*5È),&26 ,;

/,67$'(6,*/$6;

/,67$'($%5(9,$d®(6;,,

,1752'8d­2

1.1 EXPOSIÇÃO DO ASSUNTO...5

1.2 INTRODUÇÃO AO PROBLEMA...5

1.3 DEFINIÇÃO DA PESQUISA...7

1.4 DELIMITAÇÃO DA PESQUISA...7

1.5 JUSTIFICATIVA DA PESQUISA...8

1.6 REFERENCIAL TEÓRICO...8

1.7 OBJETIVOS...9

*HUDO (VSHFtILFRV 1.8 HIPÓTESE...10

+LSyWHVHSULQFLSDO +LSyWHVHVVHFXQGiULDV 1.9 ORGANIZAÇÃO DO DOCUMENTO...11

5(9,6­2'(/,7(5$785$ 2.1 DADOS, INFORMAÇÃO E CONHECIMENTO...12

2.2 GESTÃO DO CONHECIMENTO E TECNOLOGIA DA INFORMAÇÃO...14

2.3 SISTEMAS DE SUPORTE À DECISÃO...16

$X[tOLRjGHFLVmRFRPSXWDFLRQDO 2.4 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS...17

,QWURGXomR ÈUHDVGH$SOLFDomR 2.5 MINERAÇÃO DE DADOS...20

7pFQLFDVSUHGLWLYDVGD0' 3UREOHPDVGHVDILRVYDQWDJHQViUHDVGHDSOLFDomRHWpFQLFDVGD0' 2.6 CRISP-DM PARA MINERAÇÃO DOS DADOS...29

2.7 REDES NEURAIS ARTIFICIAIS...31

,QWURGXomR &DUDFWHUtVWLFDVHDUTXLWHWXUDVGDV51$V 5HGHV0XOWL/D\HU3HUFHSWURQ 2.8 GESTÃO DO CONHECIMENTO SOBRE OS EFEITOS DO CLIMA NA SAÚDE HUMANA...40

2.9 O MODELO DE NOTIFICAÇÃO BRASILEIRO...43

'LDJUDPDVGHFRQWUROH 2.10 DENGUE E SEU VETOR...45

'HQJXH 2.11 INQUÉRITOS SOROLÓGICOS...50

(9)

IV 0RGHOR$OHPmRGH6D~GH 2XWURVPRGHORVGHSUHGLomRHWUDEDOKRVHQFRQWUDGRV 7UDEDOKRVHQFRQWUDGRVUHODWLYRVDR%UDVLO 2XWUDVSXEOLFDo}HVUHIHUHQWHVD'HQJXH (VWXGRVHSLGHPLROyJLFRVHP*RLkQLD 0(72'2/2*,$

3.1 CARACTERIZAÇÃO DA PESQUISA...62

&ODVVLILFDomRGD3HVTXLVD

8QLYHUVRGD3HVTXLVD

3.2 MATERIAL E MÉTODOS...63

$ERUGDJHP$GRWDGD

'HVFULomRGRPpWRGR&5,63'0

&ROHWDGH'DGRV

5HSUHVHQWDomRGDDQiOLVHGRVGDGRV $QiOLVHGRVJUiILFRVHUHVXOWDGRVHQFRQWUDGRVQDSUHGLomR 3.3 MODELO PROPOSTO...66

3.4 ENTENDIMENTO DO NEGÓCIO...68

2EMHWLYRV

$YDOLDomRGRVUHFXUVRVDWXDLV 2EMHWLYRVDVHUHPDOFDQoDGRVSHODPLQHUDomRGHGDGRV 3.5 ENTENDIMENTO DOS DADOS...72

'DGRV,QLFLDLV

'HVFULomRGRVGDGRV

([SORUDomRGRVGDGRV

4XDOLGDGHGRVGDGRV

$VSHFWRVGD*&QRHQWHQGLPHQWRGRVGDGRV 3.6 PREPARAÇÃO DOS DADOS...101

3.7 MODELAGEM...102

3.8 APRESENTAÇÃO DOS RESULTADOS...116

$1È/,6('265(68/7$'26

&21&/86®(6(68*(67®(63$5$75$%$/+26)878526

5.1 CONSIDERAÇÕES FINAIS...121

5.2 DESTAQUES E CONTRIBUIÇÃO DA PESQUISA...121

5.3 SUGESTÕES PARA NOVOS TRABALHOS DE PESQUISA...123

5()(5Ç1&,$6%,%/,2*5È),&$6

*/266È5,2',&,21È5,2'(7(5026 $1(;2$62/,&,7$d­2'('2$d­2'('$'26$26(&5(7È5,2081,&,3$/'(6$Ò'('(

*2,Æ1,$*2

$1(;2%62/,&,7$d­2'('2$d­2'('$'26$2',5(72535(6,'(17('$&20'$7$

$1(;2&62/,&,7$d­2'('2$d­2'('$'26&/,0È7,&26$20,1,67e5,2'$

(10)

V

FIGURA 1 -PROCESSO DE CONSTRUÇÃO DE UMA BASE DE REGRAS DE UMA REGIÃO ADAPTADA DE

AGRAWAL E PSAILA (1995, PP.1-2, COM ALTERAÇÕES)...27

FIGURA 2 -REPRESENTAÇÃO DOS QUATRO NÍVEIS DA METODOLOGIA CRISP-DM(SPSS,2000,

P.09, TRADUÇÃO NOSSA)...30

FIGURA 3 -REPRESENTAÇÃO DO NÍVEL FASES DA CRISP-DM(SPSS,2000, P.13, TRADUÇÃO

NOSSA)...31

FIGURA 4 -COMPONENTES DO NEURÔNIO BIOLÓGICO (BRAGA; LUDERMIR; CARVALHO,

2000, P.06)...31

FIGURA 5 -COMPONENTES DO NEURÔNIO DE MCCULLOCH E PITTS (BRAGA; LUDERMIR;

CARVALHO,2000, P.09)...32

FIGURA 6 -ARQUITETURAS DE REDES NEURAIS ARTIFICIAIS –RETIRADA DE HAYKIN (2001,

PP.47-49) ...35

FIGURA 7 -FLUXO DE PROCESSAMENTO DO ALGORITMO %$&.3523$*$7,21...37

FIGURA 8 PREDIÇÃO DE VOLUME DE VENDAS DURANTE CINCO SEMANAS UTILIZANDO RNA COM

A TÉCNICA DE JANELAMENTO (BRAGA; LUDERMIR; CARVALHO,2000, P.226) ...38

FIGURA 9 - PREDIÇÃO REALIZADA POR ALVARENGA E OLIVEIRA JUNIOR E CARVALHO (2003,

P.19) ...39

FIGURA 10- GRÁFICO DA CURVA DE APRENDIZADO REALIZADA POR OLIVEIRA E ALVARENGA

(2003, P.10) ...40

FIGURA 11- GRÁFICO DA PREDIÇÃO REALIZADA POR OLIVEIRA E ALVARENGA (2003 P.11)...40

FIGURA 12- MUDANÇAS CLIMÁTICAS E SEUS EFEITOS NA SAÚDE HUMANA (OMS,2003D,P.30,

TRADUÇÃO NOSSA,COM ALTERAÇÕES) ...41

FIGURA 13– DIAGRAMA DE CONTROLE E CASOS NOTIFICADOS DE DENGUE POR SEMANA

EPIDEMIOLÓGICA, GOIÂNIA – GO, 2001(SIQUEIRA JUNIOR,2001, P.23)...45

FIGURA 14- ASPECTO DE UM $('(6$(*<37,(MUNSTERMANN,1995) ...46

FIGURA 15 ASPECTO DE UM $('(6$/%23,&786 (CRUZ,2004) ...46

FIGURA 16- TIPOS DE TRANSMISSÃO INDIRETA RECONHECIDA PARA DENGUE (OMS,2003D,

P.16, TRADUÇÃO NOSSA,COM ALTERAÇÕES)...47

FIGURA 17– PAÍSES COM PRESENÇA DE DENGUE EM 2003(OMS,2004C,P.74)...48

FIGURA 18- SOROTIPOS CIRCULANTES DO VÍRUS DA DENGUE POR ESTADOS, BRASIL, 2004(SVS,

2005,P.02)...49

FIGURA 19- FORMATO DE ENVIO DE DADOS DOS HOSPITAIS AO DEPARTAMENTO DE SAÚDE

PÚBLICA ALEMÃO (SCHUMANN; LÓPEZ; GRAW ,1998)...54

FIGURA 20- FORMATO DE ENVIO DE DADOS DOS HOSPITAIS AO DEPARTAMENTO DE SAÚDE

PÚBLICA ALEMÃO (SCHUMANN; LÓPEZ; GRAW,1998)...54

FIGURA 21- ÓBITOS OBSERVADOS E ESTIMADOS POR REGRESSÃO BINOMIAL NEGATIVA E REDE

NEURAL - CEARÁ, JULHO DE 1991 A DEZEMBRO DE 1995(PENNA,2004, P.355) ...56

FIGURA 22- CASOS RELATADOS DE DENGUE NO BRASIL NOS ANOS DE 1986 A 2003(SIQUEIRA

JÚNIOR,2005, P.49)...57

FIGURA 23- NÚMERO DE CASOS RELATADOS DE AGRAVO,ÓBITOS,HOSPITALIZAÇÕES E ANO DA

TIPIFICAÇÃO DOS CASOS DE DENGUE NO BRASIL (SIQUEIRA JÚNIOR,2005, P.50)...58

FIGURA 24-PREVALÊNCIA DE DENGUE EM GOIÂNIA, 2001(SIQUEIRAJÚNIOR(7$/, 2004) 61

FIGURA 25- DADOS PRELIMINARES DOS CASOS NOTIFICADOS DE DENGUE POR SEMANA

EPIDEMIOLÓGICA SEGUNDO REGIÃO, BRASIL, 2004(SVS,2005) P.01...66

FIGURA 26- DADOS PRELIMINARES DOS CASOS NOTIFICADOS DE DENGUE POR SEMANA

EPIDEMIOLÓGICA DA REGIÃO CENTRO-OESTE, BRASIL, 2003-2004(SVS,2005) P.5 ...67

(11)

VI

FIGURA 29– PERCENTUAL ANUAL DE REGISTROS DE DENGUE,APÓS SELEÇÃO, SINAN,

GOIÂNIA, JAN/2001 A ABR/2004 ...80

FIGURA 30- TIPOS E PERCENTUAL DE DENGUE, GOIÂNIA, 2001 A2004 ...80

FIGURA 31– PERCENTUAL DO TOTAL DAS RESPOSTAS NO CAMPO DENGUE DO SINAN, GOIÂNIA, 2001-2004 ...81

FIGURA 32- PERCENTUAL DO TOTAL DAS RESPOSTAS NO CAMPO VACINADO,SINAN, GOIÂNIA, 2001-2004 ...82

FIGURA 33- PERCENTUAL POR GÊNERO EM GOIÂNIA, IBGE,2000(A);PERCENTUAL POR GÊNERO NA ANÁLISE DO SINAN,GOIÂNIA, 2001 A 2004 ...83

FIGURA 34– CASOS CONFIRMADOS DE DENGUE VERSUS NÚMERO DE HABITANTES POR BAIRRO, GOIÂNIA, 2001 A 2004...84

FIGURA 35– PERCENTUAL DE FAIXA ETÁRIA POR ANO, SINAN,GOIÂNIA, 2001-2004 ...85

FIGURA 36– PERCENTUAL POR FAIXA ETÁRIA – GOIÂNIA, IBGE,2000(A) E PERCENTUAL DE CASOS CONFIRMADOS DE DENGUE – GOIÂNIA, SINAN,2001 A 2004...86

FIGURA 37– CASOS CONFIRMADOS DE DENGUE POR BAIRROS VERSUS CEMITÉRIOS EXISTENTES, GOIÂNIA, 2001-2004 ...87

FIGURA 38– CASOS CONFIRMADOS DE DENGUE VERSUS PERCENTUAL DE LOTES VAGOS POR BAIRROS, GOIÂNIA, 2001-2004...87

FIGURA 39- CASOS CONFIRMADOS DE DENGUE VERSUS PERCENTUAL DE ÁREA VERDE POR BAIRRO, GOIÂNIA, 2001-2004...88

FIGURA 40-CASOS CONFIRMADOS DE DENGUE VERSUS NÚMERO DE FEIRAS LIVRES SEMANAIS POR BAIRRO, GOIÂNIA, 2001-2004...89

FIGURA 41- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE HOSPITAIS POR BAIRRO, GOIÂNIA, 2001-2004 ...89

FIGURA 42- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE ESCOLAS, GOIÂNIA, 2001-2004 ...90

FIGURA 43- CASOS CONFIRMADOS DE DENGUE VERSUS QUANTIDADE DE PRÉDIOS POR BAIRRO, GOIÂNIA, 2001-2004...91

FIGURA 44– PERCENTUAL DE CASOS CONFIRMADOS POR SEMANA EPIDEMIOLÓGICA, GOIÂNIA, 2001A2003...91

FIGURA 45– SÉRIE TEMPORAL DOS CASOS CONFIRMADOS DE DENGUE, GOIÂNIA, 2001 A 2004 93 FIGURA 46– DIAGRAMA DE CONTROLE DE DENGUE POR SEMANA EPIDEMIOLÓGICA, SMSGO, GOIÂNIA-2004 ...103

FIGURA 47- ARQUITETURA DE REDE UTILIZADA, NO ($6<113/86PARA PREDIÇÃO EPIDEMIOLÓGICA DE DENGUE...106

FIGURA 48– GRÁFICO DA CURVA DE APRENDIZADO – RODADA 1...106

FIGURA 49– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 1 ...107

FIGURA 50–GRÁFICO DA CURVA DE APRENDIZADO – RODADA 2 ...110

FIGURA 51– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 2...111

FIGURA 52– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...112

FIGURA 53– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...113

FIGURA 54– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...115

FIGURA 55– CASOS CONFIRMADOS /PREVISTOS DE DENGUE, GOIÂNIA, 2004– RODADA 3 ...116

(12)

VII

QUADRO 1 -QUADRO DE TÉCNICAS DE MD DESENVOLVIDO A PARTIR DOS AUTORES FAYYAD E

PIATETSKY-SHAPIRO E SMYTH (1996);TURBAN E RAINER E POTTER (2004, P.159) E

DELMATER E HANCOCK (2001)...22

QUADRO 2 -DICIONÁRIO DE DADOS DA TABELA DO SINAN, REFERENTE A PESQUISAS SOBRE O DENGUE...73

QUADRO 3 -DICIONÁRIO DE DADOS SOBRE OS DADOS DO VETOR...75

QUADRO 4 -DICIONÁRIO DE DADOS DA SEPLAN...75

QUADRO 5 -DICIONÁRIO DE DADOS DA COMDATA ...76

QUADRO 6 -DICIONÁRIO DE DADOS DA TABELA REFERENTE AS SEMANAS EPIDEMIOLÓGICAS....77

QUADRO 7 -DICIONÁRIO DE DADOS DA TABELA REFERENTE AOS DADOS DO 10ºDISME ...77

QUADRO 8-CLASSIFICAÇÃO DOS PERÍODOS ENDÊMICOS E EPIDÊMICOS DE GOIÂNIA ANOS 2001 A 2004 ...98

QUADRO 9 -DICIONÁRIO DE DADOS DA TABELA CLASSIFICADORFINAL...101

QUADRO 10– ANÁLISE DOS CASOS CONFIRMADOS DE DENGUE, GOIÂNIA, 2001 A 2004 ...116

(13)

VIII

T 1 -T , ...79

TABELA 2 -ANÁLISE DOS RESULTADOS DA PREVISÃO FEITA ATRAVÉS DO DIAGRAMA DE CONTROLE DA SECRETARIA MUNICIPAL DE SAÚDE DE GOIÂNIA - GOIÁS, 2004...104

TABELA 3 – ANÁLISE DOS RESULTADOS DA PREVISÃO – TÉCNICA 1...106

TABELA 4 – ANÁLISE DOS RESULTADOS DA PREVISÃO - RODADA 2...110

(14)

IX

QUADRO DE GRÁFICOS 1 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS

CLIMÁTICAS DE 2001...94

QUADRO DE GRÁFICOS 2 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS

CLIMÁTICAS DE 2002...95

QUADRO DE GRÁFICOS 3 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS

CLIMÁTICAS DE 2003...96

QUADRO DE GRÁFICOS 4 -CASOS CONFIRMADOS DE DENGUE VERSUS MÉDIAS DE VARIÁVEIS

CLIMÁTICAS DE 2004...97

QUADRO DE GRÁFICOS 5 – TREINAMENTO PROPOSTO – RODADA 2 ...109

(15)

X 10º DISME 10º Distrito de Meteorologia

AMPLITUDE Amplitude térmica (medida diária, valor em Graus Celsius) CARESS (SLGHPLRORJLFDODQG6WDWLVWLFDO'DWD([SORUDWLRQ6\VWHP CARLOS &DQFHU5HJLVWU\/RZHU6D[RQ\

COMDATA Companhia de Processamento de Dados do Município de Goiânia CRISP-DM &URVV,QGXVWULDO6WDQGDUG3URFHVVIRU'DWD0LQLQJ

CSV &RPPD6HSDUDWHG9DOXH DBF 'DWD%DVH)RUPDW

DCBD Descoberta de Conhecimento em Banco de Dados

DH Dengue Hemorrágico

DSS 'HFLVLRQ6XSSRUW6\VWHP DW 'DWD:DUHKRXVLQJ EI Era da Informação EUA Estados Unidos da América EWS (DUO\:DUQLQJ6\VWHPV

FHD Febre Hemorrágica do Dengue FUNASA Fundação Nacional de Saúde

GC Gestão do Conhecimento

GIS *HRJUDSKLF,QIRUPDWLRQ6\VWHP HBR +DUYDUG%XVLQHVV5HYLHZ IA Inteligência Artificial

INEMET Instituto Nacional de Meteorologia KDD .QRZOHGJH'LVFRYHU\LQGDWDEDVHV MD Mineração de Dados

MGCTI Mestrado em Gestão do Conhecimento e da Tecnologia da Informação MLP 0XOWLOD\HU3HUFHSWURQ ouSHUFHSWURQPXOWLFDPDGDV

OMS Organização Mundial de Saúde

PD Índice pluviométrico ou precipitação (medida diária) PIB Produto Interno Bruto

RNAs Redes Neurais Artificiais

SAMC 6RXWKHUQ$IULFD0DODULD&RQWURO SAP Sistemas de Aviso Prévio

SEPLAN Secretaria Municipal de Planejamento SIG Sistema de Informação Geográfica SIG’S Sistemas de Informações Geográficas

SINAN Sistema de Informações de Agravos de Notificação SIR 6XVFHSWLEOH,QIHFWHG,PPXQH

SMS Secretaria Municipal de Saúde

SMS-GO Secretaria Municipal de Saúde de Goiânia-GO SSD Sistema de Suporte a Decisão

SUS Sistema Único de Saúde

TEMP Temperatura (média diária, valor em Graus Celsius)

TEMPMAX Temperatura máxima (medida diária, valor em Graus Celsius) TEMPMIN Temperatura mínima (medida diária, valor em Graus Celsius)

UBV Ultra Baixo Volume

(16)

XI

(17)

XII HJ (H[HPSOLJUDWLD), Por exemplo i.e. Isto é

(18)

,

1752'8d­2

“Se GHVHQYROYLGD H DSOLFDGD FRP VXFHVVR D WHRULD H SUiWLFD GD JHVWmR GR FRQKHFLPHQWR VHWRUQDUi XPDGLVFLSOLQDIXQGDPHQWDO SDUD HOLPLQDU HVSDoRV TXHOHYHP DR DXPHQWR GH TXDOLGDGH QD VD~GH S~EOLFD SDUD WRGRV´ Dr. Ariel Pablos-Mendez, Diretor do Departamento de Gestão e Compartilhamento do Conhecimento, da Organização Mundial de Saúde, 2005.

([SRVLomRGR$VVXQWR

É necessário o suporte à decisão para vigilância epidemiológica, através de modelos preditivos, que possam auxiliar o gestor da área de saúde, na tomada de decisão. Assim ele pode designar seus limitados recursos humanos e financeiros para o tratamento dos pacientes e para o combate ao vetor urbano de Dengue.

Existem relatos de modelos já utilizados com algum sucesso, na predição, em áreas como a financeira (HJ ALVARENGA; OLIVEIRA JUNIOR; CARVALHO, 2003) e a epidemiológica (HJ GILL, 1923 DSXG Organização Mundial de Saúde, 2004b) que podem auxiliar no prognóstico de casos confirmados de Dengue através de técnicas regressivas de Redes Neurais Artificiais.

A grande vantagem desses modelos preditivos é o preço baixo, quando não, gratuito, das variáveis (i.e. dados eletrônicos) necessárias para predição. Justifica-se esta afirmativa, pois os dados (HJ tomada do vetor, casos notificados) são coletados de forma compulsória, por diversos órgãos municipais, estaduais e federais, em todo o território brasileiro.

Nesta dissertação será abordado um modelo preditivo com a granularidade de casos confirmados de Dengue que é maior que a convencional que trabalha com casos notificados.

,QWURGXomRDR3UREOHPD

(19)

cada ano. A habilidade de se predizer as interações entre o clima e as doenças infecciosas, também tem melhorado nos últimos anos. Existe a tendência de se desenvolver modelos que possibilitem a predição ou o monitoramento de epidemias. Se forem precisos, o seu valor é inestimável.

O clima tem influência na transmissão de muitas doenças. Algumas delas estão entre as que mais influenciam o número de óbitos, nos países em desenvolvimento (OMS, 2004b, p.08, 37). Especula-se que ondas de calor ou mudanças climáticas extremas possam causar impactos significantes na disseminação de doenças contagiosas (OMS, 2004b, p.10).

Sabe-se que algumas doenças infecciosas, principalmente as disseminadas por vetores (insetos), como o Dengue - estão geograficamente limitadas por padrões ambientais (HJ clima, vegetação) (OMS, 2004b, p.10). São tradicionalmente conhecidas como “doenças da pobreza” (PAIM, 2003, p.563) ou “doenças da modernidade” (ANDRADE; DANTAS, 2004, p.01) e estão relacionadas a populações de baixo poder aquisitivo e a países em desenvolvimento, (OMS, 2004b, p.37). (xistem algumas exceções FRPR a Austrália e &ingapura. Dentre estas doenças está o Dengue que é disseminado pelo seu vetor ($HGHV DHJ\SWL) e que possui influência sazonal (OMS, 2004b).

Na saúde pública, a epidemiologia é uma das áreas na qual o maior número de estudos e publicações encontrados referentes ao Dengue, é realizado através de inquéritos sorológicos e estudos estatísticos.

Os modelos de predição existentes e relatados (OMS, 2004b, 2003d, 2000, dentre outros), utilizam, basicamente, dados históricos para detectar padrões de comportamento e estimar seus valores no futuro. De forma genérica, empregam-se técnicas matemáticas e/ou estatísticas para representar a realidade, na qual foram criadas. As estatísticas têm sido usadas, com algum sucesso, para predição desses padrões.

(20)

Assim, a proposta é explorar o uso da técnica de janela de tempo, também conhecida como janelamento, sobre série de dados temporais para a construção de modelo preditivo que, com certa margem de confiança, consiga prever o número de casos confirmados que irão ocorrer em um determinado período, a partir dos dados notificados de Dengue, contidos no Sistema de Informações de Agravos de Notificação (SINAN) e de medidas climáticas de uma cidade, neste caso, foi escolhido como objeto de estudo os dados da cidade de Goiânia - Goiás.

Essa abordagem justifica-se por:

a) As instituições de saúde pública, em todo território brasileiro, notificam, ao longo dos anos e de forma compulsória, ao Departamento de Vigilância Sanitária da cidade a que pertencem e à Secretaria Estadual de Saúde de seu Estado, cerca de trinta e cinco (35) doenças diferentes, determinadas por lei (dentre elas, o os casos notificados de Dengue). As notificações são feitas na forma de registros padronizados de prontuários médicos e digitalmente guardadas no SINAN, através de uma coleção de dados disponíveis, na forma de banco de dados eletrônico (FUNASA, 2002);

b) O vetor (Aedes aegypti) da doença tem influência sazonal.

'HILQLomRGD3HVTXLVD

Predizer, por meio de um modelo baseado em Redes Neurais Artificiais, a ocorrência de surtos urbanos causados pelos vetores: PRVTXLWR$HGHVpossibilitando aos gestores da área de saúde, suporte à decisão, para o planejamento de combate a epidemias.

'HOLPLWDomRGD3HVTXLVD

Cria um modelo para predição urbana de surtos de Dengue (OMS, 2004b, p.17), e alimenta esse modelo com dados (i.e. parâmetros climáticos e pacientes confirmados) Prediz a ocorrência de surtos em uma região, (OMS, 2004b, pp.15-16) e avalia seu valor de predição (possibilita ao gestor, designar recursos humanos e/ou financeiros para o tratamento dos pacientes, campanhas informativas e educativas e combate do vetor da

1

(21)

doença em tela).

-XVWLILFDWLYDGD3HVTXLVD

A cada dia, gera-se grande quantidade de dados médicos (registrados em prontuários) e laboratoriais (resultados de exames) de pacientes atendidos por profissionais de saúde em hospitais ou laboratórios. Esses dados representam as condições médicas ou doenças que os pacientes apresentam e possibilitam a notificação de casos de doenças transmissíveis. A notificação é importante, especialmente na prevenção e disseminação de epidemias2 e pode ser feita de forma semanal, mensal e anual (SCHUMANN; CHAVEZ; GRAW, 1998, p.01; OMS, 2004b, p.27).

A análise rápida dos dados assegura suporte epidemiológico a gestores de saúde (OMS, 2004b), através de ações preventivas à disseminação ou ao surgimento de epidemias (CUMMINGS HWDO, 2004, p.345), através do combate ao vetor ou vacinação da população. Pode ser feita através de:

a) Técnicas de Mineração de Dados, para buscar os padrões de ocorrência e comportamento das doenças (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37);

b) Análise estatística ou de gráficos (OMS, 2004b, p.08,09).

Essa pesquisa utiliza os dados de exames laboratoriais e avaliações médicas do Sistema Único de Saúde Brasileiro (SUS), do qual setenta por cento (70%) da população brasileira depende (WESTPHAL, 2000, p.46) e fornece ao gestor da área de saúde bases para gerenciar seus limitados recursos humanos e financeiros.

5HIHUHQFLDO7HyULFR

Os Sistemas de Suporte à Decisão fornecem alternativa computacional aos gestores, para tomada de decisão, em problemas cuja solução não é trivial. Suas principais vantagens são (TURBAN; RAINER; POTTER, 2004):

a) Permitir tomadas de decisões a partir de grandes fontes (bases) de dados;

b) Superar os limites humanos no processamento e armazenamento de informações;

(22)

c) Reduzir os custos de pesquisa de um projeto;

d) Prover soluções com qualidade e em curto espaço de tempo.

A Mineração de Dados apresenta a possibilidade de gerar, através de tarefas/técnicas (HJ regressão e classificação) e aplicativos (VRIWZDUHV) específicos, informações preditivas que possam fornecer aos gestores, subsídios para tomada de decisão. Dentre estes VRIWZDUHVestão os que utilizam as Redes Neurais Artificiais para este fim (predição) (BRAGA; LUDERMIR; CARVALHO, 2000; ALVARENGA; OLIVEIRA JUNIOR; CARVALHO, 2003).

As Redes Neurais Artificiais são sistemas de processamento de informações distribuídos, compostos por elementos computacionais simples (i.e. neurônios artificiais) e, por serem inspiradas no cérebro humano, apresentam características como a capacidade de aprendizagem de padrões complexos de informações ou a de generalizar uma informação aprendida (BAETS; VENGOPAL, 1994 DSXG PASSARI, 2003; BRAGA; LUDERMIR; CARVALHO, 2000; HAYKIN, 2001; OLIVEIRA; ALVARENGA, 2003).

A OMS (2004b, 2003e, 2000b), enfatiza a necessidade de pesquisas que possam fornecer suporte à decisão, aos gestores da área de saúde, na predição e combate de surtos (RXWEUHDNV) de várias doenças que estão sob influência sazonal, incluindo as causadas por vetores. Em todo mundo, Dengue está entre as doenças que mais afetam a população dos países em desenvolvimento.

No Brasil, o combate e a prevenção de trinta e cinco doenças diferentes, é feito através do Modelo Brasileiro de Notificação. Esta notificação, nos hospitais públicos e estaduais, é feita através de preenchimento de formulários específicos que são enviados à Secretaria Municipal de Saúde e armazenados em forma digital no Sistema de Informações de Agravos de Notificação. Em relação a Dengue, que é uma destas doenças, o modelo é passivo e definido por lei. (FUNASA, 2002).

2EMHWLYRV

*HUDO

(23)

decisão no combate a epidemias de Dengue, utilizando Redes Neurais Artificiais para predizer o número de casos confirmados dessas doenças, em menor tempo e maior precisão do que a prática atual.

(VSHFtILFRV

Os objetivos específicos desta pesquisa são relacionados a seguir:

• Construção de uma base de conhecimentos epidemiológicos, a partir da análise de variáveis para diagnóstico e identificação do surto3a partir das seguintes fontes de dados:

a) Resultados de exames laboratoriais e avaliações médicas (Dengue), realizados nos laboratórios e consultórios do Sistema Único de Saúde (SUS) da cidade de Goiânia–GO, registrados no SINAN;

b) Índice pluviométrico, temperatura e umidade relativa do ar, de Goiânia, realizado pelo 10º DISME – Distrito de Meteorologia.

• Fornecer bases para a otimização dos recursos humanos e/ou financeiros utilizados na gestão epidemiológica de Dengue;

• Uso e avaliação da tecnologia baseada em RNAs como instrumento de análise e predição epidemiológica.

+LSyWHVH

+LSyWHVHSULQFLSDO

Um modelo de predição, baseado em Redes Neurais Artificiais, aplicando séries temporais, pode garantir maior precisão de resultados e melhor qualidade que o modelo atual utilizado pelo Sistema Brasileiro de Notificação, vigente para Vigilância Epidemiológica de Dengue.

+LSyWHVHVVHFXQGiULDV

O número de casos confirmados de Dengue em Goiânia-Go, neste período,

(24)

apresenta relação com:

a) Mudanças das variáveis climáticas (i.e. apenas algumas variáveis climáticas influenciam o surto);

b) Características urbanas (HJ percentual de área verde, número de prédios por bairro, número de cemitérios) e populacionais (sexo, habitantes por bairro e faixa etária) apresentadas em Goiânia-GO no período estudado.

2UJDQL]DomRGR'RFXPHQWR

O presente trabalho está estruturado em cinco (05) capítulos, a saber:

No Capítulo 1 – Introdução – apresentação das considerações iniciais: ao conhecimento sobre a interação entre o clima e a saúde; à definição do tema, delimitação da pesquisa, referencial teórico, justificativa, objetivos e hipóteses desta dissertação.

No Capítulo 2 - Revisão de Literatura – apresentação do referencial teórico sobre dados, informação e conhecimento. Na seqüência, aborda-se: Gestão do Conhecimento e Tecnologia da Informação; Sistemas de Suporte à Decisão; Mineração de Dados; Redes Neurais e Séries Temporais; efeitos do clima sobre a saúde humana; Modelo Brasileiro de Predição; Dengue, assim como, também, o vetor brasileiro reconhecido ($HGHVDHJ\SWL) e os estudos relatados, encontrados.

No Capítulo 3 – Metodologia – exposição dos procedimentos metodológicos para elaboração do trabalho, incluindo o processo de análise e modelagem de dados, para especificação do modelo neural e dos critérios de avaliação. Foi utilizada a metodologia &URVV,QGXVWULDO6WDQGDUG3URFHVVIRU'DWD0LQLQJ através da aplicação de um estudo de caso, na cidade de Goiânia–Go e posterior apresentação dos resultados encontrados no período estudado.

No Capítulo 4 - Apresentação e Análise dos Resultados.

(25)

5

(9,6­2'(

/

,7(5$785$

“O valor do conhecimento é intangível, o que para muitos pode não ter sentido, para outros pode ser a ‘invenção da pólvora’”. Autor desconhecido

'DGRV,QIRUPDomRH&RQKHFLPHQWR

Os dados “são fatos brutos, não organizados para transmitir um significado específico” (TURBAN; RAINER; POTTER, 2004, p.364). São importantes porque, através deles, é possível a criação da informação. O que permite a eficiência da informação é a qualidade dos dados, não a sua quantidade ou o seu conjunto.

Uma informação pode ser caracterizada através de conjunto de itens que tenham significado (TURBAN; RAINER; POTTER, 2004, p.364) e proporcionem um novo ponto de vista para a interpretação de eventos ou objetos, tornando visíveis, significados antes invisíveis. A compreensão de dados (HJ fatos, textos, gráficos, imagens estáticas, sons, etc.), por um indivíduo ou conjunto de indivíduos (organização) é uma informação. Esta informação se completa e, sem sobrecarga, pode ser usada como vantagem competitiva para tomada de decisão, no ambiente em que foi moldada (MORESI, 2000, pp.17-18).

“Essa informação pode não ser a mesma do ponto de vista de quem emitiu a mensagem, pois emissor e receptor são pessoas com experiências distintas” (LEMOS, 2003, p.07).

Pode-se considerar a informação como meio necessário para extrair ou construir o conhecimento, alterando-o ou reestruturando-o. É o produto capaz de gerar o conhecimento.

“Conhecimento não é dado e nem informação, mas está relacionado a ambos” (TEIXEIRA FILHO, 2001, p.21). “É mais valioso e poderoso do que os recursos naturais” (STEWART, 1998, p.XIII). É o resultado da interpretação, aprendizagem e utilização da informação para algum fim, especificamente para gerar novas idéias, resolver problemas ou tomar decisões (STEWART, 1998).

(26)

superior à capacidade de mobilizar os meios e recursos necessários à transformação desses dados, em informações e, dessas informações, em conhecimento. O significado da tríade (dados, informações e conhecimento) é bastante contextual e subjetivo. O que é informação para uma pessoa ou organização pode não passar de dados para outro ente qualquer. Além do fato de que o conhecimento depende de uma série de condições e de conceitos bastante abstratos como valor, reflexão, síntese e utilidade, entre outros (ALVARENGA; JUNIOR; CARVALHO, 2004, p.05).

Capturar e disseminar o conhecimento de uma instituição (organização) não é tarefa fácil. Embora existam diversos profissionais e técnicas de captura e disseminação, ambos (profissionais e técnicas) dependem, também, do interesse, comprometimento e dedicação das pessoas que compõe a organização, em representar e disseminar esse conhecimento. E aquela que representa e dissemina o conhecimento, tem a capacidade de gerar diferenciais competitivos importantes.

Por exemplo: para maximizar os lucros em pesquisas, uma organização que possua várias filiais, desenvolve diversos projetos simultâneos. Provavelmente os profissionais que compõem as equipes, enfrentam alguns problemas iguais ou semelhantes aos já ocorridos em projetos anteriores. Se as informações de solução dos problemas anteriores (técnicas aplicadas) estão mantidas e são compartilhadas dentro da organização, os especialistas dos novos projetos localizam as soluções e as aplicam de maneira rápida e eficaz. Outro exemplo interessante, no mesmo sentido, é o de compartilhar, vender ou comprar informações (soluções) sobre resolução de desafios, em projetos já enfrentados por outras organizações.

Deve-se ressaltar que o conhecimento pode ser dividido em tácito e explícito (NONAKA; TAKEUCHI, 1997, p.62; TURBAN; RAINER; POTTER, 2004, p.389). “O conhecimento tácito é pessoal, específico ao contexto e, assim, difícil de ser formulado e comunicado. Já o conhecimento explícito ou ‘codificado’, refere-se ao conhecimento transmissível em linguagem formal e sistemática” (POLANYI, 1966 DSXG NONAKA; TAKEUCHI, 1997, p.65). O segredo para aquisição do conhecimento está, dentre outros fatores, na experiência obtida através da convivência entre indivíduos (NONAKA; TAKEUCHI, 1997, p.69).

(27)

informação, diz respeito a ‘crenças’ e ‘compromissos’. O conhecimento é uma função de uma atitude, perspectiva ou intenção específica. Segunda, o conhecimento, ao contrário da informação, está relacionado à ‘ação’. É sempre o conhecimento ‘com algum fim’. E terceira, o conhecimento, como a informação, diz respeito ao ‘significado’. É específico ao contexto e relacional [...] consideramos o conhecimento como “um processo humano dinâmico de justificar a crença pessoal com relação à ‘verdade’” (NONAKA; TAKEUCHI, 1997, p.63).

*HVWmRGR&RQKHFLPHQWRH7HFQRORJLDGD,QIRUPDomR

A informação e o conhecimento são os diferenciais competitivos que atualmente são considerados os produtos econômicos mais valorosos que uma organização (empresa, instituição) pode possuir. Na verdade, o conhecimento tácito vem sendo usado nas organizações há muito tempo embora o reconhecimento de ele que pode e deve ser aplicado como vantagem competitiva, seja relativamente recente (TEIXEIRA FILHO 2001, p.22).

A Gestão do Conhecimento (GC), nesse sentido, atinge um campo multidisciplinar, que possibilita amplas implicações e aplicações em diversas áreas, pois permite que os pesquisadores possam se tornar profissionais geradores, mantenedores e disseminadores do conhecimento, em uma instituição (organização). A Tecnologia da Informação (TI), normalmente associada à GC, pode ser vista como o recurso básico para implantação da GC nas organizações (DRUCKER, 1999 DSXG LEMOS, 2003, p.06).

Na verdade a GC “é um tipo de gestão pelo qual o reconhecimento do conhecimento individual e organizacional é fator básico para atingir os resultados desejados de uma organização” (LEMOS, 2003, p.06). Deve ser difundida entre os funcionários (também conhecidos como multiplicadores) da organização de forma a maximizar a confiança no processo de geração, absorção de conhecimento e produtividade na organização (ARAUJO; FREIRE; MENDES, 1997).

(28)

organização” (TURBAN; RAINER; POTTER, 2004, p.389); ou F um conjunto de princípios e ferramentas para otimizar e integrar o processo criativo de criar, desenvolver e disseminar o conhecimento de forma estratégica e efetiva dentro da organização (OMS, 2005, p.02).

"Existe uma relação sinergética poderosa entre gestão do conhecimento e tecnologia; esta relação leva a retornos crescentes e sofisticação crescente, em ambas as frentes. À medida que a tecnologia de informação se torna nossa ferramenta pessoal e nossa conexão com os outros, aumenta nossa cobiça em acessar ainda mais informação e conhecimento de outras pessoas, e então demandamos ferramentas de TI ainda melhores e mais eficientes, que se tornam parte da forma como trabalhamos” (O'DELL; GRAYSON JR, 1998, p.30).

Embora GC seja um campo novo e em discussão (TURBAN; RAINER; POTTER, 2004, p.388), existe, no mercado, uma enorme quantidade de ferramentas que procuram gerenciar os conhecimentos das empresas. Infelizmente, nenhuma delas fornece um modelo que se adapte a todas.

A gestão e o compartilhamento do conhecimento, no que diz respeito aos sistemas de saúde, representam uma importante oportunidade para melhorar o atendimento e tratamento de pacientes, particularmente nos países em desenvolvimento, pois podem trocar experiências sobre campanhas preventivas e combate a doenças (OMS, 2005, p.01).

A OMS (2005, p.02), no sentido de relatar e pesquisar novas ferramentas e soluções criou o Departamento de Gestão e Compartilhamento do Conhecimento, que tem, como tarefa, a construção de uma rede global, visando o compartilhamento de informações de cunho médico e científico, entre todos os países. Sua estratégia é compartilhar as abordagens da própria OMS com a perícia em saúde, de forma a encontrar ou criar novas ferramentas e novas maneiras de se aplicar o conhecimento, aumentando, assim, em todo o mundo, a qualidade dos sistemas de saúde pública.

(29)

campanhas ou práticas preventivas dessa doença (OMS, 2005, p.02).

6LVWHPDVGH6XSRUWHj'HFLVmR

O decisor normalmente possui capacidade de conhecimento limitada, ao se deparar com problemas complexos e grandes. Sua habilidade não é suficiente para fornecer soluções que conduzam a resultados esperados e desejados (EIRMAN; NIEDERMAN; ADAMS, 1995; TURBAN; RAINER; POTTER, 2004, p.369). Assim, a tomada de decisão é um aspecto importante para a gerência no planejamento das atividades operacionais das organizações. É o ato final de um processo que visa resolver um problema ou um conjunto de problemas, em um domínio de aplicação (HENDRIKS; VRIENS, 1995; RAFAELI NETO, 2001).

Segundo Hendriks e Vriens (1995) e Rafaeli Neto (2001), os Sistemas de Suporte à Decisão fornecem a solução para problemas que no domínio geográfico, por exemplo, tendem a serem novos, complexos, grandes e mal estruturados. Sua complexidade se deve à interação de uma série de variáveis de natureza complexa (HJ natureza geográfica, técnica, organizacional, social, temporal, etc.).

2.3.1 $X[tOLRjGHFLVmRFRPSXWDFLRQDO

Os 'HFLVLRQ6XSSRUW6\VWHP±'66 ou Sistemas de Suporte à Decisão (SSD) são ferramentas computacionais que, através de consulta à base de dados, auxiliam aos gerentes na tomada de decisão (ADRIAANS; ZANTIGE, 1996, p.28; DELMATER; HANCOCK, 2001, p.88; PORTO; AZEVEDO, 1997 DSXG CARVALHO, 2003, p.23; TURBAN; ARONSON, 1998, p.267; TURBAN; RAINER; POTTER, 2004, pp.369-372).

Os SSD representam uma abordagem de auxílio computacional, baseada na intensa utilização de bases e modelos de dados, que proporcionam o diálogo entre o homem e o computador, na solução de problemas não triviais (CARVALHO, 2003, p.23; HAMMERS, 2002, p.01; TURBAN; RAINER; POTTER, 2004, pp.369-372).

(30)

gerencial; G seu objetivo é melhorar a efetividade das decisões e não a eficiência do processo de tomada de decisão (TURBAN; ARONSON, 1998; TURBAN; RAINER; POTTER, 2004, pp.369-372).

Os seus usuários podem utilizá-los em três tipos de configurações: D ativas (permite sugestões ou decisões); E passivas (não permite sugestões ou decisões); F cooperativas (permite que o responsável pelas decisões ou um técnico sob sua orientação, modifique, refine ou termine o processo de análise) (HÄTTENSCHWILER, 1999 DSXG GACHET, 2001, p.215).

Em um SSD, deve haver um profissional que domine o problema, para que, através de informações e concepção intelectual do assunto, possa obter um bom suporte à decisão (HÄTTENSCHWILER, 1999 DSXG GACHET, 2001, p.215).

O melhor SSD não é aquele que utiliza as melhores técnicas matemáticas ou de pesquisa a bases de dados, mas sim o que é capaz de induzir as melhores decisões. O SSD não tem o objetivo de encontrar a solução ótima, mas, sim, auxiliar ao gestor na escolha de uma alternativa satisfatória ao seu problema (PORTO; AZEVEDO, 1997 DSXG CARVALHO, 2003, pp.23-24; TURBAN; RAINER; POTTER, 2004, pp.369-372).

São exemplos típicos de SSD, os Sistemas de Informações Geográficas e os Sistemas Especialistas (TURBAN; ARONSON, 1998, TURBAN; RAINER; POTTER, 2004, p.372, 383). Citam-se como aplicações de SSD o: D Planejamento de mercado e pesquisa; exemplo: geração de um catálogo de vendas, a partir da estimativa das decisões de compra, que um consumidor pode fazer; E Planejamento estratégico e operações; exemplo: monitoração, análise e geração de fazer relatos das tendências sutis de mercado, o que pode auxiliar o gestor, a tirar proveito de campos ainda não explorados; F Suporte a vendas; exemplo: executivos de altos escalões recebem relatórios diários de vendas de produtos por região (TURBAN; ARONSON; 1998; TURBAN; RAINER; POTTER, 2004); e G A alocação de água para projetos de irrigação (CARVALHO, 2003).

'HVFREHUWDGH&RQKHFLPHQWRHP%DVHGH'DGRV

(31)

POTTER, 2004, p.132).

“A maioria das organizações internacionais produzem mais informações em uma semana que algumas pessoas podem ler em toda a sua vida” [...] “Existe um paradoxo no crescimento dos dados, quanto mais dados menos informação” (ADRIAANS; ZANTINGE, 1996, p.02, tradução nossa).

,QWURGXomR

A produção, coleta e armazenagem de dados, no mundo, aumentam em uma enorme velocidade, tornando impossível a análise adequada para transformá-las em informações úteis (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37). As bases de dados, que podem representar de 65 a 70% do espaço existente em disco (MOORE, 1999, p.01), estão crescendo em tamanho, de duas maneiras: pelo aumento de número de registros e pelo número de campos (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.38).

A transformação tradicional de dados em conhecimento usa análise manual e interpretação. É realizada por especialistas que, através de teorias e ferramentas, extraem informações úteis, a partir de dados digitais. Ao final do processo, os especialistas geram relatórios sobre seus estudos, para decisões ou planejamentos, fornecendo suporte à decisão. Essa maneira tradicional de gerar conhecimento é cara, lenta e altamente subjetiva (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.37-38; TURBAN; RAINER; POTTER, 2004, pp.130-132, 362-363).

(32)

devido ao grande número de produtos comerciais existentes e aos requisitos para operar essa ferramenta.

É inegável que diante das dificuldades acima listadas e do desgaste humano para analisar, manualmente, essa grande quantidade de dados, surge o desafio de desenvolver técnicas, ou aplicativos de automação, capazes de filtrar a informação necessária de grandes bases de dados e disponibilizá-la em formatos visualmente compreensíveis, que possam ser utilizados para solução de um problema (ADRIAANS; ZANTIGE, 1996, p.02; GOEBEL; GRUENWALD, 1999, p.20; MOORE, 1999, p.01).

Nem sempre dados garantem informação e informação traz conhecimento. O desafio é retirar a informação escondida nas bases de dados, de forma a utilizá-la em decisões (HAN; KAMBER, 2001, p.279; TURBAN; RAINER; POTTER, 2004, p.362). Soluções estão sendo pesquisadas e resultados estão sendo obtidos, através de técnicas oriundas da Inteligência Artificial (IA) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37), dentre elas, a Mineração de Dados.

O termo .QRZOHGJH 'LVFRYHU\ LQ 'DWDEDVHV (KDD) ou Descoberta de Conhecimento em Banco de Dados (DCBD) foi cunhado no primeiro encontro de pesquisadores da área ocorrido em 1995, em Montreal (ADRIAANS; ZANTINGE, 1996, p.05).

Foi definido como: “O processo de extração de conhecimento a partir dos dados registrados numa base de dados, extração esta não trivial de conhecimento implícito, previamente desconhecido e potencialmente útil, feita a partir dos dados registrados” (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.40, tradução nossa).

DCBD é o processo completo de descoberta de conhecimento, a partir de uma base de dados, e estabelece uma ênfase especial em encontrar padrões de dados, compreensíveis ou interessantes, que possam ser interpretados visando a criação de conhecimento (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.39-40; MEDEIROS OLIVEIRA, 2005, p.01; OLIVEIRA; ALVARENGA, 2003, p.02).

(33)

forma primitiva, em outras formas que serão: D mais compactas (HJ um pequeno relatório); E mais abstratas (HJ um modelo que possa ter sido concebido a partir de dados); F mais proveitosas (HJ um modelo de predição para estimativa de casos futuros) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.37; NOON; HANKINS, 2001, p.01). “O centro do processo é a aplicação de métodos específicos de mineração de dados, para descoberta e extração de padrões” (AGRAWAL; PSAILA, 1995 DSXG FAYYAD; PIATETSKY-SHAPIRO, 1996).

2.4.2 ÈUHDVGH$SOLFDomR

Dentre outras áreas de aplicação de DCBD, citam-se as seguintes: D0DUNHWLQJ que procura identificar padrões de compras em consumidores, para a determinação dos produtos que serão colocados em locais vizinhos, maximizando, assim, a venda (venda cruzada); E Monitoração de fraudes eletrônicas em cartões de crédito, que possam indicar a atividade de lavagem de dinheiro; F Predição de problemas em projetos aéreos, através de relatos de falhas, a partir de agrupamentos; G Localização e classificação de problemas ocorridos em telecomunicações de maneira a evitar consultas a padrões já conhecidos; H Identificação e eliminação de redundância de dados; I Predição epidemiológica, possibilitando ao gestor da área de saúde, o planejamento de recursos para o atendimento a pacientes infectados ou para o combate ao vetor de uma determinada doença (dengue) (MEDEIROS OLIVEIRA, 2005, p.01; CASTRO; ALVARENGA; PRADO, 2004, p.83; CASTRO; ALVARENGA; PRADO, 2005, p.41; DELMATER; HANCOCK, 2001, p.270; FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, pp.38-39; TURBAN; ARONSON, 1998, p.130; TURBAN; RAINER; POTTER, 2004, p.159; WANG; WEIGEND, 2004, p.457).

Existem várias propostas para o processo de DCBD, dentre elas as de Fayyad e Piatetsky-Shapiro e Smyth (1996), Adriaans e Zantinge (1996) e a de Kamp e Grupe (1997).

0LQHUDomRGH'DGRV

(34)

PIATETSKY-SHAPIRO; SMYTH, 1996, p.39).

Mineração de Dados (MD) pode ser definida como um processo automatizado que, a partir de grandes volumes de dados, gera um conjunto de regras significativas ou identifica informações (recursos ou tendências ou agrupamentos), que são dificilmente perceptíveis (BOSE; SUGUMARAN, 1999 DSXGCOFFIN HW DO, 2004, p.02; FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996, p.39; FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992 DSXG ELDER, 2004, p.02; REIFER, 2002, p.14) e que podem ser utilizadas com o objetivo de suporte à decisão (HAN; KAMBER, 2002, p.279; WANG; WEIGEND, 2004, p.457; TURBAN; ARONSON, 1998; TURBAN; RAINER; POTTER, 2004, p.159).

Outras aplicações de MD são (TURBAN; RAINER; POTTER, 2004, p.383): D predição automatizada de tendências e comportamentos, através da automatização do processo de procura de informações (HJ compras realizadas por clientes no passado) em bancos de dados, para se prever alvos futuros (HJ seleção de clientes em potencial, para determinado produto a ser vendido); E detecção automática de padrões desconhecidos, anteriormente, através da análise dos dados de vendas com a identificação dos produtos, aparentemente, não relacionados, que geralmente são vendidos em conjunto, em um determinado dia da semana (HJ fraldas e cerveja em uma sexta-feira à noite). Existem diversos projetos em que a MD pode ser aplicada, dentre eles (ELDER, 2004, p.04): D avaliações de crédito; EPDUNHWLQJ;F predição de vendas; G detecção de fraudes.

Para Fayyad e Piatetsky-Shapiro e Smyth (1996, p.39), o objetivo da DM é a extração de conhecimento de alto nível, a partir de dados de baixo nível, contidos em grandes conjuntos de dados (HJ extrair conhecimento a partir de uma base de dados). Já para Delmater e Hancock (2001, p.04) o desafio é bem maior: o objetivo definido é o de extrair conhecimento de alto nível, a partir de dados de alto nível, o que é bem mais complexo (HJ extrair conhecimento de um GDWDZDUHKRXVH).

(35)

Na visão de Delmater e Hancock (2001, p.07), a análise da MD desenvolve modelos de dois tipos: D modelos para previsão (predição), que envolvem a utilização de uma parte ou de todo o conjunto de variáveis existentes, para prever valores desconhecidos ou futuros, de variáveis de interesse (HJ desastres naturais, índices de degradação ambiental, índice de reprodução de vetores, surtos); E modelos para descrição, que busquem padrões em um sistema de forma a torná-los interpretáveis.

Autores como Fayyad e Piatetsky-Shapiro e Smyth (1996, p.39), Medeiros Oliveira (2005, pp.13-14) e Turban e Rainer e Potter (2004, p.159) dizem que a mineração de dados possui várias técnicas (tarefas), dentre elas a classificação, a regressão, a clusterização e a sumarização.

As tarefas de classificação e a regressão são preditivas, já a clusterização e sumarização são descritivas. As descritivas se concentram em encontrar padrões que descrevam os dados de forma interpretável pelos seres humanos. As preditivas realizam inferências nos dados, para construir modelos que serão usados nas predições do comportamento de novos dados. Nesta dissertação serão abordadas apenas as técnicas preditivas.

No Quadro 1, para cada técnica relatada nas obras de Fayyad e Piatetsky-Shapiro e Smyth (1996) e Turban e Rainer e Potter (2004, p.159), foi especificado o tipo de modelo relatado por Delmater e Hancock (2001).

4XDGUR4XDGURGHWpFQLFDVGH0'GHVHQYROYLGRDSDUWLUGRVDXWRUHV)D\\DGH3LDWHWVN\6KDSLURH 6P\WK7XUEDQH5DLQHUH3RWWHUSH'HOPDWHUH+DQFRFN

Técnica Descrição dos modelos Tipo

Classificação

Pressupõe características definidoras de um grupo específico (como clientes que foram perdidos para concorrentes)

Preditiva

Regressão Prediz um valor numérico com base no comportamento histórico dos dados

Preditiva

Clusterização Possibilita gerar agrupamentos a partir de

semelhanças encontradas nos dados. Descritiva Associação Procura descobrir se existe algum padrão de

relacionamento entre itens existentes nos dados (como o conteúdo de um carrinho de compras)

(36)

2.5.1 7pFQLFDVSUHGLWLYDVGD0'

A classificação e a regressão são formas de análise de dados, que podem ser usadas para extrair dois tipos de modelos: D os que descrevem classes de dados importantes; E os que atuam na predição de tendência de dados futuros (HAN; KAMBER, 2001, p.279; PRADO, 1998, p.39; OLIVEIRA; ALVARENGA, 2003, p.03).

A predição visa estabelecer o valor de um ou mais atributos, em um banco de dados, a partir de outros atributos presentes [...] A abordagem preditiva não implica, necessariamente, na previsão de um valor futuro - ‘a característica importante é que ela faz uma adivinhação educada sobre o valor de um ou mais atributos desconhecidos, dados os valores de outros atributos conhecidos’ [JOH97] (PRADO, 1998, p.39).

Faz-se, então, necessária, a distinção entre as técnicas preditivas de classificação e regressão. Na classificação, cada registro (tupla) pertence a uma classe, entre um conjunto pré-definido de classes. A classe de uma tupla é indicada por um valor especificado pelo usuário, em um atributo objetivo. As tuplas consistem de atributos preditivos e um atributo objetivo, este último indicando a que classe esta tupla pertence (HAN; KAMBER, 2001, p.280). O atributo objetivo é do tipo categórico ou discreto (i.e. pode tomar apenas um valor dentro de um conjunto de valores discretos) (HJ {SIM, NÃO}; {01...10}; {POSITIVO, NEGATIVO, ZONACINZA}), determinando classes ou categorias.

O princípio da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo, de modo a desvendar um conhecimento que possa ser utilizado, para prever a classe de uma tupla desconhecida (OLIVEIRA; ALVARENGA, 2003, p.03).

(37)

Suponha que, em uma cidade, tenham ocorrido várias endemias ou epidemias de uma doença ou conjunto de doenças. Essas ocorrências, provavelmente foram registradas pela Secretaria Municipal de Saúde dessa cidade. Seria interessante utilizar esses dados, para prever a ocorrência de surtos de uma doença e, assim, possibilitar as autoridades competentes a planejar melhor seus limitados recursos (humanos/financeiros), desencadeando ações de vacinação ou combate ao vetor dessa doença, de forma a melhorar o atendimento aos pacientes e, até mesmo, amenizar o número de casos confirmados.

No caso de doenças com influência sazonal, a partir dos dados climáticos e epidemiológicos registrados, um algoritmo de regressão pode descobrir regras que possam prever o número de casos confirmados, em uma cidade. No caso da regressão, a informação do surto ocorrido (i.e. número de confirmados) é totalizada em um atributo (neste caso, o atributo objetivo). Uma vez que se tenha o atributo objetivo determinado, prepara-se o subconjunto de atributos preditivos, dentre aqueles existentes na base de dados. Claramente alguns atributos, tais como nome do paciente, raça, cor dos olhos, estatura, peso, dentre outros, são, de modo geral, irrelevantes para previsão do surto e, portanto, devem ser desconsiderados.

No caso da predição, para se medir o quão bom é o padrão encontrado (a chamada acurácia do modelo), basta verificar o número de acertos, em um total de casos testados (PRADO, 1998, p.39).

São esperadas duas reações distintas às predições: D Preparar-se para as conseqüências das mudanças ocorridas. Por exemplo, no caso de predição de um número alto de pacientes infectados por uma doença (HJ dengue), o gestor pode designar seus limitados recursos humanos/financeiros para o tratamento desses pacientes, em hospitais; E tomar medidas para reverter ou modificar as predições, reduzindo as incertezas com a produção de informações, evitando, assim, surpresas com a precipitação dos eventos. Se o cenário previsto é o de um surto, o gestor pode decidir tentar amenizá-lo, determinando que sejam incrementadas, ou iniciadas, campanhas de combate ao vetor. (CUMMINGS HW DO, 2004, p.345; HANKE; REITSCH 1995 DSXG PASSARI, 2003, p.08).

(38)

tradicionais, já que lida com grande quantidade de volume de dados e consegue gerar padrões para fenômenos complexos, que necessitam de muitos parâmetros. Por exemplo, a estatística, de modo geral, é orientada para a verificação e validação das hipóteses cognitivas e a maioria de suas técnicas requer o desenvolvimento de uma hipótese prévia. Já a MD busca padrões, nas bases de dados, que possam ser utilizados para algum fim. A grande vantagem da MD, em relação às técnicas estatísticas, é a possibilidade de explicitar informações, apenas do domínio de especialistas, escondidas nas bases, através da documentação gerada durante sua realização. Essas informações podem levantar hipóteses que não haviam sido descobertas, até aquele momento (PASSARI, 2003, pp 58-60).

3UREOHPDVGHVDILRVYDQWDJHQViUHDVGHDSOLFDomRHWpFQLFDVGD0'

Em relação aos problemas referentes à MD, os mais comuns são: D representação do conhecimento extraído; E complexidade da pesquisa; F seleção do método e técnica mais apropriada da mineração para a pesquisa (FAYYAD; SHAPIRO-PIATETSKY; SMYTH, 1996).

Além desses problemas, existem alguns desafios a serem vencidos, dentre eles: D o volume da base de dados: as bases, normalmente, possuem centenas de tabelas, com centenas de campos e talvez milhares de registros, o que pode resultar em uma variedade enorme de padrões, combinações e hipóteses; E dados inconsistentes: além de atributos com valores nulos, outros, importantes, podem estar ausentes das bases de dados, pois, na sua concepção, não foram projetadas para DCBD; F ruídos nas bases de dados: é um problema muito comum e grave, indicando que atributos importantes podem estar perdidos, com valores errados ou colocados em locais incorretos, na base de dados; Ginteração com o usuário: o profissional ou técnico de MD, deve procurar conhecimentos, a partir de hipóteses levantadas por seus clientes, que possam ser utilizados para explicar algum processo, na corporação, ou predizer ocorrências futuras; H representação da informação: se o conhecimento descoberto não for de fácil acesso e claramente compreendido pelo cliente, pode causar interpretações errôneas ou ambíguas (FAYYAD; SHAPIRO-PIATETSKY; SMYTH 1996b).

(39)

referentes à etapa de mineração de dados, em si (ADRIAANS; ZANTINGE, 1996).

A extração física de dados oriundos de diversas fontes é uma tarefa extremamente árida e tediosa, pois pode trazer surpresas desagradáveis, tais como: D ocorrência de exceções (HJ linhas de total no meio do arquivo); E apresentação de arquivos em formatos diferentes, o que exige sua reconstrução em formato desejado (HJ $FUREDW 5HDGHU 0LFURVRIW ([FHO 0LFURVRIW :RUG); F falta de padrão na codificação: instituições diferentes mantêm as mesmas informações, em cadastros diferentes e independentes (HJ a carteira de identidade, cartão de crédito, carteira de motorista) (PRADO, 1998, p.25).

É importante levar em consideração que: D é altamente improvável a existência de uma grande base de dados, sem a presença de algum tipo de ruído, erros ou inconsistência de dados; E mesmo que se tenha a sensação de que todas as dificuldades de extração foram superadas, a inclusão de versão atual de um arquivo, pode trazer erros tão grandes, que não há outra opção, a não ser recomeçar o processamento dos dados.

As técnicas e características de processamento mais comuns são (HAN; KAMBER, 2001, pp.105-142; PRADO, 1998, pp.28-29): D limpeza: preencher, corrigir ou eliminar dados sem informação; E integração: combinar vários dados, oriundos de várias bases, em um repositório final; F transformação de dados: alterar dados (consolidar) para o formato desejado; G redução dos dados: representar, de forma reduzida, o volume dos dados, sem perder a consistência ou a integridade.

(40)

A MD pode ser utilizada também para predição, nas seguintes áreas: D PDUNHWLQJ: busca os melhores clientes, para maximizar as vendas; E detecção de fraude em cartões de crédito; F desistência (perda) de clientes: prevê quais os prováveis clientes a saírem de empresa; G seguro e sistemas de saúde: antecipa quais clientes potenciais para novas apólices; H medicina: prevê e indica as terapias adequadas a cada doença, e a eficácia das drogas (TURBAN; RAINER; POTTER, 2004, p.161).

Além das vantagens e desvantagens já mencionadas, acrescentam-se:

a) A MD não necessita do processamento de todo o banco de dados, para a geração de regras. Basta que sejam analisadas faixas de dados distintas e desejadas, dessa base. Através dessa análise, as regras e suas faixas de confiança são geradas e adicionadas ou, ainda, alteradas, em uma base de regras (também conhecida como base de conhecimento). Através do acréscimo de novos registros na base de dados, a base de regras é atualizada com as regras geradas.

A busca de padrões de um local ou região específica pode ser feita e analisada, através da mudança dos valores existentes, em uma faixa de dados, extraídos de uma base de dados, conforme pode ser visto na Figura 1.

)LJXUD3URFHVVRGHFRQVWUXomRGHXPDEDVHGHUHJUDVGHXPDUHJLmRDGDSWDGDGH$JUDZDOH3VDLOD SSFRPDOWHUDo}HV

b) A Mineração de Dados possibilita, além de velocidade na solução de problemas, o preenchimento de informações, que podem ser a chave para decisões, em negócios importantes (ELDER, 2004, p.04).

(41)

não estão representados no universo necessário e, portanto, a informação obtida pode não ser confiável. Deve haver a preocupação com a completa representação e disponibilidade das informações, para quem precise delas (DRUCKER, 2001 in +DUYDUG%XVLQHVV5HYLHZ(HBR) p.18);

d) Os executivos e profissionais especialistas, a partir dos dados que possuem, precisam expressar corretamente a informação desejam alcançar. Assim, os responsáveis por gerá-la, não sobrecarregam o processo de transformação de dados em informação e conseguem fornecer o suporte a decisão (DRUCKER, 2001 LQ HBR, p.19);

e) Reunir, examinar e confirmar as informações extraídas, a partir de dados válidos, fornece uma análise sofisticada e possibilita conclusões que resistem a questionamentos críticos (ARGYRIS, 2001 LQ HBR, p.99,100);

f) Os custos associados com a coleção, processamento e armazenamento de tais tipos de recursos (informações), podem ser altos o que desencoraja o investimento na geração desta informação (DELMATER; HANCOCK, 2001, p.05);

g) Os pesquisadores, ou gerentes supõem que, o melhor modelo e as melhores respostas para um problema, foram encontrados, podendo decidir pelo encerramento da pesquisa o que pode impedir que um modelo mais preciso seja encontrado (ELDER, 2004, p.22).

Pode ser realizada, através de vários modelos e ferramentas específicas, como: D &URVV,QGXVWULDO 6WDQGDUG 3URFHVV IRU 'DWD 0LQLQJ CRISP-DM D HVFROKLGD SDUD HVWD SHVTXLVD E 6DPSOH ([SORUH 0RGLI\ 0RGHO $VVHVV 6(00$ F &RPPRQ$SURDFKHV'(/0$7(5+$1&2&.S.

Existem diversas ferramentas profissionais de mineração de dados, dentre elas, &OHPHQWLQH da SPSS4;(QWHUSULVH0LQHU da SAS5; (DV\QQ3OXV;,QWHOOLJHQW0LQHU da IBM7; 63OXV e ,QVLJKWIXO 0LQHU 2 da ,QVLJKWIXO &RUSRUDWLRQ8; 6HH& &XELVW e

4www.spss.com 5www.sasinstitute.com

6 www.easynn.com/easynnplus.html 7

(42)

0DJQXP 2SXV da RuleQuest59 e o R10. Academicamente, existem, também, alguns casos de soluções para 0', dentre eles, o :(.$11H R$5$5$.

&5,63'0SDUDPLQHUDomRGRVGDGRV

A metodologia CRISP-DM (DELMATER; HANCOCK, 2001, p.61; CHAPMAN HW DO, 1999 DSXG COSTA SOUSA, 2003, p.47; OLIVEIRA; ALVARENGA, 2003, p.02) foi concebida em 1996, como um guia passo a passo, para a MD, e propõe um modelo gratuito de processo padrão, para mineração de dados (SPSS, 2000).

Sua origem deve-se ao consórcio formado por quatro empresas de consultoria: 1&5 6\VWHPV (QJLQHHULQJ &RSHQKDJHQ 'DLPOHU&KU\VOHU $* 6366 ,QF. e 2+5$ Verzekeringen en Bank Groep (SPSS, 2000 p.2). A CRISP-DM tem como vantagem, não depender da área de negócio e da tecnologia a ser utilizada na MD, além da fácil aplicação rapidez, custos mais baixos, viabilidade e facilidade da gestão dos projetos de alta ou baixa envergadura de MD.

Na descrição dos quatro níveis da CRISP-DM, visto na Figura 2, é utilizado um modelo de processo hierárquico, composto por um conjunto de tarefas, descritas em níveis de abstração (SPSS, 2000, p.09):

a) Fases: neste nível, dividido em seis fases principais, estão as tarefas genéricas e os relacionamentos entre essas tarefas;

b) Tarefas genéricas: neste nível, são apresentadas de forma geral, para cobrir todas as situações possíveis da MD, mesmo aquelas não previstas (HJ novas técnicas de modelagem);

c) Tarefas especializadas: neste nível, estão as descrições de como as ações do nível genérico, devem ser executadas, em certas situações específicas (HJ limpeza dos dados);

8www.insightful.com 9www.rulequest.com 10www.r-project.org

11www.cs.waikato.ac.nz/~ml/weka/

(43)

d) Instância de Processos: neste nível, registram-se as ações, decisões e resultados de um projeto de MD.

)LJXUD5HSUHVHQWDomRGRVTXDWURQtYHLVGDPHWRGRORJLD&5,63'06366SWUDGXomRQRVVD

(44)

)LJXUD5HSUHVHQWDomRGRQtYHO)DVHVGD&5,63'06366SWUDGXomRQRVVD

5HGHVQHXUDLVDUWLILFLDLV

“A gestão eficiente de qualquer corporação, seja ela do setor público ou privado, industrial ou varejista, requer planejamento. Para um planejamento efetivo é necessário que se tenha uma expectativa precisa das condições futuras em que a corporação irá operar, e de como se relacionam os elementos condicionantes desta expectativa” (PASSARI, 2003, p.08).

2.7.1 ,QWURGXomR

O cérebro humano possui, como células fundamentais, aproximadamente 1011 neurônios. Cada neurônio é dividido em três seções distintas, conforme representado na Figura 4: D corpo da célula; E dendritos; Faxônio. Cada seção possui funções específicas, porém complementares (BRAGA; LUDERMIR; CARVALHO, 2000, pp.4-5; HAYKIN, 2001, pp.32-34).

(45)

Os dendritos têm por função, receber as informações (impulsos nervosos) de outros neurônios e conduzi-las até o corpo celular (soma). A informação é processada neste local e novos impulsos são gerados. Esses impulsos são transmitidos a outros neurônios, passando através do axônio, até os dendritos dos neurônios seguintes. O ponto de contato entre a terminação de um neurônio e o dendrito de outro, é chamado de sinapse. Entre a sinapse e o dendrito de vários outros neurônios, existe o espaço sináptico (AZEVEDO; BRASIL; OLIVEIRA, 2000, p.03; BRAGA; LUDERMIR; CARVALHO, 2000, p.06; HAYKIN, 2001, pp.32-34).

As $UWLILFLDO 1HXUDO 1HWZRUNV ou Redes Neurais Artificiais (RNAs) surgiram a partir do modelo de neurônios artificiais (SHUFHSWURQ), proposto por 0F&XOORFK e 3LWWV (1943 DSXG BRAGA; LUDERMIR; CARVALHO, 2000, p.06; AZEVEDO; BRASIL; OLIVEIRA, 2000, p.06; TURBAN; RAINER; POTTER, 2004, p.417). É uma simplificação do que se sabia, até então, sobre neurônio biológico. A composição (descrição) matemática de um neurônio artificial resultou em um modelo com Qterminais de entrada [ [ [Q (que simulam o papel dos dendritos) e, apenas, um terminal de saída \(simulando o papel do axônio). Para simular o comportamento das sinapses, os terminais de entrada possuir pesos acoplados Z Z ZQ, que podem possuir valores negativos ou positivos, dependendo das sinapses correspondentes, inibitórias ou excitatórias (HAYKIN, 2001, pp.36-38). “O efeito de uma sinapse particular L no neurônio pós-sináptico é dado por xiwi” (BRAGA; LUDERMIR; CARVALHO, 2000, p.08).

)LJXUD&RPSRQHQWHVGRQHXU{QLRGH0F&XOORFKH3LWWV%5$*$/8'(50,5&$59$/+2 S

Referências

Documentos relacionados

Intraoperative narrow band imaging better delineates superficial resection margins during transoral laser micro- surgery for early glottic cancer. Ann Otol

a) “Para analisar o processo universal de desencantamento, que se cumpre na história das grandes religiões e que, a seu juízo, satisfaz as condições internas necessárias para

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Observamos na análise das práticas discursivas desses três representantes do governo – cujas políticas, falas e ações interferem na educação do país – que as dico- tomias e

Pode haver alguns acordos prévios, como visto na classificação proposta em trabalho anterior (GUERRERO, 2006), mas estes são propostos sempre mantendo elevado

VUOLO, J.H. Fundamentos da Teoria de Erros, Edgard Blucher Ltda, São Paulo, 1992 YIN, R.K. Estudo de caso: planejamento e métodos, Bookman, Porto Alegre, 2005.. Quando a

Assim, além de suas cinco dimensões não poderem ser mensuradas simultaneamente, já que fazem mais ou menos sentido dependendo do momento da mensuração, seu nível de

A Estação de Tratamento de Efluente da Universidade Federal de Sergipe cedeu um dos tanques de secagem para que fosse adaptado e utilizado como tanque aberto para