5.2 Análise Estatística do Desempenho do Sistema de Pré-triagem
6.1.1 Calibração do Sistema de Pré-triagem
De forma a validar o sistema de pré-triagem implementado no CMIN
foram utilizadas técnicas de DM. Este estudo foi realizado para todos os
uxogramas que caracterizam os tipos de utentes que são atendidas noCMIN.
Seguindo a metodologia deCRoss Industry Standard Process for Data Mining
(CRISP-DM)descrita no capítulo3.2.2foi possível enquadrar este estudo nas seguintes etapas:
Compreensão do Negócio
No CMIN são atendidas 6 classes de utentes, sendo que, cada uma delas
6.1. APLICAÇÃO DE DATA MINING
determinar o grau de urgência da utente. Neste contexto, o problema pode
ser formulado como "Qual a probabilidade de a resposta do sistema serURG
ouARGO tendo em conta as características clínicas das utentes?". Por sua
vez, este problema pode ser transformado num problema deDMcomo: "Qual
a precisão com que a utente é distinguida como URG tendo em conta um
conjunto de aspetos clínicos especícos?" Estudo dos Dados
Posto isto, a próxima etapa consiste em recolher e entender os dados
disponíveis para responder ao problema de DM formulado. No CMIN o
processo de pré-triagem é suportado pela plataforma de interoperabilidade
Agência para a Integração, Difusão e Arquivo de Informação Médica(AIDA).
Os registos referentes ao sistema de pré-triagem são armazenados pelaAIDA
-PCEem formatoeXtensible Markup Language (XML). A amostra abrange
o período compreendido entre "06/01/2010"e "2014/04/08"e foram extraídos cerca de 78.984 casos, sendo que, cerca de:
• 35.238 casos são de mulheres grávidas ("Sim"); • 4.050 casos de mulheres puérperas ("Não", "Sim");
• 24.547 casos são de mulheres não puérperas e não grávidas ("Não",
"Não");
• 4754 casos são de mulheres que talvez estejam grávidas ("Talvez"); • 2.843 casos são de mulheres paraIGO ("Para IGO");
• 2.511 casos são de mulheres paraCTG ("Para CTG").
Quanto ao levantamento das variáveis utilizadas para o processo de DM,
como explicado no capítulo 5, cada classe de utentes é caracterizada por
um conjunto de discriminadores especícos. Neste estudo, apenas foram utilizados os discriminadores imprescindíveis para a decisão de pré-triagem, ou seja, as variáveis meramente informativas não foram selecionadas.
Preparação de Dados
Nesta fase, alguns estudos foram realizados com o objetivo de construir
os cenários para alcançar os modelos desejados. Como referido no capítulo5,
este sistema de pré-triagem apenas está capacitado para suportar a decisão de uma pré-triagem e nunca ditar a decisão nal, uma vez que esta é da responsabilidade do prossional que realiza o processo de pré-triagem. Deste modo, caso o prossional de saúde não concorde com o resultado de pré-
triagem, este pode e deve forçar um resultado diferente (URG, ARGO ou
Emergente (EMERG)). Relativamente aos casos marcados como EMERG, após exploração dos dados, vericou-se que estes eram sempre forçados pelos prossionais de saúde, uma vez que não apresentavam qualquer registo das respostas de triagem, razão pela qual foram retirados da amostra. Posto isto, foram considerados 4 cenários possíveis:
• Todos os dados: foram utilizados todos os registos presentes na base de
dados entre o período de tempo denido para a realização dos modelos para cada classe de utentes;
• Sem ARGO: foram usados todos os dados presentes na base de da-
dos, exceto aqueles em que a variável alvo preenchida com ARGOnão
cumpria os requisitos como seria de esperar para cada classe de utente;
• Sem URG: foram usados todos os dados presentes na base de dados,
exceto aqueles em que a variável alvo preenchida comURGnão cumpria
os requisitos como seria de esperar para cada classe de utente;
• Sem URG e ARGO: foram usados todos os dados, exceto aqueles em
que a variável alvo preenchida com ARGO e URG não cumpria os
requisitos como seria de esperar para cada classe de utentes.
Também é importante referir que, depois de uma análise preliminar dos dados, vericou-se que estes exibiam qualidade.
Na gura6.1 encontra-se representado o número de ocorrências para cada
6.1. APLICAÇÃO DE DATA MINING
Figura 6.1: Distribuição do número de utentes pela variável alvo, pelos dife- rentes cenário e para cada uxograma.
De acordo com o estudo apresentado na Figura6.1foi realizado um outro
estudo representado na Tabela6.1.
Tabela 6.1: Números e percentagens de casos onde se verica que o resultado de pré-triagem é forçado.
Casos que são forçados pelos prossionais de saúde SemARGO ARGO Sem URG URG Total
No de casos 2520 9021 11541
% de casos 3,4 % 12,2 % 15,6 %
Este estudo consistiu em observar a percentagem de casos onde o re- sultado nal de pré-triagem forçados a um resultado diferente do esperado. Estas situações vericam-se pois os resultados retornados pelo sistema de pré- triagem não estão em acordo com a capacidade analítica dos prossionais de
ARGO"corresponde à soma dos resultadosARGOque não eram esperados e
a variável "SemURG URG"corresponde à soma de todos os resultadosURG
que não eram esperados. Modelação
Para realizar os modelos de classicação foram utilizadas quatro técnicas
de classicação de DM: Decision Trees (DT), Naïve Bayes (NB), General
Linear Mode (GLM),Support Vector Machine (SVM). Como ferramenta para a aplicação dos modelos foi utilizado o software Oracle Data Miner.
Nesta fase foi necessário voltar ao passo anterior e realizar a transformação
da variável alvo em binário (URG = 1 eARGO = "0").
Os modelos desenvolvidos para cada uxograma podem ser representados por:
Mn ≡< Af, Vi, T DMy >
O Modelo Mnpertence à abordagem (A) e é composto por várias variáveis
(V) e uma técnica de DM (TDM):
Af ∈{Classicação} T DMy ∈DT, NB, GLM, SVM
Por outro as variáveis utilizadas foram:
• Para o uxograma das Grávidas ("Sim"): Vi ∈{Resultado da Triagem
(Rot); TNPMV09 ; TNPMV10; TNPMV11; TNPMV12; TNPMV13;
TNPMV14;TNPMV140;TNPMV15;TNPMV16;TNPTG16 TNPMV18;
ESTGERA19;BT-PAIN;RESP25;RESP26;RESP27;RESP28;RESP29} • Para o uxograma das Puérperas ("Não", "Sim"): Vi ∈{Rot;TTTM02;
LLLM03;RRRRM04;PRRRRM09;BT-PAIN;RESP25;RESP26;RESP27;
RESP28; RESP29 }
• Para os uxogramas das Não Puérperas ("Não", "Não") e Grávida Talvez ("Talvez"): Vi ∈{Rot; BT-PAIN; RESP25; RESP26; RESP27;
6.1. APLICAÇÃO DE DATA MINING
• Para o uxograma "ParaIGO"e "ParaCTG": Vi ∈ {Rot; BT-PAIN} Globalmente, foram realizados 96 modelos (4 cenários * 4 técnicas * 6 uxo- gramas/classe de utente * 1 variável alvo).
Avaliação
Para avaliar os resultados alcançados pelos modelos de DM, foram uti-
lizadas as métricas de avaliação descritas na secção 3.2.2. 60% dos dados
foram utilizados para treino e 40% dos dados para testes. Para cada modelo e classe de utente foram calculados os valores da sensibilidade (Sen), espe-
cicidade (Esp) e acuidade (Acu) representados na Tabela 6.2, para o caso
do uxograma das grávidas ("Sim") em seguida e nas TabelasA.1, A.2,A.3,
A.4,A.5 dos anexos para os restantes uxogramas.
Tabela 6.2: Avaliação do uxograma das grávidas ("Sim"). Os resultados
apresentados variam entre 0.0 e 1.0 (0 e 100 %) (adaptado de [1]).
Grávidas ("Sim")
SVM NB
Sen Esp Acu Sen Esp Acu
Todos
os dados 0.953 0.660 0.800 Todosdados 0.951 0.685 0.800
SemURG 0.957 0.647 0.789 URGSem 0.949 0.693 0.822
Sem ARGO 1.000 0.702 0.850 ARGOSem 1.000 0.701 0.849
SemURG
eARGO 1.000 1.000 1.000 SemeARGOURG 1.000 1.000 1.000
GLM DT
Sen Esp Acu Sen Esp Ac
Todos os
dados 0.951 0.685 0.818 Todos osdados 0.952 0.603 0.751
Sem
URG 0.949 0.693 0.822 SemURG 0.957 0.605 0.753
Sem
ARGO 1.000 0.702 0.850 SemARGO 1.000 0.614 0.778
SemURG
Desenvolvimento
Os modelos obtidos serão utilizados para melhorar o sistema de pré-
triagem implementado no CMIN. Assim, como trabalho futuro pretende-se
que estes modelos DM sejam integrados na plataforma de Business Intelli-
gence (BI) apresentada no capítulo4.