• Nenhum resultado encontrado

Análise Exploratória de Dados

Como referido de forma implícita anteriormente, entre 1 de janeiro de 2007 e 31 de dezembro de 2007 foram registadas no Serviço de Urgências de um determinado hospital português 37.083 admissões, sendo a maioria dessas admissões relativas a pacientes do sexo feminino (52.7%). Note-se ainda que a altura do dia “preferida” pelos pacientes para se deslocarem ao hospital é no turno da manhã (08:00 às 15:00) com mais de metade das admissões (53.16%). A Tabela 4.4 apresenta estes resultados, bem como as frequências absoluta e relativa das restantes variáveis qualitativas de interesse.

Sabe-se também que 12.76% dos pacientes possuem uma qualquer doença crónica e 28.09% são pacientes comórbidos.

Pode ver-se ainda que os principais responsáveis por ocasionar o maior número de admissões no hospital foram doenças e/ou perturbações do aparelho circulatório, digestivo e respiratório (14.23%, 10.37% e 9.72%, respetivamente). Pode verificar-se na variável DiagnosticoPrinci- palGCD da Tabela 4.4 as patologias responsáveis pelas restantes admissões. Dos 5031 pacientes que foram transferidos (3.97% do total de admissões), está disponível a informação de apenas 1500 dos motivos que originaram essas transferências (29.82% do total de transferências), sendo que a maioria foi transferida para seguimento (98.07% de 1500 motivos) e uma minoria por falta de recursos (1.00% de 1500 motivos) ou para tratamento de uma condição associada (0.93% de 1500 motivos).

Aquando da sua saída do Serviço de Urgências os pacientes tomam variados destinos, sendo que 88.95% destes foram reencaminhados para o seu domicílio, 3.96% para outro hospital, 1.81% para um serviço domiciliário e 1.16% saíram contra parecer médico. Da totalidade de

Tabela 4.4: Tabela de frequências absolutas e relativas por variável qualitativa. Variável Categoria Freq. Absoluta Freq. Relativa * 100%

Sexo Feminino 19541 52,70%

Masculino 17542 47,30%

Domicílio 32987 88,95%

Falecido 1524 4,11%

DestinoAposAlta Outro hospital 1470 3,96%

Serviço domiciliário 671 1,81%

Saída contra parecer médico 431 1,16%

Manhã 19715 53,16% Turno Tarde 11154 30,08% Noite 6214 16,76% Comorbidades Não 26666 71,91% Sim 10417 28,09% Cronica Não 32350 87,24% Sim 4733 12,76% Transferencias Não 32052 86,43% Sim 5031 13,57% MotivoTranferencia

Paciente não transferido 35583 95,96%

Para seguimento 1471 3,97%

Por falta de recursos 15 0,04%

Para tratamento de condição associada 14 0,04%

Não programada 21542 58,09%

TipoAdmissao Programada 13214 35,63%

SIGIC Produção Adicional 2327 6,28% Doenças e Perturbações do Aparelho Circu-

latório

5278 14,23%

Doenças e Perturbações do Aparelho Diges- tivo

3847 10,37%

Doenças e Perturbações do Aparelho Respi- ratório

3603 9,72%

Gravidez, Parto e Puerpério 3145 8,48% Doenças e Perturbações do Sistema Músculo-

esquelético e Tecido Conjuntivo

3033 8,18%

Doenças e Perturbações do Sistema Nervoso 2964 7,99% Doenças e Perturbações do Rim e do Apare-

lho Urinário

2432 6,56%

Doenças e Perturbações do Ouvido, Nariz, Boca e Garganta

1749 4,72%

Doenças e Perturbações do Sistema Hepato- biliar e Pâncreas

1737 4,68%

Doenças e Perturbações Endócrinas Nutrici- onais e Metabólicas

1567 4,23%

Doenças e Perturbações do Olho 1452 3,92% Doenças e Perturbações do Aparelho Genital

Feminino

1053 2,84%

DiagnosticoPrincipal

Doenças e Perturbações da Pele, Tecido Ce- lular Subcutâneo e Mama

817 2,20%

GCD Doenças Infecciosas e Parasitárias (Sistémi- cas ou de Localização Não Específica)

688 1,86%

Doenças e Perturbações do Aparelho Genital Masculino

605 1,63%

Doença ou Traumatismos, Intoxicações e Efeitos Tóxicos de Drogas

562 1,52%

Doenças e Perturbações Mieloproliferativas e Mal-diferenciadas

558 1,50%

Sem informação 453 1,22%

Doenças e Perturbações Mentais 441 1,19% Infecções pelo Vírus da Imunodeficiência Hu-

mana

287 0,77%

Queimaduras 233 0,63%

Doenças e Perturbações do Sangue/Órgãos Hematopoiéticos e Doenças Imunológicas

229 0,62%

Factores com Influência no Estado de Saúde e Outros Contactos com os Serviços de Saúde

137 0,37%

Traumatismos Múltiplos Significativos 126 0,34% Uso de Álcool/Droga e Perturbações Mentais

Orgânicas Induzidas por Álcool ou Droga

83 0,22%

Recém-nascidos e Lactentes com Afecções do Período Perinatal

4 0,01%

Tabela 4.5: Sumário da variável quantitativa Idade.

Variável Min. 1.o Q Mediana 3.o Q Máx. Média Desvio Padrão

Idade 0.00 32.00 53.00 70.00 101.00 49.64 24.53

Tabela 4.6: Sumário do número de admissões por mês do ano.

Mês Freq. Absoluta Freq. Relativa * 100%

Outubro 3452 9,31% Julho 3322 8,96% Novembro 3311 8,93% Janeiro 3307 8,92% Junho 3282 8,85% Maio 3250 8,76% Setembro 3090 8,33% Março 3027 8,16% Agosto 2892 7,80% Fevereiro 2822 7,61% Abril 2814 7,59% Dezembro 2514 6,78%

Tabela 4.7: Sumário do número de admissões por estação do ano.

Estações Freq. Absoluta Freq. Relativa * 100%

Outono 9763 26,33%

Verão 9547 25,74%

Primavera 9524 25,68%

Inverno 8249 22,24%

Pode ver-se que a maior parte dos pacientes deram entrada no hospital com uma admissão do tipo não programada (58.09%), enquanto que 35.63% já tinham programado ir ao hospital naquele determinado dia. As admissões programadas não podem ser consideradas readmissões, uma vez que consideramos como readmissão apenas as admissões espontâneas que resultaram de um não melhoramento e/ou um agravamento do estado de saúde após uma anterior visita ao hospital. As restantes admissões são do tipo SIGIC Produção Adicional (produção que excede a produção base contratualizada com os hospitais do SNS, bem como a efetuada

CAPÍTULO

5

Modelação e Avaliação

Tendo em conta o processo de desenvolvimento CRISP-DM [7], após as etapas de compreensão e preparação de dados, seguem-se a construção e avaliação do modelo. Assim, nas próximas secções são descritos os passos para efetuar estas últimas etapas.

5.1 Modelação dos Dados

Considerando as etapas anteriormente efetuadas para familiarização dos dados, resolução de problemas e construção do conjunto de dados final, este é o momento ideal para iniciar a construção do modelo. Nas próximas secções apresentam-se as várias etapas percorridas para desenvolver o modelo que melhor deteta as readmissões hospitalares. Para isso foram testados modelos treinados por 3 conjuntos de dados diferentes. A abordagem adotada passou pelos seguintes passos:

• Extrair os conjuntos de variáveis selecionadas pelo método VSURF;

• Aplicar modelos random forest a dois dos conjuntos anteriores e a um outro conjunto de variáveis selecionadas na literatura;

• Avaliação segundo as medidas mencionadas na Secção 3.4.

De acordo com o processo descrito na Secção 3.3 aplicou-se o método de seleção de variáveis VSURF do qual resultaram 3 subconjuntos de variáveis do conjunto original. De notar que

também porque grande parte delas são mensuráveis após o encerramento do episódio, facto que não nos interessa neste projeto. Este é um modelo de interesse quando se pretenda que a solução atualize em tempo real a qualquer dado que seja adicionado/atualizado, o que não é o objetivo principal. O maior objetivo consiste em obter uma resposta após a triagem médica, na primeira análise do médico e, claro, dependendo dos conjuntos de variáveis utilizados para treinar os modelos, a qualquer altura que seja adicionada/atualizada informação de uma variável pertencente ao modelo.

Construíram-se então três modelos random forest, onde dois deles utilizam os conjuntos de variáveis obtidos através do VSURF, o conjunto de interpretação e o conjunto de previsão, e o último utiliza um conjunto de variáveis selecionadas na Secção 1.2 e que fazem sentido do ponto de vista real.

A componente experimental foi conduzida através de várias simulações seguindo uma estrutura comum. Em cada simulação, retiveram-se todas as observações correspondentes aos casos positivos (readmissão = verdadeiro) (553 observações) e o mesmo número de casos negativos (readmissão = falso), resultando num conjunto de dados com 1106 observações. Este conjunto de dados foi então dividido em conjunto de treino e conjunto de teste com, respetivamente, 2/3 e 1/3 das amostras. No conjunto de teste, para além das 368 observações resultantes desta divisão foram também incluídas todas as observações não usadas para treino antes do balanceamento do conjunto, totalizando 20428 observações de teste.

O procedimento acima foi repetido 20 vezes (de forma aleatória nos dados) para capturar o desempenho geral do modelo, independentemente das amostras utilizadas para treinar. Como resultados finais são apresentados a média das medidas de avaliação obtidas nos 20 modelos.

Documentos relacionados