• Nenhum resultado encontrado

Preparação dos dados

No documento Luís Miguel Candeias Borges (páginas 114-117)

5. ESTUDO

5.3. Preparação dos dados

Esta etapa, também chamada de pré-processamento, deriva da necessidade de preparar os dados para os algoritmos de indução dos modelos. Uma vez que existem diversos algoritmos, os dados são preparados tendo em conta o formato requerido.

A fase de preparação de dados compreende a seleção de registos como o processamento de dados em falta relevantes para as tarefas em causa. As técnicas de preenchimento automático através de funções matemáticas, como a média dos registos vizinhos, não se aplicam visto existir uma grande variabilidade entre utentes. De forma genérica, visto que os conjuntos de dados são de cardinalidade elevada, a eliminação de registos com dados em falta é uma opção válida, embora elimine registos com valores em outros atributos.

As ações de pré-processamento são consequentes da análise realizada e são idênticas para todos os CS.

No caso dos dados para a tarefa de classificação, nos registos de utentes foram executadas as seguintes ações:

 O atributo código de utente identifica cada utente de forma unívoca. O registo de utentes contempla vários registos por utente; os registos foram agregados para haver apenas um registo para cada utente;

 Foi criado um novo atributo “n.º de consultas” que agrega através da função de

contagem os diversos valores de episódios registados;

 Os atributos data de consulta, n.º de inscrição e codificação do CS bem como o nome do utente foram descartados;

 Os registos que não contêm dados de peso, altura, PAD e PAS foram eliminados; esta decisão pode ser limitativa pois muitos pacientes não são medidos por não apresentarem sintomas de algo que não tenha a ver com diabetes e hipertensão.

Contudo, inclui-los obrigaria a por o valor zero ou uma medida padrão o que iria distorcer os dados.

 No CS Arnaldo Sampaio, o atributo género sexual do paciente 210100070024702 contém as duas formas. Embora possa tratar-se de um caso de mudança de género, a manutenção do nome é indicativa da provável ocorrência de um erro. Visto que estes casos são raros, cada caso foi analisado e convertido consoante o nome do utente.

 Os utentes com registos nos dois estados do atributo Óbito foram alterados para "1".

Os dados com o atributo em branco foram modificados para “0”.

 Para o atributo Ocupação foi mantida a última situação profissional encontrada.

 O atributo idade foi calculado com base na média dos valores registados nas consultas, arredondado para números inteiros.

 O atributo IMC foi calculado com base na média dos valores registados nas consultas, arredondado para números inteiros. De acordo com os valores de referência da OMS e especificados na análise de dados, foram eliminados valores abaixo de 8 e acima de 23 para idades até aos 5 anos, abaixo de 9 e acima de 35 para idades entre os 6 e 19 anos e abaixo de 14 e acima de 50 para idades acima de 20 anos. Os valores de referência abrangem 96% dos casos; por isso foi adicionada uma margem de 3 pontos em cada extremo para incluir os casos raros de extrema magreza e extrema obesidade. Ainda assim, esta margem não é suficiente para os casos de adultos superobesos e por isso a margem foi aumentada até aos 50; embora sejam casos extremamente raros eles existem nos dados e estão diretamente ligados a casos diabéticos.

 O IMC é calculado em função do peso e altura, pelo que torna estes dois atributos redundantes e por isso foram descartados;

 No CS Arnaldo Sampaio, cerca de 87% dos utentes têm o atributo Perímetro Abdominal em branco. Este facto deve-se a que sejam recolhidas medidas somente quando se trate de determinadas situações clínicas. Se os registos com este atributo em branco fossem mantidos a proporção entre pacientes diabéticos e não diabéticos inverter-se-ia e deixaria de representar a taxa de prevalência da doença. Por este motivo, o atributo foi descartado.

 Os atributos Nefropatia, Retinopatia, Neuropatia, Ano de AVC, Ano de Enfarte do Miocárdio, Ano de Cegueira, Ano de Insuficiência Renal e Ano de Amputação Abaixo e Acima do Tornozelo foram descartados por não conterem registos com dados suficientes. Embora tenha sido considerada a possibilidade de uso destes atributos considerando que os valores em branco fossem indicação da não presença desse sintoma, a proporção entre os registos com e sem a presença dos sintomas não seria real e enviesaria os dados.

 Os atributos PAS e PAD foram tratados de igual forma. Os registos com valores em branco foram eliminados assim como os registos que apresentam valores de PAD inferiores a 20 e de PAS inferiores a 45. Após as eliminações, ambos os atributos foram calculados com base na média dos valores registados nas consultas, arredondado para números inteiros.

 A classe Diagnóstico foi criada através da existência de registos que demonstrem uma associação entre o utente e o programa de saúde correspondente. Os utentes com registos associados ao programa de saúde Diabetes foram sujeitos a uma comparação

com o atributo Gravidez na deteção da classe “Diabetes Gestacional”. Caso o utente

tenha associação com o programa de saúde Diabetes e Hipertensão foi classificado

como “Diabetes com Hipertensão”. Caso o utente tenha associação ao programa de

saúde Diabetes, mas sem o atributo Gravidez e sem associação ao programa de saúde

Hipertensão foram classificados como “Diabetes”. Os utentes associados com o

programa de saúde Hipertensão, mas sem associação a Diabetes foram classificados

como “Hipertensão”. Todos os demais casos foram classificados como “Normal”. No caso dos dados para as tarefas de associação, nos registos de MCDT e Prescrições foram executadas as seguintes ações:

 Durante a extração dos dados alguns dos registos foram duplicados. Por isso, os registos foram agrupados por todos os atributos para eliminar redundâncias;

 Visto estarmos interessados em associações referentes às patologias de Diabetes Mellitus e Hipertensão, os registos foram classificados por diagnóstico utilizando o ficheiro criado para classificação e foram excluídos os registos de utentes com

Diagnóstico “Normal”;

 Foram excluídos os registos em que todos os campos específicos das prescrições, referentes ao medicamento, substância ativa e embalagem, se encontram em branco. No caso dos MCDT, foram excluídos os registos em que todos os campos específicos referentes ao exame, detalhes e valores resultantes, se encontram em branco. Por erro na extração dos dados das prescrições do CS do Fundão, as descrições contêm uma mistura de diacríticos em vários códigos. Tanto quanto possível, as descrições foram corrigidas. Se tal não fosse realizado, poderia haver associações que não seriam extraídas por serem considerados vários produtos e não um só.

 Foram excluídos os registos com a embalagem “999999999-OUTRO MEDICAMENTO” referentes a prescrições não especificadas e os registos com MCDT “3681-OUTRO MCDT”. Devido à sua generalidade, não constitui valor

qualquer associação que pudesse ser encontrada;

 Os registos de MCDT foram agrupados pelo atributo “DSC_MCDT_RESULTADO” e foi renomeado para “MCDT”; este indica o teste realizado. No caso das prescrições foi criado o atributo “Prescrição” que indica a substância ativa prescrita ou a

descrição comercial do produto, caso se trate de prescrições de equipamentos como medidores de glicose ou consumíveis como as tiras de teste;

 Os registos foram convertidos numa tabela em que as linhas listam os utentes, as colunas os MCDT ou as prescrições, conforme o caso, e o seu cruzamento a indicação

da existência desta relação a este utente, indicado pelo termo “yes”, ou em branco

indicando a inexistência. Este formato é o requerido pelo algoritmo de associação.

 A conversão em tabela agrupou as transações de cada utente; este facto é importante pois a análise da associação deixa de estar em cada registo, ou seja, a análise passará de encontrar as associações dos MCDT e prescrições realizados em cada consulta ou

receita para ser em cada utente. Esta decisão teve como fator preponderante o conjunto de dados ser esparso.

 Uma vez que o interesse está em associações passíveis de utilização em outros casos, os registos com poucas prescrições foram suprimidos; a tabela resultante contém, no máximo, as 100 mais frequentes. Poderão existir mais que 100 atributos em cada conjunto de dados, pois optou-se pela manutenção de todos os atributos caso estes correspondam em valor ao centésimo valor mais frequente;

 As descrições de MCDT muito extensas foram reduzidas acrescentado um sinal de

reticências no lugar do texto suprimido, por exemplo o teste “HEMOGRAMA COM

FÓRMULA LEUCOCITÁRIA (ERITROGRAMA, CONTAGEM DE

LEUCÓCITOS, CONTAGEM DE PLAQUETAS, FÓRMULA LEUCOCITÁRIA E

MORFOLOGIA), S” foi reduzido para “HEMOGRAMA COM FÓRMULA LEUCOCITÁRIA...”.

 Foi gerado um conjunto de dados para cada tipo de diagnóstico: Diabetes, Diabetes com Hipertensão, Diabetes Gestacional e Hipertensão.

 Devido à inexistência de dados, não foi possível criar um conjunto de dados para análise de associação dos MCDT no CS Arnaldo Sampaio e no CS do Fundão. Pela

mesma razão não foi possível criar um conjunto de dados para a “Diabetes Gestacional” no CS de Tábua.

 Os conjuntos de dados criados para a “Diabetes Gestacional” revelaram a existência

de poucos registos: 5 para prescrições no CS Arnaldo Sampaio, 3 para MCDT e prescrições no CS de Eiras e 1 para prescrições no CS do Fundão. Por esse motivo optou-se por descartar a análise de associação a este tipo de diagnóstico.

Os dados de todos os conjuntos de dados foram anonimizados e convertidos para ficheiros com o formato “.arff”. O código de utente foi convertido para um valor numérico inteiro sequencial. O mesmo utente tem agora um código sem relação direta com o valor original e diferente em cada ficheiro.

No documento Luís Miguel Candeias Borges (páginas 114-117)

Documentos relacionados