• Nenhum resultado encontrado

Data mining para definição dos perfis de pacientes com câncer de estômago

N/A
N/A
Protected

Academic year: 2021

Share "Data mining para definição dos perfis de pacientes com câncer de estômago"

Copied!
62
0
0

Texto

(1)

UNIVERSIDADE REGIONAL DO NOROESTE DO ESTADO DO RIO

GRANDE DO SUL – UNIJUI

AMANDA PREISSLER

DATA MINING PARA DEFINIÇÃO DOS PERFIS DE PACIENTES COM

CÂNCER DE ESTÔMAGO

Santa Rosa 2016

(2)

AMANDA PREISSLER

DATA MINING PARA DEFINIÇÃO DOS PERFIS DE PACIENTES

COM CÂNCER DE ESTÔMAGO

Trabalho de Conclusão de Curso de Ciência da Computação apresentado como requisito parcial para obtenção do título de Bacharel.

Orientador(a): Prof. Msc. Leonardo Minelli

Santa Rosa 2016

(3)

“The world's still spinning around. We don't know why.”

(4)

AGRADECIMENTOS

Aos meus pais, Marcia e Adelmar, e minhas irmãs por todo o apoio, suporte e confiança durante todos esses anos loucos, especialmente esses da graduação.

Ao meu orientador Prof. Leonardo Minelli, pelas orientações, paciência e incentivos durante a realização do trabalho.

A universidade e todo seu corpo docente, pela oportunidade de realizar o curso.

A todos os amigos que estiveram junto comigo nessa jornada, desde o primeiro dia de aula, ou aqueles em que conheci nas últimas matérias do curso, por todas as risadas, músicas, madrugadas, os inúmeros cafés e até mesmo as lágrimas.

Ao meu verde amado e psicodélico, de nome intrigante e nem sempre amistoso, Gata.

(5)

RESUMO

Com o crescente aumento no fluxo dos dados, devido aos avanços nas tecnologias de armazenamento e coleta dos mesmos, tem-se a necessidade de padronizar o armazenamento e a distribuição dos dados relativos ao câncer. Devido ao fácil acesso a informação oncológica e ferramentas para as tarefas de descoberta do conhecimento, tornou-se possível o desenvolvimento do presente trabalho. Que busca o perfil do paciente com câncer de estômago no Rio Grande do Sul através das etapas de descoberta do conhecimento, com ênfase em mineração de dados junto aos algoritmo Apriori e K-means.

Palavras chave: Mineração de dados, Regras de Associação, Clusterização, Descoberta do conhecimento.

(6)

ABSTRACT

With increasing data flow, due to advances in storage technologies and the collection of data, there is a need to standardize the storage and distribution of cancer data. Due to the easy access to oncological information and tools for the tasks of discovery of knowledge, it became possible to develop this work. That seeks the profile of the patient with stomach cancer in Rio Grande do Sul through the stages of discovery of knowledge, with emphasis on data mining together with the algorithm Apriori and K-means.

(7)

LISTA DE ILUSTRAÇÕES

Figura 1 - Processos do descobrimento de conhecimento ... 19

Figura 2 - Tarefas de Data Mining ... 20

Figura 3 - Representação da técnica de limpeza dos dados ... 22

Figura 4 - Representação da técnica de integração dos dados ... 22

Figura 5 - Representação da técnica de redução dos dados ... 22

Figura 6 - Relação de taxas de incidência por 100mil pessoas... 26

Figura 7 - Relações da informática com a medicina ... 30

Figura 8 - Fluxo das informações ... 32

Figura 9 - Página de download dos dados pelo Integrador RHC ... 34

Figura 10 – Tela do WEKA para a sessão de associação ... 39

(8)

LISTA DE TABELAS

Tabela 1 - Classificação detalhada do CID-10 C16 ... 26

Tabela 2 - Grupos de estadiamento do câncer gástrico pelo sistema TNM ... 28

Tabela 3 - Atributos utilizados pelo algoritmo K-means ... 41

(9)

LISTA DE GRÁFICOS

Gráfico 1 - Total de registros de acordo com ano, sem pré-processamento. ... 35

Gráfico 2 - Total de registros sem e com técnicas de pré-processamento ... 37

Gráfico 3 - Cluster 0 ... 44

Gráfico 4 - Cluster 1 ... 44

Gráfico 5 - Cluster 2 ... 45

Gráfico 6 - Cluster 3 ... 46

(10)

LISTA DE QUADROS Quadro 1 - Regra 1 ... 48 Quadro 2 - Regra 2 ... 48 Quadro 3 – Regra 3 ... 48 Quadro 4 - Regra 4 ... 49 Quadro 5 - Regra 5 ... 49 Quadro 6 - Regra 6 ... 49

(11)

LISTA DE SIGLAS

ARFF Attribute Relation File Format

CID 10 Classificação Internacional De Doenças Cacon

GPL

Centro de Assistência de Alta Complexidade em Oncologia General Public License

INCA Instituto Nacional De Câncer José Alencar Gomes Da Silva IRHC Integrador De Registros Hospitalares De Câncer

KDD Knowledge Discovery in Databases NCI National Cancer Institute

RHC Registro Hospitalar De Câncer

SGBD Sistema de Gerenciamento de Banco de Dados SQL Structured Query Language

SUS Sistema Único De Saúde

TNM Tumor, Linfonodos E Metástase

UICC Union For International Cancer Control

(12)

SUMÁRIO

1 INTRODUÇÃO ... 14 1.1 Tema ... 15 1.2 Definição do problema ... 15 1.3 Justificativa ... 15 1.4 Objetivo ... 16 1.5 Estrutura do trabalho ... 17 2 REFERENCIAL TEÓRICO ... 18 2.1 Bancos de dados ... 18

2.1.1 Descoberta do Conhecimento em Banco de Dados ... 18

2.1.1 Mineração de dados ... 20 2.1.2 Pré-processamento de dados ... 21 2.1.3 Representação do conhecimento ... 22 2.1.3.1 Regras de classificação ... 23 2.1.3.2 Regras de associação ... 23 2.1.3.3 Clusterização ... 24 2.1.3.4 Regras de regressão ... 25 2.2 Oncologia ... 25 2.2.1 Câncer de estômago ... 25 2.2.2 Fatores principais ... 27 2.2.3 Estadiamento TNM gástrico ... 28 2.3 Informática médica ... 29

3 APLICAÇÃO DE MINERAÇÃO DE DADOS COM O CÂNCER DE ESTÔMAGO ... 33

3.1 Coleta de dados ... 33

3.2 Pré-processamento dos dados ... 34

3.3 Descoberta do conhecimento ... 37

3.3.1 WEKA ... 38

3.3.2 Algoritmo Apriori ... 38

3.3.3 Algoritmo K-means ... 40

3.3.4 Conjunto de atributos ... 41

4 ANÁLISE DOS RESULTADOS ... 43

4.1 Regras de clusterização para o perfil dos pacientes... 43

4.2 Regras de associação para o perfil dos pacientes ... 47

4.2.1 Base mais importante para o diagnóstico ... 48

(13)

6 REFERÊNCIAS BIBLIOGRÁFICAS ... 53 APÊNDICE A - REGRAS GERADAS PELO ALGORITMO APRIORI ... 57 APÊNDICE B - GRUPOS GERADOS PELO ALGORITMO K-MEANS ... 59

(14)

1 INTRODUÇÃO

A grande quantidade de informações que são armazenadas em bancos de dados mostram a inviabilidade de se fazer qualquer análise de forma manual, devido ao tempo, aos recursos humanos e financeiros que seriam gastos para se obter informações (SCOSS, 2006). Atualmente, há inúmeros trabalhados com mineração de dados que buscam conhecimento oculto em grandes volumes de dados, utilizando para isso várias técnicas e métodos. Devidamente utilizados, esses dados servem de apoio para as tomadas de decisões, pois indicam padrões e convergências.

A mineração de dados combina métodos tradicionais de análise com algoritmos sofisticados para processar grandes volumes de dados, tendo como objetivo estabelecer relações, associações e descobrir padrões úteis que poderiam permanecer ignorados (SCHEUNEMANN, 2016). Na mineração de dados, o processo geral de conversão dos dados em informações úteis, é chamado de descoberta de conhecimento em banco de dados, processo que consiste em uma série de passos de transformação, do pré-processamento ao pós-processamento dos resultados da mineração de dados (TAN; STEINBACH; KUMAR, 2009).

Ao longo do tempo, percebeu-se que a velocidade de armazenamento das informações no setor da saúde era muito maior do que a velocidade de análise, o que gera um problema e uma contradição, pois as organizações, por possuírem vasta quantidade de dados, possuem uma falsa sensação de que estão bem informadas, porém essas informações precisam ser analisadas de forma correta e em tempo hábil (SCHEUNEMANN, 2016, p.16).

Segundo INCA (2016) conforme estimativa realizada pelo projeto Globocan/Iarc em 2012, cujo objetivo principal é fornecer informações atualizadas sobre a incidência, a mortalidade, a prevalência e a morbidade dos casos de câncer mais comuns dentre os existentes que atingem a população de 184 países no mundo (MINELLI, 2013), os tipos de câncer mais incidentes no mundo foram pulmão (1,8 milhão), mama (1,7 milhão), intestino (1,4 milhão) e próstata (1,1 milhão). Nos homens, os casos mais frequentes foram pulmão (16,7%), próstata (15,0%), intestino (10,0%), estômago (8,5%) e fígado (7,5%). Em mulheres, as maiores frequências encontradas foram mama (25,2%), intestino (9,2%), pulmão (8,7%), colo do útero (7,9%) e estômago (4,8%).

(15)

No Brasil, segundo INCA (2016), estima-se para 2016-2017 a ocorrência de cerca de 600 mil casos novos de câncer. Excluindo os casos de câncer de pele não melanoma, os tipos mais frequentes em homens serão próstata (28,6%), pulmão (8,1%), intestino (7,8%), estômago (6,0%) e cavidade oral (5,2%). Nas mulheres, estão entre os principais os cânceres de mama (28,1%), intestino (8,6%), colo do útero (7,9%), pulmão (5,3%) e estômago (3,7%).

Diante disso, este trabalho de pesquisa propõe identificar e analisar os perfis dos pacientes com câncer de estômago, a partir dos dados disponibilizados pelo Instituto Nacional de Câncer José Alencar Gomes da Silva (INCA) para assim, utilizar a mineração de dados para a descoberta de conhecimento na área de oncologia.

1.1 Tema

O trabalho tem como tema traçar o perfil das incidências de câncer de estômago no estado do Rio Grande do Sul, através da utilização das técnicas de mineração de dados para a análise dos registros hospitalares de câncer.

1.2 Definição do problema

Foram levantados os seguintes problemas:

Como utilizar os registros do câncer de estômago para obter informações? Como representar essas informações de uma forma que sejam úteis para a definição do perfil do paciente com câncer?

1.3 Justificativa

Com o crescente aumento no fluxo dos dados, devido aos avanços nas tecnologias de armazenamento e coleta dos mesmos, tem-se a necessidade de padronizar o armazenamento e a distribuição dos dados relativos ao câncer. Devido ao fácil acesso à informação será possível executar técnicas da descoberta do conhecimento para representar o prognóstico e o perfil do paciente com câncer de estômago no Rio Grande do Sul (TAN, STEINBACH e KUMAR, 2009; MINELLI,2013).

(16)

16 A utilização da mineração de dados com os dados da saúde pode ser justificada pela falta de aplicação das técnicas de análise tradicionais para a extração de informações úteis. A mineração de dados suporta dados com milhares de atributos de maneira heterogênea, e também não possui uma métrica de estatística no paradigma hipótese-e-teste, onde é feito um projeto para juntar os dados e depois analisar os resultados com relação à primeira hipótese levantada. Pois geralmente as análises de dados requerem a análise e geração de milhares de hipóteses (TAN, STEINBACH e KUMAR (2009)).

Outra justificativa que pode ser apontada, segundo Minelli (2013, p.15) é o aumento na interação entre profissionais da área médica com os recursos computacionais e uma maior qualidade da informação clínica, devida à agilidade no processo de reconhecimento de padrões e na organização do armazenamento de dados.

A partir dessas concepções o presente trabalho utilizar-se-á de mineração de dados e descoberta de conhecimento em banco de dados para a criação de um modelo de dados. Com intuito de representar informações relacionadas aos pacientes de câncer de estômago.

1.4 Objetivo

O objetivo deste trabalho foi aplicar técnicas de mineração de dados nas bases de dados dos registros hospitalares de câncer, no período de 2000 a 2013, com a finalidade de obter conhecimento sobre o perfil dos pacientes, observando os dados relativos à doença e também auxiliando na definição da doença mediante o perfil do paciente. Esse conhecimento foi baseado em informações disponíveis nos registros, como por exemplo: faixa etária, local de nascimento, sexo, ocupação profissional, estado conjugal, estadiamento, tratamento e diagnóstico da doença.

Tem-se como objetivos específicos:

A. Aprimorar a definição do perfil do paciente com câncer de estômago;

B. Aumentar a capacidade médica perante dados estatísticos e probabilísticos; C. Estudar as tarefas de Regras de Associação e Clusterização, e os principais

(17)

D. Preparar as bases de dados dos registros de câncer para serem aplicadas as tarefas de mineração de dados;

E. Aplicar os algoritmos de extração de regras de associação e obtenção de grupos a partir da tarefa de clusterização;

F. Analisar os resultados obtidos para a obtenção do conhecimento, com objetivo de auxilio na definição do perfil dos pacientes de câncer;

1.5 Estrutura do trabalho

O trabalho está organizado da seguinte forma:

 Capítulo 2 apresenta um referencial teórico com os principais conceitos que foram necessários para o conhecimento da área a ser pesquisada.

 Capítulo 3 traz a metodologia empregada, as ferramentas computacionais utilizadas, a origem dos dados, a alteração nos mesmos e descreve os algoritmos utilizados no trabalho.

 Capítulo 4 demonstra os resultados obtidos com a aplicação das técnicas de mineração de dados para o perfil dos pacientes com câncer.

 No capítulo 5 são apresentadas as considerações finais e propostas para trabalhos futuros.

(18)

2 REFERENCIAL TEÓRICO

Para a realização do presente trabalho, fez-se necessário um prévio estudo do estado da arte de alguns temas como: banco de dados, câncer de estômago, descoberta do conhecimento, data warehouse, mineração de dados e suas tarefas. 2.1 Bancos de dados

Banco de dados são coleções de dados interligados entre si, que se relacionam de maneira a possuir sentido para fornecer informações. São de vital importância para empresas, e há duas décadas se tornaram a principal peça dos sistemas de informação (FURTADO, 2013).

São armazenadas no banco de dados, todas as informações relativas a uma organização. O acúmulo dessas informações ocorre em grandes percentuais e tende a crescer cada vez mais dependendo do avanço da tecnologia e da computação (Bueno e Viana, 2012).

De acordo com Bueno e Viana (2012): o valor dos dados armazenados está diretamente ligado à capacidade de extrair informações que possam ser utilizadas no entendimento do fenômeno gerador dos dados. Podendo existir padrões de vinculações nestas informações, a parir da análise de resultados de estudos científicos, desvendar particularidades e sugerir tendências.

Ao iniciar o trabalho em um problema de mineração de dados, é necessário reunir todos os dados em um conjunto de instâncias. A ideia de integração de banco de dados de toda uma organização é conhecida como data warehousing. Eles fornecem um único ponto consistente de acesso aos dados corporativos ou organizacionais, sendo também um lugar onde os dados antigos são publicados de forma que possam ser usados para tomada de decisões de negócios (WITTEN, 2011).

Segundo Witten (2011):

A presença de um data warehouse é um precursor muito útil para a mineração de dados, e se não estiver disponível, muitas das etapas envolvidas no armazenamento de dados terão que ser realizadas para preparar os dados para a mineração.

(19)

Conhecido também pelo termo em inglês Knowledge Discovery in Databases (KDD), o processo de descoberta do conhecimento segundo HAN e KAMBER (2006) está divido em uma sequência de etapas, mostradas na Figura 1. São elas (DE AMO, 2004):

 Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.

 Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas produzindo uma única base de dados.

 Seleção: etapa onde são selecionados os atributos que venham a ser interessantes à pesquisa. Por exemplo, informações como endereço e telefone não são de relevantes para verificar as características de um paciente com câncer de estômago.

 Transformação dos dados: etapa onde os dados são transformados num formato apropriado para aplicação de algoritmos de mineração.  Mineração: etapa essencial do processo consistindo na aplicação de

técnicas inteligentes para se extrair os padrões de interesse.

 Avaliação ou Pós-processamento: etapa onde são identificados os padrões interessantes de acordo com algum critério definido no escopo da pesquisa.

 Representação dos Resultados: etapa onde são utilizadas técnicas de representação de conhecimento para apresentar o conhecimento minerado.

Figura 1 - Processos do descobrimento de conhecimento

(20)

20 2.1.1 Mineração de dados

A mineração de dados consiste da busca, automática ou semiautomática, em grandes quantidades de dados com o objetivo de descobrir padrões importantes, modelos de dados utilizando algoritmos com eficiência computacional (NEVES, FREITAS, CÂMARA (2001)).

De acordo com Tan, Steinbach e Kumar (2009) a mineração de dados é o processo de descoberta automática de informações úteis em grandes depósitos de dados. É uma parte integral da descoberta do conhecimento em banco de dados. Ainda segundo eles, a aplicação de suas técnicas tem como o intuito descobrir padrões úteis e recentes que poderiam fornecer capacidade de previsão de resultados.

Segundo Witten (2011) busca-se através da mineração encontrar, além do resultado do processo de aprendizado, uma descrição de conceito que é inteligível pelo fato de poder ser entendido, discutido e disputado, e assim ser operacional, pois pode ser aplicado a exemplos reais.

As tarefas podem ser divididas em duas categorias principais, como mostra na Figura 2 (TAN, STEINBACH e KUMAR (2009); ALCKMIN (2007) apud REZENDE (2003)):

Figura 2 - Tarefas de Data Mining

Fonte: Alckmin (2007 apud Rezende, 2003)

 Tarefas Preditivas: têm o objetivo de prever o valor de um atributo (variável dependente) baseado no valor de outros atributos (variáveis explicativas). A modelagem de previsão tem a tarefa de construir um modelo para a variável

(21)

alvo como uma função das variáveis explicativas (TAN, STEINBACH e KUMAR, 2009).

Há dois tipos tarefas de modelagem:

 classificação (usada para variáveis discretas), onde é apresentado com um conjunto de exemplos classificados a partir dos quais se espera aprender uma forma de classificar exemplos não vistos (HAN, 2006).  regressão (usada para variáveis dependentes).

 Tarefas Descritivas: buscam encontrar padrões (relações, tendências, grupos, trajetórias e anomalias) que resumam os relacionamentos nos dados. Possui natureza exploratória e muitas vezes são necessárias técnicas de pós-processamento para validar e explicar os resultados (TAN, STEINBACH e KUMAR, 2009), como:

 Regras de associação: utilizadas para descobrir padrões que descrevam características associadas dentro dos dados, no que diz respeito à incidência de um atributo ocorrer com outro. A regra é expressa da forma X → Y, onde X e Y são conjuntos de itens;

 Agrupamento ou clusterização: utilizada para encontrar grupos de informações que estejam relacionadas de modo com que junte os dados semelhantes em um grupo e os demais em outro.

2.1.2 Pré-processamento de dados

A preparação dos dados para as técnicas de mineração de dados, geralmente consome a maior parte do esforço investido em todo o processo de mineração (WITTEN, 2011). O pré-processamento é a parte responsável pelo tratamento dos dados antes de serem aplicadas as técnicas de mineração de dados.

Segundo HAN e KAMBER (2006, p. 47) há um número de técnicas responsáveis por isso:

 Data Clean (limpeza dos dados): aplicada para remover ruídos e corrigir inconsistências nos dados;

(22)

22

Figura 3 - Representação da técnica de limpeza dos dados

Fonte: Han e Kamber (2006)

 Data Integration (integração dos dados): mescla dados de várias fontes em um armazenamento de dados coerente, como um data warehouse;

Figura 4 - Representação da técnica de integração dos dados

Fonte: Han e Kamber (2006)

 Data Transformations (transformação dos dados): os dados são transformados ou consolidados em formas adequadas;

 Data Reduction (redução dos dados): aplica técnicas para reduzir o tamanho dos dados, eliminado recursos redundantes.

Figura 5 - Representação da técnica de redução dos dados

Fonte: Han e Kamber (2006)

(23)

Para Ian H. Witten (2011) existem muitas maneiras diferentes para representar os padrões que podem ser descobertos pelo aprendizado por máquina, e cada um deles dita o tipo de técnica que pode ser usada para inferir a estrutura de saída a partir de dados.

Ainda de acordo com Witten (2011), cada instância fornece a entrada para o aprendizado da máquina, e é caracterizada por seus valores em um conjunto de características ou atributos. As instâncias são as linhas das tabelas e os atributos são as colunas. Há vários tipos de atributos, mas a maioria das técnicas de mineração suporta dois tipos de atributos:

 Nominal: são chamados categóricos, enumerados ou discretos.

 Ordinal: geralmente chamados numéricos, ou talvez contínuos, mas sem a implicação da continuidade matemática.

Existem diversas regras mais complexas que permitem especificar exceções, e também aquelas que podem expressar relações entre os valores dos atributos de diferentes instâncias.

2.1.3.1 Regras de classificação

As regras de classificação também podem ser consideradas etapas classificação não supervisionada e supervisionadas, pois seu método de execução opera sob supervisão humana, dessa maneira fornece o resultado real para cada um dos exemplos de treinamento. Esse resultado é chamado de classe do exemplo. Em muitas aplicações práticas de mineração, o sucesso do resultado é medido subjetivamente, considerando o quão aceitável é a descrição aprendida - como as regras ou a árvore de decisão - para um usuário humano (WITTEN, 2011).

Segundo Silva (2009, p.09) a classificação:

Visa identificar a qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de ’aprender’ como classificar um novo registro (aprendizado supervisionado).

(24)

24 As regras de associação diferem-se das regras de classificação de duas maneiras: as regras de associação podem "prever" qualquer atributo, não apenas a classe, como também podem “prever” mais de um valor de atributo de por vez.

Segundo De Vasconcelos e De Carvalho (2004, p. 8) apud (AGRAWAL, IMIELINSKI, SWAMI (1993)) o problema de se descobrir todas as regras de associação pode ser divido em duas partes:

 Encontrar todos os conjuntos de itens que possuam um suporte de transações acima de um limite mínimo informado (número das transações do conjunto).

 Selecionar apenas as regras que possuam o grau de confiança mínimo, que seja correspondente à confiança mínima.

O suporte de uma regra X ⇒ Y, onde X e Y são conjuntos de itens, pode ser descrito como a probabilidade de que uma transação qualquer satisfaça tanto X quanto Y (DE VASCONCELOS, DE CARVALHO (2004) apud AGRAWAL, IMIELINSKI, SWAMI (1993), p.9), e é dado pela seguinte fórmula:

= ê

Onde o numerador se refere ao número de transações em que X e Y ocorrem simultaneamente e o denominador ao total de transações.

A confiança de uma regra é a probabilidade de que uma transação satisfaça Y, dado que ela satisfaz X (DE VASCONCELOS; DE CARVALHO (2004) apud AGRAWAL, IMIELINSKI, SWAMI (1993), p. 9), dada pela seguinte fórmula:

ç = ê

O numerador se refere ao número de transações em que X e Y ocorrem simultaneamente.

2.1.3.3 Clusterização

A clusterização é utilizada quando não há nenhuma classe especificada, com a finalidade de agrupar itens que possuem características semelhantes. Pode ser seguido por um segundo passo de aprendizagem de classificação em que as regras

(25)

são aprendidas que dão uma descrição inteligível de como novas instâncias devem ser colocadas nos clusters (WITTEN, 2011).

Segundo Camilo e Silva (2009), a tarefa de clusterização:

Visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos. Esta tarefa difere da classificação, pois não necessita que os registros sejam previamente categorizados (aprendizado não-supervisionado). Além disso, ela não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela apenas identifica os grupos de dados similares.

2.1.3.4 Regras de regressão

As regras de regressão, segundo Witten (2011), são variantes da aprendizagem de classificação, onde o resultado é um valor numérico e não uma categoria. Com problemas de previsão numérica, como com outras situações de aprendizado de máquina, o valor previsto para novas instâncias é muitas vezes de menor interesse do que a estrutura da descrição que é aprendida, expressa em termos de quais são os atributos importantes e como eles se relacionam com o resultado numérico.

2.2 Oncologia

Oncologia é a especialidade médica que estuda os canceres, está voltada para a forma como o câncer se desenvolve no organismo e qual é o tratamento mais adequado para cada tipo (NCI, 2015a).

2.2.1 Câncer de estômago

Também nomeado de câncer gástrico, apresenta-se em três tipos: Adenocarcinoma; Linfoma; Leiomiossarcoma. O adenocarcinoma começa nas células que produzem muco e liberação de outros fluidos (NCI, 2015e) sendo o mais popular entre os tipos de câncer de estômago com 95% de incidência. Conforme dados do Instituto Nacional de Câncer José Alencar Gomes da Silva (INCA), o linfoma é diagnosticado em cerca de 3% dos casos, associado à mucosa constituída por células pequenas e com baixo grau de malignidade. E por final, o leiomiossarcoma é iniciado em tecidos que dão origem aos músculos e aos ossos, diagnosticado em cerca de 2% dos casos (INCA, 2015b).

(26)

26 De acordo com a Classificação Internacional de Doenças (CID-10), o câncer de estomago é identificado pelo código C16. Há disponível no Portal da Saúde SUS (Sistema Único de Saúde) (2008), a última versão do CID-10 com maiores detalhes sobre todos os cânceres, na Tabela 1 podem ser observados os detalhes topográficos do câncer de estômago.

Tabela 1 - Classificação detalhada do CID-10 C16

Código Descrição

C16.0 neoplasia maligna da cárdia (que engloba esôfago e estômago);

C16.1 do fundo do estômago; C16.2 do corpo do estômago;

C16.3 do antro pilórico;

C16.4 do piloro;

C16.5 da pequena curvatura do estômago, não especificada;

C16.6 da grande curvatura do estômago, não especificada;

C16.8 do estômago com lesão invasiva;

C16.9 do estômago, não especificado.

Fonte: SUS (2008)

Para o Brasil, esses tumores aparecem em terceiro lugar na incidência entre homens e em quinto, entre as mulheres. No resto do mundo, dados estatísticos revelam declínio da incidência, especificamente nos Estados Unidos, Inglaterra e outros países mais desenvolvidos. Segundo estimativas do INCA (2014) só no ano de 2014, foram esperados 2.870 casos novos de câncer de estômago em homens e 7.520 em mulheres. Esses valores correspondem a um risco estimado de 13,19 casos novos a cada 100 mil homens e 7,41 a cada 100 mil mulheres, como pode ser observado na Figura 6.

(27)

Fonte: INCA (2014)

O tratamento mais comum da doença é cirúrgico, podendo ser a partir da retirada de parte ou de todo o estômago, além dos nódulos linfáticos próximos. A cirurgia de retirada do órgão é a única chance de cura, e a principal solução terapêutica adotada. Associado á cirurgia, métodos considerados secundários como radioterapia e/ou quimioterapia também são utilizados (INCA, 2015c).

2.2.2 Fatores principais

Conforme site do INCA (2015b), não há sintomas específicos para o câncer de estômago, entretanto, há alguns sinais como perda de apetite, fadiga, sensação de estômago cheio, vômitos, náuseas e desconforto abdominal constante (úlcera, gastrite crônica, etc.). Além destes, a presença de massa palpável na parte superior do abdômen, aumento do tamanho do fígado e presença de íngua na área inferior esquerda do pescoço e nódulos ao redor do umbigo indicam estágio avançado da doença.

Os sangramentos gástricos são incomuns em lesões malignas, mas o vômito com sangue ocorre em cerca de 10 a 15% dos casos de câncer de estômago. Mesmo sendo o fator ambiental/comportamental considerado um dos mais significativos para o desenvolvimento da doença, os fatores genéticos podem influenciar no câncer (INCA, 2015b).

Fatores relacionados à alimentação, como novos métodos para a conservação dos alimentos e com a redução do consumo de sal, o consumo de alimentos frescos (verduras e frutas), reduziu as taxas de incidência da doença em vários países. Bem como a diminuição das infecções pela bactéria Helicobacter pylori (H pylori), que é responsável por cerca de 60% dos casos de câncer de estômago no mundo (INCA, 2014).

INCA (2012d, p.60) lista uma série de fatores ocupacionais de risco para a presença do estômago que são considerados pela literatura, entre eles há:

O trabalho em minas, o trabalho com poeira de metais e outras poeiras na construção civil, como sílica e asbesto, assim como o trabalho com carvão e com borracha. Radiação ionizante, óleo de usinagem ou óleo mineral. As ocupações que envolvem exposição a produtos de combustão e as que envolvem exposição a combustíveis fósseis.

(28)

28 Devido à exposição a substâncias químicas, poeiras e vapores de combustíveis fósseis, o trabalho em área rural é considerado como fator de risco ocupacional, assim como o trabalho em lavanderia também é apontado com um fator de risco (INCA, 2012d, p.60).

2.2.3 Estadiamento TNM gástrico

O TNM é o sistema de estadiamento mais utilizado por médicos e hospitais, recomendado pela União Internacional Contra o Câncer (UICC). Em seu sistema temos:

 T: se refere ao tamanho e extensão do tumor principal;

 N: se refere ao número de nódulos linfáticos que têm câncer;  M: se refere à ausência ou presença de metástase á distancia.

Estadiamento do câncer de estômago pode ser dado de modo clínico e patológico. Sendo o clínico determinado por exames físicos e complementares, e o estadiamento patológico dado pelos resultados cirúrgicos e biopsias, dando uma maior precisão no tratamento da doença (EIFLER, 2012). Pode ser observada na Tabela 2, a classificação TNM de estadiamento.

Tabela 2 - Grupos de estadiamento do câncer de estômago pelo sistema TNM

Estádios T N M Estádio 0 Tis N0 M0 Estádio IA T1 N0 M0 Estádio IB T2 N0 M0 T1 N1 M0 Estádio IIA T3 N0 M0 T2 N1 M0 T1 N2 M0 Estádio IIB T4a N0 M0 T3 N1 M0 T2 N2 M0 T1 N3 M0 Estádio IIIA T4a N1 M0 T3 N2 M0 T2 N3 M0 Estádio IIIB T4b N0, N1 M0 T4a N2 M0 T3 N3 M0

(29)

Estádio IIIC T4a N3 M0 T4b N2, N3 M0 Estádio IV qualquer T qualquer N M1 Fonte: UICC (2009) 2.3 Informática médica

Segundo Michael Hogarth apud Shortliffe e Perrault (1998) a informática médica é descrita como:

Campo científico que trata do armazenamento, recuperação, e uso otimizado da informação biomédica, dados, e conhecimento para a resolução rápida de problemas e tomada de decisões.

Essa área estuda e desenvolve sistemas computacionais para dar apoio às atividades médicas, trabalhando em conjunto com as áreas da informática para tarefas como análise e processamento digital de sinais bioelétricos, processamento digital de imagens médicas, desenvolvimento de sistemas de monitoração, apoio ao diagnóstico e à decisão e sistemas de instrução inteligente auxiliada por computador (TI MEDICINA, 2010). Na Figura 7 pode-se observar algumas das muitas relações que a informática médica tem com a medicina.

A informática médica tem o potencial de beneficiar o atendimento ao paciente. Seus benefícios diretos são derivados do fato de poder-se aumentar a capacitação e a ação dos médicos e outros profissionais de saúde, através do melhor acesso ao conhecimento médico e informação (HOGARTH, 1998).

(30)

30

Figura 7 - Relações da informática com a medicina

Fonte: TI Medicina (2016)

No final da década dos 40, um dos primeiros computadores digitais modernos foi usado na Alemanha para automatizar o registro de tumores do hospital de Heidelberg, renomeado pelo tratamento de câncer (TI MEDICINA, 2010).

As ferramentas utilizadas são chamadas de TICS (Tecnologia da Informação e Comunicação em Saúde). As principais ferramentas utilizadas pelos médicos são o PEP (Prontuário Eletrônico do Paciente) e o RES (Registro Eletrônico de Saúde).

O Prontuário Eletrônico do Paciente é a tecnologia utilizada para o armazenamento das informações do paciente. Ele segue as determinações da Resolução CFM Nº 1638/2002, que define a estrutura dos prontuários médicos e torna obrigatória a criação da Comissão de Revisão de Prontuários (CFM; SBIS, 2012).

O Registro Eletrônico de Saúde permite o armazenamento e o compartilhamento seguro das informações de um paciente, contém todas as informações individuais de saúde, pode ser acessado por múltiplos provedores ao longo da vida do indivíduo e vai além dos registros hospitalares: guarda, também, os registros ambulatoriais (PATRÍCIO, 2011). Ele é uma evolução do PEP, pois pode

(31)

ser processado eletronicamente. Possui um sistema para registro, recuperação e manipulação das informações de um registro eletrônico, S-RES (Sistema de Registro Eletrônico em Saúde) (CFM; SBIS, 2012).

Os Cacons são os hospitais que possuem as condições técnicas, as instalações físicas, equipamentos e recursos humanos adequados para a prestação de assistência especializada para o diagnóstico definitivo e tratamento de todos os tipos de câncer. Sob a regulação do gestor do SUS, são responsáveis por fazer a articulação, integração e disponibilização com a rede de saúde local e regional, os registros, consultas e exames de média complexidade para o diagnóstico diferencial do câncer (INCA, 2012d).

2.4 Integrador dos registros hospitalares de câncer

Os Registros Hospitalares de Câncer (RHC) são as ferramentas utilizadas para o acompanhamento dos casos de câncer. Essas ferramentas se caracterizam como centros de coleta, armazenamento, processamento, análise e divulgação sistemática e contínua das informações de pacientes com diagnóstico confirmado, atendidos em uma determinada Unidade Hospitalar (INCA, 2016).

De acordo com INCA (2012) são cadastradas as doenças classificadas conforme o CID-O, como malignas, neoplasias in situ e alguns tumores de comportamento benigno, incerto ou desconhecido. Avalia-se, com as informações produzidas em um RHC, o desempenho da instituição quanto à atenção prestada ao paciente oncológico. Essas informações são processadas através do SisRHC, sistema desenvolvido pelo INCA, que alimenta a base de dados através do processamento dos RHC, tornado os disponível para análise no IntegradorRHC.

O IntegradorRHC é um sistema web, desenvolvido e implantado em 2007 pelo INCA, que permite e possibilita a consolidação e divulgação de dados hospitalares sobre o câncer. Os benefícios do sistema são justificados através da utilização de dados padronizados, criação de um banco de dados nacional, pela facilidade e rapidez para transmissão de dados, armazenamento central e amplo acesso à divulgação dos dados (INCA, 2011). Segundo INCA (2011), essa difusão e acesso às informações sobre a assistência oncológica formam a base fundamental para conhecimento da realidade dessa doença no país, contribuindo para definição de políticas públicas e para as ações de vigilância e controle do câncer.

(32)

32 As Secretarias de Estado de Saúde e as Secretarias Municipais de Saúde devem estabelecer fluxos assistenciais e mecanismos de referência dos pacientes. Além disso, devem possuir condutas de diagnóstico e tratamento das neoplasias malignas, observando as diretrizes nacionais e integrando as respectivas modalidades do tratamento oncológico assinadas pelos responsáveis técnicos dos serviços e atualizadas a cada quatro anos, devem contar com unidades e centros (INCA, 2012d).

Pode-se observar na Figura 8, o fluxo de informações do RHC. De acordo com o site do INCA, os dados exportados ficam armazenados em um servidor central, localizado no Instituto Nacional De Câncer José Alencar Gomes Da Silva. Eles trafegam criptografados, garantindo assim sua integridade e confiabilidade. O processo de consolidação, inicialmente se dá através, do Coordenador Estadual, onde validará todas as bases de dados do seu estado. Após isso, a Coordenação Nacional faz a consolidação de todas as bases de dados de cada Estado do Brasil (INCA, 2012d).

Figura 8 - Fluxo das informações

Fonte: INCA, 2012.

O processo de consolidação engloba a identificação de casos múltiplos, onde um mesmo paciente recebeu assistência em mais de uma unidade hospitalar para o tratamento do tumor, e o contabiliza apenas uma vez, para não superestimar o número de casos nas bases consolidadas, tanto estaduais quanto nacional (INCA, 2011).

(33)

ESTÔMAGO

A pesquisa a ser realizada neste trabalho pode ser classificada como experimental. Isto deve-se ao fato de manipular diretamente as variáveis relacionadas com o objeto de estudo. Segundo Cervo e Bervian (2002) a manipulação de variáveis proporciona o estudo da relação entre as causas e os efeitos de determinado fenômeno.

Quanto à metodologia, o trabalho em mãos faz a opção pelo método comparativo. Segundo Leite (2006) apud Fachin (2001), o método comparativo consiste em investigar coisas ou fatos e explicá-los segundo suas semelhanças e suas diferenças. Assim como, também permite a análise de dados concretos e a dedução de semelhanças e divergências de elementos constantes, abstratos e gerais, propiciando investigações de caráter indireto.

A pesquisa utilizou a coleta, integração e tratamento dos dados, bem como buscou a forma mais apropriada para a representação do conhecimento obtido pelas técnicas de mineração.

3.1 Coleta de dados

A coleta dos dados utilizados neste trabalho foi feita através do site do IRHC, podendo sua interface ser visualizada na Figura 9. O IRHC disponibiliza os dados para a ferramenta gratuita desenvolvida pelo DataSUS (Departamento de Informática do SUS), o tabulador TabWin, em arquivos no formato def. Esse tabulador processa as informações originais das bases dos RHC, garante a confidencialidade na identificação de qualquer paciente (INCA, 2016) e permite a exportação dos dados em formatos como xml, dbc, csv.

O formato de exportação csv permite que durante a importação dos arquivos, os atributos sejam escolhidos conforme seus tipos de dados. Por exemplo, um atributo numérico como a cidade de procedência do paciente não seja importado como uma string. Com a importação dos dados através do SGBD MySQL, pode-se visualizar melhor dos registros. A integração e adequação de todos os arquivos

(34)

34 entre o período de 2000 e 2013 gerou um total de 166.407 registros hospitalares para a etapa de pré-processamento dos mesmos.

Os anos de 2014 e 2015, foram desconsiderados devido ao período de avaliação dos dados dos prontuários, que é realizada com intervalo mínimo de seis meses até um ano a partir da data de abertura (SAUDE, 2000).

Figura 9 - Página de download dos dados pelo Integrador RHC

Fonte: INCA (2016)

3.2 Pré-processamento dos dados

Para a correta aplicação das técnicas de mineração, a fim de traçar o perfil de pacientes, os dados precisaram ser tratados de maneira adequada para a obtenção dos resultados corretos. Pode-se observar no Gráfico 1 a relação de todos os registros que foram armazenados no banco, representados por anos.

(35)

Gráfico 1 - Total de registros de acordo com ano, sem pré-processamento.

Fonte: Autor (2016)

As etapas de pré-processamento nos dados são descritos e justificadas a seguir:  Seleção do caso de câncer a ser estudado: C16 correspondente ao estômago, de acordo com o CID-10. De 166 mil registros disponíveis do estado do Rio Grande do Sul, 4.912 foram os registros correspondentes ao estômago.

 Primeira adequação dos dados: estadiamento, classificação da doença de acordo com o sistema TNM. Informações existentes como “Outro”, “Não se aplica” ou “Sem informação” foram critérios de eliminação dos registros. Reduzindo um total de 2.665 registros da base de dados, restando 2.247 registros na base.

 Criação da classe tnm_estadiamento, com valores nominais de atribuição, sendo respectivamente “EST 0”, “EST 1”, “EST 2”, “EST 3” e “EST 4” para os estágios da classificação TNM.

 Correção das idades, removendo inicialmente as idades não condizentes, como 0 (zero) anos ou sem valores atribuídos com 999 e também removendo idades caracterizadas como fora da grupo de risco (< 40 e > 80). Reduzindo, dessa maneira, 218 registros da base, restando 2.029 registros.

 Criação do idade_grupo, para o agrupamento das faixas de idade, em 40, 50, 60 e 70 anos. 500 2500 4500 6500 8500 10500 12500 14500 16500 18500 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Re gi st ro s im po rt ad os

(36)

36

 Criação das classes tratamento e diagnostico, para representação do atributo dos diagnósticos (DIAGANT). Por não ser um atributo atômico, permite que junções como “Sem Diagnostico Sem Tratamento”, ou “Com Diagnostico Sem Tratamento”, ou ainda “Com Diagnostico Com Tratamento” sejam atribuídos ao registro, além de incluir a opção de “Sem Informação” ou “Outros” para seleção.

A adequação resultante dessas informações, tanto para o tratamento, quanto para o diagnóstico, foi: “Sim”, “Não” ou “nf”, para valores sem informação ou outros.

Em virtude do modelo de dados adotado pelo banco de dados do INCA, em sua grande maioria atributos numéricos para a melhor representação das informações, foi necessário adequá-los para texto (atributo nominal), onde estes apresentam a essência das informações de maneira lógica e clara.

 A classe genero (SEXO) representa as informações do gênero com “m” e “f”, anteriormente 1 e 2 para o sexo masculino e feminino respectivamente.

 O estado conjugal dos pacientes, classe est_conj (ESTCONJ), está agrupado em 4 categorias “solteiro”, “casado”, “viúvo” e “nf” (não informado).

 A categorização das profissões, classe profissao (OCUPACAO), registrada pelo INCA de acordo com a Classificação Brasileira de Ocupações do Ministério do Trabalho foi feita através do agrupamento por afinidade de profissões. Onde havia o maior número de incidências, como foi o caso das profissões agrícolas que representam o maior número de casos, as profissões “sem classificação” e a classificação “outros”, foram agrupados.

 A categorização do diagnóstico gerou a criação da classe base_diag, com valores nominais em substituição, mas igual significado quanto ao valor numérico original. Sendo seus valores: clinica, pesquisa clinica, exame imagem, marcadores tumorais, citologia, histologia da metástase, histologia

(37)

do tumor primário. Os valores não informados foram removidos da base de dados, totalizando 18 registros, restando 2.011.

 Os tipos histológicos que caracterizam a morfologia do tumor, foram classificados na classe morfologia, e passaram a ter valores nominais. Os registros que não possuem valores correspondentes na Classificação Internacional de Doenças para Oncologia (CID-O) foram removidos, totalizando 1 registro, restando 1.998 registros na base de dados.

 A categorização de mais de um tumor foi feita pela classe maisUmTumor, com valores nominais como “Sim”, “Não” ou “nf” para valores não informados ou classificados como talvez.

Após a adequação dos dados na etapa de pré-processamento, pode-se observar uma grande redução dos dados devido à falta de informação nos registros. No Gráfico 2, observa-se as quantidades existentes de registros com e sem a aplicação do pré-processamento de acordo com o ano correspondente.

Gráfico 2 - Total de registros sem e com técnicas de pré-processamento

Fonte: Autor (2016)

3.3 Descoberta do conhecimento

Nesse capítulo estão descritas as ferramentas e algoritmos que foram utilizados para que a descoberta do conhecimento fosse possível e também

0 50 100 150 200 250 300 350 400 450 500 550 600 650 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Re gi st ro s de c ân ce r d e es tô m ag o Sem Pré Com Pré

(38)

38 representada. Descreve a ferramenta WEKA, e o correto funcionamento de seus algoritmos na mesma, e também apresenta suas configurações para a melhor representação do conhecimento com o conjunto de atributos utilizado no trabalho.

3.3.1 WEKA

A ferramenta WEKA foi desenvolvida em Java por pesquisadores da Universidade de Waikato, na Nova Zelândia. Possui código aberto para alterações e está licenciado pela General Public License. Possui uma coleção de algoritmos de aprendizagem de máquina para tarefas de mineração de dados sendo, de acordo com o site da Universidade, detentor de ferramentas para pré-processamento de dados, classificação, regressão, agrupamento, regras de associação e visualização (WEKA, 2014).

Segundo Silva (2004, p.15):

Grande parte de seus componentes de software são resultantes de teses e dissertações de grupos de pesquisa desta universidade. Inicialmente, o desenvolvimento do software visava à investigação de técnicas de aprendizagem de máquina, enquanto sua aplicação inicial foi direcionada para a agricultura, uma área chave na economia da Nova Zelândia.

Para análise dos dados que serão processados através da ferramenta WEKA, tem-se a necessidade de transformar os dados de entrada em um arquivo de extensão *.arff (Attribute Relation File Format). Para isso precisa-se exportar os dados do SGBD no formato csv, para que possa ser aberto e novamente salvo como ARFF pela ferramenta.

3.3.2 Algoritmo Apriori

O algoritmo Apriori é um membro popular e fundamental da relação dos chamados “kernels de mineração de dados” usados atualmente. Ele é utilizado para processar os dados de maneira útil, especialmente em estabelecer conexões entre conjuntos de itens (SHRIVASTAVA, PANDA (2014)).

Segundo Tan, Steinbach e Kumar (2009, p.397), o principio Apriori diz: “se um conjunto de itens é frequente, então todos os seus subconjuntos também devem ser frequentes”.

(39)

Segundo De Vasconcelos e De Carvalho (2009, p.10), o algoritmo utiliza busca em profundidade e gera conjuntos de itens candidatos (padrões) de k elementos a partir de conjuntos de itens de (k – 1) elementos. Os padrões não frequentes são eliminados. Toda a base de dados é rastreada e os conjuntos de itens frequentes são obtidos a partir dos conjuntos de itens candidatos.

Figura 10 – Tela do WEKA para a sessão de associação

Fonte: Autor (2016)

As principais configurações utilizadas no algoritmo de associação podem ser observadas na Tabela 3.

Tabela 3 – Detalhes de configuração do algoritmo Apriori

Atributo Definição Valor

minMetric Considera apenas regras com métricas superiores ao valor

indicado 0,8

verbose Algoritmo será executado mostrando mensagens False numRules Número de regras a serem encontradas 200 outputItemSets Exibe os conjuntos de itens False

(40)

40

car Define se o atributo selecionado é considerado como classe False

doNotCheckCapabilities associador antes que ele seja Verifica as capacidades do

construído False

removeAllMissingCols Remove colunas com todos os valores ausentes False significanceLevel Nível de confiança (apenas para a métrica de confiança) -1

delta Limite de redução de suporte de iterações 0.05 metricType Métrica utilizada pelas regras de associação Confidence Fonte: Autor (2016)

3.3.3 Algoritmo K-means

É uma técnica de agrupamento baseada em protótipos que criam particionamentos em mais de um nível dos objetos de dados. O algoritmo define um protótipo em termos de uma centroide (média de um grupo de pontos) e é geralmente aplicada a objetos em um espaço n-dimensional dos dados (TAN; STEINBACH; KUMAR, 2009).

O algoritmo funciona da seguinte maneira: escolhe-se K (classe, grupos a serem formados) centroides iniciais. Para cada ponto é atribuído, a seguir, o centroide mais próximo, e cada coleção de pontos atribuídos a um centroide é um grupo (TAN; STEINBACH; KUMAR, 2009). O centroide de cada grupo é então atualizado baseado nos pontos atribuídos ao grupo. Repete-se os passos de atribuição e atualização até que nenhum ponto mude de grupo, ou equivalentemente até que os centroides permaneçam os mesmos.

Existem algumas medidas úteis para determinar a similaridade entre os elementos. Nesse trabalho, foi utilizada a distância euclidiana. Esta medida considera a distância entre dois elementos Xi e Xj em um espaço n-dimensional.

Quanto menor a distância encontrada entre dois elementos Xi e Xj, maior será o nível

de semelhança entre eles (COSTA, 2012).

O processo de execução do K-means é basicamente dividido em 3 etapas. A primeira delas consiste em escolher o centro inicial de cada cluster, também

(41)

denominado centroide ou semente. Como k=5, serão escolhidos 5 centroides iniciais. No algoritmo original, estes centros eram sempre os cinco primeiros registros da base de dados. Mas hoje existem versões do K-means que trabalham de forma diferente selecionando os centroides ate mesmo aleatoriamente (COSTA, 2012 apud GONÇALVES, 2010).

A segunda etapa consiste em associar cada um dos demais registros a um centro inicial, medindo-se a distância de cada um deles aos centroides. Assim, cada registro será associado ao cluster cujo centroide estiver mais próximo dele (COSTA, 2012 apud GONÇALVES, 2010).

Tabela 3 - Atributos utilizados pelo algoritmo K-means

Atributo Descrição Valor atribuído

distanceFunction medida de distância

utilizada Euclidiana

maxInterations número máximo de iterações

500 numClusters número de grupos a

serem formados

2 Fonte: Autor (2016)

Ainda segundo Costa (2012, p. 45) apud Gonçalves (2010), uma vez associados os registros aos seus centroides o algoritmo passa para a terceira etapa que consiste em recalcular os centros dos clusters, para verificar se houve alguma movimentação dos mesmos. Isso é feito utilizando a média aritmética dos valores das coordenadas dos pontos.

3.3.4 Conjunto de atributos

O conjunto de atributos e seus tipos de dados utilizados pelos algoritmos estão descritos na Tabela 4.

Tabela 4 - Atributos utilizados pelos algoritmos

Atributo Tipo categoria Itens por

Localnascimento Categórico 9

tnm_estadiam Categórico 4

idade_grupo Categórico 4

(42)

42 Profissao Categórico 3 Diagnostico Categórico 3 Tratamento Categórico 3 base_diag Categórico 7 morfologia Categórico 42 maisUmTumor Categórico 2 Fonte: Autor (2016)

(43)

Esse capítulo apresenta os resultados do trabalho obtidos através das execuções dos algoritmos de mineração de dados de maneira geral, e faz a análise dos mesmos.

4.1 Regras de clusterização para o perfil dos pacientes

A justificativa da utilização do algoritmo K-means é dada pela facilidade de agrupamento e critérios utilizados pelo algoritmo e na busca padrões também nos pontos de ruído.

A Tabela 5 exibe os 5 clusters gerados pelo algoritmo.

Tabela 5 – Clusters

Fonte: Autor (2016)

O cluster 0 ficou composto por 510 casos e representa 26% das ocorrências da amostra. Seus atributos podem ser visualizados com maiores detalhes no Gráfico 3, onde o grupo de idade entre 50 e 59 anos (48%), gênero feminino (65%), ausência de diagnóstico (64%) e tratamento (89%) da doença, estadiamento 4 (67%) conforme a TNM, ausência de mais de um tumor (90%), possuem o local de nascimento como RS (91%), a ocupação profissional classificada “Outros” (74%), tendo como a base de diagnóstico do tumor a Histologia do Tumor Primário (91%) e a morfologia sendo Adenocarcinoma, SOE (57%).

Cluster 0 1 2 3 4

Instâncias 510 808 382 225 73

localnascimento RS RS RS RS RS

tnm_estadiam EST 4 EST 4 EST 3 EST 3 EST 2

idade_grupo 50 - 59 60 - 69 70 -79 50 - 59 70 -79

genero F M M M F

profissao Outros Outros Outros Agricolas Outros

diagnostico Não Sim Sim Sim Não

tratamento Não Não Sim Não Não

base_diag Histologia Tum Primario Histologia Tum Primario Histologia Tum Primario Histologia Tum Primario Histologia Tum Primario

morfologia Adenocarcinoma, SOE Adenocarcinoma, SOE Adenocarcinoma, SOE Adenocarcinoma, SOE Adenocarcinoma, SOE

(44)

44

Gráfico 3 - Cluster 0

Fonte: Autor (2016)

O resultado da análise agrupou, no cluster 1, 40% das ocorrências da amostra total, ou seja, 808 dos pacientes tiveram similaridade em seu caso. Essas características estão representadas pelos seguintes atributos e podem ser observadas no Gráfico 4: grupo de idade entre 60 e 69 anos (63%), gênero masculino (85%), presença de diagnóstico da doença, estadiamento 4 (68%) conforme a TNM e não haver um tratamento para a mesma (82%), ausência de mais de um tumor (89%), possuem o local de nascimento como RS (84%), a ocupação profissional classificada “Outros” (75%) tendo como a base de diagnóstico a Histologia do Tumor Primário (90%) e a morfologia sendo Adenocarcinoma, SOE (61%).

Gráfico 4 - Cluster 1

Fonte: Autor (2016)

O cluster 2 ficou composto por 382 casos e representa 19% do total da amostra pesquisada. É formado pelos seguintes atributos: grupo de idade fica entre

(45)

70 e 79 anos (47%), gênero masculino (68%), presença de diagnóstico (91%) e tratamento (81%), estadiamento 3 (73%) conforme a TNM, ausência de mais de um tumor (91%), tendo como local de nascimento o RS (82%), a ocupação profissional classificada “Outros” (82%), tendo como a base de diagnóstico do tumor a Histologia do Tumor Primário (89%) e a morfologia sendo Adenocarcinoma, SOE (60%). Esses dados podem ser observados no Gráfico 5.

Gráfico 5 - Cluster 2

Fonte: Autor (2016)

O cluster 3 é composto por 255 casos representando 11% do total da amostra pesquisada, e é formado pelos seguintes atributos: grupo de idade entre 50 e 59 anos (48%), gênero masculino (87%), diagnóstico positivo (74%) e ausência de tratamento (87%) para a doença, estadiamento 3 (67%) conforme a TNM, ausência de mais de um tumor (82%), tendo como local de nascimento o RS (82%), a ocupação profissional classificada “Agrícolas” (87%), tendo como a base de diagnóstico do tumor a Histologia do Tumor Primário (96%) e a morfologia sendo Adenocarcinoma, SOE (61%). Essa representação pode ser observada no Gráfico 6.

(46)

46

Gráfico 6 - Cluster 3

Fonte: Autor (2016)

O cluster 4, composto por 73 casos representa 4% do total da amostra pesquisada. Pode ser observado com mais detalhes no Gráfico 7, e possui os seguintes atributos para a categorização dos casos: grupo de idade entre 70 e 79 anos (79%), gênero feminino (67%), ausência de diagnóstico (67%) e tratamento (100%) para a doença, estadiamento 2 (57%), ausência de mais de um tumor (91%), tendo como local de nascimento o RS (93%), a ocupação profissional classificada “Outros” (86%), base de diagnóstico do tumor sendo a Histologia do Tumor Primário (94%) e morfologia sendo Adenocarcinoma, SOE (47%).

Gráfico 7 - Cluster 4

Fonte: Autor (2016)

Na Figura 11 tem-se a representação gráfica do agrupamento gerado pela ferramenta WEKA. Na Figura 11 e Figura 12 a cor vermelha representa os casos femininos, e o azul os masculinos respectivamente, pode-se observar na Figura 11(a) e (b) que o cluster 1 apresenta a maior concentração de casos com estádio 4 e o grupo de pessoas com idade entre 60 e 69 anos.

(47)

Figura 11 - Grupos gerados pelo cluster, agrupados por estadiamento/gênero

Fonte: Autor (2016)

Figura 11 - Grupos gerados pelo cluster, agrupados por idade/gênero

Fonte: Autor (2016)

4.2 Regras de associação para o perfil dos pacientes

Essa seção apresenta os resultados obtidos com a utilização das regras de associação. Em função do grande número de regras obtidas, apenas as julgadas mais relevantes foram selecionadas. Como critério de seleção, foram coletadas para análise as regras que obtiveram confiança mínima de 80%.

(48)

48 4.2.1 Base mais importante para o diagnóstico

O Quadro 1 contém uma regra com taxa de confiança de 93%, onde todas as ocorrências de casos femininos de câncer tiveram a base do diagnóstico sendo a Histologia do Tumor Primário (606 casos diagnosticados de um total de 649 casos).

Quadro 1 - Regra 1

Regra Total de casos Ocorrências Total de Percentual de Confiança

genero=F -> base_diag=Histologia Tum Primario 640 606 93%

Fonte: Autor (2016)

A partir do Quadro 2, com uma taxa de confiança de 93%, os casos diagnosticados com a base do diagnóstico sendo a Histologia do Tumor Primário (641 casos, de um total de 690 casos) tiveram como local de nascimento o estado do Rio Grande do Sul, tiveram um diagnóstico, não possuem tratamento para a doença e nem mais de um tumor.

Quadro 2 - Regra 2

Regra Total de casos Ocorrências Total de Percentual de Confiança localnascimento=RS 641 690 93% diagnostico=Sim tratamento=Não maisUmTumor=Nao Fonte: Autor (2016)

Com uma taxa de confiança de 89%, o Quadro 3 observa-se que, como resultado da Histologia do Tumor Primário, de todos os 773 casos no banco de dados, 691 deles possuem o Rio Grande do Sul como local de nascimento, a morfologia do tumor como Adenocarcinoma, e o diagnóstico positivo da doença.

Quadro 3 – Regra 3

Regra Total de casos Ocorrências Total de

Percentual de Confiança localnascimento=RS 773 691 83% diagnostico=Sim morfologia=Adenocarcinoma, SOE

(49)

Fonte: Autor (2016)

4.2.2 Mais de um tumor

No Quadro 4 pode-se perceber a relação de 599 casos (de um total de 660) não possuindo mais de um tumor, para o gênero masculino, tendo como ocupação profissional a classificação “Outros” e o diagnóstico positivo para a doença, com uma taxa de confiança de 91%.

Quadro 4 - Regra 4

Regra Total de casos Ocorrências Total de Percentual de Confiança genero=M 599 660 91% profissao=Outros diagnostico=Sim Fonte: Autor (2016)

O Quadro 5, com uma taxa de confiança de 89%, apresenta 694 casos (de um total de 780) sem a presença de mais de um tumor, para os pacientes que residem no estado do Rio Grande do Sul, tendo como ocupação profissional a classificação “Outros”, o tratamento negativo para a doença, e a base como diagnóstico sendo Histologia do Tumor Primário.

Quadro 5 - Regra 5

Fonte: Autor (2016)

A partir do Quadro 6, pode-se observar que 679 casos, de um total de 700, apresentam a base como diagnóstico sendo Histologia do Tumor Primário, o estadiamento igual a 4, não apresentam tratamento nem mais de um tumor, com o percentual de confiança de 91%.

Quadro 6 - Regra 6

Regra Total de casos Ocorrências Total de de Confiança Percentual tnm_estadiam=EST 4

679 700 91%

tratamento=Nao

Regra Total de casos Ocorrências Total de de Confiança Percentual localnascimento=RS

694 780 89%

profissao=Outros tratamento=Não

(50)

50

base_diag=Histologia Tum Primario Fonte: Autor (2016)

(51)

Com o desenvolvimento deste estudo foi possível destacar a importância do uso de técnicas de mineração de dados para a descoberta do conhecimento no âmbito da saúde. Através da definição inicial do problema e dos objetivos, foi possível identificar que todas as etapas objetivadas foram realizadas com sucesso, podendo ser aproveitada para auxilio dos especialistas da área e ser relevante para a sociedade em geral.

As etapas de pré-processamento dos dados, mesmo tendo-se a necessidade de utilizar outro programa para obtenção dos dados, foram executadas sem problemas. Durante as etapas de pré-processamento pode-se identificar perfis predominantes de casos de câncer de estômago, que foram adequados ao banco de dados MySQL, para que assim pudessem ser tratados os dados inconsistentes e também definidos valores genéricos para melhor representação do conhecimento com os atributos disponibilizados.

Com a análise dos dados coletados, destaca-se que a tarefa de agrupamento, executada pelo algoritmo K-means, foi a que melhor contribuiu para a descoberta de conhecimento, aprimorando e representando assim uma definição para o perfil do paciente com câncer de estômago do estado do Rio Grande do Sul. Com os resultados apresentados na Tabela 5, verificou-se que além de relacionar todos os atributos em uma classe central, o algoritmo relacionou também as classes conforme a proximidade e semelhança de seus atributos com as outras classes, essa relação entre as classes permitiu a verificação das características dos pacientes.

Com a análise feita pelo algoritmo Apriori foi possível apurar, em um primeiro experimento, características específicas do perfil do paciente com câncer como, por exemplo, as bases do diagnóstico, que tiveram como exame predominante a Histologia do Tumor Primário.

Nesse trabalho foi utilizado o mesmo conjunto de atributos para as duas tarefas de mineração de dados, de maneira que ambas pudessem ser viáveis, gerassem conhecimento e também observar qual técnica melhor representaria o perfil dos pacientes. Como trabalhos futuros, propõe-se analisar distintos conjuntos

(52)

52 de dados para as tarefas, a fim de aprimorar o perfil dos pacientes e também buscar

(53)

CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1-29, 2009.

CERVO, A. L. BERVIAN, P. A. Metodologia científica. 5.ed. São Paulo: Prentice Hall, 2002.

CFM; SBIS. Prontuário Eletrônico – A certificação de sistemas de registro eletrônico de saúde. [S.l], 2012. CFM. Disponível em: < http://portal.cfm.org.br/crmdigital/Cartilha_SBIS_CFM_Prontuario_Eletronico_fev_20 12.pdf>. Acesso em 17 nov. 2016.

COSTA, Marcus Vinícius B. Aplicação de Técnicas de Mineração de Dados para auxilio à gestão acadêmica da UFVJM. Diamantina, MG. Universidade Federal do Jequitinhonha e Mucuri, 2012.

DATASUS. TabWin. DATASUS. Brasília, In:____. Disponível em: <http://datasus.saude.gov.br/informacoes-de-saude/ferramentas/tabwin>. Acesso em 31 out. 2015.

DE AMO, Sandra. Técnicas de mineração de dados. Jornada de Atualização em Informática, 2004.

DE VASCONCELOS, Lívia Maria Rocha; DE CARVALHO, Cedric Luiz. Aplicação de Regras de Associação para Mineração de Dados na Web. Instituto de Informática da Universidade Federal de Goiás, 2004.

EIFLER, Luciano Silveira. Estadiamento e Sobrevida no Câncer Gástrico: Papel do Fator de Crescimento Endotelial Vascular (VEGF-A). Porto Alegre, RS: 2012. Originalmente apresentada como dissertação de pós-mestrado. Universidade Federal do Rio Grande do Sul, 2012.

GUIDINI, Marilene Bertuol et al. Aplicação do k-means cluster para classificar estilos gerenciais. Contextus, v. 6, n. 2, 2008.

HAN, Jiawei; KAMBER, Micheline H.. Data Mining Concepts and Techniques. 2. ed. United States of America: Elsevier, 2006.

HOGARTH, Michael. Informática médica–Um Pouco de História. Informática Médica, São Paulo, Sessão Em Foco. set/out, 1998. Disponível em <http://www.informaticamedica.org.br/informaticamedica/n0105/hogarth.htm> Acesso 17 nov. 2016

Referências

Documentos relacionados

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

No capítulo seguinte será formulado o problema de programação não linear e serão apresentadas as técnicas de penalização para tratar os problemas com restrições gerais

Detectadas as baixas condições socioeconômicas e sanitárias do Município de Cuité, bem como a carência de informação por parte da população de como prevenir

▪ Quanto a solução para os conflitos entre os pais e a escola, houve um grande número de pais que não responderam, o que pode nos revelar que os pais não fizeram

[r]

Com o presente projeto de investimento denominado &#34;Nexxpro Speed (Qualificação) - Reforço do Posicionamento Competitivo Internacional&#34;, a empresa pretende

Para tanto, é necessário que a Atenção Básica tenha alta resolutividade, com capacidade clínica e de cuidado e incorporação de tecnologias leves, leve duras e duras (diagnósticas

Brasil Seguros e Previdência S/A), apresentou os trabalhos da Comissão de Inteligência de Mercado – CIM em 2017, que foram divididos em três projetos: 1) Insurtechs e