blemas Multialvo
5.4.2 Resultados e Discussão
Após a construção da Filtered-ARN com alvo “[Obito]=Sim” (Figura67), foram analisa- dos nós de nível um (Nível = 1). Apenas dois nós foram encontrados “[Complicacoes]=Sim” e “[Pontes_Mamarias]=Sem_mamaria”. Com esta informação foram elaboradas duas hipóteses:
i) “todos os pacientes que foram a óbito tiveram algum tipo de complicação”, conhecimento óbvio que valida a eficácia da técnica utilizada; e ii) “os pacientes com maior probabilidade de falecimento são os que não possuem revascularização utilizando enxertos com artéria mamária”. O conhecimento gerado foi confirmado pelos especialistas validando a rede, no entanto alguns itens relacionados com óbitos em pacientes submetidos a cirurgia de revascularização não apare- cem na rede conectados ao item alvo como Vasculopatia Arterial Periférica (apVasculo) e sexo feminino.
Como o número de nós de nível um é pequeno, foram observados os nós de nível dois (Nível = 2). Os elementos encontrados no nível 2 da Rede totalizaram 6, e todos foram confirmados pelos especialistas, mas sem a confirmação dos itens de Vasculopatia Arterial Periférica e sexo feminino.
Com a análise dos nós de nível um (Nível = 1) da Filtered-ARN com alvo “[Complica- coes]=Sim” (Figura68), foram obtidos 47 possibilidades de influência direta em complicações pós-operatórias, das quais 5 não possuem nó antecessor, o que denota uma importância maior a estes itens.
Os itens de nível um sem antecedentes são apresentados a seguir. Todos eles, exceto a “[Lesao]=Uniarterial” que representa uma falsa conexão, foram confirmados por especialistas.
Figura 67 – Destaque de Filtered-ARN com alvo “[Obito]=Sim” e nós de nível um (Nível = 1) e dois (Nível = 2)
Figura 68 – Destaque de Filtered-ARN com alvo “[Complicacoes]=Sim” e nós de nível um (Nível = 1)
∙ “[apDPOC]=Sim”: representa que o paciente possui doença pulmonar obstrutiva crônica que foi diagnosticada previamente ou no ato da internação
∙ “[apVasculo]=Sim”: representa um paciente com Vasculopatia Arterial Periférica ∙ “[Lesao]=Uniarterial”: representa um tipo lesão arterial encontrada no paciente ∙ “[Obito]=Sim”: paciente veio a óbito
∙ “[QNP]=Sim”: paciente com isquemia cerebral prévia
Além dos itens sem antecedentes, outros nós de nível um (Nível = 1) foram estudados e os especialistas informaram que muitos itens são inconclusivos. Por exemplo, tanto pacientes do sexo feminino como masculino são conectados a óbito. Atributos como [apColesterol], [apCrea- tinina], [apDm], [eha_ventriculograma], [idadeCat], [Lesao] e [Pontes_Mamarias] apresentam todas as possibilidades de valores conectadas ao item alvo, tornando inviável qualquer tipo
5.4. Prova de Conceito 155
de afirmação a respeito desses fatores, além da conexão direta de “[Obito]=Nao” ao item de complicações. Sendo assim, a rede não consegue fornecer mais informações concisas a respeito de complicações em pacientes de revascularização coronariana.
A MTARN construída e plotada é apresentada na Figura69. Analisando os nós de nível um (Nível = 1) foram obtidos 29 itens, dos quais 7 não possuem nós antecessores, o que significa atributos de maior importância. Os itens de nível um sem antecedentes são:
Figura 69 – Destaque de MTARN com alvo “[Complicacoes]=Sim.[Obito]=Sim” e nós de nível um (Nível = 1)
∙ “[Pontes_Mamarias]=Sem_mamaria”: representa pacientes que não passaram por revascu- larização utilizando enxertos com artéria mamária
∙ “[apCreatinina]=Sim.[apVasculo]=Sim”: representa pacientes com quadro de insuficiência renal e Vasculopatia Arterial Periférica
∙ “[apCreatinina]=Sim.[idadeCat]=[71-95]”: pacientes com insuficiência renal e idade entre 71 e 95 anos
∙ “[Pontes_Mamarias]=Sem_mamaria.[alturaCat]=[1.31-1.56)”: pacientes que não passaram por revascularização utilizando enxertos com artéria mamária e possuem altura entre 1.31m e 1.56m
∙ “[dc_diag2]=Angina_Instavel.[Pontes_Mamarias]=Sem_mamaria”: representa pacientes com angina instàvel e não possuem enxertos com artéria mamária
∙ “[SEXO]=F.[apCreatinina]=Sim”: pacientes do sexo feminino com insuficiência renal ∙ “[eha_ventriculograma]=Severo.[idadeCat]=[71-95]”: pacientes com função ventricular
Todos os itens foram validados pelos especialistas, os quais enfatizaram a possibilidade de análise em conjunto dos principais fatores conhecidos de complicação e óbito em pacientes que passaram por cirurgia de revascularização coronariana. O conhecimento identificado pela análise da MTARN foi considerado pelos especialistas de alta complexidade e todos de caráter verdadeiro.
Verificando os itens de nível um (Nível = 1) com antecedentes, os especialistas informa- ram que todos os itens que possuem o atributo “[Pontes_Mamarias]=Sem_mamaria” já podem ser considerados verdadeiros por se tratar de uma condição já comprovada de complicação e óbito. Os especialistas destacaram ainda que os itens com inconsistência na Filtered-ARN (Figura68) foram apresentados na MTARN de forma concisa e em conjunto com outros, como “[Sexo]=F” que indica que a incidência de complicações e óbitos está diretamente conectada a
pacientes do sexo feminino.
A observação mais aprofundada da MTARN possibilitou a geração de uma hipótese que será estudada futuramente no Instituto Dante Pazzanese. O fator de suspeita é a não conexão entre tabagismo e complicações pós operatórias ([apTabagismo]=Nao).
A MTARN apresentou um conhecimento mais amplo e validado pelos especialistas como verdadeiro, o que gerou mais confiança à Rede e principalmente, auxiliou no estudo de pacientes submetidos a cirurgia de revascularização miocárdica.
5.5
Considerações Finais
Neste capítulo foi apresentada a proposta da Rede de Regras de Associação Multialvo (MTARN), um método capaz de modelar as Regras de Associação, previamente selecionadas por meio de Medidas Objetivas Assimétricas, de acordo com dois itens objetivo previamente definidos. As regras selecionadas para a construção da Rede são aquelas que possuem uma dependência estatística comprovada pela medida Added Value. O item objetivo é utilizado como norteador da exploração e é escolhido de acordo com a problemática que se deseja formular hipóteses. A MTARN cria um Hipergrafo Direcionado, modelando as Regras de Associação que tem o item objetivo no RHS de tamanho fixo igual a 2, recursivamente. Ele visa explicar a correlação entre os itens no dataset com o item objetivo formado por dois elementos.
Uma Avaliação Experimental com 3 datasets foi desenvolvida para validar a capacidade da MTARN de auxiliar na geração de hipóteses otimizadas e aplicáveis. Datasets artificiais foram explorados: Iris, Hayes-roth e Soybean Large. Foi realizada também uma Prova de Conceito com dataset real relacionado a pacientes que fizeram cirurgia de revascularização miocárdica de 1999 a 2015. Além da MTARN, foram aplicados os algoritmos ARN e Filtered-ARN para comparação. O objetivo foi descrever a ocorrência de regras que influenciam estatisticamente o conjunto desejado, visando encontrar os itens que melhor explicam a ocorrência dos itens objetivos.
5.5. Considerações Finais 157
A MTARN possibilitou a geração de hipóteses diferentes da abordagem Filtered-ARN e com a mesma comprovação matemática de influência pelo uso dos filtros Added Value e de ganho mínimo (mingain). Parâmetros analisados individualmente que eram excluídos da abordagem ARN pelos filtros, reapareceram associados a outros, comprovando a necessidade de estudos em conjunto dos itens de cada dataset.
Na Prova de Conceito com o uso de MTARNs, foi possível otimizar a descoberta de um conhecimento diretamente ligado aos fatores de complicações e óbitos em pacientes submetidos a cirurgia cardíaca para revascularização miocárdica. As constatações feitas usando a técnica de Mineração de Regras de Associação por meio da MTARN foram confirmadas por especialistas do Instituto Dante Pazzanese de Cardiologia, dando uma maior credibilidade ao uso da técnica de mineração em problemas com dois atributos classes. Embora, com o uso da Filtered-ARN, tenha sido possível gerar hipóteses que puderam ser confirmadas pelos especialistas, muitas observações foram consideradas inconclusivas ou até mesmo equivocadas para cada classe de modo individual. O uso das Redes de Regras de Associação Multialvo possibilitou uma análise gráfica mais ampla do conteúdo dos dados explorados gerando hipóteses que foram comprovadamente verdadeiras, bem como a elaboração de novas hipóteses que poderão ser estudadas em trabalhos futuros.
Os resultados relatados neste capítulo possibilitaram as respostas para as questões de pesquisa Q2 (Como é feita a validação da extração do conhecimento nos processos de Mineração de Regras de Associação?), Q5 (Em problemas multiobjetivo, como podem ser utilizadas estruturas de Rede nos processos de Mineração de Regras de Associação?) e Q6 (Qual o impacto nos resultados da geração de hipóteses em processos de Mineração de Regras de Associação com o uso de Redes?), atendendo ao objetivo desta pesquisa.
159
CAPÍTULO
6
CONCLUSÕES
6.1
Contribuições Científicas
As contribuições deste trabalho estão relacionadas às questões de pesquisa e aos objetivos apresentados na introdução desta tese. Essas questões são sintetizadas nesta seção, apresentando os resultados obtidos e as abordagens propostas e desenvolvidas.
Questão Q1 (Q1.1 a Q1.4): Como o uso das Redes pode auxiliar nos processos de Minera- ção de Regras de Associação? Quais os tipos de Rede são utilizados nos processos de Mineração de Regras de Associação? Quais tarefas de mineração utilizam Redes nos processos de Mineração de Regras de Associação? Quais fases da Mineração de Regras de Associação utilizam Redes? Como é feita a geração de hipóteses nos processos de Mineração de Regras de Associação que utilizam Redes?
Com o objetivo de mapear os trabalhos realizados na comunidade de Mineração de Regras de Associação com o uso de Redes, foi conduzida uma Revisão Sistemática da literatura desse amplo tema. Esse Mapeamento Sistemático da literatura seguiu um protocolo bem definido, realizando a busca de estudos nas principais bibliotecas digitais e fontes de pesquisa da área de computação. A aplicação da expressão de busca nas quatro fontes de pesquisa resultou na identificação de 2.371 estudos, dos quais 97 estudos foram selecionados após verificação dos critérios de inclusão e exclusão estabelecidos. O Mapeamento Sistemático teve uma amplitude temporal maior (8 anos) devido a formulação de dois ciclos de pesquisa. O primeiro em setembro de 2016, com o intuito de identificação das lacunas de pesquisa e elaboração do projeto do doutorado, e o segundo em dezembro de 2018 a fim de consolidação das informações e validação do gap que é preenchido por esta pesquisa.
Os resultados obtidos com esse mapeamento confirmaram alguns indicativos prévios dos pesquisadores sobre o tema de pesquisa e apontaram outras características interessantes da
área. Em relação aos tipos de Redes que são utilizados no auxílio da Mineração de Regras de Associação (Q1.1), verificou-se a predominância de Grafos Simples, com destaque também ao uso de estruturas de árvores em todas as etapas da mineração. Ao se considerar as tarefas nas quais as Redes são utilizadas para auxílio na Mineração de Regras de Associação (Q1.2), encontrou-se uma predominância em aplicações mais genéricas de análise, porém tarefas de agrupamento foram bem consolidadas com o uso de Redes. As tarefas de natureza não supervisionada, como o agrupamento, são implementadas com Redes pela vantagem estrutural que este tipo de abordagem propicia. Em relação às fases da mineração que utilizam Redes como auxiliares(Q1.3), verificou- se que todas as fases podem ser implementadas com o uso de algum tipo de Rede, porém a etapa de pós-processamento recebe destaque por se utilizar do resultado gráfico gerado pelas Redes e, consequentemente, a otimização da extração do conhecimento. Desta forma, considerando a geração de hipóteses (Q1.4), destaca-se o uso de técnicas de pós-processamento, como avaliação por consulta, e principalmente, técnicas de visualização, pois as Redes geram resultados gráficos que auxiliam diretamente na extração do conhecimento. Nesta tese, esse trabalho foi apresentado noCapítulo 2,Seção 2.4- Página60.
Questão Q2: Como é feita a validação da extração do conhecimento nos processos de Minera- ção de Regras de Associação?
O processo de Mineração de Regras de Associação é dividido em 3 etapas bem definidas: pré-processamento, extração de padrões e pós-processamento. A extração do conhecimento ocorre após a terceira etapa (pós-processamento). Com os estudos primários analisados no Mapeamento Sistemático, percebeu-se que o conhecimento muitas vezes é tratado de modo subjetivo e está atrelado ao tipo de aplicação ou conjunto de domínio no qual os dados estão vinculados.
Em muitas pesquisas utilizam-se critérios para avaliação do conhecimento gerado, como confiabilidade e aplicabilidade, porém totalmente dependentes de interpretação e explanação (NAMAKI et al., 2017). A documentação e visualização dos resultados está conectada ao conhecimento pré-existente do usuário em relação ao dataset explorado, ou ao domínio em que os dados estão inseridos.
Foram detectadas algumas pesquisas que utilizam a elaboração de hipóteses de forma semi-automática, por fazerem uso de Redes Bayesianas. A etapa de construção de Redes Bayesi- anas, em processos de Mineração de Regras de Associação, faz uso de conjuntos de itemsets frequentes e cálculos estatísticos para conexão dos nós da Rede (DELGADO et al.,2018). Sendo assim, medidas estatísticas são utilizadas para validação das ligações estabelecidas entre os elementos da Rede a fim de que as relações sejam comprovadas, gerando então as hipóteses.
6.1. Contribuições Científicas 161
formulação de hipóteses diretamente pelas arestas formadas na construção das Redes de Regras de Associação (ARNs). O conhecimento é estabelecido a partir de um item objetivo que direciona toda a construção da Rede e, por conseguinte, a geração das hipóteses. A ARN é dividida em níveis, sendo o nó alvo o nível 0 (zero), e os demais níveis a distância mais curta do nó ao item alvo. Embora a geração de hipóteses seja realizada de modo direto por meio de uma simples leitura, não existe comprovação matemática de que as mesmas hipóteses são reais. Portanto, a ARN não produz uma validação do conhecimento gerado, necessitando assim de uma outra análise para sua consolidação.
Neste trabalho, buscou-se tratar esta lacuna pela construção de filtros de Regras de Asso- ciação para seleção das regras extraídas por meio de Medidas Assimétricas. Foram selecionadas as medidas Added Value, que promove uma comprovação matemática da influência entre o item antecedente e o item consequente da regra, e a medida Gain, que promove uma normalização da medida de confiança, comumente utilizada nos processos de Mineração de Regras de Associação. Nesta tese, estes filtros são apresentados noCapítulo 4,Seção 4.2- Página105.
Questão Q3: Quais as relações que existem entre métricas relacionadas a Regras de Associação e medidas relacionadas a estruturas de Rede?
Estruturas de Rede possibilitam uma melhor visualização da informação e das relações entre os itens de um dataset. Hahsler e Karpienko(2017) apresentaram um método de visu- alização interativa, por meio de uma representação de matriz agrupada, que permite explorar e interpretar intuitivamente cenários altamente complexos. Os grupos de regras geradas são selecionadas com o uso da medida Lift e aninhados, formando uma hierarquia que pode ser explorada interativamente até a regra individual.
No trabalho deDeng et al.(2014) é demonstrado o uso de classificadores associativos que consistem em um conjunto de regras ordenado e representado como um modelo de árvore. Além disso, Deng também propôs um algoritmo para transformar uma árvore em um conjunto de regras ordenadas.
Outra abordagem com o uso de Redes foi proposta por Valle, Ruz e Morrás (2018) que utiliza-se estruturas de árvores para estudo das regras geradas para análise de cestas de compras. Devido à estrutura de árvore hierárquica das distâncias, a Rede de Associação possibilita encontrar fortes interdependências entre os produtos da mesma categoria e encontrar produtos que servem como acessos ou pontes para um conjunto de outros produtos com alta correlação entre si.
Os trabalhos apresentados processam e modelam as regras de modo a facilitar o entendi- mento do usuário. Esses trabalhos podem reduzir o número de regras a serem analisadas pelo usuário, mas não avaliam a definição dos parâmetros das medidas de seleção das regras. Métricas
de seleção (suporte e confiança mínimos) influenciam totalmente a exploração e construção de hipóteses sobre os dados.
Com a proposta de se avaliar a influência de medidas relacionadas a Redes com as medidas de suporte e confiança mínimos em Redes de Regras de Associação, foi efetuado uma Avaliação Experimental a fim de que fossem definidos parâmetros objetivos de avaliação da definição dos valores de suporte e confiança mínimos. Para comprovação da proposta uma Prova de Conceito foi organizada com um conjunto de dados real.
Geralmente os valores de minsup e minconf em processos de Mineração de Regras de Associação são escolhidos de modo subjetivo, sem um critério matemático de comprovação para que os melhores resultados sejam obtidos, e o conhecimento seja extraído de maneira otimizada. Os resultados demonstraram que com o uso das Medidas de Grau Ponderado Médio, com as confianças como pesos, e Comprimento Médio do Caminho, pode-se avaliar e selecionar o melhor valor para minconf. Para a avaliação do suporte mínimo, aplica-se uma análise direta no conjunto de dados a ser estudado, relacionando a classe com a quantidade de instâncias relativa (suporte) que ela apresenta. Os detalhes da avaliação experimental e os resultados obtidos são apresentados nesta tese, noCapítulo 3, Seções3.3e3.4- Página87e94.
Questão Q4 (Q4.1 e Q4.2): Quais as Medidas Objetivas utilizadas nos processos de Mineração de Regras de Associação que fazem uso de estruturas de Rede? Como as Medidas Objetivas interferem na geração do conhecimento pela construção de hipóteses? Como as Medidas Objetivas podem ser utilizadas na validação da extração de conhecimento?
Com o intuito de responder a questão Q4 e suas sub-questões, foram investigadas e avaliadas as principais Medidas Objetivas Assimétricas relacionadas a Regras de Associação. A escolha de apenas Medidas Assimétricas foi estabelecido pela natureza direcionada das Redes de Regras de Associação.
Os trabalhos apresentados no Mapeamento Sistemático (Capítulo2), funcionam proces- sando as regras e modelando-as de maneira a facilitar o entendimento do usuário. No entanto, às vezes o usuário quer analisar o comportamento de um item específico. Esses trabalhos podem reduzir o número de regras a serem analisadas pelo usuário, mas não explicam como um item específico interage com o dataset inteiro. Este item de exploração pode ser extremamente útil na construção de hipóteses sobre os dados.
Com o objetivo de possibilitar uma exploração completa e levando em conta a relação entre um conjunto de itens a um elemento alvo, nesta tese é proposta a Rede de Regras de Associação Filtrada (Filtered-ARN - do inglês Filtered-Association Rules Network), que permite a exploração de um item objetivo com análise de dependência entre os elementos das regras. A abordagem com a Filtered-ARN, mescla a técnica de visualização da regras da ARN com a análise matemática das Medidas Objetivas Added Value e Gain. Com isso, obteve-se uma
6.1. Contribuições Científicas 163
extração de conhecimento com validação matemática, possibilitando a geração de hipóteses com maior probabilidade de serem verdadeiras. Foi feita uma Avaliação Experimental com datasets encontrados no Repositório UCI, e três Provas de Conceito, a primeira com uma base de dados real relacionada a adubação orgânica, a segunda referente ao desenvolvimento automático de jogos, e a terceira associada a diagnóstico de exames mamográficos. A proposta está descrita nesta tese noCapítulo 4,Seção 4.2- Página105.
Questão Q5: Em problemas multialvo, como podem ser utilizadas estruturas de Rede nos processos de Mineração de Regras de Associação?
Para análise de vários fatores simultaneamente, pesquisas são elaboradas com o uso de Redes Bayesianas por serem formuladas tendo como base o raciocínio probabilístico (DELGADO et al.,2018;NEMATI; SANT’ANNA; NOWACZYK,2016). A principal vantagem de raciocínio probabilístico sobre raciocínio lógico é o fato de que agentes podem tomar decisões racionais mesmo quando não existe informação suficiente para se provar que uma ação funcionará. Sendo assim, pode-se elaborar hipóteses de relações entre os elementos de um dataset. Embora sejam uma opção, as Redes Bayesianas são construídas pela formação de um conjunto de itens e de relações de acordo com as probabilidades calculadas, portanto não são comumente utilizadas em problemas multialvo. Problemas multialvo são aqueles em que se deve analisar a influência dos itens de um conjunto de dados direcionado a mais de uma classe ou atributos de uma classe.
Verificou-se por meio do Mapeamento Sistemático (Capítulo 2) uma lacuna na área de pesquisa de Mineração de Regras de Associação com o uso de Redes. Nenhum trabalho apresentou uma abordagem multialvo utilizando algum tipo de Rede no auxílio da Mineração de Regras de Associação. Embora pode-se considerar que as abordagens de classificação designam os atributos em, no mínimo, duas categorias, nenhum trabalho abordou diretamente mais de uma regra como objetivo dos estudos realizados.
Com a finalidade de responder a questão Q5, foi elaborada uma abordagem multialvo para Mineração de Regras de Associação com o uso de Redes. Com o objetivo de possibilitar uma exploração completa e levando em conta a relação entre um conjunto de itens objetivo, nesta pesquisa é proposta a Rede de Regras de Associação Multialvo (MTARN - do inglês Multi-Target