• Nenhum resultado encontrado

Utilização de mineração de dados na descoberta de padrões de relacionamento entre fatores associados ao câncer Oral: um estudo sobre dados coletados na região do Seridó Potiguar

N/A
N/A
Protected

Academic year: 2021

Share "Utilização de mineração de dados na descoberta de padrões de relacionamento entre fatores associados ao câncer Oral: um estudo sobre dados coletados na região do Seridó Potiguar"

Copied!
64
0
0

Texto

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

Universidade Federal do Rio Grande do Norte – UFRN Centro de Ensino Superior do Serid´o – CERES Departamento de Computa¸c˜ao e Tecnologia – DCT

Bacharelado em Sistemas de Informa¸c˜ao – BSI

Utiliza¸

ao de Minera¸

ao de Dados na Descoberta de

Padr˜

oes de Relacionamento Entre Fatores Associados

ao Cˆ

ancer Oral: Um estudo sobre dados coletados na

zona rural da Regi˜

ao do Serid´

o Potiguar

Rafaela Oliveira da Silva Azevedo

Caic´

o – RN

17 de dezembro de 2018

(2)

Rafaela Oliveira da Silva Azevedo

Utiliza¸

ao de Minera¸

ao de Dados na Descoberta de

Padr˜

oes de Relacionamento Entre Fatores Associados

ao Cˆ

ancer Oral: Um estudo sobre dados coletados na

zona rural da Regi˜

ao do Serid´

o Potiguar

Trabalho de Conclus˜ao de Curso apresentado ao Curso de Bacharelado em Sistemas de Informa¸c˜ao como parte dos requisitos para obten¸c˜ao do t´ıtulo de Bacharela em Sistemas de Informa¸c˜ao.

Orientador: Prof. Dr. Flavius da Luz e Gorgˆonio Coorientador: Prof. Dr. Almir Miranda Ferreira

Laborat´

orio de Inteligˆ

encia Artificial Aplicada a Neg´

ocios – LABICAN

Caic´

o – RN

(3)
(4)

Azevedo, Rafaela Oliveira da Silva.

Utilização de mineração de dados na descoberta de padrões de relacionamentos entre fatores associados ao câncer oral: um estudo sobre dados coletados na região do Seridó Potiguar / Rafaela Oliveira da Silva Azevedo. - Caicó: UFRN, 2018. 51f.: il.

Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Federal do Rio Grande do Norte. Centro de Ensino Superior do Seridó - Campus Caicó. Departamento de Computação e Tecnologia. Curso de Graduação em Sistemas de Informação.

Orientador: Dr. Flavius da Luz e Gorgônio. Coorientador: Dr. Almir Miranda Ferreira.

1. Mineração de Dados. 2. Regras de Associação. 3. Câncer de Boca. I. Gorgônio, Flavius da Luz e. II. Ferreira, Almir

Miranda. III. Título.

RN/UF/BS-CAICÓ CDU 004.62

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Profª. Maria Lúcia da Costa Bezerra - - CERES--Caicó

(5)

Agradecimentos

Todo trabalho, por mais simples que seja, n˜ao ´e feito sem a ajuda de outras pessoas. Ao longo do desenvolvimento desta pesquisa e de toda minha gradua¸c˜ao, sempre tive muita ajuda. Desta forma, gostaria de agradecer, primeiramente, aos meus familiares, que n˜ao s´o neste momento mas em toda minha vida estiveram comigo, ao meu lado, me dando o incentivo, apoio e compreens˜ao sempre que precisei.

Agrade¸co, em especial, a minha m˜ae que me ensinou a ser um ser humano integro, com car´ater e coragem, e que sempre me deixou livre para seguir minhas escolhas, por´em sempre esteve ao meu lado me ensinando o caminho correto.

Agrade¸co aos amigos(as) que torceram e torcem por mim, especialmente a Karla Mendes e Lindelene Bessa, e ao meu namorado por me escutar nos momentos dif´ıceis, pelos gestos de carinho e por todo apoio e est´ımulo.

Meu muito obrigada ao meu orientador Prof.o Dr. Flavius Gorgˆonio, por ter aceito a atribui¸ao de me

orientar nesta pesquisa e por todos os ensinamentos repassados no meu per´ıodo acadˆemico. Obrigada tamb´em ao meu co-orientador Prof.o Dr. Almir Miranda, por toda ajuda e contribui¸ao na pesquisa.

Estendo ainda esse agradecimento a todos os professores do Bacharelado em Sistemas de Informa¸c˜ao, por todo o conhecimento compartilhado durante esses anos.

Agrade¸co ao meus colegas de turma, por todas as experiˆencias vividas durante este ciclo universit´ario. Enfim, agrade¸co a todos que fizeram parte dessa etapa decisiva em minha vida.

Finalmente, sou grata pela oportunidade de desenvolver este trabalho no Laborat´orio de Inteligˆencia Computacional Aplicada `a Neg´ocios (Labican), sediado no Centro de Ensino Superior do Serid´o da Universidade Federal do Rio Grande do Norte.

(6)

“There is no end to education. It is not that you read a book, pass an examination, and finish with education. The whole of life, from the moment you are born to the moment you die, is a process of learning.”

(7)

Resumo

Este estudo apresenta a utiliza¸c˜ao de t´ecnicas de minera¸c˜ao de dados na an´alise explorat´oria de uma base de dados sobre a incidˆencia de cˆancer oral em trabalhadores rurais, residentes na Regi˜ao do Serid´o Potiguar, possuindo como objetivo principal a descoberta de padr˜oes de relacionamentos entre fatores associados ao cˆancer oral. A base de dados supracitada j´a havia sido avaliada em uma outra pesquisa atrav´es de procedimentos estat´ısticas, entretanto, a aplica¸c˜ao dos algoritmos C4.5 e Apriori permitiram a descoberta de um conhecimento ´ımpar sobre a incidˆencia do cˆancer bucal neste grupo de indiv´ıduos, al´em de confirmar os resultados obtidos na pesquisa anterior, evidenciando que a minera¸c˜ao de dados ´e eficiente e possui uma capacidade ainda maior no que se refere ao detalhamento das rela¸c˜oes existentes, al´em de diminuir os esfor¸cos empregados nas t´ecnicas puramente estat´ısticas, ao mesmo tempo em que consegue um melhor desempenho na an´alise de grandes volumes de dados.

(8)

Abstract

This study presents the use data of mining techniques, in the exploratory analysis of a database, on the incidence of oral cancer in rural workers living in the Potiguar Serid´o Region. The main objective is to identify related patterns amongst factors associated about oral cancer incidence. The aforementioned database had already been evaluated in another research through statistical procedures, however, the application of algorithms C4.5 and Apriori allowed the discovery of a unique knowledge about the inci-dence of oral cancer in this group of individuals, besides confirming the results obtained in the previous research, evidencing that the data mining is efficient and has an even greater capacity regardless to the detailing of the existing relations, in addition to reducing the efforts employed in the purely statistical techniques, while at the same time achieving a better analysis of large volumes of data.

(9)

i

Sum´

ario

Lista de Figuras iii

Lista de Tabelas iv Gloss´ario v 1 Introdu¸c˜ao 1 1.1 Tema. . . 1 1.2 Contextualiza¸c˜ao e Problema . . . 1 1.3 Objetivos . . . 2 1.3.1 Objetivo Geral . . . 2 1.3.2 Objetivos Espec´ıficos. . . 2 1.4 Delimita¸c˜ao do Estudo . . . 2

1.5 Motiva¸c˜ao e Justificativa do Estudo . . . 3

1.6 Classifica¸c˜ao da Pesquisa . . . 4

1.7 Apresenta¸c˜ao do Trabalho . . . 4

2 Referencial Te´orico 5 2.1 Cˆancer Oral . . . 5

2.1.1 Tipos de Les˜oes. . . 5

2.1.2 Fatores Associados . . . 6

2.2 Descoberta de Conhecimento em Bases de Dados . . . 6

2.2.1 Pr´e-Processamento e P´os-Processamento dos Dados . . . 7

2.3 Minera¸c˜ao de Dados . . . 8

2.3.1 Hist´oria e Conceitos . . . 8

2.3.2 Tarefas . . . 9

2.3.3 M´etodos . . . 10

2.4 Algoritmo Apriori . . . 12

2.4.1 Exemplo de Extra¸c˜ao de Regras de Associa¸c˜ao . . . 12

2.5 Metodologias de DCBD . . . 15 2.5.1 Metodologia CRISP-DM . . . 16 2.5.2 Metodologia SEMMA . . . 16 2.5.3 Metodologia Klemettinen . . . 17 2.6 Trabalhos Relacionados . . . 17 3 Metodologia 19 3.1 Pr´e-Processamento dos Dados . . . 19

3.2 Ferramentas Utilizadas . . . 22

3.3 Algoritmos Utilizados . . . 23

3.4 P´os-Processamento dos Dados. . . 23

4 Resultados e Conclus˜oes 24 4.1 Experimentos . . . 24

4.1.1 C4.5 . . . 24

4.1.2 Apriori . . . 27

4.1.3 Identifica¸c˜ao de ´Areas de Risco . . . 42

(10)

Sum´ario ii

Referˆencias Bibliogr´aficas 49

(11)

iii

Lista de Figuras

2.1 Processo de DCBD. . . 6

2.2 Matriz de confus˜ao para um problema de 2 classes. . . 9

2.3 Algoritmo k -means b´asico.. . . 10

2.4 Classificando um vertebrado sem r´otulo. . . 11

2.5 Topologia de uma rede neural artificial. . . 11

2.6 Modelo CRISP-DM. . . 16

2.7 Metodologia SEMMA. . . 17

2.8 Metodologia Klemettinen. . . 17

3.1 Formato Arquivo .arff. . . 23

4.1 Arvore resultante no experimento 1.´ . . . 24

4.2 Estat´ısticas referentes a ´arvore resultante no experimento 1. . . 25

4.3 Estat´ısticas referentes a ´arvore resultante no experimento 2. . . 25

4.4 Arvore resultante no experimento 3.´ . . . 26

4.5 Estat´ısticas referentes a ´arvore resultante no experimento 3. . . 27

4.6 Diagrama da ´arvore gerada no experimento 3. . . 27

4.7 Gr´afico ’ ´E Fumante’ vs ’ ´E Ex-Fumante’. . . 28

4.8 Gr´afico DOPM vs N´ıvel de Escolaridade.. . . 29

4.9 Gr´afico DOPM vs Tempo de Exposi¸c˜ao no Sol. . . 31

4.10 Gr´afico DOPM vs Cor da Pele. . . 33

4.11 Gr´afico DOPM vs Tempo de Trabalho.. . . 34

4.12 Gr´afico Tempo de Trabalho vs Tempo de Exposi¸c˜ao ao Sol. . . 35

4.13 Gr´afico DOPM vs Idade.. . . 36

4.14 Gr´afico DOPM vs Frequˆencia Uso de Bebida Alco´olica. . . 38

4.15 Gr´afico Frequˆencia Uso de Bebida Alco´olica vs Uso de Tabaco. . . 38

4.16 Gr´afico DOPM vs Tipo de Bebida Alco´olica. . . 39

4.17 Gr´afico Uso de Tabaco vs Tipo de Bebida Alco´olica. . . 39

4.18 Gr´afico DOPM vs Renda Familiar. . . 40

4.19 Gr´afico DOPM vs Familiar Com Cˆancer de Boca.. . . 42

(12)

iv

Lista de Tabelas

2.1 Exemplo base de transa¸c˜oes.. . . 12

2.2 Conjunto de 1-itemsets. . . 13

2.3 Conjunto de 2-itemsets. . . 13

2.4 Conjunto de 3-itemsets. . . 13

2.5 Conjunto de 4-itemsets. . . 14

2.6 Regras candidatas com 1 antecedente. . . 14

2.7 Regras candidatas com 2 antecedentes. . . 15

2.8 Regras candidatas com 3 antecedentes. . . 15

2.9 Regras de Associa¸c˜ao. . . 15

3.1 Categorias Atributo Idade. . . 20

3.2 Categorias Atributo Tempo de Trabalho. . . 20

3.3 Categorias Atributo Quantidade de Fumo Por Dia. . . 20

3.4 Categorias Atributo Quantidade de Fumo Por Dia 2. . . 21

3.5 Categorias Atributo H´a Quanto Tempo Deixou de Fumar. . . 21

3.6 Categorias Atributo Por Quanto Tempo Fumou. . . 21

3.7 Categorias Atributo Escolaridade. . . 22

3.8 Categorias Atributo Renda Familiar. . . 22

3.9 Categorias Atributo Tempo de Exposi¸c˜ao no Sol. . . 22

4.1 Atributos Associados ao N´ıvel de Escolaridade. . . 30

4.2 Atributos Associados ao Tempo de Exposi¸c˜ao no Sol. . . 32

4.3 Atributos Associados a Cor da Pele. . . 34

4.4 Atributos Associados ao Tempo de Trabalho. . . 36

4.5 Atributos Associados a Idade. . . 37

4.6 Atributos Associados a Renda Familiar. . . 41

(13)

v

Gloss´

ario

Acrˆ

onimos

CO - Cˆancer Oral

INCA - Instituto Nacional do Cˆancer HPV - Papiloma V´ırus Humano

IBGE - Instituto Brasileiro de Geografia e Estat´ıstica OMS - Organiza¸c˜ao Mundial da Sa´ude

QA - Queilite Act´ınica

DCBD - Descoberta de Conhecimento em Bases de Dados DM - Data Mining

SBC - Sociedade Brasileira de Computa¸c˜ao RNA - Redes Neurais Artificiais

CRISP-DM - CRoss-Industry Standard Process for Data Mining SEMMA - Sample,Explore,Modify,Model,Assess

SPSS - Statistical Package fo Social Sciences DOPM - Desordens Orais Potencialmente Mal´ıgnas DGP - Diret´orio de Grupos de Pesquisa

JAR - Java ARchive

ARFF - Attribute-Relation File Format QGIS - Quantum Gis

SIG - Sistema de Informa¸c˜ao Geogr´afica

(14)

1

Cap´ıtulo 1

Introdu¸

ao

1.1

Tema

Minera¸c˜ao de dados aplicada `a sa´ude coletiva, na descoberta de padr˜oes de relacionamento em dados sobre a prevalˆencia do cˆancer oral em trabalhadores da zona rural da Regi˜ao do Serid´o Potiguar.

1.2

Contextualiza¸

ao e Problema

O cˆancer oral (CO) refere-se a todos aqueles tipos de cˆanceres localizados na cavidade oral, incluindo a orofaringe, a base da l´ıngua e outras partes n˜ao especificadas, glˆandulas salivares, gengiva, assoalho da boca e palato (BORGES et al., 2009). Este tipo de cˆancer possui uma alta taxa de propaga¸c˜ao (met´astase), se diferenciando dessa forma de outros tipos de cˆancer que n˜ao se propagam com tanta facilidade (Apdesp-Informa,2006).

A preven¸c˜ao e o esclarecimento sobre a doen¸ca s˜ao os maiores aliados no combate ao cˆancer oral (DAYANA, 2006). Comparando as estimativas do Instituto Nacional do Cˆancer (INCA), em 2008 e 2016, podemos considerar que os esfor¸cos para o aumento da realiza¸c˜ao de campanhas de preven¸c˜ao e conscientiza¸c˜ao sobre o cˆancer bucal atrav´es da dissemina¸c˜ao do conhecimento sobre a doen¸ca, podem ter contribu´ıdo para que n˜ao tiv´essemos um grande aumento no n´umero de novos casos da doen¸ca, por´em, ainda assim tivemos um crescente nessas estimativas.

Em 2008, eram estimados cerca de 14.160 novos casos de cˆancer, sendo 10.380 para o sexo masculino e 3.780 para o sexo feminino. Em 2016 estimam-se cerca de 15.490 novos casos de cˆancer, sendo 11.140 para o sexo masculino e 4.350 para o sexo feminino. Tais valores ainda se mostram significativos, diante dos esfor¸cos para que estas estimativas se tornem decrescentes, representando, atualmente, um risco estimado de 11,27 novos casos a cada 100 mil homens e 4,21 a cada 100 mil mulheres.

A prevalˆencia de cˆancer bucal ´e particularmente elevado entre os homens e ´e o 8o tipo de cˆancer mais comum em todo o mundo (PETERSEN, 2007). Na Regi˜ao do Nordeste, ´e o 5o mais frequente (FERREIRA,2016), sendo o 4omais frequente entre os homens, e o 9o mais frequente entre as mulheres (CFO, 2014). No estado do Rio Grande do Norte ´e o 5o com maior incidˆencia entre os homens e o 6o entre as mulheres (FERREIRA,2016).

A taxa de sobrevivˆencia para esse tipo de cˆancer ´e uma das mais baixas se comparada a de outros tipos, em raz˜ao das les˜oes serem detectadas em est´agios avan¸cados, pois se apresenta de forma indo-lor, inicialmente, retardando ainda mais o diagn´ostico (Apdesp-Informa, 2006). Em 2013, no Brasil, o n´umero de mortes chegou `a estimativa de 5.401 casos (INCA, 2013). Por outro lado, quando detectada precocemente, a expectativa de sobrevivˆencia, para este cˆancer ´e infinitamente maior (Apdesp-Informa,

2006).

Entre os fatores causadores deste cˆancer, o etilismo, o tabagismo e as infec¸c˜oes pelo Papiloma V´ırus Humano (HPV) se destacam como sendo os principais. Al´em disso, j´a foi observado que a jun¸c˜ao do ´alcool e do tabaco aumentam ainda mais o risco de desenvolvimento do cˆancer (INCA, 2016), e a irradia¸c˜ao

(15)

1.3. Objetivos 2

solar ´e um outro fator que se mostra como agravante.

Dentro deste contexto, o problema que o presente trabalho trata ´e: ´E poss´ıvel descobrir padr˜oes de relacionamento entre os fatores associados (extr´ınsecos e/ou intr´ınsecos) e o cˆancer oral, utilizando algoritmos de minera¸c˜ao de dados? Essa problematiza¸c˜ao possibilitar´a uma valida¸c˜ao do uso das t´ecnicas de minera¸c˜ao de dados, al´em de servir como uma nova diretriz para as pol´ıticas de sa´ude bucal na conscientiza¸c˜ao e preven¸c˜ao da doen¸ca, visto que a melhor forma de diminuir sua incidˆencia ´e controlar os fatores de risco que conhecidamente favorecem seu desenvolvimento (MS,2014). Pesquisas como a deFERREIRA(2016), tˆem realizado estudos acerca do referido assunto, buscando encontrar padr˜oes de relacionamento entre os fatores associados `as les˜oes orais, atrav´es de an´alises es-tat´ısticas. A presente pesquisa, utilizar´a os dados coletados na pesquisa supracitada e almeja utilizar-se de meios computacionais, como as t´ecnicas de minera¸c˜ao de dados, com o objetivo de verificar a desco-berta de padr˜oes que comprovem o relacionamento entre os fatores associados e a ocorrˆencia do cˆancer oral dentro do escopo definido, a fim de diminuir a complexidade e o esfor¸co empregado, na otimiza¸c˜ao de t´ecnicas puramente estat´ısticas, no processo de descoberta de informa¸c˜ao a partir destes dados.

1.3

Objetivos

Os objetivos deste trabalho se dividem em objetivo geral e objetivos espec´ıficos.

1.3.1

Objetivo Geral

O presente trabalho tem como objetivo geral utilizar t´ecnicas de minera¸c˜ao de dados para analisar padr˜oes de relacionamento entre os fatores associados ao cˆancer oral, utilizando dados coletados junto a trabalhadores rurais da Regi˜ao do Serid´o.

1.3.2

Objetivos Espec´ıficos

a) Avaliar fatores de risco, descritos na literatura, que estejam associados a algum dos principais tipos de les˜ao oral estudados;

b) Identificar e validar regras de associa¸c˜ao que relacionem os fatores de riscos analisados e as les˜oes bucais identificadas nos trabalhadores;

c) Identificar ´areas de risco estimando a incidˆencia das les˜oes orais potencialmente malignas em cada localiza¸c˜ao geogr´afica estudada.

1.4

Delimita¸

ao do Estudo

A Organiza¸c˜ao Mundial da Sa´ude (OMS) divulga estat´ısticas sobre o cˆancer de boca em todo o mundo, por´em ainda assim s˜ao escassos os dados sobre a prevalˆencia dessa doen¸ca em algumas regi˜oes espec´ıficas do pais, tais como aglomerados subnormais, zonas rurais, entre outros.

O presente trabalho busca analisar dados que tratam sobre a prevalˆencia desta doen¸ca e que foram coletados na pesquisa deFERREIRA(2016). O pesquisador aplicou question´arios e cinco equipes cons-titu´ıdas por profissionais da odontologia e da dermatologia realizaram exames cl´ınicos, sendo as les˜oes suspeitas encaminhadas para bi´opsias. Sua pesquisa de campo foi realizada em um per´ıodo entre mar¸co de 2013 e mar¸co de 2014, junto a um grupo de 1385 trabalhadores rurais sindicalizados e residentes nas cidades pertencentes `a regi˜ao do Serid´o Potiguar.

A Regi˜ao do Serid´o foi dividida oficialmente pelo Instituto Brasileiro de Geografia e Estat´ıstica (IBGE), a partir do ano de 1988, em duas micro-regi˜oes; o Serid´o Oriental, composta pelos munic´ıpios de Acari, Carna´uba dos Dantas, Cruzeta, Currais Novos, Equador, Jardim do Serid´o, Ouro Branco, Pa-relhas, Santana do Serid´o, e S˜ao Jos´e do Serid´o. E Serid´o Ocidental composto pelas cidades de Caic´o, Ipueira, Jardim de Piranhas, S˜ao Jo˜ao do Sabugi, Serra Negra do Norte e Timba´uba dos Batistas. En-tretanto, o Instituto de Desenvolvimento Sustent´avel e Meio Ambiente (IDEMA), reconhece ainda parte

(16)

1.5. Motiva¸c˜ao e Justificativa do Estudo 3

da microrregi˜ao do Vale do A¸cu e da Serra de Santana, como pertencentes a regi˜ao do Serid´o.

Dessa forma, a presente pesquisa ter´a como foco a Regi˜ao do Serid´o Potiguar, considerando a no-menclatura utilizada pelo IBGE e os dados citados anteriormente ser˜ao analisados atrav´es de m´etodos de minera¸c˜ao de dados, que buscam encontrar padr˜oes de relacionamento entre os fatores extr´ınsecos e/ou intr´ınsecos e o cˆancer oral. Estas informa¸c˜oes abrangem casos sobre diversos tipos de les˜oes orais, sendo as principais, a Leucoplasia, a Eritroplasia, e a Queilite Act´ınica, e tratam ainda sobre fatores so-ciodemogr´aficos e econˆomicos, uso de prote¸c˜ao contra radia¸c˜ao solar, cor da pele, uso de tabaco e ´alcool, tempo de trabalho e conhecimento acerca do cˆancer de boca.

1.5

Motiva¸

ao e Justificativa do Estudo

Mesmo diante do forte avan¸co no que se diz respeito a dissemina¸c˜ao do conhecimento sobre o cˆancer bucal, ainda n˜ao se tem um controle dos fatores de risco do ponto de vista da preven¸c˜ao, havendo a neces-sidade de mais estudos que avaliem e descrevam o comportamento dos potenciais fatores de risco/prote¸c˜ao de maneira conjunta (RIBEIRO et al.,2015).

Algumas t´ecnicas de an´alises estat´ısticas j´a foram utilizadas, em estudos anteriores, para a avalia¸c˜ao de dados sobre o cˆancer bucal e outros fenˆomenos relacionados `a sa´ude coletiva. Hoje, no Brasil, especi-almente na ´area da sa´ude, existe v´arias bases de dados dispersas e em diversos formatos, bem como um grande volume de dados ainda pouco explorados. Dessa forma, ressalta-se cada vez mais a importˆancia do uso de novas t´ecnicas que facilitem e otimizem esse processo complexo de avalia¸c˜ao e descoberta de conhecimento a partir desse acervo de informa¸c˜ao, como tamb´em, possibilite a explora¸c˜ao destes dados diante da sua heterogeneidade.

Uma das dificuldades do uso de algumas t´ecnicas estat´ısticas em an´alises de grandes volumes de dados ´e a grande complexidade gerada devido ao alto n´umero de combina¸c˜oes realizadas, de uma forma ainda pouco automatizada. Abaixo, a equa¸c˜ao (1.1) demonstra o n´umero de combina¸c˜oes poss´ıveis a serem realizadas em uma pesquisa com uma base de dados que possui cerca de 94 atributos:

Cnp= n! p!(n − p)! = C 1 94+ C942 + ... + C9494= 94 X k=1 Ck94= (1.1) = 94! 1!(94 − 1)!+ 94! 2!(94 − 2)!+ ... + 94! 94!(94 − 94)!

sendo, n o n´umero total de atributos da base, e p apenas um subconjunto dos atributos.

Atrav´es do c´alculo acima, pode-se observar que o resultado da soma de combina¸c˜oes poss´ıveis resul-tar´a em alto valor, pr´oximo de 1.9828, evidenciando a dificuldade existente na aplica¸c˜ao desta tarefa, se executada de forma manual.

A minera¸c˜ao de dados se constitui, em parte, de solu¸c˜oes algor´ıtmicas que possibilitam o processa-mento de grandes volumes de dados e facilitam tarefas tal como an´alises complexas de dados cl´ınicos (CARVALHO et al., 2014), se mostrando como uma potencial t´ecnica a ser utilizada para gerar in-forma¸c˜ao ´util mediante o estudo desses dados brutos.

Estes motivos justificam a realiza¸c˜ao deste trabalho, a fim de propor uma forma alternativa de ava-lia¸c˜ao para o fenˆomeno aqui estudado, atrav´es de t´ecnicas e algoritmos que otimizem esse procedimento.

(17)

1.6. Classifica¸c˜ao da Pesquisa 4

1.6

Classifica¸

ao da Pesquisa

Com base em sua natureza podemos classificar esta pesquisa, segundo alguns autores como GIL

(2002) e WASLAWICK(2009), como b´asica visto que busca apenas gerar conhecimento sobre um fato. Com base em sua finalidade, podemos classific´a-la como explicativa pois, inicialmente, se preocupa em identificar os fatores que determinam ou que contribuem para a ocorrˆencia do fenˆomeno estudado. Mas, ainda segundo Gil, podemos dizer que tamb´em ´e uma pesquisa descritiva, pois almeja entender melhor um fenˆomeno coletivo, bem como descrever poss´ıveis associa¸c˜oes entre as vari´aveis com influˆencia direta sobre o fenˆomeno. E por fim, de acordo com seus procedimentos, a presente pesquisa se classifica, essencialmente, como sendo experimental.

1.7

Apresenta¸

ao do Trabalho

O presente trabalho est´a estruturado em quatro cap´ıtulos: introdu¸c˜ao, referencial te´orico, metodo-logia e resultados. No primeiro cap´ıtulo s˜ao introduzidas ideias gerais sobre a pesquisa, seus objetivos, delimita¸c˜ao do estudo, sua classifica¸c˜ao, motiva¸c˜ao e justificativa da mesma. No segundo cap´ıtulo, ´e explanado os conceitos relacionados `a problematiza¸c˜ao aqui estudada (o relacionamento entre os fatores de risco e o cˆancer oral), e a minera¸c˜ao de dados. Sobre a minera¸c˜ao de dados, sua hist´oria e conceitos s˜ao descritos, bem como, suas tarefas e m´etodos, e o algoritmo Apriori, parte tamb´em relacionada `a problematiza¸c˜ao, ´e exposto e por fim, s˜ao apresentados os trabalhos relacionados. O terceiro cap´ıtulo apresenta o detalhamento dos materiais e m´etodos que foram utilizados a fim de atingir-se os objetivos desta pesquisa,. No quarto e ´ultimo cap´ıtulo s˜ao apresentados os resultados dos experimentos feitos e as considera¸c˜oes finais.

(18)

5

Cap´ıtulo 2

Referencial Te´

orico

Este Cap´ıtulo dedica-se a apresentar mais detalhadamente o cˆancer oral e as principais les˜oes orais associadas, bem como as t´ecnicas de minera¸c˜ao de dados que podem ser utilizadas no estudo desta problem´atica. S˜ao apresentados, ainda, pesquisas j´a realizadas acerca do referido assunto, de forma a respaldar o tema e os conceitos aqui utilizados, como tamb´em apresentar os resultados obtidos diante das t´ecnicas j´a utilizadas.

2.1

ancer Oral

2.1.1

Tipos de Les˜

oes

Segundo Silveira apud FERREIRA (2016), a OMS denomina as altera¸c˜oes teciduais que podem se transformar em cˆancer, como ”[...] ’ les˜oes com potencial de maligniza¸c˜ao ’, sendo as principais: leu-coplasia, leucoplasia verrucosa proliferativa, eritroplasia, queilite act´ınica, fibrose submucosa oral, l´ıquen plano e atrofia por deficiˆencia de ferro”. Estas les˜oes possuem uma propens˜ao maior do que o normal para transforma¸c˜ao em carcinoma epiderm´oide oral, que ´e o tipo mais comum de cˆancer bucal (OGBUREKE e BINGHAM,2012, tradu¸c˜ao nossa).

A leucoplasia ´e, segundo a OMS, ”[...] uma mancha ou placa branca, n˜ao remov´ıvel `a raspagem e que n˜ao pode ser classificada cl´ınica ou patologicamente como outra enfermidade (seu diagn´ostico ´e feito por exclus˜ao), e pode apresentar superf´ıcie lisa, rugosa ou verrugosa”, e sua taxa de transforma¸c˜ao maligna pode variar de 0 a 20%, com uma m´edia de 5% (Silveira apudFERREIRA, 2016). Essa les˜ao ´e a mais comum e pode surgir em qualquer localiza¸c˜ao da cavidade oral, de forma ´unica ou em formato de m´ultiplas les˜oes, entretanto seu aparecimento se d´a principalmente na mucosa jugal e nas comissuras labiais. Pessoas com faixas et´arias mais avan¸cadas correm um maior risco de desenvolvimento da doen¸ca, tendo o tabaco, o ´alcool, o HPV, e alguns outros tipos de infec¸c˜oes, elencados como poss´ıveis fatores causadores deste tipo de les˜ao (CARVALHO,2014).

A queilite act´ınica (QA) ´e uma les˜ao pr´e-maligna caracterizada por uma superf´ıcie lisa e com man-chas esbranqui¸cadas, estando diretamente relacionada `a exposi¸c˜ao excessiva e prolongada aos raios solares. Esta les˜ao acomete principalmente indiv´ıduos acima dos 45 anos, tendo maior incidˆencia no sexo mas-culino (CORSO et al., 2006), possuindo duas classifica¸c˜oes: aguda e a crˆonica. A QA aguda ´e mais comum e alguns sinais como pequenos edemas e vermelhid˜ao s˜ao mais amenos, dificultando a percep¸c˜ao do indiv´ıduo que a possui. Caso n˜ao haja um tratamento adequado e a exposi¸c˜ao ao sol sem prote¸c˜ao se prolongue, a les˜ao pode evoluir para o que se denomina como queilite crˆonica, que apresenta sinais mais severos como descama¸c˜ao, sangramento, falta de delimita¸c˜ao entre o vermelh˜ao e a pele, atrofia labial, entre outros (VILELA,2011).

A eritroplasia se apresenta na forma de uma placa vermelha e carrega um aumentado risco de malig-niza¸c˜ao (Warnakulasuriya apudOLIVEIRA,2011). SegundoALFAYA et al.(2012), essa les˜ao apresenta tamanho variado e pode ser classificada em: homogˆenea, quando possui aspecto avermelhado, plana e com bordas bem definidas; associada ou, tamb´em conhecida como eritroleucoplasia, les˜ao clinicamente semelhante `a anterior, por´em associada a ´areas leucopl´asicas; e granular, les˜ao vermelha, ligeiramente elevada, com bordas irregulares entremeadas por pontos leucopl´asicos. Entre os fatores de riscos mais

(19)

2.2. Descoberta de Conhecimento em Bases de Dados 6

citados pela literatura est˜ao o uso do tabaco e o consumo de ´alcool, especialmente se associados, de-ficiˆencias nutricionais, infec¸c˜oes virais e fatores gen´eticos e heredit´arios. Estima-se que esta les˜ao tenha uma maior incidˆencia em indiv´ıduos entre a 6ae 7a d´ecada de vida.

2.1.2

Fatores Associados

”O cˆancer de boca ´e uma doen¸ca multifatorial. A exposi¸c˜ao a um dos trˆes grandes grupos de est´ımulos cancer´ıgenos, nominalmente qu´ımicos, f´ısicos e virais, ´e conhecido por provocar cˆancer na mucosa oral condicionada por m´etodos gen´eticos e sistˆemicos ”(Syrjanen e Reddout apud (OGBUREKE e BINGHAM

2012, tradu¸c˜ao nossa). Dentre os fatores qu´ımicos, o uso excessivo do tabaco e do ´alcool se destacam, representando um risco ainda maior se associados. Com o uso do tabaco, seja fumado, mascado ou as-pirado, os tabagistas apresentam chances entre 4 a 15 vezes mais de desenvolver cˆancer da boca do que os n˜ao-tabagistas. J´a os consumidores de ´alcool possuem 9 vezes mais chances de desenvolver um cˆancer oral e, se associado ao tabaco, este risco torna-se 35 vezes maior. (MS e INCA,2002).

Os h´abitos alimentares tamb´em representam um fator associado. Segundo dados do INCA, ´e poss´ıvel que as deficiˆencias nutricionais possam ocasionar altera¸c˜oes no epit´elio, tornando a mucosa bucal mais suscet´ıvel aos agentes causadores do cˆancer. A predisposi¸c˜ao gen´etica tamb´em ´e um fator de risco, apesar de raramente ser considerada como causa ´unica no desenvolvimento do cˆancer. As infec¸c˜oes pelo v´ırus HPV tamb´em podem levar `a ocorrˆencia de cˆancer oral, especialmente os tipos 16 e 18 que, dentre os treze tipos de HPV que s˜ao considerados de alto risco oncogˆenicos, s˜ao tidos como os mais suscept´ıveis a causar cˆancer (FERREIRA, 2016) e (INCA, 2018) . J´a a exposi¸c˜ao prolongada `a irradia¸c˜ao solar, ´e considerado um fator extr´ınseco agravante do cˆancer de boca.

2.2

Descoberta de Conhecimento em Bases de Dados

O processo de Descoberta de Conhecimento em Bases de Dados - DCBD (do inglˆes, Knowledge Discovery in Databases - KDD) envolve um conjunto de tarefas que permitem transformar dados brutos em conhecimento. Abaixo, a Figura 2.1 apresenta um modelo detalhado para o processo de DCBD proposto porFAYYAD et al.(1996). De forma geral, na etapa sele¸c˜ao ´e escolhido o conjunto de dados contendo todas as poss´ıveis vari´aveis que far˜ao parte da an´alise. A etapa de pr´e-processamento engloba as fun¸c˜oes de organiza¸c˜ao e limpeza dos dados, para que se adequem `a aplica¸c˜ao de algoritmos na etapa seguinte, `a minera¸c˜ao dos dados. Na etapa de minera¸c˜ao de dados ´e feita a busca efetiva por informa¸c˜oes que ser˜ao tratadas posteriormente no p´os-processamento (GOLDSCHMIDT et al., 2015). A se¸c˜ao2.2.1

tratar´a das etapas de pr´e-processamento e p´os-processamento dos dados, de forma mais detalhada. J´a a etapa de minera¸c˜ao de dados ser´a descrita na se¸c˜ao2.3.

Figura 2.1: Processo de DCBD.

(20)

2.2. Descoberta de Conhecimento em Bases de Dados 7

2.2.1

Pr´

e-Processamento e P´

os-Processamento dos Dados

O pr´e-processamento de dados integra o processo de DCBD e consiste em um conjunto de diferentes estrat´egias e t´ecnicas inter-relacionadas que buscam tornar os dados mais adequados para a minera¸c˜ao de dados. Devido `as muitas formas de coleta e armazenamento de dados, este talvez seja o passo mais trabalhoso e demorado do processo de DCBD (TAN et al., 2009). Esta etapa abrange as fun¸c˜oes de limpeza, redu¸c˜ao, transforma¸c˜ao e integra¸c˜ao dos dados, sendo as tarefas mais usadas nestas quatro fases descritas a seguir:

A fun¸c˜ao de limpeza est´a diretamente relacionada com a garantia da qualidade dos dados e envolve t´ecnicas para verifica¸c˜ao de inconsistˆencias, limpeza ou preenchimento de dados ausentes e exclus˜ao de valores fora do dom´ınio do atributo (outliers).

Segundo TAN et al., (2009), existem duas t´ecnicas que podem ser utilizadas na redu¸c˜ao de dados. A primeira delas ´e a agrega¸c˜ao de dados, que consiste em combinar um ou mais objetos em um ´unico, obtendo assim um vis˜ao de alto n´ıvel dos dados. Uma segunda t´ecnica ´e a redu¸c˜ao de dimensionalidade. Esta estrat´egia diminui o n´umero atributos dos dados, podendo assim eliminar caracter´ısticas irrelevantes e obter um modelo mais compreens´ıvel, al´em de permitir que os dados sejam visualizados mais facilmente. Uma terceira forma de reduzir a dimensionalidade ´e a chamada sele¸c˜ao de subconjunto de caracter´ısticas, que cria novos atributos que sejam uma combina¸c˜ao dos atributos antigos.

Muitas vezes os atributos de uma base possuem valores muito discrepantes entre si. Em determinados m´etodos, esta discrepˆancia pode influenciar e modificar os resultados esperados. Para estes casos, existe a t´ecnica de normaliza¸c˜ao de dados. Esta t´ecnica coloca todos os valores de um atributo em uma escala de pequenos intervalos, que pode ser de 0 a 1, 1 a 100, entre outros. As principais fun¸c˜oes para normalizar dados, segundoGOLDSCHMIDT et al.(2015), s˜ao apresentadas a seguir;

Normaliza¸c˜ao linear: considera os valores m´ınimo e m´aximo de cada atributo no ajuste da escala, e ´e definida pela equa¸c˜ao (2.1):

A’= A − M in

M ax − M in (2.1) onde:

A’´e o valor normalizado;

A ´e o valor original;

Min ´e o valor m´ınimo do atributo a ser normalizado; Max ´e o valor m´aximo do atributo a ser normalizado.

Normaliza¸c˜ao por Desvio Padr˜ao: considera a m´edia dos valores de um atributo e a sua disper¸c˜ao em rela¸c˜ao `a m´edia. A fun¸c˜ao ´e definida pela equa¸c˜ao (2.2):

A’ =A − µ

σ (2.2)

onde:

A’´e o valor normalizado; A ´e o valor original;

µ ´e a m´edia aritm´etica simples dos valores do atributo; σ ´e o desvio-padr˜ao dos valores do atributo.

Normaliza¸c˜ao pela Soma dos Elementos: este m´etodo consiste em dividir cada valor do atributo a que ser´a normalizado pela soma de todos os valores deste mesmo atributo. A fun¸c˜ao ´e dada pela equa¸c˜ao (2.3): A’= A X (2.3) onde: A’´e o valor normalizado; A ´e o valor original;

(21)

2.3. Minera¸c˜ao de Dados 8

Normaliza¸c˜ao pelo Valor M´aximo dos Elementos: este m´etodo determina a divis˜ao de cada valor do atributo a ser normalizado pelo maior valor dentre os valores deste mesmo atributo. Com isto temos a equa¸c˜ao (2.4): A’= A M ax (2.4) onde: A’´e o valor normalizado; A ´e o valor original;

Max ´e o valor m´aximo do atributo.

Uma outra t´ecnica bastante utilizada no processo de transforma¸c˜ao de dados ´e a discretiza¸c˜ao de atributos quantitativos em qualitativos ou, inversamente, a discretiza¸c˜ao de atributos qualitativos em quantitativos. Alguns algoritmos de minera¸c˜ao de dados s´o aceitam valores de entradas correspondentes a um destes dois tipo: qualitativos ou quantitativos. Desta forma se faz necess´ario a convers˜ao dos dados. Um atributo Idade, por exemplo, inicialmente apresentado na forma quantitativa pode ser transformado em qualitativo atrav´es da defini¸c˜ao das faixas et´arias, Jovens, entre 0 e 19 anos; Adultos, entre 20 e 59 anos; e Idosos, acima dos 59 anos. Para a convers˜ao contr´aria usando o atributo Prioridade como exemplo, os valores alta, m´edia e baixa poderiam corresponder aos valores 3, 2 e 1.

A t´ecnica de binariza¸c˜ao de dados ´e bastante utilizada na prepara¸c˜ao dos dados para a aplica¸c˜ao de algoritmos que buscam padr˜oes de associa¸c˜ao. Para atributos categ´oricos com m valores categorizados, cada valor original ´e atribu´ıdo a um valor inteiro no intervalo [0, m - 1], mantendo a ordem, caso o atri-buto seja ordinal. Em outros casos especialmente para algoritmos tradicionais de regras de associa¸c˜ao, ´e necess´ario transformar um ´unico atributo bin´ario em dois atributos bin´arios assim´etricos. Considerando o atributo sexo, esta informa¸c˜ao teria que ser modificada em dois atributos bin´arios assim´etricos x1

(mas-culino) e x2(feminino) onde, x2seja 0 apenas quando a pessoa for do sexo masculino e x1seja 0 apenas

quando a pessoa for do sexo feminino (TAN et al.,2009).

Ap´os o t´ermino das quatros etapas, quando necess´arias, e ainda da fase de DM, tem-se a etapa de p´os-processamento dos dados que envolve as formas para visualizar e interpretar o modelo gerado na fase anterior, apresentando-o atrav´es de ´arvores de decis˜ao, gr´aficos diversos, planilhas, entre outros.

2.3

Minera¸

ao de Dados

A Descoberta de Conhecimento em Bases de Dados, como j´a foi dito, refere-se a um conjunto de etapas necess´arias para a descoberta de conhecimento em dados. A minera¸c˜ao de dados representa a principal etapa deste processo, sendo a respons´avel direta pela perscruta¸c˜ao do conhecimento atrav´es de seus m´etodos e tarefas. Muitas s˜ao as defini¸c˜oes dadas a este campo de conhecimento sendo uma das mais aceitas, a proposta de Hand, Mannila e Smyth apudROCHA et al. (2008, grifo do autor):

”Minera¸c˜ao de Dados an´alise de conjuntos de dados, tipicamente de grande dimens˜ao com o intuito de revelar rela¸c˜oes desconhecidas e sumarizar os dados de formas inovadoras, que sejam ´uteis e compreens´ıveis para o utilizador.”

A minera¸c˜ao de dados, do inglˆes Data Mining (DM) busca, essencialmente, extrair informa¸c˜oes ´uteis a um determinado fim, atrav´es de algoritmos de classifica¸c˜ao, aprendizagem de m´aquina, entre outros, a partir da explora¸c˜ao de grandes quantidades de dados brutos. As t´ecnicas de minera¸c˜ao de dados vˆem sendo cada vez mais aprimoradas ao longo do tempo, para acompanhar o potencial, para diversos fins, do grande volume de dados dispon´ıveis.

2.3.1

Hist´

oria e Conceitos

Com o grande e acelerado avan¸co das tecnologias, as organiza¸c˜oes em diversas ´areas como neg´ocios, sa´ude, ciˆencia, entre outras mais, puderam coletar e armazenar uma grande quantidade de dados. Essa produ¸c˜ao vem aumentando a cada ano, tornando quase imposs´ıvel utilizar as t´ecnicas tradicionais para tratar esse grande volume de dados brutos, bem como, novos tipos de dados.

(22)

2.3. Minera¸c˜ao de Dados 9

Diante deste cen´ario, pode-se elencar alguns desafios motivadores para a cria¸c˜ao da minera¸c˜ao de dados, tais como: escalabilidade, alta dimensionalidade, dados complexos e heterogˆeneos e an´alises n˜ao tradicionais.

Buscando superar os desafios supracitados, v´arios pesquisadores iniciaram o desenvolvimento de t´ecnicas e ferramentas mais eficientes que atendessem `a necessidade de escalabilidade, tratamento de diversos tipos de dados, e que pudessem realizar detec¸c˜ao de anomalias, descoberta de novos padr˜oes e de correla¸c˜oes, e que s˜ao baseados na jun¸c˜ao de outras trˆes t´ecnicas: a estat´ıstica, aprendizagem de m´aquina e a inteligˆencia artificial (TAN et al.,2009).

A minera¸c˜ao de dados ´e vista, atualmente, como uma das tecnologias mais promissoras, visto que grandes institui¸c˜oes gastam muito para coletar e armazenar dados, e no entanto, n˜ao conseguem extrair informa¸c˜oes ´uteis a partir destes. Al´em disso, a Sociedade Brasileira de Computa¸c˜ao (SBC) elencou a ”Gest˜ao da informa¸c˜ao em grandes volumes de dados multim´ıdia distribu´ıdos”como um dos cinco grandes desafios da computa¸c˜ao no brasil, para as pr´oximas d´ecadas (BRAYNER et al.,2006).

2.3.2

Tarefas

A minera¸c˜ao ´e composta por diversas tarefas. Entre estes, os mais comuns s˜ao:

Classifica¸c˜ao

A classifica¸c˜ao ´e uma das tarefas mais utilizadas na minera¸c˜ao e visa construir um modelo, seguindo um conjunto de caracter´ısticas espec´ıficas encontradas em atributos preditivos, que ser´a aplicado em cada novo dado n˜ao-classificado. Dessa forma, um novo registro ser´a sempre categorizado de acordo com a classe que possui registros semelhantes. Conhecidamente um objeto pode ser muito semelhante `a outro, por´em dificilmente estes objetos ser˜ao idˆenticos. Diante disso, existem certas caracter´ısticas que preci-sam ser desprezadas no processo de classifica¸c˜ao, considerando-se apenas as principais. Normalmente, os dados fornecidos s˜ao divididos em dois grupos: um conjunto de treinamento, que servir´a para criar o modelo de classifica¸c˜ao; e um conjunto de teste, que possuir´a dados dispersos e ainda sem classifica¸c˜ao. Para avaliar o desempenho de um modelo de classifica¸c˜ao, usa-se uma tabela conhecida por matriz de confus˜ao, que serve para tabular a contagem de registros de testes previstos correta e incorretamente pelo modelo (TAN et al., 2009), conforme ilustrada na Figura 2.2.

Figura 2.2: Matriz de confus˜ao para um problema de 2 classes.

Fonte: Adaptada deTAN et al.,2009.

Para uma situa¸c˜ao em que existam duas poss´ıveis classes (0 e 1). A interpreta¸c˜ao dos dados da matriz de confus˜ao se d´a da seguinte forma: o valor F11 conter´a a soma dos casos onde algoritmo identificou a

classe prevista igualmente `a classe real. Similarmente o mesmo acontece para o valor F00. J´a o valor F10

e o valor F01 conter´a, respectivamente, todos os casos onde a classe real era 1 e o algoritmo classificou

como 0, e todos os casos onde a classe era 0 e foram classificados como 1.

An´alise de Agrupamento

O objetivo da an´alise de agrupamento ´e particionar registros dispersos de um banco de dados em subconjuntos, tamb´em chamados de clusters, de forma que os registros de um determinado subconjunto sejam muito semelhantes entre si e muito diferentes dos registos dos outros subconjuntos. O agrupamento pode ser considerado tamb´em uma t´ecnica de classifica¸c˜ao, visto que esse m´etodo cria uma rotulagem de

(23)

2.3. Minera¸c˜ao de Dados 10

registros, ou objetos, com r´otulos de classes (grupos), por´em derivando estes r´otulos apenas dos dados (TAN et al.,2009).

Um dos algoritmos mais simples, mas amplamente utilizado, que implementa essa tarefa ´e o k -means, um m´etodo de agrupamento que consiste em determinar k centroides, que geralmente corresponde `a m´edia de um grupo de pontos, particionando N observa¸c˜oes, onde cada uma pertence ao grupo mais pr´oximo da m´edia (TAN et al.,2009). O algoritmo ´e formalmente descrito na Figura2.3.

Figura 2.3: Algoritmo K-means b´asico.

Fonte: adaptado deTAN et al.,2009.

An´alise de Associa¸c˜ao

Essa t´ecnica se baseia em regras e busca encontrar todas as poss´ıveis associa¸c˜oes existentes entre os itens de um determinado conjunto de dados, utilizando-se de um valor de suporte e de confian¸ca m´ınimos, onde cada regra de associa¸c˜ao gerada dever´a possuir um suporte e um valor de confian¸ca maior ou igual a estes valores m´ınimos. A an´alise de associa¸c˜ao ser´a um dos objetos de estudo deste trabalho e ser´a descrita mais detalhadamente, bem como um dos algoritmos que implementa esta t´ecnica, na se¸c˜ao2.4.

Regress˜ao Linear

A regress˜ao linear busca encontrar uma rela¸c˜ao entre um conjunto de atributos de entrada e um atributo-meta cont´ınuo, se assemelhando `a tarefa de classifica¸c˜ao, por´em n˜ao utiliza atributos discretos. O objetivo da regress˜ao ´e encontrar um mapeamento da seguinte forma (CASTANHEIRA, 2008):

X = {x1, x2, ..., xn} → Y = f {x1, x2, ..., xn}

Onde:

X ´e o atributo de entrada e vari´avel independente; {x1,x2,...,xn} s˜ao os poss´ıveis valores da vari´avel X.

Y ´e o atributo-meta e vari´avel dependente ;

Essa regress˜ao ´e tida como linear porque a rela¸c˜ao entre os dom´ınios das vari´aveis se assemelha a uma fun¸c˜ao de 1o grau, ou fun¸c˜ao linear. As regress˜oes que n˜ao apresentam esse formato, s˜ao descritas como regress˜oes n˜ao-lineares.

2.3.3

etodos

´

Arvores de Decis˜ao ´

Arvores de decis˜ao s˜ao representa¸c˜oes gr´aficas que permitem a extra¸c˜ao de regras de classifica¸c˜ao e s˜ao formadas por trˆes tipos de nodo ou n´o, que representam questionamentos que se deve obter uma decis˜ao. S˜ao eles: nodo raiz, nodo interno e nodo folha ou terminal. A partir do nodo raiz, podemos obter condicionais das vari´aveis em que s˜ao definidos os dom´ınios de classifica¸c˜ao, sendo representados na forma: SE [condicional] ENT ˜AO [classe] (Vale et al. apudFERREIRA et al. 2013), essas condi¸c˜oes s˜ao normalmente igualdades do tipo ”atributo = valor”quando se trata de atributos nominais, e em casos de atributos num´ericos, o s´ımbolo de igualdade ´e substitu´ıdo por ≥ ou ≤ (ROCHA et al.,2008).

As condi¸c˜oes estabelecidas em cada n´o s˜ao utilizadas para testar os atributos a fim de separar os registros que possuam caracter´ısticas diferentes. A Figura2.4 mostra um exemplo de classifica¸c˜ao de

(24)

2.3. Minera¸c˜ao de Dados 11

vertebrados, onde o atributo Temperatura Corporal, por exemplo, serve para separar vertebrados de sangue frio, que s˜ao n˜ao-mam´ıferos, de vertebrados com sangue quente. J´a o atributo Origina, separa os vertebrados de sangue quente de outros animais que tamb´em possuem essa caracter´ıstica, mas que n˜ao pertencem a classe dos mam´ıferos (TAN et al.,2009).

Figura 2.4: Classificando um vertebrado sem r´otulo.

Fonte: TAN et al., 2009.

Redes Neurais Artificiais

As Redes Neurais Artificiais (RNA) tentam, basicamente, simular o comportamento dos neurˆonios do c´erebro. Elas s˜ao constitu´ıdas por unidades b´asicas de processamento, chamadas de neurˆonios ou nodos, que est˜ao fortemente interligados por conex˜oes ou sinapses (ROCHA et al.,2008), e implementam algoritmos de aprendizagem de m´aquina na constru¸c˜ao de modelos preditivos em base de dados hist´oricos (PINHEIRO,2008).

Figura 2.5: Topologia de uma rede neural artificial.

Fonte: PINHEIRO,2008.

A Figura2.5mostra uma ilustra¸c˜ao simples de uma RNA, onde s˜ao apresentados trˆes n´os de entrada, uma segunda camada tamb´em com trˆes n´os que ´e resultante do processamento dos atributos da primeira

(25)

2.4. Algoritmo Apriori 12

camada, e um n´o de sa´ıda que ´e o resultado final do processo.

2.4

Algoritmo Apriori

O algoritmo Apriori foi proposto por Agrawal e Srikant(1994), sendo um dos algoritmos mais uti-lizados para descobrir regras de associa¸c˜ao. Este m´etodo baseia-se em um valor de suporte e um valor de confian¸ca para definir se h´a associa¸c˜oes entre os itens de um determinado conjunto de dados. Ele foi um dos primeiros algoritmos a implementar o sistema de poda para diminuir o crescimento exponencial dos conjuntos de itens candidatos a regras, sendo essencialmente dividido em duas partes. Na primeira, considerando um conjunto de transa¸c˜oes T, o algoritmo ir´a selecionar todos os subconjuntos t poss´ıveis que possam gerar alguma regra de associa¸c˜ao, ou seja, que tenha o valor de suporte s, maior ou igual ao valor m´ınimo estabelecido. Na segunda parte, o algoritmo ir´a verificar se existe regra de associa¸c˜ao do tipo SE antecedente ENT ˜AO consequente, nos subconjuntos criados na etapa anterior, e ir´a filtr´a-las baseando-se agora no n´ıvel de confian¸ca c m´ınimo.

2.4.1

Exemplo de Extra¸

ao de Regras de Associa¸

ao

Considerando um conjunto de dados fict´ıcios, como mostrado na Tabela 2.1, o exemplo a seguir demonstra como extrair poss´ıveis regras de associa¸c˜oes por meio do Apriori.

Tabela 2.1: Exemplo base de transa¸c˜oes.

Transa¸c˜ao Itens

1 leite,ovos,caf´e,a¸c´ucar,fraldas,manteiga 2 leite,caf´e,farinha

3 leite,ovos,a¸c´ucar 4 caf´e,a¸c´ucar 5 fraldas

6 manteiga,ovos,leite 7 caf´e,a¸c´ucar,leite,ovos 8 farinha,manteiga,ovos

9 manteiga,ovos,leite,caf´e,a¸cucar 10 fraldas,caf´e,cerveja

Fonte: adaptada deGOLDSCHMIDT et al.,2015.

Seja Tko conjunto de k-itens candidatos, onde k =10 e cada elemento tk possui dois campos: itemset

e suporte. O primeiro passo ´e calcular a frequˆencia com que cada item aparece nas transa¸c˜oes, formando o conjunto dos 1-itemsets frequentes, T1. Para isso devemos utilizar a equa¸c˜ao (2.5):

n

k (2.5)

onde n ´e a frequˆencia do item nas transa¸c˜oes. Ao final, teremos um resultado igual ao mostrado na Tabela2.2.

(26)

2.4. Algoritmo Apriori 13

Tabela 2.2: Conjunto de 1-itemsets.

Itemset Suporte Leite 0.6 Ovos 0.6 Caf´e 0.6 A¸c´ucar 0.5 Fraldas 0.3 Manteiga 0.4 Farinha 0.2 Cerveja 0.1

Assumindo um valor de suporte m´ınimo igual a 25%, tem-se que apenas os itens (Leite, Ovos, Caf´e, A¸c´ucar, Fraldas e Manteiga) atenderam ao crit´erio estabelecido e seguiram para o passo dois, onde ser´a constru´ıdo o conjunto T2 com os 2-Itemsets mais frequentes. Ao final, temos o resultado demonstrado na Tabela2.3.

Tabela 2.3: Conjunto de 2-itemsets.

Itemset Suporte Leite, Ovos 0.5 Leite, Caf´e 0.4 Leite, A¸c´ucar 0.4 Leite, Fraldas 0.1 Leite, Manteiga 0.3 Ovos, Caf´e 0.3 Ovos, A¸c´ucar 0.4 Ovos, Fraldas 0.1 Ovos, Manteiga 0.4 Caf´e, A¸c´ucar 0.4 Caf´e, Fraldas 0.2 Caf´e, Manteiga 0.2 A¸c´ucar, Fraldas 0.1 A¸c´ucar, Manteiga 0.2 Fraldas, Manteiga 0.1

Repetindo os procedimentos supracitados, descartando os itemsets (Leite, Fraldas), (Ovos, Fraldas), (Caf´e, Fraldas),(Caf´e, Manteiga), (A¸c´ucar, Fraldas), (A¸c´ucar, Manteiga) e (Fraldas, Manteiga), chega-se ao conjunto de 3-itemsets como mostra a Tabela2.4.

Tabela 2.4: Conjunto de 3-itemsets.

Itemset Suporte Leite, Ovos, Caf´e 0.3 Leite, Ovos, A¸c´ucar 0.4 Leite, Ovos, Manteiga 0.3 Leite, Caf´e, A¸c´ucar 0.3 Leite, Caf´e, Manteiga 0.2 Leite, A¸c´ucar, Manteiga 0.2 Ovos, Caf´e, A¸c´ucar 0.3 Ovos, Caf´e, Manteiga 0.2 Ovos, A¸cucar, Manteiga 0.2 Caf´e, A¸c´ucar, Manteiga 0.2

E por fim, n˜ao ´e mais poss´ıvel criar combina¸c˜oes com 5-itemsets. Chegamos, ent˜ao, ao conjunto de 4-itemsets, conforme mostra a Tabela2.5.

(27)

2.4. Algoritmo Apriori 14

Tabela 2.5: Conjunto de 4-itemsets.

Itemset Suporte Leite, Ovos, Caf´e, A¸c´ucar 0.3 Leite, Ovos, Caf´e, Manteiga 0.2 Leite Ovos, A¸c´ucar, Manteiga 0.2 Leite, Caf´e, A¸c´ucar, Manteiga 0.2 Ovos, Caf´e, A¸c´ucar, Manteiga 0.2

Na segunda parte do algoritmo deve-se calcular o n´ıvel de confian¸ca para cada regra de associa¸c˜ao gerada, a partir do itemset (Leite, Ovos, Caf´e, A¸c´ucar ), atrav´es da cria¸c˜ao de permuta¸c˜oes entre os itens, pois o suporte de SE a ENT ˜AO b ser´a sempre igual ao suporte de SE b ENT ˜AO a, por´em, a confian¸ca de SE a ENT ˜AO b, pode ser diferente da confian¸ca de SE b ENT ˜AO a. Utilizando a equa¸c˜ao (2.6):

n

k (2.6)

onde n ´e a frequˆencia de registros que cont´em a e b e k ´e a frequˆencia de registros que cont´em a nas transa¸c˜oes, assume-se um valor m´ınimo para a confian¸ca igual a 75%.

Tabela 2.6: Regras candidatas com 1 antecedente.

Regra Candidata Confian¸ca SE Leite ENT ˜AO Ovos 0.83 SE Leite ENT ˜AO Caf´e 0.66 SE Leite ENT ˜AO A¸c´ucar 0.66 SE Ovos ENT ˜AO Leite 0.83 SE Ovos ENT ˜AO Caf´e 0.50 SE Ovos ENT ˜AO A¸c´ucar 0.66 SE Caf´e ENT ˜AO Leite 0.66 SE Caf´e ENT ˜AO Ovos 0.50 SE Caf´e ENT ˜AO A¸c´ucar 0.66 SE A¸c´ucar ENT ˜AO Leite 0.80 SE A¸c´ucar ENT ˜AO Ovos 0.80 SE A¸c´ucar ENT ˜AO Caf´e 0.80 SE Leite ENT ˜AO Ovos, Caf´e 0.50 SE Leite ENT ˜AO Ovos, A¸c´ucar 0.66 SE Leite ENT ˜AO Caf´e, A¸c´ucar 0.50 SE Ovos ENT ˜AO Leite, Caf´e 0.50 SE Ovos ENT ˜AO Leite, A¸c´ucar 0.66 SE Ovos ENT ˜AO Caf´e, A¸c´ucar 0.50 SE Caf´e ENT ˜AO Leite, Ovos 0.50 SE Caf´e ENT ˜AO Leite, A¸c´ucar 0.50 SE Caf´e ENT ˜AO Ovos, A¸c´ucar 0.50 SE A¸c´ucar ENT ˜AO Leite, Ovos 0.80 SE A¸c´ucar ENT ˜AO Leite, Caf´e 0.60 SE A¸c´ucar ENT ˜AO Ovos, Caf´e 0.60 SE Leite ENT ˜AO Ovos, Caf´e, A¸c´ucar 0.66 SE Ovos ENT ˜AO Leite, Caf´e, A¸c´ucar 0.66 SE Caf´e ENT ˜AO Leite, Ovos, A¸c´ucar 0.66 SE A¸c´ucar ENT ˜AO Leite, Ovos, Caf´e 0.60

(28)

2.5. Metodologias de DCBD 15

A Tabela 2.6 mostra as regras de associa¸c˜ao existentes com 1 antecedente. J´a as Tabelas 2.7 e 2.8

mostram a listagem das regras com 2 e 3 antecedentes, respectivamente.

Tabela 2.7: Regras candidatas com 2 antecedentes.

Regra Candidata Confian¸ca SE Leite, Ovos ENT ˜AO Caf´e 0.60 SE Leite, Ovos ENT ˜AO A¸c´ucar 0.80 SE Leite, Caf´e ENT ˜AO Ovos 0.75 SE Leite, Caf´e ENT ˜AO A¸c´ucar 0.75 SE Leite, A¸c´ucar ENT ˜AO Ovos 1.00 SE Leite, a¸c´ucar ENT ˜AO Caf´e 0.75 SE Leite, Ovos ENT ˜AO Caf´e, A¸c´ucar 0.60 SE Leite, Caf´e ENT ˜AO Ovos, A¸c´ucar 0.75 SE Leite, A¸c´ucar ENT ˜AO Ovos, Caf´e 0.75 SE Ovos, Caf´e ENT ˜AO Leite, A¸c´ucar 1.00 SE Ovos, A¸c´ucar ENT ˜AO Leite, Caf´e 0.75 SE Caf´e, A¸c´ucar ENT ˜AO Leite, Ovos 0.75

Tabela 2.8: Regras candidatas com 3 antecedentes.

Regra Candidata Confian¸ca SE Leite, ovos, caf´e ENT ˜AO A¸c´ucar 0.60 SE Leite, Ovos, A¸c´ucar ENT ˜AO Caf´e 0.75 SE Leite, caf´e, a¸c´ucar ENT ˜AO Ovos 1.00 SE Ovos, caf´e, a¸c´ucar ENT ˜AO Leite 1.00

Ap´os listar todas as regras candidatas e filtr´a-las, baseando-se no valor de confian¸ca minimo esta-belecido, ´e necess´ario compreender quais s˜ao as regras interessantes. Aqui, o conceito de interessante ´e referente ao fato de uma regra acrescentar em termos de conhecimento ou n˜ao. Suponhamos uma certa regra SE a ENT ˜AO b com 95% de confian¸ca; entretanto temos que ’a’ aparece em 95% das transa¸c˜oes. Dizemos ent˜ao que essa n˜ao ´e uma regra interessante. Por outro lado, se temos uma regra SE a ENT ˜AO b com 75% de confian¸ca e ’a’ aparece em apenas 10% das transa¸c˜oes, podemos inferir que esta seria uma regra interessante, pois ´e uma associa¸c˜ao dif´ıcil de ser percebida.

No exemplo aqui explanado, pode-se destacar trˆes regras de associa¸c˜ao interessantes. Podemos des-crever a associa¸c˜ao a qual essas regras representam como sendo, por exemplo, ”A compra de ’Ovos e Caf´e’ leva `a compra de ’Leite e a¸c´ucar’ em 100% dos casos”. A Tabela2.9, mostras as trˆes regras supracitadas.

Tabela 2.9: Regras de Associa¸c˜ao.

Regra Candidata Confian¸ca Antecedente Confian¸ca Regra SE Ovos, Caf´e ENT ˜AO Leite, A¸c´ucar 30% 100%

SE Leite, Caf´e, A¸c´ucar ENT ˜AO Ovos 30% 100% SE Ovos, Caf´e, A¸c´ucar ENT ˜AO Leite 30% 100%

2.5

Metodologias de DCBD

A formula¸c˜ao de modelos e estrat´egias de realiza¸c˜ao de DCBD objetiva preestabelecer conjuntos ordenados de regras e tarefas a serem seguidas pelo homem a fim de realizar aplica¸c˜oes de DCBD e produzir resultados satisfat´orios (GOLDSCHMIDT et al.,2015).

(29)

2.5. Metodologias de DCBD 16

2.5.1

Metodologia CRISP-DM

O modelo de processo CRISP-DM (CRoss-Industry Standard Process for Data Mining) foi um dos modelos precursores, al´em de bem aceito e explorado pela literatura. Uma metodologia bastante usada pela ind´ustria ´e descrita em termos de um processo hier´arquico, com um ciclo de vida que se desenvolve em seis fases: estudo de neg´ocios, explora¸c˜ao dos dados, prepara¸c˜ao dos dados, modelagem, avalia¸c˜ao e implementa¸c˜ao (COSTA et al.,2014). Ver Figura2.6.

Figura 2.6: Modelo CRISP-DM.

Fonte: COSTA et al.,2014.

No estudo de neg´ocios ´e necess´ario conhecer o contexto em que o processo de DCBD ser´a aplicado e a atual situa¸c˜ao da empresa. Na etapa de explora¸c˜ao dos dados, geralmente realizada em paralelo `

a anterior, realiza-se um estudo aprofundado dos dados dispon´ıveis. A prepara¸c˜ao dos dados engloba todas as tarefas de pr´e-processamento necess´arias para deixar os dados adequados para a etapa seguinte. Nesta quarta etapa, modelagem, se escolhe os algoritmos de minera¸c˜ao a serem utilizados sobre os dados que ser˜ao analisados. Essa atividade pode acarretar um retorno `a etapa de prepara¸c˜ao dos dados, para que seja revisto o formato do conjunto de dados utilizados. Na pen´ultima fase, a etapa de avalia¸c˜ao, ´e analisado a qualidade do(s) modelo(s) de conhecimento gerado na fase anterior. Essa fase tamb´em pode gerar revis˜oes nas etapas anteriores e, ainda, mudan¸cas nos passos seguintes. Na fase final, a de desenvolvimento, ´e feito um relat´orio final sobre o processo de DCBD e o acompanhamento das a¸c˜oes realizadas com o(s) modelo(s) de conhecimento gerado(s) nas fases anteriores (GOLDSCHMIDT et al.,

2015).

2.5.2

Metodologia SEMMA

Esta metodologia se apresenta como um processo de cinco fases: Sample, Explore, Modify, Model e Assess. A primeira fase (Sample) consiste em uma amostra representativa dos dados, que posteriormente s˜ao explorados (Explore) visualmente e numericamente. Em seguida esses dados s˜ao transformados (Modify), se necess´ario, para que os algoritmos possam ser aplicados e o modelo possa ser constru´ıdo (Model ). E por fim, na ´ultima fase da metodologia (Assess), o desempenho do modelo constru´ıdo ´e avaliado (COSTA et al.,2014). Ver Figura2.7.

(30)

2.6. Trabalhos Relacionados 17

Figura 2.7: Metodologia SEMMA.

Fonte: COSTA et al.,2014.

2.5.3

Metodologia Klemettinen

A metodologia adotada neste trabalho ´e a apresentada porKLEMETTINEN et al.(1997), que apesar de utilizar as fases j´a definidas porFAYYAD et al.(1996), sendo elas: pr´e-processamento, transforma¸c˜ao, descoberta, apresenta¸c˜ao e utiliza¸c˜ao, d´a uma ˆenfase maior nas fases intermedi´arias. Nas duas primeiras etapas, as tarefas de sele¸c˜ao e prepara¸c˜ao dos dados s˜ao realizadas. Na terceira etapa, ´e gerado um conjunto de padr˜oes potencialmente interessantes, para que na etapa de apresenta¸c˜ao (parte principal desta metodologia) os padr˜oes relevantes, de fato, se sobressaiam dentre estes outros potencialmente relevantes (COSTA et al.,2014).Ver Figura2.8.

Figura 2.8: Metodologia Klemettinen.

Fonte: COSTA et al.,2014.

2.6

Trabalhos Relacionados

O uso da minera¸c˜ao de dados vem se tornando cada vez mais popular em diversas ´areas, principal-mente devido `a sua capacidade de processar grande volume de dados, como j´a explanado. No que diz respeito aos estudos sobre dados cl´ınicos, a implementa¸c˜ao dos sistemas de informa¸c˜ao para gerenciar dados e dar suporte na tomada de decis˜ao de ´org˜aos de gest˜ao em sa´ude p´ublica parece ter impulsionado e facilitado a realiza¸c˜ao de mais estudos na ´area. Com as pesquisas realizadas, houve a possibilidade de analisar n˜ao somente o trabalho precursor deste estudo, mas tamb´em de outros que exploram sobre o cˆancer oral em diferentes grupos de pessoas, bem como trabalhos sobre aplica¸c˜oes e an´alises da t´ecnica de extra¸c˜ao de regras de associa¸c˜ao.

Na pesquisa deZANETTI et al.(2011), foi avaliado o conhecimento acerca do cˆancer de boca e seus fatores de risco, as les˜oes canceriz´aveis e seu tratamento, em um grupo de motoristas de caminh˜ao, que foi

(31)

2.6. Trabalhos Relacionados 18

visto pelos autores como pessoas propensas ao desenvolvimento da doen¸ca devido `a exposi¸c˜ao a h´abitos nocivos e a alega¸c˜ao de falta de tempo para realizar exames m´edicos. O estudo se deu atrav´es de um question´ario e an´alise dos dados com a ferramenta Epi-info com a aplica¸c˜ao do teste de qui-quadrado. Dentre suas conclus˜oes o autor relata que a grande maioria das pessoas entrevistadas desconheciam a doen¸ca e suas poss´ıveis causas e que quase 30% possu´ıam sinais suspeitos da doen¸ca.

Em um estudo com m´etodos semelhante ao supracitado, SOUZA et al. (2012) avaliaram o n´ıvel de conhecimento sobre do cˆancer bucal, as atitudes diante dos agentes causadores e as medidas preventivas adotadas em uma popula¸c˜ao de horticultores da cidade de Teresina-PI. Ap´os aplica¸c˜ao de um question´ario, o software Statistical Package for Social Sciences (SPSS) foi utilizado neste estudo para analisar os dados atrav´es do teste de qui-quadrado, levando o autor a concluir que a maioria das pessoas entrevistadas conheciam a doen¸ca, mas de forma superficial. O maior fator de risco apresentado ´e a exposi¸c˜ao solar, e essa maioria utiliza ao menos uma das formas preventivas.

FERREIRA(2016) realizou uma pesquisa com trabalhadores rurais sindicalizados residentes na regi˜ao do Serid´o Potiguar, a fim de estimar a prevalˆencia de desordens orais na referida popula¸c˜ao. Ap´os aplica¸c˜ao de question´ario e a realiza¸c˜ao de exames cl´ınicos, Ferreira tamb´em utilizou o SPSS para anali-sar os dados atrav´es da aplica¸c˜ao de alguns testes estat´ısticos. Inicialmente foi feita uma an´alise estat´ıstica descritiva de todas as vari´aveis. Em seguida realizou-se o teste de Qui-Quadrado, almejando avaliar as-socia¸c˜oes entre as desordens orais potencialmente malignas (DOPM) e algumas vari´aveis independentes como sexo, cor da pele, entre outras. Por ´ultimo, o modelo de regress˜ao log´ıstica m´ultipla foi aplicado colocando a vari´avel DOPM em fun¸c˜ao das demais vari´aveis independentes. Segundo o autor, os resulta-dos mostram uma rela¸c˜ao direta de trˆes vari´aveis com o desenvolvimento da queilite act´ınica, sendo elas sexo, cor da pele e tempo de exposi¸c˜ao ao sol.

ROM ˜AO et al. (1999), em seu trabalho, apresenta o algoritmo Apriori aplicado `a uma an´alise de pesquisadores e grupos de pesquisa atrav´es de uma base de dados do Diret´orio dos Grupos de Pesquisa no Brasil (DGP) (CNPq, 1999), vers˜ao 3.0. Em seu estudo, os autores utilizam a abordagem tradicional do Apriori buscando pelos itens mais frequentes da base, al´em de uma segunda que visa revelar as exce¸c˜oes do diret´orio atrav´es da introdu¸c˜ao de um suporte m´aximo, no algoritmo. Com isto, os perfis que s˜ao minorias na base poder˜ao ser analisados mais detalhadamente. Em seus resultados, avaliou-se que mesmo a gera¸c˜ao de regras redundantes levam a uma explora¸c˜ao mais detalhado dos dados, al´em de que atrav´es da segunda abordagem do algoritmo foi poss´ıvel encontrar caracter´ısticas interessantes sobre os pesquisadores do sexo feminino, que s˜ao minoria no diret´orio citado.

(32)

19

Cap´ıtulo 3

Metodologia

Este cap´ıtulo trata dos m´etodos estabelecidos a fim de atingir os objetivos definidos e, consequente-mente, os resultados esperados. Os t´opicos deste cap´ıtulo abordaram sobre o pr´e e p´os-processamento da base de dados, e as ferramentas e os algoritmos utilizados.

Esta pesquisa foi aprovada pelo Comitˆe de ´Etica em Pesquisa da Universidade Federal do Rio Grande do Norte, com parecer de n´umero 2.356.406/2017.

3.1

Pr´

e-Processamento dos Dados

O uso satisfat´orio de uma t´ecnica de an´alise de dados est´a diretamente relacionado com a qualidade dos dados utilizados. H´a muitos fatores que comp˜oem esta qualidade, incluindo a precis˜ao, integridade, consistˆencia, atualidade, credibilidade e interpretabilidade (HAN et al. 2012, tradu¸c˜ao nossa). A fim de garantir a qualidade dos dados utilizados no presente estudo, o pr´e-processamento foi realizado da seguinte forma: i) Limpeza dos Dados, ii) Transforma¸c˜ao dos Dados, e iii) Redu¸c˜ao e Agrega¸c˜ao dos Dados. A base de dados utilizada no presente estudo ´e composta por 1385 instˆancias e 94 atributos (Ver ApˆendiceA).

i) Limpeza dos Dados

a) Alguns dom´ınios fora do padr˜ao dos valores dos atributos, foram substitu´ıdas por ’Nulo’, a fim de n˜ao interferir nos resultados do algoritmo;

b) Os atributos relacionados `as localiza¸c˜oes das les˜oes estudadas, bem como os tributos ’Tipo de Pr´otese Superior’ e ’Tipo de Pr´otese Inferior’, foram exclu´ıdos da base de dados devido a falta de conhecimento sobre o significado dos valores num´ericos.

ii) Transforma¸c˜ao dos Dados

a) A maior parte da base de dados original ´e constitu´ıda de dados num´ericos. A fim de se obter um me-lhor desempenho dos algoritmos que implementam a ´arvore de decis˜ao e a an´alise associativa, bem como uma melhor visualiza¸c˜ao dos resultados dos mesmos, uma c´opia da base de dados foi criada, contendo os dados transformados de num´ericos para nominais ou categ´oricos. Como por exemplo, temos o atributo ’ ´E Fumante’ que possu´ıa valores 1 ou 0, e ap´os a transforma¸c˜ao passou a ser ’Sim’ ou ’N˜ao’, respectivamente. b) Todos os valores tidos como ’99’ ou ’999’ referentes ao termo usado no question´ario da pesquisa deFERREIRA(2016) ’N˜ao se aplica’, foram substitu´ıdos pelo valor ’Nenhum’.

c) Alguns atributos foram transformados em dados categ´oricos segundo a f´ormula definida pelo ma-tem´atico e estat´ıstico Herbert Arthur Sturges (1882 - 1958), apresentada na equa¸c˜ao (3.1):

(33)

3.1. Pr´e-Processamento dos Dados 20

onde k ´e o n´umero de intervalos para cada conjunto com n valores, sendo n, neste caso, igual a 1385. O tamanho x de cada intervalo pode ser obtido pela divis˜ao do valor da diferen¸ca entre o maior e o menor valor do atributo r pelo n´umero de intervalos k, conforme a equa¸c˜ao (3.2):

x = r

k (3.2)

Sendo assim, tem-se a seguinte defini¸c˜ao de categorias para os atributos ’Idade’, ’Tempo de trabalho’, ’Quantidade de Fumo Por Dia’ (Referente ao atributo ’ ´E Fumante’ ) e ’Quantidade de Fumo Por Dia 2’ (Referente ao atributo ’ ´E Ex-Fumante’ ), conforme mostram as Tabelas3.1,3.2,3.3e3.4:

Tabela 3.1: Categorias Atributo Idade.

Categoria Valor Classe A1 14 a 21 Classe B1 22 a 29 Classe C1 30 a 37 Classe D1 38 a 45 Classe E1 46 a 53 Classe F1 54 a 61 Classe G1 62 a 69 Classe H1 70 a 77 Classe I1 78 a 85 Classe J1 86 a 93

Tabela 3.2: Categorias Atributo Tempo de Trabalho.

Categoria Valor Classe A2 1 a 8 Classe B2 9 a 16 Classe C2 17 a 24 Classe D2 25 a 32 Classe E2 33 a 40 Classe F2 41 a 48 Classe G2 49 a 56 Classe H2 57 a 64 Classe I2 65 a 72 Classe J2 73 a 80

Tabela 3.3: Categorias Atributo Quantidade de Fumo Por Dia.

Categoria Valor Classe A3 0 a 3 Classe B3 4 a 7 Classe C3 8 a 11 Classe D3 12 a 15 Classe E3 16 a 19 Classe F3 20 a 23 Classe G3 24 a 27 Classe H3 28 a 31 Classe I3 32 a 35 Classe J3 36 a 39 Classe K3 40 a 43

(34)

3.1. Pr´e-Processamento dos Dados 21

Tabela 3.4: Categorias Atributo Quantidade de Fumo Por Dia 2.

Categoria Valor Classe A6 0 a 7 Classe B6 8 a 15 Classe C6 16 a 23 Classe D6 24 a 31 Classe E6 32 a 39 Classe F6 40 a 47 Classe G6 48 a 55 Classe H6 56 a 63 Classe I6 64 a 71 Classe J6 72 a 79 Classe K6 80 a 87

d) O atributo ’H´a Quanto Tempo Deixou de Fumar’ necessitou passar primeiramente por uma mu-dan¸ca de escala. Os valores do atributo estavam em anos, por´em como havia n´umeros decimais todos os valores foram transformados em inteiros, ou seja, os valores passaram a ser representados em forma de meses. Ver Tabela3.5.

Tabela 3.5: Categorias Atributo H´a Quanto Tempo Deixou de Fumar.

Categoria Meses Anos/Meses Classe A4 0 a 64 0 a 5,3 Classe B4 65 a 129 5,4 a 10,7 Classe C4 130 a 194 10,8 a 16,1 Classe D4 195 a 259 16,2 a 21,5 Classe E4 260 a 324 21,6 a 27 Classe F4 325 a 389 27,1 a 32,4 Classe G4 390 a 454 32,5 a 37,8 Classe H4 455 a 519 37,9 a 43,2 Classe I4 520 a 584 43,3 a 48,6 Classe J4 585 a 649 48,7 a 54 Classe K4 650 a 714 54,1 a 59,5 Classe L4 715 a 779 59,6 a 65

e) O atributo ’Por Quanto Tempo Fumou’ passou pela mesma transforma¸c˜ao do supracitada. Ver Tabela3.6.

Tabela 3.6: Categorias Atributo Por Quanto Tempo Fumou.

Categoria Meses Anos/Meses Classe A5 0 a 76 0 a 6,3 Classe B5 77 a 153 6,4 a 12,7 Classe C5 154 a 230 12,8 a 19,2 Classe D5 231 a 307 19,3 a 25,6 Classe E5 308 a 384 25,7 a 32 Classe F5 385 a 461 32,1 a 38,4 Classe G5 462 a 538 38,5 a 44,8 Classe H5 539 a 615 44,9 a 51,2 Classe I5 616 a 692 51,3 a 57,7 Classe J5 693 a 769 57,8 a 64,1 Classe K5 770 a 846 64,2 a 70,5 Classe L5 847 a 923 70,6 a 76,9 Classe M5 924 a 998 77 a 83,3

(35)

3.2. Ferramentas Utilizadas 22

f) O atributo ’Escolaridade’ foi nomeado em trˆes categorias, tamb´em seguindo a classifica¸c˜ao usada porFERREIRA(2016), como mostra a Tabela3.7abaixo:

Tabela 3.7: Categorias Atributo Escolaridade.

Categoria S´erie/Ano N˜ao Estudou 0

Educa¸c˜ao Elementar 1aa 9a

N´ıvel M´edio/Superior 1oM´edio ao Superior

g) O atributo ’Altitude’ seguiu a categoriza¸c˜ao: ”At´e 300m”e ”Acima de 300m”.

h) O atributo ’Renda Familiar’ foi categorizado de acordo com a classifica¸c˜ao de classes sociais pelo crit´erio de faixas de salario m´ınimo, segundo o IBGE, utilizando a base salarial de 2013, devido ao per´ıodo inicial em que os dados foram coletados. Ver Tabela3.8.

Tabela 3.8: Categorias Atributo Renda Familiar.

Categoria Sal´ario M´ınimo Renda Familiar Classe A acima de 20 acima de 13.560 Classe B 10 `a 20 6.781 a 13.560 Classe C 4 `a 10 2.713 a 6.780 Classe D 2 `a 4 1.357 a 2.712 Classe E at´e 2 at´e 1.356

i) O atributo ’Tempo de Exposi¸c˜ao no Sol’ foi convertido para a seguinte nomenclatura, apresentada na Tabela3.9:

Tabela 3.9: Categorias Atributo Tempo de Exposi¸c˜ao no Sol.

Categoria Tempo de Exposi¸c˜ao Classe A7 At´e 30 anos

Classe B7 De 30 a 45 anos Classe C7 Acima de 45 anos

iii) Redu¸c˜ao e Agrega¸c˜ao dos Dados

a) Alguns dos tributos possu´ıam propriedades fracamente relevantes para as aplica¸c˜oes, como por exemplo, o atributo ’Idade em Tercis’ ; dessa forma, dos 94 atributos originais, o conjunto de dados que cont´em os dados nominais foi reduzido para 34 atributos.

b) Alguns atributos binarizados foram agrupados, a exemplo de ’Chap´eu’, ’Roupa Longa’ ’Bon´e’ e ’Protetor Solar’, que tornaram-se o atributo ’Usa Prote¸c˜ao’ que, anteriormente, possu´ıa valor 0 ou 1.

3.2

Ferramentas Utilizadas

Para o pr´e-processamento dos dados, foi utilizada a ferramenta NetBeans IDE vers˜ao 8.1 e algoritmo de autoria pr´opria, para realiza¸c˜ao de alguns c´alculos e categoriza¸c˜ao, que n˜ao foram poss´ıveis realizar atrav´es do Weka (vers˜ao 3.8). Este software foi utilizado essencialmente na etapa de minera¸c˜ao dos dados. O Weka ´e uma su´ıte open source que fornece implementa¸c˜oes de algoritmos de minera¸c˜ao de dados, bem como recursos para a execu¸c˜ao de tarefas relacionadas ao pr´e-processamento e p´os-processamento de dados. Esta ferramenta trabalha, preferencialmente, como base de dados em formato de texto, estruturadas no formato .ARFF (Attribute-Relation File Format), formato utilizado nesta pesquisa, ou no formato .CSV (Comma-separated values)FRANK et al.(2016).

(36)

3.3. Algoritmos Utilizados 23

O arquivo .ARFF corresponde a um arquivo texto contendo um conjunto de dados, precedido de um cabe¸calho que especifica os campos que comp˜oe este conjunto. A estrutura deste arquivo pode ser observada atrav´es da Figura3.1.

Figura 3.1: Formato Arquivo .arff.

Para a cria¸c˜ao do mapa apresentado na se¸c˜ao4.1.3foi utilizado o QGIS (Quantum Gis) vers˜ao 2.18, que ´e um SIG (Sistema de Informa¸c˜ao Geogr´afica) open source que possibilita visualizar, gerir, editar, analisar dados, e criar mapas para impress˜aoOSGeo(2017).

3.3

Algoritmos Utilizados

Inicialmente foi aplicado o algoritmo o C4.5, para que se pudesse entender melhor a rela¸c˜ao existente entre os atributos. O C4.5 ´e uma implementa¸c˜ao do m´etodo de ´arvore de decis˜ao (descrito na se¸c˜ao2.3.3) e uma extens˜ao do algoritmo ID3. A principal diferen¸ca entres estes dois algoritmos consiste no fato de que o C4.5 implementa o mecanismo de poda da ´arvore visando construir modelos menores. A poda, na grande maioria dos casos, aumenta a taxa de erro do modelo, entretanto h´a um ganho em processamento, pois evita que se gaste tempo construindo estruturas que s˜ao pouco ou n˜ao utilizadas no modelo final. Em todos os experimentos deste algoritmo, foram utilizados cerca de 20% de dados para treino e o restante para teste do modelo. Por ´ultimo, foram utilizadas duas abordagens do Apriori (citado na se¸c˜ao 2.4) visando identificar as poss´ıveis associa¸c˜oes.

3.4

os-Processamento dos Dados

A apresenta¸c˜ao dos dados foi feita atrav´es de gr´aficos criados no Visme, uma ferramenta de design online, al´em de outros gerados pelo Weka. Tem-se ainda demonstra¸c˜oes por meio de tabelas e de um mapa tem´atico.

Referências

Outline

Documentos relacionados

O objetivo desta pesquisa foi investigar o papel da Educação Física na Educação Infantil, considerando-se os objetivos gerais, objetivos específicos, os conteúdos da

98: “En- quanto não permitir o fundo de custeio dos serviços de inspeção, a designação de inspetores especializados para orientação do en- sino da Musica e dos exercícios

sem discriminação”; “...o ensino inclusivo será uma oportunidade das pessoas portadoras de necessidades especiais de mostrar suas potencialidades”; “espero que esta

Aprendizado geral dos jogos esportivos de forma implícita - lúdica Escola da Bola - O ABC da Aprendizagem do Jogo Implícito / Lúdico. O Problema / As causas A solução:

Savants são pessoas que demonstram capacidades superiores em uma inteligência, enquanto suas outras inteligências funcionam num baixo ritmo.. Ex.: Rain Man (baseado numa

Mediação significa que o t rabalho do professor é viabilizar a relação at iva do aluno com a mat éria de est udo, at ravés de obj et ivos, cont eúdos, mét odos e formas

Anche dopo il rilascio bisogna restare nella posizione precedentemente assunta fino al momento dell'impatto della freccia sul bersaglio ed evitare bruschi cali di tensione

1 - Entrada da mão muito próxima da cabeça. 2 - Entrada da mão fora da largura do ombro.. 3 -Tração com o braço fora do alinhamento do corpo.. 4 - Batida com elevação excessiva