APLICAC ¸ ˜ AO DA REGRESS ˜ AO LOG´ISTICA E DA REDE NEURAL PROBABIL´ISTICA NA CLASSIFICAC ¸ ˜ AO DE RESISTˆ ENCIA AOS

(1)

APLICAC ¸ ˜ AO DA REGRESS ˜ AO LOG´ISTICA E DA REDE NEURAL PROBABIL´ISTICA NA CLASSIFICAC ¸ ˜ AO DE RESISTˆ ENCIA AOS

ANTIRRETROVIRAIS LOPINAVIR E NELFINAVIR

Let´ıcia Martins Raposo

Disserta¸c˜ ao de Mestrado apresentada ao Programa de P´ os-gradua¸c˜ ao em Engenharia Biom´ edica, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necess´ arios ` a obten¸c˜ ao do t´ıtulo de Mestre em Engenharia Biom´ edica.

Orientador: Flavio Fonseca Nobre

Rio de Janeiro

Fevereiro de 2014

(2)

APLICAC ¸ ˜ AO DA REGRESS ˜ AO LOG´ISTICA E DA REDE NEURAL PROBABIL´ISTICA NA CLASSIFICAC ¸ ˜ AO DE RESISTˆ ENCIA AOS

ANTIRRETROVIRAIS LOPINAVIR E NELFINAVIR Let´ıcia Martins Raposo

DISSERTAC ¸ ˜ AO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE P ´ OS-GRADUAC ¸ ˜ AO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESS ´ ARIOS PARA A OBTENC ¸ ˜ AO DO GRAU DE MESTRE EM CIˆ ENCIAS EM ENGENHARIA BIOM´ EDICA.

Examinada por:

Prof. Flavio Fonseca Nobre, Ph.D.

Prof. Marcio Nogueira de Souza, D.Sc.

Prof. Oswaldo Gon¸calves Cruz, D.Sc.

RIO DE JANEIRO, RJ – BRASIL

FEVEREIRO DE 2014

(3)

Raposo, Let´ıcia Martins

Aplica¸c˜ ao da regress˜ ao log´ıstica e da rede neural probabil´ıstica na classifica¸c˜ ao de resistˆ encia aos antirretrovirais Lopinavir e Nelfinavir/Let´ıcia Martins Raposo. – Rio de Janeiro: UFRJ/COPPE, 2014.

XV, 99 p.: il.; 29, 7cm.

Orientador: Flavio Fonseca Nobre

Disserta¸c˜ ao (mestrado) – UFRJ/COPPE/Programa de Engenharia Biom´ edica, 2014.

Referˆ encias Bibliogr´ aficas: p. 85 – 90.

1. Regress˜ ao log´ıstica. 2. Redes neurais

probabil´ısticas. 3. Classificadores. I. Nobre, Flavio

Fonseca. II. Universidade Federal do Rio de Janeiro,

COPPE, Programa de Engenharia Biom´ edica. III. T´ıtulo.

(4)

Dedico este trabalho aos meus

pais com todo o meu amor e

carinho.

(5)

Agradecimentos

Primeiramente, agrade¸co a Deus por tudo que tens proporcionado em minha vida, me dando for¸cas para n˜ ao desistir e prote¸c˜ ao para me amparar.

Aos meus pais, Elizabeth e Gustavo, por todo amor, carinho e ora¸c˜ oes dedicados a mim.

Ao meu orientador Prof. Flavio Fonseca Nobre pelos seus ensinamentos, ori- enta¸c˜ oes, dedica¸c˜ ao e, principalmente, pela paciˆ encia. Obrigada por estar sempre presente, me dando todo o suporte necess´ ario para que este trabalho fosse conclu´ıdo.

Ao meu tio Werley que n˜ ao mediu esfor¸cos para me auxiliar na finaliza¸c˜ ao deste trabalho. Obrigada por estar presente na concretiza¸c˜ ao de mais uma etapa em minha vida.

Aos meus amigos de mestrado pelo companheirismo e amizade. Agrade¸co es- pecialmente ` as minhas amigas Aline, Beatriz, Carolina, D´ ebora, Gabriela, Liliana, Nat´ alia, Raquel e Viviane por todas as risadas e choros compartilhados. Obrigada pelas ´ otimas hist´ orias vividas e por ajudar a tornar a vida de mestranda muito mais divertida. Essas lembran¸cas ser˜ ao eternamente guardadas em meu cora¸c˜ ao.

Aos meus familiares por sempre torcerem por mim e me apoiarem nas minhas decis˜ oes.

Aos meus amigos de Al´ em Para´ıba pelo carinho de sempre e presen¸ca constante em minha vida.

Aos amigos do LESS/PEB que tive o prazer de conviver nesse per´ıodo, em um

´

otimo ambiente de crescimento intelectual e pessoal.

Aos professores do PEB que sempre contribu´ıram na minha forma¸c˜ ao e me apoi-

aram neste per´ıodo de grande dedica¸c˜ ao.

(6)

Resumo da Disserta¸c˜ ao apresentada ` a COPPE/UFRJ como parte dos requisitos necess´ arios para a obten¸c˜ ao do grau de Mestre em Ciˆ encias (M.Sc.)

APLICAC ¸ ˜ AO DA REGRESS ˜ AO LOG´ISTICA E DA REDE NEURAL PROBABIL´ISTICA NA CLASSIFICAC ¸ ˜ AO DE RESISTˆ ENCIA AOS

ANTIRRETROVIRAIS LOPINAVIR E NELFINAVIR

Let´ıcia Martins Raposo Fevereiro/2014

Orientador: Flavio Fonseca Nobre Programa: Engenharia Biom´ edica

O HIV ´ e o agente etiol´ ogico respons´ avel por uma das doen¸cas de maior impacto

no mundo, a Aids. Com o advento da terapia antirretroviral, uma grande redu¸c˜ ao

dos ´ındices de morbidade e mortalidade foi registrada. Entretanto, muitos indiv´ıduos

n˜ ao vˆ em apresentando um benef´ıcio dur´ avel, relacionado ao problema de resistˆ encia

a essas terapias. Detectar a presen¸ca de resistˆ encia a determinada droga antirretro-

viral ´ e uma importante ferramenta de monitora¸c˜ ao na pr´ atica cl´ınica. Dessa forma,

observa-se que o desenvolvimento de modelos capazes de predizer a resistˆ encia aos

antirretrovirais torna-se ´ util na tomada de decis˜ ao do melhor regime terapˆ eutico

para o indiv´ıduo HIV positivo. O objetivo deste trabalho foi desenvolver modelos

de predi¸c˜ ao de resistˆ encia aos inibidores da HIV-protease Lopinavir e Nelfinavir,

fazendo uso de duas t´ ecnicas de modelagem: a regress˜ ao log´ıstica e a rede neural

probabil´ıstica. Os modelos log´ısticos para o Lopinavir apresentaram AUCs variando

de 0,78 a 0,82, acur´ acias de 0,66 a 0,74, sensibilidades de 0,64 a 0,91, especificidades

de 0,62 a 0,76 e ´ındices Kappa variando de 0,23 a 0,29. Nas redes neurais, esses

valores foram: AUCs variando de 0,60 a 0,76, acur´ acias de 0,64 a 0,79, sensibilida-

des de 0,56 a 0,73, especificidades de 0,64 a 0,82 e ´ındices Kappa variando de 0,16 a

0,33. Para o Nelfinavir, os modelos log´ısticos apresentaram AUCs variando de 0,70

a 0,82, acur´ acias de 0,71 a 0,82, sensibilidades de 0,53 a 0,73, especificidades de 0,75

a 0,89 e ´ındices Kappa variando de 0,31 a 0,53. Nas redes neurais, esses valores

foram: AUCs variando de 0,61 a 0,77, acur´ acias de 0,60 a 0,82, sensibilidades de

0,48 a 0,75, especificidades de 0,57 a 0,93 e ´ındices Kappa variando de 0,18 a 0,45.

(7)

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.)

APPLICATION OF LOGISTIC REGRESSION AND PROBABILISTIC NEURAL NETWORK IN THE CLASSIFICATION OF RESISTANCE TO

ANTIRETROVIRAL DRUGS LOPINAVIR AND NELFINAVIR

Let´ıcia Martins Raposo February/2014 Advisor: Flavio Fonseca Nobre

Department: Biomedical Engineering

HIV is the etiological agent responsible for one of the most impact disease on the world, the Aids. With the advent of antiretroviral therapy, a major reduc- tion in morbidity and mortality was recorded. However, many individuals have not presented a lasting benefit due to the problem of resistance to these therapies. De- tecting the presence of particular antiretroviral drug resistance is an important tool for monitoring in clinical practice. Thus, it is observed that the development of models capable of predicting resistance to antiretroviral drugs is useful in making decision about the best treatment regimen for HIV-positive individual. The aim of this study was to develop predictive models of resistance to HIV-protease inhibitors Lopinavir and Nelfinavir applying two modeling techniques: logistic regression and probabilistic neural network. Logistic models for Lopinavir presented the follow- ing average values: AUCs ranging from 0.78 to 0.82, accuracies from 0.66 to 0.74 , sensitivities from 0.64 to 0.91, specificities from 0.62 to 0.76 and Kappa indices rang- ing from 0.23 to 0.29. At probabilistic neural networks, these values were: AUCs ranging from 0.60 to 0.76, accuracies from 0.64 to 0.79, sensitivities from 0.56 to 0.73, specificities from 0.64 to 0.82 and Kappa indices ranging from 0.16 to 0.33.

For Nelfinavir, the mean values for logistic models were AUCs ranging from 0.70 to

0.82 , accuracies from 0.71 to 0.82, sensitivities from 0.53 to 0.73, specificities from

0.75 to 0.89 and Kappa indices ranging from 0.31 to 0.53. At probabilistic neural

networks, these values were: AUCs ranging from 0.61 to 0.77, accuracies from 0.60

to 0.82, sensitivities from 0.48 to 0.75, specificities from 0.57 to 0.93 and Kappa

indices ranging from 0.18 to 0.45.

(8)

Sum´ ario

Lista de Figuras xi

Lista de Tabelas xiv

1 Introdu¸ c˜ ao 1

1.1 Objetivos . . . . 2

1.1.1 Objetivo Geral . . . . 2

1.1.2 Objetivos Espec´ıficos . . . . 3

2 Fundamentos Te´ oricos 4 2.1 HIV . . . . 4

2.1.1 Classifica¸c˜ ao . . . . 4

2.1.2 Estrutura . . . . 4

2.1.3 Patogenia e Ciclo de Replica¸c˜ ao . . . . 5

2.2 Terapia Antirretroviral . . . . 7

2.2.1 Drogas Antirretrovirais . . . . 7

2.3 Resistˆ encia aos Antirretrovirais . . . . 8

2.3.1 Tipos de Resistˆ encia . . . . 9

2.3.2 Testes de Resistˆ encia . . . . 9

2.4 T´ ecnicas de Classifica¸c˜ ao . . . 10

2.4.1 Regress˜ ao Log´ıstica . . . 10

2.4.2 Redes Neurais . . . 11

2.5 M´ etodos de Sele¸c˜ ao de Vari´ aveis . . . 14

2.5.1 Stepwise . . . 14

2.5.2 Sequential Forward Selection . . . 15

2.6 M´ etodos de Reamostragem . . . 16

2.6.1 Bootstrap . . . 16

2.7 Avalia¸c˜ ao dos Classificadores . . . 16

2.7.1 Acur´ acia . . . 17

2.7.2 Sensibilidade . . . 17

2.7.3 Especificidade . . . 18

(9)

2.7.4 Curva ROC . . . 18

2.7.5 ´Indice Kappa . . . 19

2.7.6 Valida¸c˜ ao Cruzada . . . 19

2.7.6.1 M´ etodo Holdout . . . 20

2.7.6.2 M´ etodo K-fold . . . 20

2.7.6.3 M´ etodo Leave-one-out . . . 21

3 Revis˜ ao de Literatura 22 4 Materiais e M´ etodos 28 4.1 Conjunto de Dados . . . 28

4.2 Pr´ e-processamento dos Dados . . . 29

4.2.1 Normaliza¸c˜ ao . . . 29

4.2.2 Separa¸c˜ ao em Conjunto de Treino e Teste . . . 29

4.2.3 Codifica¸c˜ ao dos Amino´ acidos . . . 30

4.3 Sele¸c˜ ao das Vari´ aveis . . . 31

4.3.1 Regress˜ ao Log´ıstica . . . 31

4.3.2 Rede Neural Probabil´ıstica . . . 32

4.4 Ponto de Corte . . . 33

4.5 Algoritmos Stanford HIVdb e Rega . . . 34

4.6 Softwares . . . 34

5 Resultados 35 5.1 Lopinavir . . . 35

5.1.1 Modelos de Regress˜ ao Log´ıstica . . . 35

5.1.1.1 Lista da IAS e Codifica¸c˜ ao Bin´ aria . . . 35

5.1.1.2 Lista IAS e Codifica¸c˜ ao de Eisenberg . . . 38

5.1.1.3 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Bin´ aria . . . 40

5.1.1.4 Todas as Posi¸c˜ oes e Codifica¸c˜ ao de Eisenberg . . . . 43

5.1.2 Modelos de Redes Neurais Probabil´ısticas . . . 46

5.1.2.1 Lista da IAS e Codifica¸c˜ ao Bin´ aria . . . 46

5.1.2.2 Lista da IAS e Codifica¸c˜ ao de Eisenberg . . . 48

5.1.2.3 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Bin´ aria . . . 50

5.1.2.4 Todas as Posi¸c˜ oes e Codifica¸c˜ ao de Eisenberg . . . . 52

5.2 Nelfinavir . . . 54

5.2.1 Modelos de Regress˜ ao Log´ıstica . . . 54

5.2.1.1 Lista da IAS e Codifica¸c˜ ao Bin´ aria . . . 54

5.2.1.2 Lista da IAS e Codifica¸c˜ ao de Eisenberg . . . 57

5.2.1.3 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Bin´ aria . . . 59

(10)

5.2.1.4 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Segundo a Escala de

Eisenberg . . . 61

5.2.2 Modelos de Redes Neurais Probabil´ısticas . . . 63

5.2.2.1 Lista da IAS e Codifica¸c˜ ao Bin´ aria . . . 63

5.2.2.2 Lista da IAS e Codifica¸c˜ ao de Eisenberg . . . 65

5.2.2.3 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Bin´ aria . . . 67

5.2.2.4 Todas as Posi¸c˜ oes e Codifica¸c˜ ao Segundo a Escala de Eisenberg . . . 69

5.2.3 Tabelas - Resumo . . . 71

5.2.4 Algoritmos de Interpreta¸c˜ ao Stanford HIVdb e Rega . . . 74

6 Discuss˜ ao 77

7 Conclus˜ ao 83

Referˆ encias Bibliogr´ aficas 85

(11)

Lista de Figuras

2.1 Estrutura do HIV. . . . . 5 2.2 Esquema resumido do ciclo de replica¸c˜ ao do HIV. . . . 6 2.3 Arquitetura b´ asica de uma rede neural probabil´ıstica. . . 13 2.4 Exemplo de sele¸c˜ ao de vari´ aveis pelo m´ etodo Sequential Forward Se-

lection. . . . 16 2.5 Exemplo de curva ROC. . . 19 2.6 Representa¸c˜ ao da divis˜ ao dos dados na metodologia holdout. . . 20 2.7 Representa¸c˜ ao da divis˜ ao dos dados na metodologia k-fold (k = 10). . 21 2.8 Divis˜ ao dos dados segundo o m´ etodo de valida¸c˜ ao cruzada Leave-one-

out. . . 21

4.1 Divis˜ ao dos dados em conjunto de teste e conjunto de treino. . . . . 29 4.2 Esquema resumido para a sele¸c˜ ao de vari´ aveis das redes neurais pro-

babil´ısticas. . . 33 5.1 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Lopinavir uti-

lizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS”. . . 36 5.2 Curvas ROC dos modelos log´ısticos para o Lopinavir utilizando a

codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 38 5.3 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Lopinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”. . . . 38 5.4 Curvas ROC dos modelos log´ısticos para o Lopinavir utilizando a

codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 40 5.5 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Lopinavir uti-

lizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes”. . . 41 5.6 Curvas ROC dos modelos log´ısticos para o Lopinavir utilizando a

codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” para os dois

crit´ erios de sele¸c˜ ao de vari´ aveis. . . 43

(12)

5.7 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Lopinavir uti- lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”. . 44 5.8 Curvas ROC dos modelos log´ısticos para o Lopinavir utilizando a

codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 46 5.9 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Lo-

pinavir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS”. . 47 5.10 Curvas ROC das redes neurais probabil´ısticas para o Lopinavir utili-

zando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . 48 5.11 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Lo-

pinavir utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”. . . 49 5.12 Curvas ROC das redes neurais probabil´ısticas para o Lopinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 50 5.13 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Lopi-

navir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes”. 51 5.14 Curvas ROC das redes neurais probabil´ısticas para o Lopinavir utili-

zando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 52 5.15 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Lo-

pinavir utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”. . . 53 5.16 Curvas ROC das redes neurais probabil´ısticas para o Lopinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”

para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 54 5.17 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Nelfinavir uti-

lizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS”. . . 55 5.18 Curvas ROC dos modelos log´ısticos para o Nelfinavir utilizando a

codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 56 5.19 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Nelfinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”. . . . 57 5.20 Curvas ROC dos modelos log´ısticos para o Nelfinavir utilizando a

codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . 59 5.21 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Nelfinavir uti-

lizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes”. . . 60

(13)

5.22 Curvas ROC dos modelos log´ısticos para o Nelfinavir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . 61 5.23 Frequˆ encia das vari´ aveis nos modelos log´ısticos para o Nelfinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”. . 62 5.24 Curvas ROC dos modelos log´ısticos para o Nelfinavir utilizando a

codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 63 5.25 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Nel-

finavir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS”. . 64 5.26 Curvas ROC das redes neurais probabil´ısticas para o Nelfinavir utili-

zando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . 65 5.27 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Nel-

finavir utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”. . . 66 5.28 Curvas ROC das redes neurais probabil´ısticas para o Nelfinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . 67 5.29 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Nel-

finavir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes”. 68 5.30 Curvas ROC das redes neurais probabil´ısticas para o Nelfinavir utili-

zando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 69 5.31 Frequˆ encia das vari´ aveis nas redes neurais probabil´ısticas para o Nel-

finavir utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”. . . 70 5.32 Curvas ROC das redes neurais probabil´ısticas para o Nelfinavir uti-

lizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”

para os dois crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 71

(14)

Lista de Tabelas

2.1 Matriz de confus˜ ao para duas classes. . . 17 4.1 Resumo das caracter´ısticas cl´ınicas dos pacientes (n=625). . . 28 4.2 Escala de hidrofobicidade de Eisenberg. . . 30 5.1 Desempenho m´ edio dos modelos log´ısticos para o Lopinavir utilizando

a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 37 5.2 Desempenho m´ edio dos modelos log´ısticos para o Lopinavir utilizando

a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 39 5.3 Desempenho m´ edio dos modelos log´ısticos para o Lopinavir utilizando

a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 42 5.4 Desempenho m´ edio dos modelos log´ısticos para o Lopinavir utilizando

a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 45 5.5 Desempenho m´ edio das redes neurais probabil´ısticas para o Lopinavir

utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 47 5.6 Desempenho m´ edio das redes neurais probabil´ısticas para o Lopinavir

utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”

segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 49 5.7 Desempenho m´ edio dos modelos de PNN para o Lopinavir utilizando

a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 51 5.8 Desempenho m´ edio das redes neurais probabil´ısticas para o Lopinavir

utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”

segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 53

(15)

5.9 Desempenho m´ edio dos modelos log´ısticos para o Nelfinavir utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 56 5.10 Desempenho m´ edio dos modelos log´ısticos para o Nelfinavir utilizando

a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 58 5.11 Desempenho m´ edio dos modelos log´ısticos para o Nelfinavir utilizando

a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 61 5.12 Desempenho m´ edio dos modelos log´ısticos para o Nelfinavir utilizando

a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 63 5.13 Desempenho m´ edio das redes neurais probabil´ısticas para o Nelfinavir

utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Lista da IAS” segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . 64 5.14 Desempenho m´ edio das redes neurais probabil´ısticas para o Nelfinavir

utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Lista da IAS”

segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 66 5.15 Desempenho m´ edio das redes neurais probabil´ısticas para o Nelfinavir

utilizando a codifica¸c˜ ao bin´ aria e o conjunto “Todas as Posi¸c˜ oes”

segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 68 5.16 Desempenho m´ edio das redes neurais probabil´ısticas para o Nelfinavir

utilizando a codifica¸c˜ ao de Eisenberg e o conjunto “Todas as Posi¸c˜ oes”

segundo os pontos de corte e os crit´ erios de sele¸c˜ ao de vari´ aveis. . . . 70 5.17 Vari´ aveis selecionadas pelos modelos segundo os crit´ erios de sele¸c˜ ao,

as codifica¸c˜ oes dos amino´ acidos e as t´ ecnicas de modelagem para o Lopinavir. . . 72 5.18 Vari´ aveis selecionadas pelos modelos segundo os crit´ erios de sele¸c˜ ao,

as codifica¸c˜ oes dos amino´ acidos e as t´ ecnicas de modelagem para o Nelfinavir. . . 73 5.19 Compara¸c˜ ao entre os desempenhos m´ edios dos modelos para o Lopi-

navir. . . 74 5.20 Compara¸c˜ ao entre os desempenhos m´ edios dos modelos para o Nelfi-

navir. . . 74

5.21 Desempenho dos algoritmos Stanford HIVdb e Rega para o Lopinavir. 75

5.22 Desempenho dos algoritmos Stanford HIVdb e Rega para o Nelfinavir. 76

(16)

Cap´ıtulo 1 Introdu¸ c˜ ao

O v´ırus da imunodeficiˆ encia humana (Human Immunodeficiency Virus, HIV) ´ e um retrov´ırus pertencente ` a fam´ılia Retroviridae e respons´ avel pela s´ındrome da imuno- deficiˆ encia adquirida (Acquired Immunodeficiency Syndrome, Aids), documentada pela primeira vez em 1981, quando um n´ umero crescente de jovens homossexuais foi alvo de raras infec¸c˜ oes oportunistas [1].

Existem dois tipos de HIV respons´ aveis pela Aids, o HIV-1 e o HIV-2. A maior parte das infec¸c˜ oes ´ e decorrente do HIV-1, classificado em diferentes subtipos de acordo com caracter´ısticas relacionadas a varia¸c˜ oes gen´ eticas [2]. A maioria das pessoas com HIV est˜ ao infectadas pelos subtipos n˜ ao B do HIV-1. Entretanto, no Brasil, o subtipo B ´ e o mais predominante, seguido pelos subtipos F, C e em menor propor¸c˜ ao pelo D [3].

Segundo dados da UNAIDS [4], estima-se que em 2011 existiam cerca de 34 milh˜ oes de pessoas infectadas com o HIV, representando um aumento de 17% em rela¸c˜ ao ao ano de 2001, e que 2,7 milh˜ oes foram decorrentes de novas infec¸c˜ oes ocor- ridas em 2010. Cerca de 1,8 milh˜ oes de pessoas infectadas por este v´ırus morreram em 2010, indicando uma redu¸c˜ ao do n´ umero de mortes quando comparado com meados do ano 2000 (2,2 milh˜ oes de mortes) [4].

No Brasil, os primeiros casos de Aids foram identificados no in´ıcio da d´ ecada de 80. Desta ´ epoca at´ e junho de 2012, foram notificados 656.701 casos da doen¸ca no pa´ıs. Em 2011, foram notificados 38.776 casos e a taxa de incidˆ encia de Aids foi de 20,2 casos por 100 mil habitantes [5].

Diante da magnitude da infec¸c˜ ao causada pelo HIV, a terapia antirretroviral tem

sido oferecida de maneira gratuita e universal no Brasil desde 1996 [6]. Esse trata-

mento vem proporcionando uma redu¸c˜ ao dos ´ındices de morbidade e mortalidade,

assim como um aumento da qualidade de vida dos pacientes. Entretanto, para

muitas pessoas, esta terapia n˜ ao vem apresentando um benef´ıcio cl´ınico dur´ avel,

podendo ser resultado da baixa aderˆ encia ao tratamento e da resistˆ encia a essas te-

rapias [7]. A resistˆ encia ` as drogas antirretrovirais ´ e um dos maiores obst´ aculos para

(17)

a obten¸c˜ ao de um tratamento duradouro, levando a uma multiplica¸c˜ ao de novas linhagens do HIV, o que gera um problema global para alcan¸car o sucesso a longo prazo do tratamento da Aids.

Detectar a presen¸ca de resistˆ encia ` a determinada droga ´ e um importante desafio na monitora¸c˜ ao na pr´ atica cl´ınica. Ao se ter acesso ao resultado de um teste de resistˆ encia, o cl´ınico pode indicar o melhor tipo de terapia a ser introduzida nos pa- cientes que ainda n˜ ao fizeram uso de drogas, assim como alterar de forma adequada a terapia para aqueles que j´ a apresentaram alguma falha no tratamento.

Diante deste cen´ ario, observa-se que o desenvolvimento de modelos capazes de predizer a resistˆ encia ` as drogas antirretrovirais torna-se ´ util na escolha da melhor pr´ atica terapˆ eutica para o indiv´ıduo HIV positivo (HIV+). V´ arios estudos vˆ em sendo desenvolvidos com o intuito de determinar um bom modelo de predi¸c˜ ao do fen´ otipo de resistˆ encia do HIV ` as drogas, fazendo uso de diferentes vari´ aveis pre- ditivas e t´ ecnicas de modelagem, como m´ etodos estat´ısticos, com destaque para as regress˜ oes linear e log´ıstica [8, 9], e algoritmos de aprendizagem de m´ aquina (Ma- chine Learning, ML) [10–13].

Dentre as t´ ecnicas de ML citadas na literatura, destaca-se a utiliza¸c˜ ao de re- des neurais artificiais (Artificial Neural Networks , ANNs) [10, 13], a utiliza¸c˜ ao de m´ aquinas de vetor de suporte (Suport Vector Maquine, SVMs) [10], aprendizagens n˜ ao supervisionadas, aplica¸c˜ ao de algoritmos com regras (Stanford HIVdb, VGI, ANRS, Rega ) e an´ alises lineares [13].

Embora o conhecimento sobre a resistˆ encia do HIV aos antirretrovirais tenha se expandido enormemente, padr˜ oes de resistˆ encia genot´ıpica est˜ ao em constante evolu¸c˜ ao devido a mudan¸cas nas estrat´ egias de tratamento. Dessa forma, algumas quest˜ oes precisam ser avaliadas, dentre elas a determina¸c˜ ao das vari´ aveis que melhor explicam esses padr˜ oes de resistˆ encia.

1.1 Objetivos

1.1.1 Objetivo Geral

O objetivo deste trabalho ´ e propor modelos baseados na regress˜ ao log´ıstica e na

rede neural probabil´ıstica para o desenvolvimento de classificadores de resistˆ encia aos

inibidores da HIV-protease. Atrav´ es das t´ ecnicas de bootstrap e valida¸c˜ ao cruzada, o

estudo objetiva selecionar as vari´ aveis mais explicativas para a tarefa de classifica¸c˜ ao,

otimizando o desempenho dos modelos.

(18)

1.1.2 Objetivos Espec´ıficos

Selecionar as vari´ aveis explicativas de cada classificador atrav´ es das t´ ecnicas Bootstrap, Stepwise, Valida¸c˜ ao Cruzada e Sequential Forward Selection;

Determinar o melhor m´ etodo de codifica¸c˜ ao dos amino´ acidos;

Definir o melhor ponto de corte para a classifica¸c˜ ao pelos modelos log´ısticos e pelas redes neurais probabil´ısticas;

Avaliar o desempenho dos classificadores em termos de acur´ acia, sensibilidade, especificidade, ´ area sob a curva ROC e ´ındice Kappa ;

Comparar o desempenho dos classificadores com os dos algoritmos Stanford

HIVdb e Rega.

(19)

Cap´ıtulo 2

Fundamentos Te´ oricos

2.1 HIV

2.1.1 Classifica¸ c˜ ao

O HIV pertence ` a fam´ılia Retroviridae, sendo um membro do gˆ enero Lentivirus.

Dois tipos de HIV foram identificados como agente etiol´ ogico da Aids: o HIV tipo 1 (HIV-1), identificado em 1983 [14, 15] e respons´ avel pela maior propor¸c˜ ao das infec¸c˜ oes, e o HIV tipo 2 (HIV-2), identificado inicialmente no oeste da ´ Africa [16].

An´ alises filogen´ eticas das numerosas linhagens do HIV-1 vˆ em mostrando que o v´ırus pode ser dividido em grupos, subtipos, subsubtipos e formas recombinantes circulantes (Circulating Recombinant Forms, CRFs). Existem trˆ es grupos do HIV-1:

M (Major/Main ), N (Non-M, Non-O/New ) e O (Outlier ) [2]. O grupo M ´ e o mais prevalente entre os trˆ es, sendo subdividido em nove subtipos (A-D, F-H, J e K) e em 15 CRFs [1].

Os subtipos predominantes mundialmente s˜ ao o A e o C, seguidos do subtipo B [17]. No sul e leste da ´ Africa, o subtipo C ´ e o predominante, enquanto que, no oeste e no centro-oeste da ´ Africa, a maioria pertence ` a forma recombinante CRF02- AG. Na Am´ erica do Norte, Europa e Austr´ alia, o subtipo B ´ e o mais comum. Na Am´ erica do Sul, este subtipo tamb´ em ´ e o predominante, por´ em os subtipos F e C tamb´ em s˜ ao encontrados [18]. No Brasil, a ocorrˆ encia dos subtipos segue a mesma caracter´ıstica, tendo adicionalmente uma pequena propor¸c˜ ao do subtipo D [3].

2.1.2 Estrutura

O HIV, por ser um retrov´ırus, possui a enzima transcriptase reversa (Reverse Trans-

criptase, RT) que, em seu ciclo de replica¸c˜ ao, catalisa a s´ıntese de ´ acido desoxirribo-

nucleico (Deoxiribonucleic Acid, DNA) a partir do ´ acido ribonucleico (Ribonucleic

Acid, RNA). O HIV ´ e composto de um material gen´ etico diploide, codificado por 15

(20)

prote´ınas virais, e constitu´ıdo por duas fitas simples de RNA [19]. A part´ıcula viral completa fora da c´ elula hospedeira ´ e constitu´ıda de um envelope externo, matriz, caps´ıdeo e nucleocaps´ıdio, como mostra a Figura 2.1.

Os principais genes encontrados no material gen´ etico do HIV s˜ ao: gag, pol e env, respons´ aveis por codificar as principais prote´ınas do v´ırus. O gene gag codifica prote´ınas estruturais (no caps´ıdeo, matriz e nucleocaps´ıdio), como a p24; o pol ´ e respons´ avel pela codifica¸c˜ ao das enzimas como a RT, protease e integrase e; o env codifica prote´ınas do envelope do HIV, como as gp120 e gp41 [20].

Figura 2.1: Estrutura do HIV.

Adaptado de US National Institute of Health (2005).

2.1.3 Patogenia e Ciclo de Replica¸ c˜ ao

O HIV ´ e transmitido atrav´ es do contato sexual, transfus˜ ao de sangue e da m˜ ae infectada para o bebˆ e por meio de trˆ es vias: durante o parto, perinatalmente ou atrav´ es do leite materno [21].

Ap´ os a transmiss˜ ao inicial do HIV, part´ıculas virais se acumulam em altas con- centra¸c˜ oes no sangue dentro de poucas semanas, seguido de uma queda desses n´ıveis devido ` a resposta imune do hospedeiro. Ap´ os esse epis´ odio, a infec¸c˜ ao permanece latente durante um longo per´ıodo, variando de alguns anos at´ e mesmo d´ ecadas [22].

O HIV apresenta tropismo pelas c´ elulas CD4+, como linf´ ocitos e macr´ ofagos [21].

Ele infecta certos tipos de linf´ ocitos denominados c´ elulas T-helper, importantes para

o sistema imune. Esse tropismo ´ e determinado principalmente pelos receptores de

(21)

superf´ıcie das c´ elulas, necess´ arios para o v´ırus atacar e entrar na c´ elula hospedeira.

Normalmente, as c´ elulas-alvo requerem o receptor CD4 e a quimiocina CCR5 [23]. A entrada nas c´ elulas ´ e mediada por intera¸c˜ oes sequenciais das prote´ınas virais gp120 e gp41 [24].

Com a redu¸c˜ ao do n´ umero desses linf´ ocitos, o sistema imune torna-se incapaz de defender o organismo contra infec¸c˜ oes. Durante este per´ıodo, o n´ umero de linf´ ocitos T CD4+ declina devido ` a morte causada pelo HIV. Este v´ırus, ao se replicar no interior dos linf´ ocitos T CD4+, acaba matando-os no processo [22].

No ciclo de replica¸c˜ ao do HIV, o v´ırus se funde ` a superf´ıcie da c´ elula hospedeira e o material gen´ etico e as prote´ınas virais entram na c´ elula. A RT catalisa a s´ıntese de uma ´ unica mol´ ecula de DNA a partir do RNA e esta ´ e ent˜ ao incorporada ao genoma da c´ elula hospedeira atrav´ es da prote´ına integrase. O novo RNA viral torna-se o material gen´ etico da c´ elula e produz novas prote´ınas. Esse conjunto migra para a superf´ıcie da c´ elula e um novo v´ırus, imaturo, ´ e formado. A matura¸c˜ ao do v´ırus ´ e mediada pela protease, respons´ avel por processar as prote´ınas virais, tornando-as funcionais [20, 25], como apresentado na Figura 2.2.

Figura 2.2: Esquema resumido do ciclo de replica¸c˜ ao do HIV.

Adaptado de Souza e Almeida (2003).

(22)

2.2 Terapia Antirretroviral

Em 1986, foi aprovado o primeiro antirretroviral (ARV), a Zidovudina, mais conhe- cido como AZT. Esta droga foi capaz de promover uma redu¸c˜ ao da mortalidade e prolongar a sobrevida dos indiv´ıduos, embora por apenas mais alguns meses. Ap´ os a introdu¸c˜ ao do primeiro medicamento no mercado, diversos ARVs an´ alogos foram produzidos com o objetivo de se obter f´ armacos mais eficazes.

Diversos governos e organiza¸c˜ oes internacionais tˆ em disponibilizado tratamentos antirretrovirais para os pa´ıses em desenvolvimento [18], entretanto, alguns pa´ıses ainda n˜ ao apresentam acesso a esta terapia e as proje¸c˜ oes de tratamentos que visam uma vacina efetiva e a cura ainda s˜ ao incertas [26]. No Brasil, os ARVs est˜ ao dispon´ıveis ao p´ ublico-alvo de maneira gratuita e universal desde 1996.

Terapias modernas combinam diferentes tipos de drogas inibidoras das enzimas virais, podendo levar a uma prolongada supress˜ ao viral e, em algumas vezes, a uma reconstru¸c˜ ao imunol´ ogica, al´ em de reduzir a morbidade e a mortalidade relacionada

`

a infec¸c˜ ao pelo HIV [27]. Em muitos pa´ıses, a terapia adotada ´ e a HAART (Highly Active Antiretroviral Therapy) que combina um ou dois inibidores da transcriptase reversa an´ alogo de nucleos´ıdeo (Nucleoside Reverse Transcriptase Inhibitor, NRTI), um inibidor da transcriptase reversa n˜ ao an´ alogo de nucleos´ıdeo (Non-nucleoside Reverse Transcriptase Inhibitor, NNRTI) e/ou um inibidor de protease (Protease Inhibitor, PI) [28].

O resultado da terapia ´ e avaliado atrav´ es da carga viral do paciente. Quando os pacientes apresentam carga viral detect´ avel e baixos n´ıveis de linf´ ocitos T CD4+, eles s˜ ao denominados em falha terapˆ eutica. As causas podem estar associadas a alguns fatores, tais como pouca aderˆ encia ao tratamento, devido aos efeitos cola- terais desagrad´ aveis causados por alguns medicamentos; concentra¸c˜ oes sub-´ otimas da droga; potˆ encia inadequada da droga, que consiste na quantidade necess´ aria do f´ armaco para produzir efeito ou desenvolvimento de resistˆ encia viral. Uma vez que o tratamento come¸ca a apresentar falhas, a medida a ser adotada ´ e suspender o uso deste tipo de terapia e substituir por outro tratamento com diferentes inibidores [29].

2.2.1 Drogas Antirretrovirais

Atualmente existem mais de 20 drogas antirretrovirais que atuam em diferentes

est´ agios no ciclo de vida do HIV: na entrada do v´ırus, bloqueando a fus˜ ao do HIV ` a

membrana da c´ elula; na transcri¸c˜ ao reversa, compreendendo duas classes de ARVs

que atuam tanto no s´ıtio de liga¸c˜ ao da RT, quanto alterando a sua conforma¸c˜ ao; na

integra¸c˜ ao do v´ırus, impedindo a integra¸c˜ ao do DNA viral ao da c´ elula infectada; e

na matura¸c˜ ao viral, inibindo competitivamente a enzima protease.

(23)

Os NRTIs atuam diretamente sobre a RT, incorporando-se ` a cadeia de DNA que o v´ırus cria, tornando-a defeituosa e impedindo a reprodu¸c˜ ao do v´ırus. S˜ ao en- contrados nesta classe sete inibidores: Zidovudina (ZDV, AZT), Estavudina (d4T), Emtricitabine (FTC), Lamivudina (3TC), Didanosina (ddl), Abacavir (ABC) e Te- nofovir (TDF) [25]. Os NNRTIs s˜ ao aqueles que se ligam de modo revers´ıvel e n˜ ao competitivo ` a RT, promovendo sua inibi¸c˜ ao. Esses medicamentos apresentam a van- tagem de n˜ ao causar efeitos sobre os elementos formadores do sangue do hospedeiro, assim como n˜ ao gerar resistˆ encia cruzada com os NRTIs. Esta classe possui 5 dro- gas: Nevirapina (NVP), Efavirenz (EFV), Etravirina (ETR), Delavirdina (DLV) e Rilpivirine (RPV).

Na classe de inibidores de fus˜ ao, existe apenas uma droga, a Enfuvirtida (T- 20), que bloqueia a entrada do HIV nas c´ elulas CD4+. Antagonistas de CCR5 tamb´ em possui um ´ unico representante, o Maraviroc (MVC), que, ao bloquear a prote´ına CCR5, atua indiretamente na entrada do HIV. Inibidores de integrase, como o pr´ oprio nome diz, atuam sobre a integrase, respons´ avel pela inser¸c˜ ao do DNA do HIV ao DNA humano, inibindo a replica¸c˜ ao do v´ırus. Seu representante ´ e a droga Raltegravir (RAL) [30].

Outra classe de ARV amplamente usada no tratamento cl´ınico da Aids ´ e a dos PIs, introduzidos em 1995 ap´ os um intenso esfor¸co no seu desenvolvimento [22]. Por atuarem sobre a HIV-protease, o mecanismo desses inibidores para ou reduz drasti- camente a replica¸c˜ ao do v´ırus, uma vez que essas drogas se ligam ao local de ativa¸c˜ ao da protease, bloqueando sua atividade. A HIV-protease ´ e uma aspartil protease que possui apenas 99 res´ıduos dispostos em uma estrutura dim´ erica composta de dois monˆ omeros idˆ enticos [28]. Ela ´ e uma enzima respons´ avel por clivar com precis˜ ao as prote´ınas do HIV em diversos locais para completar a forma¸c˜ ao das part´ıculas virais infecciosas [22].

Atualmente existem nove PIs aprovados pelo FDA (Food and Drug Administra- tion): Amprenavir (APV), Atazanavir (ATV), Darunavir (DRV), Indinavir (IDV), Lopinavir (LPV), Nelfinavir (NFV), Ritonavir (RTV), Saquinavir (SQV) e Tipra- navir (TPV). A efetividade dessas drogas est´ a limitada pelo r´ apido processo de desenvolvimento de resistˆ encia aos ARVs na popula¸c˜ ao viral [31].

2.3 Resistˆ encia aos Antirretrovirais

O desenvolvimento de resistˆ encia aos ARVs tem sido um dos maiores fatores limi- tantes na efetividade dessas terapias. Estudos mostram que o desenvolvimento de resistˆ encia ´ e consequˆ encia da natureza altamente dinˆ amica de replica¸c˜ ao do HIV [22].

Quando a terapia n˜ ao consegue parar por completo a replica¸c˜ ao viral devido ` a

(24)

alta taxa de muta¸c˜ ao, aumentam-se as chances de que as modifica¸c˜ oes nas bases gen´ eticas do HIV desenvolvam novas variantes resistentes aos ARVs. Com o desen- volvimento da resistˆ encia, tornam-se necess´ arios altos n´ıveis da droga para inibir a replica¸c˜ ao viral. Por´ em, esses n´ıveis s˜ ao perigosos para os seres humanos [10].

A habilidade para predizer a resistˆ encia ao ARV pode ser ´ util no desenvolvi- mento de drogas mais efetivas e de regimes de tratamento mais duradouros. Com o aumento do n´ umero de drogas e das op¸c˜ oes terapˆ euticas, os testes para avalia¸c˜ ao de resistˆ encia a esses medicamentos vˆ em apresentando um importante papel no con- trole da infec¸c˜ ao pelo HIV-1. Entretanto, algumas situa¸c˜ oes acabam intensificando o problema da resistˆ encia, como o limitado n´ umero de drogas aprovadas pelo FDA e a resistˆ encia cruzada, reduzindo o n´ umero de combina¸c˜ oes efetivas de drogas [11].

2.3.1 Tipos de Resistˆ encia

Existem dois tipos de resistˆ encia ` as drogas: a resistˆ encia prim´ aria ou resistˆ encia transmitida, e a resistˆ encia adquirida.

A resistˆ encia prim´ aria ´ e aquela apresentada por um indiv´ıduo sem exposi¸c˜ ao pr´ evia ` a droga, decorrente da transmiss˜ ao direta de linhagens resistentes de in- div´ıduos tratados. Elevadas taxas de resistˆ encia prim´ aria tˆ em sido registradas em regi˜ oes em que a terapia antirretroviral est´ a dispon´ıvel por um longo tempo [32].

A resistˆ encia adquirida ´ e resultado direto dos tratamentos com ARVs, sendo uma das causas de falha terapˆ eutica principalmente em pacientes que experimenta- ram v´ arias falhas no tratamento. Esse tipo de resistˆ encia ´ e mais comum do que a resistˆ encia transmitida [32].

2.3.2 Testes de Resistˆ encia

O uso de testes que avaliam a presen¸ca de resistˆ encia ` a determinada droga ´ e re- comendado por ser uma importante ferramenta de monitora¸c˜ ao na pr´ atica cl´ınica.

Ao ter acesso a um teste de resistˆ encia, pode-se melhorar o tipo de terapia a ser administrada aos pacientes que ainda n˜ ao fizeram uso de drogas, assim como naque- les que j´ a apresentaram alguma falha na terapia. Esses testes tˆ em se tornado um importante passo no desenvolvimento de drogas e na otimiza¸c˜ ao da combina¸c˜ ao de terapias para o tratamento da infec¸c˜ ao pelo HIV.

Testes de resistˆ encia genot´ıpica (genotipagem) s˜ ao capazes de determinar a pre-

sen¸ca ou ausˆ encia de espec´ıficas muta¸c˜ oes gen´ eticas no HIV que foram previamente

associadas ` a resistˆ encia aos ARVs. Esses testes tˆ em se tornado parte da rotina di-

agn´ ostica no tratamento de infec¸c˜ oes por HIV por se tratar de um teste mais r´ apido,

menos custoso e mais acess´ıvel [13].

(25)

Testes de resistˆ encia fenot´ıpica (fenotipagem) fornecem uma medida quantitativa direta da suscetibilidade de linhagens do HIV a determinadas drogas. Entretanto, s˜ ao testes muito caros, com uma demanda de tempo maior para gerar resultados e mais complexos, o que requer laborat´ orios especiais para a sua realiza¸c˜ ao [13, 33].

2.4 T´ ecnicas de Classifica¸ c˜ ao

2.4.1 Regress˜ ao Log´ıstica

O modelo de regress˜ ao log´ıstica (RL) ´ e um modelo linear generalizado, sendo um tipo de an´ alise de regress˜ ao muito utilizado para realizar predi¸c˜ oes ou explicar a ocorrˆ encia de um evento espec´ıfico quando a vari´ avel dependente (vari´ avel resposta)

´ e de natureza bin´ aria. Quanto ` as vari´ aveis independentes, estas podem ser tanto quantitativas quanto qualitativas.

Por se tratar de um modelo linear generalizado, a RL apresenta trˆ es compo- nentes: uma componente aleat´ oria, que consiste em uma combina¸c˜ ao das vari´ aveis independentes (preditoras); uma componente sistem´ atica, que relaciona as vari´ aveis independentes com os parˆ ametros do modelo, correspondendo ` a vari´ avel resposta que se quer modelar; e uma fun¸c˜ ao de liga¸c˜ ao, neste caso, a fun¸c˜ ao logit, que conecta os valores esperados das observa¸c˜ oes ` as vari´ aveis independentes [34].

Neste modelo de regress˜ ao, a vari´ avel resposta (y) ´ e dicotˆ omica, ou seja, ´ e atribu´ıdo a ela dois valores: 1 para o acontecimento de interesse, denominado su- cesso, e 0 para o acontecimento complementar, o fracasso. A probabilidade do sucesso ´ e dada por π _i e a de fracasso ´ e 1 − π _i .

Considerando-se uma s´ erie de vari´ aveis independentes x _i = [x ₁ , x ₂ , ..., x _p ], em

que x ^T _i =





 x 1

x ₂ .. . x _p







e um vetor β = [β ₀ , β ₁ , ..., β _p ] formado por parˆ ametros desconhe-

cidos do modelo, a probabilidade de sucesso ´ e dada por:

π _i = exp(β ₀ + β ₁ x _i1 + β ₂ x _i2 + ... + β _p x _ip )

1 + exp(β ₀ + β ₁ x _i1 + β ₂ x _i2 + ... + β _p x _ip ) (2.1) E a probabilidade de fracasso ´ e:

1 − π _i = 1

1 + exp(β 0 + β 1 x i1 + β 2 x i2 + ... + β p x ip ) (2.2)

O logit para o modelo de regress˜ ao m´ ultipla ´ e dado por:

(26)

g (x _i ) = ln π _i

1 − π _i

= x ^T _i β = β ₀ +

p

X

j=1

β _j x _ij (2.3)

Para estimar os valores de β, utiliza-se o m´ etodo da m´ axima verossimilhan¸ca, que busca valores de β que maximizam essa fun¸c˜ ao.

l(β) =

p

Y

i=1

π (x i ) ^y

ⁱ

[1 − π (x i )] ^1−y

ⁱ

(2.4)

L (β) = ln [l(β)] =

n

X

i=1

{y _i ln [π(x _i )] + (1 − y _i ) ln [1 − π(x _i )]} (2.5) Para encontrar este valor, deriva-se a equa¸c˜ ao (2.5) em rela¸c˜ ao aos parˆ ametros do modelo e igualam-se as express˜ oes a zero. Pelo fato dessas equa¸c˜ oes serem n˜ ao lineares nos parˆ ametros, ´ e necess´ ario recorrer a m´ etodos num´ ericos iterativos [34].

A significˆ ancia do modelo final obtido pela RL ´ e verificada atrav´ es do desvio entre o modelo ajustado e o modelo saturado, onde todos os parˆ ametros se ajus- tam perfeitamente a todas as observa¸c˜ oes, tendo tantos parˆ ametros quanto dados observados. O modelo mais simples ´ e o denominado modelo nulo, formado apenas pelo parˆ ametro β ₀ , indicando toda varia¸c˜ ao ` a componente aleat´ oria. A estat´ıstica deviance (D) se baseia na fun¸c˜ ao de verossimilhan¸ca e ´ e utilizada para medir a discrepˆ ancia de um modelo intermedi´ ario de p parˆ ametros em rela¸c˜ ao ao modelo saturado. Quanto menor a deviance, melhor o ajuste do modelo [35] .

D = −2 ln (verossimilhan¸ ca do modelo ajustado)

(verossimilhan¸ ca do modelo saturado) (2.6) Ap´ os obter o modelo ajustado, ´ e necess´ ario verificar se este apresenta uma boa descri¸c˜ ao dos dados que foram observados atrav´ es de uma an´ alise de res´ıduos, que permite avaliar a qualidade do ajuste.

2.4.2 Redes Neurais

A rede neural artificial ´ e uma t´ ecnica de aprendizagem de m´ aquina utilizada para resolver padr˜ oes complexos, baseado no modelo biol´ ogico do c´ erebro humano. Esse tipo de t´ ecnica tem sido utilizado para solucionar problemas que representam uma rela¸c˜ ao n˜ ao linear entre a entrada e a sa´ıda [12], sendo aplicada em diversos campos como modelos de previs˜ ao e m´ etodos de classifica¸c˜ ao.

Uma ANN ´ e formada por um grande n´ umero de unidades simples de proces-

samento, usualmente denominadas de neurˆ onios, associados a um elevado n´ umero

de conex˜ oes entre eles. A informa¸c˜ ao entre os neurˆ onios ´ e transmitida atrav´ es dos

pesos sin´ apticos, representando a mem´ oria da rede, e cada neurˆ onio possui uma

(27)

fun¸c˜ ao de ativa¸c˜ ao, geralmente n˜ ao linear [36]. As fun¸c˜ oes de ativa¸c˜ ao mais usadas s˜ ao a fun¸c˜ ao log´ıstica, que sempre assume valores positivos, e a fun¸c˜ ao tangente hiperb´ olica, cuja sa´ıda pode assumir valores positivos ou negativos.

Basicamente, existem 3 tipos de redes:

Rede feedforward de uma ´ unica camada, em que os neurˆ onios de entrada sim- plesmente repetem o sinal de entrada na sa´ıda;

Rede feedforward de multicamadas, formada pela camada de entrada, com- posta pelas vari´ aveis de entrada relevantes para o modelo, a camada de sa´ıda, que fornece a solu¸c˜ ao do problema e, uma ou mais camadas intermedi´ arias, chamadas camadas escondidas, onde os neurˆ onios s˜ ao efetivamente unidades processadoras e;

Redes recorrentes, onde h´ a pelo menos um la¸co de recorrˆ encia.

Existem diferentes algoritmos de aprendizagem para ANNs, destacando-se dois gran- des grupos:

M´ etodos de aprendizagem supervisionados, em que a rede neural recebe um conjunto de entradas e seus correspondentes padr˜ oes de sa´ıda e;

M´ etodos de aprendizagem n˜ ao supervisionados, em que a rede neural traba- lha os dados de forma a determinar algumas propriedades similares entre os padr˜ oes de entrada, sem usar um conjunto de dados previamente conhecidos [37].

Ao implementarmos uma rede neural, os dados normalmente s˜ ao separados em trˆ es conjuntos: treinamento, valida¸c˜ ao e teste. O conjunto de treinamento engloba uma amostra representativa do problema e ´ e utilizado para treinar a rede e estimar seus parˆ ametros. O conjunto de valida¸c˜ ao tem como objetivo verificar a eficiˆ encia da rede quanto ` a sua capacidade de generaliza¸c˜ ao durante o processo de treinamento.

O conjunto de teste ´ e utilizado para verificar a capacidade de generaliza¸c˜ ao da rede ao aplicar dados reais.

As ANNs n˜ ao fazem nenhuma suposi¸c˜ ao sobre a forma funcional entre as vari´ aveis de entrada e sa´ıda, diferentemente do modelo de RL [13]. N˜ ao h´ a necessidade de que as vari´ aveis em estudo apresentem independˆ encia e normalidade, podendo ser utilizadas em problemas de regress˜ ao, classifica¸c˜ ao e compacta¸c˜ ao dos dados.

Um tipo de ANN adequado para problemas de classifica¸c˜ ao ´ e a Rede Neural Pro-

babil´ıstica (Probabilistic Neural Network, PNN). Esse tipo de rede foi desenvolvido

por Specht (1990) [38], baseado na estrat´ egia de decis˜ ao Bayesiana para classificar

os vetores de entrada e no m´ etodo de estima¸c˜ ao de densidade de Parzen.

(28)

As estrat´ egias Bayesianas s˜ ao estrat´ egias de decis˜ ao que minimizam o risco espe- rado de uma classifica¸c˜ ao. A regra de decis˜ ao ´ otima que minimiza os custos m´ edios de erro de classifica¸c˜ ao ´ e chamada de regra de decis˜ ao ´ otima de Bayes [38].

A rede PNN ´ e uma rede composta tipicamente por quatro camadas:

Camada de entrada, composta pelas vari´ aveis explicativas e que n˜ ao realiza opera¸c˜ oes sobre os vetores de entrada;

Camada padr˜ ao, formada pelas unidades padr˜ ao, que armazenam, cada uma, um vetor do conjunto de treinamento, assim como a sua verdadeira classe;

Camada de soma, que tem o n´ umero de elementos de processamento igual ao n´ umero de classes e;

Camada de sa´ıda, que fornece a classifica¸c˜ ao dos dados de entrada, produzindo uma sa´ıda bin´ aria (1 em apenas uma das unidades e 0 nas demais).

A arquitetura de uma PNN est´ a representada na Figura 2.3.

Figura 2.3: Arquitetura b´ asica de uma rede neural probabil´ıstica.

Uma das vantagens da rede PNN ´ e que este tipo de rede precisa de apenas uma etapa de treinamento, sendo muito r´ apida quando comparada a outras redes do tipo feedforward.

No treinamento, as unidades da camada padr˜ ao calculam a distˆ ancia euclidiana (x − x _k

_i

) ^T (x − x _k

_i

), onde x ´ e um vetor apresentado ` a rede no treinamento e x _k

_i

´ e o vetor da amostra que ´ e armazenado na unidade padr˜ ao da classe i. Posteriormente,

´ e aplicada uma fun¸c˜ ao de ativa¸c˜ ao exponencial, obtendo exp −

( ^x−x

_ki

)

^T

( ^x−x

_ki

)

2σ

²

[38].

(29)

As unidades da camada padr˜ ao representam os vetores do conjunto de treinamento onde ser˜ ao centradas as fun¸c˜ oes kernel utilizadas no m´ etodo de Parzen.

Os resultados da camada padr˜ ao s˜ ao repassados ` as unidades da camada de soma correspondentes a cada classe. Nesta camada ocorre apenas o somat´ orio de suas entradas. As somas obtidas s˜ ao enviadas ` as unidades de sa´ıda, que ir˜ ao comparar os resultados recebidos e decidir por classificar x em uma das poss´ıveis classes.

Ao assumir que as fun¸c˜ oes kernel utilizadas nas estima¸c˜ oes sejam gaussianas e que as estimativas das densidades de probabilidade da popula¸c˜ ao em cada classe sejam dadas respectivamente por ˆ f _A e ˆ f _B , pode-se concluir que os estimadores dessas densidades s˜ ao dados por:

f ˆ _A (x) = 1 (2π) ^p/2 σ ^p

1 N _A

N

A

X

i=1

exp −

"

(x − x _A

_i

) ^T (x − x _A

_i

) 2σ ²

#

(2.7) e

f ˆ _B (x) = 1 (2π) ^p/2 σ ^p

1 N _B

N

B

X

i=1

exp −

"

(x − x _B

_i

) ^T (x − x _B

_i

) 2σ ²

#

(2.8) onde p ´ e o n´ umero de vari´ aveis de entrada e σ ´ e o fator de alisamento, que afeta a forma da superf´ıcie de decis˜ ao da rede.

O classificador implementado pela rede PNN ir´ a decidir por alocar um vetor x na classe A se ˆ f _A (x) > f ˆ _B (x). Caso o sinal da desigualdade esteja invertido, a rede alocar´ a x na classe B.

2.5 M´ etodos de Sele¸ c˜ ao de Vari´ aveis

A sele¸c˜ ao de vari´ aveis ´ e um passo muito importante no desenvolvimento de modelos.

Seu principal objetivo ´ e determinar um subconjunto de vari´ aveis independentes que melhor expliquem a vari´ avel resposta, isto ´ e, dentre todas as vari´ aveis explicativas dispon´ıveis, deve-se encontrar um subconjunto daquelas mais importantes para o modelo, produzindo um erro m´ınimo de classifica¸c˜ ao.

Existem diferentes m´ etodos de sele¸c˜ ao de vari´ aveis, dentre eles o Algoritmo Gen´ etico [39], Sequential Search (SS) [40] e m´ etodos de Stepwise (Forward, Backward e Both ) [40].

2.5.1 Stepwise

Neste tipo de sele¸c˜ ao, as vari´ aveis s˜ ao adicionadas uma por vez ao modelo. O proce-

dimento constr´ oi iterativamente uma sequˆ encia de modelos de regress˜ ao pela adi¸c˜ ao

ou remo¸c˜ ao de vari´ aveis em cada etapa. Aquelas n˜ ao significativas s˜ ao exclu´ıdas e

(30)

o procedimento se repete at´ e que nenhuma outra vari´ avel possa entrar no modelo [34].

Para avaliar se as vari´ aveis selecionadas explicam satisfatoriamente o modelo estat´ıstico, pode-se aplicar o crit´ erio de informa¸c˜ ao de Akaike (Akaike Information Criterion, AIC) [41]. Os valores do AIC fornecem um meio para a sele¸c˜ ao do modelo.

Este crit´ erio penaliza modelos com muitas vari´ aveis, sendo que valores menores de AIC s˜ ao prefer´ıveis. O AIC ´ e dado pela f´ ormula:

AIC = −2log (L _p ) + 2 (p) (2.9) onde L _p ´ e a fun¸c˜ ao de m´ axima verossimilhan¸ca e p o n´ umero de parˆ ametros a serem estimados no modelo.

2.5.2 Sequential Forward Selection

O m´ etodo Sequential Forward Selection (SFS) seleciona sequencialmente um sub- conjunto de vari´ aveis explicativas que melhor prediz os resultados de uma vari´ avel resposta. Essa sele¸c˜ ao ocorre at´ e que n˜ ao haja melhora na previs˜ ao.

Inicialmente, o m´ etodo SFS avalia todos os subconjuntos formados por apenas uma vari´ avel e seleciona aquela que produz um modelo com melhor desempenho.

Em seguida, as outras vari´ aveis s˜ ao adicionadas a essa que foi selecionada, formando subconjuntos bidimensionais. Aquele com melhor desempenho ´ e selecionado e uma terceira vari´ avel ´ e inclu´ıda a este subconjunto. Esse ciclo se repete at´ e que nenhuma melhoria seja obtida ao aumentar o subconjunto atual. O crit´ erio de sele¸c˜ ao das vari´ aveis ´ e definido pelo usu´ ario, com destaque para o AIC e a AUC.

A Figura 2.4 mostra o m´ etodo para 5 vari´ aveis iniciais. Neste exemplo, o conjunto

de vari´ aveis foi reduzido de 5 (1-2-3-4-5) para 3 (2-3-5). Na primeira etapa, a vari´ avel

3 apresentou melhor desempenho. Subconjuntos bidimensionais foram formados

com a vari´ avel previamente selecionada (Var 3) e as restantes (Var 1, Var 2, Var 4 e

Var 5). Aquele que apresentou melhor desempenho foi selecionado e a partir deste,

subconjuntos com 3 vari´ aveis foram formados. Quando adicionada uma quarta

vari´ avel, o subconjunto n˜ ao apresentou um aumento no crit´ erio de avalia¸c˜ ao de

desempenho definido. Os quadrados cinzas indicam o melhor resultado obtido em

cada passo da an´ alise.

(31)

Figura 2.4: Exemplo de sele¸c˜ ao de vari´ aveis pelo m´ etodo Sequential Forward Selec- tion.

2.6 M´ etodos de Reamostragem

2.6.1 Bootstrap

O m´ etodo de Bootstrap foi desenvolvido por Efron, em 1979 [42], sendo uma t´ ecnica de reamostragem bastante utilizada em diferentes situa¸c˜ oes estat´ısticas.

Baseia-se na gera¸c˜ ao de uma nova amostra de mesmo tamanho da original, a partir do sorteio aleat´ orio com reposi¸c˜ ao de seus elementos. A substitui¸c˜ ao das observa¸c˜ oes ap´ os a amostragem permite a cria¸c˜ ao de tantas amostras quanto ne- cess´ arias. Cada uma delas pode ser analisada independentemente e os resultados compilados ao longo da amostra.

2.7 Avalia¸ c˜ ao dos Classificadores

O desempenho de um classificador pode ser avaliado atrav´ es de medidas calculadas a partir de uma matriz de confus˜ ao para duas classes. Essa matriz constitui-se em uma tabela de contingˆ encia 2x2 onde s˜ ao representados quatro tipos de classifica¸c˜ ao segundo o resultado do modelo (Tabela 2.1).

Classificados como positivos e pertencentes ` a classe positiva (verdadeiros po- sitivos, VP);

Classificados como negativos, mas pertencentes ` a classe positiva (falsos nega-

tivos, FN);

(32)

Classificados como positivos, mas pertencentes ` a classe negativa (falsos posi- tivos, FP);

Classificados como negativos e pertencentes ` a classe negativa (verdadeiros ne- gativos, VN);

A partir dessas classifica¸c˜ oes, ´ e poss´ıvel definir trˆ es medidas de desempenho mais comuns: acur´ acia, sensibilidade e especificidade.

Tabela 2.1: Matriz de confus˜ ao para duas classes.

Classe positiva Classe negativa

Predi¸ c˜ ao positiva VP FP

Predi¸ c˜ ao negativa FN VN

2.7.1 Acur´ acia

A acur´ acia ´ e definida como a propor¸c˜ ao de acertos do modelo. Ela ´ e dada pela f´ ormula:

A = (V N + V P ) / (V P + F N + F P + V N ) (2.10) Para determinar o n´ umero de acertos do modelo final ´ e necess´ ario estabelecer uma probabilidade, denominada ponto de corte. Probabilidades estimadas pelo modelo que sejam maiores ou iguais a esse ponto de corte recebem valor 1, enquanto que as que sejam menores do que esse ponto de corte recebem valor 0.

2.7.2 Sensibilidade

Essa medida ´ e definida como a propor¸c˜ ao de verdadeiros positivos em rela¸c˜ ao ao total da classe positiva. A sensibilidade ´ e calculada por:

S = V P/ (V P + F N ) (2.11)

Um modelo, ao apresentar alta sensibilidade, raramente classificar´ a como per-

tencente ` a classe negativa um valor da classe positiva, ou seja, fornece uma pequena

taxa de falsos negativos.

(33)

2.7.3 Especificidade

Essa m´ etrica compreende a propor¸c˜ ao de verdadeiros negativos em rela¸c˜ ao ao total da classe negativa. A especificidade ´ e calculada por:

E = V N/ (F P + V N ) (2.12)

Um modelo, ao apresentar alta especificidade, dificilmente classificar´ a como per- tencente ` a classe positiva um valor da classe negativa, fornecendo, dessa forma, poucos resultados falsos positivos.

2.7.4 Curva ROC

Outra medida para avaliar o desempenho de um modelo de classifica¸c˜ ao foi desenvol- vida no contexto de detec¸c˜ ao de sinais eletrˆ onicos e problemas com radares, no in´ıcio dos anos 50, e ´ e conhecida como curva ROC ( Receiver-Operating Characteristic ).

Essa curva ´ e obtida tra¸cando-se aos pares a sensibilidade e a especificidade a cada ponto de corte. Ela mostra a rela¸c˜ ao entre a sensibilidade e a especificidade de um teste e pode ser utilizada na decis˜ ao do melhor ponto de corte.

A ´ area sob a curva ROC (AUC) ´ e uma medida resumo usual de precis˜ ao, j´ a que ela ´ e estimada levando em considera¸c˜ ao as sensibilidades e especificidades relativas a cada um dos valores estipulados [43].

Um modelo totalmente incapaz de discriminar valores pertencentes a uma classe

ou outra apresenta uma AUC de 0,5. Quanto maior a capacidade do modelo em

discriminar os valores segundo as classes, mais a curva se aproxima do canto supe-

rior esquerdo do gr´ afico e o valor da AUC se aproxima de 1. Na Figura 2.5 est´ a

representando um exemplo de curva ROC.

(34)

1−Especificidade Sensibilidade 0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 2.5: Exemplo de curva ROC.

A reta indica uma ´ area igual a 0,5.

2.7.5 ´ Indice Kappa

O ´ındice Kappa mede o grau de concordˆ ancia entre duas diferentes t´ ecnicas al´ em do que seria esperado pelo acaso. Ele ´ e calculado pela divis˜ ao da diferen¸ca entre a concordˆ ancia esperada e a concordˆ ancia observada e a diferen¸ca entre a concordˆ ancia absoluta e a concordˆ ancia esperada. Como esta ´ ultima diferen¸ca representa a maior concordˆ ancia poss´ıvel entre a esperada e a observada, quanto maior ´ e o ´ındice Kappa, maior ´ e a concordˆ ancia entre as observa¸c˜ oes.

Landis e Koch (1977) definiram diferentes faixas para os valores de Kappa, se- gundo o grau de concordˆ ancia que eles sugerem, formando a chamada escala de Landis. O ´ındice Kappa pode variar de –1, indicando discordˆ ancia completa, a +1, sugerindo concordˆ ancia completa. Valores entre 1 e 0,80 indicam concordˆ ancia quase perfeita; entre 0,79 e 0,60 representam concordˆ ancia consider´ avel; entre 0,59 e 0,40 indicam concordˆ ancia moderada; entre 0,39 e 0,20 uma concordˆ ancia razo´ avel; entre 0,19 e 0 uma concordˆ ancia baixa e valores menores que 0 n˜ ao indicam concordˆ ancia [44].

2.7.6 Valida¸ c˜ ao Cruzada

A valida¸c˜ ao cruzada ´ e uma t´ ecnica para avaliar a capacidade de generaliza¸c˜ ao de um

modelo a partir de um conjunto de dados. ´ E amplamente empregada em problemas

(35)

onde o objetivo da modelagem ´ e a classifica¸c˜ ao.

2.7.6.1 M´ etodo Holdout

Este m´ etodo consiste em dividir o conjunto total de dados em dois subconjuntos mutuamente exclusivos, um para treinamento (estima¸c˜ ao dos parˆ ametros) e outro para teste, evitando a sobreposi¸c˜ ao entre os dois subconjuntos de dados.

Normalmente, ² ₃ dos dados s˜ ao destinados para o treinamento e ¹ ₃ para o teste.

Ap´ os o particionamento, a estima¸c˜ ao do modelo ´ e realizada e, posteriormente, os dados de teste s˜ ao aplicados [45].

A desvantagem deste procedimento ´ e que os resultados s˜ ao altamente dependen- tes da escolha dos dados para a forma¸c˜ ao dos subconjuntos. Na Figura 2.6 est´ a esquematizada a divis˜ ao dos dados atrav´ es deste m´ etodo.

Figura 2.6: Representa¸c˜ ao da divis˜ ao dos dados na metodologia holdout.

2.7.6.2 M´ etodo K-fold

O m´ etodo de valida¸c˜ ao cruzada denominado k-fold consiste em dividir o conjunto total de dados em k subconjuntos mutuamente exclusivos do mesmo tamanho. A partir disto, um subconjunto ´ e utilizado para teste e os k-1 restantes s˜ ao utilizados para estima¸c˜ ao dos parˆ ametros, calculando-se assim a acur´ acia do modelo. Este processo ´ e realizado k vezes alternando de forma circular o subconjunto de teste [45].

Na valida¸c˜ ao cruzada 10-fold, comumente utilizada, o conjunto de dados ´ e parti-

cionado aleatoriamente em 10 subconjuntos iguais. Destes, um ´ unico subconjunto ´ e

retido como dados de valida¸c˜ ao para testar o modelo e os 9 subconjuntos restantes

s˜ ao utilizados como dados de treino. O processo ´ e repetido 10 vezes, com cada um

dos 10 subconjuntos utilizados apenas uma vez como dados de valida¸c˜ ao. Este valor

de k ´ e muito utilizado, pois faz predi¸c˜ oes utilizando 90% dos dados, tornando-as

mais suscet´ıveis de serem generalizadas para os dados completos. Na Figura 2.7

est´ a esquematizado a divis˜ ao dos dados atrav´ es do m´ etodo k-fold , para k igual a 10.

(36)

Figura 2.7: Representa¸c˜ ao da divis˜ ao dos dados na metodologia k-fold (k = 10).

2.7.6.3 M´ etodo Leave-one-out

O m´ etodo leave-one-out ´ e um caso espec´ıfico do k-fold, com k igual ao n´ umero total de dados. A cada processo, uma amostra ´ e destinada ao teste e o restante dos dados ´ e aplicado no treinamento. Esse procedimento ´ e largamente utilizado quando a disponibilidade dos dados ´ e pequena.

Figura 2.8: Divis˜ ao dos dados segundo o m´ etodo de valida¸c˜ ao cruzada Leave-one-out.

(37)

Cap´ıtulo 3

Revis˜ ao de Literatura

A resistˆ encia ` as drogas tem sido um importante fator na falha das terapias antir- retrovirais. Identificar a resistˆ encia aos medicamentos a partir do gen´ otipo pode auxiliar na pr´ atica cl´ınica e na escolha das drogas durante o processo terapˆ eutico.

Existem diversos estudos com o intuito de desenvolver modelos capazes de predi- zer o desenvolvimento de resistˆ encia a um determinado ARV a partir de muta¸c˜ oes.

Muitos m´ etodos supervisionados s˜ ao empregados com esta finalidade, tais como

´

arvores de decis˜ ao (Decision Tree, DT), SVMs e ANNs.

No estudo de Draghici e Potter (2003) [11], foi analisada a predi¸c˜ ao de resistˆ encia a dois PIs, IDV e SQV, atrav´ es da constru¸c˜ ao de modelos preditores utilizando redes neurais do tipo SOM (Self-Organizing Map). O primeiro classificador foi constru´ıdo para o IDV e baseou-se nas caracter´ısticas estruturais do complexo inibidor-protease, uma vez que a perda de contato entre a droga e a protease acarreta em modifica¸c˜ oes no complexo e, consequentemente, em resistˆ encia ` a droga. O objetivo do estudo foi estabelecer uma rela¸c˜ ao entre as caracter´ısticas estruturais das HIV-proteases com muta¸c˜ ao e a resistˆ encia ao ARV correspondente, dado pelo IC90. Este ´ındice con- siste no resultado de uma fenotipagem e representa a quantidade de droga necess´ aria para reduzir em 90% a replica¸c˜ ao viral. A raz˜ ao do IC90 de uma muta¸c˜ ao espec´ıfica por de um tipo selvagem ´ e nomeado de fold resistance. As muta¸c˜ oes foram classi- ficadas segundo suas fold resistance em trˆ es classes: sem resistˆ encia ou resistˆ encia muito baixa (menor que 5-fold resistance), baixa resistˆ encia (entre 5 e 10-fold resis- tance) e alta resistˆ encia (maior que 10-fold resistance ). As categorias consideradas foram alta, m´ edia e baixa resistˆ encia ao PI, al´ em de outras duas classes, uma na qual n˜ ao se conhecia previamente a classifica¸c˜ ao quanto ` a resistˆ encia e outra mais heterogˆ enea, na qual houve mistura de sequˆ encias resistentes e n˜ ao resistentes ao PI.

O preditor baseado nas informa¸c˜ oes estruturais apresentou uma acur´ acia entre 60%

e 70% ao utilizar valida¸c˜ ao cruzada do tipo leave-one-out. O segundo classificador

utilizou sequˆ encias de amino´ acidos da HIV-protease com muta¸c˜ oes para predizer a

resistˆ encia ao SQV. As categorias consideradas foram baixa (menor que 5-fold re-