Universidade Federal do ABC Centro de Matemática, Computação e Cognição (CMCC) Omar Latorre Vilca

(1)

Universidade Federal do ABC

Centro de Matemática, Computa¸cão e Cogni¸cão (CMCC) Pós-Gradua¸cão em Ciência da Computa¸cão

Omar Latorre Vilca

M´ETODOS PARA PROBLEMAS DE SELE ¸C ˜AO DE CADEIAS DE CARACTERES

Disserta¸c˜ao de Mestrado

(2)

Omar Latorre Vilca

Disserta¸c˜ao de Mestrado

Disserta¸cão de Mestrado apresentada ao Curso de Pós-Gradua¸cão da Universidade Federal do ABC como requisito parcial para obten¸cão do grau de Mestre em Ciência da

Computa¸c˜ao

Orientador: Prof. Dr. Cl´audio Nogueira de Meneses

(3)

Ficha Catalogr´afica

Vilca, Omar Latorre.

M´etodos para Problemas de Sele¸c˜ao de Cadeias de Caracteres / Omar Latorre Vilca.

Santo Andr´e, SP: UFABC, 2013.

(4)

(5)

Omar Latorre Vilca

Essa Disserta¸cão de Mestrado foi julgada e aprovada para a obten¸cão do grau de Mestre em Ciência da Computa¸cão no curso de Pós-Gradua¸cão em Ciência da

Computa¸c˜ao da Universidade Federal do ABC.

Santo Andr´e - SP - 2013

Prof. Dr. Ronaldo Cristiano Prati Coordenador do Curso

BANCA EXAMINADORA

Prof. Dr. Cl´audio Nogueira de Meneses

Prof. Dr. Jo˜ao Paulo Gois

Profa. Dra. Maristela Oliveira dos Santos

(6)

AGRADECIMENTOS

`

A DEUS, por ter me dado condi¸cões de lutar e alcan¸car os objetivos pretendidos. Ao Prof. Dr. Ronaldo Cristiano Prati, coordenador do Programa de Pós-Gradua¸cão em Ciência da Computa¸cão, pelo esfor¸co e dedica¸cão e por estar sempre presente e sempre disposto a resolver os problemas com os quais tivemos que vivenciar.

Ao Prof. Dr. Claudio Nogueira de Meneses, ogrigado pela oportunidade, pela orien-ta¸c˜ao, pelos ensinamentos, ajuda e colabora¸c˜ao com o meu trabalho e pelas conversas e conselhos ao longo do per´ıodo do mestrado.

Ao Centro de Matemática, Computa¸cão e Cogni¸cão (CMCC) da Universidade Federal do ABC (UFABC), pelo apoio na realiza¸cão deste trabalho.

Agrade¸co a CAPES e UFABC pelos financiamentos, em bolsas, para o desenvolvimento desta pesquisa.

(7)

Este trabalho contou com o aux´ılio financeiro das seguintes entidades:

• Universidade Federal do ABC - UFABC (bolsa de mestrado, institucional), de feve-reiro/2011 a outubro/2011;

(8)

Resumo

Nesta pesquisa propomos métodos para resolver um problema de sele¸cão de cadeias de caracteres (strings) que surge na área de bioinformática. Este problema é conhecido pelo nome Closest String Problem (CSP) e pode ser definido assim: dado um conjunto finito S = {s1_{, s}2_{, · · · , s}n_{} com n strings, todas de mesmo tamanho m, sobre um alfabeto A,}

deseja-se encontrar uma string x, de tamanho m, sobre A que minimiza o valor de d tal que para cada string si ∈ S tem-se dH(x, si) ≤ d. Por dH(x, s) queremos dizer a distˆancia

de Hamming entre as strings x e s e ela é calculada tendo em conta o número de posi¸cões em que as duas strings diferem. Por exemplo, se x = AT T e s = AT C, então dH(x, s) = 1,

pois x e s diferem apenas na última posi¸cão. O CSP pertence a classe de complexidade computacional NP-dif´ıcil e são conhecidos algoritmos de aproxima¸cão e métodos exatos para resolver esse problema. Como objetivo principal da pesquisa, desejamos desenvolver métodos exatos baseados em programa¸cão linear inteira.

(9)

Abstract

In this work we design methods to solve a string selection problem that arises in bioin-formatics. This problem is called Closest String Problem (CSP) and is defined as: given a finite set S = {s1_{, · · · , s}n_{} with n strings, every string of size m, over an alphabet A,}

we want to find a string x, of size m, over A that minimizes the value d such that for each string si _{∈ S we have d}

H(x, si) ≤ d. By dH(x, s) we mean the Hamming distance

between the strings x and s and it represents the number of positions the two strings differ. For example, if x = AT T and s = AT C then dH(x, s) = 1, since x and s differ at the

last position. The CSP is NP-hard and several methods have been proposed to solve the problem. Our main goal in this work is to design exact methods based on integer linear programming.

(10)

Sum´

ario

1 Introdu¸c˜ao 4

2 Defini¸c˜oes e Conceitos B´asicos 6

2.1 Problemas de Sele¸c˜ao de Strings . . . 6

2.2 Distˆancia de Hamming . . . 9

2.3 Conceitos B´asicos em Programa¸c˜ao Linear . . . 9

2.4 Programa¸c˜ao Linear Inteira (PLI) . . . 10

2.4.1 Algoritmo de Cutting Planes . . . 11

2.4.2 Algoritmo de Branch-and-Bound . . . 11

2.4.3 Algoritmo de Branch-and-Cut . . . 12

3 Trabalhos Anteriores 14 3.1 Heur´ıstica para o CSP . . . 14

4 Estudo em Combinatória Poliédrica 16 4.1 Formula¸cão em Programa¸cão Inteira . . . 16

4.2 Nova Classe de Planos de Corte e sua Separa¸c˜ao . . . 18

4.3 Limitante Inferior Combinat´orio . . . 21

5 Resultados Computacionais 23 5.1 Ambiente dos Experimentos . . . 23

5.2 Instˆancias de Teste . . . 23

5.3 An´alise dos Resultados . . . 23

(11)

Cap´ıtulo 1

Introdu¸

c˜

ao

Robert E. Bixby, em [2], define um problema de otimiza¸cão combinatória como: Sejam E um conjunto finito, S uma fam´ılia de subconjuntos de E e w ∈ R|E| uma fun¸cão peso de valores reais definida sobre os elementos de E. O problema de otimiza¸cão combinatória associado é encontrar um conjunto S∗ _{∈ S tal que}

w(S∗) = max

S∈S w(S)

onde w(S) =P

e∈Sw(e).

Nesta pesquisa desenvolveu-se métodos para resolver um problema de sele¸cão de strings (cadeia de caracteres), conhecido por Closest String Problem (CSP). O CSP é um rele-vante problema de otimiza¸cão combinatória da área de bioinformática e tem aplica¸cões no desenvolvimento de remédios, conforme [5].

A defini¸cão do CSP é baseada no conceito de distância de Hamming: Dadas duas strings quaisquer, s e t, de mesmo tamanho (número de caracteres), a distância de Ham-ming, denotada por dH(s, t), mede o número de posi¸cões em que s e t diferem. Por

exemplo, se s =CCACT e t =TACCA, ent˜ao dH(s, t) = 4.

O CSP consiste em: dado um conjunto finito S ={s1_{, s}2_{, · · · , s}n_{} com n strings, todas}

de mesmo tamanho m, sobre um alfabeto A, deseja-se encontrar uma string x, de tamanho m, sobre A, que minimiza o valor de d tal que para cada string si ∈ S tenha dH(x, si) ≤ d.

Em outras palavras, desejou-se encontrar uma string x que é mais próxima a todas as strings em S, considerando como medida de proximidade a distância Hamming.

(12)

Em [7] são apresentados modelos matemáticos para problemas de sele¸cão de strings, que mantêm uma estreita liga¸cão com o CSP. Estes problemas são definidos formalmente na subse¸cão2.1. Decidimos estudar o CSP porque:

• Ele é um problema que surge durante o processo de cria¸cão de certos remédios; • Métodos desenvolvidos para resolver o CSP podem ajudar na compreensão de como

resolver os problemas listados na subse¸c˜ao2.1;

• Acredita-se que é poss´ıvel desenvolver um método exato que é melhor do que o atualmente melhor método ([8]) para o CSP.

As contribui¸c˜oes com esta pesquisa s˜ao as seguintes:

• Identificou-se uma classe de inequa¸cões válidas (cortes) para o poliedro apresentado em [8]. Criou-se um algoritmo de tempo polinomial em n, que separa essas ine-qua¸cões;

• Criou-se uma fórmula para o cálculo de limitante inferior no valor de uma solu¸cão ´

otima.

(13)

Cap´ıtulo 2

Defini¸

c˜

oes e Conceitos B´

asicos

Neste cap´ıtulo define-se cinco problemas associados ao Closest String Problem e métodos que podem ser utilizados para resolvê-los. Além disso, são lembrados vários conceitos e técnicas usadas para solucionar problemas de otimiza¸cão combinatória.

2.1 Problemas de Sele¸

c˜

ao de Strings

Nesta se¸cão define-se formalmente cinco problemas de sele¸cão de strings associados ao CSP, cujas versões de decisão pertencem a classe de complexidade NP-Completo, conforme provado em [5]. Cada problema é exemplificado por uma instância e uma solu¸cão. Como ficará claro no próximo cap´ıtulo, o estudo realizado para resolver instâncias do CSP é útil para resolver instâncias daqueles problemas. As defini¸cões formais desses problemas são as seguintes:

Farthest String Problem (FSP)

Dado um conjunto finito S ={s1_{, s}2_{, · · · , s}n_{} com n strings, cada uma de tamanho}

m, sobre um alfabeto A, deseja-se encontrar uma string x de tamanho m sobre A, que maximiza d tal que para qualquer string si _{∈ S, tem-se d}

H(x, si) ≥ d.

Como exemplo de uma instância do Farthest String Problem considere o conjunto de strings S = {AAACA,GTCTA,AATGC,CTTAC}. Uma solu¸cão ótima é dada pela string x =TCGAG com d = 4.

Closest Substring Problem (CSubSP)

Dado um conjunto finito S = {s1, s2, · · · , sn} com strings de tamanho no m´ınimo m sobre um alfabeto A, deseja-se encontrar uma string x de tamanho m sobre A, que minimiza d tal que para toda string si _{in S, a rela¸c˜}_{ao d}

H(x, y) ≤ d ´e verdadeira para

(14)

Como exemplo considere S = {AAT,CCAA,CCTA,TCA}. Uma solu¸cão viável é dada pela string ACA com d = 2.

Farthest Substring Problem (FSubSP)

Dado um conjunto finito S ={s1, s2, . . . , sn} com strings de tamanho no m´ınimo m sobre um alfabeto A, deseja-se encontrar uma string x de tamanho m sobre A, que maximiza d tal que para toda string si in S e toda substring y, de tamanho m, de si, tem-se dH(x, y) ≥ d.

Como exemplo considere S = {AAT,CCAA,CCTA,TCA}. Uma solu¸cão viável é a string ACA com d = 1.

Close to Most String Problem (CMSP)

Dado um conjunto finito S = {s1, s2, . . . , sn} com strings de tamanho m sobre um alfabeto A e um limiar k > 0, deseja-se encontrar uma string x de tamanho m sobre A, que maximiza o n´umero de strings si ∈ S tal que dH(x, si) ≤ k.

Como exemplo considere S = {AATCC,CCAAT,CCTAC,TCACC}. Se k = 3, então uma solu¸cão ótima é CCTCT com quatro strings satisfazendo dH(x, si) ≤ 3. Se k = 2,

então uma solu¸cão ótimza é ACAAC e três strings respeitam dH(x, si) ≤ 2.

Distinguishing String Selection Problem (DSSP)

Dados dois conjuntos finitos de strings Sce Sf, todas as strings de tamanho no m´ınimo

m, sobre um alfabeto A, e dois n´umeros inteiros positivo kce kf, deseja-se encontrar uma

string x de tamanho m sobre A tal que para cada string sc∈ Sc, existe alguma substring

yc, de tamanho m, de scsatisfazendo dH(x, yc) ≤ kc, e para toda substring yf, de tamanho

m, de sf ∈ Sf tem-se dH(x, yf) ≥ kf.

Como exemplo, considere Sc = {AATCC,CCAAT,CCTAC,TCACC} e o conjunto

Sf = {AATAA,CCACT,GGTAC,TCAAC}. Se kc = 3 e kf = 2, ent˜ao ACACC ´e uma

solu¸c˜ao vi´avel.

Observe que os quatro primeiros problemas acima são problemas de otimiza¸cão, en-quanto o último é um problema de decisão. Como dito no in´ıcio deste cap´ıtulo, estes cinco problemas mantêm estreita rela¸cão com o CSP.

A figura a seguir mostra as rela¸cões entre os problemas, em termos das redu¸cões, e consequentes complexidades computacionais. Por 2SAT, 3SAT e ISP queremos indicar os problemas 2-satisfatibilidade, 3-satisfatibilidade e Independent Set Problem, respecti-vamente. Lembre que é conhecido um algoritmo determin´ıstico de tempo polinomial para o 2SAT e que os problemas 3SAT e ISP pertencem a classe NP-Completo.

(15)

3SAT FSP DSSP FSubSP CSP CSubSP DSSP [5] [5] [5] [5] [5] [5] ISP FFMSP CMSP 2SAT [3] [3] [3]

(16)

2.2 Distˆ

ancia de Hamming

Uma métrica em um conjunto X é uma fun¸cão, chamada fun¸cão de distância ou simples-mente distância, dada por:

d : X × X → <,

onde < é o conjunto dos números reais. Para todo x, y, z ∈ X, esta fun¸cão precisa satisfazer as seguintes condi¸cões:

1. d(x, y) ≥ 0 (n˜ao-negatividade)

2. d(x, y) = 0 se e somente se x = y (identidade) 3. d(x, y) = d(y, x) (simetria)

4. d(x, z) ≤ d(x, y) + d(y, z) (desigualdade triangular).

Seja (Fm)no conjunto de todas as n-tuplas ordenadas a = a1a2...anonde cada ai ∈ Fm.

Fm é um alfabeto, o m-ésimo elemento é obtido do conjunto de sequências de s´ımbolos

onde cada s´ımbolo ´e escolhido do conjunto Fm = {λ1, λ2, ..., λm} de m elementos

diferen-tes. A distância de Hamming entre dois vetores x e y de (Fm)n é o número de posi¸cões

nas quais eles diferem. Isto ´e denotado por dH(x, y). Por exemplo, no (F2)5 temos

dH(00111, 11001) = 4, enquanto em (F3)4 obtemos dH(0122, 1220) = 3.

A distância de Hamming é uma fun¸cão distância leg´ıtima ou uma métrica que deve satis-fazer as seguintes condi¸cões, para todo x, y, z ∈ (Fm)n:

(i) dH(x, y) ≥ 0

(ii) dH(x, y) = 0 se e somente se x = y

(iii) dH(x, y) = dH(y, x)

(iv) dH(x, z) ≤ dH(x, y) + dH(y, z).

2.3 Conceitos B´

asicos em Programa¸

c˜

ao Linear

Como é pretendido resolver instâncias do CSP utilizando uma abordagem baseada em combinatória poliédrica, esta se¸cão relembra alguns conceitos básicos em Programa¸cão Linear. Os teoremas e defini¸cões abaixo foram compilados de [4, 9,12].

(17)

de inequa¸cões e equa¸cões lineares. Os pontos nesta região formam o conjunto de solu¸cões viáveis do problema PL. Tal problema pode ser escrito na forma de matriz como:

min {cx : Ax ≥ b, x ∈ Rn+},

onde c ∈ Rn_{, A ´}_{e uma matriz m × n de constantes reais e b ∈ R}m_.

Teorema 2.1. O conjunto de solu¸c˜oes vi´_{aveis X = {x : Ax ≥ b, x ∈ R}n

+} para o problema

é um conjunto convexo, i.e., qualquer ponto, exceto um vértice, em X é uma combina¸cão linear convexa de outros dois pontos em X .

Defini¸c˜_{ao 2.1. O conjunto convexo X = {x : Ax ≥ b, x ∈ R}n₊} ´e denominado poliedro. Se X ´e limitado, i.e., X ⊆ {x : −w ≤ xj ≤ w, ∀ j ∈ {1, 2, · · · , n}} para algum w ∈ R+,

ent˜ao X ´e chamado de politopo.

Defini¸cão 2.2. Um vértice de um poliedro X é qualquer ponto x ∈ X o qual não pode ser expresso como uma combina¸cão convexa de outros pontos de X \{x}.

Teorema 2.2. Se o valor ´otimo de uma fun¸c˜_{ao linear num poliedro X ⊆ R}n_´_{e finito, ent˜}_ao

ele é atingido em pelo menos um vértice. Se este for obtido em mais que um vértice, então pode ser obtido também por qualquer ponto que seja uma combina¸cão linear convexa destes vértices.

Teorema 2.3. Um problema de PL pode ser resolvido em tempo polinomial sobre n, m e θ, onde n é o número de variáveis do problema, m é o número de restri¸cões, e θ é o maior coeficiente da matriz A.

2.4 Programa¸

c˜

ao Linear Inteira (PLI)

Nesta se¸cão discutimos alguns métodos normalmente utilizados na resolu¸cão de problemas, que admitem uma formula¸cão em programa¸cão linear, onde exige-se solu¸cões inteiras. Os conceitos discutidos nesta se¸cão foram compilados de [4, 10,13].

Considere o problema de programa¸c˜ao linear abaixo: min {cx : Ax ≥ b, x ∈ Rn+},

onde c ∈ Rn_{, A ´}_{e uma matriz m × n de constantes reais e b ∈ R}m_.

(18)

Geralmente problemas PLI 0-1 pertencem a classe NP-dif´ıcil. Uma maneira de resolver estes problemas é utilizando suas relaxa¸cões lineares. Numa relaxa¸cão linear as restri¸cões de integralidade são substitu´ıdas por restri¸cões lineares. Existem duas abordagens cl´ as-sicas para resolver problemas PLI 0-1 utilizando relaxa¸cões lineares: (a) algoritmo de Cutting Planes Fracionário (ACPF) e o algoritmo de branch-and-bound ou (b) enumera-¸cão impl´ıcita. Denotaremos por S o conjunto de solu¸cões viáveis de um problema PLI 0-1.

2.4.1 Algoritmo de Cutting Planes

ACPF são baseados no uso de inequa¸cões válidas (cortes) para S, i.e, inequa¸cões que são satisfeitas por todos os pontos de S.

A cada itera¸c˜ao i de ACPF, uma relaxa¸c˜ao LPi _{do problema P LI ´}_{e resolvida. Seja}

xi _{uma solu¸c˜}_{ao ´}_{otima obtida ao se resolver a relaxa¸c˜}_{ao linear LP}i_{. Se x}i _est´_{a em S, o}

algoritmo p´ara, retornando xi _{como uma solu¸c˜}_{ao ´}_{otima do problema P LI. Caso contr´}_ario,

a relaxa¸c˜ao deve ser melhorada. Para isto, encontra-se uma desigualdade v´alida πx ≥ π0

para S que ´e violada por xi_{. Uma nova itera¸c˜}_{ao ´}_{e executada para a relaxa¸c˜}_{ao LP}i+1_,

obtida de LPi _{incluindo-se a desigualdade πx ≥ π} 0.

Sejam zi e zi+1 os valores das solu¸cões ótimas de LPi e LPi+1 respectivamente, isto é, zi _{= cx}i _{e z}i _{= cx}i+1_{. Assumindo que o P LI ´}_{e um problema de minimiza¸c˜}_{ao, tem-se}

que zi+1 _{≥ z}i_{, ou seja, o limitante inferior fornecido pelo valor ´}_{otimo da relaxa¸c˜}_{ao linear}

cresce monotonicamente a cada itera¸c˜ao, aproximando-se do valor ´otimo do P LI.

O estudo inicial de adi¸cão de desigualdades válidas para problemas PLI gerais foi feito por Gomory na década de 50. Embora o algoritmo proposto por ele sempre termine em tempo finito, as desigualdades que ele sugeriu para adicionar à formula¸cão (cortes de Gomory) não eram eficientes na prática, pois o algoritmo torna-se muito lento.

Mais tarde, percebeu-se que o motivo do insucesso obtido pela aplica¸cão dos cortes de Gomory, era decorrente do seu excesso de generalidade. Independente do problema P LI que se esteja resolvendo, sempre é poss´ıvel gerar um corte de Gomory que elimina uma solu¸cão cont´ınua. No entanto, esse corte pode não ser suficiente para capturar a estrutura da envoltória convexa das solu¸cões inteiras do P LI. Cortes com essa propriedade são o objeto de estudo da Combinatória Poliédrica que fez ressurgir, principalmente a partir da década de 80, o interesse pelos algoritmos de corte.

2.4.2 Algoritmo de Branch-and-Bound

(19)

A primeira é a decomposi¸cão do problema original em subproblemas. A segunda opera¸cão envolve o cálculo de limites inferiores (ou superiores) ao valor da fun¸cão objetivo. O propósito é acelerar o processo de descarte de subproblemas que não podem gerar solu¸cões promissoras, diminuindo, consequentemente, a enumera¸cão.

Normalmente, a decomposi¸cão é constru´ıda recursivamente. Isto permite uma repre-senta¸cão gráfica de todo o processo em termos de uma árvore de enumera¸cão. Nesta representa¸cão, os filhos de um dado nó formam a decomposi¸cão da região viável de seu pai.

Em geral, para problemas P LI 0-1, a árvore de enumera¸cão é uma árvore binária. Cada nó i da árvore corresponde a uma relaxa¸cão linear LPi do problema P LI definido em um subconjunto Si de S. Seja xi uma solu¸cão ótima encontrada para LPi e zi = cxi. Dependendo do valor de zi _{(bound), o n´}_{o i pode ser expandido (branching) para outros dois}

nós (seus filhos) ou pode ser cortado (ou podado), i.e, o subconjunto de solu¸cões viáveis do nó i é particionado em dois novos subconjuntos ou ele não será mais particionado durante os passos seguintes do algoritmo. O algoritmo termina quando todos os nós estiverem podados. Retorna-se como solu¸cão do P LI, a solu¸cão inteira do nó da árvore com menor valor (para um problema de minimiza¸cão) de fun¸cão objetivo.

2.4.3 Algoritmo de Branch-and-Cut

Seja Conv(S) a envoltória convexa do conjunto viável S. A envoltória convexa de S é um poliedro e portanto, pode ser descrita por um sistema de desigualdades e igualdades lineares. Se o sistema linear que descreve completamente Conv(S) está dispon´ıvel, o problema P LI pode, em princ´ıpio, ser resolvido eficientemente por programa¸cão linear, visto que todos os pontos extremos são solu¸cões viáveis inteiras em S (veja defini¸cão2.2 e teorema2.3). Infelizmente, para problemas que pertencem a classe N P -dif´ıcil, geralmente o número de desigualdades de tal sistema é exponencial, no tamanho da entrada, e somente algumas desigualdades da descri¸cão de Conv(S) são conhecidas.

Assuma, portanto que uma certa classe F de desigualdades v´alidas para Conv(S) s˜ao conhecidas. Al´_{em disso, dado um ponto qualquer x ∈ R}n

+ assuma que disp˜oe-se de um

algoritmo que procura por uma desigualdade em F que é violada por x. Tal algoritmo é chamado uma rotina de separa¸cão para F .

Branch-and-Cut é um método para resolver problemas PLI, que incorpora uma fase de cutting plane ao algoritmo de branch-and-bound. Na fase de cutting plane o algortimo só irá gerar desigualdades que perten¸cam à classe F , definida anteriormente.

Para cada nó i da árvore de enumera¸cão, Pi _{= {x ∈ R}m+n _{: A}i_{x ≥ b, 0 ≤ x ≤ 1} ´}_{e o}

(20)

linear e ela tem variáveis fracionárias, a rotina de separa¸cão é chamada para procurar uma desigualdade violada em F . Se a rotina de separa¸cão retorna uma desigualdade πx ≥ π0, esta desigualdade é inclu´ıda no sistema de desigualdades definindo Pi, e LPi é

resolvido novamente. Continuamos fazendo isto até xi ser inteiro ou zi ser maior do que o atual upper bound dispon´ıvel, ou a rotina de separa¸cão falhar em produzir uma nova desigualdade em F que corte o ponto xi. Neste último caso, uma variável é escolhida para fazer um branching.

(21)

Cap´ıtulo 3

Trabalhos Anteriores

Neste cap´ıtulo descrevemos um trabalho encontrado na literatura cient´ıfica que trata o CSP. Este trabalho propõe uma heur´ıstica e três modelos matemáticos para o CSP e mostra vários resultados computacionais.

3.1 Heur´ıstica para o CSP

A heur´ıstica proposta em [8] gera solu¸cões iniciais viáveis para o CSP e realiza uma busca local nessas solu¸cões. Verifica-se que o algoritmo1gera resultados iniciais e posteriormente no algoritmo2constroem-se as solu¸cões a partir da solu¸cão inicial. Impressionantemente, este algoritmo é capaz de produzir resultados de excelente qualidade, conforme comprovam os experimentos computacionais mostrados no cap´ıtulo5.

O algoritmo1seleciona uma das strings em S e a modifica até que uma solu¸cão local-mente ótima seja encontrada. Conforme provado em [8], o algoritmo1tem complexidade de tempo O(nmN ), para N ≥ n.

No primeiro passo, o algoritmo procura por uma solu¸cão s ∈ S que seja a mais próxima a todas as demais strings em S. No segundo passo, as distâncias d entre s e o resto das strings são calculadas. No último passo do algoritmo um procedimento de busca local é aplicado como segue:

• Seja r uma string em S tal que para dH(r, si), onde i ∈ {1, · · · , n}, seja a m´axima,

e seja s uma solu¸c˜ao atual. Logo, para i ∈ {0, ..., m}, se si 6= ri ent˜ao trocamos os

valores si por ri cuja solu¸c˜ao s tende a melhorar. A seguir tal troca ´e efetuada e a

distˆancia Hamming entre s e as demais strings em S s˜ao atualizadas.

(22)

Input: Instˆancia S = {s1_{, · · · , s}n_}

Output: String s, distˆancia d s ← {y ∈ S | min_si_∈Sd_H(y, si)}

d ← maxi∈{1,...,n}dH(s, si)

Melhora Solu¸c˜ao(s, d, N )

Algoritmo 1: Gera solu¸c˜oes vi´aveis para o CSP

Input: instância S, solu¸cão corrente s, distância d e parâmetro N (número de itera¸cões)

Output: solu¸c˜ao resultante s e distˆancia d for k ← 1 to n do

d0_k ← dk← dH(sk, s)

end

for i ← 1 to N do

b ← i tal que dH(si, s) = d /* resolva o empate aleatoriamente */

for j ← 1 to m tal que sb

j 6= sj do

max ← −1

for k ← 1 to n tal que k 6= b do

if (sj = skj) e (sbj 6= skj) then dk ← dk+ 1

else if (sj 6= skj) e (sbj = skj) then dk← dk− 1

if (max < dk) then max ← dk

end

if d ≥ max /* n˜ao ´e pior */ then d ← max; tj ← sbj for k ← 1 to n do d0_k ← dk else for k ← 1 to n do dk ← d0k end end end

Algoritmo 2: Terceiro passo do Algoritmo 1: Melhora Solu¸c˜ao

(23)

Cap´ıtulo 4

Estudo em Combinat´

oria Poli´

edrica

Focados no estudo poli´edrico do Closest String Problem (CSP), alcan¸camos os seguintes resultados:

(a) Uma classe de inequa¸cões válidas para uma formula¸cão proposta em [8] e

(b) Um algoritmo de complexidade polinomial que separa as inequa¸c˜oes daquela classe.

Os resultados mostrados neste cap´ıtulo fazem parte de uma colabora¸c˜ao com o Prof. Giuseppe Lancia, que trabalha no Department of Mathematical and Computer Science, University of Udine, Italy.

Come¸camos o estudo relembrando uma formula¸cão em programa¸cão Linear Inteira 0-1 (PLI 0-1) para o CSP, descrita em [8], em seguida apresentamos uma nova classe de planos de corte e então um algoritmo de branch-and-cut.

4.1 Formula¸

c˜

ao em Programa¸

c˜

ao Inteira

Em [8] são apresentadas três formula¸cões em PLI 0-1 para o CSP. A terceira delas é base-ada no teorema a seguir, que reduz o espa¸co das solu¸cões viáveis para qualquer instância do CSP.

Teorema 4.1. [8] Dada uma instˆancia do Closest String Problem, existe uma solu¸c˜ao ´

otima onde o caracter ótimo na posi¸cão k está também na posi¸cão k em uma das strings no conjunto S = {s1_{, s}2_{, . . . , s}n_{} de strings.}

Exemplo 4.1. Seja S = {AATCC,CCAAT,CCTAC,TCACC}. Defina Vk = ∪ni=1{sik}

para k = 1, . . . , m. Ent˜ao os conjuntos Vk s˜ao: V1 = {A, C, T }, V2 = {A, C}, V3 =

(24)

´

otima, x = (x1, x2, x3, x4, x5), ´e suficiente atribuir ao componente xk, um elemento do

conjunto Vk para j = 1, . . . , 5. Assim, x =ACTAT é, por exemplo, uma solu¸cão viável.

A partir da seguinte defini¸cão para as variáveis binárias xj,k

xj,k =

(

1 se o caracter j é usado na posi¸cão k em uma solu¸cão 0 caso contrário

os autores em [8] propuseram a formula¸c˜ao:

min d (4.1) s.a.: X j∈Vk xj,k = 1 k = 1, . . . , m (4.2) d ≥ m − m X k=1 x_si k,k i = 1, . . . , n (4.3) xj,k ∈ {0, 1} j ∈ Vk; k = 1, . . . , m (4.4) d ≥ 0 e inteiro (4.5)

Note que esta formula¸c˜ao tem m + n restri¸c˜oes e 1 +Pm

k=1|Vk| vari´aveis de decis˜ao. A

restri¸cão (4.2) faz com que cada vetor solu¸cão x tenha na posi¸cão k um dos caracteres em Vk. A restri¸cão (4.3) calcula a distância de Hamming entre o vetor solu¸cão x e as strings

em S. A restri¸c˜ao (4.4) faz com que as vari´aveis xj,k assumam valores 0 ou 1, enquanto

que a restri¸cão (4.5) garante que a variável d seja um número inteiro não negativo. Por motivo óbvios, desejamos minimizar o valor de d.

Conforme relatado em [8], a formula¸cão mostrada acima é muito forte. Isto é, os valores das relaxa¸cões lineares, para as várias instâncias testadas, tiveram valores muito próximos aos valores das solu¸cões ótimas encontradas.

Os resultados descritos naquela referência mostraram evidências de que o método branch-and-bound, lá utilizado, teve mais dificuldades para resolver instâncias com alfa-betos com poucos caracteres. Por exemplo, instâncias com alfabeto binário mostraram-se mais dif´ıceis, para o branch-and-bound, do que instâncias cujo alfabeto tinha quatro ca-racteres. Esta rela¸cão é investigada no cap´ıtulo 5, Experimentos Computacionais.

(25)

4.2 Nova Classe de Planos de Corte e sua Separa¸

c˜

ao

Considere o Programa Linear (PL) obtido a partir da relaxa¸cão da formula¸cão descrita na se¸cão anterior. Isto é, considere

P L :                min d s.a.: P j∈Vkxj,k = 1 k = 1, . . . , m d ≥ m −Pm k=1xsi k,k i = 1, . . . , n 0 ≤ xj,k ≤ 1 j ∈ Vk; k = 1, . . . , m d ≥ 0

Note os dom´ınios das vari´aveis xj,k e d no programa linear acima.

Assuma que temos uma solu¸cão viável, de valor D, para uma instância do CSP. Possi-velmente uma boa solu¸cão viável, assim que D é provavelmente ótimo. Esta boa solu¸cão viável poderia, por exemplo, ser obtida utilizando um procedimento de arredondamento a partir da solu¸cão da relaxa¸cão linear da formula¸cão acima ou a heur´ıstica descrita na se¸cão3.1.

Seja S = {s1_{, s}2_{, ..., s}n_{}, com |s}i_{| = m para i = 1, . . . , n. Tome qualquer string s}i _{∈ S}

e considere qualquer subconjunto B de si _{consistindo de D caracteres. Comparando-se}

as correspondentes posi¸c˜oes de B em si_{, tem-se que uma solu¸c˜}_{ao ´}_{otima para S n˜}_{ao pode}

ser diferente em todos os caracteres em B, caso contrário esta solu¸cão teria valor maior ou igual a D. Como já tem-se uma solu¸cão de valor D, então procura-se por uma solu¸cão de valor menor ou igual D − 1. Portanto, conclu´ı-se que

X

k∈Ind(B)

x_si

k,k ≥ 1 (4.6)

é uma inequa¸cão válida (corte) para o PL, onde Ind(B) é o conjunto das ´ındices de B em si_.

Exemplo 4.2. Seja S = {s1_{, s}2_{, s}3_{}, onde s}1 _{= ACT , s}2 _{= CCG e s}3 _{= T CA.}

Conside-rando o resultado no Teorema 4.1, tem-se que uma solu¸c˜ao ´otima x = (x1, x2, x3) para S

satisfaz x1 ∈ V1 = {A, C, T }, x2 ∈ V2 = {C} e x3 ∈ V3 = {A, G, T }. Observe que a string

x = ACG é uma solu¸cão viável e tem valor 2.

(26)

s˜ao:

xA,1+ xC,2 ≥ 1

xA,1+ xT ,3 ≥ 1

xC,2+ xT ,3 ≥ 1

Aplicando-se a mesma ideia para s2 _{= CCG, obtemos os cojuntos de ´ındices Ind(CC) =}

{1, 2}, Ind(CG) = {1, 3} e Ind(CG) = {2, 3} e portanto os cortes: xC,1+ xC,2≥ 1

xC,1+ xG,3≥ 1

xC,2+ xG,3≥ 1

Finalmente, para s3 _{= T CA obtem-se os cojuntos de ´ındices Ind(T C) = {1, 2}, Ind(T A) =}

{1, 3} e Ind(CA) = {2, 3} e portanto os cortes: xT ,1+ xC,2 ≥ 1

xT ,1+ xA,3 ≥ 1

xC,2+ xA,3 ≥ 1

Com isto conclu´ı-se o exemplo.

Existem n × m_D inequa¸cões poss´ıveis (isto é um número exponencial, visto que D pode ser proporcional a m). Agora mostra-se como encontrar um corte violado (se ele existe) em tempo polinomial.

Teorema 4.2. Inequa¸c˜oes (4.6) podem ser separadas em tempo polinomial, nominalmente em O(nm log m).

Demonstra¸cão. Suponha que x∗ é uma solu¸cão fracionária ótima obtida pela relaxa¸cão linear. Considere cada string si _{∈ S, uma por vez. Para k = 1, . . . , m defina}

aj = x∗_si k,k

Por exemplo, para s1 _temos

a1 = x∗_s1 1,1, a2 = x ∗ s1 2,2, a3 = x ∗ s1 3,3, . . . , am−1 = x ∗ s1 m−1,m−1, am = x ∗ s1 m,m.

Considerando o Exemplo4.2, temos para s1 = ACT : a1 = x∗A,1, a2 = x∗C,2, a3 = x∗T ,3.

Agora ordene os aj em ordem n˜ao decrescente, ap(1) ≤ ... ≤ ap(m), e denote por B o

(27)

B alcan¸ca a m´ınima soma poss´ıvel de x∗ com rela¸c˜ao a si_{. Se esta soma for menor que 1,}

então teremos encontramos uma inequa¸cão (4.6) violada; caso contrário não há inequa¸cões violadas para si, e então passamos para a análise de si+1. Ou seja, sePD

k=1ap(k) < 1 ent˜ao

a inequa¸c˜ao PD

k=1xsi_[p(k)],p(k) ≥ 1 precisa ser inclu´ıda no modelo linear.

Para mostrar como ocorre o funcionamento do algoritmo considere o seguinte exemplo. Exemplo 4.3. Seja S = {AT T GGA, CT GAT G, CT GACT, AGT CGA, GCCT GT } uma instˆancia do CSP. A partir do conjunto S contrua os conjuntos Vi da seguinte maneira:

V1 = {A, C, G}, V2 = {C, G, T }, V3 = {C, G, T }, V4 = {A, C, G, T }, v5 = {C, G, T } e

v6 = {C, G, T }. O correspondente modelo em programa¸c˜ao linear ´e:

min d s.a. : xA,1+ xC,1+ xG,1= 1 xC,2+ xG,2+ xT ,2 = 1 xC,3+ xG,3+ xT ,3 = 1 xA,4+ xC,4+ xG,4+ xT ,4= 1 xC,5+ xG,5+ xT ,5 = 1 xA,6+ xG,6+ xT ,6= 1 d + xA,1+ xT ,2+ xT ,3+ xG,4+ xG,5+ xA,6 ≥ 6 d + xC,1+ xT ,2+ xG,3+ xA,4+ xT ,5+ xG,6≥ 6 d + xC,1+ xT ,2+ xG,3+ xA,4+ xC,5+ xT,6 ≥ 6 d + xA,1+ xG,2+ xT ,3+ xC,4+ xG,5+ xA,6≥ 6 d + xG,1+ xC,2+ xC,3+ xT ,4+ xG,5+ xT ,6 ≥ 6 0 ≤ xj,k ≤ 1 j ∈ Vk; k = 1, . . . , 6 d ≥ 0

Uma solu¸cão ótima para o programa linear acima é dada por: d = 3.666667, xA,1 =

0.75, xC,1 = 0.25, xT,2 = 0.583333, xG,2 = 0.416667, xG,3 = 1.0, xC,4 = 0.166667, xT ,4 =

0.833333, xG,5 = 1.0, xG,6 = 0.5, xT ,6 = 0.5 e todas as outras vari´aveis tˆem valores iguais

a zero. Sendo d = 3.666667 segue que, em uma solu¸cão ótima inteira, o valor de d precisa ser maior ou igual a 4. Adicionando o plano de corte d ≥ 4 ao programa linear e resolvendo-o novamente, obtemos a solu¸cão: d = 4.0, xA,1 = 0.5, xC,1 = 0.5, xT,2 = 0.5,

xG,2 = 0.5, xG,3 = 1.0, xT ,4 = 1.0, xG,5 = 1.0, xG,6 = 1.0 e todas as outras vari´aveis tˆem

valores iguais a zero.

(28)

Hamming de x para as strings em S s˜ao: d(x, s1) = d(AT T GGA, AT GT CG) = 4 d(x, s2) = d(CT GAT G, AT GT CG) = 3 d(x, s3) = d(CT GACT, AT GT CG) = 3 d(x, s4) = d(AGT CGA, AT GT CG) = 5 d(x, s5) = d(GCCT GT, AT GT CG) = 5

Consideramos agora a classe de cortes (4.6): para D = 5 as seguintes inequa¸c˜oes s˜ao violadas:

xG,2+ xT ,3+ xC,4+ xG,5+ xA,6 ≥ 1 (4.7)

xG,1+ xC,2+ xC,3+ xG,5+ xT,6 ≥ 1 (4.8)

As inequa¸cões (4.7) e (4.8) foram determinadas a partir de s4 e s5, respectivamente. Incluindo estas inequa¸cões no programa linear, junto com d ≥ 4, e resolvendo o programa linear novamente obtemos uma solu¸cão ótima inteira dada por x = CT CCGG e d = 4. Comparando x com as strings em S vemos:

d(x, s1) = d(AT T GGA, CT CCGG) = 4 d(x, s2) = d(CT GAT G, CT CCGG) = 3 d(x, s3) = d(CT GACT, CT CCGG) = 4 d(x, s4) = d(AGT CGA, CT CCGG) = 3 d(x, s5) = d(GCCT GT, CT CCGG) = 4

4.3 Limitante Inferior Combinat´

orio

Agora estabelece-se um limite inferior no valor de qualquer solu¸cão ótima para qualquer instância do CSP. Para cada posi¸cão j da string si _{∈ S, denote por S}α

j o subconjunto de

strings de S que tˆem o caracter α na posi¸c˜ao j. Defina djα= n − |Sjα|. Em palavras, djα

(29)

Lema 4.1. L ´e um limitante inferior v´alido para o CSP.

Demonstra¸cão. Independentemente de qual caracter aparece na posi¸cão j em uma solu¸cão, ele entrará em conflito com no m´ınimo dj strings naquela posi¸cão. Somando sobre todas

as posi¸cões, este é o número total de conflitos (i.e., a soma das distâncias de Hamming) da solu¸cão com rela¸cão as strings da instância, e dividindo por n obtemos que a média da distância de Hamming de qualquer solu¸cão precisa ser no m´ınimo d

Pm j=1dj

n e. Mas como o

máximo é no m´ınimo a média (e podemos também arredondar para o primeiro número inteiro), obtemos o lema.

(30)

Cap´ıtulo 5

Resultados Computacionais

Neste cap´ıtulo apresentamos os experimentos computacionais realizados sobre instˆancias do CSP.

5.1 Ambiente dos Experimentos

Todas as implementa¸cões foram desenvolvidas em C++ e utilizou-se o compilador Gnu C++ sem otimiza¸cões. Os testes foram realizados em um computador com a seguinte configura¸cão: Dell processador Intel Core I5 3.33 Ghz com 4 GB de memória RAM e sistema operacional Linux Ubuntu 11.04 com endere¸camento de 32 bits. O solver IBM ILOG CPLEX versão 12.4 foi utilizado para resolver relaxa¸cões lineares e na implemen-ta¸cão do branch-and-cut. Deste ponto em diante do texto trata-se por CPLEX o solver IBM ILOG CPLEX versão 12.4.

5.2 Instˆ

ancias de Teste

Noventa e uma instâncias do CSP foram geradas utilizando o gerador de instâncias des-crito na referência [8]. Estas instâncias consideram alfabetos com dois, quatro e vinte caracteres.

5.3 An´

alise dos Resultados

(31)

seja, o modelo de programa¸cão linear correspondente a uma instância é resolvido e caso a sua solu¸cão seja fracionária, então são gerados todos os cortes válidos para esta solu¸cão.

Utilizando a classe de inequa¸cões, discutida no cap´ıtulo anterior, para aquela solu¸cão, cortes são inseridos no modelo de programa¸cão linear, e a relaxa¸cão linerar é novamente computada. Caso a nova solu¸cão seja inteira o método para, caso contrário novos cortes são inseridos ao modelo e o processo é repetido.

A segunda abordagem é simplesmente resolver os modelos de programa¸cão linear in-teira correspondentes às instâncias, utilizando o CPLEX.

Os resultados obtidos com as implementa¸c˜oes s˜ao apresentados nas Tabelas5.1 a 5.4. Os cabe¸calhos nas tabelas indicam:

• Instância: o tamanho da instância (n, m) e a semente utilizada para gerá-la;

• Relaxa¸cão linear: (OPT: valor ótimo, CPU: tempo de CPU, em horas, minutos e segundos, para calcular a relaxa¸cão linear);

• Plano de Cortes: (Método padrão de planos de cortes), informando o número de planos de cortes inseridos no nó raiz da árvore de enumera¸cão, o valor de uma solu¸cão ótima obtido com esta técnica e o tempo de CPU, e

• Programa¸cão Inteira: (OPT: valor ótimo, CPU: tempo de CPU, em horas, minutos e segundos, para encontrar uma solu¸cão ótima inteira).

Foram realizados diversos experimentos com instˆancias de diferentes tamanhos. Dos resultados mostrados nas tabelas conclui-se:

(a) O modelo em programa¸cão linear fornece excelentes limitantes inferiores aos valores de solu¸cões ótimas inteiras;

(b) Foram encontradas relativamente muitas inequa¸cões violadas no nó raiz da árvore de eumera¸cão do branch-and-cut;

(32)

Tabela 5.1: Instˆancias do CSP considerando um alfabeto com dois caracteres

Instância Relaxa¸cão linear Planos de Corte Programa¸cão Inteira

n m Semente OPT CPU NumPC OPT CPU OPT CPU

10 1000 543 375,9 < 1s 0 377 < 1s 377 1s 10 1250 65743 473 < 1s 0 474 < 1s 474 1s 10 1500 65743 566,4 < 1s 10 567 < 1s 567 < 1s 10 1750 4432 650,8 < 1s 0 652 1s 652 2s 10 2000 543 750,8 < 1s 0 752 < 1s 752 1s 10 2500 344 945,1 < 1s 20 946 < 1s 946 < 1s 10 3000 34567 1128 < 1s 0 1129 < 1s 1129 1s 10 3500 344 1309,8 < 1s 16 1311 1s 1311 2s 10 4000 4432 1516 < 1s 0 1517 < 1s 1517 1s 10 4500 543 1696,6 < 1s 0 1697 < 1s 1697 < 1s 10 5000 34567 1892,6 < 1s 20 1893 1s 1893 1s 15 1000 344 396,6 < 1s 231 397 6s 397 12s 15 1250 543 498,7 < 1s 282 500 13s 500 14s 15 1500 34567 591,6 < 1s 335 592 7s 592 13s 15 1750 4432 690,2 < 1s 414 691 6s 691 6s 15 2000 344 797,9 < 1s 796 799 31s 799 34s 15 2500 65743 987,7 < 1s 889 989 1m17s 989 1m19s 15 3000 34567 1186,5 < 1s 710 1187 32s 1187 38s 15 3500 4432 1381,1 < 1s 1208 1382 1m13s 1382 1m14s 15 4000 34567 1588 < 1s 1057 1589 2m13s 1589 2m15s 15 4500 344 1779 < 1s 6125 1780 30m56s 1780 31m3s 15 5000 543 1985,5 < 1s 4232 1986 20m35s 1986 20m42s

(33)

Tabela 5.2: Instˆancias do CSP considerando um alfabeto com quatro caracteres

Instância Relaxa¸cão Linear Planos de Corte Programa¸cão Inteira

(34)

Tabela 5.3: Instˆancias do CSP considerando um alfabeto com quatro caracteres

Instância Relaxa¸cão Linear Planos de Corte Programa¸cão Inteira

(35)

Tabela 5.4: Instˆancias do CSP considerando um alfabeto com vinte caracteres

Instância Relaxa¸cão linear Planos de Corte Programa¸cão Inteira

(36)

Cap´ıtulo 6

Coment´

arios Finais

Esta disserta¸cão é a respeito do Closest String Problem (CSP), um problema de otimiza¸cão combinatória que aparece na área de Biologia Computacional. Dada a sua importância, dezenas de artigos foram publicados sobre este problema. O CSP pertence a classe de com-plexidade NP-dif´ıcil e diversas técnicas foram aplicadas para desenvolver algoritmos para o mesmo. São também conhecidos algoritmos de aproxima¸cão, heur´ısticas sem comprova-¸cão de garantia de otimalidade e métodos exatos (branch-and-cut) para resolver instâncias do problema.

Na referência [8] foram propostos três formula¸cões em programa¸cão linear inteira para o CSP. Nesta disserta¸cão continuou-se o trabalho iniciado em [8] e propomos uma classe de inequa¸cões válidas (planos de corte) juntamente com um algoritmo de separa¸cão destas. Provou-se que embora o número destas inequa¸cões seja exponencial em n e m, respectiva-mente número de strings e o tamanho destas strings, o problema de separa¸cão é resolvido em tempo polinomial em n e m. Este é um importante resultado teórico e prático alcan-¸cado.

Com o intuito de verificar o quão útil é a nova classe de planos de corte, foram re-alizados experimentos computacionais com a implementa¸cão de um branch-and-cut. A implementa¸cão utilizou o solver IBM ILOG CPLEX 12.4 para calcular as relaxa¸cões li-neares dos modelos. Como já era esperado o modelo matemático descrito em [8] fornece excelentes limites inferiores nos valores de solu¸cões ótimas.

Os experimentos computacionais, obtidos com a implementa¸cão de um branch-and-cut, dão evidências claras de que esta implementa¸cão é mais rápida quanto maior for o número de planos de corte gerados.

(37)

Referˆ

encias Bibliogr´

aficas

[1] A. Ben-Dor, G. Lancia, J. Perone, and R. Ravi, Banishing bias from consensus se-quences, Proceedings of the 8th Annual Symposium on Combinatorial Pattern Mat-ching (Aarhus, Denmark) (A. Apostolico and J. Hein, eds.), Lecture notes in com-puter science, no. 1264, Springer-Verlag, 1997, pp. 247–261.

[2] R. E. Bixby, Notes on combinatorial optimization, Tech. report, Rice University, Department of Computational and Applied Mathematics, 1987.

[3] C. Boucher, G. M. Landau, A. Levy, D. Pritchard, and O. Weimann, On approxima-ting string selection problems with outliers, CoRR abs/1202.2820 (2012), 427–438. [4] C. C. de Souza, The graph equipartition problem: Optimal solutions, extensions and

applications, Ph.D. thesis, Universit´e Catholique de Louvain, 1993.

[5] K. Lanctot, M. Li, B. Ma, S. Wang, and L. Zhang, Distinguishing string selection problems, Information and Computation 185 (2003), no. 1, 41–55.

[6] M. Li, B. Ma, and L. Wang, On the closest string and substring problems, Journal of the ACM 49 (2002), no. 2, 157–171.

[7] C. N. Meneses, P. M. Pardalos, M. G. C. Resende, and A. Vazacopoulos, Modeling and solving string selection problems, BIOMAT 2005 International Symposium on Mathematical and Computational Biology – Selected Contributed Papers, 2005. [8] C.N. Meneses, Z. Lu, C.A.S. Oliveira, and P.M. Pardalos, Optimal solutions for the

closest string problem via integer programming, INFORMS Journal on Computing 16 (2004), no. 4, 419–429.

[9] M. Minoux, Mathematical programming: Theory and algorithms, Wiley-Interscience, 1986.

(38)

[11] M. W. Padberg and M. Gr¨otschel, Polyhedral computations, John Wiley and Sons, 1985.

[12] A. Schrijver, Theory of linear and integer programming, John Wiley and Sons, 1986. [13] H. A. Taha, Operations research - an introduction, fourth edition, Macmillan