Análise de complexidade assintótica de algoritmos em grafos por uma abordagem empírica

(1)

An´alise de complexidade assint´otica de algoritmos em grafos por uma

abordagem emp´ırica

Juliana M. Souza

Universidade do Estado do Rio de Janeiro (UERJ)

Rua S˜ao Francisco Xavier, 524, sala 6019B, 20550-900, Rio de Janeiro – RJ, Brazil julianamacario.eng@gmail.com

Fabiano S. Oliveira

Universidade do Estado do Rio de Janeiro (UERJ)

Rua S˜ao Francisco Xavier, 524, sala 6019B, 20550-900, Rio de Janeiro – RJ, Brazil fabiano.oliveira@ime.uerj.br

Valmir C. Barbosa

COPPE / Universidade Federal do Rio de Janeiro (UFRJ) Caixa Postal 68511, 21941-972, Rio de Janeiro – RJ, Brazil

valmir@cos.ufrj.br

RESUMO

Muitos problemas de otimização do mundo real são melhor formulados através de problemas em grafos, senão diretamente ao menos frequentemente em combinação com outras técnicas. Enquanto nos casos mais simples a complexidade computacional assintótica resultante pode ser determinada analiticamente, muitas vezes o método de solução envolve o uso de técnicas de otimização ou meta-heur´ısticas de garantias de desempenho desconhecidas. Em casos como esses, pode ser útil contar com métodos emp´ıricos para avaliar a complexidade, mas até hoje um estudo abrangente desta possibilidade não foi realizado. Neste artigo, fornecemos alguns avanços para resolver o problema. Para alguns algoritmos clássicos, demonstramos como o uso de ferra-mentas prontamente dispon´ıveis pode levar à correta avaliação da complexidade, sugerindo que a abordagem emp´ırica pode ser viável na prática.

PALAVRAS CHAVE. An´alise emp´ırica. Algoritmos. Complexidade assint´otica. TAG – Teoria e Algoritmos em Grafos

ABSTRACT

Many real-world optimization problems are best formulated as problems on graphs, so-metimes directly but frequently in combination with other techniques. While in the simplest cases the resulting asymptotic computational complexity can be determined analytically, often the solu-tion method involves the use of optimizasolu-tion techniques or meta-heuristics of unknown performance guarantees. In cases such as these it might be useful to rely on empirical methods to assess comple-xity, but to date a comprehensive study of this possibility has not been undertaken. In this paper we provide some headway into settling the issue. For some classical algorithms, we demonstrate how the use of readily available tools can lead to the correct assessment of complexity, suggesting that the empirical approach can be feasible in practice.

KEYWORDS. Empirical analysis. Algorithms. Asymptotic complexity. TAG – Theory and Algorithms on Graphs

(2)

1. Introduc¸˜ao

Diversos problemas do mundo real podem ser modelados através de grafos. Do ponto de vista algor´ıtmico, o principal desafio é desenvolver algoritmos eficientes, quando poss´ıvel, para resolver tais problemas. É notório que a elaboração de algoritmos eficientes em grafos é, em geral, uma tarefa dif´ıcil. Com efeito, uma quantidade expressiva de exemplos de problemas algor´ıtmicos intratáveis está relacionada a grafos. A análise de complexidade de algoritmos visa determinar a quantidade de cada recurso requerido por um algoritmo em função da entrada. Dentre tais recursos de interesse, estão o tempo, medido através do número de passos, e o espaço, medido através da quantidade de células alocadas de memória. É poss´ıvel empreender este estudo através de uma abordagem anal´ıtica, aplicando-se técnicas espec´ıficas de contagem de passos de execução (ou da contagem de outro recurso de interesse) a partir da descrição do algoritmo. O resultado de tal análise deve determinar uma expressão matemática em função dos dados de entrada que descreve o consumo de um recurso requerido por um algoritmo, que é chamada complexidade do algoritmo. Em geral, tal expressão é fornecida empregando-se a notação O e fam´ılia, que expressam o seu comportamento assintótico. Também pode-se proceder tal análise por uma abordagem emp´ırica, analisando-se a execução propriamente dita do algoritmo sob diversas entradas com o uso de ferra-mentas ou algoritmos espec´ıficos para medição dos recursos consumidos. No entanto, esta última abordagem não produz, em geral, a expressão matemática que especifica o consumo de recursos. Ao invés, ela é utilizada principalmente para a avaliação comparativa de diversos algoritmos que resolvem um mesmo problema submetidos a um mesmo conjunto de entradas ou, ainda, para a verificação do desempenho do algoritmo sob instâncias de entrada consideradas usuais para o pro-blema prático em questão.

Neste trabalho, propomos o método da abordagem emp´ırica também para a obtenção da complexidade assintótica. Para ilustrar a sua aplicação, apresentamos um estudo de caso de análise emp´ırica automatizada de dois algoritmos clássicos: floresta geradora m´ınima e multiplicação de matrizes. Este último, apesar de não ser um algoritmo em grafos, é utilizado como aux´ılio em di-versos problemas desta classe. Como ilustração, podemos citar o problema de obter o número de caminhos distintos entre cada par de vértices de um grafo, para o qual uma das abordagens reduz o problema àquele de multiplicação de matrizes. Essa análise será conduzida com o aux´ılio de uma ferramenta chamada EMA [Oliveira, 2017]. Além disso, apresentamos a metodologia desta ferra-menta, ou mais especificamente, como ela obtém uma função a partir do conjunto das execuções emp´ıricas. Para justificar tal escolha, pesquisamos as ferramentas para análise automatizada de algoritmos existentes na literatura e comparamos o EMA com outra ferramenta chamada RAML, única com desenvolvimento ativo, além do próprio EMA, de acordo com a literatura. A comparação foi feita tanto em termos das caracter´ısticas gerais, quanto em termos práticos, analisando os resul-tados de ambas quando aplicadas ao algoritmo de busca em profundidade em grafos.

O trabalho está estruturado da seguinte maneira. Na Seção 2, revisamos as ferramentas de análise automatizada encontradas na literatura. Na Seção 3, descrevemos a metodologia do EMA. Na Seção 4, utilizamos o algoritmo de busca em profundidade em grafos para contrastar os resultados produzidos pelo EMA e pelo RAML. Na Seção 5, obtemos as complexidades assintóticas de algoritmos para dois problemas distintos utilizando-se o EMA como aux´ılio. Finalmente, na Seção 6, resumimos os resultados obtidos e apontamos trabalhos futuros de interesse.

2. An´alise Emp´ırica e Ferramentas Automatizadas

A análise emp´ırica de algoritmos em grafos encontra aplicação em diversos cenários. Dentre eles, podemos citar: (i) para a comparação entre a complexidade obtida via método anal´ıtico e aquela medida na prática [Fahad et al., 2014; Moret e Shapiro, 1995], que pode ser desejável no uso didático ou para conferir se o método anal´ıtico e/ou a implementação do algoritmo foram conduzidas corretamente; (ii) quando não se tem acesso ao código-fonte com a implementação de um algoritmo e ainda assim é desejável determinar sua complexidade; (iii) quando a complexidade é desconhecida analiticamente, pela dificuldade da matemática envolvida no algoritmo espec´ıfico;

(3)

(iv) para o aux´ılio na escolha do algoritmo que possui função com menor constante multiplica-tiva quando há mais de um algoritmo de mesma complexidade; (v) quando é necessário prever a quantidade de tempo/memória necessários para execução do algoritmo para entradas as quais o al-goritmo ainda não foi submetido e deseja-se prever uma quantidade numérica aproximada de qual será o consumo de recursos, observando-se tais consumos para entradas já utilizadas em execuções anteriores; entre outras aplicações.

Tabela 1: Ferramentas para an´alise automatizada de algoritmos.

Ferramenta Ano Complexidade Programa

de Entrada Abordagem

Desenvolvimento

Ativo Dispon´ıvel METRIC 1975 Melhor, pior

e caso médio LISP Emp´ırica Não Não

ACE 1988 Pior caso Linguagens

funcionais Anal´ıtica N˜ao N˜ao

λΥΩ 1988 Caso médio Proprietário Anal´ıtica Não Não ACME 1998 Caso médio Estilo

Pascal Anal´ıtica N˜ao N˜ao

ANAC 2001 Pior caso e caso m´edio

Estilo

Pascal Anal´ıtica N˜ao N˜ao

Trend

Profiler 2007 Pior caso C Emp´ırica N˜ao Sim

Aprof 2012 Melhor, pior

e caso m´edio C Emp´ırica N˜ao Sim

AlgoProf 2012 Func¸˜ao custo

real esperada Java Emp´ırica N˜ao Sim

MOCCA 2014 Pior caso

e caso médio Python Emp´ırica Não Não

RAML 2012 Pior caso OCaml Anal´ıtica Sim Sim

EMA 2015 Melhor, pior

e caso m´edio Qualquer Emp´ırica Sim Sim

Embora a pesquisa de ferramentas que produzem a complexidade assintótica de algorit-mos via método emp´ırico não seja recente, há poucas ferramentas dispon´ıveis. A Tabela 1 resume as ferramentas para análise automatizada de algoritmos encontradas na literatura. É poss´ıvel ob-servar que a tentativa de desenvolver ferramentas com este objetivo ocorre desde a década de70 através do METRIC [Wegbreit, 1975], que foi pioneira neste assunto e motivou as diversas fer-ramentas que surgiram nos anos seguintes. Ferfer-ramentas como ACE [Le Métayer, 1988], λΥΩ [Flajolet et al., 1989], ACME [Silveira, 1998], ANAC [Barbosa et al., 2001] e RAML [Hoffmann et al., 2017] fornecem a complexidade de algoritmos através da análise do código-fonte, ao passo que o METRIC [Wegbreit, 1975], Trend Profiler [Goldsmith et al., 2007], Aprof [Coppa et al., 2012], AlgoProf [Zaparanuks e Hauswirth, 2012], MOCCA [Costa et al., 2014] e EMA [Oliveira, 2017] são ferramentas que analisam um algoritmo a partir de sua execução. Além disso, é poss´ıvel observar que a maior parte dessas ferramentas possuem muitas limitações, tais como análise de algoritmos implementados em um determinado paradigma de programação e em uma linguagem de programação espec´ıfica. Além disso, apenas as ferramentas Trend Profiler, Aprof, AlgoProf, RAML e EMA estão disponibilizadas para uso. Algumas dessas ferramentas fornecem apenas a

(4)

complexidade de pior caso, enquanto outras fornecem a complexidade de caso médio, ou ambas. Dentre todas as ferramentas apresentadas, apenas o RAML e o EMA estão em desenvolvimento ativo. O EMA analisa algoritmos escritos em qualquer linguagem de programação, enquanto o RAML apenas algoritmos escritos na linguagem OCaml.

3. Metodologia do EMA

O EMA (acrônimo de EMpirical Analysis of algorithms) [Oliveira, 2017] é uma ferra-menta com o objetivo de fazer análise emp´ırica de um algoritmo de forma automática. O algoritmo é executado para diversas entradas e, para cada uma, o EMA mede e armazena a quantidade con-sumida dos recursos sendo monitorados. A partir das medições coletadas, o EMA sugere a função que representa o consumo de cada recurso de acordo com sua metodologia. Os recursos padrões monitorados são tempo e espaço, mas outros recursos espec´ıficos de usuário podem ser definidos e monitorados.

A entrada do EMA consiste em três dados básicos: (i) um programa executávelA a ser analisado; (ii) uma listaV de variáveis v1, . . . , vn das quais a complexidade deA dependa; (iii)

um programa executávelB que gera entradas para o programa A; a entrada de B consiste em uma lista de valoresa1, . . . , anque corresponde à valoração dev₁, . . . , vnassociada a entrada deA a

ser gerada porB. Por exemplo, se A for uma busca em profundidade em grafos de complexidade de tempoO(n + m), v1 poderia corresponder an e v2am, respectivamente o n´umero de v´ertices

e arestas do grafo de entrada, pois estas são as variáveis das quais a complexidade depende. Neste caso,B deve ser um programa que recebe um par de valores (n, m) e gere uma entrada que repre-sente paraA um grafo com n vértices e m arestas. Note que o requerimento de B é a forma que o EMA dispõe para gerar entradas para qualquer programa a ser analisado sem ter que conhecer as especificidades de como formatar uma entrada para ele. Ao iniciar uma execução deA com uma entrada gerada com o aux´ılio deB para certa valoração de V , o EMA monitora o consumo de recur-sos associados e, ao término, armazena tal consumo associado àquela valoração. O processamento do EMA consiste em três etapas, brevemente descritas a seguir: calibração, simulação e análise.

A calibração consiste do EMA sugerir uma lista de valores de cada variável emV para as quais o programa A deverá executar. Por exemplo, no exemplo em que A é uma busca em profundidade, a calibração poderia resultar em um conjunto de valores de n = 300, . . . , 1000 e m = 2000, 3000, . . . , 10000. Esta sugestão é feita através de uma série de experimentos que o EMA conduz, com diversas entradas. O maior valor na lista sugerida de cada variável constitui a maior instância para a qualA executou sem que o limite máximo de algum recurso tenha sido violado. No exemplo, portanto, a maior instância de entrada que a busca em profundidade conseguiu executar com os limites impostos pelo usuário de tempo e espaço foi um grafo tal quen = 1000 e m = 10000.

A simulação consiste em executarA para os diversos valores de variáveis escolhidos na calibração. Cada execução é feita para uma valoração deV distinta dentre todas as combinações que podem ser feitas com valores espec´ıficos de cada variável. Formalmente, seSi é a lista de valores

sugeridos para a variávelviretornada pela calibração, a simulação executaráA para cada valoração

(a1, . . . , an) ∈ S₁× . . . × Sn. Portanto, na base de dados com o consumo das execuções serão

inseridas L = Qni₌₁|Si| entradas. No exemplo anterior, a simulac¸˜ao da busca em profundidade

conduziráL = |S1||S2| = 8 × 9 = 72 execuções, uma para cada combinação dos valores de n e m.

A análise de determinado recurso consiste em obter a função que melhor se ajusta a um conjunto de pontos D = {(xi, yi) : 1 ≤ i ≤ L} onde para cada 1 ≤ i ≤ L, xi é a

valoração espec´ıfica de uma variável associada a uma instância de entrada e yi é o consumo do

recurso sob análise na execução de tal entrada. Tal conjunto D é obtido como resultado da fase de simulação. A “função que melhor se ajusta” na metodologia do EMA é alguma da classe

logarithmico-exponential [Graham et al., 1994], que são as funções polilogar´ıtmicas, polinomiais, exponenciais, ou alguma combinação multiplicativas destas, tipicamente encontradas nas análises

(5)

de complexidade. Como será mostrado a seguir, o EMA considerará então um conjunto bem-definido de tipos de função parametrizáveis, uma métrica de erro para qualificar uma função es-pec´ıfica, o conceito de funções equivalentes (conjunto de funções cujos erros estão muito próximos dois a dois dentro de um limite), e por fim um critério para escolher uma função equivalente como a mais provável que representa o consumo de recurso. A metodologia geral do EMA está expressa através do fluxograma da Figura 1. A função

fgeral(x) = a0ax a2 1 |{z} t1 xa3 |{z} t2 (log₂x)a4 | {z } t3 +a5

é aquela considerada a função mais geral que o EMA supõe descrever a complexidade de um al-goritmo, onde a1, . . . , a5 são os parâmetros cujos valores serão determinados pelo EMA. Neste

função,t1, t2, t3são os seus termos. Para determinar os valores dos parâmetros e quais deles são

re-levantes para definir a função que representa uma complexidade, define-se o conjuntoF de funções candidatas. Tais funções são funções mais particulares quefgeralformadas por todas as combinações

poss´ıveis entre os termos desta função [Figura 1(a)]. A seguir, enquantoF 6= ∅, o EMA determi-nará os parâmetros de cadaf ∈ F [Figura 1(b)] por regressões não-lineares através do algoritmo de

Levenberg-Marquardt [Levenberg, 1944; Marquardt, 1963], que consiste um algoritmo num´erico

que determinar o valor dos parâmetros que minimiza o erro associado a tal função. O erroerro(f ) de uma funçãof é dado por

erro(f ) =

L

X

i₌₁

e2i(f ),

ondeei(f ) ´e o erro residual do ponto (xi, yi) ∈ D, definido por

ei(f ) = f (xi) − yi.

O EMA utiliza um conjunto de técnicas para auxiliar a regressão que contorna problemas conhecidos do método de regressão computacional utilizado [Figura 1(c)]. São elas: (i) a estimação dos parâmetros de cada funçãof é feita em sua forma original f (y = f (x)) e em escala logar´ıtmica flog (log y = log f (x)). Esta segunda forma é particularmente útil quando o método numérico

ca-minha por valores muito grandes que potencialmente ultrapassariam o limite de representação com-putacional da biblioteca utilizada para fazer a regressão; (ii) o método numérico necessita que sejam informados os valores iniciais para os parâmetros. É sabido que se tais valores estiverem em ordens de magnitude afastados dos valores ótimos globais dos parâmetros, a qualidade de ajuste pode ser prejudicada pois pode-se convergir para ótimos locais. Devido a isso, o EMA então testa um con-junto de valores iniciais de ordens de magnitude diferentes para aumentar a chance de obter o ótimo global; (iii) o método numérico é sens´ıvel a se os valores dos parâmetros que são ótimos globais são de ordens de magnitude diferentes. Neste caso, o método pode convergir prematuramente. O EMA detecta e soluciona este tipo de problema. Ao final, o EMA armazena em um conjuntoFajustadasa

func¸˜ao ajustadagminde menor erro encontrada como o ajuste final def [Figura 1(d)].

Os parâmetros das equações são encontrados através de um método numérico, portanto, frequentemente os valores encontrados são não-inteiros. Por outro lado, é muito comum que as funções reais que medem recursos computacionais possuam como valores dos parâmetros determi-nados números especiais, como os inteiros. Por esse motivo, o próximo passo do EMA é discretizar os parâmetros que consiste de testar alguns de tais valores especiais na vizinhança do valor não-inteiro encontrado, criando novas funções, que entram na lista de funções candidatas [Figura 1(e)]. Finalmente, o EMA reportaFajustadascom seus elementos classificados em três grupos

[Figura 1(f)]: (i) função de erro m´ınimofmin = argmin{erro(f ) : f ∈ Fajustadas}; (ii) funções equivalentesFequiv, que são aquelas com erro próximo aerro(fmin); e (iii) função melhor-palpite

(6)

Figura 1: Metodologia da etapa de an´alise do EMA.

fmelhor-palpite, que ´e aquela que o EMA escolhe dentre as equivalentes e que ´e reportada como a

com-plexidade do algoritmo. Para elegê-la, o EMA utiliza o critério da Navalha de Occam, que consiste em selecionar a função mais simples. Uma função é dita ser mais simples que outra quando ela é considerada mais frequente na literatura de algoritmos. Mais especificamente, uma função é mais simples que outra quando: (a) possui menos parâmetros livres (com valores a serem determinados); se iguais, então aquela que (b) possui o menor número de termos (cada função tem de0 a 3 termos); se iguais, (c) possui menos parâmetros (sejam eles fixos ou variáveis); se iguais, então aquela que (d) possui o maior número de parâmetros com valores inteiros.

4. Estudo de Caso: RAML vs. EMA

Nesta seção é apresentada uma comparação entre as ferramentas EMA e RAML (acrônimo de Resource Aware ML) [Hoffmann et al., 2017]. Dentre todas as ferramentas, são as únicas com o projeto de pesquisa ainda ativos. O RAML determina uma função polinomial de grau no máximo 6 que limita superiormente o uso de recursos de algoritmos escritos na linguagem OCaml. Deste modo, já se nota uma diferença entre as ferramentas, pois o EMA considera funções com ter-mos multiplicativos que podem ser exponenciais, polinomiais ou polilogar´ıtmicos, o que o habilita medir com precisão a complexidade do MergeSort de Θ(n log n), por exemplo, tarefa que não é poss´ıvel para o RAML. Por outro lado, o RAML executa de maneira quase imediata, por fazer análise do código-fonte, enquanto o EMA deve proceder a simulação sob várias entradas, o que requer mais tempo. Inicialmente, foi realizada uma análise automatizada para entradas de pior caso do QuickSort através das duas ferramentas. Para execução deste experimento, foi utilizado uma implementação recursiva e, para que fosse simulada para grandes quantidades de elementos sem estouro de pilha, um tipo espec´ıfico de recursão precisou ser implementada, chamada recursão de

cauda. A complexidade de pior caso encontrada para o QuickSort atrav´es do EMA foiΘ(N2). A

(7)

no RAML uma análise do QuickSort em sua versão sem cauda e, para esta versão, o RAML obteve o limite justo deO(N2). Isto evidencia que o RAML é sens´ıvel a forma de escrita de um algoritmo mesmo que ambos sejam de mesma complexidade.

No segundo estudo foi utilizado o algoritmo clássico de busca em profundidade, cuja complexidade é deΘ(m+n), onde m representa o número de arestas e n aquele de vértices. O EMA reporta a complexidade assintótica apenas de uma variável por análise, por isso, foram realizados dois experimentos. Em ambos, as arestas foram determinadas aleatoriamente. No primeiro, foi fixado n = 15 000 e variado o valor de m. Portanto, a complexidade do algoritmo esperada é Θ(m), obtida da expressão geral considerando-se n como constante. No segundo experimento, foi fixadom = 42 497 e variado o valor de n. A complexidade emp´ırica esperada é Θ(n) por racioc´ınio análogo. As Figuras 2 e 3 mostram o resultado reportado pelo EMA nas duas análises. O RAML não foi capaz de analisar este algoritmo.

5000 10000 15000 20000 25000 30000 35000 0 50000 100000 150000 200000 250000 300000 350000 Tempo (ms) m 0.085777672199⋅m1 média estimativa

Figura 2: An´alise da busca em profundidade com n = 15 000. 8500 9000 9500 10000 10500 11000 11500 12000 12500 13000 13500 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 Tempo (ms) n 0.100272856838⋅n1 média estimativa

Figura 3: An´alise da busca em profundidade com m = 42 497.

5. Estudo de Caso: An´alise Emp´ırica Aplicada a Algoritmos em Grafos Cl´assicos

Nesta seção, aplicaremos a análise emp´ırica para a determinação da complexidade as-sintótica de dois algoritmos clássicos: floresta geradora m´ınima e multiplicação de matrizes. As subseções seguintes introduzem os respectivos problemas e apresentam os resultados.

5.1. Floresta Geradora M´ınima

Um grafoG é conexo se existe caminho conectando cada par de vértices de G. Um grafo G é ac´ıclico se G não possuir ciclos. Uma floresta é um grafo ac´ıclico. Uma floresta geradora de um grafoG é uma floresta F tal que V (F ) = V (G) e E(F ) ⊆ E(G). Seja G um grafo com peso w(e) em cada aresta e ∈ E(G). A floresta geradora m´ınima de G é uma floresta geradora F de G de menor pesow(F ) dentre todas as florestas geradoras de G, onde

w(F ) = X

e∈E(F )

(8)

A Figura 4 ilustra uma floresta geradora m´ınima de um dado grafo. As arestas em negrito s˜ao aquelas pertencentes `a floresta geradora m´ınima.

Figura 4: Exemplo de um grafo e uma floresta geradora m´ınima deste grafo.

O problema de determinar uma floresta geradora m´ınima é uma extensão do problema clássico de encontrar uma árvore geradora m´ınima. A extensão está em permitir que o grafo de entrada seja desconexo. Um algoritmo clássico para o problema de árvores geradoras m´ınimas é o algoritmo de Kruskal, de complexidade O(m log n), apresentado no Algoritmo 1. O algoritmo é diretamente aplicado para obter florestas geradoras m´ınimas, sem alterações. Contudo, sua comple-xidade se tornaO(m log n + n). Isto se deve ao fato de que o algoritmo é de tempo Ω(n) por conta da criação da lista de adjacências do grafo. No caso de grafos conexos, este termo desaparece pois, para eles, vale quen = O(m) (e, portanto, n é dominado por O(m log n) na expressão assintótica). Algoritmo 1 Algoritmo de Kruskal

Entrada: GrafoG

Sa´ıda: Uma floresta geradora m´ınima deG 1: func¸˜ao KRUSKAL(G)

2: F ← (V (G), ∅)

3: E ← ORDENAR(E(G)) ⊲ ascendentemente por peso

4: para cadae ∈ E fac¸a

5: se “E(F ) ∪ {e} ´e ac´ıclico” ent˜ao

6: E(F ) ← E(F ) ∪ {e}

retornarF

Para se chegar a complexidade deO(m log n+n), é necessário que a condição da Linha 5 seja refinada de modo que seja implementada em tempo O(log n). Para tanto, este refinamento se faz com o uso da estrutura de dados UNIAODISJUNTA, que implementa a união de conjuntos˜ disjuntos e o teste se dois elementos estão no mesmo conjunto em tempoO(log n) [Cormen et al., 2009]. Mais especificamente, a ideia é manter os vértices de cada componente conexa deF em um mesmo conjunto, distinto do conjunto associado aos vértices de outras componentes. Assim, referente a Linha 2, inicializa-se a estrutura comn conjuntos, cada um com um vértice distinto. A Linha 5 é implementada verificando-se se os conjuntos associados aos vértices dee são distintos. Em caso positivo, a Linha 6 une tais conjuntos. Uma análise mais precisa da complexidade da UNIAODISJUNTA˜ é feita via análise amortizada, cuja prova é não-trivial e utiliza a bem-conhecida função de Ackermann [Cormen et al., 2009]. A escolha deste algoritmo para este estudo de caso se deve ao fato de ser um algoritmo clássico cuja análise de complexidade de tempo através do método anal´ıtico não é direta. Esta última caracter´ıstica está presente em geral nos algoritmos candidatos a serem submetidos à análise emp´ırica.

Foram realizados dois experimentos para se verificar empiricamente a complexidade as-sintótica do algoritmo. Em ambos os experimentos, as arestas e pesos dos grafos foram determi-nados aleatoriamente. No primeiro, foi fixadon = 15 000 e variado o valor de m. Neste caso, a complexidade do algoritmo esperada é O(m), que é obtida da expressão geral considerando-se n como constante. A Figura 5 mostra o resultado reportado pelo EMA deste experimento.

(9)

No segundo experimento, foi fixadom = 42 497 e variado o valor de n. A complexi-dade emp´ırica esperada éO(n). A Figura 6 mostra o gráfico e a função reportada pelo EMA. Note que, em uma análise superficial, a complexidade teórica deste experimento poderia ser erronea-mente considerada comoO(log n), fazendo m fixo na complexidade bem conhecida do algoritmo de Kruskal para árvores. Contudo, a análise emp´ırica evidenciaria tal equ´ıvoco.

0 50 100 150 200 250 0⋅100 5⋅106 1⋅107 2⋅107 2⋅107 2⋅107 3⋅107 Tempo (segundos) m 7.86394418437⋅10−6⋅m 1

std dev média estimativa

Figura 5: An´alise de Kruskal com n = 15 000, m´ınimo de 10 amostras por valor de m.

0 100 200 300 400 500 600 700 800 0⋅1005⋅1031⋅1042⋅1042⋅1042⋅1043⋅1044⋅1044⋅1045⋅104 Tempo (ms) n 0.01668756406⋅n1

std dev média estimativa

Figura 6: Análise de Kruskal com m = 42 497, m´ınimo de 10 amostras por valor de m. 5.2. Multiplicação de Matrizes

A multiplicação de matrizes é utilizada por diversos problemas em grafos. Como exem-plos, podemos citar a determinação do caminho mais curto (e o número de caminhos distintos) entre todos os pares de vértices e o fechamento transitivo de um digrafo. Em especial, este problema tem um interessante histórico por baixas sucessivas em sua complexidade, onde a cada novo algoritmo, a melhora se dava em termos de décimos ou centésimos no expoente do polinômio [Williams, 2012]. Nesta seção, obtemos a complexidade assintótica empiricamente de dois algoritmos. O primeiro, implementa diretamente a multiplicação de matrizes a partir de sua definição (que chamaremos de

direto). O segundo ´e conhecido como algoritmo de Strassen [Strassen, 1969], e foi o primeiro a

conseguir obter uma complexidade menor que aquela do algoritmo direto. Mais especificamente, para matrizesA, B de dimensão N × N , a matriz R = A × B é aquela de dimensão N × N tal que

R[i, j] =

N

X

k₌₁

A[i, k] × B[k, j], para todo 1 ≤ i, j ≤ N.

Naturalmente, a definição de multiplicação de matrizes é mais geral que a fornecida. A restrição da multiplicação a matrizes quadradas é conveniente para que a complexidade dependa de uma só variável. A complexidade do algoritmo que decorre desta definição é Θ(N3_{). A análise de}

complexidade deste algoritmo através do EMA é fornecida pelo gráfico da Figura 7.

O algoritmo de Strassen é assintoticamente de menor complexidade. Ele utiliza a técnica de divisão e conquista da seguinte forma. Primeiro, particiona-se as matrizes A e B em quatro

(10)

submatrizes de dimensãoN/2 × N/2 como esquematizado em (1). Em seguida, determina-se os valorespi para todo1 ≤ i ≤ 7 tal que a multiplicação matricial envolvida no cálculo de cada pi é

determinada recursivamente (fase de divisão). A ideia do método consiste na observação de que, a partir destes valores, é poss´ıvel obter a matrizR = A × B conforme o esquema (fase de conquista).

A11 A12 A21 A22 A B11 B12 B21 B22 B = p5+ p4− p2+ p6 p1+ p2 p3+ p4 p1+ p5− p3− p7 R , (1) onde: p1= A11(B12− B22); p2= (A11+ A12)B22; p3 = (A21+ A22)B11; p4= A22(B21− B11); p5= (A11+ A22)(B11+ B22); p6= (A12− A22)(B21+ B22); p7= (A11− A21)(B11+ B12).

Deste modo, são feitas7 multiplicações de matrizes de dimensão N/2 × N/2. A soma de duas matrizesN × N é efetuada em tempo Θ(N2). Assim, se T (N ) corresponde a complexidade do algoritmo para multiplicação de matrizes N × N , T (N ) pode ser descrita pela equação de recorrênciaT (N ) = 7T (N/2) + Θ(N2) se N > 1, e T (1) = Θ(1), cuja resolução resulta em T (N ) = Θ(Nlog27) ≈ Θ(N2.8074). A Figura 8 apresenta a execução do algoritmo de Strassen com a análise do EMA. É poss´ıvel observar que a complexidade encontrada pelo EMA é muito próxima da complexidade teórica, com erro na segunda casa decimal do expoente do polinômio.

0 5000 10000 15000 20000 25000 30000 200 250 300 350 400 450 500 550 600 650 700 Tempo (ms) N 9.66100679144⋅10−5⋅N3 média estimativa

Figura 7: Análise da multiplicação de matrizes N × N pelo algoritmo direto.

0 20 40 60 80 100 120 0 5000 10000 15000 20000 25000 30000 35000 Tempo (horas) N 2.79406786377⋅10−11⋅N2.79296603768 média estimativa

Figura 8: Análise da multiplicação de matrizes N × N pelo algoritmo de Strassen.

6. Conclus˜ao

Desenvolver algoritmos eficientes em grafos para problemas do mundo real ´e particular-mente um desafio. N˜ao raro, tanto a tarefa de determinar a complexidade de um algoritmo em

(11)

grafo, quanto a implementação propriamente dita em uma linguagem de programação, são tarefas não-triviais. Para auxiliar o êxito das mesmas, neste trabalho, destacamos a importância da análise emp´ırica de algoritmos. Para a primeira, é uma forma direta de sugerir ou comprovar uma complexi-dade obtida pelo abordagem anal´ıtica. Para a segunda, é uma forma de verificar se a implementação seguiu rigorosamente as hipóteses feitas durante a etapa de análise. Neste trabalho, destacamos a importância da análise emp´ırica de algoritmos, conveniente em diversas outras situações.

Desde a década de70, várias ferramentas para análise automatizada de algoritmos foram desenvolvidas. A maior parte dessas ferramentas, sumarizadas na Seção 2, possuem limitações por analisarem apenas algoritmos escritos em uma única linguagem de programação, em apenas um paradigma de programação ou fornecer somente um tipo de função de complexidade. Dentre todas, apenas EMA e RAML continuam com pesquisa ativa e, entre ambas, o EMA diferencia-se por realizar estimativas de complexidade assintótica de algoritmos em diversas linguagens de programação, em paradigma funcional e imperativo, e abordar diversas classes de complexidade (polilogar´ıtmica, polinomial e exponencial), cuja metodologia está sumarizada na Seção 3.

Na Seção 4, o EMA foi comparado com o RAML através de dois estudos de caso. No primeiro, foi feita uma análise de pior caso do QuickSort. Devido a necessidade de gerar entradas suficientemente grandes para a execução do EMA, ocasionando estouro de pilha, o QuickSort foi implementado através de recursão de cauda. O EMA encontrou de maneira justa o resultado da complexidade anal´ıtica que éΘ(N2_{) ao passo que o RAML encontrou um limite superior não-justo}

de O(N3). Para a versão do QuickSort que não utiliza recursão de cauda, o RAML encontrou o limite justo O(N2). No segundo estudo de caso foi feita uma análise de pior caso do algoritmo busca em profundidade, que possui complexidadeΘ(m + n). Para tal experimento no EMA, foi fixada uma variável em uma constante e variou-se a outra e obtivemosΘ(m) (para n fixo) e Θ(n) (param fixo), portanto, complexidades coerentes com aquela obtida pela abordagem anal´ıtica. O RAML não foi capaz de analisar este algoritmo.

Por fim, na Seção 5, foram realizados dois estudos de caso. No primeiro, foi apresen-tado o problema da floresta geradora m´ınima e realizada a análise de complexidade emp´ırica do algoritmo de Kruskal. É sabido que a complexidade deste algoritmo éO(m log n) para árvores e O(m log n + n) para florestas. A análise emp´ırica obteve êxito na determinação de tal comple-xidade. Ressaltamos que apesar do algoritmo de Kruskal ser clássico e sua complexidade bem conhecida, o fato de o usarmos de forma inalterada para florestas poderia criar a falsa expectativa que sua complexidade é a mesma, o que valoriza o resultado da análise emp´ırica. No segundo estudo, foi realizada a análise de complexidade de dois algoritmos de multiplicação de matrizes: aquele que decorre da definição de multiplicação matricial e o algoritmo de Strassen, cujas análises emp´ıricas foram deΘ(N3_{) e Θ(N}2.79_{), respectivamente, que condizem com o método anal´ıtico.}

Como trabalhos futuros, propomos a análise de complexidade assintótica de outros al-goritmos em grafos através da abordagem emp´ırica, a fim de entender mais aprofundadamente as condições de sucesso e as limitações de tal abordagem.

Referˆencias

Barbosa, M. A. C., Toscani, L. V., Ribeiro, L. (2001). Uma ferramenta para an´alise autom´atica da complexidade de algoritmos. Revista do CCEI, 5:57–65.

Coppa, E., Demetrescu, C., Finocchi, I. (2012). Input-sensitive profiling. ACM SIGPLAN Notices, 47:89–98.

Cormen, T. H., Leiserson, C. E., Rivest, R. L., Stein, C. (2009). Introduction to Algorithms. The MIT Press, London, England, 3.a edic¸˜ao.

Costa, E. J., Ramos, J. G., Barbosa, Y. M., Filho, G. F., Brito, A. (2014). Um avaliador automático de eficiência de algoritmos para ambientes educacionais de ensino de programação. Anais da 5.a

(12)

Fahad, A., Alshatri, N., Tari, Z., Alamri, A., Khalil, I., Zomaya, A. Y., Foufou, S., Bouras, A. (2014). A survey of clustering algorithms for big data: Taxonomy and empirical analysis. IEEE

Transactions on Emerging Topics in Computing, 2:267–279.

Flajolet, P., Salvy, B., Zimmermann, P. (1989). Lambda-Upsilon-Omega: an assistant algorithms analyzer. Lecture Notes in Computer Science, 357:201–212.

Goldsmith, S. F., Aiken, A. S., Wilkerson, D. S. (2007). Measuring empirical computational com-plexity. Anais da 6.a Joint Meeting of the European Software Engineering Conference and the

ACM SIGSOFT Symposium on The Foundations of Software Engineering, p. 395–404.

Graham, R. L., Knuth, D. E., Patashnik, O. (1994). Concrete Mathematics: a Foundation for

Computer Science. Addison-Wesley Professional, Boston, USA, 2.a edic¸˜ao.

Hoffmann, J., Das, A., Hofmann, M., Ngo, C., Shao, Z., Weng, S.-C. (2017). Resource Aware ML. URL http://raml.co. Acesso em 03 de Marc¸o de 2018.

Le M´etayer, D. (1988). ACE: an automatic complexity evaluator. ACM Transactions on

Program-ming Languages and Systems, 10:248–266.

Levenberg, K. (1944). A method for the solution of certain non-linear problems in least squares.

Quarterly of Applied Mathematics, 2:164–168.

Marquardt, D. W. (1963). An algorithm for least-squares estimation of nonlinear parameters.

Jour-nal of The Society for Industrial and Applied Mathematics, 11:431–441.

Moret, B. M. Shapiro, H. D. (1995). An empirical analysis of algorithms for constructing a mini-mum spanning tree. Lecture Notes in Computer Science, 519:400–411.

Oliveira, F. S. (2017). EMA - webpage. URL http://fabianooliveira.ime.uerj.br/ ema. Acesso em 20 de Marc¸o de 2017.

Silveira, C. M. (1998). Analisador de complexidade média baseado nas estruturas algor´ıtmicas. Dissertação de Mestrado, UFPEL, Pelotas.

Strassen, V. (1969). Gaussian elimination is not optimal. Numerische Mathematik, 13:354–356. Wegbreit, B. (1975). Mechanical program analysis. Communications of the ACM, 18:528–539. Williams, V. V. (2012). Multiplying matrices faster than Coppersmith-Winograd. Anais da 44.a

Annual ACM Symposium on Theory of Computing (STOC), p. 887–898.