Organiza¸c˜ao desta Tese - Técnicas e arquitetura para captura de traços e execução especulativ

Antes de descrever a organiza¸cão do texto, uma pequena nota ao leitor. Esta Tese, em concordância com as normas atuais que regem a pós-gradua¸cão da Universidade Estadual de Campinas, possui partes do texto escritas em l´ıngua estrangeira, cor- respondentes a artigos publicados ou submetidos a jornais cient´ıficos e conferências internacionais. Ainda de acordo com esta norma, o conteúdo desses textos repro- duz fielmente aqueles dos artigos originais. Contudo, a formata¸cão dos mesmos foi adequada para ficar compat´ıvel com o estilo do restante desse documento.

O Cap´ıtulo 2 lista trabalhos anteriores relacionados à esta Tese. Nele são detalhadas técnicas anteriores de TLS.

O Cap´ıtulo 3 inicia a coletânea com o primeiro artigo publicado durante a pesquisa deste trabalho. Nele, descreve-se uma nova técnica ara identifica¸cão de traces. Durante os estudos sobre identifica¸cão de traces, desenvolvemos uma nova forma para representa¸cão dos mesmos, que é descrita no Cap´ıtulo 4.

O Cap´ıtulo 5 apresenta uma extensão de DSWP para utiliza¸cão em n´ıvel de código- fonte em Java. Nos experimentos realizados, nenhum suporte extra foi adicionado à JVM. O trabalho de paraleliza¸cão, embora tenha sido feito manualmente, foi de extrema importância para o resultado final desta Tese por ter exposto os problemas intr´ınsecos à DSWP, em especial os problemas de alias de memória. As solu¸cões para os problemas encontrados neste estudo foram úteis para a arquitetura descrita no Cap´ıtulo 6.

O Cap´ıtulo 6 apresenta a principal contribui¸cão desta tese: uma arquitetura paralela com suporte à execu¸cão de código paralelizado utilizando estratégias baseadas no modelo DOPIPE [42] de paraleliza¸cão como DSWP.

As conclusões da Tese são apresentadas no Cap´ıtulo 7, que também lista trabalhos futuros poss´ıveis.

O Apˆendice A apresenta uma prova de corretude para o mecanismo de coerˆencia utilizado pela arquitetura proposta pelo Cap´ıtulo 6. Esta prova utiliza protocolo

Trabalhos Relacionados

Neste Cap´ıtulo, é feita uma revisão dos trabalhos anteriores em Traces (Se¸cão 2.1) e em paraleliza¸cão não-tradicional de la¸cos usando TLS (Se¸cão 2.2). As técnicas de paraleliza¸cão tradicionais, utilizadas para paraleliza¸cão de la¸cos regulares, são descritas na Se¸cão 5.2.

2.1 Traces

Ao contrário de TLS, a literatura a respeito de traces não é tão extensa e, os trabalhos, não tão diversificados. Ainda assim, como uma importante parte deste trabalho, esta Se¸cão dedica-se a listar alguns trabalhos relacionados deteçcão e usos de traces.

Cifuentes et al. [10] propõem Most Frequently Executed Tail (MFET). Nesta técnica, as arestas do GFC do programa são instrumentadas. MFET também instrumenta as instru¸cões alvos de salto para trás. Quando uma instru¸cão é identificada como “quente”, MFET utiliza a informa¸cão sobre a frequência de execu¸cão das arestas para determinar o trace que deve ser formado.

Duesterwald et al. [16] propõem MRET. Assim como MFET, os in´ıcios de traces são identificados em instru¸cões que são alvo de saltos para trás. Entretanto, MRET segue o fluxo da execu¸cão do programa para determinar o trace a ser gravado. A idéia é evitar a custosa instrumenta¸cão em todas as arestas do GFC do programa original.

Last Executed Iteration (LEI) [26], proposto por Hiniker et al., procura identificar

código quente mais significativo que MRET. Basicamente, a técnica utiliza um buffer com os ´ultimos saltos executados pelo programa. Uma entrada repetida neste buffer indica a deteçcão de um loop header. Quando este loop header executar mais que um número determinado de vezes, LEI grava a execu¸cão do programa até que um ciclo seja formado, ou até que a execu¸cão do programa atinja um trace pré-existente.

Como MRET não é seletivo em rela¸cão ao caminho escolhido para gerar um trace,

Two-pass MRET (MRET2

foi desenvolvida. Como o nome indica, ela é derivada de MRET. Seu funcionamento é bem simples: ao invés de gravar um trace assim que seu código se torna quente, MRET2

grava um trace potencial, e programa continua a executar c´odigo normal. Quando um segundo trace for identificado, MRET2

faz a interseçcão de ambos os traces potenciais. Esta heur´ıstica tende a identificar caminhos mais significativos para execu¸cão do programa.

Há uma ampla literatura de ambientes de otimiza¸cão de código baseados em traces. Por exemplo, Baraz et al. [6] introduz IA32-EL, um tradutor binário dinâmico que traduz código x86 para execu¸cão em sistemas Itanium ®. Este tradutor otimizante mostrou

um desempenho superior à solu¸cão inicialmente empregada (i.e., uso de um n´ucleo de um processador 386 para execu¸cão nativa de código x86). Este ganho de desempenho somente foi poss´ıvel pois IA32-EL identificava traces de execu¸cão, armazenando-os em uma trace

cache para posterior otimiza¸c˜ao.

Dehnert et al. [15] descreve Code Morphing Software (CMS), a grande novidade da Transmeta em seus processadores: ao inv´es de manter a compatibilidade com x86 em

hardware, uma camada de software (a CMS) foi utilizada. Desta forma, os engenheiros

do processador se viram livres das idiossincrasias de x86. CMS também mantém os traces descobertos em uma trace cache, focando maior esfor¸co de otimiza¸cão nos traces mais executados.

Digital FX!32, proposto por Hookway [27], é um subsistema presente nos sistemas operacionais Windows NT 4.0 em sistemas Alpha para execu¸cão de aplica¸cões x86 sem a necessidade de recompila¸cão para a nova arquitetura. Diferentemente dos trabalhos ante- riores, FX!32 inicialmente interpretava as aplica¸cões, instrumentando o código executado. A otimiza¸cão dos códigos mais executados era feita offline. As unidades de otimiza¸cão eram traces de execu¸cão.

Gal et al. [17] propõem TraceMonkey, um compilador dinâmico para JavaScript que emprega TT para identificar código quente em aplica¸cões Web. Compilar JavaScript para execu¸cão nativa é extremamente interessante, haja vista a quantidade de código JavaScript dispon´ıvel que pode beneficiar-se direta e automaticamente da compila¸cão.

Em comum, todos estes trabalhos não identificam oportunidades de paraleliza¸cão de código em n´ıvel de threads, optimizando, contudo, o código com otimiza¸cões tradicionais, tais quais Elimina¸cão de Subexpressões Comuns (ESC) e Elimina¸cão de Código Morto (ECM) [1, 39].

No documento Técnicas e arquitetura para captura de traços e execução especulativa (páginas 34-38)