UNIVERSIDADE FEDERAL DE PELOTAS

(1)

Programa de P ós-Graduaç ão em Computaç ão

Dissertac¸ ˜ao

An álise do Impacto de Diferentes Versionamentos de Dados das Mem órias Transacionais sobre Mem óriasPhase-Change

Felipe Leivas Teixeira

Pelotas, 2016

(2)

An álise do Impacto de Diferentes Versionamentos de Dados das Mem órias Transacionais sobre Mem óriasPhase-Change

Dissertaç ão apresentada ao Programa de P ós-Graduaç ão em Computaç ão da Univer- sidade Federal de Pelotas, como requisito parcial à obtenç ão do t´ıtulo de Mestre em Computaç ão

Orientador: Prof. Dr. Maur´ıcio Lima Pilla Coorientador: Prof. Dr. Andr ´e Rauber Du Bois

Pelotas, 2016

(3)

T266a Teixeira, Felipe Leivas

Análise do impacto de diferentes versionamentos de dados das memórias transacionais sobre memórias Phase-Change / Felipe Leivas Teixeira ; Maurício Lima Pilla, orientador; André Rauber Du Bois, coorientador. - Pelotas, 2016.

116 f.

Dissertação (Mestrado) – Programa de Pós-Graduação em Computação, Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, 2016.

1. Memórias transacionais. 2. Memórias Phase-Change. 3. Processamento paralelo. 4. Hierarquia de memória. I. Pilla, Maurício Lima, orient. II. Du Bois, André Rauber, coorient. III. Título.

CDD: 005 Dados Internacionais de Catalogação na Publicação (CIP)

Catalogação na Fonte: Aline Herbstrith Batista CRB 10/ 1737 Biblioteca Campus Porto - UFPel

(4)

(5)

(6)

TEIXEIRA, Felipe Leivas. An álise do Impacto de Diferentes Versionamentos de Dados das Mem órias Transacionais sobre Mem órias Phase-Change. 2016.

116 f. Dissertaç ão (Mestrado em Computaç ão) – Programa de P ós-Graduaç ão em Computaç ão, Centro de Desenvolvimento Tecnol ógico, Universidade Federal de Pelotas, Pelotas, 2016.

Dois problemas dos grandes sistemas computacionais atualmente est ão relacionados com o consumo de energia e a programaç ão concorrente correta que aproveite os recursos disponibilizados. Das v árias tecnologias para resolver esses problemas, destacam-se aPhase-Change Memory e as mem órias transacionais.

APhase-Change Memory (PCM) é uma nova tecnologia que est á sendo estudada para substituir as DRAMs, como mem ória principal, em grandesdata centers, devido a sua n ão volatilidade que reduz o consumo est ático de pot ência. O principal problema da PCM est á em suas escritas, que s ão lentas e degradam o seu material, diminuindo assim sua vida útil.

Mem órias transacionais s ão um m étodo de sincronizaç ão dethreadsdesenvolvido para diminuir as dificuldades e limitaç ões de m étodos baseados emlocks. Suas principais vantagens s ão relacionadas a ser um m étodo de alto n´ıvel, mais f ácil de progra- mar e que permite a composiç ão e re úso de c ódigo com mais facilidade. Outra vantagem das mem órias transacionais em comparaç ão comlocks é a inexist ência do problema dedeadlock. Mem órias transacionais s ão baseadas nas transaç ões de banco de dados. As transaç ões em sistemas de banco de dados satisfazem quatro propriedades: atomicidade, consist ência, isolamento e durabilidade, ou ACID. As transaç ões das mem órias transacionais tamb ém devem garantir as propriedades ACID, exceto a durabilidade. Para garantir a atomicidade, as mem órias transacionais implementam v ários mecanismos de versionamento de dados para fazer o gerenciamento dos dados.

Desta forma, o objetivo deste trabalho é analisar o impacto em PCMs das diferentes implementaç ões de versionamento de dados em STMs. Para tanto, foi implementado o Phase-Change Memory - Multicore Simulator (PCM-MS), um simulador de hierarquia de mem ória para arquiteturas de m últiplos n úcleos onde a PCM é a mem ória principal. O PCM-MS faz a simulaç ão dos acessos e determina os bits alterados na PCM para estimar o desgaste e o consumo de energia da PCM. Al ém do PCM-MS, a ferramenta Pintools foi utilizada para gerar arquivos de traço que s ão executados no simulador. Como biblioteca de STM foi utilizada a TinySTM, pois implementa diversos versionamentos e constitui parte do estado da arte de STM. Comobenchmarks, foram utilizados o Eigenbench e o conjunto debenchmarksSTAMP.

(7)

n úmero deaborts dos versionamentos, onde o WBC apresenta um n úmero deaborts muito menor que os outros, sendo at é 39 vezes menor no experimento com o benchmark Kmeans com 64 threads. Em trabalhos futuros, pretende-se continuar o desenvolvimento do simulador, al ém de fazer a an álise do desgaste na PCM de outros sistemas transacionais.

Palavras-chave: Mem ´orias Transacionais, Phase-Change Memory, Processamento Paralelo, Hierarquias de Mem ´oria.

(8)

TEIXEIRA, Felipe Leivas. Impact Analysis of Different Version Management of Transactional Memory on Phase-Change Memories. 2016. 116 f. Dissertaç ão (Mestrado em Computaç ão) – Programa de P ós-Graduaç ão em Computaç ão, Centro de Desenvolvimento Tecnol ógico, Universidade Federal de Pelotas, Pelotas, 2016.

Two of the major issues in current large computer systems are energy consumption and how to explore concurrent systems in a correct and efficient way. Phase-Change Memories and Transactional Memories are two technologies that intend to solve these issues.

Phase-Change Memory (PCM) is a new memory technology being studied to re- place DRAMs as the main memory in large data centers, as its non-volatility reduces static power consumption. The main problem of PCMs consists in its write operations, which are slow and generate degradation in material, thus reducing its life.

Transactional memories are synchronization methods developed to reduce the dif- ficulties and limitations of lock-based methods. Their main advantages are related to being high-level and allowing composition and reuse of code. Another advantage of transactional memories compared to locks is the absence of deadlocks. Transactional memories are based on database transactions. Transactions in database systems meet four properties: atomicity, consistency, isolation and durability, or ACID. Transac- tional memories must also implement the ACID properties, except for durability. Trans- actional memories implement version management of data to ensure atomicity.

The objective of this study is to analyze the impact on the PCM of different version management techniques implemented by STMs. To that end, the Phase-Change Mem- ory - Multicore Simulator (PCM-MS) was implemented, a memory hierarchy simulator for multi-core systems where the PCM is the main memory. It determines changed bits in PCM to estimate the wear and energy consumption. In addition to the PCM-MS, Pintools was used to generate trace files that run in the simulator. As the STM library, TinySTM was chosen because it implement various version management and it rep- resents the state-of-art in STM. As benchmarks, Eigenbench and the STAMP set of benchmarks were used.

The results showed that the WBC VM had the lowest wear on the PCM in 3 of 7 benchmarks analyzed. These results are related to the number of aborts of VMs, where the WBC presents a much smaller number of aborts than others VM, being up to 39 times lower in the experiment with the benchmark Kmeans with 64 threads. In future works, we intend to enhance the simulator and make the impact analysis in PCM of others transactional systems.

(9)

(10)

Figura 1 Comparac¸ ˜ao entre oReset, oSete a leitura (Read). Fonte: (WANG;

WU, 2009). . . 21

Figura 2 Alternativas de sistemas de mem ´oria com mem ´oria PCM. Fonte: (XIA et al., 2015) . . . 22

Figura 3 Exemplo de versionamento adiantado (a) e atrasado (b). Fonte: (BALDASSIN, 2009) . . . 23

Figura 4 Detecc¸ ˜ao de conflitos em modo adiantado. Fonte: (RIGO; CENTO- DUCATTE; BALDASSIN, 2007) . . . 25

Figura 5 Detecc¸ ˜ao de conflitos em modo atrasado. Fonte: (RIGO; CENTO- DUCATTE; BALDASSIN, 2007) . . . 26

Figura 6 Como é feita a sincronizaç ão na tinySTM. Fonte: (FELBER; FET- ZER; RIEGEL, 2008) . . . 26

Figura 7 Geraç ão dos Arquivos de Traço . . . 34

Figura 8 Entrada e Sa´ıda da Simulac¸ ˜ao com o PCM-MS . . . 35

Figura 9 N´ıveis deCache . . . 35

Figura 10 Comunicac¸ ˜ao entre a Hierarquia de Cache e a PCM . . . 36

Figura 11 Resultados do ExperimentoScalability . . . 43

Figura 12 Resultados da Porcentagem M ´axima de Escalabilidade (PME) . . . 43

Figura 13 Resultados do ExperimentoContention . . . 44

Figura 14 N úmero de Aborts dos Experimentos com a Aplicaç ãoContention . 45 Figura 15 Resultados do ExperimentoDensity . . . 45

Figura 16 Resultados do ExperimentoTransaction Length . . . 46

Figura 17 Resultados do ExperimentoTemporal Locality . . . 47

Figura 18 Resultados do ExperimentoPollution . . . 47

Figura 19 Resultados do ExperimentoPredominance . . . 48

Figura 20 Resultados do ExperimentoWorking-Set . . . 49

Figura 21 Total de Instruç ões de Acesso à Mem ória doBenchmark Bayes . . 52

Figura 22 Total de Instruç ões de Acesso à Mem ória doBenchmark Genome . 53 Figura 23 Total de Instruç ões de Acesso à Mem ória doBenchmark Intruder . 53 Figura 24 Total de Instruç ões de Acesso à Mem ória doBenchmark Kmeans . 54 Figura 25 Total de Instruç ões de Acesso à Mem ória doBenchmark Labyrinth 55 Figura 26 Total de Instruç ões de Acesso à Mem ória doBenchmark SSCA2 . 55 Figura 27 Total de Instruç ões de Acesso à Mem ória doBenchmark Vacation . 56 Figura 28 N úmero de Leituras na PCM dos Experimentos com o Benchmark Bayes . . . 57

(11)

Figura 30 N ´umero de Leituras na PCM dos Experimentos com o Benchmark Intruder . . . 58 Figura 31 N ´umero de Leituras na PCM dos Experimentos com o Benchmark

Kmeans . . . 59 Figura 32 N ´umero de Leituras na PCM dos Experimentos com o Benchmark

Labyrinth . . . 60 Figura 33 N ´umero de Leituras na PCM dos Experimentos com o Benchmark

SSCA2 . . . 60 Figura 34 N ´umero de Leituras na PCM dos Experimentos com o Benchmark

Vacation . . . 61 Figura 35 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Bayes . . . 61 Figura 36 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Genome . . . 62 Figura 37 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Intruder . . . 63 Figura 38 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Kmeans . . . 63 Figura 39 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Labyrinth . . . 64 Figura 40 N ´umero de Escritas na PCM dos Experientos com o Benchmark

SSCA2 . . . 64 Figura 41 N ´umero de Escritas na PCM dos Experientos com o Benchmark

Vacation . . . 65 Figura 42 Bits Alterados na PCM do Experimento com oBenchmark Bayes . 66 Figura 43 Bits Alterados na PCM do Experimento com oBenchmark Genome 66 Figura 44 Bits Alterados na PCM do Experimento com oBenchmark Intruder 67 Figura 45 Bits Alterados na PCM do Experimento com oBenchmark Kmeans 68 Figura 46 Bits Alterados na PCM do Experimento com oBenchmark Labyrinth 68 Figura 47 Bits Alterados na PCM do Experimento com oBenchmark SSCA2 . 69 Figura 48 Bits Alterados na PCM do Experimento com oBenchmark Vacation 70 Figura 49 Bits Alterados por Escrita . . . 71 Figura 50 Estimativa do Consumo de Energia da PCM . . . 73 Figura 51 Porcentagem do consumo de energia de Sets, Resets e Leituras na

PCM . . . 74

(12)

Tabela 1 Definic¸ ˜oes das Caracter´ısticas Ortogonais do EigenBench (HONG

et al., 2010) . . . 37

Tabela 2 Par ˆametros Utilizados com o EigenBench . . . 42

Tabela 3 Par ˆametros Utilizados com cada Benchmark do STAMP . . . 51

Tabela 4 Par ˆametros Utilizados no Simulador PCM-MS . . . 51

(13)

ACID Atomicidade, Consist ˆencia, Isolamento e Durabilidade DRAM Dynamic Random Access Memory

HTM Hardware Transactional Memory PCM Phase-Change Memory

PMD Personal Mobile Devices RAM Random Access Memory

RSTM Rochester Software Transactional Memory SSCA2 Scalable Synthetic Compact Applications 2

STAMP StanfordTransactional Applications for Multi-Processing STM Software Transactional Memory

TL2 Transactional Locking 2 TM Transactional Memory VM Vesion Management WBC Write Back Commit-time WBE Write Back Encounter-time WT Write Through

(14)

1 INTRODUC¸ ˜AO . . . . 16

1.1 Motivac¸ ˜ao . . . 17

1.2 Objetivos . . . 18

1.3 Metodologia . . . 18

1.3.1 Estudo e caracterizac¸ ˜ao dos versionamentos de dados implementados em STM . . . 18

1.3.2 Implementac¸ ˜ao do simulador . . . 18

1.3.3 Comparaç ão dos diferentes versionamentos de dados em relaç ão ao impacto em uma mem ória PCM . . . 19

1.4 Estrutura do Texto. . . 19

2 BACKGROUND . . . . 20

2.1 Phase-Change Memory . . . 20

2.1.1 Escritas . . . 20

2.1.2 Leituras . . . 20

2.1.3 Limitac¸ ˜oes da PCM . . . 21

2.1.4 Sistemas de Mem ´oria com PCM . . . 21

2.2 Mem ´orias Transacionais . . . 22

2.2.1 Propriedades . . . 22

2.2.2 Versionamento de Dados . . . 23

2.2.3 Detecc¸ ˜ao de Conflito . . . 24

2.3 TinySTM . . . 26

2.3.1 Sincronizac¸ ˜ao e Versionamento . . . 26

2.3.2 Escritas . . . 27

2.3.3 Leituras . . . 27

2.3.4 Gerenciamento de Mem ´oria . . . 28

2.3.5 Gerenciador de Contenc¸ ˜ao . . . 28

2.4 Trabalhos Relacionados . . . 29

2.4.1 Analyzing the Impact of Useless Write-Backs on the Endurance and Energy Consumption of PCM Main Memory . . . 29

2.4.2 Bit Mapping for Balanced PCM Cell Programming. . . 29

2.4.3 An álise de desgaste de t écnicas de correç ão de erros em Phase- Change Memories . . . 30

2.4.4 Curling-PCM: Application-Specific Wear Leveling for Phase Change Me- mory based Embedded Systems . . . 30

2.4.5 A three-stage-write scheme with flip-bit for PCM main memory . . . 31

2.4.6 Profiling Patterns of Bit Flipping for Software Transactional Memories . . 31

(15)

2.4.8 Experimentos com Gerenciamento de Contenç ão em uma Mem ória

Transacional com Suporte em Software . . . 32

2.5 Considerac¸ ˜oes Finais do Cap´ıtulo . . . 33

3 AMBIENTE DE AVALIAC¸ ˜AO . . . . 34

3.1 Phase-Change Memory - Multicore Simulator (PCM-MS) . . . 34

3.1.1 Hierarquia de Mem ´oria . . . 35

3.1.2 Limitac¸ ˜oes . . . 35

3.2 Pintools . . . 36

3.3 Eigenbench . . . 36

3.4 STAMPBenchmark . . . 37

3.4.1 Bayes . . . 38

3.4.2 Genome . . . 38

3.4.3 Intruder . . . 38

3.4.4 Kmeans . . . 38

3.4.5 Labyrinth . . . 39

3.4.6 SSCA2 . . . 39

3.4.7 Vacation . . . 39

3.4.8 Yada . . . 39

3.5 Considerac¸ ˜oes Finais do Cap´ıtulo . . . 40

4 CARACTERIZAC¸ ˜AO DOS VERSIONAMENTOS DE DADOS . . . . 41

4.1 Configurac¸ ˜oes dos Experimentos . . . 41

4.2 Scalability . . . 42

4.3 Contention . . . 44

4.4 Density . . . 45

4.5 Transaction Length . . . 46

4.6 Temporal Locality . . . 46

4.7 Pollution . . . 47

4.8 Predominance . . . 48

4.9 Working-set . . . 48

4.10 Discuss ˜ao . . . 49

5 CARACTERIZAÇ ÃO DOS PADR ÕES DE ACESSO À MEM ÓRIA . . . . 50

5.1 Configurac¸ ˜oes dos Experimentos . . . 51

5.2 Acessos `a Mem ´oria . . . 52

5.3 Acessos `a Mem ´oria Principal (PCM) . . . 57

5.4 Bits Alterados na PCM . . . 65

5.5 Consumo de Energia . . . 72

5.6 Discuss ˜ao . . . 73

6 CONCLUS ˜AO . . . . 75

6.1 Publicac¸ ˜oes . . . 76

6.2 Trabalhos Futuros . . . 77

REFER ˆENCIAS . . . . 78

AP ˆENDICE A RESULTADOS SCALABILITY . . . . 83

(16)

AP ˆENDICE C RESULTADOS DENSITY . . . . 85

AP ˆENDICE D RESULTADOS TRANSACTION LENGHT . . . . 86

AP ˆENDICE E RESULTADOS TEMPORAL LOCALITY . . . . 87

AP ˆENDICE F RESULTADOS POLLUTION . . . . 88

AP ˆENDICE G RESULTADOS PREDOMINANCE . . . . 89

AP ˆENDICE H RESULTADOS WORKING-SET SIZE . . . . 90

AP ÊNDICE I RESULTADOS M ÉDIA DE ACESSOS À MEM ÓRIA . . . . 91

AP ˆENDICE J RESULTADOS M ´EDIA DE LEITURAS NA PCM . . . . 94

AP ˆENDICE K RESULTADOS N ´UMERO DE ESCRITAS NA PCM . . . . 97

AP ˆENDICE L RESULTADOS N ´UMERO DE BITS ALTERADOS NA PCM . . 100

AP ˆENDICE M RESULTADOS DO CONSUMO DE ENERGIA . . . . 103

AP ÊNDICE N RESULTADOS N ÚMERO DE TRANSAÇ ÕES . . . . 106

AP ÊNDICE O RESULTADOS N ÚMERO DEABORTS . . . . 109 AP ÊNDICE P RESULTADOS TAXAS DE HIT E MISS NOS NÍVEIS DE CACHE112

(17)

A efici ência energ ética é crucial para o atual paradigma computacional, onde dis- positivos pessoais m óveis ou personal mobile devices (PMD) servem como clientes para acesso à computaç ão em nuvem (PATTERSON; HENNESSY, 2013). Grandes data centers utilizam uma hierarquia onde a mem ória principal é implementada em tecnologia DRAM. Mem órias tradicionais (DRAM) representam entre 20% e 40% do consumo total de um servidor (XIA et al., 2015). Uma alternativa atraente para grandesdata centers é a tecnologia PCM que surgiu como uma alternativa para o consumo proibitivo de energia em mem órias tradicionais (LEE et al., 2010). A n ão volatilidade deste tipo de mem ória reduz o consumo est ático de pot ência. Entretanto, as escritas s ão lentas, pois o processo de armazenamento de um bit altera o estado do material da c élula de mem ória em quest ão (LEE et al., 2010). Al ém disso, escritas degradam o material, limitando a vida útil deste tipo de mem ória.

A programaç ão concorrente é uma área que vem ganhando espaço e import ância na computaç ão, devido aos computadores, que contam com m últiplos processadores.

Isso favorece a programaç ão concorrente, visto que ela pode explorar estes m últiplos processadores de forma a melhorar o desempenho de um programa. Por ém, um dos problemas da programaç ão concorrente é a condiç ão de corrida (SILBERSCHATZ, 2010), que consiste na situaç ão em que v árias threads ou processos acessam e manipulam os mesmos dados concorrentemente e na qual o resultado da execuç ão depende da ordem espec´ıfica em que o acesso ocorre. A parte do programa que cont ém os dados manipulados concorrentemente é chamada de seç ão cr´ıtica (SIL- BERSCHATZ, 2010). Para que n ão ocorra a condiç ão de corrida, podem ser utilizados diferentes m étodos de controle de acesso às mesmas. A sincronizaç ão é feita para que ocorra a exclus ão m útua, que consiste no princ´ıpio que se umathread est á manipulando os dados compartilhados dentro de uma seç ão cr´ıtica, nenhuma outra thread pode acessar a mesma seç ão cr´ıtica. Existem v ários m étodos que fazem a sincronizaç ão, entre eles as mem órias transacionais.

As mem órias transacionais (HERLIHY; ELIOT; MOSS, 1993) outransactional memories (TM) s ão uma alternativa para sincronizaç ão de threads. Mem órias transa-

(18)

cionais s ão baseadas em transaç ões de banco de dados. A principal vantagem em relaç ão às alternativas convencionais (baseadas emlocks) é a maior simplicidade ao escrever o c ódigo. Outra vantagem das mem órias transacionais em comparaç ão com locks é a inexist ência do problema de deadlock. A composiç ão de componentes de software tamb ém é mais simples, aumentando a reusabilidade do c ódigo. Por essas e outras vantagens, mem órias transacionais s ão uma alternativa promissora para a escrita de c ódigo port ável e escal ável em mem ória compartilhada (MORESHET;

BAHAR; HERLIHY, 2006). Primeiramente foram pensadas para serem desenvolvidas em hardware (HTM), mas acabaram ganhando mais popularidade quando desenvolvidas em software (STM).

Como descrito anteriormente, mem órias transacionais s ão baseadas nas transaç ões de banco de dados. As transaç ões em sistemas de banco de dados satisfazem quatro propriedades: atomicidade, consist ência, isolamento e durabilidade. Es- sas propriedades podem ser resumidas na sigla ACID. As transaç ões das mem órias transacionais tamb ém devem garantir essas propriedades, exceto a durabilidade visto que n ão é necess ário manter os dados por definitivo na mem ória. Para garantir a atomicidade, as mem órias transacionais implementam versionamento de dados para fazer o gerenciamento das vers ões dos dados. Existem dois tipos de versionamento de dados: Versionamento Adiantado e Versionamento Atrasado. Esses dois tipos de versionamento se diferenciam na quest ão de onde estar á o valor mais atualizado do dado durante a transaç ão, esse valor poder á estar na mem ória (Versionamento Adi- antado) ou em umbuffer auxiliar (Versionamento Atrasado).

1.1 Motivac¸ ˜ao

Tanto mem órias transacionais quanto as mem órias PCM s ão alternativas promissoras em suas áreas, programaç ão concorrente (mem órias transacionais) e mem ória principal (mem ória PCM). As mem órias transacionais s ão promissoras devido sua maior simplicidade ao escrever um c ódigo que seja port ável e escal ável em mem ória compartilhada. J á a mem ória PCM é uma alternativa promissora devido a sua n ão volatilidade, que reduz o consumo est ático de pot ência, fazendo da mem ória PCM uma alternativa para o consumo proibitivo de energia em mem órias tradicionais.

Ent ão, como mem órias transacionais e mem órias PCM s ão alternativas promissoras, analisar o impacto das diferentes implementaç ões de versionamento de dados das mem órias transacionais (que s ão os respons áveis pelo gerenciamento das vers ões dos dados na mem ória) e ver qual prejudicaria menos a mem ória PCM ser á importante para prolongar a vida útil da PCM.

(19)

1.2 Objetivos

O objetivo principal deste trabalho é analisar o impacto das diferentes implementaç ões de versionamento de dados das mem órias transacionais em software nas mem órias PCM.

Os objetivos espec´ıficos s ˜ao:

1. Caracterizar os diferentes versionamentos de dados das STM;

2. Analisar o desgaste dos diferentes versionamentos de dados em uma mem ´oria PCM;

3. Analisar e caracterizar o consumo de energia dos diferentes versionamentos de dados em mem ´orias PCM; e

4. Apontar qual é a melhor opç ão de versionamento de dados para ser executado em uma mem ória PCM.

1.3 Metodologia

Esta seç ão descreve os passos metodol ógicos que foram realizados para o desenvolvimento deste trabalho.

1.3.1 Estudo e caracterizac¸ ˜ao dos versionamentos de dados implementados em STM

Primeiramente para o desenvolvimento deste trabalho foi necess ário estudar, analisar e caracterizar os diferentes versionamentos de dados. Ent ão foi feito um estudo sobre o comportamento de cada versionamento e uma caraterizaç ão dos mesmos por meio da execuç ão de experimentos com a biblioteca de STM TinySTM e com o benchmark Eigenbench (HONG et al., 2010), que é um microbenchmark que faz uma avaliaç ão ortogonal das caracter´ısticas de aplicaç ões que formam a base para o comportamento transacional. Ele foi útil para compreens ão do comportamento dos diferentes versionamentos. O Eigenbench em seu site oficial n ão tem uma vers ão para a TinySTM, ent ão foi feita a portabilidade do Eigenbench para a TinySTM.

1.3.2 Implementac¸ ˜ao do simulador

Para fazer a simulaç ão foi implementado um simulador de hierarquia de mem ória, com a mem ória principal sendo a mem ória PCM. O simulador recebe arquivos de traço com os acessos à mem ória e faz a simulaç ão. Uma caracter´ıstica deste simulador é que ele pode ser utilizado por programas multithread, onde cada thread ter á um arquivo de traço. Para gerar os arquivos de traço foi utilizada a ferramenta Pintools (LUK et al., 2005). O simulador ser á descrito no Cap´ıtulo 3.

(20)

1.3.3 Comparaç ão dos diferentes versionamentos de dados em relaç ão ao im- pacto em uma mem ória PCM

Por fim para fazer a comparaç ão dos diferentes versionamentos de dados, foram feitas execuç ões com o simulador, onde para cada conjunto de testes (benchmark- versionamento), foram feitas 30 execuç ões e calculada a m édia aritm ética dos resultados. Para analisar o desgaste em uma mem ória PCM, foi analisado o n úmero de bits alterados na mem ória principal (mem ória PCM). Tamb ém foi feito um c álculo do consumo de energia da mem ória PCM nos diferentes experimentos.

1.4 Estrutura do Texto

O trabalho que segue est á organizado da seguinte forma: o Cap´ıtulo 2 apresenta os conceitos e o funcionamento da PCM, das mem órias transacionais e da biblioteca de STM TinySTM. No Cap´ıtulo 3 é apresentado o ambiente de avaliaç ão do trabalho.

O Cap´ıtulo 4 apresenta a caracterizaç ão dos versionamento de dados. O Cap´ıtulo 5 discute os resultados da caracterizaç ão dos acessos à mem ória e o impacto na PCM.

E por fim, o Cap´ıtulo 6 apresenta as considerac¸ ˜oes finais e os trabalhos futuros.

(21)

2.1 Phase-Change Memory

APhase-Change Memory (PCM) é uma mem ória n ão-vol átil que surgiu como uma alternativa para o consumo proibitivo de energia em mem órias tradicionais, para substituir em grande parte as mem órias DRAM (FERREIRA et al., 2010). Isto se d á pelo seu custo-benef´ıcio e a sua efici ência em relaç ão ao consumo de energia. A PCM utiliza-se das fases de seu material para armazenar dados. A temperatura é a respons ável por induzir a mudança de fase do material.

2.1.1 Escritas

As escritas, na PCM, s ˜ao custosas, pois elas s ˜ao aproximadamente 5 a 10 vezes mais lentas e consomem 10 vezes mais energia que as leituras (RAOUX et al., 2008).

Elas s ˜ao feitas da seguinte forma: um pulso de corrente passa pelo material, fazendo com que ele fique em um estado amorfo ou em um estado cristalino (LEE et al., 2010).

Cada uma das estruturas tem resist ências el étricas diferentes sendo poss´ıvel, assim, armazenar com precis ão o valor de um bit. Segue a descriç ão de como ocorre um Reset e umSet na mem ória PCM.

• Reset: para que ocorra oReset ´e induzido um alto e curto pulso de corrente, que

é interrompido abruptamente, fazendo com que a resistividade do material au- mente. Ao extinguir rapidamente a geraç ão de calor, o material torna-se amorfo.

• Set: para que ocorra o Set, ´e induzido um pulso moderado e longo de corrente, o que faz com que a resistividade do material seja reduzida, assim fazendo com que o material esfrie gradualmente e mude para um estado cristalino.

2.1.2 Leituras

No in´ıcio de uma leitura, obitline é carregado com a voltagem correspondente. Se a c élula selecionada da PCM est á em um estado cristalino, o bitline é descarregado com a corrente fluindo atrav és do elemento de armazenamento e acessando o tran- sistor. Se a c élula est á em um estado amorfo, a corrente do bitline é impedida ou

(22)

limitada (QURESHI; SRINIVASAN; RIVERS, 2009). Com isso ´e poss´ıvel diferenciar os dois estados, e assim diferenciar o bit 0 do bit 1.

2.1.3 Limitac¸ ˜oes da PCM

O principal problema da PCM s ão suas escritas que, al ém de serem lentas, tamb ém desgastam o material (LEE et al., 2010). Como a escrita desgasta o material, o tempo de vida da PCM é ordens de grandeza menor que outras alternativas de armazenamento. A Figura 1 compara oReset, oSet e a leitura (Read) em relaç ão ao tempo e a corrente. Como pode ser visto o Reset requer um pulso de corrente mais alto, ent ão é ele quem determina a pot ência da escrita. J á o tempo de escrita é dado peloSet (WANG; WU, 2009), que tem uma corrente menor mas com um tempo mais prolongado. O tempo e a corrente das leituras s ão muito menores que o tempo e a corrente doReset e doSet.

Figura 1: Comparac¸ ˜ao entre oReset, o Set e a leitura (Read). Fonte: (WANG; WU, 2009).

2.1.4 Sistemas de Mem ´oria com PCM

Segundo Xia et al. (2015), existem tr ês alternativas de sistema de mem ória onde a PCM é a mem ória principal. Essas alternativas podem ser vistas na Figura 2. A primeira alternativa é substituir a DRAM pela PCM, como mostra a Figura 2a. A segunda alternativa é utilizar a PCM e a DRAM em paralelo, em uma arquitetura h´ıbrida, como mostra a Figura 2b. E por fim a terceira alternativa tamb ém é uma alternativa h´ıbrida, com PCM e DRAM em paralelo, mas nesse caso a DRAM é utilizada como cache ou buffer da PCM, como mostra a Figura 2c. As alternativas de mem ória principal h´ıbridas permitem que as aplicaç ões explorem as vantagens tanto da PCM como da DRAM, sendo ent ão as mais estudadas.

(23)

(a) (b) (c)

Figura 2: Alternativas de sistemas de mem ´oria com mem ´oria PCM. Fonte: (XIA et al., 2015)

2.2 Mem ´ orias Transacionais

Mem órias transacionais (HERLIHY; ELIOT; MOSS, 1993) s ão uma alternativa para sincronizaç ão de threads. TMs s ão baseadas em transaç ões de banco de dados e fornecem uma execuç ão at ômica e isolada de alteraç ões em um conjunto de dados compartilhados. As vantagens das TMs s ão em relaç ão a simplicidade de escrita de c ódigo e a inexist ência dedeadlocks (MORESHET; BAHAR; HERLIHY, 2006).

Primeiramente, TMs foram pensadas para serem desenvolvidas em hardware (HTM), mas acabaram ganhando mais popularidade quando desenvolvidas em software (STM). Grandes empresas como Intel e IBM acabaram investindo em mem ´orias transacionais suportadas em hardware (HAMMARLUND et al., 2014;

SHUM; BUSABA; JACOBI, 2013; LE et al., 2015; CLICK, 2009; DICE et al., 2009).

TMs tamb ém podem ser implementadas em uma vers ão h´ıbrida. Este trabalho aborda implementaç ões de TMs emsoftware.

Na programaç ão utilizando STMs, todo o acesso à mem ória compartilhada é rea- lizado dentro de transaç ões e todas as transaç ões s ão executadas atomicamente em relaç ão a transaç ões concorrentes.

2.2.1 Propriedades

Transaç ão é uma sequ ência finita de escritas e leituras na mem ória, executada por umathread (HERLIHY; ELIOT; MOSS, 1993), e que deve satisfazer tr ês propriedades:

• Atomicidade: cada transaç ão faz uma sequ ência de mudanças provis órias na mem ória compartilhada. Quando a transaç ão é conclu´ıda, pode ocorrer umcom-

(24)

mit, tornando suas mudanças vis´ıveis a outras threads instantaneamente, ou pode ocorrer umabort, fazendo com que suas alteraç ões sejam descartadas.

• Consist ência: transaç ões devem garantir que um sistema que era consistente deve ser mantido consistente. Essa é a propriedade relacionada com o conceito de invari ância.

• Isolamento: transaç ões n ão interferem na execuç ão de outras transaç ões, as- sim parecendo que elas s ão executadas serialmente. Uma transaç ão n ão ob- serva o estado intermedi ário de outra.

2.2.2 Versionamento de Dados

O versionamento de dados faz o gerenciamento das vers ões dos dados. Ele armazena tanto o valor do dado no in´ıcio de uma transaç ão como tamb ém o valor do dado modificado durante a transaç ão, isso para garantir a propriedade de atomicidade (BALDASSIN, 2009).

Figura 3: Exemplo de versionamento adiantado (a) e atrasado (b). Fonte: (BALDAS- SIN, 2009)

Existem dois tipos de versionamento de dados, s ˜ao eles:

• Versionamento Adiantado: como pode ser visto na Figura 3 (a), o valor modi- ficado durante a transaç ão é armazenado direto na mem ória e o valor inicial é armazenado em um undo log, para que no caso de cancelamento na transaç ão o valor inicial seja restaurado na mem ória.

• Versionamento Atrasado: como pode ser visto na Figura 3 (b) neste versiona- mento o valor modificado durante a transaç ão é armazenado em um buffer e o valor inicial é mantido na mem ória at é que aconteça um commit na transaç ão,

(25)

onde o valor armazenado no buffer é escrito na mem ória. Caso aconteça o cancelamento na transaç ão, o valor dobuffer é descartado.

O versionamento de dados em mem órias transacionais desenvolvidas em software, que é o foco deste trabalho, necessitam de dois conceitos, a aquisiç ão de escrita e o versionamento. A aquisiç ão de escrita pode ser de dois tipos, bloqueante ou n ão bloqueante (MARATHE; MOIR, 2007). A biblioteca utilizada neste trabalho, a TinySTM, implementa a aquisiç ão de escrita bloqueante. No caso da TinySTM, o privil égio de escrita é a aquisiç ão dolock referente ao endereço que ser á escrito. Na aquisiç ão de escrita bloqueante, a transaç ão pode adquirir o privil égio de escrita em dois momen- tos: em seguida que ocorre uma escrita ou no final da transaç ão. J á o versionamento descreve onde ser á feita esta escrita, diretamente na mem ória (versionamento adiantado) ou primeiramente em um buffer (versionamento atrasado). Com isso, STM podem ter at é tr ês tipos de versionamentos:

• Com aquisiç ão do privil égio no momento que ocorre uma escrita e versionamento adiantado;

• Com aquisiç ão do privil égio no momento que ocorre uma escrita e versionamento atrasado; e

• Com aquisiç ão do privil égio no final de uma transaç ão e versionamento atrasado.

N ão existe a possibilidade de ter a aquisiç ão do privil égio no final de uma transaç ão e versionamento adiantado, devido às transaç ões terem que manter o controle das escritas para garantir a consist ência do sistema.

2.2.3 Detecc¸ ˜ao de Conflito

Mecanismos de detecç ão de conflitos verificam a exist ência de operaç ões con- flitantes durante uma transaç ão. Um conflito ocorre quando duas transaç ões est ão acessando um mesmo dado na mem ória e pelo menos uma das transaç ões est á fazendo uma operaç ão de escrita (BALDASSIN, 2009).

Da mesma forma que o versionamento de dados, a detecç ão de conflito tamb ém pode ser de dois tipos:

• Detecç ão de Conflitos Adiantada: este tipo de detecç ão ocorre no momento que duas transaç ões acessam um mesmo dado e uma delas faz uma operaç ão de escrita. Essa operaç ão de escrita é detectada e ent ão uma transaç ão é abortada. Neste tipo de detecç ão pode ocorrer um problema chamado de livelock, quando duas transaç ões ficam se cancelando. Desta forma, a execuç ão do programa n ão progride. A Figura 4 mostra como é feita a detecç ão de conflitos adiantada.

(26)

O Caso 1 mostra a execuç ão sem conflitos, no qual as duas transaç ões s ão executadas sem problemas. J á no Caso 2, mostra-se o que acontece quando ocorre um conflito, no caso T1 l ê A e logo depois T2 escreve em A, ent ão o conflito é detectado e T1 é abortada. Logo depois de ser efetivada T2, a transaç ão T1 consegue ler A sem problema de conflito. Por fim, o Caso 3 mostra a situaç ão de livelock, onde as duas transaç ões tentam ler e escrever em A mas ambas acabam sempre abortando.

Figura 4: Detecc¸ ˜ao de conflitos em modo adiantado. Fonte: (RIGO; CENTODUCATTE;

BALDASSIN, 2007)

• Detecç ão de Conflitos Atrasada: Este tipo de detecç ão de conflito ocorre no final da transaç ão. Antes da transaç ão ser completada, verifica-se se ocorreu um conflito. Caso tenha ocorrido, a transaç ão é cancelada, sen ão é efetivada. Para transaç ões muito grandes n ão é recomendado este tipo de detecç ão, pois uma transaç ão grande pode ser abortada v árias vezes por transaç ões pequenas, assim gastando tempo de processamento desnecess ário, este problema se chama starvation. A Figura 5 mostra como é feita a detecç ão de conflitos atrasada.

No Caso 1 mostra-se as transaç ões acessando dados diferentes, n ão ocasio- nando conflitos. No Caso 2, T2 l ê A que é escrita por T1. A T2 s ó nota o conflito quando T1 é efetivado. Logo depois de notar o conflito T2 é abortada. No Caso 3 n ão ocorre nenhum conflito, pois T1 l ê A antes de T2 escrever. O Caso 4 mostra a situaç ão em que, ap ós ser cancelada, T1 volta a executar.

Para solucionar o problema de qual transaç ão continuar á executando, quando ocorre um conflito, é utilizado um gerenciador de contenç ão (HARRIS; LARUS;

RAJWAR, 2010). O gerenciador de contenç ão é o respons ável por decidir quando e qual transaç ão vai ser abortada, isso para garantir que a execuç ão do programa prossiga sem problemas.

(27)

Figura 5: Detecc¸ ˜ao de conflitos em modo atrasado. Fonte: (RIGO; CENTODUCATTE;

BALDASSIN, 2007)

2.3 TinySTM

A TinySTM (FELBER; FETZER; RIEGEL, 2008) é uma implementaç ão de STM para as linguagens C e C++. Seu algoritmo é baseado em outros algoritmos de STM como o TL2 (DICE; SHALEV; SHAVIT, 2006). Ela é uma biblioteca utilizada para escrever aplicativos que usam mem órias transacionais para sincronizaç ão, em substituiç ão aos tradicionaislocks.

2.3.1 Sincronizac¸ ˜ao e Versionamento

Na TinySTM a sincronizaç ão é feita a partir de um array de locks compartilhado que gerencia o acesso concorrente à mem ória. Cadalock bloqueia v ários endereços de mem ória, como pode ser visto na Figura 6. O mapeamento é feito por meio de uma funç ãohash.

Figura 6: Como é feita a sincronizaç ão natinySTM. Fonte: (FELBER; FETZER; RIE- GEL, 2008)

(28)

ATinySTM apresenta tr ês diferentes estrat égias de versionamento, s ão elas:

• WRITE BACK ETL: esta estrat égia implementa o versionamento atrasado (write-back) com encounter-time locking, onde o lock é adquirido quando ocorre uma operaç ão de escrita. O valor somente é escrito na mem ória no momento docommit da transaç ão.

• WRITE BACK CTL: esta estrat égia implementa o versionamento atrasado (write-back) comcommit-time locking, onde olock é adquirido no momento da efetivaç ão da transaç ão (commit). Assim como oWRITE BACK ETL, o valor somente é escrito na mem ória no momento do commit da transaç ão.

• WRITE THROUGH: esta estrat égia implementa o versionamento adian- tado (write-through) comencounter-time locking. A atualizaç ão é realizada diretamente na mem ória e umundo log é mantido para o caso deabortna transaç ão.

A estrat égia de versionamento padr ão utilizada pela TinySTM é a WRITE BACK ETL.

2.3.2 Escritas

Nos versionamentos com aquisiç ão do lock no momento que ocorre uma escrita (WRITE BACK ETLeWRITE THROUGH), a transaç ão primeiro identifica olock correspondente ao endereço de mem ória e atomicamente l ê o valor da mem ória.

Se o lock est á em uso a transaç ão verifica se é a propriet ária do lock. Caso positivo, ent ão ela simplesmente escreve o novo valor, em um buffer (caso seja o versionamento WRITE BACK ETL) ou direto na mem ória (caso seja o versionamento WRITE THROUGH), e retorna. Caso contr ário, a transaç ão pode esperar por al- gum tempo ou abortar imediatamente. A TinySTM utiliza a última opç ão em sua implementaç ão.

Se olock n ão est á em uso, a transaç ão tenta adquiri-lo para escrever o novo valor na entrada utilizando uma operaç ão at ômica compare-and-swap. A falha indica que outra transaç ão adquiriu olock nesse meio tempo, ent ão a transaç ão é reiniciada.

Para o versionamento com aquisiç ão do lock no final da transaç ão (WRITE BACK CTL), a transaç ão primeiramente verifica se essa é a primeira escrita, que ela efetua, no endereço. Caso positivo, é alocada uma posiç ão no buffer para se efetivada a escrita. Caso contr ário, a posiç ão do buffer correspondente ao endereço da escrita é atualizada.

2.3.3 Leituras

Quando ocorre uma leitura na mem ória, a transaç ão deve verificar se o lock est á em uso ou se o valor j á foi atualizado concorrentemente por outra transaç ão. Para esse

(29)

fim, a transaç ão l ê olockcorrespondente ao endereço de mem ória. Se olock n ão tem propriet ário e o valor (n úmero de vers ão) n ão foi modificado entre duas leituras, ent ão o valor é consistente.

2.3.4 Gerenciamento de Mem ´oria

ATinySTM utiliza um gerenciador de mem ória que possibilita qualquer c ódigo transacional utilizar mem ória din âmica. As transaç ões mant ém o endereço da mem ória alocada ou liberada. A alocaç ão de mem ória é automaticamente desfeita quando a transaç ão é abortada. J á a liberaç ão n ão pode ser desfeita antes do commit. Con- tudo, uma transaç ão pode somente liberar a mem ória depois de adquirir todos os locks. Umfree é semanticamente equivalente a uma atualizaç ão.

2.3.5 Gerenciador de Contenc¸ ˜ao

A TinySTM implementa quatro estrat égias de gerenciamento de contenç ão, s ão elas:

• CM SUICIDE: nesta estrat égia a transaç ão que detecta o conflito é abortada imediatamente.

• CM DELAY: parecido com a estrat égia CM SUICIDE, mas espera at é a transaç ão, que est á em posse do lock, tenha liberado olock antes de reiniciar a transaç ão. Isso porque a transaç ão que foi abortada ir á provavelmente tentar adquirir o mesmolock novamente e talvez falhe mais de uma vez caso olock n ão tenha sido liberado. Al ém disso, essa estrat égia aumenta as chances de que a transaç ão tenha sucesso sem precisar abortar muitas vezes, o que melhora o tempo de execuç ão do processador.

• CM BACKOFF: tamb ém parecida com a estrat égiaCM SUICIDE, por ém espera por um tempo, rand ômico, para reiniciar a transaç ão. A duraç ão deste atraso

é escolhido uniformemente ao acaso em um intervalo cujo tamanho aumenta exponencialmente a cada reinicializaç ão.

• CM MODULAR: esta estrat égia implementa v ários gerenciadores de contenç ão, que s ão alternados durante a execuç ão. Os gerenciadores utilizados s ão:

– SUICIDE: a transaç ão que descobriu o conflito é abortada.

– AGGRESSIVE: a transaç ão que é abortada é a outra, e n ão a que descobriu o conflito.

– DELAY: a mesma coisa que aSUICIDE mas espera pela resoluç ão do conflito antes de reiniciar a transaç ão.

– TIMESTAMP: a transaç ão mais nova é abortada.

(30)

O gerenciador de contenç ão utilizado neste trabalho foiCM SUICIDE, que é a estrat égia de gerenciamento de contenç ão padr ão daTinySTM.

2.4 Trabalhos Relacionados

Esta Seç ão apresenta trabalhos que levam em consideraç ão o aumento de tempo

útil de uma mem ória PCM e a diminuiç ão do seu desgaste.

2.4.1 Analyzing the Impact of Useless Write-Backs on the Endurance and Energy Consumption of PCM Main Memory

Bock et al. (2011) abordam a t écnica Useless Write-Backs que consiste em n ão escrever na PCM dados que n ão ser ão mais utilizados na execuç ão do programa, assim evitando fazer escritas desnecess árias na PCM. Eles apresentam o impacto que os write-backs in úteis tem sobre a durabilidade e consumo de energia dos sistemas baseados em mem ória principal PCM e implementa t écnicas que evitam estes write- backs.

O trabalho apresenta um framework que mede o n úmero de write-backs in úteis na PCM para tr ês diferentes tipos de regi ões de mem ória e apresenta um modelo energ ético para determinar o m áximo de economia de energia que poderia ser alcançados atrav és de um regime deste tipo. S ão algoritmos diferentes para cada regi ão da mem ória, pois para cada uma delas, analisar se uma posiç ão de mem ória n ão ser á mais usada é diferente.

Oframework implementado funciona da seguinte forma, primeiramente o programa passa por uma instrumentaç ão que gera um arquivo de traço com os endereços e tipos de cada refer ência de mem ória, assim como outras informaç ões exigidas pelo tipo espec´ıfico de regi ão de mem ória que est á sendo analisado, em seguida o arquivo de traço passa por um analisador que consiste de um simulador de cache, rotinas de an álise e estruturas de dados que mant êm informaç ão sobre zonas mortas de mem ória, por fim com a sa´ıda do analisador s ão feitos c álculos que mostram a economia de energia e o aumento da durabilidade da mem ória PCM.

Os testes feitos para este trabalho utilizaram o conjunto de benchmarks SPEC2006 (HENNING, 2006) e mostraram que, evitandowrite-backs in úteis se pode economizar at é 19,8% de energia e melhorar a durabilidade de uma mem ória PCM em at é 26,2%.

2.4.2 Bit Mapping for Balanced PCM Cell Programming

Du et al. (2013) prop õem o double XOR mapping (D-XOR) para fazer uma distribuiç ão dos bits modificados entre grupos de c élulas da mem ória PCM de forma balanceada.

(31)

Primeiramente, foram analisados padr ˜oes de ciclos e agrupamentos de bits modificados nas escritas. Em seguida, os autores propuseram o D-XOR para fazer o balanceamento do desgaste das c ´elulas de PCM e diminuir o tempo de escrita.

Nos resultados os autores mostraram que o D-XOR pode diminuir em m ´edia at ´e 45% do tempo de escrita, isso fez com que othroughput fosse aumentado1,8×.

2.4.3 An álise de desgaste de t écnicas de correç ão de erros em Phase-Change Memories

Hoffman (2013) analisa, com uma modelagem matem ática, como a probabilidade debit-flipest á relacionada com a durabilidade das mem órias PCM, para os principais c ódigos de correç ão de erros (paridade, SECDED e BCH) e das principais t écnicas de recuperaç ão de falhas (ECP e SAFER).

Para desenvolver este trabalho o autor fez os experimentos de modelagem da probabilidade de bit-flip, para t écnicas de correç ão de erros e, por fim, dos modelos anal´ıticos.

Nos resultados, o autor apresentou que ocorreu uma vis´ıvel degradaç ão da durabilidade dos mecanismos de recuperaç ão de falhas que usam c ódigos de correç ão de erros. Um destaque dos resultados foi a t écnica ECP que foi a única que n ão mostrou degradaç ão da PCM. Tamb ém foi feita uma an álise de efici ência energ ética, relaci- onando a durabilidade da PCM e o consumo de energia onde novamente, a t écnica ECP se destacou nos resultados, como tamb ém a t écnica SAFER. Por fim, o trabalho apresenta modelos anal´ıticos probabil´ısticos das t écnicas ECP, SECDED e uma an álise da t écnica PAYG baseada no modelo anal´ıtico da ECP, que foram proposto pelo autor.

2.4.4 Curling-PCM: Application-Specific Wear Leveling for Phase Change Me- mory based Embedded Systems

Liu et al. (2013) centram-se na gest ão da PCM em sistemas embarcados, e prop õem uma t écnica de nivelamento de desgaste simples, mas eficaz para esten- der o tempo de vida de sistemas embarcados baseados em PCM.

A ideia b ásica deste trabalho é mover periodicamente áreas que ocorreram muitas escritas, que s ão identificados pelos padr ões de aplicaç ão de escrita em todo o chip PCM, e distribuir as escritas uniformemente de modo que o nivelamento de desgaste pode ser melhorado. O trabalho apresenta duas implementaç ões a full curling e a partial curling.

Os experimentos destes trabalho focaram em analisar o n úmero debit-flipsna PCM e o tempo de resposta das implementaç ões. Os resultados mostraram que o n úmero total debit-flipscom as implementaç ões aumentou, mas o n úmero m áximo debit-flips em uma c élula de PCM diminuiu. Em relaç ão ao tempo de resposta opartial curling

(32)

reduziu em at é 77% em relaç ão aofull curling.

2.4.5 A three-stage-write scheme with flip-bit for PCM main memory

Li et al. (2015) apresentam um esquema de escrita de tr ês fases, cujo o objetivo é reduzir o n úmero de bits alterados e a lat ência de gravaç ão para a PCM.

Este trabalho combina as ideias do Flip-N-Write (CHO; LEE, 2009) e da pol´ıtica de dois est ágios de escrita (YUE; ZHU, 2013). O esquema de tr ês fases compara os dados antigos e os novos e os novos dados s ão reorganizados de forma que minimize o n úmero de bits alterados. Em seguida, todos os bits alterados s ão divididos em novos bits 0 e novos bits 1 e s ão atualizados separadamente para evitar o desperd´ıcio de tempo de escritas mistas.

Os resultados dos experimentos mostraram que o esquema proposto diminui 43,5% as mudanc¸as de bit, 16,6% o tempo das escritas e 34,6% o consumo de energia das escritas em m ´edia.

2.4.6 Profiling Patterns of Bit Flipping for Software Transactional Memories No trabalho, Teixeiraet al (2014), é feita uma an álise dos padr ões de escrita e de bits alterados do conjunto de benchmarks STAMP e seu impacto em uma mem ória PCM.

Para o trabalho o autor implementou uma instrumentaç ão, com a ferramenta Pin- Tools, que conta cada escrita feita à mem ória e tamb ém faz uma avaliaç ão de quantos bits foram modificados em cada escrita. A implementaç ão foi feita da seguinte forma:

a cada escrita na mem ória é incrementado um contador, que contabiliza o n úmero de escritas. Tamb ém é armazenado o endereço de mem ória que est á sendo escrita e o valor que ser á escrito nela. Com o endereço de mem ória é obtido o valor atual que est á armazenado em um vetor e é feita uma comparaç ão com o valor que ser á escrito naquele endereço, de modo a verificar quantos bits foram modificados. Essa comparaç ão é feita em tempo de execuç ão. Logo depois de fazer essa comparaç ão, o vetor é atualizado com o valor escrito.

Os resultados do trabalho mostraram alguns padr ões nas escritas das STMs. Um destes foi que na maioria dos benchmarks quanto maior era o n úmero de threads maior era o n úmero de escritas, o n úmero de bits alterados e o n úmero de posiç ões que foram escritas. Mas algunsbenchmarksmostraram um comportamento diferente.

Conforme aumentava o n úmero de threads o n úmero de escritas, o n úmero de bits alterados e o n úmero de posiç ões que foram escritas variavam, o que pode ser justifi- cado em parte por suas implementaç ões, par âmetros escolhidos entre outras raz ões.

(33)

2.4.7 An álise de Consumo de Energia e Desempenho de Mem órias Transacio- nais em Software em Ambiente de Computaç ão Real

Rico (2013) analisa as bibliotecas de STM TL2, TinySTM, SwissTM e AdaptSTM, e faz uma an álise do consumo de energia e desempenho das STMs em ambiente de computaç ão real, utilizando-se obenchmark STAMP.

No trabalho, o autor analisa o consumo de energia por meio de um microcontrola- dor especializado embutido na placa-m ãe, presente na maioria dos servidores, deno- minadoBaseboard Management Controller (BMC). Com isso, ele coletou o consumo de energia nas execuç ões de cada biblioteca de STM. Para a an álise do desempenho, cadabenchmark apresentava em sua sa´ıda o tempo de execuç ão, e esse tempo, foi utilizado para a an álise do desempenho.

Os resultados obtidos no trabalho mostram que a biblioteca SwissTM foi a mais eficiente em termos de consumo de energia e desempenho, seguida pela AdaptSTM, TinySTM e TL2. O autor constatou que a escalabilidade das STMs utilizadas est á relacionada diretamente à particularidade das estrat égias de detecç ão e resoluç ão de conflitos empregada por cada biblioteca.

2.4.8 Experimentos com Gerenciamento de Contenç ão em uma Mem ória Tran- sacional com Suporte em Software

Uma comparaç ão do desempenho de diferentes implementaç ões de gerenciador de contenç ão pode ser visto no trabalho de Kronbauer e Rigo (2009). Este apresenta uma abordagem nova para gerenciar a contenç ão entre transaç ões, que leva em consideraç ão os padr ões de acesso aos diferentes dados de um programa ao escolher o gerenciador de contenç ão usado para o acesso a estes dados. Como biblioteca de STM, a RSTM (MARATHE et al., 2006) foi utilizada.

Para implementar esta abordagem proposta, os autores testaram algumas t écnicas. Primeiramente eles testaram inserir um campo adicional em cada objeto transacional para denotar o gerenciador de contenç ão a ele associado, e fazer com que a transaç ão detectasse qual gerenciador de contenç ão estava associado ao primeiro objeto aberto pela transaç ão para utilizar este gerenciador pelo restante de sua execuç ão, mas esta t écnica se mostrou invi ável visto o trabalho adicional inserido nos m étodos clone e redo. Outra t écnica testada foi utilizar herança para introduzir o campo citado apenas em objetos transacionais espec´ıficos, mas ent ão foi preciso utilizar convers ão de tipos din âmica ao consultar o objeto a respeito de qual gerenciador de contenç ão estava associado a ele, o que pareceu ser outra fonte significante de trabalho adicional. Por fim, a t écnica utilizada por eles neste trabalho foi permitir que o programador associe uma estrat égia de gerenciamento de contenç ão a cada transaç ão.

Com os resultados os autores chegaram à conclus ão que conhecer o padr ão

(34)

de acesso às estruturas de dados e tamb ém as configuraç ões do hardware n ão foi o suficiente para determinar os melhores gerenciadores de contenç ão para uso na aplicaç ão, uma vez que os resultados mostraram alta variaç ão nos diferentes sistemas de computaç ão testados.

2.5 Considerac¸ ˜ oes Finais do Cap´ıtulo

Este cap´ıtulo apresentou obackground deste trabalho. As caracter´ısticas e os conceitos da mem ória PCM, das mem órias transacionais e da biblioteca TinySTM foram discutidos. A TinySTM é uma implementaç ão de STM para as liguagens C e C++.

Ela faz parte do estado da arte de mem órias transacionais e é uma das bibliotecas de STM mais utilizada nas pesquisas. Um dos motivos de utilizar a TinySTM neste trabalho é que os tr ês versionamentos poss´ıveis s ão implementados.

A mem ória PCM é uma mem ória n ão-vol átil que surgiu como alternativa às DRAMs como mem ória principal em uma hierarquia de mem ória.

A grande vantagem da PCM est á em relaç ão ao seu consumo de energia, j á que para manter os dados na mem ória n ão precisa realizarrefresh. Apesar das vantagens, a PCM t êm problemas em relaç ão a suas escritas, que al ém de serem lentas ainda desgastam o seu material, diminuindo assim sua vida útil.

As TMs garantem maior abstraç ão na codificaç ão de programas concorrentes, pois possibilita uma programaç ão de mais alto n´ıvel, onde o programador n ão se preocupa com o modo como as sincronizaç ões ser ão feitas.

TMs implementam versionamentos de dados para garantir a atomicidade. O versionamento de dados em STM, que é o foco deste trabalho, necessitam de dois conceitos, a aquisiç ão de escrita e o versionamento. A aquisiç ão de escrita pode ser de dois tipos, bloqueante ou n ão bloqueante. Na aquisiç ão de escrita bloqueante, a transaç ão pode adquirir o privil égio de escrita em seguida que ocorre uma escrita ou no final da transaç ão. J á o versionamento descreve onde ser á feita esta escrita, diretamente na mem ória (versionamento adiantado) ou primeiramente em um buffer (versionamento atrasado).

Por fim, conseguir prolongar a vida útil da PCM é o grande desafio das pesquisas sobre PCM. Evitar a mudança de bits, al ém de diminuir o consumo de energia, evita a degradaç ão do material da PCM. Desta forma, este trabalho ter á uma abordagem de apresentar a opç ão de versionamento de dados das mem órias transacionais que provoque o menor desgaste de uma mem ória PCM.

(35)

Neste Cap´ıtulo ser ´a abordado o simulador implementado para este trabalho, o PCM-MS, assim como as ferramentas e osbenchmarks utilizados.

3.1 Phase-Change Memory - Multicore Simulator (PCM-MS)

OPhase-Change Memory - Multicore Simulator (PCM-MS) é um simulador de hierarquia de mem ória onde a PCM é a mem ória principal, e pode simular arquitetura com m últiplos n úcleos de processamento. Ele faz a simulaç ão dos acessos à mem ória e determina os bits alterados na PCM para estimar seu desgaste e seu consumo de energia da PCM. Ele foi desenvolvido devido aos simuladores dispon´ıveis n ão apre- sentarem em sua maioria a possibilidade de an álise dos bits, e tamb ém devido a n ão simularem arquiteturas com m últiplos n úcleos de processamento. O PCM-MS foi desenvolvido originalmente para este trabalho.

O PCM-MS utiliza arquivos de traço para fazer a simulaç ão dos acessos à mem ória.

Na Figura 7 pode ser visto com é feita a geraç ão destes arquivos. Para gerar os arquivos, é feita uma instrumentaç ão com a ferramenta Pintools na execuç ão dosben- chmarks. Essa instrumentaç ão armazena os dados de acesso à mem ória para assim poder gerar os arquivos de traço.

Figura 7: Geraç ão dos Arquivos de Traço

Na Figura 8 pode ser visto que o simulador PCM-MS recebe de entrada os arquivos de traço e gera como sa´ıda os resultados da simulaç ão. Partindo de um arquivo de traço, onde est ão ordenados os acessos à mem ória, o PCM-MS faz a simulaç ão. Na

(36)

execuç ão com m últiplos n úcleos de processamento, existir á um arquivo de traço para cadathread.

Figura 8: Entrada e Sa´ıda da Simulac¸ ˜ao com o PCM-MS

3.1.1 Hierarquia de Mem ´oria

A hierarquia de cacheno PCM-MS pode ser simulada em at é tr ês n´ıveis, sendo o n´ıvel L1 o mais pr óximo do n úcleo de processamento e o L3 o mais pr óximo do controlador de mem ória. Na Figura 9 pode ser visto como os n´ıveis de cache s ão compartilhados. Ascaches de n´ıvel L1 n ão s ão compartilhadas por mais que um n úcleo de processamento, ou seja, elas s ão únicas para cada n úcleo de processamento. As caches de n´ıvel L2 s ão compartilhadas por duas caches de n´ıvel L1, ou seja, s ão compartilhadas por at é dois n úcleos de processamento. J á a cache de n´ıvel L3 é compartilhada por at é quatrocachesde n´ıvel L2, sendo assim s ão compartilhadas por at é oito n úcleos de processamento. Para manter a consist ência é implementada uma pol´ıtica dewrite-back na hierarquia decache.

Figura 9: N´ıveis deCache

A comunicaç ão entre o n´ıvel de cache e a mem ória principal é feita por meio do controlador de mem ória oumemory control (MC), como pode ser visto na Figura 10.

Na mem ória principal é feita a an álise dos bits alterados nas escritas. A cada escrita na mem ória principal s ão analisados quantos bits foram alterados sendo poss´ıvel, assim, calcular o desgaste que a PCM sofreu e a energia que foi consumida.

3.1.2 Limitac¸ ˜oes

Uma limitaç ão do PCM-MS é que as threads s ão associadas a um determinado n úcleo de processamento e n ão s ão escalonadas em n úcleos diferentes. Com isso em

(37)

Figura 10: Comunicac¸ ˜ao entre a Hierarquia de Cache e a PCM

uma execuç ãomultithread, as threads s ão executadas somente em um único n úcleo.

O escalonamento dasthreadsser ´a providenciado para trabalhos futuros.

Outra limitaç ão é que devido ao simulador utilizar arquivos de traço para fazer as simulaç ões, n ão é poss´ıvel calcular o tempo de execuç ão da arquitetura simulada, visto que o tempo de execuç ão é limitado ao acesso ao disco, para ler os arquivos de traço.

3.2 Pintools

Pin (LUK et al., 2005) é uma ferramenta de instrumentaç ão din âmica de programas.

Pin foi projetado para fornecer uma funcionalidade onde um c ódigo escrito em C ou em C++, pode ser inserido em locais espec´ıficos de um execut ável. A vers ão do Pin utilizada foi a 2.12.

Diferente de outras ferramentas semelhantes que inserem o c ódigo de instrumentaç ão estaticamente, modificando o execut ável antes da execuç ão, o Pin insere o c ódigo dinamicamente, durante a execuç ão. Outra caracter´ıstica do Pin é que ele salva e restaura os registradores que s ão substitu´ıdos pelo c ódigo inserido para que o aplicativo continue a executar. Pin tamb ém tem um acesso limitado aos s´ımbolos e informaç ões de depuraç ão.

Uma limitaç ão do uso de instrumentaç ão no c ódigo é que esta pode alterar o comportamento din âmico principalmente em termos de desempenho.

3.3 Eigenbench

Eigenbench (HONG et al., 2010) é um microbenchmark que faz uma avaliaç ão ortogonal das caracter´ısticas de aplicaç ões que formam a base para o comportamento transacional. Ele tamb ém é útil para compreender plenamente o desempenho de um sistema transacional. O Eigenbench n ão possui, oficialmente em seu site, uma vers ão compat´ıvel com a TinySTM. Para utiliz á-lo neste trabalho foi feita uma portabilidade que permitiu executar o Eigenbench com a TinySTM. As definiç ões das caracter´ısticas ortogonais podem ser vistas na Tabela 1. A vers ão utilizada foi a 0.8.0.

O Eigenbench faz uma simulaç ão de cen ários que podem ocorrer em um sistema transacional. Para isso, ele utiliza tr êsarrays distintos:

(38)

Tabela 1: Definic¸ ˜oes das Caracter´ısticas Ortogonais do EigenBench (HONG et al., 2010)

Caracter´ısticas Definic¸ ˜ao

Scalability N ´umero dethreads

Contention Probabilidade de conflitos de uma transac¸ ˜ao

Density Proporç ão de leituras, em mem ória n ão compartilhada, dentro e fora de transaç ões

Pollution Proporç ão de escritas do total de acessos à mem ória Predominance Proporç ão de acessos compartilhados do total de acessos

`a mem ´oria

Temporal Locality Probabilidade de repetiç ão de um endereço por mem ória compartilhada

Transaction Length Comprimento das Transaç ões Working-set Size Tamanho da Mem ória Utilizada

• Array1: estearray ´e chamado de “hot array”, isso porque estearray ´e compartilhado por todas as threads;

• Array2: estearray é chamado de “mild array”, devido a estearray ser acessado por meio de transaç ões. Cadathread acessa uma parte doArray2, dessa forma os acessos n ão causam conflitos;

• Array3: estearray é chamado de “cold array”, isso porque este array é dividido como o Array2 mas n ão utiliza transaç ões para realizar o acesso. Ele pode ser acessado dentro ou fora de transaç ões.

3.4 STAMP Benchmark

STAMP (CAO MINH et al., 2008) é um conjunto de benchmarks criado para pesquisa de mem órias transacionais, composto por oitobenchmarks. Apesar de desenvolvido para a STM TL2, com algumas modificaç ões dispon´ıveis, pode ser usado no TinySTM. A vers ão do STAMP utilizada foi a 0.9.10. O conjunto de benchmarks STAMP foi escolhido devido ao fato de que implementa v ários benchmarks, assim atingindo uma maior área de aplicaç ões das STM al ém de ser o conjunto de benchmark mais utilizado na pesquisa de STM.

Osbenchmarks implementados pelo STAMP ser ˜ao descritos a seguir (CAO MINH et al., 2008).

(39)

3.4.1 Bayes

Esta aplicaç ão implementa um algoritmo de aprendizado de redes Bayesianas, que é uma parte importante do aprendizado de m áquina. Normalmente, nem as distribuiç ões de probabilidades nem as depend ências condicionais entre eles s ão co- nhecidas ou podem ser resolvidas por um ser humano, assim redes Bayesianas s ão frequentemente estudadas com os dados observados. O algoritmo espec´ıfico implementa uma estrat égia dehill-climbing, ou subida de encosta, que usa buscas locais e globais, semelhante à t écnica descrita em Chickeringet al (1997). Para eficientes es- timativas de distribuiç ão de probabilidade, utiliza-se umaadtree, ou árvore de decis ão, a partir de Mooreet al (1997).

3.4.2 Genome

Este benchmark implementa um programa de sequenciamento de genes que re- constr ói a sequ ência de genes a partir de segmentos de um gene maior. O algoritmo usado para o sequenciamento de genes tem tr ês fases:

1. Remove os segmentos duplicados utilizando umahash;

2. Combina segmentos utilizando o algoritmo de pesquisa de sequ ˆencia Rabin- Karp (KARP; RABIN, 1987);

3. Constr ´oi a sequ ˆencia.

3.4.3 Intruder

Estebenchmark simula o Design 5 dos NIDS (Network Intrusion Detection System) descritos por Haagdorens et al (HAAGDORENS; VERMEIREN; GOOSSENS, 2005).

Pacotes de rede s ão processados em paralelo e passam por tr ês fases: captaç ão, remontagem e detecç ão. A estrutura de dados principal na fase de captura é uma simples fila, e a fase de remontagem utiliza um dicion ário (implementado por uma

árvore autobalanceada), que cont ém a lista de pacotes pertencentes à mesma sess ão.

Ao avaliar seus cinco designs para um NIDSmultithread.

3.4.4 Kmeans

Estebenchmark foi extra´ıdo doNU-MineBench 2.0 (PISHARATH et al., 2004). K- means é um m étodo baseado em partiç ão (BEZDEK, 1981) e é sem d úvida a t écnica de agrupamento mais utilizada. Este algoritmo é comumente usado para partiç ão de itens de dados em subconjuntos relacionados. Cada thread processa uma partiç ão dos objetos iterativamente. A vers ão transacional adiciona uma transaç ão para prote- ger oupdate do centro docluster que ocorre durante cada iteraç ão.

(40)

3.4.5 Labyrinth

Dado um labirinto, estebenchmark encontra os caminhos de menor dist ˆancia entre os pares de pontos inicial e final. O algoritmo de roteamento utilizado ´e o algoritmo de Lee (LEE, 1961).

Nesse algoritmo, o labirinto é representado como uma grade, em que cada ponto da grade pode conter ligaç ões adjacentes, para os pontos da grade que n ão est ão nas diagonais. O algoritmo busca um caminho mais curto entre os pontos de conex ão, atrav és da realizaç ão de uma busca em largura, e marca cada ponto da grade com a sua dist ância para o in´ıcio. Esta fase de expans ão acabar á por chegar ao ponto final, se a conex ão for poss´ıvel. A segunda fase de rastreamento estabelece a ligaç ão, seguindo todo o caminho, diminuindo a dist ância. Este algoritmo assegura o encon- tro do caminho mais curto entre um ponto inicial e final, no entanto, quando v ários caminhos s ão feitos, um caminho pode bloquear outro.

3.4.6 SSCA2

Scalable Synthetic Compact Applications 2 (SSCA2) (BADER; MADDURI, 2005) ´e composta por quatrokernels que operam em um grande, dirigido e ponderado grafo.

Estes quatrokernelss ão comumente usados em aplicaç ões que v ão desde a biologia computacional at é a segurança. O SSCA2 incide sobre umKernel, que constr ói uma estrutura de dados eficiente utilizando matrizes de adjac ência e matrizes auxiliares.

3.4.7 Vacation

Estebenchmark implementa um sistema de reserva de viagens alimentado por um banco de dados n ão-distribu´ıdo. A carga de trabalho é composta por v ários segmentos dos clientes que interagem com o banco de dados via gerenciador de transaç ões do sistema.

O banco de dados ´e composto por quatro tabelas: carros, quartos, voos e clientes.

Os tr ês primeiros t êm relaç ões com os campos que representam um n úmero único de identificaç ão, quantidade reservada, a quantidade total dispon´ıvel e o preço. A tabela de clientes acompanha as reservas feitas por cliente e o preço total das reservas que eles fizeram. As tabelas s ão implementadas como árvores rubro-negras.

3.4.8 Yada

Este benchmark implementa o algoritmo de Ruppert para refinamento de malha (RUPPERT, 1995). A vers ão transacional é similar, em design, ao apresentado em Kulkarni et al. (2006). A estrutura de dados b ásica utilizada é um grafo. Ele armazena todos os tri ângulos de malha ( é um conjunto que cont ém os segmentos de contorno de malha), e uma fila de tarefas que cont ém os tri ângulos que precisam ser refinados. Em cada iteraç ão do algoritmo, um pequeno tri ângulo é removido da fila e

(41)

uma retriangularizaç ão é realizada na malha. Quaisquer novos tri ângulos finos que resultem da retriangularizaç ão, s ão adicionados à fila.

3.5 Considerac¸ ˜ oes Finais do Cap´ıtulo

Este cap´ıtulo apresentou o simulador PCM-MS, que foi implementado para este trabalho, e as demais ferramentas ebenchmarksutilizados neste trabalho. O PCM-MS simula uma hierarquia de mem ória e faz a simulaç ão dos acessos a essa hierarquia, onde a PCM é a mem ória principal. Uma caracter´ıstica importante dele é que ele faz simulaç ões de arquiteturas com m últiplos n úcleos de processamento. A ferramenta PinTools, auxilia o PCM-MS gerando arquivos de traço com os acessos à mem ória.

Os benchmarks utilizados est ão entre os mais utilizados na pesquisa de STM. O Eigenbench devido ele simular diferentes aplicaç ões e caracter´ısticas que permitem analisar sistemas transacionais. O STAMP é um conjunto de benchmarks, sendo o mais utilizado na pesquisa de STM devido ele ser robusto e abranger uma ampla área de aplicaç ões das STM.