Estrat´ egias EM e EM+I - Tipos de caches

7.5 Tipos de caches

7.5.1 Estrat´ egias EM e EM+I

Vemos que para a estratégia EM, o reúso máximo para o benchmark 3-DES decresce de 72, 35%, utilizando uma cache global, para 65, 50%, utilizando caches locais por nó. O mesmo decréscimo é visto para os demais benchmarks: o LCS decai de 98, 83% para 15, 56%. O MapReduce decai de 54, 73% para 0, 03% e o GoL decai de 99, 74% para 7, 31%. Esse decréscimo é esperado por conta da falta de visibilidade sobre os operandos das aplica¸cões que é imposta aos nós do grafo por conta de haver subdivisão da cache global. Entretanto, vemos que para o benchmark 3-DES, a partir de 1200 caches, o reúso máximo se torna constante. Isso ocorre, pois o grafo de aplica¸cão 3-DES, possui uma quantidade de nós menor que 1200, portanto, a partir deste cenário, o comportamento é de uma cache local. Ainda sobre a aplica¸cão 3-DES, note que ao avan¸carmos os cenários ”G”para ”S, 2” e ”S, 100” para ”S, 400” não há diminui¸cão no reúso máximo. Isso pode ser explicado pelo fato de que esta aplica¸cão possui muitos tipos de nós distintos, e o reagrupamento deste nós em alguns casos espec´ıficos não interfere na visibilidade de operandos, pois eles não precisam consultar a mesma cache já que implementam fun¸cões distintas. Vemos que para todas as aplica¸cões avaliadas, com exce¸cão do algoritmo da mochila, temos uma quantidade expressiva de redundância. O benchmark MapReduce tem uma taxa alta de redundância, porém menor que os demais benchmarks. Isso pode

ser explicado pelo fato dos nós redutores estarem sempre agrupando conjunto de tuplas, portanto, o tamanho dos operandos torna-se variável, não são fixos como no LCS, GoL ou DES. Isso tem uma influência prejudicial na taxa de reúso, porque operandos maiores são dif´ıceis de aparecer novamente durante a execu¸cão.

(a) Estrat´egia EM.

(b) Estrat´egia EM+I.

Figura 7.8: Resultados de re´uso para as estrat´egias EM e EM+I.

Apesar da quantidade expressiva de redundância nas aplica¸cões, ainda sim, pou- cos subgrafos redundantes são utilizados. Somente é visualizado um reúso de 3, 33% por parte da SRT no benchmark LCS com uma cache global. O reúso baixo pela SRT pode ser explicado por conta deste mecanismo utilizar os Ids dos nós para o reúso do subgrafo, o que limita grandemente o escopo do reúso. Uma alternativa para esta limita¸cão, seria o uso de isomorfismo de subgrafos para deteçcão de subgrafos redundantes, porém isso geraria um custo de implementa¸cão muito grande no hardware dataflow. Para os demais, esse tipo de redundância foi desprez´ıvel nesta estratégia. Vemos também um decréscimo na utiliza¸cão de subgrafos redundantes conforme a cache vai sendo subdividida em grupos de nós. Isso pode ser explicado pelo fato da falta de visibilidade entre operandos de diferentes nós prejudicarem a reutiliza¸cão de subgrafos.

As deteçcões de redundância foram realizadas, na maioria das vezes, pela NRT, ou seja, reutiliza¸cão nó a nó. Vemos que a NRT, no benchmark LCS, contribuiu com 78, 44%, atingindo um total de 81, 77% (78, 44%+3, 33%) de redundância detectada. Para os demais benchmarks a contribui¸cão da NRT foi de 65, 76%, 79, 32%, 0% para os benchmarks DES, GoL e MapReduce respectivamente. Na aplica¸cão MapReduce, nenhuma tarefa redundante foi detectada pela NRT ou SRT em todos os tipos de cache. Isso pode ser explicado pelo fato de que esse tipo de grafo, um fork-join hierárquico, possui um número grande de tarefas que são assinaladas como prontas ao mesmo tempo. Por exemplo, o nó mapeador, quando executado, liberará para execu¸cão todos os redutores de primeiro n´ıvel (red1,1, red1,2, red1,3, ..., red1,n). Ainda que red1,1 e red1,2 sejam redundantes, red1,2 não estará hábil a utilizar os resultados de red1,1, pois ele já estará na fila de prontos. O reúso de computa¸cão de red1,1 por red1,2 somente será poss´ıvel com o mecanismo de inspe¸cão.

Analisando o cenário de cache local, vemos que não houve redundância detectada para os benchmarks LCS e GoL apesar de haver reúso a ser explorado. Isso pode ser explicado porque as tarefas instanciadas por cada nó foram executadas praticamente de forma consecutiva, sem um per´ıodo considerável de tempo entre elas. Portanto, quando as caches eram consultadas, os workers não haviam enviado ainda os resultados necessários para que as tarefas fossem reutilizadas. Para outros tipos de caches, isso não foi um problema, pois os nós possu´ıam visibilidade sobre os resultados dos outros nós do grafo. Esse comportamento não ocorre para aplica¸cão 3-DES, pois o mesmo possui mais itera¸cões, isto é, o nó Source produz mais operandos. Portanto, quando um operando se repete, já ocorreram diversas itera¸cões, permitindo que as caches estejam aquecidas o suficiente para que a redundância possa ser detectada.

Na figura 7.8b, analisamos os resultados para a estratégia EM+I. Vemos que o mecanismo de inspe¸cão foi muito efetivo, substancialmente incrementando a taxa real de reúso. Para o benchmark LCS, o reúso alcan¸cado foi de 97, 1%, quase o reúso máximo de 98, 83% apresentado pela aplica¸cão. Para aplica¸cão MapReduce, vemos que o mecanismo de inspe¸cão contribuiu com aproximadamente 50% do reúso detec- tado no melhor cenário (G) e com quase toda redundância dispon´ıvel no cenário local (L). Para o benchmark 3-DES, vemos que a inspe¸cão, nos melhores cenários ”G”e ”S, 2”, não contribuiu expressivamente com o reaproveitamento de tarefas, porém em cenários onde a visibilidade de resultados era baixa, ela proveu grande contribui¸cão, em torno de 18, 82% e 38, 14% para os cenários ”S, 25” e ”L”respectivamente. Isso pode ser explicado pelo fato de que com baixa visibilidade, menos tarefas são ignoradas, e, portanto, mais tarefas são colocadas na fila de prontos, aumentando assim, a oportunidade de reúso por inspe¸cão. A aplica¸cão GoL também apresentou benef´ıcios com a implementa¸cão da inspe¸cão. Seu reúso aproveitado de 99, 67% foi

próximo ao máximo dispon´ıvel pela aplica¸cão de 99, 74%. A inspe¸cão contribuiu com 22, 16% no cenário ”G”para o GoL. No cenário ”L”, ela foi a única responsável por deteçcão de reúso com 7, 16% de contribui¸cão.

Note que os benchmarks apresentados tiveram sua contribui¸cão da NRT decres- cida após a habilita¸cão da inspe¸cão. Esse comportamento ocorre, porque a inspe¸cão permite que tarefas sejam removidas da fila de prontas com mais antecedência, antes da cache estar bem aquecida. Por consequência, os nós não são reutilizados na NRT e instanciam tarefas. Essas tarefas acabam sendo reutilizadas na inspe¸cão, gerando, desta forma, uma regulariza¸cão do reúso por parte da própria inspe¸cão.

No documento Publicações do PESC DF-DTM: Explorando Redundância de Tarefas em Dataflow (páginas 101-104)