Soma de Matrizes - Opera¸c˜oes com Matrizes

A.4 Mascaramento de Bytes

4.5 Avalia¸c˜ao de Desempenho

4.5.1 Opera¸c˜oes com Matrizes

4.5.1.1 Soma de Matrizes

O primeiro teste realizado sobre a arquitetura foi o cômputo da soma de duas matrizes quadradas de elementos do tipo inteiro (32 bits). A tarefa da soma é realizada por n processadores, subdividindo cada matriz-operando em n submatrizes, sendo que cada processador calcula a soma de um par de submatrizes. Como as submatrizes encontram-se em regiões de memória distintas, a coerência de cachê torna-se mais simples. Uma vez que os dados da matriz resultante só serão utilizados após o fim do cálculo de todas as somas, basta introduzir uma fun¸cão de esvaziamento de cachê antes da verifica¸cão dos dados.

Inicialmente, o algoritmo foi executado em um processador e, em seguida, em múltiplos processadores. Como havia pretensão de executar o código em 1, 2, 3 e 4 processadores, foram escolhidas matrizes múltiplas de 12 por este ser o menor múltiplo comum entre os números de processadores que se deseja utilizar, permitindo o perfeito fracionamento da carga computacional entre as unidades envolvidas. Foram executadas opera¸cões envolvendo pares de matrizes de ordem 12, 24, 48, 96, 192 e 384.

O código-fonte utilizado neste teste encontra-se na se¸cão B.1 do apêndice. A variância dos dados coletados para as matrizes com ordem superior a 48 foi inferior a 2% em rela¸cão ao valor médio de dez amostras, enquanto a dos dados obtidos nos testes com matrizes menores é de até 6%.

Por possuir fun¸cões de escrita no console de modo texto, o código binário deste algoritmo compilado para o processador P1 possui 70 KB, enquanto para os demais processadores possui apenas 59 KB. Os tamanhos de código binário obtidos neste teste possuem um tamanho relativamente grande devido ao fato de estar-se desenvolvendo código em n´ıvel de API HAL. Para uma maior otimiza¸cão poder-se-iam implementar os algoritmos utilizando diretamente drivers de dispositivo ou mesmo desenvolvimento em linguagem de montagem (Assembly). N´ıveis mais baixos de programa¸cão oferecem maior custo no desenvolvimento e manuten¸cão do software em detrimento de melhores marcas de desempenho.

A figura 4.8 mostra a distribui¸cão percentual do tempo gasto na execu¸cão das fra¸cões paralela e serial do código. Ela foi obtida através da execu¸cão do algoritmo em um único processador e medindo-se os tempos de processamento total e da fra¸cão paralelizável. Nota-se que, para matrizes de ordem elevada, os tempos gastos em prepara¸cão, sincronismo e overhead de comunica¸cão tornam-se irrelevantes em rela¸cão ao tempo de processamento paralelizável. Um único processador do sistema levou 11.102 ciclos (120 µs) para a execu¸cão do algoritmo da soma de duas matrizes de ordem 12. Deste total, apenas 3.040 ciclos (33 µs) foram gastos na se¸cão serial do código, ou seja, γ=21,496%. Tomando como base o modelo de computa¸cão paralela com se¸cões seriais discutido na se¸cão 3.3.1, o tempo de execu¸cão do código sobre 4 processadores poderia ser calculado através da equa¸cão 3.5 para a determina- ¸cão do tempo de processamento para quatro processadores, obtém-se T (4) = 50, 72 µs. Com base no tempo de execu¸cão calculado, chega-se a um fator de speedup anal´ıtico relativo de S(4) = 2, 43.

Para matrizes de ordem 384, um único processador levou 11,2 milhões de ciclos (132,4 ms) para a execu¸cão de todo o código paralelo, dos quais aproximadamente três mil ciclos devem-se à fra¸cão serial do código. Utilizando novamente a equa¸cão 3.5 para a determina¸cão do tempo de processamento para quatro processadores tem-se T (4) = 33, 12 ms e fator de speedup anal´ıtico relativo de S(4) = 3, 997.

No intuito de confrontar os valores anal´ıticos com os observados, foram tomadas as medi- das de tempo de execu¸cão do programa paralelo. A figura 4.9 apresenta os resultados obtidos na medi¸cão dos tempos de execu¸cão das somas de matrizes utilizando de um a quatro processadores da arquitetura do SMM-4. Comparando os dois valores calculados anteriormente com os valores medidos é poss´ıvel concluir que o modelo de computa¸cão paralela com se¸cões

66 CAPÍTULO 4: DESCRI ¸C ÃO E AN ÁLISE DO PROJETO O rd em d a m at ri z

Tempo de execu¸c˜ao da tarefa (ms)

(a) Matrizes de ordem 12, 24 e 48.

O rd em d a m at ri z

Tempo de execu¸c˜ao da tarefa (ms)

(b) Matrizes de ordem 96, 192 e 384.

Figura 4.9: Tempos de execu¸c˜ao do algoritmo de soma de matrizes de diversos tamanhos e por diferentes n´umeros de processadores.

Ordem da Matriz S(2) S(3) S(4) 12 0,7543 0,3890 0,2955 24 1,1990 0,8518 0,6388 48 1,3147 1,0768 0,8865 96 1,2495 1,1643 1,0055 192 1,2914 1,1949 1,0591 384 1,2953 1,2020 1,0551

Tabela 4.3: Fatores de speedup relativos observados para soma paralela de matrizes. seriais não é uma boa representa¸cão para o sistema em questão. O “efeito multiprocessador” tratado por Gunther (2002) mostra-se fortemente presente nesta arquitetura a ponto de tornar os resultados obtidos analiticamente muito distantes da realidade observada.

O fator de speedup relativo observado pode ent˜ao ser calculado a partir dos tempos medidos para cada um dos casos. Os valores s˜ao apresentados na tabela 4.3.

Dos resultados percebe-se que o multiprocessamento se torna vantajoso apenas a partir de uma certa carga computacional exigida. Além disso, é importante notar que não existe van- tagem na utiliza¸cão de mais que dois processadores para este tipo de tarefa. Isto mostra que é importante conhecer-se a tarefa a ser realizada como um requisito para o desenvolvimento da melhor arquitetura. No caso do SMM-4 pode-se utilizar apenas dois processadores sem qualquer preju´ızo ao desempenho do sistema. Os outros dois processadores sobressalentes poderiam ser destinados, com uma pequena por¸cão de memória interna de instru¸cões, para realiza¸cão de tarefas secundárias ou que exijam poucas instru¸cões e não fa¸cam muito uso da SDRAM.

Devido o tempo de carregamento dos processadores não depender do SMM-4 unicamente mas também de diversos parâmetros do sistema anfitrião (escalonamento do SO, banda dis- pon´ıvel na rede USB etc.), este foi exclu´ıdo das medi¸cões as quais se iniciam imediatamente após o carregamento de todos os processadores envolvidos no processamento.

Dificuldades foram encontradas durante a fase de testes na utiliza¸cão da Mailbox, pois ao ser carregada a estrutura de dados deste periférico na memória, um conteúdo indesejável inicial é notado, o que provoca inconsistência e perda de sincronismo entre os processadores. Embora não haja qualquer tipo de documenta¸cão sobre este problema nos manuais do Nios II, foi contornado através do esvaziamento prévio das Mailboxes antes da primeira utiliza¸cão. ´

E necess´ario que o processador P1 seja carregado antes dos outros sob pena de perda de

sincronismo do sistema. Isto pode ser facilmente garantido uma vez que a ordem de carregamento dos processadores é dada pelo parâmetro de instância (instance), que no caso do P1

68 CAPÍTULO 4: DESCRI ¸C ÃO E AN ÁLISE DO PROJETO

e P4 foram configurados com instˆancia 2, 3 e 0, respectivamente, sendo esta a mesma ordem

de carregamento3_{. Com estas altera¸c˜oes no programa e no sistema, chegou-se a um c´odigo}

utiliz´avel para os fins almejados neste trabalho.

A integridade da memória cachê de dados de cada um dos processadores foi garantida através da invalida¸cão, conseqüentemente, o esvaziamento ao fim do processamento do código através da fun¸cão alt_dcache_flush_all(). Após a execu¸cão desta fun¸cão os processadores de 2, 3 e 4 enviam uma mensagem para o processador 1 indicando que conclu´ıram suas tarefas.

E importante notar que só se faz uso do sistema de comunica¸cão por Mailbox em dois mo- mentos: no in´ıcio e ao fim do processamento. Desta forma, o impacto com comunica¸cão não cresce com o aumento da carga computacional, permanecendo aproximadamente constante. Esta caracter´ıstica faz com que os efeitos de perda de desempenho observado através do uso de várias unidades processadoras possa seguramente ser atribu´ıda a fatores relacionados à concorrência pela memória.

No documento Multiprocessador em eletronica reconfiguravel para aplicações roboticas (páginas 85-89)