LIMITAÇÕES E TRABALHOS FUTUROS - Aceleradores e multiprocessadores em chip: o impacto da execuç

5.2.1 Verificação de aceleradores

Expansão do número de aceleradores:

Avaliou-se a técnica de verificação de aceleradores em hardware para dispositivos relativamente simples, embora tenham sido projetados para re- fletir a estrutura e o comportamento de dispositivos reais. Estão sendo con- duzidos experimentos com casos de uso ainda mais realistas para avaliar o comportamento da técnica em termos de desempenho e eficácia e compará-la com um scoreboard convencional.

Abordagem white-box:

Uma limitação inerente da técnica desenvolvida é a impossibilidade de comparar duas sequências de eventos de tamanhos diferentes, um cenário que pode ser induzido por artefatos de implementação [Bailey, Martin e Pizi- ali 2007]. Ao se realizar a verificação sob uma abordagem black-box, pode-se utilizar os elementos da interface do dispositivo (sinais que implementam o protocolo de comunicação) para descartar o efeito daqueles artefatos. Lan- çando mão da ferramenta desenvolvida por [Albertini et al. 2007], pretende- se estabelecer até que ponto a técnica permite a verificação de aceleradores em hardware sob uma abordagem white-box onde os efeitos dos artefatos de implementação se manifestam. Pretende-se utilizar a técnica [Marcilio et al. 2009] como referência para os resultados experimentais.

5.2.2 Verificação de consistência

Suporte a programas reais:

Para fins de verificação pré-fabricação, usam-se de programas parale- los artificiais, gerados aleatoriamente, como casos de teste de forma a asse- gurar um nível adequado de cobertura [Hangal et al. 2004, Roy et al. 2006]. Por outro lado, para a depuração de uma representação executável defeituosa (ou seja, para encontrar a fonte do erro reportado pela ferramenta de verifi- cação), é desejável utilizar programas reais. Pretende-se realizar testes para determinar até que ponto a configuração atual da técnica suporta programas reais e, em caso contrário, adicionar o suporte reposicionando os monitores atuais ou, eventualmente, adicionando um novo ponto de monitoramento.

Comparação com scoreboard relaxado único:

Realizou-se a comparação com técnicas de verificação de consistência de memória baseadas em grafos bipartidos [Marcilio et al. 2009] e em DAGs [Hangal et al. 2004]. Está sendo implementada a infraestrutura para que seja possível realizar a comparação com a técnica baseada em um scoreboard único proposto em [Shacham et al. 2008].

REFERÊNCIAS BIBLIOGRÁFICAS

ADVE, S.; GHARACHORLOO, K. Shared memory consistency models: a tutorial. IEEE Computer Magazine, v. 29, n. 12, p. 66–76, dez. 1996. ISSN 0018-9162.

ALBERTINI, B. et al. A computational reflection mechanism to support platform debugging in systemc. In: Proceedings of the 5th IEEE/ACM international conference on Hardware/software codesign and system synthesis (CODES+ISSS). Salzburg, Austria: ACM, 2007. p. 81–86. ISBN 978-1-59593-824-4.

ARM HOLDINGS. AMBA Open Specifications. Disponível em: <http://www.arm.com/products/system-ip/amba/ amba-open-specifications.php>. Acesso em: jul. 2011.

ARM HOLDINGS. The ARM Cortex-A9 Processors. Disponível em: <http: //www.arm.com/products/processors/cortex-a/cortex-a9.php>. Acesso em: set. 2009. White paper.

BAILEY, B.; MARTIN, G.; PIZIALI, A. ESL design and verification: a prescription for electronic system level methodology. São Francisco, EUA: Morgan Kaufmann Publishers, 2007.

BINKERT, N. et al. The M5 simulator: Modeling networked systems. IEEE Micro, v. 26, n. 4, p. 52–60, jul. 2006. ISSN 0272-1732.

BLACK, D. C.; DONOVAN, J. SystemC: From the Ground Up. [S.l.]: Kluwer Academic Publishers, 2004.

BRYANT, R. Graph-based algorithms for boolean function manipulation. IEEE Transactions on Computers, C-35, n. 8, p. 677–691, ago. 1986. ISSN 0018-9340.

CHEN, Y. et al. Fast complete memory consistency verification. In: IEEE 15th International Symposium on High Performance Computer Architecture (HPCA). [S.l.: s.n.], 2009. p. 381–392. ISSN 1530-0897.

CLARKE, E. M.; EMERSON, E. A.; SISTLA, A. P. Automatic verification of finite-state concurrent systems using temporal logic specifications. ACM Transactions on Programming Languages and Systems (TOPLAS), Nova Iorque, EUA, v. 8, n. 2, p. 244–263, abr. 1986. ISSN 0164-0925.

FREITAS, L. S.; ANDRADE, G. G.; SANTOS, L. C. V. dos. Efficient verification of out-of-order behaviors with relaxed scoreboards. In: The 30thIEEE International Conference on Computer Design (ICCD 2012). Montreal, Canada: [s.n.], 2012.

FREITAS, L. S.; ANDRADE, G. G.; SANTOS, L. C. V. dos. A template for the construction of efficient checkers with full verification guarantees. In: The IEEE International Conference on Electronics, Circuits, and Systems (ICECS 2012). Sevilha, Espanha: [s.n.], 2012.

FREITAS, L. S.; RAMBO, E. A.; SANTOS, L. C. V. dos. On-the-fly verification of memory consistency with concurrent relaxed scoreboards. In: Design, Automation and Test in Europe (DATE 13). [S.l.: s.n.], 2013. (trabalho a ser submetido).

HANGAL, S. et al. TSOtool: a program for verifying memory systems using the memory consistency model. In: 31st ACM/IEEE International Symposium on Computer Architecture (ISCA). [S.l.: s.n.], 2004. p. 114–123. ISBN 0-7695-2143-6.

HENNESSY, J.; PATTERSON, D.; ARPACI-DUSSEAU, A. Computer Architecture: A Quantitative Approach. 4. ed. [S.l.]: Morgan Kaufmann, 2007. (The Morgan Kaufmann Series in Computer Architecture and Design). ISBN 9780123704900.

HU, W. et al. Linear time memory consistency verification. IEEE Transactions on Computers, v. 61, n. 4, p. 502–516, abr. 2012. ISSN 0018-9340.

JACOBI, C. Formal verification of complex out-of-order pipelines by combining model-checking and theorem-proving. In: BRINKSMA, E.; LARSEN, K. (Ed.). Computer Aided Verification. [S.l.]: Springer, 2002, (Lecture Notes in Computer Science, v. 2404). p. 211–226.

MANOVIT, C.; HANGAL, S. Efficient algorithms for verifying memory consistency. In: 17th ACM Symposium on Parallelism in Algorithms and Architectures (SPAA). [S.l.: s.n.], 2005. p. 245–252. ISBN 1-58113-986-1. MANOVIT, C.; HANGAL, S. Completely verifying memory consistency of test program executions. In: The Twelfth International Symposium on High-Performance Computer Architecture. [S.l.: s.n.], 2006. p. 166–175. ISSN 1530-0897.

MARCILIO, G. et al. A novel verification technique to uncover out-of-order duv behaviors. In: 46th ACM/IEEE Design Automation Conference (DAC). São Francisco, California: ACM, 2009. p. 448–453. ISSN 0738-100X. MAY, C. et al. (Ed.). The PowerPC architecture: a specification for a new family of RISC processors. São Francisco, EUA: Morgan Kaufmann Publishers Inc., 1994. ISBN 1-55860-316-6.

OCP-IP ASSOCIATION. Open Core Protocol Specification 3.0. 2009. PATTERSON, D. A.; HENNESSY, J. L. Computer organization and design: the hardware/software interface. 3. ed. [S.l.]: Elsevier, 2005. ISBN 1-55860-604-1.

RAMBO, E. A. Verificação de consistência de memória para sistemas integrados multiprocessados. Dissertação (mestrado) — Universidade Federal de Santa Catarina, 2011.

RAMBO, E. A.; HENSCHEL, O. P.; SANTOS, L. C. V. On ESL verification of memory consistency for system-on-chip multiprocessing. In: ACM/IEEE Design, Automation & Test in Europe Conference (DATE), 2012. [S.l.: s.n.], 2012. p. 9–14. ISSN 1530-1591.

REED, D.; GANNON, D.; LARUS, J. Imagining the future: Thoughts on computing. IEEE Computer Magazine, v. 45, n. 1, p. 25–30, jan. 2012. ISSN 0018-9162.

RIGO, S.; AZEVEDO, R.; SANTOS, L. Electronic System Level Design: An Open-Source Approach. [S.l.]: Springer, 2011.

ROY, A. et al. Fast and generalized polynomial time memory consistency verification. In: Computer Aided Verification (CAV). [S.l.]: Springer, 2006, (Lecture Notes in Computer Science, v. 4144). p. 503–516. ISBN 978-3-540-37406-0.

SAHA, A. et al. A simulation-based approach to architectural verification of multiprocessor systems. In: Proceedings of the 1995 IEEE Fourteenth Annual International Phoenix Conference on Computer Communications (INFOCOM). [S.l.: s.n.], 1995. p. 34 –37.

SEGER, C. An introduction to formal hardware verification. [S.l.]: University of British Columbia, Department of Computer Science, 1992. SHACHAM, O. et al. Verification of chip multiprocessor memory systems using a relaxed scoreboard. In: 41st ACM/IEEE International Symposium on Microarchitecture (MICRO). [S.l.: s.n.], 2008. p. 294–305. ISSN 1072-4451.

SITES, R. L.; WITEK, R. T. Alpha AXP architecture reference manual (2nd ed.). Newton, MA, EUA: Digital Press, 1995.

SKAKKEBAEK, J.; JONES, R.; DILL, D. Formal verification of out-of-order execution using incremental flushing. In: HU, A.; VARDI, M. (Ed.). Computer Aided Verification. [S.l.]: Springer Berlin / Heidelberg, 1998, (Lecture Notes in Computer Science, v. 1427). p. 98–109. ISBN 978-3-540-64608-2. 10.1007/BFb0028737.

TEXAS INSTRUMENTS. OMAP4470 mobile applications processor. Disponível em: <http://www.ti.com/hdr_p_omap>. Acesso em: jun. 2012. White paper.

WILE, B.; GOSS, J. C.; ROESNER, W. Comprehensive Functional Verification: The Complete Industry Cycle. San Diego, EUA: Elsevier, 2005. ÖZGüR, T. Complex arithmetic operations. [S.l.]: OpenCores. Disponível em: <http://opencores.org/project,complexarithmetic>. Acesso em: jul. 2011.

Embora não tenham sido obtidas pelo autor desta dissertação, as provas formais aqui apresentadas são incluídas para tornar a dissertação auto- contida. As provas foram elaboradas pelo Prof. Luiz Cláudio V. dos Santos como contrapartida de um trabalho cooperativo [Freitas, Andrade e Santos 2012] submetido à IEEE International Conference on Electronics, Circuits, and Systems(ICECS 2012).

Os Teoremas 1 e 2 são reapresentados a seguir juntamente com suas respectivas provas.

Teorema 1: O algoritmo proper-matching, descrito em [Marcilio et al. 2009], nunca indica falsos negativos nem falsos positivos ao resolver o Pro- blema 1.

Prova. Esse algoritmo resolve um problema de emparelhamento sobre um grafo G = (V+∪ V−_{, E), com V}+_{∩ V}−_{= /0, tal que |V}+_{| ≤ |V}−_{| e E =}

{(v+_{, v}−_{) ∈ V}+_{× V}−_|v+_{∼ v}−_{}, onde ∼ denota uma relação (não necessa-}

riamente transitiva) de compatibilidade entre valores. Em [Marcilio et al. 2009] dois teoremas são provados: o primeiro estabelece que o algoritmo nunca induz falsos negativos; o segundo estabelece que ele nunca induz falsos positivos se e somente se E = {(v+, v−) ∈ V+× V−_|v+_{≡ v}−_{} onde ≡}

denota uma relação de equivalência entre valores. Como o Problema 1 é uma instância do problema E-matching tal que |V+| = |V−| (Definição 1, primeira cláusula) e v+≡ v−para cada (v+, v−) ∈ E (Definição 1, segunda cláusula),

proper-matchingnunca induz resultados falsos ao resolver o Problema 1.

Teorema 2: Sob a perspectiva de um dado caso de teste, o Algoritmo 1 resolve o Problema 1 com plenas garantias de verificação.

Prova. Suposição 1 - DUV correto: Em um DUV correto, para todo vértice v−_n ∈ V−existe um vértice v+_j ∈ V+_{tal que v}+

j ≡ v −

n e vice-versa (Definição 1,

primeira e segunda cláusulas), isto é |V+| = |V−_{|. Vamos provar por contra-}

dição que {v+_k ∈ V+_|v+ k ≤ v

j} = /0 para uma iteração arbitrária do laço. Su-

pondo provisoriamente que {v+_k ∈ V+_|v+ k ≤ v

j} 6= /0, deve existir pelo menos

um v+_k para o qual um valor equivalente, digamos v−_m, ainda não foi encontrado na iteração n. Em outras palavras, como o DUV é correto, deve existir um v−_m tal que v+_k ≡ v−

m com m > n. Na representação de um grafo bipar-

tido, isso pode ser descrito como (v+_j, v−_n), (v+_k, v−_m) ∈ E com m > n. Como v+_k ≤ v+_j, conclui-se da Definição 4 que χ((v+_j, v−_n), (v+_k, v−_m)) = verdadeiro. Como um DUV correto não pode induzir um cruzamento impróprio (pois ele violaria a terceira cláusula da Definição 1, contradizendo assim, via Defini- ção 2, a suposta equivalência funcional a um RGM pré-validado), conclui-se que {v+_k ∈ V+_|v+ k ≤ v + j} = /0 para todo v − n ∈ V−. Como |V+| = |V−|, o laço

executa exatamente N vezes e o Algoritmo 1 retorna verdadeiro.

Suposição 2 - DUV incorreto: Pelo menos um dos seguintes cenários é válido para um DUV incorreto.

Suposição 2.1 - Incompatibilidade de valor: Neste cenário, existe pelo menos um v−_n ∈ V−para o qual nenhum v+_j ∈ V+_{correspondente pôde ser}

encontrado, isto é Q = /0 (na linha 4) para pelo menos uma iteração do laço. Assim, o Algoritmo 1 retorna falso.

Suposição 2.2 - Violação de ordem: Neste cenário, existe pelo menos um cruzamento impróprio de arestas, isto é, existe pelo menos um v−_n ∈ V−

cujo equivalente v+_j ∈ V+ _{é tal que existe uma aresta (v}+ k, v

−

m) para a qual

χ ((v+_j, v−n), (v+k, v −

m)) = verdadeiro. Como resultado, conclui-se que v+k ≤

v+_j para m > n. Como v+_k é removido de V+(na linha 9) na iteração n, o Algoritmo 1 eventualmente retornará falso no máximo em alguma iteração, digamos y, tal que v+_k ≡ v−

y, pois v−y resultará não emparelhado (Q = /0 na

linha 4).

Como ele sempre retorna verdadeiro para um DUV correto e falso para um DUV incorreto, o Algoritmo 1 não induz falsos negativos e nem falsos positivos para um dado caso de teste.

Embora não tenham sido obtidas pelo autor desta dissertação, as provas formais aqui apresentadas são incluídas para tornar a dissertação auto- contida. As provas foram elaboradas pelo Prof. Luiz Cláudio V. dos San- tos como contrapartida de um trabalho cooperativo [Freitas, Rambo e Santos 2013] que será submetido ao evento Design, Automation and Test in Europe (DATE 2013).

Os Lemas 1, 2 e 3 e os Teoremas 3 e 4 são reapresentados a seguir juntamente com suas respectivas provas.

Lema 1: Cada invocação do Algoritmo 3 tal que Q 6= /0 ∧ D = /0remove exatamente um elemento de cada conjuntoV_i+eV_i−, e retorna verdadeiro. Prova.Seja match(i, v−_m) uma invocação do Algoritmo 3 tal queQ6= /0 ∧ D = /0.

Como(Q 6= /0) ∧ (D = /0)é verdadeiro, um elemento (v+_j) é removido de (V_i+)

(linha 15), um elemento (v−_m) é removido deV_i− (linha 17), e o algoritmo retorna verdadeiro.

Lema 2: Se as sequências(v+₁, v+₂, · · · , v+_N)e(v−₁, v−₂, · · · , v−_M)são consistentes, então toda invocação do Algoritmo 3 tal queQ= /0remove exatamente um elemento deV_i−, nenhum elemento deV_i+e retorna verdadeiro.

Prova. Por hipótese, todas as cláusulas da Definição 6 são verdadeiras. Seja match(i, v−_m) uma invocação do Algoritmo 3 tal queQ= /0. Como as Cláusulas 1 e 2 são verdadeiras e Q= /0, conclui-se que∀ j ∈ {1, · · · , N} : µ( j) 6= m ⇒ ∀v+_j ∈ V_i+: v+_j 6≡ v−m. Portanto, da Propriedade 1 (Condição 2), conclui-se que ∃v∗s∈ Vi∗: v−m≡ v∗spara um dadov−m. Assim, comoS6= /0, v−mé removido deVi−, v+_j não é removido deV_i+, e o algoritmo retorna verdadeiro.

Teorema 3: O Algoritmo 2 retorna verdadeiro se e somente se as sequências

(v+₁, v+₂, · · · , v+_N)e(v−₁, v−₂, · · · , v−_M)são consistentes. Prova. Suposição 1 – Sequências consistentes.

(1.1)N= M: Como o Algoritmo 2 invoca o Algoritmo 3Mvezes sob a condição Q6= /0 ∧ D = /0 e comoM= N, conclui-se que N elementos são removidos deV_i+ eM elementos deV_i− (Lema 1). Portanto, à saída da M- ésima invocação, tem-se(V_i+ = /0) ∧ (V_i− = /0). Assim, o Algoritmo 2 retorna verdadeiro.

(1.2)N< M: Seja|V∗

i| = U. o Algoritmo 2 invoca o Algoritmo 3N

vezes sob a condiçãoQ6= /0 ∧ D = /0. Conclui-se queNelementos são removidos deV_i+ eNelementos deV_i−(Lema 1). Como ele invoca o Algoritmo 3Uvezes sob a condição Q= /0 ∨ D 6= /0,U elementos são removidos deV_i−

(Lema 2). Como|V_i−| = M,|V_i+| = NeM= N + U, conclui-se que, após aM- ésima invocação, tem-se(V_i+= /0) ∧ (V_i−= /0). Assim, o Algoritmo 2 retorna

verdadeiro.

Suposição 2 – Sequências inconsistentes. (2.1)µnão é uma função.

(2.1.1) Elemento do domínio não mapeado: Para algumu∈ {1, 2, · · · , N}, a seguinte situação é válida:∀m ∈ {1, 2, · · · , M}:v+u 6≡ v−m. Para qualquer invo- cação de match(i, v−_m), tem-sev+u ∈ Q/ . Quando (Q= /0) ∨ (D 6= /0)é verdadeiro, v+u não é removido deVi+. QuandoQ6= /0 ∧ D = /0é verdadeiro,v

j é removido deV_i+masv+_j 6= v+

u. Comov+u nunca é removido deVi+, o Algoritmo 2 retorna falso poisV_i+6= /0.

(2.1.2) Múltiplos mapeamentos partindo do mesmo elemento do do- mínio: Para algum j∈ {1, 2, · · · , N}, a seguinte situação é válida: ∃m,t, · · · , z ∈ {1, 2, · · · , M} : v+

j ≡ v−m, v+j ≡ v −

t , · · · , v+j ≡ v−z e∀y ∈ { j +1, · · · , N} : v+y 6≡ v−t , · · · , v+y 6≡ v−z. Portanto, comov+j é removido deV

i , os eventosvt−, · · · , v−z nunca pode- rão ser removidos deV_i−em invocações posteriores ao Algoritmo 3, levando

aV_i−6= /0. Assim, o Algoritmo 2 retorna falso (linha 14).

(2.2) µ é uma função não-injetora: Para algum m∈ {1, 2, · · · , M}, a seguinte situação é válida:∃ j, k, · · · , x ∈ {1, 2, · · · , N} : µ( j) = m ∧ µ(k) = m ∧ · · · ∧

µ (x) = m. Comoµ é uma função eµ (k) = m, conclui-se que∀y 6= m : µ(k) 6=

y, · · · , µ(x) 6= y. Como o Algoritmo 3 removev−_mdeV_i−nam-ésima invocação,

conclui-se quev+_k ∈ Q, · · · , v/ +

x ∈ Q/ para qualquer invocação arbitrária tal que y∈ {m, · · · , M}. Portanto, os eventosv+_k, · · · , v+_x nunca poderão ser removidos deV_i+. Assim, tem-seV_i+6= /0à saída da última invocação ao Algoritmo 3 e o Algoritmo 2 retorna falso (linha 14).

(2.3) A ordem parcial≤é violada:∃k, j ∈ {1, · · · , N} :

(v+_k ≤ v+_j) ∧ (µ( j) = m) ∧ (µ(k) = t) ∧ (t ≥ m)e∀y ∈ {t, · · · , M} : v+_j 6≡ v−y. Seja match(i, v−y) uma invocação do Algoritmo 3. Comoµ ( j) = m é verdadeiro, v+_j não foi removido deV_i+ paray tal que1 ≤ y < m. Como(v+_k ≤ v+_j) ∧

(µ(k) = t) ∧ (t ≥ m), conclui-se queD6= /0param≤ y ≤ t. Portanto,v+_j não

foi removido deV_i+ para tais invocações. Como∀y ∈ {t, · · · , M} : v+_j 6≡ v−y é verdadeiro, conclui-se quev+_j ∈ Q/ paraytal quet< y ≤ M. Portanto,v+_j não foi removido deV_i+ para tais invocações. Comov+_j não é removido apósM

invocações do Algoritmo 3, tem-seV_i+6= /0e o Algoritmo 2 retorna falso. Assim, o Algoritmo 2 sempre retorna verdadeiro para sequências consistentes e falso para sequências inconsistentes.

Lema 3: O Algoritmo local-behavior-ok, descrito em [Rambo, Henschel e Santos 2012], retorna verdadeiro se e somente se as sequências(v+₁, v+₂, · · · , v+_N)

Prova.O Algoritmo local-behavior-ok encontra um emparelhamento próprio

M [Marcilio et al. 2009] em um grafo bipartido (V, E) comV = V_i+∪ V_i−, V_i+∩V_i−= /0, eE= {(v+, v−) ∈ V_i+×V_i−: v+≡ v−}sujeito a uma ordem parcial

≤sobre o conjuntoV_i+e tal que as seguintes condições são todas válidas: 1)

M ⊆ Eé um emparelhamento; 2)|M | = |V_i+|; 3)M = {(v+_{, v}−_{) ∈ E : v}+_{≡ v}−_}_; 4)∀(v+_j, v−_m), (v+_k, v−_t ) ∈M : ((v+_j ≤ v+_k)∧(m < t))∨((v+_k ≤ v+_j)∧(t < m)). As Con- dições 2 e 3 garantem queM induz um emparelhamentoµ : {1, 2, · · · , N} 7→

{1, 2, · · · , M}, que é uma função µ ⊆ R; isto é, a Cláusula 1 da Definição 6

é verdadeira. A Condição 1 garante que µ é injetora; isto é, a Cláusula 2

da Definição 6 é verdadeira. A Condição 4 garante que∀v+ k, v

+ j ∈ V

+_{: (v}+ k ≤ v+_j) ∧ (µ(k) = t) ∧ (µ( j) = m) ⇒ (t < m); isto é, a Cláusula 3 da Definição 6 é verdadeira.

Teorema 4: Para qualquer sistema de memória com coerência de caches e para qualquer MCM não requerendo ordenação total de escritas1, o Algo- ritmo 4 retorna verdadeiro se todos os axiomas do MCM forem válidos para os traces induzidos por um dado caso de teste.

Prova. Este teorema está provado em [Rambo, Henschel e Santos 2012] para um algoritmo semelhante ao Algoritmo 4, exceto que todas as invoca- ções de local-behavior-ok foram substituídas por uma invocação de LOCAL- BEHAVIOR-OK. Como, pelo Teorema 3 e pelo Lema 3, esses algoritmos são indistinguíveis para as mesmas sequências, a prova fornecida em [Rambo, Henschel e Santos 2012] serve como prova para este teorema.

No documento Aceleradores e multiprocessadores em chip: o impacto da execução fora de ordem na verificação de funcionalidade e de consistência (páginas 70-85)