Algoritmo de parser GLR

(1)

Algoritmo de parser GLR

Denis P. Pinheiro

1 _{Departamento de Ciência da Computação}

Universidade Federal de Minas Gerais (UFMG) Belo Horizonte – MG – Brasil

Resumo. Este artigo apresenta o algoritmo de parser GLR criado por [Tomita 1986]. O parser GLR (Generalized LR parser) é uma extensão do al-goritmo de parsing LR padrão conhecido na literatura. Este parser é utilizado principalmente no processamento de linguagens naturais. Não determinismo é utilizado para o tratamento da ambigüidade inerente das linguagens naturais. Otimizações sugeridas por Tomita em seu artigo original também são apresen-tadas neste trabalho.

1. Introduc¸˜ao

Processamento de linguagens naturais não é um problema trivial. Devido à ambiguidade inerente das linguagens naturais os algoritmos de parsing normalmente utilizados para porcessamento de linguagens de programação não são adequados para o processamento de linguagens naturais.

As linguagens de programação são estuturalmente muito bem definidas e são, em sua maioria, não amb´ıguas (exemplos de exceção: C++, Pearl). Existem diversos parsers que são usados para processamento de LPs, como por exemplo, os parsers LL, LR, LALR, etc. Todos estes parsers são determin´ısticos (i.e. não suportam ambigüdades, nem con-flitos) e reconhecem linguagens definidas por um subconjunto de gramáticas livres de contexto [Aho et al. 1986].

Devido ao não determinismo proviniente da ambigüidade inerente das linguagens naturais, estes parsers determin´ısticos não são utilizados para processamento de lingua-gens naturais. Surge então a necessidade de um mecanismo eficiente para o processa-mento de linguagens naturais.

Em 1986, Tomita apresenta um algoritmo eficiente, baseado no parser LR, que reconhece qualquer linguagem livre de contexto(LLC). Este ´e um algoritmo de parsing universal denominado Parser LR Generalizado (Generalized LR Parser) [Tomita 1986].

Neste trabalho, é apresentado o algoritmo GLR de parsing usado para reconhec-imento de qualquer LLC. Na próxima seção, é feita uma revisão do algoritmo LR de parsing, qual o GLR se mostra uma extensão. Na seção 3 é apresentado o algoritmo GLR, com foco para o processo de reconhecimento. Nesta seção, também são apresentadas al-gumas otimizações sugeridas pelo próprio Tomita em seu artigo original. Em seguida, na seção 4, é apresentada uma breve descrição de dois algoritmos universais de parsing bem conhecidos na literatura, o CYK e o Earley. Finalmente, na seção 5 uma conclusão do deste trabalho é apresentada.

(2)

2. Parser LR

Um parser LR é um analisador sintáticobottom-upusado para reconhecer linguagens de programação definidas por gramáticas livres de contexto. A técnica utilizada é denomi-nada LR(k)parsing: a entrada é processada da esquerda para a direita (Left-rigth) e re-aliza uma derivação mais à direita (Right derivation) utilizando k s´ımbolos delookahead

para decidir qual ação tomar durante a execução. Este parser possui algumas vantagens:

• Muitas linguagens de programac¸˜ao podem ser processadas usando alguma

variac¸˜ao de um parser LR(exceto C++ e Perl);

• Parsers LR podem ser implementados eficientemente;

• Durante a leitura da intrada da esquerda para a direita, erros s˜ao detectados t˜ao

logo quanto verificado que um prefixo não pertence à linguagem definida pela gramática.

Parsers LR são dif´ıceis de serem desenvolvidos à mão. Para minimizar este esforço, existem diversos geradores de parsers (i.e. Yacc, JavaCup, JavaCC etc.) que, dada uma gramática LR, gera automaticamente um parser LR. Se a gramática especifi-cada tiver ambigüidades ou outros tipos de conflitos, o gerador pode detectar e informar o usuário da sua ocorrência.

O algoritmo de parser LR utiliza de uma tabela de parser que, dependendo da forma como foi constru´ıda, atribui ao parser o t´ıtulo de Parser SLR (Simple LR), LALR (LookAhead LR) ou Canônico (respectivamente, utilizando uma tabela de parser SLR, LALR ou LR Canônica). Estes tipos de parsers podem lidar com um grande número de gramáticas; parsers LALR podem lidar com mais gramáticas que os SLR; e parsers Canônicos podem lidar com mais gramáticas que parsers LALR. O gerador de parser mais conhecido, Yacc (e sua versão para Java: JavaCup), gera parsers LALR. Na próxima seção será apresentado em detalhes o algoritmo de parser LR.

2.1. Algoritmo

Um parser LR ´e constitu´ıdo de uma entrada, uma sa´ıda, uma pilha e uma tabela deparsing

que tem duas partes: action egoto. Este parser est´a representado esquematicamente na Figura 1.

O parser lê um s´ımbolo de cada vez da entrada. A pilha é usada para manter uma palavra da forma s0X1s1X2s2. . . Xmsm, onde sm é o topo da pilha. Cada Xi é um

s´ımbolo da gram´atica (terminal ou n˜ao terminal) e cada si um estado. Dados um s´ımbolo

de entrada e um estado no topo da pilha, o parser indexa a tabela de parsing e determina a ac¸˜ao a ser relizada:shift oureduce.

A tabela de parsing consiste de duas partes, uma função de ação action e uma função de deslocamentogoto. A tabela de ação é indexada pelo estado no topo da pilha,

sm, e pelo s´ımbolo de entrada, ai. O valor de action[sm, ai] pode assumir os seguintes

valores:

• shift s (shift), onde s ´e um estado;

• reduceuma regra da gram´atica da forma A → β;

• aceita (acc); e • erro.

(3)

Figure 1. Representaç ão esquem ática de um Parser LR

A função goto toma um estado e um s´ımbolo da gramática como argumentos e produz um estado como resultado. A tabela de parsing pode ser vista como a função de transição de um autômato de pilha determin´ıstico (APD), onde a função action deter-mina as ações sobre a pilha, o que empilhar e o que desempilhar a cada transição, e a função goto determina o próximo estado da transição. O estado inicial do APD é o estado inicialmente colocado no topo da pilha do parser LR.

Uma configuração do parser LR é um par onde o primeiro elemento é o conteúdo da pilha e o segundo é a entrada ainda não processada:

(s0X1s1X2s2. . . Xmsm, aiai+1. . . an$)

A próxima transição do parser é determinada pelo s´ımbolo de entrada corrente, ai,

pelo estado no topo da pilha, sm, e pelo valor da entrada na tabela de parsing action, dada

por action[sm, ai]. O resultado pode ser de quatro tipos:

1. Se action[sm, ai] = shif t s, o parser executa uma operac¸˜ao de shif t, obtendo a

seguinte configurac¸˜ao:

(s0X1s1X2s2. . . Xmsmais, ai+1. . . an$)

Neste ponto o parser moveu (shif t) o s´ımbolo de entrada ai e o pr´oximo estado,

dado por goto[sm, ai], para a pilha. Assim, ai+1se torna o s´ımbolo de entrada;

2. Se action[sm, ai] = reduce A → β, então o parser executa uma redução (reduce)

obtendo a seguinte configurac¸˜ao:

(s0X1s1X2s2. . . Xm−rsm−rAs, ai. . . an$)

onde s = goto[sm−r, A] e r ´e o comprimento de β(o lado direito da regra).

Primeiro ´e desempilhado 2r s´ımbolos da pilha (r estados e r s´ımbolos gra-maticais). Ent˜ao, o parser empilha o lado esquerdo da regra, A, e o valor de

goto[sm−r, A] na pilha. Os s´ımbolos gramaticais desempilhados sempre s˜ao iguais

ao lado direito da regra, ou seja, β = Xm−r+1. . . Xm. Neste ponto, pode-se gerar

(4)

3. Se action[sm, ai] == acc, processamento finalizado com sucesso.

4. Se action[sm, ai] == error, o parser descobriu um erro e pode chamar uma rotina

recuperac¸˜ao de erro.

O algoritmo de parser LR ´e apresentado na Listagem a seguir: Algorithm 1 Algoritmo do Parser LR

Entrada: uma palavra w e uma tabela de parsing LR com as funções action e goto para a gramática G.

Sa´ıda: Se w pertence a L(G), um processamento é feito com sucesso, caso contrário, um erro é indicado.

1: empilha s0(estado inicial)

2: w$ ´e definido como entrada;

3: ip aponta para o primeiro s´ımbolo de w$; 4: loop

5: Seja s o estado no topo da pilha e a o s´ımbolo apontado por ip; 6: if action[s, a] = shif ts0 _then

7: empilhe a e s0 no topo da pilha;

8: fac¸a ip apontar para o pr´oximo s´ımbolo da entrada; 9: else if action[s, a] = reduceA → β then

10: Desempilhe 2|β| s´ımbolos da pilha; 11: Seja s0o estado no topo da pilha;

12: Empilhe A e goto[s0_{, A] no topo da pilha;}

13: Gere uma sa´ıda (i.e. a regra A → β); 14: else if action[s, a] = acc then

15: return 16: else 17: error(); 18: end if 19: end loop 2.2. Exemplo Pr´atico

A Figura 2 apresenta a tabela de parsing LR1 _{incluindo as func¸˜oes action e goto para a}

seguinte gramática não amb´ıgua para expressões aritméticas com os operadores binários + e ∗: (1) E → E + T (2) E → T (3) T → T ∗ F (4) T → F (5) F → (E) (6) F → id

Os códigos para as ações são:

1_{Neste trabalho não será mostrado como construir a tabela de parsing LR, mas uma boa referência é}

(5)

Figure 2. Tabela de Parsing LR

1. si:shift e empilhe o estado i;

2. rj: reducepela regra numerada por j;

3. acc: aceite; 4. branco: erro;

A Figura 3 apresenta a seqüência de configurações do parser durante o processa-mento da entrada id * id + id. Por exemplo, na linha (1) o parser está no estado 0 e id como o primeiro s´ımbolo de entrada. O valor de action[0, id] = s5 (Figura 2). Assim, na linha (2) o parser empilha o token id e o estado 5, e o s´ımbolo id é removido da entrada.

Na seqüência, ∗ se torna o s´ımbolo de entrada, e a ação para o estado 5 e para a entrada ∗ é reduzir a regra F → id. Então, dois s´ımbolos são desenpilhados (um s´ımbolo de estado e um s´ımbolo da gramática). O estado 0 se torna o topo da pilha. Temos agora a configuração na linha (3). As configurações seguintes são obtidas de maneira similar.

Figure 3. Execuc¸ ˜ao do parser LR para a entrada id * id + id

Na próxima seção é apresentada uma extensão deste algoritmo: o parser GLR. Este é denominado um parser universal, pois reconhece o conjunto de todas as Linguagens Livres de Contexto.

(6)

3. Parser GLR

Os algoritmos de parsing LR foram desenvolvidos originalmente para linguagens de programação. Um parser LR utiliza um algoritmo determin´ıstico guiado por uma tabela de parser que indica a próxima ação a ser executada. Uma tabela de parsing pode ser obtida automaticamente a partir de uma gramática livre de contexto utilizando um algo-ritmo apresentado por [DeRemer 1971].

Um algoritmo de parser LR é um dos mais eficiente algoritmos de parsing. Ele é totalmente determin´ıstico e não realiza backtracking e nenhum tipo de busca. Porém, não podemos adotar este parser para linguagens naturais, porque ele somente é aplicado a um subconjunto de GLCs denominadas gramáticas LR. De fato, qualquer gramática que descreva uma linguagem natural não é LR. Se uma gramática é não LR, então sua tabela de parsing terá múltiplas entradas; uma ou mais entradas da tabela de parsing terá múltiplas entradas [Shieber 1983].

Exemplificando, a Figura 4 apresenta a tabela de parsing com entradas múltiplas obtida da seguinte gramática amb´ıgua de expressões aritméticas:

(1) E → E + E (2) E → E ∗ E (3) E → id

Figure 4. Tabela de parsing com entradas m ´ultiplas (conflito shift-reduce)

Como pode ser observado, a tabela de ações possui quatro múltiplas entradas: duas na linha 5 e mais duas na linha 6, ambas nas colunas rotuladas com os terminais ∗ e +. A ambiguidade ocorre porque existem duas árvores de derivação mais a esquerda (DME) ou mais a direita (DMD) para a entrada id + id * id [Vieira 2006].

Por causa das múltiplas entradas na tabela de parsing, um algoritmo LR deter-min´ıstico não é o mais adequado para realizar o parsing, pois algum tipo de não determin-ismo é necessário.

3.1. Algoritmo

A idéia do algoritmo é processar múltiplas entradas não deterministicamente. É adotado um pseudo-paralelismo (busca em largura) e é mantida uma lista de pilhas (Stack List). O pseudo-paralelismo ocorre da seguinte forma.

(7)

Um número de processadores operam em paralelo. Cada processador tem uma pilha e comporta-se basicamente como o algoritmo LR padrão. Quando um processo encontra múltiplas entradas, este é dividido em vários processos (um para cada entrada), replicando a pilha em cada novo processo e adicionando-as na lista de pilhas. Quando um processo encontra um erro, este processo termina e sua pilha é removida da lista de pilha. Todos os processos são sincronizados; eles realizam uma operação de shift

ao mesmo tempo, então os processos processam a mesma palavra de entrada ao mesmo tempo. Assim, se um processo encontra uma operação de shift, ele espera até que todos os processo encontrem uma operação de shift possivelmente diferente.

A figura 5 apresenta a lista pilha (Stack List) logo depois de realizar a operação deshift do último id da entrada “id + id * id” usando a tabela de parsing da figura 4 e a gramática de expressões aritméticas amb´ıgua. Por conveniência, uma pilha é apresentada por vértices e arestas, onde vértices circulares representam estados e os retamgulares, s´ımbolos da gramática. A distância entre os vértices não tem nenhum significado especial, somente ajuda o leitor a ter um melhor entendimento do estado das pilhas. Cada pilha é como uma pilha no algoritmo LR. O lado direito representa o topo da pilha, enquanto o lado esquerdo o fundo da pilha.

Figure 5. Lista de pilhas ap ´os o shift do ´ultimo id em id + id * id.

A desvantagem deste método que utiliza lista de pilhas é que não existem nenhuma interconexão entre as pilhas (processos) e não existe nenhuma forma de um processo uti-lizar um processamento realizado por outro processo. O número de pilhas na lista de pil-has cresce exponencialmente com o número de ambigüidades encontradas, mas também pode reduzir ao passo que um processo encontra um erro e termina. Observa-se também na figura 5 que o processamento das duas pilhas a partir do estado 4 é realizado da mesma forma nos dois processos. Assim, esta redundância de processamento pode ser evitado com a otimização apresentada na seguinte seção.

Tomita, em seu artigo original [Tomita 1986], apresentou duas otimizações na manipulação da lista de pilhas e gerenciamento dos processos melhoram a eficiência do algoritmo de parsing GLR. Estas otimizações são apresentadas nas seções que se seguem. 3.2. Primeira Otimização

Se dois processos estão no mesmo estado, ou seja, se suas pilhas têm o mesmo número de estado no topo (no vértice mais a direita da pilha), os processos se comportaram da mesma maneira até que os estados são desempilhados através de uma operação de redução. Para evitar esta processamento redundante, os processos são unificados através da combinação

(8)

das suas pilhas. Então, se dois ou mais processos têm o mesmo estado no topo da pilha, os vértices que representam estes estados e estão mais a direita, são unificados.

Estas pilhas então são representadas como uma árvore, onde o vértice no topo cor-responde a raiz da árvore. Assim, uma pilha toma a forma de uma árvore (tree-structured stack). Quando um vértice no topo da pilha representa uma raiz e é desempilhada, a pilha na forma de árvore é dividida no número de pilhas original. Em geral, o sistema mantém diversas pilhas na forma de árvore em paralelo, então a lista de pilha toma a forma de uma

floresta.

Figure 6. Uma pilha na forma de ´arvore.

A figura 6 apresenta a pilha na forma de árvore obtida após oshift do último id na expressão id + id * id. Ao contrário do exemplo anterior, a palavra de entrada id será processada somente uma vez.

Embora o número de computação seja significantemente reduzido com esta técnica de combinação de pilhas, o número de folhas de uma pilha na forma de árvore cresce exponencialmente com o número de ambigüidades encontradas. Na próxima seção é descrita uma segunda otimização em que as pilhas são representadas como um grafo direcionado ac´ıclico para evitar tal ineficiência.

3.3. Segunda Otimizac¸˜ao

No momento em que uma ambigüidade é encontrada, toda uma pilha é copiada para o(s) novo(s) processo(s) criado(s). No entanto, não é ncessário copiar a pilha inteira, pois após diferentes operações realizadas em paralelo na pilha em forma de árvore, uma porção do fundo da pilha pode permacecer a mesma. Então, somente uma porção da pilha deve ser replicada. Quando uma pilha é replicada desta forma, a pilha é representada como uma árvore, onde o fundo da pilha corresponde à raiz desta árvore.

Com esta segunda otimização combinada com a primeira otimização apresentada na última seção, as pilhas são representadas como um grafo direcionado ac´ıclico. Na figura 7 apresenta a pilha na forma de grafo para o mesmo exemplo dado.

Pode-se mostrar que o algoritmo GLR utilizando pilhas estruturadas na forma de um grafo não porcessa nenhuma parte de uma sentença mais de uma vez da mesma maneira. Se dois processos processaram alguma parte da sentença da mesma maneira, eles estão no mesmo estado. Logo, eles serão combinados em um único processo.

Portanto, o eficiente algoritmo de parser GLR apresentado é uma extensão do algoritmo de parsing LR padrão e reconhece todas as linguagens livres de contexto, o que lhe dá o t´ıtulo deParser Universal.

(9)

Figure 7. Uma pilha na forma de grafo.

4. Trabalhos Relacionados

Outros algoritmos de universais parsing são bem conhecidos na literatura. Os mais con-hecidos são o algoritmo CYK [Cocke 1969, Younger 1967, Kasami 1965] e o apresentado por [Earley 1970]. Ambos os algoritmos são baseados em programação dinâmica.

O algoritmo CYK reconhece linguagens definidas por gram´aticas livre de contexto (GLC) na forma normal de chomsky (FNC). Desde que qualquer GLC pode ser convertida sem dificuldades na FNC, o algoritmo CYK pode ser utilizado para reconhecer qualquer linguagem livre de contexto (LLC).

O algoritmo de parsing de Earley é usado principalmente para processar lingua-gens naturais. O algoritmo executa em tempo cubico no caso geral e, quadrático, para gramáticas não amb´ıguas. O algoritmo se mostra mais eficiente quando as regras da gramática são escritas com recursão a esquerda.

5. Conclus˜ao

As linguagens naturais necessitam de um mecanismo que suporta o não determinismo proveniente da ambigüidade inerente das próprias LNs. Os parser de LP não são ad-equados para processamento de LNs por que eles são algoritmos determin´ısticos e são suportam ambigüidades. Os algoritmos universais de parsers mostram-se mais adequados ao processamento de linguagens naturais.

Este trabalho apresenta o parser universal GLR, desenvolvido como uma extensão do algoritmo de parsing LR. Com as otimizações apresentadas, o algoritmo se mostra eficiente para o processamento de linguagens naturais (LNs).

(10)

References

Aho, A. V., Sthi, R., and Ullman, J. D. (1986). Compilers: Principles, Techniques, and

Tools. Addison-Wesley.

Cocke, J. (1969). Programming languages and their compilers: Preliminary notes. Courant Institute of Mathematical Sciences, New York University.

DeRemer, F. L. (1971). Simple lr(k) grammars. In Communications ACM, volume 14(7), pages 453–460.

Earley, J. (1970). An efficient context-free parsing algorithm. Commun. ACM, 13(2):94– 102.

Kasami, T. (1965). An efficient recognition and syntax-analysis algorithm for context-free languages. In Scientific report AFCRL-65-758, Bedford, MA. Air Force Cambridge Research Lab.

Shieber, S. M. (1983). Sentence disambiguation by a shift-reduce parsing technique. In

Proceedings of the 21st annual meeting on Association for Computational Linguistics,

pages 113–118, Morristown, NJ, USA. Association for Computational Linguistics. Tomita, M. (1986). Efficient Parsing for Natural Language: A Fast Algorithm for

Practi-cal Systems. Kluwer Academic Publishers, Norwell, MA, USA.

Vieira, N. J. (2006). Introdução aos Fundamentos da COmputação: Linguagens e

M´aquinas. Pioneira Thomson Learnig, Brasil.

Younger, D. H. (1967). Recognition and parsing of context-free languages in time n3. In