An´alise das Express˜oes Regulares dos Tokens

3.9 Transforma¸c˜oes de M´odulos

4.1.3 An´alise das Express˜oes Regulares dos Tokens

Após o tratamento das macros, a análise dos componentes léxicos da defini¸cão passa a operar sobre as defini¸cões dos tokens da linguagem. Geralmente, quando mais de uma expressão regular for capaz de denotar um mesmo string de entrada, os analisadores léxicos resolvem esse conflito optando pela expressão regular capaz de denotar o maior string. Caso mais de uma expressão reconhe¸ca strings de mesmo tamanho, o analisa- dor léxico prioriza a expressão regular que aparece antes no arquivo de defini¸cões de expressões regulares.

Assim, as defini¸cões léxicas presentes nos vários módulos devem ser processadas para definir a ordem das expressões no arquivo fonte gerado para o Alex, Lex.x. Para a defini¸cão da ordem, cada expressão regular presente em um dos vários módulos deve ser comparada às demais da seguinte forma: sejam R1 e R2 expressões regulares, e L(R1)

e L(R2), as respectivas linguagens denotadas. Para cada par de express˜oes (R1, R2)

pertencentes à defini¸cão, verifica-se se L(R1) está contida em L(R2). Se isso ocorrer,

a expressão R1 deve aparecer antes de R2 na defini¸cão do analisador léxico gerado.

Na Figura 4.5 as expressões regulares que definem as palavras-chave “if”, “then” e “else” estão contidas na expressão regular letter( letter | digit )*, que define o

token seqld, e por isso aparecem antes dessa no arquivo Lex.x gerado.

O algoritmo para verificar se L(R1) está contida em L(R2) é realizado pela opera¸cão

de diferen¸ca dos autˆomatos gerados por R1 e R2. A linguagem L(R1) est´a contida

em L(R2) se e somente se L(R1) − L(R2) = ⊘. Esta opera¸c˜ao ´e feita utilizando-se

autˆomatos finitos determin´ısticos (AFD) que reconhecem L(R1) e L(R2). Na pr´atica a

diferen¸ca entre as linguagens ´e obtida como mostrado no procedimento contained4

Os pseudo-c´odigos apresentados neste texto utilizam o pacote para latex clrscode [Cormen, 2003], em que o s´ımbolo ⊲ indica coment´ario de linha.

4.1. Compilação da Especificação Léxica 71 onde M1 e M2 são AFD’s gerados a partir de R1 e R2 [Sipser, 1996]. A opera¸cão

de complemento de linguagens por meio de autômatos possui complexidade linear no número de estados do AFD, e a interse¸cão possui complexidade quadrática no número de estados dos AFDs envolvidos.

contained(R1, R2)

1 M1 ← toAutomaton(R1);

2 M2 ← toAutomaton(R2);

3 M2 Complement ← complement(M2);

4 res ← intersection(M1, M2 Complement);

5 if empty(res)

6 then ✄L(R1) ⊂ L(R2)

7 return true;

8 else ✄L(R1) 6⊂ L(R2)

9 M1 complement← complement(M1);

10 res2 ← intersection(M1 complement,M2);

11 if ¬ empty(res2)

12 thenERROR(“The token definitions given by regular

13 expressions ”+R1+“ and ” + R2 +“ are ambiguous”);

14 return false;

O compilador de Notus utiliza a biblioteca em Java automaton5

para manipula¸cão de expressões regulares e autômatos. Os métodos toAutomaton, complement, intersection e empty usados no procedimento contained fazem parte desta biblioteca.

Com as macros expandidas, o compilador de Notus aplica o procedimento contai- ned. Para evitar que cada expressão regular tenha que ser comparada com todas as demais, somente alguns tipos de verifica¸cões são realizados com base nas propriedades das linguagens regulares. Inicialmente, o conjunto das expressões regulares que definem os tokens da linguagem é particionado em 3 subconjuntos:

1. QUOTED: express˜oes regulares que representam tokens da linguagem identifi- cados por strings entre aspas

2. INFINITY : express˜oes regulares que denotam linguagens infinitas, detectadas pela presen¸ca dos operadores + e ∗ na express˜ao regular6

;

Dispon´ıvel no endere¸co http://www.brics.dk/∼amoeller/automaton/ 6

As linguagens regulares finitas denotadas pelas expressões ø∗ e λ∗ não são permitidas em Notus, o que permite que este teste seja suficiente.

3. OTHER: demais expressões regulares que não pertencem a nenhum dos grupos anteriores; as linguagens denotadas pelas expressões regulares deste conjunto são, portanto, finitas.

Estes três subconjuntos foram comparados entre si para identifica¸cão de expressões regulares que denotam linguagens contidas em outras, como mostra o procedimento analyzeRegExp. No entanto, é poss´ıvel observar nos procedimentos que analisam as expressões desses conjuntos, que algumas compara¸cões foram evitadas. Esta melhoria é importante, pois o procedimento contained, responsável por esta verifica¸cão, envolve opera¸cões como complemento e interse¸cão, que requerem autômatos determin´ısticos, e a opera¸cão de transformar um autômato não-determin´ıstico em determin´ıstico possui complexidade de tempo exponencial no número de estados [Sudkamp, 1997].

analyzeRegExp(QUOTED,OTHER,INFINITY )

1 for each q ∈ QUOTED

2 doanalyzeQuoted(q,OTHER,INFINITY )

3 for each o ∈ OTHER

4 doanalyzeOther(o,QUOTED,OTHER,INFINITY )

5 for each i ∈ INFINITY

6 doanalyzeInfinity(i,INFINITY )

O procedimento analyzeRegExp é importante para determinar a ordem em que as defini¸cões dos tokens devem ser geradas em Alex. Adicionalmente, um analisa- dor léxico otimizado, com um número menor de estados, é gerado utilizando-se as informa¸cões coletadas no procedimento analyzeQuoted.

O procedimento analyzeQuoted verifica a possibilidade de uma linguagem deno- tada por uma express˜ao regular R1 ∈ QUOTED estar contida na linguagem denotada

por R2 ∈ OTHER ∪ INFINITY . O procedimento run pertencente `a biblioteca au-

tomaton é responsável por verificar se um autômato reconhece o string que compõe uma expressão regular. Sendo este teste verdadeiro, tem-se que a linguagem denotada por R1 está contida em R2, e R1 é inserida em uma lista auxiliar, containedRegExps,

associada a R2.

analyzeQuoted(R1,OTHER,INFINITY )

1 for each R2 ∈ OTHER ∪ INFINITY

2 doM2 ← toAutomaton(R2)

3 if run(M2,R1)

4 then ✄L(R1) ⊂ L(R2)

4.1. Compilação da Especificação Léxica 73 Para cada expressão regular com uma lista associada composta por elementos s ∈ QUOTED, é criado um mapeamento destes elementos em um closure contendo o nome do token definida por s, e a fun¸cão de tratamento de lexema para este token, caso exista. Desta maneira, para o código da Figura 4.5, a lista associada à expressão regular seqld ∈ INFINITY , que define identificadores, é (“if”, “then”, “else”, “while”, “do”). O mapeamento criado para seqld é mostrado na Figura 4.8. Note que os closures criados são compostos apenas pelos nomes dos tokens, já que estes não possuem fun¸cões de lexemas associadas. { “if” 7→ if, “then” 7→ then, “else” 7→ else, “while” 7→ while, “do” 7→ do }

Figura 4.8: Mapeamento criado para a express˜ao regularseqld

Para as expressões regulares que possuem mapeamento associado, gera-se uma a¸cão semântica que verifica se o string casado está associado no mapeamento; se estiver, o resultado é o token correspondente, com lexema dado pela aplica¸cão da fun¸cão de tra- tamento ao string casado; se não estiver, o resultado é a própria defini¸cão do token. Para o exemplo da Figura 4.5, o casamento do string if teria como resultado if e o casamento de um identificador qualquer “x ” teria como resultado id. Assim, esta oti- miza¸cão permite que as defini¸cões de tokens referentes às palavras-chave da linguagem sejam eliminadas, com a conseqüente diminui¸cão do tamanho das tabelas de autômatos geradas pelo Alex.

Os procedimentos analyzeOther e analyzeInfinity são utilizados para a cria¸cão de um grafo Gt = (Vt, Et), onde cada v ∈ Vt corresponde a uma expressão regular de

defini¸c˜ao de token, e para cada u, v ∈ Vt, tem-se que (u, v) ∈ Et se, considerando que

u representa a express˜ao regular R1 e v, a express˜ao regular R2, L(R1) ⊂ L(R2). A

partir deste grafo, executa-se o algoritmo de ordena¸c˜ao topol´ogica, que informa uma ordem na qual os tokens devem ser gerados.

O procedimento analyzeOther verifica a possibilidade de uma linguagem deno- tada por uma express˜ao regular R1 ∈ OTHER estar contida na linguagem denotada

por R2 ∈ INFINITY ∪ QUOTED ∪ OTHER. Caso isso aconte¸ca, cria-se uma aresta

analyzeOther(R1,QUOTED,OTHER,INFINITY ,Gt)

1 for each R2 ∈ INFINITY ∪ QUOTED ∪ OTHER

2 do if contained(R1, R2)

3 then ✄L(R1) ⊂ L(R2)

4 adjacencieList[Gt,R1] ← adjacencieList[Gt,R1] + R2

O procedimento analyzeInfinity verifica a possibilidade de uma linguagem de- notada por uma express˜ao regular R1 ∈ INFINITY estar contida na linguagem de-

notada por R2 ∈ INFINITY . Caso isso aconte¸ca, cria-se uma aresta de R1 para R2,

adicionando-se R2 na lista de adjacˆencia de R1 (linha 4).

analyzeInfinity(R1, INFINITY , Gt)

1 for each R2 ∈ IN F IN IT Y

2 do if contained(R1, R2)

3 then ✄L(R1) ⊂ L(R2)

4 adjacencieList[Gt,R1] ← adjacencieList[Gt,R1] + R2

Para efeitos de compara¸cão, arquivos Lex.x foram gerados com e sem a otimiza¸cão de elimina¸cão de tokens7

contidos em outros, como exibido na Figura 4.9. Por motivos de simplifica¸cão, não foi mostrado nesta figura o mapeamento criado para o token seqld mostrado na Figura 4.8. Com a otimiza¸cão, o n´umero de estados do autômato finito gerado pelo Alex foi 4, e, sem a otimiza¸cão, 23. O tamanho das tabelas para análise léxica, criadas pelo Alex, também variou nas duas estratégias. O analisador léxico gerado com a otimiza¸cão manipula tabelas com 417 entradas e sem a otimiza¸cão com 1568 entradas. É importante observar que esses números variam de acordo com a linguagem que está sendo definida, principalmente com o número de palavras-chave que a linguagem possui.

No documento Compilação de semântica denotacional modular (páginas 88-92)