An´ alise lexical - Ferramentas an´ alise est´ atica de c´ odigo

2.3 Ferramentas an´ alise est´ atica de c´ odigo

2.3.1 An´ alise lexical

A an´alise lexical tem como objectivo definir tokens e traduzir o c´odigo num conjunto de instˆancias desses tokens. Em compiladores estas instˆancias tˆem o nome de lexemes e a identifica¸c˜ao dos tokens ´e feita recorrendo a express˜oes regulares.

Listing 2.1: C´odigo de exemplo

’’Vai buscar o nome a query string ao parametro name

name = request.queryString["name"]

’’Isto vai imprimir para o ecra o name retirado do url

response.write name %>

Na analise lexical todas as linhas em branco e comentários no bloco de código 2.1 são ignorados. O foco desta análise, neste caso, é apenas o que está no bloco de

Cap´ıtulo 2. Contexto e trabalho relacionado 19

c´odigo 2.2.

Listing 2.2: C´odigo de exemplo sem coment´arios

name = request.queryString["name"] response.write name

Aplicando os padr˜oes dos tokens, s˜ao extra´ıdos v´arios lexemes que v˜ao ser colo- cados na tabela de s´ımbolos.

Tipicamente existem em todas as linguagens palavras reservadas, i.e., keywords, que não podem ser utilizadas como variáveis, nomes de instâncias ou classes, como ´e o caso de if, else, true, f alse, int entre outros. Nestas palavras reservadas n˜ao existem instâncias e portanto a descri¸cão do token é o lexemme em si.

Temos ainda os literais que s˜ao aquilo a que se pode chamar de strings e que est˜ao entre “ ” . Finalmente, temos ainda os lexemes que s˜ao guardados em tabelas de s´ımbolos, juntamente com alguns dados como a linha e/ou a coluna onde apareceu pela primeira vez e ainda outro tipo de informa¸c˜ao.

Do bloco de c´odigo 2.2 podemos ent˜ao extrair os seguintes tokens e lexemmes; ID(name,1) - Lexemme = - Token ID(request,2) - Lexemme . - Token ID(queryString,3) - Lexemme ( - Token LITERAL(”name”) - Lexemme ) - Token ID(response,4) - Lexemme . - Token ID(write,5) - Lexemme ID(name,1) - Lexemme

A tabela de s´ımbolos que extra´ımos desta an´alise est´a representada na tabela abaixo Lexemme Position name 1 request 2 queryString 3 response 4 write 5

Tabela 2.1: Tabela de s´ımbolos

Nesta fase de análise lexical ´e interessante mencionar a ferramenta flex. Esta ferramenta permite especificar padrões através de expressões regulares e escrever

código que vai ser executado quando uma expressão é reconhecida. Tipicamente a sua açcão ´e retornar um token para uma ferramenta de parsing.

Express˜oes regulares

A maneira mais fácil de reconhecer padrões é através de expressões regulares. Ex- pressões regulares são um conjunto de anota¸cões constru´ıdas a partir de operadores de concatena¸cão, fecho e uni˜ao, assim como tokens que descrevem alfabetos (con- juntos de um ou mais s´ımbolos). A grande vantagem das expressões regulares é a capacidade de poderem descrever qualquer linguagem que pode ser constru´ıda aplicando os operadores aos s´ımbolos de um alfabeto.

Um alfabeto no contexto de expressões regulares é definido como um conjunto finito de s´ımbolos, por exemplo o conjunto {0,1} pode ser definido como o alfabeto binário.

O exemplo mais simples numa linguagem de programa¸cão é a expressão regular que descreve um identificador em linguagem c, neste caso é [ a-zA-Z][ a-ZA-Z0- 9]{0,31}.

Esta expressão regular é capaz de identificar qualquer conjunto de s´ımbolos que comece com um underscore ou por uma letra mai´uscula ou minúscula e que seja seguida de uma combina¸c˜ao de underscores, letras mai´usculas ou minúsculas ou números que podem ter entre zero a trinta e um s´ımbolos. Esta expressão regular serviria para identificar então expressões no c´odigo fonte como lexemmes de tokens do tipo identificadores.

A grande vantagem das expressões regulares é serem simplificáveis utilizando os conceitos de alfabetos.

Por exemplo, se definirmos o alfabeto letras como o conjunto [a-zA-Z ] e o alfabeto numeros como o conjunto [0-9], podemos reescrever a regra [ a-zA-Z][ a- zA-Z0-9]{0,31} como (letras )(letras |numeros){0,31}.

E interessante tamb´em mencionar aqui m´aquinas de estado ou FSA(finite state

automaton), atrav´es da qual é poss´ıvel descrever visualmente o comportamento de uma expressão regular. Nas máquinas de estado temos estados que são representados como c´ırculos, transi¸cões que são representados como setas e descrevem açcões me- diante uma condi¸cão. A expressão de cima pode ser traduzida na seguinte máquina de estado:

Cap´ıtulo 2. Contexto e trabalho relacionado 21

A leitura da máquina de estados da Figura 2.3 é feita da seguinte maneira: quando ´e reconhecido um caractere que esteja compreendido no alfabeto letras ´e feita a transi¸cão para o estado 1, quando deste é reconhecido qualquer caractere que esteja compreendido no alfabeto letras ou no alfabeto numeros, a m´aquina permanece no estado 1 até que identifique qualquer outro s´ımbolo (representado pelo alfabeto other ). Nesta fase, termina o reconhecimento de um identificador e pode-se chegar a um estado final representado por um c´ırculo, com um c´ırculo mais pequeno concêntrico. Este tópico será mais aprofundado na seçcão seguinte.

M´aquinas de estado

O reconhecimento interno de ferramentas de análise lexical é feito a partir destas máquinas de estado. Uma máquina de estado ´e o que se chama um aceptor de uma linguagem regular. É um modelo matemático de um computador que potencialmente é capaz de reconhecer qualquer programa, dentro das quais podemos distinguir dois tipos [42]:

• Autómato finito não determin´ıstica (AFND) - não têm restri¸cões quanto aos s´ımbolos nas transi¸cões podendo ter várias transi¸cões com o mesmo s´ımbolo a partir do mesmo estado. Podem ainda ter transi¸c˜oes , que representa um caracter vazio. ´E destas mesmas labels em transi¸c˜oes diferentes que surge o não determinismo porque do mesmo estado com o mesmo s´ımbolo pode-se ir para estados diferentes.

• Autómato finito determinista (DFA),- não podem ter o mesmo s´ımbolo em diferentes transi¸cões a partir de um mesmo estado.

Os programas que são capazes de reconhecer expressões regulares converter in- ternamente a expressão regular para uma destas máquinas de estado, e de seguida alimentam a m´aquina com a string que tˆem a expressão regular a ser reconhecida.

Existem outras variantes destas como o Posix AFND. A grande diferen¸ca desta para a AFND é que no Posix AFND ´e feito backtracking (voltar para um estado anterior para testar uma transi¸cão diferente) até ser descoberta a maior expressão poss´ıvel. Existe também uma variante para o DFA, e existem ainda h´ıbridos que tentam fazer os dois.

M´aquinas de estado n˜ao deterministas (AFND)

Uma máquina de estados não determinista consiste num número finito de estados, um alfabeto que é reconhec´ıvel pela máquina, um fun¸cão de transi¸cão para cada estado (que permite atribuir para cada s´ımbolo um estado seguinte), um estado inicial e um conjunto de estados finais.

Para desenhar uma máquina de estado capaz de reconhecer a expressão regular, ”abc(a|b|c)*a” que corresponde a qualquer expressão que come¸ca com ”abc” e termina com ”a” e que pode ter no meio uma combina¸cão qualquer de a,b ou c, a máquina de estados correspondente seria:

Figura 2.4: M´aquina de estados que reconhece a express˜ao abc(a|b|c)*a

Se considerarmos que as transi¸c˜oes na figura 2.4 podem ser ignoradas, a máquina de estado acima é trivial. Podemos simplificar a versão acima

Figura 2.5: M´aquina de estados simplificada que reconhece a express˜ao abc(a|b|c)*a

Apartir desta máquina de estados se fizermos passar qualquer expressão na forma ”abc(a|b|c)*a”, como abcbbbbccccaaaaaaaa, abcbbaabaa entre outras, chegamos sempre a um estado final 13 na máquina de estados da figura 2.4 ou 4 na máquina de estados da figura 2.5, o que indica que a expressão dada é reconhecida pela máquina de estados, dado que podemos chegar a um estado de aceita¸cão.

M´aquinas de estados deterministas (DFA)

Numa máquina de estados determinista, cada s´ımbolo está associada apenas a uma transi¸cão e não existem transi¸c˜oes associadas ao s´ımbolo . Para se desenhar uma máquina de estados deterministas parte-se sempre de uma máquina de estados não deterministas. A mesma expressão regular referida em 2.3.1, representada neste tipo de máquina de estados, daria origem à máquina de estados mostrada na figura 2.6.

A conversão para este tipo é também bastante pesada. A ideia base de conversão é calcular para cada estado a transi¸cão poss´ıvel associada a cada s´ımbolo e perceber quais destas dão origens a estados novos. Computacionalmente este processo é muito trabalhoso porque de cada vez que surge um estado novo é preciso re-calcular as transi¸cões para cada s´ımbolo e perceber se o estado a que dá origem já existe ou não. Se não existir é necessário continuar a calcular.

Cap´ıtulo 2. Contexto e trabalho relacionado 23

Figura 2.6: M´aquina de estados que reconhece a express˜ao abc(a|b|c)*a

Compara¸c˜ao

A grande vantagem das DFA é, dado que para cada estado existe apenas uma transi¸cão para cada s´ımbolo, um estado de aceita¸cão (final) pode ser alcan¸cado muito mais rapidamente. Por outro lado, em compara¸cão com as AFND, onde é poss´ıvel ter várias transi¸cões de um estado com o mesmo s´ımbolo, nestas pode vir a ser necess´ario fazer backtracking.

Outra desvantagem dos DFA ´e o espa¸co que ocupam. Qualquer AFND para uma linguagem Ln deve ter pelo menos 2n estados [16]. Isto pode ser um problema

se existirem alfabetos com muitos s´ımbolos e expressões regulares muito complexas, porque pode ser necessário utilizar espa¸co em disco se o espa¸co em memória não for suficiente para armazenar a tabela de transi¸cão.

Isto é uma das vantagens de utilizar as bibliotecas de expressões regulares do C# que fazem a tradu¸cão da expressão regular para AFND e permitem a pré compila¸cão de expressões regulares, conversão do AFND para DFA. Isto faz com que a máquina de estados resultante seja mantida em memória durante o tempo de execu¸cão e não seja necessário estar sempre a reconstruir a mesma [24][25].

Algumas ferramentas de análise estática de código terminam a sua análise nesta fase. Ferramentas como o RATS, FLAWFINDER, YASCAA entre outras, têm algumas fun¸cões identificadas como potencialmente vulneráveis a ataques e quando as identificam recorrendo simplesmente a análise lexical, lan¸cam alertas.

No documento Ricardo Silveira Moreira (páginas 36-41)