Arquitectura - Ricardo Silveira Moreira

A arquitectura da aplica¸cão está dividida em três partes, duas bibliotecas e um módulo que usa fun¸cões de uma das bibliotecas para analisar ficheiros e gerar aler- tas. Estas bibliotecas são a biblioteca de análise lexical responsável por devolver tokens e a biblioteca de parsing que ´e responsável por devolver sequências com vul- nerabilidades associadas. A aplica¸cão criada no âmbito deste projecto designa-se Athena e usa as bibliotecas aqui desenhadas onde estão implementadas funcionali- dades de integra¸cão e instala¸cão em contexto de empresa.

Figura 3.1: Arquitectura do Athena

Esta aplica¸cão é semelhante a um compilador até à fase de análise semântica. Tem uma fase de análise léxical, onde é feita a tradu¸cão do ficheiro nos seus diversos tokens. Esta fase é realizada pela biblioteca de análise lexical e tem uma fase de parsing, onde é feita uma análise sintáctica á semelhan¸ca de um compilador. A grande diferen¸ca para o compilador é que enquanto neste o objectivo é analisar se a estrutura segue as regras da linguagem, no Athena o objectivo é verificar se a estrutura sintáctica corresponde a um vulnerabilidade ou não. Esta fase é feita pela biblioteca de parsing.

Cap´ıtulo 3. Aplica¸c˜ao Athena 35

3.2.1 Motor de an´alise lexical

O motor de análise lexical é responsável por traduzir os caracteres do ficheiro a analisar em tokens. Por essa razão apenas disponibiliza a capacidade de devolver o próximo token do ficheiro, sob a forma de um método público ”PedirLexemme”. A arquitectura deste motor é a representada na figura 3.2.

O ”Lexemme” tal como no compilador refere-se a uma instˆancia espec´ıfica de um token. Como tal tem associado um token, uma linha e coluna e pode ter ou n˜ao um texto associado.

Quando um ficheiro é analisado, a primeira opera¸cão é a extraçcão dos seus tokens. Para fazer esta opera¸cão foi desenhado um motor que contém uma lista de contextos. Estes contextos são necessários para ditar o comportamento do motor em diferentes ambientes de execu¸cão, isto porque os caracteres têm significados diferentes em contextos diferentes. A cada um destes contextos estão associadas expressões. Estas expressões têm expressões regulares que ao serem emparelhadas com os caracteres do ficheiro vão desencadear açcões. Estas açcões são aquelas que dizem ao motor a opera¸cão que deve fazer. Dado que o propósito deste motor é a extraçcão de tokens, uma das principais açcões é a de devolver um token. Esta é a açcão que permite extrair o primeiro token que existe no ficheiro. O token a ser devolvido depende do nome do token que é associado à a¸cão ”devolver token”. Para além desta açcão foi necessário desenvolver mais algumas açcões. Nomeadamente uma que permitisse indicar ao motor que deveria saltar de um contexto para outro, para que o motor fosse capaz de aplicar outras expressões regulares e devolver diferentes tokens em contextos diferentes. Nomeadamente, uma primeira que desse a capacidade de associar textos a um token, uma segunda que permitisse especificar que parte de um texto a ser reconhecido se pretende associar, outra que permitisse não realizar qualquer opera¸cão para que o motor avan¸ca-se para o conjunto de caracteres a analisar, e finalmente uma açcão que permitisse sair do contexto actual e voltar ao principal.

Cap´ıtulo 3. Aplica¸c˜ao Athena 37

3.2.2 Motor de parsing

Este motor é responsável por devolver as sequências que são vulneráveis do ficheiro. Tal como o motor de análise léxical disponibiliza apenas um método público. Este método devolve a informa¸cão sobre a primeira vulnerabilidade que encontrou no ficheiro que está a ser analisado. Para isso utiliza sequências de tokens indicadas como vulneráveis para a linguagem a ser analisada. Estas sequências de tokens são populadas pelos tokens que o motor de análise léxical é capaz de devolver. A arquitectura deste motor está ilustrada na figura 3.3

Figura 3.3: Arquitectura do motor de parsing

A primeira tarefa do motor de parsing é criar uma lista de todos os tokens do ficheiro. Como tal, come¸ca por usar a fun¸cão disponibilizada pela motor de análise léxical para obter todos os tokens do ficheiro.

O passo seguinte é percorrer os tokens do ficheiro e tentar emparelhar as sequências de tokens que existem. A estas sequências de tokens estão associadas açcões. Estas

açcões devem ser executadas quando a sequência de tokens é emparelhada correctamente com os tokens do ficheiro. As sequências a serem emparelhadas podem variar consoante o contexto, por exemplo numa fun¸cão espec´ıfica pode existir uma vulnerabilidade que corresponde a uma sequência espec´ıfica de tokens. Esta mesma vulnerabilidade pode não fazer sentido noutras fun¸cões. Logo, o motor de parsing tem uma lista de contextos que tem sequências de tokens associadas para aplicar aos diferentes contextos.

Existem, tal como no motor de análise léxical, vários tipos de açcões que podem ser executadas quando o motor emparelha as sequências de tokens correctamente. Foram criadas 5 nomeadamente :

• Uma açcão que permite devolver uma sequência que tem uma vulnerabilidade associada. Esta recebe uma vulnerabilidade que fica associada à sequência que ´

e devolvida.

• Uma açcão que permite fazer o motor saltar de um contexto para outro. • Uma açcão que permite ao motor sair do contexto em que está, para o principal. • Uma açcão que permite ao motor ignorar a sequência e avan¸car.

• Uma açcão que permite armazenar a informa¸cão do contexto que está a ser analisado numa pilha

• Uma ac¸c˜ao que permite voltar ao contexto anterior.

Para minimizar o tempo que poderia demorar a percorrer a sequência de tokens dos ficheiros foi associado a cada token um código. São estes códigos que o motor de parsing usa para representar o ficheiro, assim como as sequˆencias que vêm do ficheiro de regras.

Tendo em conta o número de tokens que estão associados à linguagem, é cal- culado o número m´ınimo de caracteres diferentes de A-Z que são necessários para o representar. Ou seja, se foram declarados 26 tokens diferentes, então cada token pode ser associado a uma letra diferente do abecedário. Se forem declarados mais do que 26 e menos que 676, então são necessários dois caracteres.

Esta tradu¸cão reduz bastante o tempo de análise, porque em vez do motor ter que percorrer o número de caracteres que está associado a cada token, tem que percorrer apenas uma quantidade determinada de caracteres no ficheiro para descobrir um token. Na maior parte dos casos bastam dois caracteres dado que 676 combina¸cões é mais do que suficiente para representar os tokens todos de uma qualquer linguagem. Na figura 3.4 mostra-se o exemplo do resultado da tradu¸cão das expressões (tabela superior) e dos tokens nos seus respectivos códigos (tabela inferior). Na última coluna da tabela inferior indica-se o tamanho que a expressão codificada e não codificada ocuparia no buffer. Os @ são apenas usados pelo motor para perceber quando come¸ca um novo token, logo não são relevantes para a contagem. Verifica-se que a diferen¸ca de tamanho é bastante significativa.

Cap´ıtulo 3. Aplica¸c˜ao Athena 39

Figura 3.4: Exemplo de convers˜ao de tokens

A redu¸cão do tamanho do buffer do ficheiro com e sem os códigos dos tokens é ainda mais significativa para ficheiros grandes. Para um ficheiro da empresa Escrita Digital com 3906 linhas e 14541 instâncias de tokens diferentes, o tamanho do buffer sem codifica¸cão é de 209835 caracteres e com codifica¸cão é de 29082 caracteres.

O motor vai de seguida percorrer o ficheiro de regras e tentar emparelhar os vários padrões que estão associados a cada contexto come¸cando, tal como no léxico, pelo contexto principal. Antes de emparelhar os vários padrões com a sequência de códigos de tokens do ficheiro, é feita a conversão dos tokens dos padrões nos respectivos tokens. A fun¸cão que é responsável por fazer esta opera¸cão é a ”pedirSe- quencia()”. Esta fun¸cão é a ´unica disponibilizada pelo motor de parsing. Tal como a fun¸cão pedirLexemme, esta devolve a próxima sequência vulnerável.

3.2.3 Athena

O Athena é uma aplica¸cão de linha de comandos, responsável por usar o motor de

parsing e an´alise lexical para analisar ficheiros. Esta aplica¸cão recebe os argumentos que definem o seu comportamento. Tem uma op¸cão que permite limpar o que resulta dos ficheiros de análise. Permite também a sua instala¸cão e a desinstala¸cão.

Para que fosse poss´ıvel tornar a aplica¸cão adaptável a qualquer linguagem, são utilizados ficheiros de configura¸cão que ditam o comportamento do motor de análise léxical e parsing para as várias linguagems. Na seçcão 3.3 é detalhada a estrutura dos ficheiros de configura¸cão e o efeito dos vários atributos nos motores.

No documento Ricardo Silveira Moreira (páginas 52-57)