Parsing - Ferramentas an´ alise est´ atica de c´ odigo

2.3 Ferramentas an´ alise est´ atica de c´ odigo

2.3.2 Parsing

Este processo serve para, recorrendo a tokens obtidos pela an´alise lexical (figura 2.7), transformar o c´odigo fonte numa parse tree.

A parse tree ´e constru´ıda a partir daquilo a que se chama uma gramática livre de contexto, tipicamente representada na nota¸cão Backus-Naur Form (BNF). Esta forma de especificar gramáticas é fácil de ler, de expandir e de especificar qualquer

Figura 2.7: Rela¸c˜ao entre a an´alise lexical e o parser

linguagem.

Gram´aticas livres de contexto

Este formato é o que permite especificar a sintaxe de uma linguagem através daquilo a que se chamam produ¸cões, que se constroem a partir de s´ımbolos terminais e não terminais.

S´ımbolos terminais s˜ao os tokens obtidos atrav´es do reconhecimento de expressões regulares pela análise lexical. Não terminais são os s´ımbolos que permitem especificar a hierarquia de uma linguagem e são uma combina¸cão de s´ımbolos terminais e/ou não terminais. Produ¸cões especificam o método como s´ımbolos terminais e não terminais, podem ser combinados para formar strings.

A melhor forma de perceber gramáticas livres de contexto é representando a gramática de opera¸cões aritméticas. Neste caso, a análise lexical vai devolver os

tokens ou s´ımbolos terminais id, +, −, ∗, /, (, ). Um id ´e qualquer número de zero a nove. Neste caso o que a gramática deve representar é a sintaxe correcta de uma opera¸cão matemática. Esta gramática está representada na tabela 2.2. Com esta

1a _express˜_ao _→ _express˜_{ao + termo}

2a express˜ao → express˜ao - termo 3a _express˜_ao _→ _termo

4a _termo _→ _{termo * factor}

5a _termo _→ _{termo / factor}

6a termo → factor

7a _factor _→ _{( express˜}_{ao )}

8a _factor _→ _{id}

Tabela 2.2: Regras de produ¸cão para opera¸cões aritméticas

gramática é poss´ıvel especificar a estrutura que qualquer opera¸cão aritmética tem de seguir.

Cap´ıtulo 2. Contexto e trabalho relacionado 25

Se tomarmos como exemplo a seguinte expressão (1 + 4) ∗ 5 + 3, esta expressão vai come¸car por aplicar a primeira regra, que vai resultar em expressão + termo.

Sendo a express˜ao igual a (1 + 4) ∗ 5 e o termo igual a 3. De seguida vai ser aplicada

a terceira regra a (1 + 4) ∗ 5, que vai resultar em termo, que por sua vez vai aplicar a quarta regra termo ∗ f actor. O termo ainda pode ser mais simplificado, o que vai resultar em f actor, que vai resultar em (express˜ao). Sobre esta podemos aplicar

a primeira express˜ao que vai resultar em expressão + termo. Estas depois v˜ao ser simplificadas até `a oitava regra, que vai ser traduzida no token id. Estas regras s˜ao aplicadas aos tokens seguintes. Isto mostra-nos que a express˜ao (1 + 4) ∗ 5 + 3 é uma expressão válida, porque pode ser derivada recorrendo ás expressões da tabela 2.2 da seguinte forma

expressão → expressão + termo expressão + termo → termo + termo termo + termo → termo ∗ f actor + termo

termo ∗ f actor + termo → f actor ∗ f actor + termo f actor ∗ f actor + termo → (express˜ao) ∗ f actor + termo

(express˜ao) ∗ f actor + termo → (express˜ao + termo) ∗ f actor + termo

(express˜ao + termo) ∗ f actor + termo → (id + termo) ∗ f actor + termo

(id + termo) ∗ f actor + termo → (id + id) ∗ f actor + termo (id + id) ∗ f actor + termo → (id + id) ∗ id + termo

(id + id) ∗ id + termo → (id + id) ∗ id + id (id + id) ∗ id + id → (1 + 4) ∗ 5 + 3

A deriva¸cão aqui feita é à esquerda e existe ainda uma variante à direita. Com estas deriva¸cões é depois poss´ıvel fazer aquilo a que se chama ´arvores de parsing ou sintáctica, sobre as quais é poss´ıvel fazer análises. Existem também muitas vezes representa¸cões directas do código tal como o programador escreveu.

A ´area de parsing dentro de compiladores ´e uma área muito vasta existem vários tipos de gramáticas que especificam o método como ´e feito o parsing, se ´e da esquerda para a direita assim como o n´umero de lookaheads (s´ımbolos que s˜ao vistos antes de ser aplicada uma regra de produ¸cão). Estas considera¸cões contudo já não são relevantes para este projecto. No entanto, são retiradas algumas ideias como a cria¸cão de uma gramática de regras que representam padrões de código vulnerável.

2.3.3 Arvore sint´´

actica

Uma ´arvore sint´actica ou de parsing ´e aquilo que permite representar sob a forma de ´

arvore, a estrutura de um código fonte escrita numa linguagem de programa¸cão. A vantagem desta representa¸cão é que permite perceber os vários caminhos que uma fun¸cão pode tomar, de acordo com valores ou condi¸cões diferentes. É sobre esta ´

arvore que são depois aplicadas as técnicas de análise de controlo de fluxo, dados e a variante desta, i.e, taint analysis.

Para fazer a conversão é necessário fazer a tradu¸cão das várias regras de produ¸cão que vão especificar a cria¸cão de nós e de folhas na árvore. Neste contexto, um

nó representa (se tiver folhas) um s´ımbolo não terminal e as folhas são s´ımbolos terminais.

Na tabela 2.3 estão representadas as regras de constru¸cão de uma árvore de

parsing.

Produ¸c˜ao Regras de semantica

expressão → expressão + termo expressão.node=new Node(’+’,expressão.node,termo.node) expressão → expressão - termo expressão.node=new Node(’-’,expressão.node,termo.node) expressão → termo expressão.node=termo.node

termo → termo * factor termo.node=new Node(’*’,termo.node,factor.node) termo → termo / factor termo.node=new Node(’/’,termo.node,factor.node)

termo → factor termo.node=factor.node

factor → ( expression ) factor.node = express˜ao.node

factor → id factor.node = new Leaf(id,id.entrada) Tabela 2.3: Tradu¸c˜ao de regras de produ¸c˜ao para regras de semantica

Esta tabela permite traduzir cada regra de produ¸cão nos nós e folhas. Se usarmos como exemplo a expressão (1 + 4) ∗ 5 + 3 obtermos a seguinte árvore 2.8

A grande vantagem deste tipo de estrutura de dados é que permite associar a cada nó e folha informa¸cão que vai facilitar a análise de vulnerabilidades, simular a execu¸cão do código, perceber a forma como as várias opera¸cões vão afectar variáveis e perceber se estas chegam a Sensitive Sinks ou n˜ao. Esta fase não está contemplada na aplica¸cão aqui apresentada

2.3.4 M´etodos de an´alise

As ferramentas de análise estática de código precisam sempre de fazer uma ou mais das técnicas abaixo listadas, ou seja, para análisar código vão todas precisar de extrair tokens atrav´es de análise lexical. Por essa razão é dif´ıcl dizer que uma técnica emprega apenas um método, porque mesmo aquelas que fazem simplesmente análise lexical podem usar algumas t´ecnicas de parsing.

An´alise lexical

Este tipo de método muito simplesmente procura identificar fun¸cões que são potencialmente vulneráveis e lan¸ca alertas, como é o caso do [3], [9] entre outros. O grande problema deste tipo de método de análise é o grande número de falsos positivos que pode lan¸car[22].

Pattern matching

Este método procura especificar regras de produ¸cão que potencialmente vão ser vul- neráveis e posteriormente vai procurar esses mesmos padrões no código. Tal como o método anterior este pode gerar um grande número de falsos positivos [22]. Con- tudo é um bom método para uma análise rápida e que, juntamente com anota¸cões

Cap´ıtulo 2. Contexto e trabalho relacionado 27

Figura 2.8: Arvore de parsing da express˜ao (1 + 4) ∗ 5 + 3

de utilizadores, permite detectar grande partes das vulnerabilidades. Este é o tipo de análise que a aplica¸cão aqui desenvolvida efectua.

Controlo de fluxo

Ferramentas que utilizam este método procuram explorar os diferentes caminhos de execu¸cão que uma aplica¸cão tem. Para isto constroem aquilo a que se chama um grafo de controlo de fluxo por cima da ´arvore de parsing. Isto permite ter no¸c˜ao do comportamento do programa e perceber caminhos da fun¸cão que são inacess´ıveis, com apoio de regras perceber o que é potencialmente perigoso e identificar caminhos que podem levar a vulnerabilidades.

Taint propagation

Este tipo de método é uma subcategoria da análise de fluxo de dados e procura identificar a que valores um atacante consegue ter acesso. Para isto é necessário saber os pontos de entrada do programa, tais como inputs, entradas de ficheiros entre outros. Este tipo de método procura perceber as altera¸cões que variáveis vão ter ao longo do c´odigo e detectar se chegam a Sensitive Sinks.

No documento Ricardo Silveira Moreira (páginas 41-46)