Paradigma Estatístico: SVMs e Redes Bayesianas

2.3 Técnicas de AM para Classificação de Dados

2.3.2 Paradigma Estatístico: SVMs e Redes Bayesianas

O Paradigma Estatístico tem como fundamento a exploração das dependên- cias funcionais de um conjunto de dados por meio de modelos estatísticos. O objetivo do aprendizado é encontrar uma função ou modelo (classificador) que separe os dados em suas respectivas classes. Assume-se, inicialmente, que os dados são gerados de forma independente e identicamente distribuída de acordo com modelo de distribuição de probabilidade assumido para o problema.

SVMs constituem uma técnica de AM embasada na Teoria do Aprendizado Estatístico, desenvolvida por (Vapnik,1995). No Paradigma Estatístico, pode- se destacar também o Aprendizado Bayesiano, que faz uso da manipulação direta de probabilidades para a realização do processo de indução. Naive Bayes(Mitchell,1997) e Redes Bayesianas (Friedman et al.,1997) são técnicas representantes desse tipo de aprendizado.

Máquinas de Vetores de Suporte

No projeto de SVMs, funções não-lineares de kernel mapeiam os vetores de entrada em um espaço de dimensão mais elevada (espaço de características), no qual um hiperplano de separação é obtido para a resolução do problema de classificação (Cristianini & Shawe-Taylor, 2000).

Busca-se o hiperplano que maximize a margem de separação entre os dados das diferentes classes. De acordo com a Teoria do Aprendizado Estatís- tico, esse é o hiperplano com maior capacidade de generalização que pode ser obtido a partir dos dados de treinamento.

O processo de mapeamento dos dados para o espaço de características permite obter fronteiras não lineares para separação dos dados. Isso é ilus- trado na Figura 2.5. O conjunto de dados bidimensional da Figura 2.5.a é mapeado para o espaço tridimensional representado na Figura 2.5.c. Nesse novo espaço, determina-se o hiperplano que maximiza a separação entre as classes. Essa função linear em ℜ3 _{corresponde à fronteira não linear em ℜ}2

apresentada na Figura 2.5.b.

A margem de separação entre as classes é um conceito fundamental no projeto de SVMs e está associada ao erro permitido na classificação. Os dados que estão dentro da margem de separação ou sobre ela são denominados

Figura 2.5: Exemplo de problema de separação de dados por SMVs: (a) Con- junto de dados não linear; (b) Fronteira não linear no espaço de entradas; (c) Fronteira linear no espaço de características (Lorena, 2006)

vetores de suporte e irão definir a superfície de separação. Na Figura 2.6 os vetores de suporte são indicados por um círculo extra.

Figura 2.6: Exemplos vetores de suporte (dados com círculo extra) (Chen et al.,

2005)

A escolha de SVMs como uma das técnicas de AM utilizadas na investigação dos modelos hierárquicos foi motivada pela sua boa capacidade de generali- zação, mesmo para problemas com muitos atributos, os quais são comuns no domínio da Bioinformática.

Aprendizado Bayesiano: Redes Bayesianas

Técnicas de AM baseadas no Aprendizado Bayesiano, tais como Naive Bayes e Redes Bayesianas, estão fundamentadas na manipulação de probabilidades explícitas para hipóteses. O cálculo das probabilidade é feito com base no Teorema de Bayes, representado na Equação 2.1.

P (A/B) = P (B/A) ∗ P (A)

P (B) (2.1)

Essa equação envolve dois tipos de probabilidades: probabilidades a priori e probabilidades a posteriori. P (A) e P (B) são probabilidades a priori de A e B, respectivamente. O termo “probabilidade a priori” indica que a probabilidade P (A) (ou P (B)) não leva em consideração nenhuma informação a respeito de B (ou A). P (B/A) e P (A/B) são denominadas de probabilidades a posteriori de B condicional a A e de A condicional a B, respectivamente.

A abordagem adotada no classificador Naive Bayes consiste em classificar um novo dado T com o valor mais provável, Ys, dado os valores de atributos

de entrada < x1, x2...xm > que o descrevem e um conjunto de possíveis valores

Y . O fórmula para o cálculo de Ys é mostrada na Equação 2.2.

Ys= arg max yj∈Y P (yj) Y i P (xi|yj) (2.2)

Tomando o exemplo de um gerente bancário que tem que decidir se um cliente deve ou não receber um empréstimo, o conjunto Y é igual a {sim, não}. Os atributos < x1, x2...xm > podem ser informações a respeito do cliente e/ou

variáveis que definam a situação financeira do banco.

Como pode ser observado na equação, o classificador Naive Bayes é baseado na simplificação que os valores dos atributos são condicionalmente independentes. Em outras palavras, a probabilidade de observar a conjunção de atributos < x1, x2...xm > é igual ao produto de suas probabilidades individuais.

Essa suposição feita pelo Naive Bayes pode ser considerada rígida, pois em muitos casos os atributos não são condicionalmente independentes. Dessa forma, optou-se por utilizar Redes Bayesianas, uma abordagem mais flexível para a modelagem das probabilidades.

A abordagem de Redes Bayesianas utiliza uma representação gráfica para descrever os relacionamentos entre as variáveis (atributos e rótulos) do conjunto de dados. Essa representação é constituída de dois tipos de elementos: um DAG, no qual os nós representam as variáveis e os arcos representam relações de dependência entre pares de variáveis; e uma tabela de probabilidades para cada nó do DAG. Na Figura 2.7, é mostrado um exemplo de uma representação gráfica utilizada por uma Rede Bayesiana para detecção de do-

ença cardíaca ou azia. Os atributos utilizados dizem respeito às seguintes informações relacionadas ao paciente: alimentação, prática regular ou não de exercícios, e sintomas apresentados (pressão sangüínea alta e dor no peito).

Figura 2.7: Exemplo de uma Rede Bayesiana para detecção de doença car- díaca ou azia em paciente (figura adaptada de (Tan et al.,2005)).

Em uma Rede Bayesiana, uma variável A é dita condicionalmente dependente de B quando o nó que a representa tem como nó-pai o nó que representa a variável B. No exemplo mostrado na Figura2.7, o sintoma “Pressão Sanguí- nea Alta” é condicionalmente dependente do quadro de doença cardíaca. A probabilidade da pressão sanguínea apresentar-se alta em um caso de do- ença cardíaca é de 85%, muito mais alta do que em um caso que o paciente não apresenta a doença (20%), como pode ser observado na tabela localizada ao lado do nó relativo à pressão sangüínea.

Uma vez gerada a topologia da Rede Bayesiana, a classe predita é dada pelo rótulo mais provável, baseado nos atributos apresentados pelo registro de entrada.

A utilização de Redes Bayesianas neste projeto foi motivada pelo fato dessa técnica fornecer probabilidades que denotam o grau de certeza na classifica- ção e estar entre as abordagens mais práticas para alguns de problemas de aprendizado. Além disso, o método é robusto em relação a super-ajustamento (Tan et al.,2005).

No documento Investigação de técnicas de classificação hierárquica para problemas de bioinfor... (páginas 42-46)