Combina¸cão de classificadores - Combina¸cão e sele¸cão de classificadores

3.2 Combina¸c˜ao e sele¸c˜ao de classificadores

3.2.1 Combina¸c˜ao de classificadores

A opera¸cão mais comum e mais geral é a combina¸cão das decisões de todos os classificadores membros. Voto majoritário, soma, produto, máximo e m´ınimo são exemplos de

fun¸cões utilizadas para combinar decisões de membros de um agrupamento. A fusão de classificadores depende do pressuposto de que todos os membros do agrupamento cometem erros independentes. Quando a condi¸cão de independência não é verificada, não se pode garantir que a combina¸cão da decisão de classificadores membros melhorará a performance da classifica¸cão final [75].

Jain et al. [39] descrevem que os vários esquemas de combina¸cão de múltiplos classificadores podem ser agrupados, de acordo com sua arquitetura, em uma das três seguintes categorias:

• Em paralelo: os classificadores s˜ao chamados de forma independente e, posterior- mente, seus resultados s˜ao combinados. A figura 3.12(a) ilustra a arquitetura em paralelo.

• Em série: classificadores independentes são chamados em uma sequência linear, conforme classificadores vão sendo chamados, o número de poss´ıveis classes para o padrão que está sendo classificado vai diminuindo. A figura 3.12(b) ilustra a arquitetura em série.

• Hierárquico: classificadores independentes são combinados em uma estrutura que é similar à de uma árvore de decisão.

(a) paralelo

(b) s´erie

Figura 3.12: Arquiteturas para combina¸c˜ao de m´ultiplos classificadores.

As sa´ıdas produzidas pelos classificadores podem ser divididas em três n´ıveis: abstrato, ranking e probabilidades. Nas sa´ıdas abstratas o classificador gera apenas o rótulo da classe escolhida. Na sa´ıda com ranking, o classificador gera uma lista ordenada que indica a sequência de classes poss´ıveis para o padrão corrente, da mais provável para a menos provável. Na sa´ıda com probabilidades, são associados valores de probabilidade as sa´ıdas. Na sequência do texto serão descritas algumas das regras mais conhecidas para realizar a fusão entre as sa´ıdas dos classificadores membros de uma combina¸cão em paralelo. Em cada situa¸cão, será indicado em que n´ıvel de sa´ıda a regra pode ser aplicada.

Voto majorit´ario

Regra mais simples e popular para combinar classificadores. Por esta regra, é feita uma vota¸cão entre os resultados produzidos nas sa´ıdas dos classificadores envolvidos na combina¸cão. A classe que obtiver o maior número de votos é atribu´ıda ao padrão. Na equa¸cão 3.22 é calculada a vota¸cão majoritária para uma amostra x, na qual n é o número de classificadores, yi o rótulo de sa´ıda do i-ésimo classificador em um problema com os

poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c.

mv(x) =arg maxc k=1 n X i=1 yi,k (3.22)

Quando há empate no número de votos, a escolha deve ser aleatória ou deve haver alguma estratégia de rejei¸cão. Além de fácil implementa¸cão, esta regra pode ser empregada em sa´ıdas abstratas.

Regra do produto

Em [41], Kittler et al. utilizam teorema de Bayes para demonstrar como chegam à equa¸cão 3.23, que permite encontrar o resultado obtido com a fusão das sa´ıdas dos classificadores pela regra do produto. Esta regra, assim como as demais que serão descritas na sequência, pode ser utilizada quando as sa´ıdas dos classificadores oferecem probabilidades estimadas associadas a cada classe envolvida no problema, uma vez que utiliza as distribui¸cões de probabilidade extra´ıdas pelos classificadores. A regra do produto faz a combina¸cão calculando o produtório entre as probabilidades associadas às sa´ıdas dos classificadores ci. pr(x) =arg maxc k=1 n Y i=1 P (!k|yi(x)) (3.23)

Na qual x é o padrão a ser classificado, n é o número de classificadores envolvidos na combina¸cão, yi o rótulo de sa´ıda do i-ésimo classificador em um problema com os

poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a

amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador.

Esta regra é bastante severa, pois a ocorrência de baixa probabilidade para uma classe em um dos classificadores faz com que a probabilidade final associada à ela seja baixa. Assim, ela é indicada em geral para situa¸cões cr´ıticas, em que o erro não é tolerado. Ainda em Kittler [41], os autores deduzem, a partir da regra do produto, as regras que serão descritas na sequência.

Regra da soma

classificadores ci, dado pela equa¸c˜ao 3.24 [41]: sr(x) =arg maxc k=1 n X i=1 P (!k|yi(x)) (3.24)

Na qual x é o padrão a ser classificado, n é o número de classificadores envolvidos na combina¸cão, yi o rótulo de sa´ıda do i-ésimo classificador em um problema com os

poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a

amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador. Em [41], Kittler

et al. comparam regras de fus˜ao e, ao final, concluem que a regra da soma apresenta melhores resultados por possuir maior resiliˆencia a erros de estimativa.

Regra da m´edia

A regra da média calcula a média entre as probabilidades associadas às sa´ıdas dos classificadores, dada pela equa¸cão 3.25 [41]:

mr(x) = 1 n c arg max k=1 n X i=1 P (!k|yi(x)) (3.25)

Na qual x é o padrão a ser classificado, n é o número de classificadores envolvidos na combina¸cão, yi o rótulo de sa´ıda do i-ésimo classificador em um problema com os

poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a

amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador. Esta regra produz

resultados parecidos aos da regra da soma. Regra do m´aximo

A regra do m´aximo utiliza a maior probabilidade dentre as classes, tomando para cada classe a maior probabilidade encontrada dentre todos os classificadores. Dada pela equa¸c˜ao 3.26 [41]:

max(x) =arg maxc

k=1

maxn_i=1P (!k|yi(x)) (3.26)

Na qual x é o padrão a ser classificado, n é o número de classificadores envolvidos na combina¸cão, yi o rótulo de sa´ıda do i-ésimo classificador em um problema com os

poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a

amostra x perten¸ca à classe !kencontrada pelo i-ésimo classificador. Esta regra é de baixa

severidade, pois basta que uma classe obtenha bom desempenho em um dos classificadores para que tenha boa chance de ser a escolhida.

Regra do m´ınimo

que às classes é associado o menor valor de probabilidade encontrado entre os diferentes classificadores. Dada pela equa¸cão 3.27 [41]:

min(x) =arg maxc

k=1

minn_i=1P (!k|yi(x)) (3.27)

Na qual x é o padrão a ser classificado, n é o número de classificadores envolvidos na combina¸cão, yio rótulo de sa´ıda do i-ésimo classificador em um problema com os poss´ıveis

r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a amostra x

perten¸ca à classe !k encontrada pelo i-ésimo classificador. Esta regra é considerada

severa.

No documento YANDRE MALDONADO E GOMES DA COSTA RECONHECIMENTO DE GÊNEROS MUSICAIS UTILIZANDO ESPECTROGRAMAS COM COMBINAÇÃO DE CLASSIFICADORES (páginas 58-62)