3.2 Combina¸c˜ao e sele¸c˜ao de classificadores
3.2.1 Combina¸c˜ao de classificadores
A opera¸c˜ao mais comum e mais geral ´e a combina¸c˜ao das decis˜oes de todos os classifi- cadores membros. Voto majorit´ario, soma, produto, m´aximo e m´ınimo s˜ao exemplos de
fun¸c˜oes utilizadas para combinar decis˜oes de membros de um agrupamento. A fus˜ao de classificadores depende do pressuposto de que todos os membros do agrupamento cometem erros independentes. Quando a condi¸c˜ao de independˆencia n˜ao ´e verificada, n˜ao se pode garantir que a combina¸c˜ao da decis˜ao de classificadores membros melhorar´a a performance da classifica¸c˜ao final [75].
Jain et al. [39] descrevem que os v´arios esquemas de combina¸c˜ao de m´ultiplos classifi- cadores podem ser agrupados, de acordo com sua arquitetura, em uma das trˆes seguintes categorias:
• Em paralelo: os classificadores s˜ao chamados de forma independente e, posterior- mente, seus resultados s˜ao combinados. A figura 3.12(a) ilustra a arquitetura em paralelo.
• Em s´erie: classificadores independentes s˜ao chamados em uma sequˆencia linear, conforme classificadores v˜ao sendo chamados, o n´umero de poss´ıveis classes para o padr˜ao que est´a sendo classificado vai diminuindo. A figura 3.12(b) ilustra a arquitetura em s´erie.
• Hier´arquico: classificadores independentes s˜ao combinados em uma estrutura que ´e similar `a de uma ´arvore de decis˜ao.
(a) paralelo
(b) s´erie
Figura 3.12: Arquiteturas para combina¸c˜ao de m´ultiplos classificadores.
As sa´ıdas produzidas pelos classificadores podem ser divididas em trˆes n´ıveis: abstrato, ranking e probabilidades. Nas sa´ıdas abstratas o classificador gera apenas o r´otulo da classe escolhida. Na sa´ıda com ranking, o classificador gera uma lista ordenada que indica a sequˆencia de classes poss´ıveis para o padr˜ao corrente, da mais prov´avel para a menos prov´avel. Na sa´ıda com probabilidades, s˜ao associados valores de probabilidade as sa´ıdas. Na sequˆencia do texto ser˜ao descritas algumas das regras mais conhecidas para realizar a fus˜ao entre as sa´ıdas dos classificadores membros de uma combina¸c˜ao em paralelo. Em cada situa¸c˜ao, ser´a indicado em que n´ıvel de sa´ıda a regra pode ser aplicada.
Voto majorit´ario
Regra mais simples e popular para combinar classificadores. Por esta regra, ´e feita uma vota¸c˜ao entre os resultados produzidos nas sa´ıdas dos classificadores envolvidos na combina¸c˜ao. A classe que obtiver o maior n´umero de votos ´e atribu´ıda ao padr˜ao. Na equa¸c˜ao 3.22 ´e calculada a vota¸c˜ao majorit´aria para uma amostra x, na qual n ´e o n´umero de classificadores, yi o r´otulo de sa´ıda do i-´esimo classificador em um problema com os
poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c.
mv(x) =arg maxc k=1 n X i=1 yi,k (3.22)
Quando h´a empate no n´umero de votos, a escolha deve ser aleat´oria ou deve haver alguma estrat´egia de rejei¸c˜ao. Al´em de f´acil implementa¸c˜ao, esta regra pode ser empregada em sa´ıdas abstratas.
Regra do produto
Em [41], Kittler et al. utilizam teorema de Bayes para demonstrar como chegam `a equa¸c˜ao 3.23, que permite encontrar o resultado obtido com a fus˜ao das sa´ıdas dos clas- sificadores pela regra do produto. Esta regra, assim como as demais que ser˜ao descritas na sequˆencia, pode ser utilizada quando as sa´ıdas dos classificadores oferecem probabi- lidades estimadas associadas a cada classe envolvida no problema, uma vez que utiliza as distribui¸c˜oes de probabilidade extra´ıdas pelos classificadores. A regra do produto faz a combina¸c˜ao calculando o produt´orio entre as probabilidades associadas `as sa´ıdas dos classificadores ci. pr(x) =arg maxc k=1 n Y i=1 P (!k|yi(x)) (3.23)
Na qual x ´e o padr˜ao a ser classificado, n ´e o n´umero de classificadores envolvidos na combina¸c˜ao, yi o r´otulo de sa´ıda do i-´esimo classificador em um problema com os
poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a
amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador.
Esta regra ´e bastante severa, pois a ocorrˆencia de baixa probabilidade para uma classe em um dos classificadores faz com que a probabilidade final associada `a ela seja baixa. Assim, ela ´e indicada em geral para situa¸c˜oes cr´ıticas, em que o erro n˜ao ´e tolerado. Ainda em Kittler [41], os autores deduzem, a partir da regra do produto, as regras que ser˜ao descritas na sequˆencia.
Regra da soma
classificadores ci, dado pela equa¸c˜ao 3.24 [41]: sr(x) =arg maxc k=1 n X i=1 P (!k|yi(x)) (3.24)
Na qual x ´e o padr˜ao a ser classificado, n ´e o n´umero de classificadores envolvidos na combina¸c˜ao, yi o r´otulo de sa´ıda do i-´esimo classificador em um problema com os
poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a
amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador. Em [41], Kittler
et al. comparam regras de fus˜ao e, ao final, concluem que a regra da soma apresenta melhores resultados por possuir maior resiliˆencia a erros de estimativa.
Regra da m´edia
A regra da m´edia calcula a m´edia entre as probabilidades associadas `as sa´ıdas dos classificadores, dada pela equa¸c˜ao 3.25 [41]:
mr(x) = 1 n c arg max k=1 n X i=1 P (!k|yi(x)) (3.25)
Na qual x ´e o padr˜ao a ser classificado, n ´e o n´umero de classificadores envolvidos na combina¸c˜ao, yi o r´otulo de sa´ıda do i-´esimo classificador em um problema com os
poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a
amostra x perten¸ca `a classe !k encontrada pelo i-´esimo classificador. Esta regra produz
resultados parecidos aos da regra da soma. Regra do m´aximo
A regra do m´aximo utiliza a maior probabilidade dentre as classes, tomando para cada classe a maior probabilidade encontrada dentre todos os classificadores. Dada pela equa¸c˜ao 3.26 [41]:
max(x) =arg maxc
k=1
maxni=1P (!k|yi(x)) (3.26)
Na qual x ´e o padr˜ao a ser classificado, n ´e o n´umero de classificadores envolvidos na combina¸c˜ao, yi o r´otulo de sa´ıda do i-´esimo classificador em um problema com os
poss´ıveis r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a
amostra x perten¸ca `a classe !kencontrada pelo i-´esimo classificador. Esta regra ´e de baixa
severidade, pois basta que uma classe obtenha bom desempenho em um dos classificadores para que tenha boa chance de ser a escolhida.
Regra do m´ınimo
que `as classes ´e associado o menor valor de probabilidade encontrado entre os diferentes classificadores. Dada pela equa¸c˜ao 3.27 [41]:
min(x) =arg maxc
k=1
minni=1P (!k|yi(x)) (3.27)
Na qual x ´e o padr˜ao a ser classificado, n ´e o n´umero de classificadores envolvidos na combina¸c˜ao, yio r´otulo de sa´ıda do i-´esimo classificador em um problema com os poss´ıveis
r´otulos de classe ⌦ = !1, !2, ..., !c e P (!k|yi(x)) a probabilidade de que a amostra x
perten¸ca `a classe !k encontrada pelo i-´esimo classificador. Esta regra ´e considerada
severa.