Meta-aprendizagem e caracterização de dados

Bastante difundido entre pesquisadores, o teorema do "No Free Lunch" (WOLPERT;

MACREADY,1997) se aplica a algoritmos de aprendizagem de máquinas, visto que

nenhum algoritmo consegue obter sempre as melhores performances em todas as situações. Algumas saídas têm sido propostas para lidar com esse problema, como combinação de classificadores, aprendizagem ativa e meta-aprendizagem.

Dando foco em meta-aprendizagem,BRAZDIL et al.(2008) afirma que deve ser possível aprender sobre o próprio processo de aprendizagem, e ainda, que um sistema poderia aprender a lucrar com a experiência anterior para gerar conhecimento adicio- nal e simplificar a seleção automática de modelos eficientes que resumem os dados. Meta-aprendizagem também foi definida porSMITH-MILES(2008) como exploração

do conhecimento sobre a performance de algoritmos para melhorar essa performance ou selecionar algoritmos de aprendizagem.

As principais diferenças entre o aprendizado básico e o aprendizado em nível meta estão no escopo e em como acumula experiência. O escopo do aprendizado básico é uma tarefa específica, a experiência é acumulada a partir de situações do problema sobre suas saídas. Já no meta-aprendizado, o escopo está definido por várias tarefas e guarda experiências sobre como as saídas estudadas se comportaram em cada tarefa.

Para recomendação de algoritmos, a comunidade acadêmica considera que é possível modelar as características dos problemas para relacionar ao desempenho desses algoritmos, analisando como uma situação clara de aprendizagem. Assim, meta-aprendizagem, ou um aprendizado sobre a aprendizagem, tem sido campo de grandes pesquisas e ótimos resultados, como emNAKHAEIZADEH(1993),GIRAUD-

CARRIER et al.(2002),LEYVA et al.(2014) eOLIVEIRA MOURA et al.(2014a).

Os conceitos de meta-aprendizagem apresentados a seguir, são importantes para a compreensão da proposta do nosso trabalho.

• Meta-características: são medidas extraídas das bases de dados com a expecta- tiva de que forneçam informações relevantes para determinar o comportamento dessas bases em relação aos métodos estudados.

• Meta-instâncias: são formadas pelas meta-características extraídas das bases de dados de amostra, utilizadas como atributos e rotuladas pela informação da saída desejada para cada base, a partir de conhecimentos a priori do problema ou resultados experimentais.

• Meta-base: é construída com as meta-instâncias criadas contendo informações de todas as amostras de bases.

Um dos principais requisitos para aplicação de meta-aprendizagem é caracterizar bases de dados através de medidas. Caracterizar dados em tarefas de classificação de padrões é extrair medidas e informações dos dados que possam revelar padrões de comportamento entre eles, associados às saídas desejadas. As meta-características, seguem a mesma ideia da caracterização de dados comuns, sendo nesse caso, inferidas de bases de dados ao invés de dados brutos e associadas ao desempenho de algoritmos como saídas.

Muitas medidas de caracterização de dados têm sido propostas para diversas tarefas de meta-aprendizagem (LEYVA et al.,2014). Para algoritmos de seleção de instâncias, entre os autores que definiram medidas de caracterização de dados para gerar atributos de meta-bases, destacamos e apresentamos a diante, as medidas sugeridas porSOTOCA; MOLLINEDA; SANCHEZ(2006), porCAISES et al.(2011) e

porLEYVA et al.(2014), por terem sido utilizadas pela maioria dos estudos propostos recentemente.

As medidas deCAISES et al.(2011), estão relacionadas ao conceito de conjunto local. O conjunto local de uma instância é formado pela maior hiperesfera possível de instâncias da mesma classe, de acordo com suas distâncias ao vizinho mais próximo. Algumas das medidas deCAISES et al.(2011) foram desmembradas e suas partes foram utilizadas em nosso trabalho como medidas individuas, porque várias distâncias intra- locais foram nulas e impediam o cálculo de algumas divisões. Uma breve descrição das medidas deCAISES et al.(2011) é apresentada a seguir:

• Pontos isolados são o número de pontos que são mais próximos a instâncias de outras classes (inimigas) que a instâncias pertencentes a sua própria classe. • Cardinalidade média de conjuntos locais mostra instâncias de bordas e se as

bordas das classes são regulares ou irregulares.

• Dispersão intergrupos (DP1 e DP2) determina o grau de proximidade entre gru- pos. Ao invés de usarmos DP1 e DP2, usamos as suas partes, que são: distância intergrupos, distância intragrupos, gruposNE e diâmetro do grupo.

• Nível de ruído informa o nível de ruído a partir das instânicas excluídas pela execução do ENN.

• Desbalanceamento é o grau de disparidade do número de instâncias por classes. • Número de atributos nominais é usado para escolher MSIs que trabalham com

atributos nominais e eliminar aqueles que possuem performance baixa na pre- sença desses atributos.

• Número de classes influencia na performance de classificadores e na complexi- dade dos algoritmos de treino.

• Regiões fornece informações sobre a distribuição dos dados.

JáSOTOCA; MOLLINEDA; SANCHEZ(2006) faz uma revisão das medidas de com-

plexidade existentes na literatura e discute como aplicá-las em meta-aprendizagem no domínio de classificação de padrões. Essas medidas também são eficientes quando aplicadas em métodos de seleção de instâncias, conforme mostrado porLEYVA; GON-

ZALEZ; PEREZ(2015) eMOLLINEDA; SÁNCHEZ; SOTOCA(2005). Geralmente, são

agrupadas nas categorias: estatísticas, separabilidade de classes, geometria e densidade e, sobreposição.

• medidas de informações simples, pela contagem no conjunto completo de instâncias de cada base: número de instâncias, número de atributos, número de classes, atributos numéricos, atributos binários, atributos nominais. Também utilizadas emCAISES et al.(2011)

• medidas de informações proporcionais, pela proporção de valores de cada tipo em relação ao número completo de instâncias da base de dados: proporção de atributos numéricos, proporção de atributos binários, proporção de atributos nominais.

• Entropia mede a quantidade de informação presente na base de dados para identificar uma instância pertencente a uma classeci do conjunto deC classes.

O valor de entropia da base H (Γ)em relação às classes, pode ser calculado com a Equação 2.48, na qualp (ci)é a probabilidade a priori da classeci, ou seja, é a

frequência da classe na base de dados.

H (Γ) = − C X i =1 p (ci) log2¡p (ci) ¢ 2.48

Como medidas de sobreposição, usamos Raio discrimintante de Fisher (F1) e

Volume da região de sobreposição (F2), estas medidas inicialmente foram propostas

para problemas de duas classes, mas ganharam generalização para mais classes em

MOLLINEDA; SÁNCHEZ; SOTOCA(2005).

• F1 generalizada para várias classes consistem em:

F 1g en= C P i =1 ni.δ(m,mi) C P i =1 ni P j =1δ(x i j, mi) 2.49

Para F1, é necessário calcular previamente, o número de exemplos por cada classe, aqui representado porni, a média da base de dados completam, a média

por classemi,δequivale a uma medida de distância exi_j é o exemplo j da classe

i. • Em F2, a generalização segue: F 2g en= X ci,cj Y k mi nmaxk− maxmi nk maxmaxk− mi nmi nk 2.50

Nesta medida, considera-se: k = 1,...,d para um problema comdatributos, ou

d dimensional. Então, deve-se calcular um vetor com os atributos máximos ou mínimos de cada classe e em seguida fazer as comparações entre classes, conforme abaixo:

mi nmaxk= mi n{max( fk, ci), max( fk, cj)}

maxmi nk= max{mi n( fk, ci), mi n( fk, cj)}

maxmaxk= mi n{max( fk, ci), max( fk, cj)}

mi nmi nk= max{mi n( fk, ci), mi n( fk, cj)}

O resultado do produto dos atributos do vetor resultante é somado a cada itera- ção de comparação entre classes.

As medidas de separabilidade de classes utilizadas foram:

• Frações de pontos sobre as bordas (N1)

É construída uma árvore geradora mínima, em inglês Minimum Spanning Tree (MST), em que todos as instâncias da base de dados são consideradas pontos e conectadas ao seu vizinho mais próximo. A quantidade de pontos conectados ao seu inimigo mais próximo, ou seja, conectado a uma classe diferente, é considerada a quantidade de pontos de borda. A medida N1 equivale à fração dos pontos de borda sobre o número total de pontos (instâncias) da base de dados.

• Raio de distância média entre classes dos vizinhos (N2)

Verifica o quanto os dados são discrinantes, com a comparação da dispersão inter-classes com a separabilidade intra-classes. Quanto menor o valor da medida, mais discriminantes são os dados.

N 2 = n P i =1δ(N1= (xi ), xi) n P i =1δ(N16= (xi ), xi) 2.51

δindica o cálculo da distância entre a instância em questão eN1= (xi)que é o

vizinho mais próximo dentro da mesma classe ouN16= (xi)que é o vizinho mais

• Estimação da taxa de erro (N3)

N3 corresponde à taxa de erro obtida pela aplicação do método Leaving-one-out. Leaving-one-out pertence ao grupo de algoritmos de avaliação de classificadores por validação cruzada. Considere o método de validação cruzada k-fold, em que o conjunto de treinamento original é dividido emksubconjuntos e emk

execuções cada subconjunto é usado como teste, enquanto os demais fazem o treino do classificador. O resultado da avaliação é a média dosk resultados de testes. Leaving-one-out é equivalente a aplicação de k-fold comk igual ao número total de exemplos de treino, ou seja, um exemplo vai para teste e os demais para treino a cada execução.

Medidas de geometria e densidade:

• ²-Vizinhança (T1)

Enquanto N1 indica as formas geométricas das classes a partir do lado externo, através das bordas, T1 começa de dentro das classes para indicar tais formas. Cada instância de treino é tida como centro de uma bola que vai crescendo o máximo possível com a inclusão de instâncias de mesma classe, até encontrar uma instância inimiga (de outra classe). Após a criação de todas as bolas, aquelas completamente dentro de outras são consideradas redundantes e são removidas. Finalmente, o número de bolas equivale à quantidade necessária para cobrir todas as classes. T1 é o número de bolas normalizado pelo número de instâncias da base de dados.

• Média do número de pontos por dimensão (T2)

Descreve a densidade da distribuição espacial dos exemplos, apenas dividindo o número de instâncias da base de dadosnpelo número de atributosd.

T 2 =n d 2.52 • Densidade D1

A densidade é definida como a média do número de instância pelo volume da base de dados. O volume corresponde ao produto dos tamanhos dos ranges dos atributos dessa base de dados. Assim, D1 é definida por:

D1 = n vol 2.53

Em quené o número de instâncias evol o volume da base.

• Volume da vizinhança local (D2)

Nessa medida, o volume é dado pela equação:

Vi = d Y h=1 (max( fh, Nk(xi)) − mi n(fh, Nk(xi))) 2.54

Nk(xi)são oskvizinhos mais próximos da instânciaxi. Assim, calcula-se o valor

máximo e mínimo de cada atributo fhentre esses vizinhos e o volume de cada

instância se dá pela equação 2.54. A medida D2 é o valor médio deVi porn

instâncias de treino, conforme a equação 2.55

D2 =1 n n X i =1 Vi 2.55

• Densidade da classe em região de sobreposição (D3)

Para computar D3, encontramos osk vizinhos mais próximos de cada instância

i e verificamos se a maioria desses vizinhos pertence a classes diferentes da ins- tância em questão. Quando sim, consideramos que essa instância está em região de sobreposição e acrescentamos em D3. MOLLINEDA; SÁNCHEZ; SOTOCA

(2005) propôs D3 porque as regiões de sobreposição têm grande influência nos erros dos classificadores. Levando em conta tal importância, calculamos D3 com 3 e 5 vizinhos e normalizamos o valor pelo número de instâncias da base de dados para minimizar a dispersão dos valores na meta-base. Quando D3 é calculada com apenas um vizinho, produz os mesmos valores que N3, ou seja, indica a taxa de erro pelo método leaving-one-out.

No documento Uma abordagem para a escolha do melhor método de seleção de instâncias usando meta-aprendizagem (páginas 51-57)