• Nenhum resultado encontrado

MINIMUM-SPANNING TREE CLUSTER DECREASING DISAGREE EDGES (MST-

A t´ecnica Minimum-Spanning Tree Cluster Decreasing Disagree Edges (MST-CLU- DDE) est´a inserida no grupo de estrat´egias de aprendizado ativo que realiza pr´e-processamento das amostras, organizando-nas para posterior apresentac¸˜ao ao classificador a cada iterac¸˜ao do aprendizado. Portanto, essa t´ecnica tamb´em ´e adequada para aplicac¸˜oes que requerem tempo de resposta interativo, pois ao contr´ario das t´ecnicas cl´assicas (Entropy, Least Confidence e Margin Sampling), evita que todo conjunto de dados seja reprocessado a cada iterac¸˜ao do aprendizado.

A estrat´egia MST-CLU-DDE define duas macro etapas de organizac¸˜ao e de selec¸˜ao dos dados. A etapa de organizac¸˜ao da MST-CLU-DDE ´e iniciada a partir do agrupamento do conjunto de dados n˜ao rotulado. A Figura 25 ilustra um exemplo da etapa de organizac¸˜ao da t´ecnica MST-CLU-DDE considerando 2 clusters (A e B). O n´umero de clusters e a t´ecnica uti- lizada para realizar o agrupamento n˜ao s˜ao fixos e podem ser parametrizados. No entanto, para otimizar a diversidade das amostras, ´e recomendado que o n´umero de clusters seja maior ou igual ao n´umero de classes distintas presentes no conjunto avaliado. Para cada cluster, s˜ao obti- das e separadas as amostras ra´ızes. Em seguida, tamb´em para cada cluster, sem a presenc¸a das amostras ra´ızes, aplica-se o algoritmo da Minimum Spanning Tree (MST) seguido da ordenac¸˜ao decrescente (de pesos das arestas) das amostras. Ent˜ao, s˜ao obtidas listas ordenadas para cada cluster. Na sequˆencia, uma lista final ´e constru´ıda com os elementos obtidos de forma: sequen- cial, intercalada e em pares a partir de cada lista ordenada anteriormente.

A etapa de selec¸˜ao da MST-CLU-DDE inicia com o conjunto de amostras ra´ızes e a lista final, obtidos como sa´ıda da etapa de organizac¸˜ao. A primeira instˆancia do classificador ´e obtida com o treinamento a partir do conjunto de amostras ra´ızes. Nas iterac¸˜oes seguintes, a

Figura 25: Etapa de organizac¸˜ao da estrat´egia de aprendizado ativo Minimum-Spanning Tree Clus- ter Decreasing Disagree Edges (MST-CLU-DDE).

instˆancia atual do classificador ser´a consultada para rotular uma aresta (par de amostras) por vez e auxiliar no processo de selec¸˜ao. Se as amostras apresentam r´otulos distintos, bem como ainda n˜ao foram selecionadas e o limite de amostras a cada iterac¸˜ao ainda n˜ao foi atingido, estas ser˜ao selecionadas e exibidas ao especialista para anotac¸˜ao. Esse comportamento se repete, avaliando cada aresta da lista final ordenada, at´e que o limite de amostras selecionadas a cada iterac¸˜ao seja alcanc¸ado. Caso nenhum par (aresta) de amostras restante na lista satisfac¸a os crit´erios para selec¸˜ao, o primeiro par de amostras remanescente ´e selecionado.

A cada iterac¸˜ao do aprendizado, o classificador aprende e participa do seu processo de aprendizado, classificando e auxiliando na selec¸˜ao de amostras mais informativas. Diferente- mente de abordagens cl´assicas, MST-CLU-DDE n˜ao requer a classificac¸˜ao de todas as amostras a cada iterac¸˜ao do aprendizado. Nesse caso, para selec¸˜ao das amostras mais informativas, um pequeno conjunto de amostras ´e obtido e classificado.

MST-CLU-DDE explora diferentes crit´erios de selec¸˜ao. Crit´erios com base em repre- sentatividade ao realizar o agrupamento das amostras e obter as ra´ızes (amostras representa- tivas) dos grupos. Crit´erios de diversidade ao obter listas diversas compostas por amostras correspondentes a cada grupo. Crit´erios de incerteza ao priorizar amostras oriundas das arestas (m´aximas das m´ınimas) das MSTs, ou seja, amostras que, embora sejam as mais pr´oximas, pos- sivelmente sejam de classes distintas. Al´em disso, no MST-CLU-DDE, o crit´erio de incerteza ´e fortemente considerado ao explorar o classificador a cada iterac¸˜ao do processo de aprendizado, auxiliando e selecionando as amostras mais incertas (rotuladas em classes distintas).

O Algoritmo 1 define a etapa de organizac¸˜ao da estrat´egia MST-CLU-DDE que inicia com a divis˜ao do conjunto de dadosZ em Z2eZ3referentes aos conjuntos de aprendizado e

de teste. Como pr´oximo passo, realiza-se o agrupamento das amostras do conjunto de apren- dizado Z2 (Linha 2) e obt´em-se as ra´ızes R dos clusters Ci, i = 1, 2, 3...k (Linha 3). Ent˜ao,

para cada clusterCi (Linha 4), ´e calculada uma Minimum Spanning Tree (MST) considerando

amostras do respectivo cluster (Linha 5). Em seguida, as arestas da MST s˜ao ordenadas de forma decrescente (Linha 5) para cada clusterCi, gerando as listas ordenadas Li. A etapa de

organizac¸˜ao ´e finalizada com o retorno de uma lista organizadaF (Linha 13) constru´ıda a partir das amostras (arestas) intercaladas de cada listaLi(Linhas 8-12).

Algoritmo 1: Estrat´egia de Organizac¸˜ao - MST-CLU-DDE Entrada: conjunto de aprendizado n˜ao anotadoZ2.

Sa´ıda: conjunto de aprendizado organizadoF e conjunto de ra´ızes R.

Dados: conjuntosCicom amostras de cada cluster i = 1, 2, ..., k e o n´umero de

clusters k. 1 in´ıcio

2 Ci, i = 1, 2, ..., k ← computa clusters deZ2; 3 R ← ra´ızes dos clusters de Z2;

4 para cadaCi, i = 1, 2, ..., k fac¸a 5 Li← MST(Ci);

6 Li← Sort(Li); 7 fim

8 repita

9 para cadaLi, i = 1, 2, ...k fac¸a 10 F ← F ∪ NextPair(Li);

11 fim

12 at´eLiainda possua amostras; 13 retornaF e R

14 fim

Para casos em que os conjuntos considerados s˜ao grandes ou apresentam dimens˜oes elevadas para descric¸˜ao das amostras, ´e poss´ıvel otimizar o tempo de treinamento paralelizando, na etapa de organizac¸˜ao, as operac¸˜oes de c´alculo e ordenac¸˜ao da MST (Linhas 4-7) para cada cluster.

O Algoritmo 2 define a etapa de selec¸˜ao da estrat´egia MST-CLU-DDE. Na primeira iterac¸˜ao s˜ao selecionadas as amostras ra´ızes dos clusters (Linha 2). Na sequˆencia, o especi- alista anota as amostras ra´ızes (Linha 3), gerando a primeira instˆancia do classificador. Nas iterac¸˜oes seguintes, de forma sequencial e em pares, amostras da lista previamente organizada s˜ao avaliadas. Se os pares de amostras s˜ao rotulados em classes distintas, de acordo com o r´otulo fornecido pela instˆancia atual do classificador, estes ser˜ao selecionados. Se tal crit´erio

1 in´ıcio

2 Z1←R;

3 Especialista anota as amostras emZ1; 4 repita

5 (Re)-treinar o classificador comZ1;

6 Z10← novas amostras classificadas em classes distintas seguindo a ordem da lista pr´e-organizadaF ;

7 Especialista corrige os r´otulos das amostras emZ10; 8 Z1←Z1∪Z10;

9 at´e que especialista satisfeito; 10 fim

Documentos relacionados