Acelerando as Consultas com M-trees - O Algoritmo k-Vizinhos mais Pr´ oximos

5.5 Imputa¸c˜ao com o Algoritmo k-Vizinhos mais Pr´ oximos

5.5.1 O Algoritmo k-Vizinhos mais Pr´ oximos

5.5.1.4 Acelerando as Consultas com M-trees

M-trees (Ciaccia, Patella & Zezula,1997) são estruturas de indexa¸cão capazes de suportar a execu¸cão de consultas de similaridades. Existem dois tipos básicos de consultas de similaridade:

Consulta por intervalo

Dada uma distância máxima de busca e um exemplo de consulta, esta consulta de similaridade retorna todos os exemplos do conjunto de treinamento que estão a uma distância menor ou igual à distância máxima de busca do exemplo de consulta; Consulta k-vizinhos mais próximos

Dado um exemplo de consulta e um número k, essa consulta de similaridade retorna os k exemplos do conjunto de treinamento mais próximos do exemplo de consulta. Uma estrutura M-tree é um árvore métrica (Uhlmann, 1991). Árvores métricas somente consideram as distâncias relativas entre os exemplos (ao invés das posi¸cões ab- solutas desses exemplos em um espa¸co multi-dimensional) para organizar e particionar o espa¸co métrico. Em um espa¸co métrico, a proximidade entre exemplos é definida por uma fun¸cão de distância que satisfaz os postulados de não negatividade, simetria e desigualdade triangular.

Uma M-tree é uma árvore de crescimento “bottom-up” com nós de tamanho fixo, os quais correspondem a regiões restritas do espa¸co métrico. Os nós folhas armazenam todos os objetos indexados, isto é, todos os exemplos, e os nós internos armazenam os chamados objetos de roteamento. Um objeto de roteamento é uma cópia de um exemplo do conjunto de dados para o qual é atribu´ıdo um papel de roteamento.

Para cada objeto de roteamento Or existe um ponteiro associado, denotado por

ptr(T (Or)), o qual referencia a raiz de uma sub-´arvore, T (Or), chamada de ´arvore de

cobertura de Or. Todos os objetos na árvore de cobertura de Or estão a uma distância

m´axima r(Or) do objeto de roteamento Or, sendo r(Or) > 0. r(Or) ´e chamado de raio

de cobertura de Or. Cada entrada de um n´o interno de umz M-tree ´e composto por uma

tupla

(Or, ptr(T (Or)), r(Or)).

Uma entrada em um nó folha de uma M-tree é mais simples do que uma entrada de um objeto de roteamento. Isso ocorre pois um objeto folha Ol não possui sub-árvore

associada e, conseq¨uentemente, n˜ao possui raio de cobertura. Ciaccia, Patella & Zezula

(1997) provˆe informa¸c˜oes adicionais sobre a estrutura de uma M-tree e algoritmos deta- lhados para realizar consultas de similaridade e construir uma M-tree.

Na Figura 5.2 na página oposta é apresentado um exemplo de uma M-tree com dois nós de roteamento e três nós folhas, e na Figura 5.3 na página 108 é mostrado uma representa¸cão gráfica para a estrutura dessa M-tree.

Como mencionado previamente, uma M-tree cresce de forma “bottom-up”. Quando um novo objeto é inserido, a M-tree tenta localizar o nó folha mais adequado para acomodá-lo. Se o nó folha está cheio, então um novo nó folha é alocado. Os objetos do nó folha cheio são particionados entre esse nó e o novo nó folha, e dois objetos são promovidos para o nó pai. Se o nó pai está cheio, então um algoritmo similar é aplicado, isto é, um novo nó é alocado no mesmo n´ıvel que o nó cheio, os objetos são particionados, e dois objetos são promovidos para o nó pai. Quando o nó raiz é dividido, um novo nó raiz é criado e a M-tree cresce em um n´ıvel.

As implementa¸cões dos métodos responsáveis por promover dois objetos para o nó pai, e por particionar os objetos restantes entre os dois nós filhos definem o que é chamado de pol´ıtica de divisão. Existem diversas alternativas para implementar esses dois métodos. Na implementa¸cão utilizada neste trabalho, foi escolhido utilizar um algoritmo baseado

Seção 5.6: Como os Sistemas de Aprendizado C4.5 e CN2 Tratam Valores Desconhecidos 107 Or Ol Ol Ol r(O )r A a B b C A B E D H G F ptr(T(O ))r Or r(O )r C c D d ptr(T(O ))r

Figura 5.2: Exemplo de uma estrutura M-tree.

em Minimal Spanning Trees — MST, como proposto por Jr., Traina, Seeger & Faloutsos

(2000) para ser utilizado em uma variante das M-trees conhecida como Slim-trees. Uma pol´ıtica de divisão ideal deve promover e particionar os objetos de forma que duas regiões obtidas tenham m´ınimo volume e m´ınima interseçcão. Esses critérios têm como objetivo melhorar a efetividade dos algoritmos de busca, uma vez que regiões com pouco volume levam a árvores bem agrupadas e reduzem a quantidade de espa¸co sem nenhum objeto presente, e pouca (possivelmente nenhuma) interseçcão entre regiões reduz o número de caminhos que precisam ser percorridos para responder a uma consulta.

5.6 Como os Sistemas de Aprendizado C4.5 e CN2

Tratam Valores Desconhecidos

Os sistemas de aprendizado C4.5 (Quinlan, 1988) e CN2 (Clark & Boswell, 1991) são dois algoritmos de AM simbólicos, amplamente conhecidos pela comunidade, que induzem conceitos proposicionais: árvores de decisão e conjuntos de regras, respectivamente. Esses algoritmos foram selecionados neste trabalho por serem considerados dois dos melhores algoritmos de aprendizado com essas caracter´ısticas.

O sistema C4.5 possui um efetivo algoritmo interno para tratar valores desconhecidos, uma vez que um recente estudo comparativo com outros m´etodos simples para

A a C c D d E F H B b G

Figura 5.3: Representa¸c˜ao gr´afica da M-tree apresentada na Figura5.2.

tratamento de valores desconhecidos, concluiu que o C4.5 era um dos melhores m´etodos (Grzymala-Busse & Hu, 2000).

O sistema C4.5 utiliza uma abordagem probabil´ıstica para tratar valores desconhecidos. Os valores desconhecidos podem estar presentes em qualquer atributo, exceto no atributo classe, tanto no conjunto de treinamento quanto no conjunto de teste.

Dado um conjunto de exemplos de treinamento, T , o sistema C4.5 encontra um teste apropriado, com base em um ´unico atributo, que possua um ou mais resultados mutuamente exclusivos R1, R2, . . . Rs. T ´e particionado em sub-conjuntos T1, T2, . . . Ts,

tal que Ti cont´em todos os exemplos em T que satisfazem o teste com resultado Ri. O

mesmo algoritmo é aplicado para cada sub-conjunto Ti, i = 1 . . . s, até que um critério de

parada seja satisfeito.

O C4.5 utiliza a medida information gain ratio para escolher um bom teste para particionar os exemplos. Se existem valores desconhecidos em um atributo A, ent˜ao o sistema C4.5 utiliza o sub-conjunto com todos os valores conhecidos de A para calcular o ganho de informa¸c˜ao.

Uma vez que um teste com base em um atributo A ´e escolhido, o sistema C4.5 utiliza uma abordagem probabil´ıstica para particionar os exemplos com valores desconhecidos no atributo A. Quando um exemplo em T com valor conhecido ´e associado a um sub-conjunto Ti, isso pode ser entendido como a probabilidade desse exemplo pertencer a Ti ser 1, e para

Seção 5.6: Como os Sistemas de Aprendizado C4.5 e CN2 Tratam Valores Desconhecidos 109

somente uma declara¸c˜ao probabil´ıstica mais fraca pode ser feita. O C4.5 associa a cada exemplo em Ti um peso representando a probabilidade desse exemplo pertencer a Ti. O

peso para a parti¸c˜ao Ti´e a probabilidade desse exemplo pertencer a Ti. Essa probabilidade

´e estimada por meio da soma dos pesos dos exemplos em T que satisfazem o teste com resultado Ri, dividido pela soma de pesos dos casos em T com valores conhecidos para o

atributo A.

O sistema CN2 utiliza uma abordagem similar `a abordagem adotada pelo sistema C4.5 para tratar valores desconhecidos. O sistema CN2 induz regras na forma

if <condi¸c˜oes> then <classe = Ci> [#C1, #C2, . . . , #CN cl]

na qual <condi¸cões> é uma conjun¸cão de condi¸cões que envolvem os atributos do conjunto de dados, e <classe = Ci> é a predi¸cão realizada pela regra. O número entre colchetes,

#Cj, indica o n´umero de exemplos do conjunto de treinamento cobertos pela regra para

cada classe Cj.

Esses valores podem ser utilizados pelo CN2 para realizar uma classifica¸cão probabil´ıstica, caso o usuário deseje. Nesse caso, o CN2 responde com as probabilidades de um novo exemplo pertencer a cada uma das classes. Também, esses valores são utilizados pelo algoritmo que avalia regras não ordenadas para verificar qual é a classe mais provável com base em todas as regras que foram disparadas para um novo exemplo. Se mais de uma classe é predita pelas regras disparadas, então os valores #Cj são somados separadamente

para cada classe utilizando somente as regras disparadas. O CN2 responde com a classe mais prov´avel, isto ´e, aquela que possui o maior valor total de exemplos cobertos pelo conjunto de todas as regras disparadas.

No caso da indu¸cão de regras não ordenadas pelo CN2, se o conjunto de treinamento possui exemplos com valores desconhecidos, então o indutor, após a indu¸cão do conjunto de regras, realiza uma segunda passagem sobre o conjunto de regras atualizando os valores #Cj. Para cada exemplo com valores desconhecidos, o CN2 verifica quais regras

cobrem esse exemplo. Para que uma regra cubra um exemplo com valores desconhecidos basta que o exemplo com valores desconhecidos satisfa¸ca as condi¸cões da regra e, caso a regra possua condi¸cões envolvendo atributos cujos valores não sejam conhecidos para esse exemplo, então essas condi¸cões são automaticamente satisfeitas. O exemplo com valores desconhecidos é, então dividido em fra¸cões iguais, as quais são contabilizadas nos valores #Cj. Por exemplo, se três regras são disparadas para um determinado exemplo com

valor #Cj, o qual depende da classe a qual o exemplo pertence.

No documento Pré-processamento de dados em aprendizado de máquina supervisionado (páginas 133-138)