Arvores de Hoeffding 41 ´ - VFDT Very Fast Decision Tree

3.2 VFDT Very Fast Decision Tree

3.2.3 Arvores de Hoeffding 41 ´

Proposta por Domingos e Hulten [4], a modelagem mostrada a seguir utiliza o limitante de Hoeffding na escolha dos testes. Em fun¸cão da aplica¸cão do limitante de Hoeffding parametrizado por δ, da-se o nome de árvores de Hoeffding para tais modelos.

Seja G a heur´ıstica a ser maximizada, sejam Xae Xb os atributos com os maiores valores para G. Seja ∆Gr = G(Xa) − G(Xb) a diferen¸ca nos valores das heur´ısticas dos atributos quando o algoritmo utiliza todo o conjunto de dados, e seja ∆G = G(Xa) − G(Xb) a diferen¸ca observada quando apenas n exemplos chegaram a um n´o.

Então, dado um valor para δ, através do limitante de Hoeffding sabemos que com probabilidade 1 − δ que ∆Gr ≥ ∆G − , onde é dado pela equa¸cão 3.4. Se ∆G > , então podemos dizer que com mesma probabilidade ∆Gr > 0, logo G(Xa) > G(Xb), i.e., com probabilidade 1 − δ, Xa é o melhor atributo.

Em termos práticos, para podermos afirmar se Xa é a melhor escolha, precisamos verificar se ∆G ≥ . Então, o que precisamos fazer é processar exemplos até acontecer que ∆G ≥ , para o valor escolhido de δ e o número corrente de exemplos numa folha.

Pode acontecer que o melhor atributo, Xa, seja muito melhor que Xb, porém realizar o split usando Xa pode não ser tão vantajoso. Para tratar tal situa¸cão, considera-se um atributo extra, X∅, que na verdade representa o valor da heur´ıstica considerando apenas os exemplos na folha. Desta forma pode-se tratar o caso de um split no melhor atributo não causar uma diferencia¸cão efetivamente boa.

Destacamos que o limitante de Hoeffding independe da distribui¸cão da variável considerada. Esta independência vem com o custo de ser necessário processar mais exemplos do que em métodos que usam limitantes espec´ıficos. Porém, dado o cenário das grandes massas de dados, isto não configura um problema. Além disso, para o ganho de informa¸cão temos 0 ≤ G ≤ log2(|C|), onde C é o conjunto das poss´ıveis classes, o que satisfaz a condi¸cão de a variável ter seu dom´ınio delimitado por uma faixa de tamanho R. É importante destacar que a distribui¸cão das observa¸cões deve ser a mesma, portanto é feita uma hipótese de distribui¸cão estacionária no fluxo.

Segue, então, o pseudo-código do algoritmo de indu¸cão das árvores de Hoeffding. O algoritmo de indu¸cão das árvores de Hoeffding come¸ca na raiz l1, único nó e folha da árvore sendo constru´ıda. Conforme dito, além dos poss´ıveis atributos X, considera-se um atributo extra, X∅. Ele, além de funcionar como um contador global na folha, representa o caso de não se fazer teste algum, linhas 1 e 2. Além disso, o valor da heur´ıstica de X∅ é justamente a entropia do conjunto.

Algoritmo 3.3 Algoritmo de indu¸c˜ao de uma ´arvore de Hoeffding, proposto em [4] Entradas:

S ´e uma sequˆencia de exemplos,

X é um conjunto de atributos discretos, G(.) é uma fun¸cão de avalia¸cão de split,

δ ´e um menos a probabilidade desejada de se escolher o atributo correto em um dado n´o.

Sa´ıda:

HT é uma árvore de decisão.

Procedimento HoeffdingTree (S, X, G, δ)

1: Seja HT uma ´arvore com uma ´unica folha l1 (a raiz).

2: Seja X1 = X ∪ {X∅}.

3: Seja G1(X∅) o valor de G obtido ao se predizer a classe mais frequente em S.

4: Para cada classe yk

5: Para cada valor xij de cada atributo Xi ∈ X

6: Fa¸ca nijk(l1) = 0.

7: Para cada exemplo (x, yk) em S

8: Des¸ca (x, y) at´e uma folha l usando HT .

9: Para cada xij em x tal que Xi ∈ Xl

10: Incremente nijk(l).

11: Rotule a folha l com a classe majorit´aria dos exemplos que chegaram nela at´e agora.

12: Se os exemplos que chegaram até agora em l não forem todos da mesma classe, então

13: Calcule Gl(Xi) para cada atributo Xi ∈ Xl - {X∅} usando os contadores nijk(l).

14: Fa¸ca Xa ser o atributo com o maior valor de Gl.

15: Fa¸ca Xb ser o atributo com o segundo maior valor de Gl.

16: Calcule usando a equa¸c˜ao 3.4.

17: Se Gl(Xa) - Gl(Xb) > e Xa 6= X∅, ent˜ao

18: Substitua l por um n´o interno cujo teste ´e o atributo Xa (ou seja, fa¸ca o split com o atributo Xa).

19: Para cada ramo do split

20: Adicione uma nova folha lm, e fa¸ca Xm = X - {Xa}.

21: Fa¸ca Gm(X∅) ser o valor de G obtido ao se predizer a classe mais frequente em lm.

22: Para cada classe yk e cada valor xij de cada atributo Xi ∈ Xm - {X∅}

23: Fa¸ca nijk(lm) = 0.

j-ésima poss´ıvel valora¸cão do atributo i e k = classe, são inicializados com valor 0, linhas 5 e 6.

Após tal inicializa¸cão, os exemplos de S come¸cam a ser passados pela árvore em constru¸cão. Cada exemplo (x, yk) ∈ S a atravessa até chegar em uma folha l adequada, linhas 7 e 8.

Uma vez que o exemplo (x, yk) chegue na folha l, cada contador deve ser atu- alizado, de acordo com as valora¸cões dos atributos de x, linhas 9 e 10. l é, então, atualizada para predizer a classe que mais se repetiu no exemplos até então passados, linha 11.

Caso todos os exemplos perten¸cam à mesma classe, então l deve aguardar que mais exemplos cheguem, pois nenhum split é poss´ıvel. Caso contrário, a heur´ıstica deve ser computada para cada atributo, a fim de determinar os dois melhores, linhas 12 a 15.

Determinados os dois melhores atributos, candidatos a teste no split, computa-se o limitante de Hoeffding. Verifica-se, então, se a diferen¸ca entre ambos já é suficiente, para que seja decidido se podemos realizar o split usando o melhor atributo, linhas 16 e 17.

Caso o limitante garanta que atributo Xaé estatisticamente melhor, então l, que era uma folha, torna-se um nó interno, cujo teste é o próprio Xa. Adicionalmente, um ramo descendente é criado para cada poss´ıvel valor no dom´ınio de Xa, linhas 18 a 20. Convém observar que os antigos contadores de l são descartados neste processo, portanto qualquer resqu´ıcio de informa¸cão sobre os exemplos é perdida.

Para cada novo filho lm, analogamente separa-se um atributo X∅. Os contadores dos filhos s˜ao analogamente inciados com valor 0, linhas 21 a 23.

Então, o processo retorna ao ciclo principal, descrito na linha 7. Desta forma, mais um exemplo será conduzido até uma folha, a qual avaliará a pertinência de um split. Ao esgotarem-se os exemplos o processo termina.

No documento Publicações do PESC HTILDE-RT: Um Algoritmo de Aprendizado de Árvores de Regressão de Lógica de Primeira Ordem para Fluxos de Dados Relacionais (páginas 55-58)