Processos a revisar - Uma revisão para o M’

5 Uma revisão para o M’

5.1 Processos a revisar

partir da interface (a implementação realizada permitiu que esta fração fosse controlada).

O controle pela quantidade de casos é razoável. De fato, existe um limite a partir do qual a divisão não faz mais sentido, e não é viável chegar até a unidade. Qual deve ser este limite, se 4 é um valor pequeno ou grande, é uma questão a ser investigada. O sistema original permite o controle deste limite, de maneira que não foi necessário alterar esta característica da implementação. A investigação pôde ser feita através de experimentos.

Entretanto, o controle pela dispersão da variável de resposta não parece uma idéia suficientemente boa. Existem dois problemas potenciais em definir um limite para a dispersão como critério de parada. Por um lado, é possível que um subconjunto de dados que apresente uma dispersão da variável de resposta maior do que 5% da dispersão inicial possa ser linearmente modelado com os atributos disponíveis. Neste caso, esta heurística faria divisões desnecessárias. Por outro lado, fatalmente haverá subconjuntos de dados com dispersão menor ou igual a 5% da dispersão inicial que não poderão ser linearmente modelados com qualidade.

Deve-se é estabelecer como critério de parada no crescimento da árvore uma possível medida de qualidade do modelo de regressão que será estabelecido. Este critério pode ser um teste de validação do modelo baseado na Análise de Variância que a regressão estabelece (veja Seção 2.2.1).

Este teste pode ser usado como critério de parada na etapa de crescimento da árvore. O nível de confiança a ser utilizado precisa ser testado. Também pode-se estudar o uso concomitante deste critério com os outros, já estabelecidos pelo algoritmo.

5.1.2 Escolha do teste de divisão

O critério de divisão dos atributos utiliza a função de redução de desvio padrão, que precisa ser maximizada. De acordo com a Seção 3.2.2 (busca do melhor teste de divisão), a expressão que representa a função objetivo é:

( )

⁻

∑ ( )

i i sd t n t n

SDR , (44)

onde sd() representa a raiz quinta da variância da variável de resposta do conjunto avaliado, ni é a cardinalidade do subconjunto i e n é a cardinalidade do superconjunto, que é igual a soma das cardinalidades dos subconjuntos, que são sempre dois.

Estão descritos alguns estudos em Wang & Witten (1997) que concluem que o uso do desvio padrão e da variância como função objetiva no critério de divisão não apresentam diferenças significativas. Entretanto estes resultados estão apenas mencionados, e não descritos.

A variância e o desvio padrão apresentam forte correlação positiva, o que indica que as funções baseadas nestas estatísticas terão comportamento semelhante.

Entretanto, dada a natureza quadrática da variância, é esperado que a diferença entre o uso destas duas estatísticas é muito sutil, sendo percebida para determinados valores extremos, ou muito grandes, ou muito próximos de 1 e de 0. Os experimentos para provar a indiferença no uso das estatísticas precisam ser controlados, estudando conjunto diferentes de casos que apresentem variâncias e desvios padrões da variável de resposta em diferentes faixas de valores.

Deseja-se investigar também porque foi feito o uso de uma medida de dispersão tão inusitada quanto a raiz quinta da variância. É necessário comparar os resultados obtidos quando forem usadas medidas de dispersão conhecidas – desvio padrão e variância, já que podem apresentar resultados diferentes. Além disso, uma

importante medida de qualidade dos modelos de regressão é uma relação entre o desvio padrão e a média da variável de resposta, pois dá uma estimativa do erro padrão.

Finalmente, um detalhe técnico do algoritmo chamou-nos a atenção. O uso de uma medida de off-set para o procedimento de busca do ponto de divisão (veja Seção 3.2.2). Esta é uma heurística em prol da escalabilidade e velocidade do algoritmo, e dentro do cenário de Data Mining preocupações como esta são fundamentais. É óbvio que há um preço a ser pago em função deste ganho computacional. Este preço está relacionado com a possibilidade de que o ponto ótimo de divisão tenha sido descartado – caso estivesse no início ou no fim do conjunto. Considerando-se a possibilidade de conjuntos viesados, esta possibilidade fica cada vez mais provável.

Assim, a medida de off-set deveria ser acompanhada de algum outro critério em função do tamanho do conjunto que se está examinando. Conjuntos pequenos podem ser vasculhados em sua totalidade, sem perda de performance, e assim não se correria o risco de estar lidando com conjuntos viesados. O que justifica a existência deste risco é a presença de conjuntos maiores, que sejam problema à escalabilidade e velocidade do algoritmo.

5.1.3 Fator multiplicativo na função de erro

O fator multiplicativo que está descrito na Equação 41 é utilizado com o princípio de compensar o erro em função da quantidade de atributos, de maneira que modelos de regressão com menos atributos possam, dependendo do nível de contribuição dos atributos removidos, apresentar estimativa de erro menor. Na teoria de regressão, o desvio da variável dependente é comparado com a soma dos resíduos quadráticos do modelo através da estatística R². Existe uma estatística chamada de R² ajustado que faz esta compensação através dos graus de liberdade do desvio da variável dependente (n – 1) com o desvio do modelo (n – v –1), e o fator multiplicativo ficaria:

1 1

−

− v n

n (45)

que também serve como compensador diante da redução da quantidade de atributos no modelo de regressão (valor v).

O uso deste fator, se não reduzir a eficácia do algoritmo de indução e/ou a qualidade do modelo final, poderia ser justificado pela padronização de resultados, que facilitaria a comparação entre Árvores de Modelos e Modelos de Regressão, pois foi justamente com este intuito que o fator foi criado (Cf. Mendenhall & Sincich, 1996).

5.1.4 Pré-seleção dos atributos

De acordo com ambas as descrições feitas do M5’ (veja Capítulo 3), os modelos de regressão que são construídos nos nós são estimados usando como variáveis independentes apenas os atributos que foram utilizados para realizar testes de divisão de registros em algum nó das sub-árvores descendentes.

Esta heurística parece estar fundamentada no fato que os atributos que são utilizados como teste já foram selecionados pelo algoritmo como os mais significativos, ou seja, aqueles que, segundo a função objetiva, dividem melhor o conjunto de treinamento. Convém observar entretanto que a equação da função objetivo está relacionada com a redução da variação (no caso a raiz quinta da variância) da variável de resposta. Quando um modelo de regressão está sendo estimado, o objetivo é explicar o comportamento da variável dependente. Não é óbvio que apenas os atributos que maximizaram a função de redução de desvio padrão em algum nível necessariamente são os únicos que apresentam poder explicativo da variável dependente, que é, em última análise, a lógica da heurística.

Se a heurística estiver correta, ainda que apenas para uma parte significativa dos casos, então usá-la pode agilizar sensivelmente o algoritmo.

Entretanto, se a heurística não se aplicar tão freqüentemente, o seu uso pode significar uma grande perda de performance, pois os modelos de regressão estimados poderiam ter uma precisão significativamente maior, melhorando a precisão do modelo global (árvore).

Outros dois conjuntos de atributos podem ser utilizados: 1) as variáveis que foram utilizadas em testes abaixo e acima do nó onde está sendo estimado o modelo de regressão – usando a mesma lógica, mas ampliando a heurística; e 2) todas as variáveis (atributos) disponíveis no conjunto de casos de treinamento. O primeiro conjunto de variáveis foi sugerido por que os testes feitos em níveis superiores da árvore também podem ser importantes para a descrição dos casos que estão sendo usados na estimação do modelo. O segundo conjunto pode ser utilizado caso nenhuma destas duas heurísticas apresentasse um resultado satisfatório.

Convém lembrar que os modelos serão simplificados, ou seja, atributos podem ser removidos depois que os modelos de regressão são estimados. Com isso, a complexidade não é um problema, visto que só será mantida uma carga muito grande de atributos se estes se fizerem interessante. O que pode vir a ser uma perda de qualidade é o custo computacional, que será ampliado. Entretanto, não se pode avaliar de antemão a magnitude deste aumento de custo, sendo necessária uma bateria de exames para medir a relação entre estes três fatores.

5.1.5 Simplificação dos modelos

O uso de algum método de simplificação dos modelos está diretamente relacionado com o ganho no critério de interpretabilidade do modelo. Estes métodos podem ser particularmente importantes quando as heurísticas que pré-selecionam os

atributos a serem considerados como variáveis independentes nos modelos de regressão forem comprovadamente falhas.

A Teoria de Regressão desenvolvida baseada no Método dos Mínimos Quadrados apresenta algumas maneiras de reduzir a quantidade de variáveis independentes, de maneira controlada, mantendo a significância do modelo e melhorando os níveis de complexidade e interpretabilidade.

Um possível método é baseado nos coeficientes de determinação parcial.

Quando o modelo de regressão é estimado, é possível saber a carga de contribuição que cada variável independente possui na previsão da variável dependente. O custo computacional de calcular estes coeficientes é relativamente alto – exigiria a matriz de correlação das variáveis, mas também é muito alto o custo computacional do processo de simplificação proposto originalmente (tanto na descrição pública quanto na descrição técnica), que inclui a comparação do modelo completo com os modelos gerados a partir da remoção de cada variável, numa busca exaustiva.

Uma outra alternativa para o processo de seleção de variáveis é o uso método de seleção de variáveis, como os métodos forward, backward e stepwise (Cf.

Neter, 1996, Draper, 1998 e SPSS, 1999). Estes métodos estão baseados em testes de comparação de modelos encaixados, ao invés de comparação do erro do modelo.

Apresentam a grande vantagem de permitir o uso de níveis de significância, que podem permitir uma maior ou menor tolerância no momento da escolha dos modelos. Além disso, o método backward é bem rápido, tendo seu custo computacional no pior caso igual ao custo do melhor caso dos processos de busca exaustiva executados pelo M5 e M5’, que seria O(k), onde k é a quantidade de variáveis independentes.

Como foi observado na descrição técnica do algoritmo (Seção 3.2.3), o uso de algum método de seleção de variáveis torna desnecessário o uso da estimativa de

erro ponderado pelo fator descrito anteriormente, o que anulou a discussão sobre o fator de ponderação (veja a Seção 5.1.3).

5.1.6 Suavização dos coeficientes

O último processo a ser considerado é a suavização, descrita na Seção 2.3.2, que pode ser interpretado como uma média ponderada de várias previsões para o mesmo caso.

Cada nó da árvore apresenta um teste sobre os valores dos atributos do caso, e estes testes determinam o caminho que o caso fará até uma folha da árvore. Ao longo deste caminho, cada nó, inclusive a folha, possui um modelo de regressão. As previsões de cada um destes modelos são ponderadas, de maneira que casos semelhantes (registros próximos) possuam valores de previsão não muito diferentes.

De acordo com a Equação 30 os pesos de ponderação são o tamanho do conjunto de treinamento que alcança o nó filho para a previsão feita por ele e o valor de k para a previsão feita pelo modelo de regressão no nó pai. Se o conjunto de treinamento do nó filho for menor que k, então a equação de regressão terá peso maior que a previsão do filho. E se o conjunto de treinamento do nó filho for maior do que k, então a previsão do filho será mais importante. O valor de k funciona como um limite que determina a quantidade máxima de casos que torna o modelo de regressão de um nó mais relevante do que a previsão do seu filho.

Fixado um valor para k, quanto mais distante da folha, maior a relevância da previsão vinda do filho, visto que a quantidade de casos que alcança o filho cresce.

Dado que o valor de k é proposto ser fixo em 15, tem-se que os únicos modelos de regressão mais relevantes do que a previsão do filho são os que estão em nós cujo filho foi treinado com menos de 15 elementos – provavelmente os dois ou três níveis mais próximos da folha.

A relevância do modelo de regressão deve ser função do grau de liberdade da regressão, que inclui a quantidade de casos e também a quantidade de parâmetros estimados. Além disso, o fato de que o valor de k vai determinar o peso dos modelos de regressão no somatório total reforça a idéia que este valor deve girar em função da quantidade de observações do conjunto de treinamento total. Definitivamente, fixar o valor k em um número como 15 é equivocado.

Convém observar também que Árvores de Modelos perdem bastante de sua característica de alta interpretabilidade. Modelos (de previsão ou de classificação) baseados em árvore são considerados altamente interpretáveis por que permitem a percepção visual imediata de quais atributos são relevantes para a previsão do caso, que são aqueles que servem como testes em nós intermediários. No caso das Árvores de Modelos, atributos que nem sequer foram utilizados como teste podem ser fundamentais para a previsão de casos, se estiverem relacionados com a variável de previsão através de alguma equação de regressão (considerando a terceira heurística de pré-seleção de atributos descritos na Seção 5.1.4).

Observe que o procedimento de suavização reduz ainda mais a interpretabilidade do modelo de previsão, pois o valor final da previsão depende de todos os modelos que estão no caminho desde a raiz da árvore até a folha onde o caso foi previsto. E não é sempre verdade que os modelos mais inferiores terão maior importância que os modelos superiores, pois até mesmo a equação de regressão na raiz da árvore pode ter o peso maior na média ponderada, caso o conjunto de treinamento seja muito pequeno ou então desbalanceado. Nestes casos perde-se a certeza de relevância dos atributos na previsão do caso, pois os modelos localizados em nós internos da árvore podem apresentar outros atributos, que não os utilizados em testes.

No documento Índice de Tabelas (páginas 121-130)