III. 6 – Implementação em RapidMiner
III.6.2. Desenho do processo em RapidMiner
Tal como referido no tutorial13, o desenho do processo pode ser produzido a partir da combinação de um grande número de operadores.
O software permite a representação do processo num sistema em árvore de operadores ou por um ambiente gráfico de fluxo de processo (work flow). Em ambos os casos, a estrutura do processo é ainda descrita internamente em XML, o que permite adicionalmente o desenvolvimento do processo nesta linguagem.
Apresenta ainda duas importantes funcionalidades: a possibilidade de definir pontos de interrupção do processo que permitem inspeccionar praticamente todos os resultados intermédios e a capacidade de combinar e agrupar operadores em blocos autónomos, disponíveis para processos posteriores.
A Figura 8 apresenta um processo implementado em ambiente RapidMiner destacando-se cinco grupos de blocos de operadores:
bloco de pré processamento: inclui várias tarefas, englobando questões como a integração, a limpeza e a transformação de dados.
bloco de selecção de atributos: inclui os métodos de selecção de atributos (ex: selecção por filtro)
13
Disponível em http://sourceforge.net/projects/rapidminer/files/1.%20RapidMiner/5.0/rapidminer-5.0- manual-english_v1.0.pdf/download
bloco de modelação: onde são inseridos os algoritmos de aprendizagem que inclui os esquemas de selecção de atributos embutidos (quando necessário).
bloco de avaliação: onde são inseridos o esquema de validação (ex:
HoldOut) e os operadores que permitem determinar as medidas de
avaliação.
Figura 8 Exemplo da implementação de um processo em Rapid Miner. Neste processo, o pré-processamento envolve 5 tarefas, destacando-se a remoção de objectos duplicados, a normalização das variáveis e a remoção de variáveis altamente correlacionadas); a selecção é constituída por um algoritmo de busca; a aprendizagem é realizada a partir do operador de regressão linear; para a avaliação temos um esquema de validação do tipo hold-out, implementado pelo operador split data e dois operadores que permitem em conjunto determinar medidas de avaliação.
Como se descreveu anteriormente, o processo é por natureza iterativo, levando a sucessivas repetições que permitam aprimorar o resultado final.
A problemática associada à identificação de determinantes do preço da habitação aponta para a necessidade de focar o processo na selecção de variáveis que representem atributos associáveis à habitação. Estes aspectos permitiram o desenho inicial do processo, o que envolve:
1. Fase de recolha de dados
A recolha de dados envolve todos os procedimentos que permitem obter as bases de dados necessárias para implementar um processo que permita responder aos objectivos colocados. No presente estudo utilizaram-se bases de dados pré-existentes, disponibilizadas com elevados graus de consistência determinados pela intervenção prévia dos detentores dos dados.
2. Fase de pré-processamento
Nesta fase a implementação recorre às tarefas de integração, limpeza, transformação e selecção:
Recorreu-se à tarefa de integração para responder à necessidade de juntar bases de dados provenientes de diferentes fontes e ainda para formar uma base de dados global a partir de tarefas que ocorram em paralelo. O operador comum utilizado é o <JOIN>.
Para a limpeza é utilizado o operador <REMOVE DUPLICATES> de forma a evitar a existência de objectos repetidos nos dados.
• Sendo que a regressão linear impõe a inexistência de correlações entre as variáveis independentes, utiliza-se o operador <REMOVE CORRELATED ATRIBUTES> para garantir a correcta execução da fase de modelação.
• De salientar que o algoritmo de modelação inclui um mecanismo próprio embutido de eliminar as variáveis colineares (ou seja, altamente correlacionadas), que também se encontra activa.
A tarefa de transformação dos atributos engloba a implementação do operador <NORMALIZE> que efectua uma normalização das variáveis independentes reais e ordinais, recorrendo ao método Z – transformation (transformação da distribuição do valor dos dados numa distribuição de média zero e desvio padrão 1). Esta transformação permite eliminar as interacções associadas à escala e tipo de medida de cada uma das variáveis independentes definidas para o processo de modelação.
Para a tarefa de selecção de atributos são implementadas as 4 diferentes abordagens já descritas anteriormente, resultando num total de 8 técnicas diferentes:
i) Redução da dimensionalidade: utilização de operador <PCA> que implementa a análise de componentes principais; seleccionando as
componentes mais relevantes, determina-se um modelo de regressão com a utilização dos loadings como os novos valores associados a cada objecto ii) Abordagem híbrida: redução de dimensionalidade combinada com um
método de pesagem; para cada uma das componentes não descartadas da ACP, é seleccionada a variável com maior loading superior a 0,500. Utiliza- se o operador <WEIGHT BY PCA> para cada uma das componentes
iii) Selecção de atributos por filtro: utilização do operador <OPTIMIZE SELECTION> que implementa um algoritmo greedy tipo filtro utilizando a medida de avaliação supervisada CFS. São implementadas duas estratégias de busca:
algoritmo greedy com estratégia de busca forward
algoritmo greedy com estratégia de busca backward
Para calcular a medida CFS é utilizado o operador <PERFORMANCE (CFS)>. iv) Selecção por pesagem:
utilizando ACP: a partir da primeira componente principal obtida são
seleccionadas as variáveis com um loading superior a 0,500. Utiliza-se o operador <WEIGHT BY PCA>
utilizando uma MSV linear: como descrito na secção IV.3.1, são seleccionadas as variáveis com um coeficiente, na equação do hiperplano de separação linear, superior a 0,500. Utiliza-se o operador <WEIGHT BY SVM>
v) Selecção embutida: implementado pela activação no operador <LINEAR REGRESSION> da opção <feature selection>. São usados dois algoritmos:
algoritmo de busca greedy com estratégia forward e medida de avaliação AIC
algoritmo que implementa uma árvore de regressão M5prime.
3. Fase de modelação
Com a formulação linear do modelo de preços hedónicos, a bibliografia consultada, aponta para a utilização comum de técnicas de regressão linear multivariada. Utilizou-se um tradicional algoritmo de ajustamento, baseado no método
da determinação dos mínimos desvios quadrados, já descrito anteriormente e implementado no software pelo operador <LINEAR REGRESSION>
A combinação das fases de pré-processamento e de modelação permite implementar vários processos de data mining, obtendo-se 18 modelos de preços
hedónicos para cada uma das bases de dados analisadas.
4. Fase de avaliação
Esta fase envolve o cálculo das medidas de avaliação descritas na secção IV.5 e obtidas a partir dos operadores <APPLY MODEL> (para as estatísticas de teste do teste de hipótese da efectiva relação linear de cada um dos atributos com a variável dependente) e <PERFORMANCE LINEAR REGRESSION> (para o coeficiente de determinação R2). Estas medidas são estimadas recorrendo a dois possíveis esquemas de validação, utilizando como critério o número global de dados e o necessário menor custo computacional. A escolha será realizada entre os dois métodos já referidos, sendo o método hold-out implementado com o operador <SPLIT VALIDATION> ou o método de validação cruzada