Desenho do processo em RapidMiner - 6 – Implementação em RapidMiner

III. 6 – Implementação em RapidMiner

III.6.2. Desenho do processo em RapidMiner

Tal como referido no tutorial13, o desenho do processo pode ser produzido a partir da combinação de um grande número de operadores.

O software permite a representação do processo num sistema em árvore de operadores ou por um ambiente gráfico de fluxo de processo (work flow). Em ambos os casos, a estrutura do processo é ainda descrita internamente em XML, o que permite adicionalmente o desenvolvimento do processo nesta linguagem.

Apresenta ainda duas importantes funcionalidades: a possibilidade de definir pontos de interrupção do processo que permitem inspeccionar praticamente todos os resultados intermédios e a capacidade de combinar e agrupar operadores em blocos autónomos, disponíveis para processos posteriores.

A Figura 8 apresenta um processo implementado em ambiente RapidMiner destacando-se cinco grupos de blocos de operadores:

bloco de pré processamento: inclui várias tarefas, englobando questões como a integração, a limpeza e a transformação de dados.

bloco de selecção de atributos: inclui os métodos de selecção de atributos (ex: selecção por filtro)

Disponível em http://sourceforge.net/projects/rapidminer/files/1.%20RapidMiner/5.0/rapidminer-5.0- manual-english_v1.0.pdf/download

bloco de modelação: onde são inseridos os algoritmos de aprendizagem que inclui os esquemas de selecção de atributos embutidos (quando necessário).

bloco de avaliação: onde são inseridos o esquema de validação (ex:

HoldOut) e os operadores que permitem determinar as medidas de

avaliação.

Figura 8 Exemplo da implementação de um processo em Rapid Miner. Neste processo, o pré-processamento envolve 5 tarefas, destacando-se a remoção de objectos duplicados, a normalização das variáveis e a remoção de variáveis altamente correlacionadas); a selecção é constituída por um algoritmo de busca; a aprendizagem é realizada a partir do operador de regressão linear; para a avaliação temos um esquema de validação do tipo hold-out, implementado pelo operador split data e dois operadores que permitem em conjunto determinar medidas de avaliação.

Como se descreveu anteriormente, o processo é por natureza iterativo, levando a sucessivas repetições que permitam aprimorar o resultado final.

A problemática associada à identificação de determinantes do preço da habitação aponta para a necessidade de focar o processo na selecção de variáveis que representem atributos associáveis à habitação. Estes aspectos permitiram o desenho inicial do processo, o que envolve:

1. Fase de recolha de dados

A recolha de dados envolve todos os procedimentos que permitem obter as bases de dados necessárias para implementar um processo que permita responder aos objectivos colocados. No presente estudo utilizaram-se bases de dados pré-existentes, disponibilizadas com elevados graus de consistência determinados pela intervenção prévia dos detentores dos dados.

2. Fase de pré-processamento

Nesta fase a implementação recorre às tarefas de integração, limpeza, transformação e selecção:

Recorreu-se à tarefa de integração para responder à necessidade de juntar bases de dados provenientes de diferentes fontes e ainda para formar uma base de dados global a partir de tarefas que ocorram em paralelo. O operador comum utilizado é o <JOIN>.

Para a limpeza é utilizado o operador <REMOVE DUPLICATES> de forma a evitar a existência de objectos repetidos nos dados.

•_{Sendo que a regressão linear impõe a inexistência de correlações entre as} variáveis independentes, utiliza-se o operador <REMOVE CORRELATED ATRIBUTES> para garantir a correcta execução da fase de modelação.

•_{De salientar que o algoritmo de modelação inclui um mecanismo próprio} embutido de eliminar as variáveis colineares (ou seja, altamente correlacionadas), que também se encontra activa.

A tarefa de transformação dos atributos engloba a implementação do operador <NORMALIZE> que efectua uma normalização das variáveis independentes reais e ordinais, recorrendo ao método Z – transformation (transformação da distribuição do valor dos dados numa distribuição de média zero e desvio padrão 1). Esta transformação permite eliminar as interacções associadas à escala e tipo de medida de cada uma das variáveis independentes definidas para o processo de modelação.

Para a tarefa de selecção de atributos são implementadas as 4 diferentes abordagens já descritas anteriormente, resultando num total de 8 técnicas diferentes:

i) Redução da dimensionalidade: utilização de operador <PCA> que implementa a análise de componentes principais; seleccionando as

componentes mais relevantes, determina-se um modelo de regressão com a utilização dos loadings como os novos valores associados a cada objecto ii) Abordagem híbrida: redução de dimensionalidade combinada com um

método de pesagem; para cada uma das componentes não descartadas da ACP, é seleccionada a variável com maior loading superior a 0,500. Utiliza- se o operador <WEIGHT BY PCA> para cada uma das componentes

iii) Selecção de atributos por filtro: utilização do operador <OPTIMIZE SELECTION> que implementa um algoritmo greedy tipo filtro utilizando a medida de avaliação supervisada CFS. São implementadas duas estratégias de busca:

algoritmo greedy com estratégia de busca forward

algoritmo greedy com estratégia de busca backward

Para calcular a medida CFS é utilizado o operador <PERFORMANCE (CFS)>. iv) Selecção por pesagem:

utilizando ACP: a partir da primeira componente principal obtida são

seleccionadas as variáveis com um loading superior a 0,500. Utiliza-se o operador <WEIGHT BY PCA>

utilizando uma MSV linear: como descrito na secção IV.3.1, são seleccionadas as variáveis com um coeficiente, na equação do hiperplano de separação linear, superior a 0,500. Utiliza-se o operador <WEIGHT BY SVM>

v) Selecção embutida: implementado pela activação no operador <LINEAR REGRESSION> da opção <feature selection>. São usados dois algoritmos:

algoritmo de busca greedy com estratégia forward e medida de avaliação AIC

algoritmo que implementa uma árvore de regressão M5prime.

3. Fase de modelação

Com a formulação linear do modelo de preços hedónicos, a bibliografia consultada, aponta para a utilização comum de técnicas de regressão linear multivariada. Utilizou-se um tradicional algoritmo de ajustamento, baseado no método

da determinação dos mínimos desvios quadrados, já descrito anteriormente e implementado no software pelo operador <LINEAR REGRESSION>

A combinação das fases de pré-processamento e de modelação permite implementar vários processos de data mining, obtendo-se 18 modelos de preços

hedónicos para cada uma das bases de dados analisadas.

4. Fase de avaliação

Esta fase envolve o cálculo das medidas de avaliação descritas na secção IV.5 e obtidas a partir dos operadores <APPLY MODEL> (para as estatísticas de teste do teste de hipótese da efectiva relação linear de cada um dos atributos com a variável dependente) e <PERFORMANCE LINEAR REGRESSION> (para o coeficiente de determinação R2). Estas medidas são estimadas recorrendo a dois possíveis esquemas de validação, utilizando como critério o número global de dados e o necessário menor custo computacional. A escolha será realizada entre os dois métodos já referidos, sendo o método hold-out implementado com o operador <SPLIT VALIDATION> ou o método de validação cruzada

IV. O

MERCADO DA HABITAÇÃO À ESCALA

No documento Data mining na identificação de atributos valorativos da habitação (páginas 78-83)