Modelação

3 DATA MINING

n (Eq 3)

3 DATA MINING

3.4 Modelação

A modelação é o momento que se coloca à prova o conjunto de dados após ter passado

pelas fases anteriores. Várias técnicas de modelação vão ser seleccionadas de acordo

com o problema a ser tratado. Para o caso em que o problema de Data Mining é de

classificação, como o que é apresentado nesta dissertação, várias técnicas podem ser

utilizadas e à posteriori avaliadas para identificar a técnica mais adequada para a

solução do problema. Também se pode chegar à conclusão, que a combinação de várias

técnicas de classificação podem ser a melhor solução. [Weiss e Indurkhya, 1998].

Na classificação a variável a prever é geralmente denominada de classe e representada

pela letra C , tomando valores no conjunto {C

,...,C

}. As variáveis explicativas,

também denominadas por características ou atributos são representadas por X ,...,

X

Alguns algoritmos obtêm melhores resultados quando os valores das variáveis estão

normalizados e nesse caso, é necessário voltar à fase de preparação dos dados de forma

a fornecer o melhor input possível. Por isso o processo começa com a selecção prévia

de alguns algoritmos de classificação, iniciando pelo uso mais simples até aos mais

complexos se os indicadores de qualidade dos modelos produzidos não forem

satisfatórios. Além dos indicadores de qualidade abordados na análise da solução pode

haver outro(s) indicador(es) que se justifique(m) adequado(s) para a solução, como por

exemplo, a atribuição de um peso maior à taxa de erro ou à eficiência computacional.

Assim com base dos modelos obtidos individualmente consegue-se avaliar o melhor

modelo de acordo com a sua aplicação no negócio [Madsad, 2002/2003].

O objectivo de um modelo ser obtido através do processo de Data Mining é para

classificar/prever novos casos correctamente. Uma vez que, os novos casos são

supostamente para não serem visualizados pelo modelo na fase de aprendizagem, é

preciso estimar com exactidão a previsão do modelo utilizando a taxa de erro

verdadeira. A taxa de erro verdadeira num modelo de Data Mining deve ser estimada

pelo conjunto de dados, sendo geralmente dividido em subconjuntos de dados para

treino e em subconjuntos de dados de teste. O modelo é construído utilizando o(s)

subconjunto(s) de dados para treino, e é avaliado baseado no desempenho obtido no(s)

subconjunto(s) de dados para teste. Para que a taxa de erro estimada seja de confiança

na previsão do desempenho do futuro modelo, o(s) subconjunto(s) de dados para treino

e para teste devem ser em número suficiente, e devem de preferência ser independentes

[Kantardzic, 2003].

Após o (sub)conjunto de dados ter sido definido para cada experiência a ser realizada, é

necessário utlizar um método de amostragem eficiente para que os modelos gerados

possam ser avaliados. O método de amostragem vai então dividir esse (sub)conjunto de

dados, para se obter o(s) subconjunto(s) para treino e para teste. Os métodos propostos

por Witten e Frank (2005) e Kantardzic (2003) são do tipo não paramétrico e os mais

comuns aqui apresentados são já utilizados nas ferramentas de Data Mining, sendo os

seguintes: Holdout (teino e teste), Cross-Validation (Validação Cruzada), Leave-One-

Out, Resubstitution Method e Bootstrap.

No método Holdout a amostra é dividida numa percentagem p fixa para treino e

)

1

(

−

p

para teste. Na forma empírica normalmente os valores utilizados são 32 para

p [Kantardzic 2003].

No método de Validação Cruzada divide-se o conjunto de dados da amostra em k -

partições, ou seja, em k subconjuntos mutuamente exclusivos de comprimentos

aproximadamente iguais. O conjunto de treino é constituído por k−1 partições e o

conjunto de teste é a partição restante. A taxa de erro é calculada pela média dos erros

de validação obtidos durante k vezes, como podemos observar na Figura 14. Os valores

de k podem variar entre 2 e n , mas o valor mais popular é 10 (10-Fold Cross

Validation), tendo ficado como um método standard em termos práticos, reforçado por

alguma evidência teórica. Numerosos testes, em muitos conjuntos de dados com

algoritmos de aprendizagem diferentes, mostraram que 10 é o número certo de divisões

para obter a melhor estimativa de erro. Este método representa um esforço

computacional proporcional a k pelo que se deve ter em consideração esse facto. Uma

forma de reduzir a variação de resultados é com a estratificação, uma vez que efectuar

experiências com 10-Fold Cross Validation com o mesmo método de aprendizagem e

com o mesmo conjunto de dados pode gerar resultados diferentes. No estimador

Stratified Cross-Validation (Validação Cruzada Estratificada) as partições são

representadas com uma distribuição de classes em igual proporção face à amostra

original sendo mutuamente exclusivas [Witten e Frank, 2005].

No método Leave-one-out é uma variante diferente do Cross-Validation. O ponto

negativo do Leave-one-out é a morosidade computacional e por isso deve ser utilizado

com amostras pequenas. Para uma amostra de tamanho n , o modelo é construído a

partir de n−1 casos e testado no caso deixado de fora. Este processo vai ser repetido n

vezes e a taxa de erro é calculada pela soma dos erros em cada teste dividido por n

[Kantardzic 2003].

No método Resubstitution Method todos os dados utilizados na fase de treino do

modelo são também utilizados na fase de teste do modelo, ou seja, os dados para treino

e para teste são os mesmos. A taxa de erro estimada vai ser tendenciosa, pois irá ser

_{para teste. Na forma empírica normalmente os valores utilizados são 3}2 para

_

_≈

₌

_e