3 DATA MINING
3.4 Modelação
A modelação é o momento que se coloca à prova o conjunto de dados após ter passado
pelas fases anteriores. Várias técnicas de modelação vão ser seleccionadas de acordo
com o problema a ser tratado. Para o caso em que o problema de Data Mining é de
classificação, como o que é apresentado nesta dissertação, várias técnicas podem ser
utilizadas e à posteriori avaliadas para identificar a técnica mais adequada para a
solução do problema. Também se pode chegar à conclusão, que a combinação de várias
técnicas de classificação podem ser a melhor solução. [Weiss e Indurkhya, 1998].
Na classificação a variável a prever é geralmente denominada de classe e representada
pela letra C , tomando valores no conjunto {C
1,...,C
m}. As variáveis explicativas,
também denominadas por características ou atributos são representadas por X ,...,
1X
pAlguns algoritmos obtêm melhores resultados quando os valores das variáveis estão
normalizados e nesse caso, é necessário voltar à fase de preparação dos dados de forma
a fornecer o melhor input possível. Por isso o processo começa com a selecção prévia
de alguns algoritmos de classificação, iniciando pelo uso mais simples até aos mais
complexos se os indicadores de qualidade dos modelos produzidos não forem
satisfatórios. Além dos indicadores de qualidade abordados na análise da solução pode
haver outro(s) indicador(es) que se justifique(m) adequado(s) para a solução, como por
exemplo, a atribuição de um peso maior à taxa de erro ou à eficiência computacional.
Assim com base dos modelos obtidos individualmente consegue-se avaliar o melhor
modelo de acordo com a sua aplicação no negócio [Madsad, 2002/2003].
O objectivo de um modelo ser obtido através do processo de Data Mining é para
classificar/prever novos casos correctamente. Uma vez que, os novos casos são
supostamente para não serem visualizados pelo modelo na fase de aprendizagem, é
preciso estimar com exactidão a previsão do modelo utilizando a taxa de erro
verdadeira. A taxa de erro verdadeira num modelo de Data Mining deve ser estimada
pelo conjunto de dados, sendo geralmente dividido em subconjuntos de dados para
treino e em subconjuntos de dados de teste. O modelo é construído utilizando o(s)
subconjunto(s) de dados para treino, e é avaliado baseado no desempenho obtido no(s)
subconjunto(s) de dados para teste. Para que a taxa de erro estimada seja de confiança
na previsão do desempenho do futuro modelo, o(s) subconjunto(s) de dados para treino
e para teste devem ser em número suficiente, e devem de preferência ser independentes
[Kantardzic, 2003].
Após o (sub)conjunto de dados ter sido definido para cada experiência a ser realizada, é
necessário utlizar um método de amostragem eficiente para que os modelos gerados
possam ser avaliados. O método de amostragem vai então dividir esse (sub)conjunto de
dados, para se obter o(s) subconjunto(s) para treino e para teste. Os métodos propostos
por Witten e Frank (2005) e Kantardzic (2003) são do tipo não paramétrico e os mais
comuns aqui apresentados são já utilizados nas ferramentas de Data Mining, sendo os
seguintes: Holdout (teino e teste), Cross-Validation (Validação Cruzada), Leave-One-
Out, Resubstitution Method e Bootstrap.
No método Holdout a amostra é dividida numa percentagem p fixa para treino e
)
1
(
−
p
para teste. Na forma empírica normalmente os valores utilizados são 32 para
p [Kantardzic 2003].
No método de Validação Cruzada divide-se o conjunto de dados da amostra em k -
partições, ou seja, em k subconjuntos mutuamente exclusivos de comprimentos
aproximadamente iguais. O conjunto de treino é constituído por k−1 partições e o
conjunto de teste é a partição restante. A taxa de erro é calculada pela média dos erros
de validação obtidos durante k vezes, como podemos observar na Figura 14. Os valores
de k podem variar entre 2 e n , mas o valor mais popular é 10 (10-Fold Cross
Validation), tendo ficado como um método standard em termos práticos, reforçado por
alguma evidência teórica. Numerosos testes, em muitos conjuntos de dados com
algoritmos de aprendizagem diferentes, mostraram que 10 é o número certo de divisões
para obter a melhor estimativa de erro. Este método representa um esforço
computacional proporcional a k pelo que se deve ter em consideração esse facto. Uma
forma de reduzir a variação de resultados é com a estratificação, uma vez que efectuar
experiências com 10-Fold Cross Validation com o mesmo método de aprendizagem e
com o mesmo conjunto de dados pode gerar resultados diferentes. No estimador
Stratified Cross-Validation (Validação Cruzada Estratificada) as partições são
representadas com uma distribuição de classes em igual proporção face à amostra
original sendo mutuamente exclusivas [Witten e Frank, 2005].
No método Leave-one-out é uma variante diferente do Cross-Validation. O ponto
negativo do Leave-one-out é a morosidade computacional e por isso deve ser utilizado
com amostras pequenas. Para uma amostra de tamanho n , o modelo é construído a
partir de n−1 casos e testado no caso deixado de fora. Este processo vai ser repetido n
vezes e a taxa de erro é calculada pela soma dos erros em cada teste dividido por n
[Kantardzic 2003].
No método Resubstitution Method todos os dados utilizados na fase de treino do
modelo são também utilizados na fase de teste do modelo, ou seja, os dados para treino
e para teste são os mesmos. A taxa de erro estimada vai ser tendenciosa, pois irá ser
quase sempre inferior quando for testada com outros conjuntos de dados, sendo por isso
este método muito pouco utilizado [Kantardzic 2003].
No método Bootstrap é baseado no procedimento estatístico de amostra com reposição.
O processo é repetido várias vezes, e em cada iteração são escolhidos tantos casos como
os da amostra original. O conjunto de teste fica a ser formado por todos os casos que
não tenham sido escolhidos. A probabilidade de cada vez ser escolhido é n1/
e a
probalidade de não ser escolhido logo será de 1−1/n de forma aleatória. A isto deve-se
multiplicar o número de vezes, pela oportunidade de ser escolhido que será n , o que
resulta na equação 3.
368
.
0
1
1
≈
1=
−
e
−n
n (Eq 3)Sendo assim numa amostra em análise o conjunto de teste terá por volta de 36.8% de
casos e o conjunto de treino terá por volta de 63.2%. O erro global corresponde à média
dos erros sobre o número de iterações [Witten e Frank, 2005].
Os algoritmos de classificação que poderão ser utilizados na previsão das formações das
equipas no futebol robótico simulado poderão ser: Naive de Bayes, OneR, Árvores de
Decisão, Redes Neuronais, ZeroR, entre outros.
No documento
Análise e Previsão das Formações das Equipas no Domínio do Futebol Robótico.
(páginas 48-51)