Mineração de dados com WEKA, Parte 1: Introdução e regressão

(1)

Mineração de dados com WEKA, Parte 1: Introdução e regressão

A mineração de dados é o assunto da indústria de tecnologia, na medida em que as empresas estão gerando milhões de pontos de dados sobre seus usuários e buscando um modo de transformar estas informações em mais receita. A mineração de dados é um termo coletivo para dúzias de técnicas que retiram informações dos dados e as transformam em algo significativo. Este artigo apresenta o software de mineração de dados de código aberto e algumas das técnicas mais comuns para interpretar dados.

Michael Abernethy, Product Development Manager, Optimal Auctions1 O que é mineração de dados? É possível que ocasionalmente nos façamos esta pergunta, pois este assunto parece estar chamando cada vez mais a atenção no mundo da tecnologia. Sabe-se que empresas como Google e Yahoo! estão gerando bilhões de pontos de dados sobre todos os seus usuários, e poderíamos perguntar, "O que eles planejam fazer com todas essas informações?" Também podemos ficar surpresos ao saber que a Walmart é uma das mais avançadas empresas em mineração de dados e na aplicação de seus resultados ao negócio. Virtualmente todas as empresas do mundo já estão usando a mineração de dados, e quem não está logo vai sofrer uma extrema desvantagem. Assim, como fazer você e sua empresa adotarem a mineração de dados?

Esperamos responder a todas as suas perguntas iniciais sobre a mineração de dados. Também vamos apresentar o Waikato Environment for Knowledge Analysis (WEKA), um software gratuito e de código aberto que pode ser usado para minerar seus próprios dados e transformar o conhecimento sobre seus usuários, clientes, e seu negócio em informações úteis para aumentar sua receita. Veremos que não é tão difícil assim fazer um trabalho "satisfatório" de mineração de dados.

Além disso, este artigo vai discutir a primeira técnica de mineração de dados: a regressão, que transforma os dados existentes em uma previsão numérica para dados futuros. Provavelmente este é o método mais fácil de mineração de dados, e mesmo em um nível simples algo que já pode ter sido feito antes em seu software favorito de planilha eletrônica (embora o WEKA possa fazer cálculos muito mais complexos). Futuros artigos vão abordar outros métodos de mineração de dados, incluindo armazenamento em cluster, vizinho mais próximo, e árvores de classificação. (Se esses termos não significarem nada para você, não se preocupe. Todos eles serão cobertos nesta série.)

A mineração de dados, basicamente, é a transformação de grandes quantidades de dados em padrões e regras significativos. Além disso, ela pode ser dividida em dois tipos: direcionada e não direcionada. Na mineração de dados direcionada tentamos prever um ponto de dados em particular — o preço de venda de uma casa baseado em informações sobre outras casas à venda no bairro, por exemplo.

Na mineração de dados não direcionada tentamos criar grupos de dados, ou achar padrões em dados existentes — criando o grupo demográfico "Mãe de Futebol", por exemplo. Com efeito, todo censo é mineração de dados, na medida em que o governo busca reunir dados sobre todos os habitantes do país e transformar isto em informações úteis.

Em nosso caso, a mineração de dados moderna começou em meados da década de 1990, quando o poder de computação e o custo de seu processamento e armazenamento finalmente alcançou um nível que permitia as empresas fazê-la internamente, sem precisar recorrer a recursos de computação externos.

Além disso, o termo mineração de dados é muito abrangente, se referindo a dúzias de técnicas e procedimentos usados para examinar e transformar dados. Então, esta série de artigos só vai arranhar a superfície do que é possível fazer com a mineração de dados. Os especialistas provavelmente têm doutorado em estatística e já passaram 10-30 anos em campo. Isso pode dar a impressão de que a mineração de dados é algo que só as grandes empresas podem pagar.

Esperamos esclarecer muitos destes conceitos errôneos sobre a mineração de dados, e deixar claro que ela não é tão fácil quanto simplesmente rodar uma função em uma planilha eletrônica contra uma grade de dados, mas não é tão difícil assim que ninguém consiga fazer pelo menos uma parte dela sozinho.

(2)

Este é um exemplo perfeito do paradigma 80/20 — talvez até mesmo chegando ao paradigma 90/10. É possível criar um modelo de mineração de dados com uma efetividade de 90% com apenas 10 % dos conhecimentos de um destes assim-chamados especialistas em mineração de dados. Para incluir os 10% restantes no modelo e criar um modelo perfeito, seria preciso 90% de tempo adicional e talvez mais 20 anos. Então, a menos que se planeje fazer carreira na mineração de dados, é provável que o "razoável" seja tudo o que você precisa. Olhando a coisa de outro modo, provavelmente o razoável é melhor do que aquilo que está sendo feito agora.

Em última instância, o objetivo da mineração de dados é criar um modelo, um modelo que possa melhorar o modo pelo qual lemos e interpretamos nossos dados existentes e futuros. Como há muitas técnicas de mineração de dados, o passo principal para criar um bom modelo é determinar que tipo de técnica deve ser usada. Isso vem com a prática e a experiência, e alguma orientação. A partir de então, o modelo precisa ser refinado para ficar ainda mais útil. Depois de ler estes artigos devemos poder olhar nosso conjunto de dados, determinar a técnica certa a ser usada, e então adotar as medidas para refiná-la. Vamos poder então criar um modelo razoavelmente bom para nossos próprios dados.

A mineração de dados não é o domínio exclusivo das grandes empresas e do software caro. Na realidade, há um software que faz quase todas as mesmas coisas que estes programas caros — este software se chama WEKA (vide Recursos). O WEKA é um produto da Universidade de Waikato (Nova Zelândia) e foi implementado pela primeira vez em sua forma moderna em 1997. Ele usa a GNU General Public License (GPL). O software foi escrito na linguagem Java™ e contém uma GUI para interagir com arquivos de dados e produzir resultados visuais (pense em tabelas e curvas). Ele também tem uma API geral, assim é possível incorporar o WEKA, como qualquer outra biblioteca, a seus próprios aplicativos para fazer coisas como tarefas de mineração de dados automatizadas no lado do servidor. Neste ponto, vamos prosseguir e instalar o WEKA. Ele é baseado em Java, assim se você não tiver um JRE instalado em seu computador, baixe a versão do WEKA que contém o JRE também.

Figura 1. Tela de inicialização do WEKA

Ao iniciar o WEKA, o selecionador de GUI é exibido e permite escolher quatro modos de trabalho com o WEKA e seus dados. Para todos os exemplos nesta série de artigos, vamos escolher apenas a opção Explorer. Esta opção é mais que suficiente para tudo o que precisamos fazer nestes artigos.

(3)

Agora que estamos familiarizados com o procedimento de instalação e inicialização do WEKA, vamos para nossa primeira técnica de mineração de dados: a regressão.

Regressão

A regressão é a técnica mais fácil de usar, mas provavelmente também é a menos poderosa (engraçado como isto é sempre assim). Este modelo é tão fácil porque contém uma variável de entrada e uma variável de saída (chamada de diagrama de dispersão no Excel, ou de DiagramaXY no OpenOffice.org). Claro, as coisas podem ficar mais complexas que isso, incluindo dúzias de variáveis de entrada. Na verdade, todos os modelos de regressão têm o mesmo padrão geral. Há algumas variáveis independentes que, quando tomadas em conjunto, produzem um resultado — uma variável dependente. O modelo de regressão é então usado para prever o resultado de uma variável dependente desconhecida, dados os valores das variáveis independentes.

Todos provavelmente já usamos ou vimos um modelo de regressão antes, e talvez até tenhamos criado mentalmente um modelo de regressão. O exemplo que imediatamente vem à mente é o de calcular o preço de uma casa. O preço da casa (a variável dependente) é o resultado de muitas variáveis independentes — a metragem quadrada da casa, o tamanho do lote, se há granito na cozinha, se os banheiros foram reformados, etc. Assim, se você alguma vez já comprou uma casa ou vendeu uma, é provável que você tenha criado um modelo de regressão para avaliar a casa. O modelo é criado com base em outras casas comparáveis no bairro e no preço pelo qual elas foram vendidas (o modelo), e então colocando os valores de sua própria casa neste modelo para produzir o preço esperado.

Vamos continuar com este exemplo de modelo de regressão baseado no preço de uma casa, e criar alguns dados reais para exame. Estes são números reais de casas que estão à venda em meu bairro, e vamos tentar achar o valor de minha própria casa. (Também vou tentar usar a saída deste modelo para protestar contra a avaliação de minha propriedade pela prefeitura para estabelecer o imposto).

Tabela 1. Valores da casa para o modelo de regressão

Tamanho da casa (pés quadrados) Tamanho do lote Quartos Granito Banheiro reformado? Preço de venda

3529 9191 6 0 0 $205,000 3247 10061 5 1 1 $224,900 4032 10150 5 0 1 $197,900 2397 14156 4 1 0 $189,900 2200 9600 4 0 1` $195,000 3536 19994 6 1 1 $325,000 2983 9365 5 0 1 $230,000 3198 9669 5 1 1 ????

A boa notícia (ou má notícia, dependendo de seu ponto de vista) é que esta pequena introdução à regressão apenas arranha a superfície, e que este arranhão na realidade quase não se percebe. Há cursos de faculdade sobre modelos de regressão que levam o semestre inteiro, e que provavelmente ensinam mais sobre modelos de regressão do que você desejaria saber. Mas este arranhão ajuda a nos familiarizarmos com o conceito, e é o suficiente para nossos testes com o WEKA neste artigo. Se você tiver um interesse contínuo em modelos de regressão e em todos os seus detalhes estatísticos, pesquise os seguintes temos com seu mecanismo de busca favorito: mínimo quadrado, homocedasticidade, distribuição normal, teste de White, teste de Lilliefors, R ao quadrado, e valores p.

Construindo o conjunto de dados para o WEKA

Para carregar dados no WEKA, precisamos colocá-los em um formato que seja entendido. O método preferido do WEKA para carregar dados é no Formato de Arquivo de Atributo-Relação (ARFF), onde é possível definir o tipo de dados que estão sendo carregados, e então fornecer seus próprios dados. No arquivo, definimos cada coluna e o que cada coluna contém. No caso do modelo de regressão, estamos limitados a uma coluna de NUMERIC ou de DATE. Finalmente, fornecemos cada linha de dados em um formato delimitado por vírgulas. O arquivo ARFF que vamos usar com o WEKA é exibido abaixo. Note que nas linhas de dados nós omitimos minha casa. Como estamos criando o modelo, não podemos usar minha casa nele porque seu preço de venda é desconhecido.

(4)

Listagem 1. Formato de arquivo WEKA @RELATION house

@ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5,0,1,230000 Carregando os dados no WEKA

Figura 3. WEKA com os dados da casa carregados

Nesta tela, o WEKA permite revisar os dados com os quais estamos trabalhando. A seção esquerda da janela do Explorer mostra todas das colunas de seus dados (Atributos) e o número de linhas de dados fornecidas (Instâncias). Ao selecionar cada coluna, a seção direita da janela do Explorer também mostra informações sobre os dados daquela coluna de seu conjunto de dados. Por exemplo, ao selecionar a coluna houseSize na seção esquerda (que deveria estar selecionada por padrão), a seção direita deveria mudar para mostrar informações estatísticas adicionais sobre a coluna. Ela mostra que o valor máximo do conjunto de dados para esta coluna é 4.032 pés quadrados, e o mínimo é 2.200 pés quadrados. O tamanho médio é 3.131 pés quadrados, com um desvio padrão de 655 pés quadrados. (O desvio padrão é uma medida estatística da variação.) Finalmente, há um modo visual de examinar os dados, que é possível ver clicando no botão Visualize All. Devido ao nosso número limitado de linhas neste conjunto de dados, a visualização não é tão poderosa quanto seria se houvesse mais pontos de dados (centenas, por exemplo).

Basta de olhar os dados. Vamos criar um modelo e obter um preço para a minha casa. Criando o modelo de regressão com o WEKA

Para criar o modelo, clique na guia Classify. O primeiro passo é selecionar o modelo que queremos construir, para que o WEKA saiba como trabalhar com os dados, e como criar o modelo apropriado:

Clique no botão Choose, e então expanda a ramificação functions. Selecione a folha LinearRegression.

(5)

Isto instrui o WEKA que queremos construir um modelo de regressão. Como podemos ver a partir das outras opções, há muitos modelos possíveis que podem ser construídos. Montes deles! Isto deve nos dar uma boa indicação de que estamos apenas tocando a superfície deste tema. Também devemos observar: Há outra opção chamada SimpleLinearRegression na mesma ramificação. Não a selecione porque a regressão simples só olha uma variável, e nós temos seis. Após selecionar o modelo certo, seu WEKA Explorer deve estar parecido com o da Figura 4.

Figura 4. Modelo de regressão linear no WEKA

Posso fazer isso com uma planilha eletrônica?

Resposta curta: Não. Resposta longa: Sim. Os programas de planilha eletrônica mais populares não podem fazer com facilidade o que fizemos com o WEKA, ou seja, definir um modelo de regressão linear com múltiplas variáveis independentes. Porém, é possível fazer um modelo de Regressão Linear Simples (uma variável independente) com bastante facilidade. Se você estiver se sentindo muito valente, ele pode fazer a regressão com múltiplas variáveis, embora isso seja bastante confuso e difícil, definitivamente não com tanta facilidade quanto no WEKA. É possível ver um vídeo de exemplo do Microsoft® Excel® em Recursos.

Agora que o modelo desejado foi escolhido, temos que dizer ao WEKA onde estão os dados que ele deve usar para construir o modelo. Embora para nós possa ser óbvio querermos usar os dados que fornecemos no arquivo ARFF, na realidade há opções diferentes, algumas mais avançadas do que as que estaremos usando. As outras três opções são Supplied test set, onde é possível fornecer um conjunto diferente de dados para construir o modelo; Cross-validation, que deixa o WEKA construir um modelo baseado em subconjuntos dos dados fornecidos e então calcular sua média para criar um modelo final; e Percentage split, onde o WEKA toma um subconjunto percentual dos dados fornecidos para construir um modelo final. Estas outras opções são úteis com modelos diferentes, que veremos em artigos futuros. Com a regressão, podemos simplesmente escolher Use training set. Isto diz ao WEKA que para construir nosso modelo desejado, podemos simplesmente usar o conjunto de dados que fornecemos em nosso arquivo ARFF.

Finalmente, o último passo para criar nosso modelo é escolher a variável dependente (a coluna que estamos tentando prever). Sabemos que este deve ser o preço de venda, pois é isso que estamos tentando determinar para minha casa. Logo abaixo das opções de teste, há uma caixa combo que permite selecionar a variável dependente. A coluna sellingPrice deve estar selecionada por padrão. Se não estiver, selecione-a. Agora estamos prontos para criar nosso modelo. Clique em Start. A Figura 5 mostra o como deve ser a saída.

(6)

Figura 5. Modelo de regressão do preço da casa no WEKA

Interpretando o modelo de regressão

O WEKA não brinca em serviço. Ele põe o modelo de regressão bem ali na saída, como mostrado na Listagem 2. Listagem 2. Saída da regressão

sellingPrice = (-26.6882 * houseSize) + (7.0551 * lotSize) +

(43166.0767 * bedrooms) + (42292.0901 * bathroom) - 21661.1208

A Listagem 3 mostra os resultados, relacionando os valores de minha casa. Listagem 3. Valor da casa usando o modelo de regressão

sellingPrice = (-26.6882 * 3198) + (7.0551 * 9669) +

(43166.0767 * 5) + (42292.0901 * 1)

- 21661.1208 sellingPrice = 219,328

Porém, voltando até o começo do artigo, a mineração de dados não se limita a produzir um único número: Trata-se de identificar padrões e regras. Ela não é usada estritamente para produzir um número absoluto, mas sim para criar um modelo que permite detectar padrões, prever a saída, e tirar conclusões baseadas em dados. Vamos seguir adiante e interpretar os padrões e conclusões que nosso modelo nos fornece, além de um único e estrito valor para a casa:

 O granito não tem importância— O WEKA só usa as colunas que contribuem estatisticamente para a precisão do modelo (medido em R ao quadrado, mas que está fora do escopo deste artigo). Ele descarta e ignora as colunas que não ajudam a criar um bom modelo. Assim, este modelo de regressão está nos dizendo que o granito da cozinha não afeta o valor da casa.

 Já os banheiros são importantes— Como usamos um simples valor 0 ou 1 para um banheiro reformado, podemos usar o coeficiente do modelo de regressão para determinar o valor que um banheiro reformado representa para o valor da casa. O modelo nos diz para acrescentarmos $42.292 ao valor da casa.

 Casas maiores reduzem o valor— O WEKA está nos dizendo que quanto maior for nossa casa, menor será o preço de venda? Isto pode ser visto pelo coeficiente negativo na frente da variável houseSize. O modelo está nos dizendo que cada pé quadrado adicional da casa reduz seu preço em $26? Isso não faz nenhum sentido. Estamos na América! Maior é melhor, especialmente onde moro, no Texas. Como devemos interpretar isto? Este é um bom exemplo de lixo entrando, lixo saindo. O tamanho da casa, infelizmente, não é uma variável independente porque está relacionado à variável dos quartos, o que faz sentido porque casas maiores tendem a ter mais quartos. Assim, nosso modelo não está perfeito. Mas nós podemos consertar isso. Lembre-se: Na guia Preprocess é possível remover colunas do conjunto de dados. Para sua própria prática, remova a coluna houseSize e crie outro modelo. Como isso afeta o preço de minha casa? Este novo modelo faz mais sentido? (O valor de minha casa agora é: $217,894).

(7)

Para levar este exemplo simples um nível acima, vamos dar uma olhada em um arquivo de dados que o site da WEKA na Web nos fornece como exemplo de regressão. Teoricamente, ele deveria ser muito mais complexo que nosso simples exemplo de sete casas. Este arquivo de dados de amostra tenta criar um modelo de regressão para prever as milhas por galão (MPG) de um carro com base em vários atributos do carro (estes dados são de 1970 a 1982, assim lembre-se disso).

O modelo inclui estes possíveis atributos do carro: cilindros, deslocamento, cavalos, peso, aceleração, ano modelo, origem, e fabricante. Além disso, este conjunto de dados tem 398 linhas de dados e atende muitas das exigências estatísticas que nosso modelo de preço de casa acima não atendia. Teoricamente este deve ser um modelo de regressão muito mais complexo, e talvez o WEKA possa ter mais dificuldade para criar um modelo com esta quantidade de dados (embora eu tenha certeza de que a esta altura você já saiba que o WEKA vai se sair muito bem).

Para produzir o modelo de regressão com este conjunto de dados, devemos seguir exatamente os mesmos passos que seguimos para os dados da casa, assim não vou repeti-los. Então vamos seguir adiante e criar o modelo de regressão. Ele deve produzir a saída mostrada na Listagem 4.

Listagem 4. Modelo de regressão com dados de MPG class (aka MPG) = -2.2744 * cylinders=6,3,5,4 + -4.4421 * cylinders=3,5,4 + 6.74 * cylinders=5,4 + 0.012 * displacement + -0.0359 * horsepower + -0.0056 * weight + 1.6184 * model=75,71,76,74,77,78,79,81,82,80 + 1.8307 * model=77,78,79,81,82,80 + 1.8958 * model=79,81,82,80 + 1.7754 * model=81,82,80 + 1.167 * model=82,80 + 1.2522 * model=80 + 2.1363 * origin=2,3 + 37.9165

Ao fazer isto sozinho, você verá que o WEKA percorre o modelo em menos de um segundo. Assim, não é um problema de computação criar um modelo de regressão poderoso a partir de muitos dados. Este modelo também pode parecer ser muito mais complexo que os dados da casa, mas não é. Por exemplo, a primeira linha do modelo de regressão, -2.2744 * cylinders=6,3,5,4 significa que se o carro tiver seis cilindros, você coloca 1 nesta coluna, e se ele tiver oito cilindros, você coloca 0. Vamos tomar uma linha como exemplo do conjunto de dados (linha 10) e colocar estes números no modelo de regressão, para ver se a saída do modelo se aproxima da saída que obtivemos no conjunto de dados.

Listagem 5. Exemplo de dados de MPG

data = 8,390,190,3850,8.5,70,1,15 class (aka MPG) = -2.2744 * 0 + -4.4421 * 0 + 6.74 * 0 + 0.012 * 390 + -0.0359 * 190 + -0.0056 * 3850 + 1.6184 * 0 + 1.8307 * 0 + 1.8958 * 0 + 1.7754 * 0 + 1.167 * 0 + 1.2522 * 0 + 2.1363 * 0 + 37.9165

Expected Value = 15 mpg Regression Model Output = 14.2 mpg

Assim, nosso modelo foi muito bem quando o avaliamos com nossos dados de teste escolhidos aleatoriamente, prevendo 14,2 MPG em um carro cujo valor real era de 15 MPG.

(8)

Conclusão

Este artigo tenta responder à pergunta "o que é mineração de dados?" dando uma introdução ao assunto e apresentando as metas do campo. A mineração de dados tenta transformar muita desinformação (na forma de dados espalhados) em informações úteis, criando modelos e regras. Sua meta é usar os modelos e regras para prever um comportamento futuro, melhorar seu negócio, ou apenas explicar coisas que caso contrário não seria possível explicar. Estes modelos podem confirmar o que já pensávamos, ou ainda melhor, podem achar coisas novas em nossos dados que nem sabíamos que existiam.

Como um exemplo engraçado, há uma lenda urbana de mineração de dados (não tenho certeza de quantas existem) segundo a qual, nos Estados Unidos, o Walmart aos finais de semana passa a cerveja para a extremidade dos corredores de fralda porque sua mineração de dados mostrou que nesses dias os homens tipicamente compram fraldas, e muitos também gostam de cerveja.

Este artigo também apresentou o programa de software gratuito e de código aberto WEKA. Certamente há produtos de software comerciais complexos construídos para a mineração de dados, mas para a pessoa comum que está tentando começar na mineração de dados, há uma solução útil disponível que é de código aberto.

Lembre- se, você nunca vai ser um especialista em mineração de dados a menos que queira passar 20 anos fazendo isso. O WEKA permite começar e oferece uma solução satisfatória para muitos de seus problemas iniciais. Se você nunca fez mineração antes, a solução satisfatória é tudo o que você precisa.

Finalmente, este artigo discutiu o primeiro modelo de mineração de dados, o modelo de regressão (especificamente, o modelo de regressão linear de múltiplas variáveis), e mostrou como usá-lo no WEKA. Este modelo de regressão é fácil de usar e pode ser usado em diversos conjuntos de dados. Ele provavelmente é o modelo mais útil que discutimos nesta série. Porém, a mineração de dados é muito mais do que simplesmente regressão, e é possível que alguns outros modelos sejam soluções melhores para conjuntos de dados diferentes e objetivos de saída diferentes.

Finalmente, quero reiterar que este artigo e as partes futuras desta série são apenas uma breve introdução ao campo da estatística e mineração de dados. As pessoas passam semestres inteiros estudando estatística mineração de dados, para só então poderem ser considerados como "iniciantes." Nossa meta é explorar as ferramentas de código aberto disponíveis para os novatos, e estimular a apreciação do valor que a mineração de dados pode oferecer. Lembre-se isso à medida que continuamos com esta série.

http://www.cs.waikato.ac.nz/ml/weka/ Vídeo-aula https://www.youtube.com/watch?v=m7kpIBGEdkI Download http://www.cs.waikato.ac.nz/ml/weka/downloading.html http://sourceforge.net/projects/weka/postdownload?source=dlp Wiki http://weka.wikispaces.com/

Universidade de Waikato -Nova Zelândia Waikato Environment for Knowledge Analysis

Coleção de algoritmos de aprendizagem de máquina para resolução de problemas de Data Mining implementado em Java (open source software)

(9)

Métodos de aprendizagem suportados decision tree inducers

rule learners naive Bayes decision tables

locally weighted regression support vector machines instance-based learners logistic regression voted perceptrons

Origem dos Dados

Arquivo local no formato .arff Arquivo em URL no formato .arff Tabelas de Banco de Dados via JDBC Preparando os dados

O weka lê os dados no formato .arff

Uma lista de todas as instâncias, onde os valores dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff):

@relation weather %Nome do arquivo

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real %Atributo e tipo @attribute humidity real

@attribute windy {TRUE, FALSE} @attribute play {yes, no}

@data %Início dos dados

sunny,85,85,FALSE,no overcast,83,86,FALSE,yes

Aprendizado de árvores de decisão Dados do tempo

(10)

outlook = sunny

| humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy

| windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8

Algoritmo para minerar regras de associação.

IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF? THEN vento = não AND umidade = normal AND jogar = sim Saída do algoritmo

Best rules found:

1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1)

2. temperature=cool windy=FALSE play=yes ==> humidity=normal conf:(1)

3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1)

4. temperature=cool windy=FALSE ==> humidity=normal play=yes conf:(1)

5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)