Bases de dados utilizadas

4 Seleção Dinâmica de Atributos para Comitês de Classicação

5.2 Bases de dados utilizadas

Os experimentos deste trabalho foram realizados com 20 bases de dados para serem utilizadas no método proposto. Todas as bases de dados foram obtidas no repositório UCI (ASUNCION; NEWMAN, 2007), com diferentes características e contendo diferentes números de atributos e instâncias. Um pré processamento foi aplicado a todas as bases, visando obter apenas valores reais normalizados entre [0,1] e remover atributos com valores faltosos. A seguir, uma breve descrição de cada uma das bases será apresentada.

• ADS: Essa base de dados é composta por 1559 atributos e 2379 instâncias, possuindo um atributo classe que varia entre dois possíveis valores. O objetivo deste conjunto de dados é identicar possíveis anúncios em páginas Web, classicando as imagens encontradas de maneira a determinar se a mesma é ou não um anúncio publicitário. • Breast Cancer Wiscosin (Prognostic): Essa base de dados tem como objetivo a utilização no diagnóstico do câncer de mama. Cada instância representa dados de acompanhamento de pacientes com câncer de mama. É incluído apenas os casos que apresentam câncer de mama invasivo e sem evidência de metástases. A base é composta por 34 atributos, 2 valores possíveis de atributo classe e um total de 198 registros.

• Ecoli: Essa base de dados possui um total de 8 atributos e 336 instâncias, com um total de 8 atributos classes. Sua nalidade é prever a localização de determinadas proteínas em células.

• Gaussian: A base de dados Gaussian possui um total de 600 atributos numéricos, 60 instâncias e 3 classes. O principal ponto a se falar dessa classe, é que a quantidade de instâncias é igualmente dividida de acordo com o número de classes. Ou seja, existem 20 padrões para cada classe {0, 1, 2}.

• German Credit: Essa base de dados é composta por dados de pessoas e tem por objetivo identicar se as pessoas descritas por cada instância possuem risco de serem bons ou ruins para receber determinado crédito. A base é composta por 20 atributos e 1000 instâncias, com um total de 2 atributos classes (good, bad).

• Glass Identication: Esse conjunto de dados é composto por 10 atributos e 214 instâncias. O objetivo do estudo é identicar o tipo de vidro encontrado. Esse estudo foi motivado pela investigação criminal, pois os vidros encontrados em uma cena de crime, se bem identicados, podem ser usados como evidência.

• Heart: Essa base possui um total de 13 atributos e 270 instâncias. O objetivo da base de dados é identicar a presença de doenças no coração de pacientes através de algumas características, como: sexo, taxa de açúcar no sangue, colesterol, nível de dor no peito, etc.

• Hill-Valley: Nesse conjunto de dados, cada padrão representa 100 pontos em um gráco bidimensional, que quando plotado, em ordem (de 1 a 100) como a coorde- nada Y, os pontos irão criar tanto uma colina (Hill) ou um vale(Valley). A base apresenta um total de 101 atributos, 606 instâncias e 2 classes, representando se os pontos do gráco formam um vale ou uma colina.

• Ionosphere: Essa base de dados tem por objetivo descrever sinais omitidos por de- terminados objetos. Os sinais são classicados em fracos e fortes. Um sinal é consi- derado fraco quando o mesmo passa direto pela ionosfera, enquanto um sinal bom é reetido de volta a um objeto qualquer. Cada instância representa medições rece- bidas por um sistema de radar composto por antenas de alta frequência. A base é comporta por 34 atributos e 351 instâncias.

• Jude: Essa base de dados possui um total de 248 instâncias e 985 atributos. Os dados da base foram gerados a partir de dados de células de leucemia. Cada instância

descreve uma amostra de células de leucemia e cada atributo descrevem o nível de expressão de cada gene para as amostras das células.

• Lung Cancer: Essa base é composta por 56 atributos e 32 instâncias. A base tem por objetivo ajudar no diagnóstico do câncer de mama. A base foi gerada a partir de imagens em que os atributos são responsáveis por descrever os núcleos celulares encontrados na imagem.

• Liver Disorder: Essa base de dados é composta por 7 atributos e 245 instâncias. O objetivo do conjunto de dados é ajudar a identicar problemas no fígado. Os atributos representam exames de sangue sensíveis a distúrbios hepáticos que possam surgir com o consumo excessivo de álcool.

• Micromass: Essa base é composta por 1300 atributos numéricos e 931 instâncias. Seu objetivo é explorar abordagens de aprendizagem de máquina para a identicação de microorganismos a partir de dados de espectrometria de massa.

• Parkinsons: A base de dados Parkinsons é formada por uma variedade de medições biomédicas de vozes, algumas delas de indivíduos com a doenção de Parkinson. O objetivo é a separação de indivíduos com essa doença de indivíduos saudáveis. A base é composta por 23 atributos, onde cada um representa uma voz um indivíduo e 195 instâncias que corresponde as gravações de vozes.

• Pima Indians Diabetes: Esse conjunto de dados é composto por 8 atributos, sendo 2 atributos classe, e um total de 768 instâncias. O objetivo desta base de dados é investigar se o paciente apresenta sinais de diabetes de acordo com os critérios da Organização Mundial de Saúde.

• Semeion Handwritten Digit: Esta base é formada com 1593 instâncias e 256 atributos. Cada instância representa dígitos escritos à mão que foram digitalizados de cerca de 80 pessoas. Estes dígitos foram estendidos em escala cinza de 256 valores. • Simulated: Essa base possui um total de 600 atributos, sendo 6 atributos classe, e 60 instâncias. A Simulated é um banco de dados que simula dados de microarranjos, criada para testar os algoritmos de aprendizado de maquina na análise da expressão do gene.

• Sonar: A base de dados é formada por padrões obtidos por um sonar em um cilindro de metal em vários ângulos e sob várias condições. O objetivo é classicar os sinais

obtidos do sonar para determinar se o registro é uma rocha ou uma mina (cilindro de metal). A base contém 60 atributos e 208 instâncias.

• Wine Quality: Essa base de dados é composta por 12 atributos e 4898 instâncias. Cada instância representa um tipo de vinho branco ou tinto, e o principal objetivo da base de dados é classicar o vinho de acordo com a sua qualidade, em um valor que varia de 0 a 10.

• Vehicle Silhouettes: Essa base de dados é composta por 18 atributos, sendo 4 valores de atributo classes, e 946 instâncias. O objetivo é classicar uma dada silhueta em um dos 4 tipos de veículo, usando um conjunto de características extraídos da silhueta.

A Tabela 3 apresenta a quantidade de instâncias, atributos e classes que cada base de dados utiliza possui. A primeira coluna da Tabela 3 apresenta um identicador que será utilizado para referenciar cada uma das bases durante a apresentação dos resultados obtidos com a realização dos experimentos.

Tabela 3: Bases de Dados Usadas nos Experimentos ID Base de dados Qtd. de Instâncias Qtd. de Atributos Qtd. de Classes b1 Ionosphere 351 34 2 b2 Breast Cancer(Prognostic) 198 34 2 b3 Micromass 931 1301 2 b4 Gaussian 60 600 3 b5 Hill-Valley 606 101 2 b6 Jude 248 985 6 b7 Lung Cancer 32 56 3 b8 Simulated 60 600 6 b9 ADS 3279 1559 2 b10 Parkinsons 195 23 2

b11 Semeion Handwritten Digit 1593 256 2

b12 Ecoli 336 8 2

b13 Glass Identication 214 10 6 b14 Wine Quality 4898 12 3 b15 Vehicle Silhouettes 946 18 4 b16 Pima Indians Diabetes 768 8 2 b17 Liver Disorder 245 7 2

b18 Sonar 208 60 2

b19 Heart 270 13 2

b20 German Credit 1000 20 2

No documento Seleção dinâmica de atributos para comitês de classificadores (páginas 56-60)

4 Seleção Dinâmica de Atributos para Comitês de Classicação

5.2 Bases de dados utilizadas

4 Seleção Dinâmica de Atributos para Comitês de Classicação