• Nenhum resultado encontrado

Para representar os casos em que a vari´avel de sa´ıda ´e qualitativa, duas base de dados foram usadas: Iris Flower (Se¸c˜ao 6.1.1) e Wine (Se¸c˜ao 6.1.2) e foram separadas randomicamente de forma que (0.5n) dos dados pertencessem ao conjunto de treinamento e (0.5n) dos dados ao conjunto de teste.

A vari´avel de sa´ıda em ambas as bases dados ´e chamada de class (tipo de flor iris ou de vinho).

6.1.1 O Problema Iris Flower

Publicado por Fisher em 1936 (FISHER, 1936), a base de dados Iris Flower ´e uma das mais populares na literatura especializada em reconhecimento de padr˜oes. Existem 150 registros nessa base, que foi

62

adquirida atrav´es do reposit´orio p´ublico UCI.

A base de dados possui trˆes classes de 50 instˆancias cada, onde cada classe refere ao tipo de planta Iris: Iris-virginica, Iris-versicolor e Iris-setosa. Os parˆametros de entrada possuem valores quantitativos, chamados: sepal length (comprimento da s´epala), sepal width (largura da s´epala), petal length (comprimento da p´etala) e petal width (largura da p´etala).

Foram treinadas trˆes Redes Bayesianas atrav´es do conjunto do treinamento com a topologia Na¨ıve Bayes. A distribui¸c˜ao dos dados entre os conjuntos de treinamento e teste foi feita de forma randˆomica e estratificada, ou seja, a quantidade de dados de cada classe ´e a mesma em ambos os conjuntos. Portanto, cada tipo de flor Iris possui 25 registros no conjunto de treinamento e 25 registros no conjunto de teste.

A RBs treinadas da base Iris Flower podem ser vistas na Figura 9 (DPV), Figura 10 (EFD) e Figura 11 (EWD).

Figura 9 – RB treinada pelo DPV para o Problema Iris Flower.

63

Figura 11 – RB treinada pelo EWD para o Problema Iris Flower.

6.1.2 O Problema Wine

A base de dados Wine tamb´em ´e muito popular na literatura de reconhecimento de padr˜oes. H´a 178 registros nessa base, tamb´em adquirida atrav´es do reposit´orio UCI.

Essa base de dados possui trˆes classes, onde cada uma se refere a um tipo de vinho cultivado na mesma regi˜ao da It´alia, mas com diferentes caracter´ısticas: a classe 1 possui 59 registros, a classe 2 possui 71 registros e a classe 3 possui 48 registros.

As vari´aveis de entrada possuem valores quantitativos, chama- dos: alcohol (´alcool), malic acid (´acido m´alico), ash (cinza), alkalinity of ash (alcalinidade das cinzas), magnesium (magn´esio), total phenols (fen´ois totais), flavonoids (flavon´oides), non-flavonoid phenols (fen´ois n˜ao flavon´oides), pro-anthocyanins (pr´o-antocianinas), color intensity (intensidade de cor), hue (tonalidade), OD280/OD315 of diluted wines (OD280/OD315 de vinhos dilu´ıdos) e proline (prolina).

De forma similar ao problema Iris Flower, foram treinadas trˆes Redes Bayesianas utilizando a topologia Na¨ıve Bayes. Embora a dis- tribui¸c˜ao de dados tenha sido feita de forma randˆomica e estratificada, algumas classes de vinho possuem uma quantidade ´ımpar de registros. Portanto, a distribui¸c˜ao de dados adotada foi a seguinte:

• wine1 : 30 registros no treinamento, 29 registros no teste • wine2 : 35 registros no treinamento, 36 registros no teste • wine3 : 24 registros no treinamento, 24 registros no teste

A RBs treinadas da base Wine podem ser vistas na Figura 12 (DPV), Figura 13 (EFD) e Figura 14 (EWD).

64

Figura 12 – RB treinada pelo DPV para o Problema Wine.

65

Figura 14 – RB treinada pelo EWD para o Problema Wine.

6.1.3 Resultados e Compara¸c˜ao

Os dados foram separados de forma estratificada e randˆomica nos conjuntos de treinamento e teste para ambas as bases que possuem vari´avel de sa´ıda qualitativa. No conjunto de treinamento foram apli- cados os m´etodos EWD, EFD e DPV para a gera¸c˜ao das Redes Baye- sianas. O conjunto de teste foi utilizado para confrontar a acur´acia das redes ao se depararem com dados desconhecidos.

A matriz de classifica¸c˜ao (confus˜ao) para o Problema Iris Flower ´

e mostrada na Tabela 3 e a matriz de classifica¸c˜ao para o Problema Wine ´e mostrada na Tabela 4.

6.1.4 Discuss˜ao

Dois exemplos de base de dados para vari´aveis de sa´ıda qualita- tivas foram utilizados: Iris Flower e Wine. A base Iris Flower possui trˆes classes de sa´ıda, cada uma representando um tipo de flor (Iris- setosa, Iris-virginica e Iris-versicolor). Uma classe de sa´ıda (Iris-setosa) ´

e linearmente separ´avel das outras duas contribuindo para esse ser con- siderado um dom´ınio simples.

66

Tabela 3 – Matriz de classifica¸c˜ao para o problema Iris Flower.

M´etodo Real Previsto Total Acur´acia setosa versi. virgi.

Treinamento EWD setosa 21 0 4 25 65.33% versi. 0 6 19 25 virgi. 0 3 22 25 EFD setosa 25 0 0 25 98.66% versi. 0 24 1 25 virgi. 0 2 23 25 DPV setosa 25 0 0 25 98.66% versi. 0 24 1 25 virgi. 0 0 25 25 Teste EWD setosa 17 0 8 25 62.66% versi. 0 7 18 25 virgi. 0 2 23 25 EFD setosa 25 0 0 25 93.33% versi. 0 24 1 25 virgi. 0 4 21 25 DPV setosa 25 0 0 25 96% versi. 0 24 1 25 virgi. 0 2 23 25

A base Wine tamb´em ´e considerada um dom´ınio simples e pos- sui estruturas de classes “bem-comportadas”, sendo recomendada para m´etodos novos de classifica¸c˜ao principalmente por sua alta dimensio- nalidade atrav´es de 13 vari´aveis de entrada.

Essas caracter´ısticas em ambas as bases de dados asseguram uma alta acur´acia na classifica¸c˜ao. Nessas bases de dados observou-se uma acur´acia inferior na classifica¸c˜ao quando o m´etodo EWD foi usado e uma boa acur´acia tanto com o m´etodo DPV quanto com o m´etodo EFD.

67

Tabela 4 – Matriz de classifica¸c˜ao para o problema Wine.

M´etodo Real Previsto Total Acur´acia wine1 wine2 wine3

Treinamento EWD wine1 27 0 3 30 74.16% wine2 9 20 16 35 wine3 3 2 19 24 EFD wine1 30 0 0 30 98.88% wine2 0 34 1 35 wine3 0 0 24 24 DPV wine1 30 1 0 30 100% wine2 0 35 0 35 wine3 0 0 24 24 Teste EWD wine1 28 0 1 29 82.02% wine2 4 27 5 36 wine3 6 0 18 24 EFD wine1 28 1 0 29 94.38% wine2 1 33 2 36 wine3 0 1 23 24 DPV wine1 28 1 0 29 94.38% wine2 4 32 0 36 wine3 0 0 24 24

DPV e EFD classificaram sem erros o tipo de flor “setosa” (linearmente separ´avel) e obtiveram alguns erros ao classificar os tipos “virginica” e “versicolor”. Entretanto, o m´etodo DPV possui uma melhor acur´acia com o tipo “virginica”, o que indica uma melhor separa¸c˜ao de classes com esse m´etodo.

Nas RBs treinadas para essa base de dados (Figuras 9, 10 e 11) ´e poss´ıvel observar uma distribui¸c˜ao de probabilidade diferente em cada uma das redes. Na RB treinada pelo DPV n˜ao h´a um padr˜ao de distribui¸c˜ao e ele varia de acordo com cada vari´avel, na RB treinada pelo EFD as distribui¸c˜oes tendem a ser iguais em todas as vari´aveis.

68

E, na RB treinada pelo m´etodo EWD as vari´aveis tendem para uma assim´etrica na distribui¸c˜ao de probabilidade, entretanto a distribui¸c˜ao ´e muito semelhante em todas as vari´aveis.

No problema Wine, ambos os m´etodos DPV e EFD obtiveram alguns erros ao classificarem o tipo Wine2. O m´etodo EFD tamb´em possui classifica¸c˜oes incorretas em rela¸c˜ao `a classe Wine3. Embora a acur´acia dos dois m´etodos seja a mesma, o m´etodo DPV separa as classes Wine2 e Wine3 com uma maior eficiˆencia que o m´etodo EFD e n˜ao h´a casos de classifica¸c˜ao errada de uma classe como outra.

Quando observadas as RBs treinadas para a base Wine (Figuras 12, 13 e 14) tamb´em ´e poss´ıvel notar diferentes distribui¸c˜oes de pro- babilidade em cada uma das redes. Na rede treinada pelo DPV cada vari´avel possui sua distribui¸c˜ao particular e duas vari´aveis, proliine e ash, foram discretizadas em duas classes. A RB treinada pelo EFD possui uma distribui¸c˜ao de probabilidade com frequˆencias iguais. A rede treinada pelo m´etodo EWD mostrou um padr˜ao em quase todas as vari´aveis: mais de 75% dos dados foram considerados de uma classe espec´ıfica.

Documentos relacionados