Classificação Supervisionada Usando Dados Simbólicos de Semântica Modal

Texto

(1)Pós-Graduação em Ciência da Computação. “Classificação Supervisionada Usando Dados Simbólicos de Semântica Modal” por. Fábio César Donato Silva Dissertação de Mestrado. Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao. RECIFE, Agosto de 2007.

(2) UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. FÁBIO CÉSAR DONATO SILVA. “Classificador Supervisionado Usando Dados Simbólicos de Semântica Modal”. ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.. ORIENTADOR: PROF. DR. FRANCISCO DE ASSIS TENÓRIO DE CARVALHO CO-ORIENTADORA: PROFª. DRª. RENATA MARIA CARDOSO RODRIGUES DE SOUZA. RECIFE, AGOSTO/2007.

(3) Dedico este trabalho a minha esposa e a meus filhos que me incentivaram e apoiaram.. - iii -.

(4) AGRADECIMENTOS Agradeço primeiramente a Deus que pelo milagre da vida estamos aqui hoje.. Ao orientador, Prof. Francisco de Assis Tenório de Carvalho pela paciência e confiança em mim depositadas.. A co-orientadora, Profª. Renata Maria Cardoso Rodrigues Souza quem com tanto empenho e dedicação me impulsionou a esse desfecho.. Aos amigos que nos momento difíceis estavam ao lado para dar um devido apoio.. Ao CNPq pelo apoio financeiro.. - iv -.

(5) ABSTRACT The Symbolic Data Analysis (SDA) is a domain in the area of automatic discovery of knowledge that it aims at to develop methods for described data for variables that can assume as value lists of categories, intervals or distributions of probability. These variables allow to take in account the variability and/or uncertainty present in the data. This work presents a symbolic classifier of modal semantics for symbolic data of type interval. The considered classifier presents two basic stages, the learning and the allocation, where both need one step precedent of pre-processing that transforms the symbolic data of the type interval into symbolic data modal. Each example of the set of learning is described for a vector of intervals. After the pre-processing, each example starts to be described for a vector of distributions of weights. After the stage of learning, each group is also described for a vector of distributions of weights that summarize the information of the examples of the group. Each new example to be attributed to the one class (stage of allocation), represented for a vector of intervals, after the step of pre-processing starts to be described for a vector of distributions of weights. The allocation of an example to a class is carried through dissimilarity functions that compare pairs of vectors of distributions of weights. Some functions of dissimilarity of this type are considered in this work. The evaluation of the performance of this classifier is carried through the real application of the same the synthetic data sets in an experience Carlo Monte and reals data sets having used the technique of crossed validation leave-one-out. The performance is measured by the tax (average) of error of classification and by the time of execution of the stages of learning and classification. Moreover, the performance of this classifier was compared with the performance of a type classifier k nearest neighbors also to modal semantics. Through these examples, this work shows some of the interests of this classifier of modal semantics.. Keywords:. Symbolic. Data. Analysis,. Modal. Symbolic. Classification, Modal Symbolic Data, Dissimilarity Functions.. -v-. Classifier,. Unsupervised.

(6) RESUMO A Análise de Dados Simbólicos (Symbolic Data Analysis) é um domínio na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis que podem assumir como valor conjuntos ou listas de categorias, intervalos ou distribuições de probabilidade. Essas variáveis permitem levar em conta a variabilidade e/ou a incerteza presente nos dados. Este trabalho apresenta um classificador simbólico de semântica modal para dados simbólicos de tipo intervalo. O classificador proposto apresenta duas etapas básicas, a aprendizagem e a alocação, onde ambas necessitam de uma etapa precedente de préprocessamento que transforma os dados simbólicos do tipo intervalo em dados simbólicos modal. Cada exemplo do conjunto de aprendizagem é descrito por um vetor de intervalos. Após o pré-processamento, cada exemplo passa a ser descrito por um vetor de distribuições de pesos. Após a etapa de aprendizagem, cada classe é também descrita por um vetor de distribuições de pesos que sintetiza as informações dos exemplos da classe. Cada novo exemplo a ser atribuído a uma classe (etapa de alocação), representado por um vetor de intervalos, após a fase de pré-processamento passa a ser descrito por um vetor de distribuições de pesos. A alocação de um exemplo a uma classe é realizada através de funções de dissimilaridade que comparam pares de vetores de distribuições de pesos. Algumas funções de dissimilaridade desse tipo são consideradas nesse trabalho. A avaliação do desempenho desse classificador é realizada através da aplicação do mesmo a conjuntos de dados sintéticos em uma experiência Monte Carlo e a conjuntos de dados reais usando a técnica de validação cruzada leave-one-out. O desempenho é medido pela taxa (média) de erro de classificação e pelo tempo de execução das etapas de aprendizagem e classificação. Além disso, o desempenho desse classificador foi comparado com o desempenho de um classificador de tipo k-vizinhos mais próximos também de semântica modal. Através desses exemplos, esse trabalho mostra alguns dos interesses desse classificador de semântica modal.. Palavras-chave: Analise de Dados Simbólicos, Classificador Simbólico Modal, Classificação Supervisionada, Dados Simbólicos Modas, Funções de Dissimilaridade.. - vi -.

(7) CONTEÚDO 1 Introdução ................................................................................................................ 11 1.1. Motivação ................................................................................................ 11. 1.2. Objetivos .................................................................................................. 12. 1.3. Organização da dissertação.................................................................... 13. 2 Classificadores Simbólicos .................................................................................... 16 2.1. Introdução ............................................................................................... 16. 2.2. Dados Usuais........................................................................................... 17. 2.3. Dados Simbólicos .................................................................................... 18 2.3.1 Dados Simbólicos descrevendo indivíduos ................................. 18 2.3.2 Dados Simbólicos descrevendo classes de indivíduos................ 19 2.3.3 Variáveis Simbólicas ...................................................................... 19 2.3.3.1 Variáveis Multivaloradas........................................................ 19 2.3.3.2 Variável do tipo modal ........................................................... 20 2.3.4 Operadores simbólicos................................................................... 20. 2.4. Análise Discriminante Fatorial para dados simbólicos ....................... 21. 2.5. Redes Multi-Layer Perceptron para dados simbólicos ........................ 24 2.5.1 Método dos valores extremos........................................................ 25 2.5.2 Método probabilísticos................................................................... 26. 2.6. Discriminante de Kernel para dados simbólicos.................................. 26. 2.7. Árvore de classificação para dados simbólicos .................................... 28. 2.8. Classificador baseado em região do tipo casca convexa...................... 30 2.8.1 Regiões e Grafos ............................................................................. 30 2.8.2 Casca Convexa................................................................................ 31. 2.9. K-vizinhos mais próximos para dados simbólicos............................... 32. 2.10 Conclusão ................................................................................................ 34 3 Classificador Modal ................................................................................................ 35 3.1. Módulo de Aprendizagem ..................................................................... 36 3.1.1 Etapa de Pré-processamento ......................................................... 36 3.1.2 Etapa de Generalização.................................................................. 39 - vii -.

(8) Conteúdo. 3.2. Módulo de Alocação ............................................................................... 40 3.2.1 Etapa de Pré-processamento ......................................................... 41 3.2.2 Etapa de Afetação........................................................................... 42 3.2.3 Funções híbridas de dissimilaridade para dados modais........... 44 3.2.3.1 Função híbrida de dissimilaridade baseada em um coeficiente de afinidade ................................................................ 45 3.2.3.1 Função híbrida de dissimilaridade baseada em uma distância de Minkowski Lr ........................................................... 47 3.2.3.1 Função híbrida de dissimilaridade baseada em um índice de acordo e desacordo ....................................................... 48. 3.3. Algoritmo................................................................................................. 51. 3.4. Conclusão ................................................................................................ 52. 4 Classificador K-vizinhos mais próximos para dados intervalares .................. 53 4.1. Módulo de Aprendizagem ..................................................................... 54. 4.2. Módulo de Alocação ............................................................................... 55. 4.3. Conclusão ................................................................................................ 57. 5 Avaliação Experimental.......................................................................................... 58 5.1. Dados Sintéticos do tipo Intervalo ........................................................ 58. 5.2. Experiências Monte Carlo ...................................................................... 62 5.2.1 Resultados da taxa de erro ............................................................ 62 5.2.2 Resultados do tempo (em segundos)............................................ 65. 5.3. Aplicação com um conjunto de dados intervalares reais .................... 67. 5.5. Software do classificado modal e do ID-KNN ..................................... 69. 5.5. Conclusão ................................................................................................ 73. 6 Conclusão e Trabalhos Futuros ............................................................................. 74 6.1. Trabalhos Futuros ................................................................................... 75. Apêndice A.................................................................................................................. 76 Referências .................................................................................................................. 81. - viii -.

(9) LISTA DE FIGURAS Figura 2.1 Operadores Junção e Conjunção......................................................................... 21 Figura 3.1 Distribuição de pesos das classes 1 (a) e 2 (b) .................................................... 40 Figura 5.1 Conjunto de dados quantitativos 1...................................................................... 59 Figura 5.2 Conjunto de dados quantitativos 2...................................................................... 60 Figura 5.3 Conjunto de dados simbólicos 1 ......................................................................... 61 Figura 5.4 Conjunto de dados simbólicos 2 ......................................................................... 70 Figura 5.5 Janela de execução do classificador modal ......................................................... 70 Figura 5.6 Janela de execução do classificador ID-KNN ..................................................... 70. - ix -.

(10) LISTA DE TABELAS Tabela 2.1 Tabela de dados usuais....................................................................................... 18 Tabela 3.1 Uma tabela de dados simbólicos do tipo intervalo .............................................. 37 Tabela 3.2 Descrições modais dos indivíduos da Tabela 3.1 ................................................ 38 Tabela 3.3 Descrições modais para as classes de indivíduos da Tabela 3.2 .......................... 39 Tabela 3.4 Novos objetos descritos por uma variável simbólica do tipo intervalo ................ 42 Tabela 3.5 Descrições modais para os objetos da Tabela 3.4 ............................................... 42 Tabela 3.6 Descrições modais das classes de acordo com o objeto ...................................... 43 Tabela 3.7 Índices de desacordo e acordo para dados modais .............................................. 48 Tabela 5.1 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d1 ................................ 62 Tabela 5.2 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d2 ............................... 63 Tabela 5.3 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d3 ................................ 63 Tabela 5.4 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 2 de acordo com a função de agregação d1 ................................ 64 Tabela 5.5 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 2 de acordo com a função de agregação d2 ................................ 64 Tabela 5.6 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 2 de acordo com a função de agregação d3 ................................ 64 Tabela 5.7 Testes de Hipóteses t-Student usando a função de agregação d1 ......................... 65 Tabela 5.8 A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 1 conforme função de agregação dz (z=1,2,3) ......... 66 Tabela 5.9 A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 2 conforme função de agregação dz (z=1,2,3) ......... 66 Tabela 5.10 Valores máximo e mínimo de temperaturas em graus centígrados de 37 cidades ........................................................................................................................ 68 Tabela 5.11 Média (%) da taxa de erro para a temperatura das cidades do conjunto de dados simbólicos do tipo intervalo de acordo com a função de agregação dz (z=1,2,3)68 Tabela 5.12 Resultado da classificação das cidades do conjunto de dados intervalares temperatura...................................................................................................... 71 Tabela 5.13 Informações do sistema e entradas para o classificador modal.......................... 71 Tabela 5.14 Informações do sistema e entradas para o classificador ID-KNN...................... 71. -x-.

(11) Capítulo 1. 1. Introdução 1.1. Motivação A disseminação do uso dos computadores nas organizações tem alterado radicalmente a maneira como as aplicações são conduzidas. A cada dia, mais operações corriqueiras são automatizadas e a cada nova transação, como compras com cartão de crédito, operações bancárias, novos registros correspondentes são armazenados. Sistemas de gerenciadores de banco de dados estão presentes na maioria das organizações públicas e empresas de médio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. Além disso, avanços em aquisição de dados, desde um simples leitor de código de barras até sistemas de sensoriamento remoto geram grandes volumes de dados. Entretanto num ambiente mutável torna-se necessário novas técnicas e ferramentas de extração e análise de conhecimentos que agilizem o processo decisório de uma empresa. A realização de Data Warehousing [Garden, 1998] é considerado um dos primeiros passos para tornar factível a análise de grande quantidade de dados no apoio ao processo decisório. O objetivo é criar um repositório, conhecido como Data Warehouse (DW), que contem dados limpos, agregados e consolidados. No entanto, a análise de dados através de um DW geralmente não extrapolam a realização de simples consultas e diante disto, diversos estudos têm sido direcionado ao desenvolvimento de tecnologias de extração automática de conhecimentos. A descoberta de conhecimentos de dados (Knowledge Discovery in Database KDD) [Fayyad et al, 1996] é uma área de pesquisa em bastante evidência no momento que visa desenvolver meios automáticos de prospecção de conhecimento em grandes bases de dados. As ferramentas para execução do processo de mineração são genéricas e derivadas de diferentes áreas de conhecimento tais como da estatística, inteligência artificial e banco de dados. As técnicas estatísticas multivariadas englobam algoritmos que podem ser aplicados para descobrir estruturas em um conjunto de dados. Embora as técnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e analisar conjuntos de dados clássicos, com o explosivo crescimento das tecnologias da. - 11 -.

(12) 1.2 Objetivos informação estas técnicas têm sido inapropriadas para tratar conjuntos de dados representados por informações mais complexas como, por exemplo, intervalos. Além disso, os métodos estatísticos não possuem estruturas adequadas que possibilitem sintetizar grandes conjuntos de dados perdendo o mínimo possível de informação dos dados originais. Como uma alternativa para generalizar as atuais técnicas estatísticas para estas informações mais complexas, surge a análise de dados simbólicos (Symbolic Data Analysis (SDA)). A análise de dados simbólicos [Billard & Diday, 2000] é uma abordagem na área da descoberta automática de conhecimentos (KDD) e gerenciamento de dados, relacionada com análise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. O principal objetivo de SDA é desenvolver métodos para tratamento de dados mais complexos como intervalos, conjuntos e distribuição de probabilidades ou de pesos. SDA inicia com a agregação/redução de bases de dados clássicos em uma estrutura mais complexa chamada de dados simbólicos, pois eles contêm variação interna e são estruturados. A etapa seguinte consiste na extensão dos métodos e algoritmos de extração de conhecimentos (técnicas estatísticas) a partir de dados usuais, para os dados simbólicos. A motivação deste trabalho é construir um classificador para dados descritos por vetores de valores quantitativos, onde a representação das classes é dado por uma descrição simbólica do tipo modal (uma distribuição de pesos) para cada uma das classes de indivíduos e usar essas descrições modais para classificar novos exemplos usando funções de proximidades para dados modais.. 1.2. Objetivos O objetivo principal deste trabalho é implementar uma abordagem para o classificador baseado em uma descrição simbólica do tipo modal para dados do tipo intervalo e utilizando várias distâncias baseadas em funções hibridas de comparação que medem a dissimilaridade entre vetores da distribuição dos pesos. No contexto das aplicações os seguintes pontos serão abordados: •. Implementar o classificador Modal para Dados Intervalaras de Semântica Modal utilizando a linguagem de programação C/C++.. - 12 -.

(13) 1.3 Organização da dissertação •. A avaliação experimental do classificador de semântica modal para dados do tipo intervalo que será discutido no capítulo 3 verificando o desempenho do classificador modal com dados sintéticos e reais do tipo intervalo.. •. Implementar o classificador k-vizinhos mais próximos para dados intervalares ID-KNN ( Interval Data K-Nearest Neighbor ) que é uma adaptação do SO-NN (Symbolic Objects Nearest Neighbor) proposto por [Appice et al, 2006].. •. Fazer um estudo comparativo do desempenho do classificador de semântica modal para dados do tipo intervalo com o desempenho do classificador ID-KNN.. 1.3. Organização da dissertação Além deste capítulo, no qual foi apresentado tanto a motivação quanto o objetivo principal do trabalho, esta dissertação será apresentada em mais cinco capítulos que são:. Capítulo 2 Classificadores Simbólicos A finalidade deste capítulo é fornecer uma breve explanação sobre as extensões para dados simbólicos dos algoritmos de classificação supervisionada clássicos. Iniciaremos apresentando os dois tipos de dados que os classificadores aceitam com entrada: os dados usuais (seção 2.2) e os dados simbólicos (seção 2.3). Nas seções subseqüentes entraremos em detalhe na abordagem simbólica de alguns algoritmos de classificação supervisionada clássicos. Análise Discriminante Fatorial para dados simbólicos na seção 2.4; Redes multilayer perceptron para dados simbólicos na seção 2.5; Discriminante kernel para dados simbólicos na seção 2.6; Árvore de classificação para dados simbólicos na seção 2.7. Classificador Simbólico baseado em Região tipo Casca Convexa na seção 2.8; O classificador SO-NN na seção 2.9; Por fim a conclusão na seção 2.10.. - 13 -.

(14) 1.3 Organização da dissertação Capítulo 3 Classificador Modal Esse capítulo apresenta um classificador de semântica modal para dados do tipo intervalo. A entrada do classificador modal é uma tabela de dados cujas linhas são objetos (indivíduos) e cujas colunas são valores assumidos por variáveis simbólicas do tipo intervalo. Nas seções (3.1) e (3.2) são propostas com maiores detalhes os módulos de aprendizagem e de alocação do classificador modal para dados do tipo intervalo, respectivamente. Na seção (3.3) é descrito o algoritmo de construção do classificador modal. Para finalizar, a seção (3.4) apresenta a conclusão e considerações finais desse capítulo. Capítulo 4 Classificador k-vizinhos mais próximos para dados intervalares (IDKNN) Neste capítulo é apresentado o algoritmo de construção do classificador IDKNN que foi implementado nesse trabalho com o intuito de viabilizar a comparação entre esse e o classificador modal. Nas seções (4.1) e (4.2) são propostas com maiores detalhes os módulos de aprendizagem e de alocação do classificador ID-KNN, respectivamente. Por fim neste capitulo temos uma conclusão na seção (4.3).. Capítulo 5 Avaliação Experimental Esse capítulo apresenta uma avaliação experimental do classificador de semântica modal para dados do tipo intervalo discutido no capítulo 3 Que será dividido em quatro seções. Na seção (5.1) são apresentados os dados sintéticos que foram utilizados nas experiências. Na seção (5.2) veremos as experiências de Monte Carlo e os resultados da taxa de erro e do tempo para dados sintéticos. Na seção (5.3) teremos uma aplicação com um conjunto de dados intervalares reais. Na seção (5.4) explanamos sobre o software desenvolvido e na última seção (5.5) é exposta uma conclusão dessa avaliação experimental.. - 14 -.

(15) 1.3 Organização da dissertação Capítulo 6 Conclusão e Trabalhos Futuros Neste capítulo serão mostradas a conclusão e as considerações finais deste trabalho bem como os trabalhos futuros que poderão ser realizados a partir da idéia aqui apresentada.. - 15 -.

(16) Capítulo 2. 2. Classificadores Simbólicos 2.1. Introdução A Analise de Dados Simbólicos é um domínio novo na área de descoberta do conhecimento e de gerenciamento de dados, relacionado à análise multivalorada, reconhecimento de padrões e a inteligência artificial. Com o aumento do interesse da comunidade científica pela a análise de dados simbólicos, alguns dos algoritmos de classificação supervisionada clássicos atualmente já possuem uma extensão para dados simbólicos. Em [Palumbo et al, 2000] foi proposto uma generalização da Análise Discriminante Fatorial para dados simbólicos. Em [Rossi & Conan-Guez, 2002] foi elaborado dois métodos que permitem o uso de dados simbólicos do tipo intervalo como entrada para redes multi-layer perceptrons, já em [Rasson & Lissoir, 2000] foi apresentado uma abordagem da Análise do Discriminante Kernel para dados simbólicos. Em [Ciampi et al, 2000] foi proposto estender o algoritmo de crescimento de árvore de classificação para dados imprecisos. Em [D’Oliveira et al, 2004] foi introduzido um classificador para dados descritos por vetores de valores quantitativos baseado em regiões de tipo casca convexa. Em [Appice et al, 2006] foi introduzido um processo aprendizagem dita “preguiçosa” SO-NN (Symbolic Objects Nearest Neighbor) que é um classificador baseado em exemplos que estende o k-vizinho mais próximo (kNN) a objetos simbólicos. Em sua grande maioria os classificadores para dados simbólicos também aceitam como entrada dados usuais. Portanto para um melhor entendimento deste capitulo apresentaremos brevemente os dados usuais (seção 2.2) e os dados simbólicos (seção 2.3). Nas seções subseqüentes serão discutidos detalhes sobre cada algoritmo de classificação mencionado anteriormente. Análise Discriminante Fatorial para dados simbólicos na seção 2.4; Redes Multi-Layer Perceptron para dados simbólicos na seção 2.5; Discriminante Kernel para dados simbólicos na seção 2.6; Árvore de classificação para dados simbólicos na seção 2.7; Classificador Simbólico baseado em Região tipo Casca Convexa na seção 2.8; O classificador SO-NN na seção 2.9; Por fim a conclusão na seção 2.10.. - 16 -.

(17) 2.2 Dados Usuais. 2.2. Dados usuais Os dados usuais descrevem situações relativamente simples, tais como mostrado na Tabela 2.1. Estes dados são obtidos principalmente pelas características de indivíduos (pessoas, objetos, produto), e sua principal propriedade é que tais características são definidas por um único valor cada. A seguir uma definição mais formal. Para um dado número n de objetos Ω = {1,2,..., n} , p variáveis Y1 , K , Yp descrevem suas características. A variável clássica Yi é definida como o mapeamento de um único valor de Ω para γ i , sendo γ i o domínio de Yi , tal que xki = Yi (k ) é o valor observado para o indivíduo k [Bock, 2000]. As variáveis usuais podem ser classificadas como quantitativas ou qualitativas conforme as definições abaixo: Yi. é quantitativa se γ i é idêntico ou está contido em ℜ : γ i ⊆ ℜ . As variáveis. quantitativas podem ser subdivididas em: I. Quantitativa contínua se γ i é um intervalo de ℜ . II. Quantitativa discreta se γ i é um conjunto finito ou infinito contável de valores de ℜ . Yi. é qualitativa (categórica) se γ i é finito e seus elementos são categorias sem. significado numérico. As variáveis qualitativas também podem ser subdivididas conforme o seguinte: I. Qualitativa nominal se γ i não possui estrutura interna. II. Qualitativa ordinal se existe uma ordem linear total entre as categorias de γi .. A Tabela 2.1 é uma tabela de dados usuais para 5 indivíduos com 3 variáveis quantitativas peso, altura e idade, sendo peso e altura quantitativas contínuas e idade quantitativas discreta; e 2 variáveis qualitativas cor e grau de instrução, sendo cor qualitativa nominal e grau de instrução qualitativa ordinal.. - 17 -.

(18) 2.3 Dados Simbólicos Tabela 2.1 Tabela de dados usuais Indivíduo. Cor. k1. Branco. 18. 1,60. 50. Ensino médio. k2. Negro. 29. 1,75. 73. Superior. k3. Pardo. 35. 1,70. 86. Pós-graduação. k4. Branco. 19. 1,65. 55. Ensino médio. k5. Pardo. 26. 1,81. 65. Ensino médio. Idade (anos) Altura (m) peso (Kg) Grau de instrução. 2.3. Dados Simbólicos Muitas vezes é necessário que as variáveis de um objeto k assumam informações mais complexas tais como histogramas, distribuição de probabilidade, intervalos e conjuntos. Em determinados casos da análise de dados usuais são inadequados, sendo necessário à utilização de um tipo de dado mais complexo e que possa fornecer mais informação, os dados simbólicos. Ilustraremos o conceito de dados simbólicos através de exemplos: dados simbólicos para indivíduos e dados simbólicos para grupos de indivíduos, em seguida daremos uma definição formal de variáveis para dados simbólicos e um individuo k qualquer.. 2.3.1.. Dados simbólicos descrevendo indivíduos. Podemos analisar as atividades de um atleta (individuo) k que possuem características que são melhores representadas por dados simbólicos. Como por exemplo a variável Y : tempo de treinamento diário, um único valor (8hs por exemplo) não representaria a variação diária, logo o valor Y (k ) poderia ser: 1. Intervalo de horas Y (k ) :[0,14], 2. Uma distribuição de probabilidade Y (k ) : ((0,0.1); (4,0.2); (8,0.5); (12,0.2)), onde no par (a,b), a é o número de horas e b é a probabilidade associada.. - 18 -.

(19) 2.3 Dados Simbólicos. 2.3.2.. Dados. simbólicos. descrevendo. classes. de. indivíduos Os dados simbólicos são especialmente adequados para representar classes de indivíduos (objetos agregados). Vamos considerar que estamos analisando os municípios da Região Metropolitana do Recife (conjuntos de indivíduos) e k é um desses municípios; uma características a ser considerada seria Y : grau de instrução dos habitantes. O valor Y (k ) poderia ser: 1. O conjunto de graus de instrução Y (k ) : analfabeto, fundamental, médio, superior, pós-graduação. 2. Mais adequadamente uma distribuição de probabilidade Y (k ) : ((analfabeto,0.2); (fundamental,0.3); (médio,0.3); (superior,0.1); (pós-graduação,0.1)).. 2.3.3.. Variáveis Simbólicas 2.3.3.1.. Variáveis Multivaloradas. A variável simbólica Y definida para cada indivíduo k de um conjunto de n indivíduos é dita como multivalorada com domínio γ se Y (k ) é subconjunto de γ . 1. Uma variável Y é dita multivalorada categórica se γ é um conjunto finito de. categorias onde estas variáveis categóricas podem ser subdivididas em nominais e ordinais. •. Variáveis Multivaloradas Nominais: não dispõem de uma ordem entre seus elementos: Instituições bancárias Y (k ) : Banco do Brasil, Itaú, Bradesco, Caixa, Banco Real.. •. Variáveis Multivaloradas Ordinais: onde seus elementos descrevem uma ordem pré-definida: Faixa Etária Y (k ) : Criança, Jovem, Adulto, Idoso.. 2. Uma variável Y é dita multivalorada quantitativa se Y (k ) é um conjunto finito de. números reais. Números de filhos Y (k ) : 0, 1, 2, 3, 4, 5, 6.. - 19 -.

(20) 2.3 Dados Simbólicos 3. Uma variável Y é dita multivalorada do tipo intervalo se Y (k ) é um intervalo dos. números reais ou um intervalo com respeito a uma determinada ordem em γ . Salário em Recife Y (k ) : [200,8000].. 2.3.3.2.. Variável do tipo modal. A variável modal Y definida sobre um conjunto E = {a, k , K} de objetos com domínio γ é uma função Y (k ) = (S (k ), q (k )) onde: •. q(k ). é uma medida ou uma distribuição(freqüência, pesos, probabilidade) definida. no domínio γ . •. S (k ) ⊆ γ. é o suporte de q no domínio γ .. As variáveis modais associam para cada categoria y ∈ Y (k ) , distribuição de freqüências, pesos ou probabilidades que indica quão freqüente, típico ou relevante a categoria y é considerada para o objeto k.. 2.3.4.. Operadores Simbólicos. Supomos dois indivíduos a, b ∈ E descritos por p variáveis simbólicas como segue:. a = (Y1 (a ), K , Y j (a ),K , Y p (a )) = (A1 ,K , A j ,K , A p ) b = (Y1 (b ),K , Y j (b ), K , Y p (b )) = (B1 , K , B j ,K , B p ) Onde cada variável simbólica Yj possui valores no domínio Dj, e Aj e Bj são subconjuntos de Dj. Seja junção representada por ⊕ e conjunção por ⊗ : •. Junção: A junção possui uma formulação diferente a depender do tipo da variável que faz a operação como argumentos. Se a variável for uma variável do tipo intervalo ou do tipo ordinal, nós temos A j = [ A jl , A ju ] e B j = [ B jl , B ju ] , mas se a variável forem do tipo quantitativa a junção se transforma em união A j e B j (veja a equação 2.1).. - 20 -.

(21) 2.4 Análise Discriminante Fatorial para dado Simbólicos. min( A , B ), max( A , B ) variável ordinal e intervalar  jl jl ju ju  A ⊕ B =  j j  A U B variável quantitativa j  j. •. (2.1). Conjunção: A conjunção de dois subconjuntos A j , B j ⊆ D j é definida como segue: A ⊗ B = Aj I B j j j. (2.2). Para uma melhor entendimento de como se comportam esses operadores temos a seguir uma visualização gráfica para ilustrar como mostra a figura 2.1. A ⊗B j j. A ⊕B j j. Figura 2.1: Operadores junção e conjunção. 2.4. Análise Discriminante Fatorial para dados Simbólicos A análise estatística multivariada utilizando funções discriminantes foi inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos sobre os quais tinham sido feitas diversas e idênticas mensurações. Análise Discriminante refere-se a um conjunto de técnicas cujo objetivo é descrever as relações entre um conjunto de p variáveis quantitativas (descritores) e uma variável categórica com m rótulos, a variável classificatória que define a partição da população de interesse em m classes. São considerados dois aspectos principais na Análise Discriminante:. - 21 -.

(22) 2.4 Análise Discriminante Fatorial para dado Simbólicos •. Uma seleção do melhor subconjunto dos descritores originais (aspecto de seleção).. •. A construção da regra de decisão (regra de classificação) com objetivo de classificar elementos em uma das m classes (aspecto classificatório). O aspecto de seleção na Análise Discriminante Fatorial (Factorial Data Analysis. - FDA) [Johnson & Wichern, 2001] é constituído em termos de combinação linear das p variáveis descritoras originais que são escolhidas de forma que se obtenha a melhor visualização das classes no espaço fatorial. O aspecto classificatório da FDA é realizado pela definição da regra de classificação geométrica que se baseia na proximidade entre o individuo e a classe. A Análise Discriminante Fatorial para Dados Simbólicos é um método simbólico-numérico, baseado em uma analise numérica dos dados simbólicos transformados e em uma interpretação simbólica dos resultados. Este método é constituído dos seguintes passos. I. Quantificação dos descritores. II. FDA nos descritores quantificados. III. Interpretação simbólica dos resultados. A primeira etapa da Análise Discriminante Fatorial para Dados Simbólicos que é a quantificação dos descritores é realizada pela transformação numérica do dado simbólico que consiste em uma determinada codificação adequada de acordo com o tipo de variável (seção 2.3). Ao final deste processo obtemos N descritores numéricos. A segunda etapa assume θ j , ∀j = 1,K, N como os novos descritores. O número de coordenadas a serem mantidas na análise discriminante fatorial é escolhida de forma usual para N o número de descritores e m o número de classes a porcentagem de variância dos descritores aplicada das q ≤ min (m, N − 1) primeiras. coordenadas. Na ultima fase a representação é feita pela definição da regra de classificação geométrica. Considerando que ambos a instância a ser classificada e as classes são representados no espaço fatorial por retângulos. A classificação da instância em uma classe Ci é definida de acordo com dois eventos:. - 22 -.

(23) 2.4 Análise Discriminante Fatorial para dado Simbólicos i.. Se o exemplo (retângulo) estiver incluído na classe Ci , este é rotulado a esta classe.. ii.. Se o exemplo está parcialmente ou completamente fora de todas as classes ou dentro de uma área de sobreposição entre duas ou mais classes, considera-se uma medida de similaridade para determinar a qual classe Ci o elemento pertence.. Na literatura existem algumas regras de classificação geométrica [Bock & Diday, 2000], podemos destacar àquelas baseadas no potencial descritor π (.) , definido por De Carvalho [De Carvalho, 1992] como o volume do produto cartesiano dos domínios das variáveis. Abaixo apresentamos uma regra de classificação baseada no potencial descritor.. Regra de classificação baseada em uma extensão da medida de dissimilaridade de Minkowsky Esta medida de dissimilaridade baseada em uma medida de dissimilaridade proposta por Ichino e Yaguchi [Ichino & Yaguchi, 1994] e generalizada para dado simbólico por De Carvalho e Diday [De Carvalho & Diday, 1998]:. [. ]. d (ω j , ωs ) = m ∑ pαψ α (ω j , ωs ). m. (2.1). α. Onde ω j e ωs são a representação fatorial de dois elementos j e s na coordenada α e m é o número de coordenadas fatoriais,. Ψ (ω j , ωs ) =. µ (Sαs ⊕ Sαj ) − µ (Sαs I Sαj ) + γ (2 µ (Sαs I Sαj ) − µ (Sαs ) − µ (Sαj )) µ (Sαs ⊕ Sαj ). (2.2). Com γ ∈ [0,1] , µ (Sαs ) é o tamanho do intervalo do elemento na coordenada α ,. µ (Sαs ⊕ Sαj ) é o tamanho da junção dos intervalos dos elementos j e s na coordenada. α , µ (Sαs I Sαj ) é o tamanho da conjunção de dos intervalos dos elementos na coordenada α . - 23 -.

(24) 2.5 Redes Multi-Layer Perceptron para dados Simbólicos Dado um exemplo u de um conjunto de teste, ele será alocado a uma determinada classe Ci se a média das distâncias entre u e todos os elementos da classe Ci for menor em relação a todas as médias das outras classes.. 2.5. Redes Multi-Layer Perceptron para dados simbólicos As Redes Neurais Artificiais, RNAs, são sistemas paralelos e distribuídos compostos por unidades de processamentos simples (nodos) que computam determinadas funções matemáticas (usualmente não lineares), normalmente adaptativas, cuja organização e funcionamento destas redes é inspirado em uma estrutura física concebida pela natureza do cérebro humano [Braga et al, 2000]. Tais unidades são dispostas em uma ou mais camadas e interligadas por um grande número de conexões, geralmente, unidirecionais. Na maioria dos modelos estas conexões estão associadas a pesos, os quais armazenam o conhecimento representado no modelo e servem para ponderar a entrada recebida por cada neurônio da rede. O funcionamento destas redes é inspirado em uma estrutura física concebida pela natureza do cérebro humano. Dentre os vários modelos de redes neurais artificiais, a rede Perceptron MultiCamadas (multi-layer perceptron - MLP) é a mais difundida. Tipicamente, a rede consiste de um conjunto de unidades sensoriais que constituem a camada de entrada, uma ou mais camadas escondidas e uma camada de saída de nós computacionais. Seu poder computacional excede a capacidade das redes simples sem camada intermediária como Perceptron e Adaline, podendo tratar dados que não são linearmente separáveis [Braga et al, 2000]. As principais características de uma rede MLP são: •. Número mínimo de três camadas (entrada, escondida, saída);. •. Apresenta um alto grau de conectividade entre as camadas;. •. Fluxo de informação unilateral;. •. O modelo de cada unidade de processamento inclui um função de ativação nãolinear, normalmente a logística (sigmóide) ou a tangente hiperbólica;. - 24 -.

(25) 2.5 Redes Multi-Layer Perceptron para dados Simbólicos •. A fim de ajustar as conexões entre as unidades de processamento é utilizado um algoritmo de treinamento; O backpropagation [Rumelhart & McClelland, 1986] é o algoritmo de. treinamento supervisionado mais conhecido para as redes MLP. Para tanto, utiliza pares de entrada associados com a saída desejada para ajustar os pesos da rede por um mecanismo de adaptação por correção de erros em duas fases (forward e backward). O backpropagation baseia-se na regra delta generalizada, recorrendo ao método do. gradiente para ajustar os pesos das conexões entre os nodos. Em [Rossi & Conan-Guez, 2002] foi estudado dois tipos de métodos que permitem o uso de dados simbólicos do tipo intervalo como entrada para redes MLP´s: a abordagem dos valores extremos e dois procedimentos probabilísticos. Estes métodos possuem as seguintes características: •. Podem ser implementados facilmente em software de redes neurais existentes. Um outro método baseado na idéia da aritmética do intervalo [Simoff, 1996] necessita que todas as etapas da rede neural (inicialização, treinamento, visualização, etc.) sejam modificadas e adaptadas ao método.. •. A MLP treinada com intervalos através de um destes métodos suporta tanto intervalos como dados usuais quantitativos como entrada. Esta característica é importante já que um dado usual pode ser considerado um intervalo cujos limites sejam iguais.. 2.5.1.. Método dos valores extremos. A forma mais simples de se tratar intervalo com entrada para uma MLP é transformar cada intervalo em um par de dados usuais, por exemplo os limites inferiores e superiores do intervalo, ou o centro e amplitude do intervalo. Com este artifício é possível utilizar a MLP clássica, porém dobra a quantidade de dados de entrada. A fim de usar dados usuais em uma MLP treinada com o método dos valores extremos, deve-se replicar estes dados, isto é, uma entrada (x1 , K , xn ) torna-se. (x1 , x1 , K, xn , xn ) .. - 25 -.

(26) 2.6 Discriminante de Kernel para dados Simbólicos. 2.5.2.. Método probabilísticos. Uma forma de tratar dados do tipo intervalo é considera-los como simples dados probabilísticos. Se uma amostra para a MLP é descrita pelo intervalo [a,b], uma possível interpretação é presumir que de fato a amostra pode assumir qualquer valor entre a e b, com probabilidade uniforme. Baseado nesta premissa, o método da média substitui cada intervalo pela sua média e treina a rede com os valores obtidos. Dados usuais são tratados diretamente. Uma outra maneira de proceder é substituir cada amostra por um conjunto de valores reais. Estes valores são obtidos a partir de simulação, supondo que o intervalo [a,b] corresponde a uma distribuição uniforme em [a,b]. Esta abordagem é chamada de método de simulação. Para entradas novas de dados usuais, é usada a MLP treinada diretamente. Para entradas novas do tipo intervalo são gerados valores reais simulados e computada a saída correspondente normalmente.. 2.6. Discriminante. de. Kernel. para. dados. Simbólicos Nesta seção apresentaremos o método estatístico de classificação supervisionado conhecido como função kernel. Inicialmente apresentaremos o caso clássico e por fim a abordagem simbólica. Consideremos que o conjunto de treinamento é formado pelas classes Π1 ,K, Π g e estas, por sua vez, são descritas por g densidades de probabilidades,. f1 ( x ),K, f g ( x ) .Quando as densidades são conhecidas, o problema da classificação é resolvido facilmente pelos métodos de máxima verossimilhança ou pela regra de Bayes (caso também seja fornecida a probabilidade a priori). Na maioria dos casos reais, porém, não é possível supor um modelo paramétrico sobre as densidades de probabilidade das classes. Nestas circunstâncias, métodos não paramétricos devem ser usados para obter as estimativas das densidades. O discriminante kernel é um destes métodos.. - 26 -.

(27) 2.6 Discriminante de Kernel para dados Simbólicos O estimador de densidade kernel para a densidade de probabilidade f k , 1 ≤ k ≤ g , e dado quantitativo d-dimensional é fornecido pela seguinte expressão:. fˆk ( x ) =. 1 d nk (2hk ). nk.  x − xki   , x ∈ ℜ d , h  k . ∑ K  i =1. (2.3). onde •. hk > 0. •. ∑. nk. i =1. é a largura da janela pré definida para a k-ésima população.  x − xki K   hk.   . informa o número de elementos do conjunto de treinamento cuja. distância seja menor que hk de x.. Como já vimos, o estimador de densidade de kernel é uma ferramenta que permite o estatístico construir densidade em qualquer conjunto de dados [Rasson & Lissoir, 2000]. Afim de adaptar o método para dados simbólicos, algumas novas medidas de densidades faz-se necessária. Vamos supor que cada indivíduo seja descrito por p variáveis simbólicas. (. X = Y1 , K , Y p. ).. Com objetivo de resolver o problema de discriminação para dados. simbólicos, teremos que encontrar analogia com o estimador de densidade clássico apresentado anteriormente, que mede a concentração de dados na vizinhança de X = x . Desta forma, a estimação de densidade é realizada contando os pontos do conjunto de treinamento de cada população dentro do “hipercubo”, usando uma medida de dissimilaridade d1 [Esposito et al, 2000] entre os objetos simbólicos x,y: 1 Iˆk (x ) = nk. nk. ∑ K (x ) x ,h. ki. (2.4). i =1. onde 1 K x ,h ( y ) =  0. se. d1 ( x , y ) < h. se. d 1 ( x, y ) ≥ h. - 27 -. (2.5).

(28) 2.7 Árvore de classificação para dados simbólicos. 2.7. Árvore de classificação para dados simbólicos As arvores de classificação ([Breiman el al, 1984] e [Ciampi, 1992]) tem como objetivo predizer o número de objetos em k classes representados pela variável categórica c através da medição de uma ou mais variáveis preditoras. Em outras palavras, consiste em encontrar as probabilidades P[ c |y], c ∈ {1, K , k } , onde y denota a descrição de um objeto pelas variáveis preditoras. O algoritmo de árvore de classificação compõe-se de quatro etapas básicas [Lewis, 2000]. Na primeira temos a construção da árvore, utilizando algoritmo de partição recursiva dos nós. Cada nó resultante é atribuído a uma classe, baseando na probabilidade a priori de cada classe, da matriz de custo e na fração de elementos de cada classe no nó resultante. A segunda etapa consiste parar o processo de construção da árvore. Neste ponto foi produzida uma árvore “máxima” que provavelmente sobre ajustou a informação contida na base de treinamento. Já a terceira etapa consta da poda da árvore que resulta na criação de uma seqüência de árvores cada vez mais simples. Por fim a quarta etapa é a seleção da árvore ótima, aquela que ajusta melhor a informação da base de aprendizagem sem sobre ajustá-la. Em algoritmos de construção de arvores de classificação clássicos (por exemplo nos métodos CART ou RECPAM, respectivamente, propostos por ]Breiman et al, 1984] e [Ciampi, 1992]), os dados usuais estudados são considerados por uma amostra de aprendizagem denotada por L = {(ci , yi ); i = 1,K, N }. No contexto de objetos simbólicos, nós agora representaremos e generalizaremos esta série de dados de como uma lista β (para dados) das asserções: β = {ai ∧ bi ; i = 1,K, N } onde ai e bi são asserções, respectivamente, definidas nas variáveis C e Y. O método apresentado em [Ciampi et al, 2000] propõe estender o algoritmo de construção de árvore para dados imprecisos ou probabilísticos. O objetivo do método proposto é construir interativamente a partir de uma lista de dados simbólicos β (base de treinamento), com ajuda de um procedimento de partição interativa, outra lista ω (menor) de dados simbólicos que constitui a melhor representação da lista β.. ω = {α t ∧ γ t ; t = 1,K, T }. - 28 -.

(29) 2.7 Árvore de classificação para dados simbólicos onde α t ∧ γ t ,é a descrição de uma folha t da árvore (isto é, de uma região t do espaço da descrição). Pelo sumário ω, nós consultamos assim às descrições das sub-populações associadas aos nós terminais da árvore binária. Quanto para a série de dados de β , um objeto do sumário ω é expresso também nos termos das asserções α t e γ t , respectivamente, definida no critério e nas variáveis preditoras. Em outras palavras, o objetivo do método é aumentar interativamente o conjunto. ω, que a cada passo, produz a melhor informação significativa sobre o conjunto β. Este processo é escrito em forma do seguinte problema de maximização: Max GInf(ω,β). (2.6). Onde GInf é uma medida geral de informação que expressa um conceito de adequação entre dois conjuntos de asserções. A idéia geral da partição simbólica recursiva é resumida no algoritmo abaixo:. 1. Entrada: CONJUNTO DOS DADOS SIMBÓLICOS A SEREM ESTUDADOS (β). 2. PARTICIONAMENTO SIMBÓLICO RECURSIVO Aumenta interativamente o conjunto ω a partir dos dados β tal que, em cada passo, GInf(ω,β) é máxima.. 3. Saída: SUMÁRIO DOS DADOS SIMBÓLICOS (ω) (descrição da árvore binária) O fato que os dados estão representados como uma tabela, pôde induzir a sentir que poderia conseguir tudo que foi conseguido pelo tratamento dado por um método completamente clássico. A matriz da tabela , entretanto, é ajustada a uma representação conveniente e o ponto da vista adotado aqui é completamente diferente do clássico. Então, os valores dos preditores (as probabilidades associadas a cada marcador) seriam tratados no intervalo [0,1] e aqui poderíamos encontrar partições do tipo: [Yj ≥ p] com p∈[0,1]: um indivíduo dado seria atribuído a ramo da direita ou esquerda de um nó, se é um indivíduo do conjunto atual, ou de um indivíduo observado em alguma ocasião futura.. - 29 -.

(30) 2.8 Classificador Simbólico baseado em região do tipo casca convexa Este é um ponto completamente diferente do trabalho que foi desenvolvido. Do ponto da vista deste trabalho, um indivíduo tem o valor do definido para cada preditor, embora nosso conhecimento deste valor possa ser alterado pela incerteza. O algoritmo, para a escolha atual dos conjunto dos objetos simbólicos βY e βC, permite-nos chegar, dos dados que são tidos como imprecisos, a uma descrição de um relacionamento entre os valores reais das variáveis. Finalmente, note isso além da possibilidade para produzir atribuições mais flexíveis de objetos novos às classes de uma partição prévia, permiti esta aproximação, sobretudo, para construir a árvore sem perder nenhuma informação que relaciona-se a imprecisão que afete os dados.. 2.8. Classificador Simbólico baseado em região do tipo casca convexa O trabalho introduz um classificador para dados descritos por vetores de valores quantitativos baseado em regiões tipo casca convexa [D’Oliveira et al, 2004]. A idéia central desta abordagem é construir regiões que descrevem e discriminem classes de exemplos observados. Basicamente esse classificador é dividido nas etapas de aprendizagem e de alocação. A etapa de aprendizagem fornece a descrição de uma classe por uma região (ou conjunto de regiões) definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta descrição é obtida através de um operador simbólico (junção) e um Grafo de Vizinhos Mútuos. Na etapa de alocação, cada nova observação é afetada a uma classe ou grupo de acordo com uma função de dissimilaridade que compara a descrição de uma classe (uma região ou um conjunto de regiões) com um ponto em ℜ p . Para um melhor entendimento dos processos envolvidos nesse classificador vamos fazer um breve comentário sobre conceitos de regiões, Grafos e Casca Convexa.. 2.8.1. Regiões e Grafos A proposta apresentada é fundamentada no método orientado a região para dados simbólicos que são representados por vetores de variáveis quantitativas. O valor. - 30 -.

(31) 2.8 Classificador Simbólico baseado em região do tipo casca convexa assumido pela característica quantitativa de interesse pode ser tanto um valor contínuo como um intervalo. Seja. Ck = {wk1 ,K , wkNk },. k = 1,K , m ,. uma classe de indivíduos com. Ck I Ck ′ = ∅ se k ≠ k ′ e U mk=1 = Ω . O indivíduo wkl , l = 1,K , N k é representado pelo. vetor de dados contínuo xkl = (xkl1 ,K , xklp ) . A junção entre os vetores de dados contínuos xkl (l = 1,K , N k ) é um vetor de intervalos. que. é. definido. (. como. ). ykl = X kl1 ⊕ K X kNk = xk11 ⊕ K ⊕ xkNk 1 , K , xk1 j ⊕ K ⊕ xkNk j ,K , xk1 p ⊕ K ⊕ xkNk p ,. [ {. }. {. xk1 j ⊕ K ⊕ xkN k j = min xk1 j ,K, xkN k j , max xk1 j ,K, xkN k j. onde. }] ( j = 1,K, p ) .. A J-região associada à classe Ck é a região em ℜ p que é obtida pela junção dos objetos pertencentes à classe Ck e é definido como RJ ( Ck ) = { x ∈ ℜ p :. {. min xk1 j , K , xkNk j. }. {. } ( j = 1,K, p ) }.. ≤ x j ≤ max xk1 j ,K , xkN k j ,. O volume associado ao. hipercubo definido pela região RJ ( Ck ) é π(RJ ( Ck )). Dois indivíduos ωk1 e ωk 2 são vizinhos mútuos se: ∀ ωk′l ∈ Ck′ (k’ ∈ {1,..,m}, k’. ≠ k), xk ′l ∉Rj { ωk1 , ωk1 } (l = 1, K , N k ) , ou seja, ωk1 e ωk 2 são vizinhos mútuos se a região formada por eles não contiver nenhum elemento de outra classe. Uma clique H é um subgrafo completo máximo de G, isto é, para todos os pares de possíveis vértices de H existe uma aresta, ao adicionar à H um outro vértice de G, não existirá uma aresta para cada possível par de vértices de H. Um grafo de vizinhos mútuos de Ci em relação à Ci′ , denominado MNG( Ci / Ci′ )), é um grafo cujos vértices são os objetos da classe Ci e cujas arestas são formadas pelos pares distintos de objetos de Ci que satisfazem à relação de vizinhos mútuos, isto é, MNG( Ci / Ci ))=(V,A), onde V= Ci e A={(sip , siq) ∈ Ci x Ci = sip ≠ siq e sip é vizinho mútuo de siq}.. 2.8.2. Casca Convexa A casca convexa é uma das mais importantes estruturas na geometria computacional, principalmente usada como ferramenta para construção de outras. - 31 -.

(32) 2.9 K-vizinhos mais próximos para dados simbólicos estruturas em uma variedade de circunstâncias além de exercer um papel fundamental na matemática pura. Existe uma variedade de definições de casca convexa, porém a definição abaixo é, talvez, a mais clara:. Definição: A casca convexa de um conjunto de pontos S é a interseção de todos os semi-espaços que contém S. É importante ressaltar que a casca convexa de um conjunto de pontos, apesar do nome, é uma região "sólida" fechada incluindo todos os pontos internos, porém são seus limites que computamos. Concluindo, foi desenvolvido um classificador para dados descritos por vetores de valores quantitativos, onde a representação das classes, a aproximação do Grafos de Vizinhos Mútuos e a função de dissimilaridade são baseados em regiões de tipo casca convexa. Também foi introduzido uma função de dissimilaridade que combina a diferença de volume e a diferença de posição entre a descrição do objeto a ser alocado e a descrição de uma classe para formar uma função de dissimilaridade baseada em diferenças de volume.. 2.9. K-vizinhos. mais. próximos. para. dados. simbólicos SO-NN (Symbolic Objects Nearest Neighbor) [Appice et al, 2006] é um classificador baseado em exemplos que estende o k-vizinho mais próximo (k-NN) a objetos simbólicos (OS). O método empregado difere do k-NN clássico em quatro aspectos. Primeiramente a saída da classificação está na forma de uma variável simbólica modal que descreve mais informações que uma simples etiqueta única para rotular a classe. Uma medida de dissimilaridade é usada em segundo para estimar a distância entre os objetos simbólicos. Terceiro que a contribuição de cada vizinho é tornada mais relevante com respeito a sua proximidade ao objeto simbólico a ser classificado (objeto simbólico do teste). Quarto o k é extraído automaticamente na base de uma validação cruzada dos dados do treinamento.. - 32 -.

(33) 2.9 K-vizinhos mais próximos para dados simbólicos Certamente, SO-NN, diferentemente do k-NN tradicional e de outros classificadores simbólicos, não prediz simplesmente o valor desconhecido da classe para variável Yˆ , mas o valor de uma nova variável modal Yˆ ′ que descreve exatamente o vetor da probabilidade da classe cuja dimensão corresponde ao cardinalidade de Y . O classificador k-NN é uma técnica simples, bem conhecida da classificação que requer uma métrica, um inteiro positivo k, e um conjuntos dos exemplos para o treinamento rotulados. Um exemplo novo é atribuído um rótulo que o representa mais freqüentemente entre seus k vizinhos mais próximos; isto é, o conjunto dos protótipos de k que são os mais próximos a ele com respeito a métrica. Esta técnica atraiu o interesse considerável devido a sua simplicidade. É também notável que não requer exemplos a ser representado em um espaço apropriado do vetor, desde que somente a medida de dissimilaridade ou a função de distância são requeridas para comparar qualquer par de exemplos. Entretanto, o classificador tradicional do k-NN supõe que todos os exemplos do treinamento correspondem aos pontos no espaço m-dimensional ℜ m e os vizinhos mais próximos de um novo exemplo estão definidos tipicamente nos termos da distância euclidiana padrão. Conseqüentemente, uma extensão do k-NN aos objetos simbólicos requerer o uso de uma medida adequada d da distância para os objetos simbólicos, que não pode simplesmente ser representado como pontos em ℜ m . O desempenho de um classificador do k-NN pode significativamente depender do tamanho da vizinhança (valor de k) escolhida e um tamanho diferente é apropriado para diferentes problemas. Entretanto, nós podemos observar que tornando mais relevante as distâncias em SO-NN, não há nenhum dano em permitir que a todo o treinamento os objetos simbólicos tenham uma influência na classificação de um objeto simbólico, desde que os objetos mais distantes tenham menos efeito na estimação da probabilidade da classe. No caso em que todos os objetos simbólicos do treinamento contribuem para classificar um exemplo novo do teste, o algoritmo trabalha como um método global, quanto ao caso em que o k (k < n) os mais próximos dos objetos simbólicos do treinamento são considerados, o algoritmo trabalha como um método local, desde que somente os dados locais à área em torno que o contribuem para definir as probabilidades da classe. Em todo o caso, os métodos locais têm vantagens significativas quando a medida da probabilidade definida no espaço de objetos simbólicos para cada classe quando é muito complexa, mas podem ainda ser descritos por uma coleção de aproximações locais menos complexas. Conseqüentemente, a. - 33 -.

(34) 2.10 Conclusão escolha de k é crítica, desde que representa um limite entre aproximações locais e globais das medidas da probabilidade. O valor apropriado de k a ser feito exame para a classificação pode automaticamente ser induzido durante o processo da aprendizagem. A observação empírica é crucial, pois é aquela que faz um exame de uma vizinhança que seja menor do que os número de objetos presentes no conjunto de treinamento ou mesmo possa melhorar a exatidão. Permite induzir a vizinhança otimizada durante a fase de aprendizagem e de classificar eficazmente os objetos. Além disso, como mostrado em [Gora et al, 2002], a busca para o melhor k pode ser reduzida da escala [1, #O] à escala [1,. # O ], sem diminuir em demasiada exatidão na. aproximação.. 2.10. Conclusão Neste capítulo nos apresentamos alguns classificadores supervisionados clássicos que foram adaptados para trabalhar com dados simbólicos, dentre os quais podemos citar Análise Discriminante Fatorial para dados simbólicos; Redes MultiLayer Perceptron para dados simbólicos; Discriminante Kernel para dados simbólicos; Árvore de classificação para dados simbólicos; Classificador Simbólico baseado em Região tipo Casca Convexa e o classificador SO-NN. No próximo capitulo será explanado o classificador simbólico para dados simbólico de semântica modal. A idéia é construir uma descrição simbólica do tipo modal (uma distribuição de pesos) para cada uma das classes de indivíduos e usar as descrições modais das classes para classificar novos exemplos usando funções de proximidades.. - 34 -.

(35) Capítulo 3. 3. Classificador Modal Esse capítulo apresenta um classificador de semântica modal para dados do tipo intervalo. A entrada do classificador modal é uma tabela de dados cujas linhas são objetos (indivíduos) e cujas colunas são valores assumidos por variáveis simbólicas do tipo intervalo. O objetivo é construir uma descrição simbólica do tipo modal (uma distribuição de pesos) para cada uma das classes de indivíduos e usar essas descrições modais para classificar novos exemplos usando funções de proximidades para dados modais. Nesse classificador, as distribuições de pesos são construídas para descrever e discriminar classes de indivíduos representados por vetores de dados que permitem levar em conta variação ou incerteza.. O classificador modal tem dois módulos:. aprendizagem e alocação. O módulo de aprendizagem do classificador modal é dividido em duas etapas. Na etapa de pré-processamento, cada intervalo do conjunto de aprendizagem é transformado em uma distribuição de pesos da seguinte forma: um intervalo é decomposto em intervalos menores e um peso é associado a cada um desses intervalos para formar uma distribuição de pesos. Portanto, a saída dessa etapa é uma tabela de dados cujas linhas são vetores de distribuições de peso representando os indivíduos. Em seguida inicia-se a fase de generalização que visa obter também vetores de distribuições de pesos para representar as classes de indivíduos. Os pesos das distribuições de uma classe são computados pela média dos pesos das distribuições dos indivíduos pertencentes a essa classe. O módulo de alocação é também dividido em duas etapas. A primeira realiza um pré-processamento no vetor de intervalos que descreve um novo indivíduo a ser classificado. Cada intervalo desse vetor é transformado em uma distribuição de pesos. A segunda é responsável pela afetação desse indivíduo a uma das classes pré-existentes. Nessa última etapa, serão usadas funções de proximidade entre duas descrições modais (dois vetores de pesos). Nas seções 3.1 e 3.2 são descritas em maiores detalhes os módulos de aprendizagem e de alocação do classificador modal para dados de tipo intervalo, respectivamente. Na seção 3.3 é descrito o algoritmo de construção do classificador. - 35 -.