• Nenhum resultado encontrado

Modelos de regressão para dados simbólicos de natureza intervalar

N/A
N/A
Protected

Academic year: 2021

Share "Modelos de regressão para dados simbólicos de natureza intervalar"

Copied!
169
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Informática - CIn. Pós-graduação em Ciência da Computação. MODELOS DE REGRESSÃO PARA DADOS SIMBÓLICOS DE NATUREZA INTERVALAR Eufrásio de Andrade Lima Neto TESE DE DOUTORADO. Recife Fevereiro, 2008.

(2)

(3) Universidade Federal de Pernambuco Centro de Informática - CIn. Eufrásio de Andrade Lima Neto. MODELOS DE REGRESSÃO PARA DADOS SIMBÓLICOS DE NATUREZA INTERVALAR. Trabalho apresentado ao Programa de Pósgraduação em Ciência da Computação do Centro de Informática - CIn da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em Ciência da Computação.. Orientador:. Francisco de Assis Tenório de Carvalho. Recife Fevereiro, 2008.

(4) Lima Neto, Eufrásio de Andrade Modelos de regressão para dados simbólicos de natureza intervalar / Eufrásio de Andrade Lima Neto . – Recife : O Autor, 2008. xxiii, 144 p. : il., fig., tab. Tese (doutorado) - Universidade Federal de Pernambuco. CIn. Ciência da computação, 2008. Inclui bibliografia e apêndices. 1. Inteligência artificial. 2. Modelos de regressão. 3. Variável intervalar. 4. Dados simbólicos. I. Título. 006.3. CDD (22.ed.). MEI2008-12.

(5) Este trabalho é dedicado à minha esposa Juliana, meus pais Eufrásio e Célia e ao meu irmão Eduardo. Vocês são tudo para mim e a motivação que preciso para continuar a alcançar os meus (os nossos) sonhos..

(6)

(7) Agradecimentos.  Aos meus pais que possibilitaram a realização de meus sonhos e a formação do meu caráter.  A Juliana pelo importante apoio prestado no desenvolvimento deste trabalho e por suportar meus momentos de estresse com a galhardia de quem ama..  Ao meu irmão Eduardo, por nossa amizade cada dia mais forte.  Ao Prof. Dr. Francisco de Assis Tenório de Carvalho, que trilhou comigo este caminho, me prestando valiosa orientação..  Aos alunos de iniciação científica:. Camilo P. Tenório, Lucas X. T. Bezerra, Eduarda S. Freire e José F. Coelho Neto, pela imensurável ajuda na construção desse trabalho..  A todos da UFPE que põem seus conhecimentos em benefício da sociedade.  Aos amigos do DE/UFPB pela compreensão, paciência e apoio.  A Deus que me deu o privilégio sagrado da vida, e da condição humana.. vii.

(8)

(9) Hoje o tempo escorre nos dedos das nossas mãos. Ele não devolve o tempo perdido em vão. É um mensageiro das almas dos que virão ao mundo, depois de nós. — CARLOS MALTZ (Depois de Nós, Engenheiros do Hawaii).

(10)

(11) Resumo. O processo de descoberta de conhecimento tem por objetivo a extração de informações úteis (conhecimento) em bases de dados. As ferramentas utilizadas para execução do processo de extração de conhecimento são genéricas e derivadas de diferentes áreas de conhecimento tais como da estatística, aprendizagem de máquina e banco de dados. Dentre as técnicas estatísticas, os modelos de regressão procuram classificar ou prever o comportamento de uma variável dependente (resposta) a partir das informações provenientes de um conjunto de variáveis independentes (explicativas). A análise de dados simbólicos (SDA) (Bock & Diday 2000) tem sido introduzida como uma novo domínio relacionado à análise multivariada, reconhecimento de padrões e inteligência artificial com o objetivo de estender os métodos estatísticos e de análise exploratória de dados para dados simbólicos. O objetivo deste trabalho é propor métodos de regressão linear e não-linear para dados simbólicos que apresentem uma performance de predição superior ao método proposto por Billard & Diday (2000), no caso de variáveis simbólicas tipo intervalo. Palavras-chave: cos. Modelos de Regressão, Variável Intervalar, Dados Simbóli-. xi.

(12)

(13) Abstract. The goal of the Knowledge Discovery in Databases (KDD) process is to extract useful information (knowledge) from data sets. The tools used in KDD process are generics and derivate from different research fields like statistics, machine learning and database. Between some statistical techniques, the regression models try to classify or predict the behavior of a dependent variable using the information contained in a set of independent variables. Symbolic Data Analysis SDA (Bock & Diday 2000) has been introduced as a new domain related to multivariate analysis, pattern recognition and artificial intelligence in order to extend classical exploratory data analysis and statistical methods to symbolic data. The objective of this work is to propose linear and nonlinear regression methods that presents a prediction performance better than the approach proposed by Billard & Diday (2000), in the case of symbolic variables type interval. Keywords: Regression Models, Interval Variable, Symbolic Data. xiii.

(14)

(15) Sumário. 1 Introdução 1.1 Motivação 1.2 Objetivos 1.3 Organização da Proposta Análise de Dados Simbólicos Modelos de Regressão Linear e Não-Linear Modelos de Regressão para Dados de Natureza Intervalar Comparação dos Modelos Conclusões e Publicações. 1 1 4 4 4 5 5 5 5. 2 Análise de Dados Simbólicos 2.1 Introdução 2.2 Histórico 2.3 Tabela de Dados Simbólicos e Objetos Simbólicos 2.3.1 Tabela de Dados Simbólicos 2.3.2 Objetos Simbólicos 2.3.3 Variáveis Simbólicas 2.4 Métodos de Aprendizado Estendidos para Dados Simbólicos 2.4.1 Estatística Descritiva 2.4.2 Análise de Componentes Principais Simbólica 2.4.3 Análise de Cluster Simbólica 2.4.4 Análise Fatorial Simbólica 2.4.5 Árvores de Decisão 2.4.6 Probabilidade em Análise de Dados Simbólicos 2.4.7 Modelos de Regressão Linear para Dados Simbólicos 2.4.8 Séries Temporais. 7 7 9 10 10 11 12 13 13 14 14 15 15 16 16 17. 3 Modelos de Regressão Linear e Não-Linear 3.1 Modelo Clássico de Regressão 3.1.1 Introdução 3.1.2 Estimação Exemplo 3.1: Regressão Linear Simples Exemplo 3.2: Regressão Linear Múltipla 3.1.3 Somas de Quadrados 3.1.4 Propriedades do EMQ e dos Resíduos. 19 19 19 20 21 22 22 24. xv.

(16) xvi. SUMÁRIO. 3.1.5 Modelo Normal-Linear 3.1.6 Análise de Variância Exemplo 3.3: Continuação da Regressão Linear Múltipla 3.1.7 Técnicas de Diagnóstico 3.1.7.1 Matriz de projeção 3.1.7.2 Resíduos 3.1.7.3 Influência 3.1.7.4 Técnicas gráficas 3.2 Modelo de Regressão Não-Linear 3.2.1 Introdução 3.2.2 Mínimos Quadrados no Caso Não-Linear 3.2.3 Estimação dos Parâmetros de um Sistema Não-Linear 3.2.4 Outros Métodos de Estimação 3.2.5 Valores Iniciais dos Parâmetros 3.2.6 Inferência e Análise Residual em Modelos de Regressão Não-Linear 4 Modelos de Regressão para Dados de Natureza Intervalar 4.1 O Método do Centro - MC 4.2 MRL sem Restrições para Variáveis Tipo Intervalo 4.2.1 Método do Centro e da Amplitude 1 - MCA1 4.2.2 O Método do Centro e da Amplitude 2 - MCA2 4.2.3 O Método do Centro e da Amplitude 3 - MCA3 4.2.4 Método do Centro e da Amplitude 4 - MCA4 4.3 MRL com Restrições para Variáveis Tipo Intervalo 4.3.1 O Método do Centro com Restrições - MCr 4.3.2 O Método do Centro e da Amplitude 1 com Restrições MCA1r 4.3.3 O Método do Centro e da Amplitude 3 com Restrições MCA3r 4.3.4 O Método do Centro e da Amplitude 2 com Restrições MCA2r 4.3.5 O Método do Centro e da Amplitude 4 com Restrições MCA4r 4.4 Modelo de Regressão Não-Linear para Variáveis Intervalares 5 Comparação dos Métodos 5.1 Construção dos Conjuntos de Dados Tipo Intervalo 5.1.1 Caso 1: Centro e Amplitude Independentes 5.1.2 Caso 2: Dependência entre a Amplitude e o Centro 5.1.3 Caso 3: Relação Não-Linear entre as Variáveis 5.1.4 Métricas Utilizadas na Avaliação dos Métodos 5.2 Resultados Obtidos (Caso 1) 5.2.1 Comparações entre os Métodos sem Restrições. 26 26 28 28 29 30 31 33 33 33 34 35 36 37 38 39 39 42 42 44 45 47 48 49. 52 54 57 58 59 63 63 64 65 67 69 71 71.

(17) SUMÁRIO. 5.3. 5.4 5.5 5.6. 5.2.2 Comparações entre os Métodos com Restrições Resultados Obtidos (Caso 2) 5.3.1 Comparações entre os Métodos sem Restrições 5.3.2 Comparações entre os Métodos com Restrições Modelos sem Restrição vs Modelos com Restrição Resultados Obtidos (Caso 3) Aplicação a Dados Reais 5.6.1 Dados Cardiológicos 5.6.2 Equipes de Futebol 5.6.3 Espécies de Cogumelos. xvii 74 78 78 81 85 88 90 91 95 97. 6 Conclusões, Trabalhos Futuros e Publicações 6.1 Conclusões 6.2 Trabalhos Futuros 6.3 Publicações. 101 101 103 104. A Programa: Implementação dos Métodos em R A.1 A Plataforma R A.2 Implementação. 107 107 110.

(18)

(19) Lista de Figuras. 5.1 Configuração C1 mostra uma relação linear fraca entre X1 e X2 . 5.2 Configuração C4 mostra uma relação linear forte entre X1 e X2 . 5.3 Configuração D3 aponta forte relação linear e de dependência entre entre X1 e X2 .. xix. 65 65 67.

(20)

(21) Lista de Tabelas. 1.1 Exemplo: Base de dados cardiológica. 3. 2.1 Temperaturas mínima e máxima registradas na China 2.2 Exemplo de uma tabela de dados simbólicos. 10 11. 3.1 Consumo de Combustível nos Estados Americanos 3.2 Tabela de Análise de Variância 3.3 Resultados do Ajustamento. 23 28 29. 5.1 Configurações dos conjuntos de dados de tipo intervalo 5.2 Configurações dos conjuntos de dados de tipo intervalo com dependência 5.3 Configurações dos conjuntos de dados tipo-intervalo, supondo uma relação exponencial para o centro e amplitude 5.4 Configurações dos conjuntos de dados tipo-intervalo, supondo funções não-lineares distintas para o centro e amplitude. 5.5 Média e desvio padrão das medidas de performance obtidas em 100 réplicas de um experimento Monte Carlo 5.6 Comparação entre os métodos MCA4 e MC – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.7 Comparação entre os métodos MCA4 e MCA1 - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade) 5.8 Comparação entre os métodos MCA3 e MCA2 - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.9 Comparação entre os métodos MCA4 e MCA3 - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.10 Comparação entre os métodos MCr e MCA1r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.11 Comparação entre os métodos MCA3r e MCr - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade).. 64. xxi. 66 68 69 71. 72. 73. 74. 74. 75. 76.

(22) xxii. LISTA DE TABELAS. 5.12 Comparação entre os métodos MCA4r e MCr - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.13 Comparação entre os métodos MCA4r e MCA1r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.14 Comparação entre os métodos MCA4r e MCA3r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.15 Caso 2: Comparação entre os métodos MCA4 e MC – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.16 Caso 2: Comparação entre os métodos MCA4 e MCA1 – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.17 Caso 2: Comparação entre os métodos MCA3 e MCA2 – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.18 Caso 2: Comparação entre os métodos MCA4 e MCA2 – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.19 Caso 2: Comparação entre os métodos MCA3 e MCA4 – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.20 Caso 2: Comparação entre os métodos MCA1r e MCr – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 29 graus de liberdade). 5.21 Caso 2: Comparação entre os métodos MCA3r e MCr – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 29 graus de liberdade). 5.22 Caso 2: Comparação entre os métodos MCA4r e MCr – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 29 graus de liberdade). 5.23 Caso 2: Comparação entre os métodos MCA4r e MCA1r – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 29 graus de liberdade). 5.24 Caso 2: Comparação entre os métodos MCA4r e MCA3r – Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 29 graus de liberdade). 5.25 Coeficiente de determinação nas simulações de Monte Carlo 5.26 Caso 1 - Percentual de vezes que yˆLi > yˆUi no conjunto de teste. 5.27 Caso 2 - Percentual de vezes que yˆLi > yˆUi no conjunto de teste.. 76. 77. 77. 78. 79. 80. 80. 81. 82. 82. 83. 84. 84 85 86 86.

(23) LISTA DE TABELAS. 5.28 Caso 1 - Comparação entre os métodos MCA4 e MCA4r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.29 Caso 2 - Comparação entre os métodos MCA4 e MCA4r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.30 Caso 3 (relação exponencial) - Comparação entre os métodos MNLCA e MC - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.31 Caso 3 (relação exponencial) - Comparação entre os métodos MNLCA e MCA4r - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.32 Caso 3 (modelo de Michaelis-Menten) - Comparação entre os métodos MNLCA e MCr - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.33 Caso 3 (modelo de Michaelis-Menten) - Comparação entre os métodos MNLCA e MCA4 - Taxa de rejeição da hipótese nula H0 (Teste t pareado seguindo uma distribuição t-Student com 99 graus de liberdade). 5.34 Base de dados intervalar cardiológica 5.35 Valores observados e ajustados da variável intervalar Pulso, segundo alguns métodos - Conjunto Treinamento 5.36 Desempenho dos métodos ajustados a base de dados cardiológica - Conjunto treinamento 5.37 Leave-one-out: Base de dados cardiológica - Conjunto teste 5.38 Holdout: Base de dados cardiológica - Conjunto Teste 5.39 Base de Dados Futebol 5.40 Valores observados e ajustados da variável intervalar Peso no conjunto treinamento, segundo alguns métodos. 5.41 Desempenho dos métodos - Conjunto treinamento 5.42 Leave-one-out: Equipes de Futebol - Conjunto teste 5.43 Base de Dados sobre Espécies de Cogumelos 5.44 Valores observados e ajustados da variável intervalar Largura no conjunto treinamento, segundo alguns métodos. 5.45 Desempenho dos métodos - Conjunto treinamento 5.46 Leave-one-out: Espécies de Cogumelos - Conjunto teste. xxiii. 87. 87. 88. 89. 90. 90 92 93 93 94 94 95 95 96 96 97 98 98 99.

(24)

(25) C APÍTULO 1. Introdução. 1.1 Motivação A freqüente presença dos computadores no cotidiano das empresas tem alterado radicalmente a maneira como as aplicações são conduzidas. A cada dia mais operações ou processos, antes manuais, são automatizados e a cada nova transação como compras com cartões de crédito, operações bancárias, ligações através de um aparelho celular, entre outras, novos registros correspondentes são armazenados. Para armazenar esse volume de informação, sistemas gerenciadores de banco de dados estão presentes na maioria das instituições públicas ou privadas, de pequeno, médio ou grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. Além disso, os avanços nas formas de aquisição de dados tornam cada dia mais fácil a coleta de informações, desde um simples leitor de código de barras até sistemas de sensoriamento remoto que geram grandes volumes de informação. Contudo, num ambiente mutável torna-se necessário novas técnicas e ferramentas de extração e análise de conhecimentos que agilizem o processo decisório de uma empresa. A realização de um Data Warehousing - DW (Garden 1998) é considerado um dos primeiros passos para tornar factível a análise de dados no apoio ao processo decisório. Entretanto, na prática, a análise de dados contidas em DW’s geralmente não extrapolam da realização de simples consultas e diante disto, diversos estudos têm sido direcionados ao desenvolvimento de tecnologias de extração de conhecimentos. A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database - KDD) é uma área de pesquisa em bastante evidência no momento, que visa desenvolver meios automáticos de prospecção de conhecimento em bases de dados. O processo de KDD inicia com uma etapa de pré-processamento, objetivando assegurar a qualidade dos dados a ser analisados. A próxima etapa é a descoberta de conhecimento propriamente dita. Esta etapa compreende a escolha de um algoritmo de aprendizagem de máquina (Mitchell 1997, Alpaydin 2004, Bishop 2008) para minerar ou extrair informações valorosas, aparentemente camufladas ou escondidas, em bases de dados, sendo conhecida como Data Mining (Han & Kamber 2005, Witten & Frank 2005)). Para finalizar o processo de KDD, uma terceira etapa é empregada com a finalidade de avaliar e utilizar o conhecimento extraído visando 1.

(26) 2. CAPÍTULO 1 INTRODUÇÃO. apoiar algum processo de tomada de decisão. As ferramentas utilizadas para execução do processo de mineração são genéricas e derivadas de diferentes áreas de conhecimento tais como da estatística, inteligencia artificial e banco de dados. As técnicas estatísticas englobam algoritmos que podem ser aplicados para descobrir estruturas ou associações em um conjunto de dados, realizar previsões, etc. Dentre estas técnicas destacamos os modelos de regressão que tem como objetivo classificar ou prever o valor de uma variável dependente (resposta) a partir das informações provenientes de um conjunto de variáveis independentes (explicativas). Adicionalmente, através dos modelos de regressão é possível, por exemplo, identificar o grau de associação entre variáveis ou mensurar o impacto que uma variável exerce sobre outra. Embora os métodos estatísticos tradicionais sejam bastante aplicados para sumarizar e analisar conjuntos de dados, com o explosivo crescimento das tecnologias da informação estas técnicas têm sido inapropriadas para tratar conjuntos de dados representados por informações mais complexas, como por exemplo, intervalos ou células multi-valoradas. Além disso, os métodos estatísticos não possuem estruturas adequadas que possibilitem sintetizar grandes conjuntos de dados perdendo o menos possível de informação dos dados originais. Como uma alternativa para generalizar as atuais técnicas estatísticas para estas informações mais complexas, surge a análise de dados simbólicos (Symbolic Data Analysis (SDA)). A análise de dados simbólicos ((Bock & Diday 2000) e (Billard & Diday 2006)) é uma abordagem na área da descoberta automática de conhecimentos (KDD) relacionada com análise de dados, reconhecimento de padrões, aprendizagem de máquina e banco de dados. O principal objetivo de SDA é desenvolver algoritmos para tratamento de dados mais complexos como intervalos, conjuntos e distribuição de probabilidades ou de pesos. SDA inicia com a agregação/redução de bases de dados clássicos em uma estrutura mais complexa chamada de dados simbólicos, pois eles contêm variação interna e são estruturados. No entanto, tal estrutura também pode ser observada e coletada diretamente no mundo real como, por exemplo, ao observarmos o intervalo de variação de uma ação da bolsa de valores durante um pregão [50, 12; 52, 23], ao perguntar sobre quais os cartões de crédito que um indivíduo possui (MasterCard,Visa, Amex) ou coletar a distribuição de aparelhos celulares de uma família [Nokia(0, 3), Motorola(0, 5), Siemens(0, 2)]. A etapa seguinte consiste na extensão dos métodos e algoritmos de extração de conhecimentos (técnicas estatísticas) a partir de dados usuais, para essa nova estrutura de dados chamada de simbólicos. Um exemplo da aplicação desta metodologia no processo de aprendizagem e descoberta de conhecimento é apresentado por Neto & de Carvalho (2003). Eles analisaram a opinião de mais de 9.000 habitantes em 25 cidades do Estado de Pernambuco a respeito da gestão administrativa de seus prefeitos, identificando cidades com gestões simila-.

(27) 3. 1.1 MOTIVAÇÃO. res (clusters) e apontando os fatores que levaram a população a classificá-las como aprovadas ou reprovadas. Abaixo, ilustramos uma tabela de dados simbólicos contendo variáveis tipo-intervalo com informações sobre a variação no Pulso, Pressão Sistólica e Pressão Diastólica de 59 pacientes (Gil, Lubiano, Montenegro & López-García 2002, Gil, González-Rodríguez, Colubi & Montenegro 2007). Tabela 1.1: Exemplo: Base de dados cardiológica Obs 1 2 3 .. .. Pulso [58-90] [47-68] [32-114] .. .. Pressão Sistólica [118-173] [104-161] [131-186] .. .. Pressão Diastólica [63-102] [71-118] [58-113] .. .. 57 58 59. [40-80] [56-97] [37-86]. [95-166] [92-173] [83-140]. [54-100] [45-107] [45-91]. O modelo de regressão para dados clássicos teve origem nos trabalhos de astronomia elaborados por Gauss no período de 1809 a 1821 e, atualmente, tem larga aplicabilidade na solução de problemas de predição em diversas áreas. Tal modelo é usado para expressar o comportamento de uma variável dependente Y como função de outras variáveis independentes X, que são responsáveis pela variabilidade de Y . Para solucionar esse problema, faz-se necessária a estimação de um vetor de parâmetros β a partir do vetor y e da matriz modelo X, suposta de posto completo p. A estimação do vetor de parâmetros β por meio do método dos mínimos quadrados não requer nenhuma suposição probabilística sob os dados e, tal método, consiste em minimizar a soma de quadrado dos resíduos. Existe uma vasta literatura a respeito dos modelos de regressão para dados clássicos, as quais podemos destacar Scheffé (1959), Montgomery & Peck (1982) e Draper & Smith (1981) no caso do modelo de regressão linear, e Bates & Watts (1988) e Seber & Wild (2003) quando a função que relaciona a variável resposta (dependente) com as variáveis explicativas (independentes) assume uma forma não-linear. Em grande parte dos problemas de regressão, a variável resposta (Y ) do modelo é de natureza contínua. Paralelamente, boa parte dos métodos estatísticos já estendidos para o caso de dados simbólicos levou em conta, primeiramente, variáveis de natureza intervalar (Clusters, Componentes Principais, Análise Fatorial, Estatísticas Descritivas). O mesmo ocorreu em Regressão, quando Billard & Diday (2000) propuseram o primeiro método de regressão para dados simbólicos levando em conta variáveis simbólicas de natureza intervalar. No entanto, até o momento pouco foi feito para melhorar ou ampliar.

(28) 4. CAPÍTULO 1 INTRODUÇÃO. o trabalho proposto por eles.. 1.2 Objetivos O objetivo principal deste trabalho é deixar uma contribuição sólida na área de modelos de regressão para dados simbólicos com variáveis tipo intervalo, melhorando o método proposto por Billard & Diday (2000) e propondo novas maneiras para abordar o problema. Dessa forma, acreditamos que o objetivo principal será atingido mediante as seguintes metas: 1. Propor novos métodos para ajuste de um modelo de regressão linear em dados de natureza intervalar que apresentem, preferencialmente, uma performance de predição superior a abordagem existente, além de coerência matemática nas estimativas dos limites dos intervalos; 2. Mensurar o ajuste obtido por um modelo de regressão a uma base de dados simbólica tipo intervalo; 3. Apresentar uma abordagem não-linear para ajuste de um modelo de regressão em dados de natureza intervalar. Em relação as aplicações, dois pontos são abordados: 1) Avaliar a performance dos modelos propostos através de medidas de bondade de ajuste. Neste estudo, serão usados conjuntos de dados reais e sintéticos de tipo intervalo com diferentes graus de linearidade e nãolinearidade entre as variáveis dependente e independente. Para dados sintéticos, o índice de validação será estimado através de um experimento de Monte Carlo. 2) Comparar os métodos propostos utilizando testes estatísticos t-Student emparelhados. Aqui, os testes serão aplicados para comparar as médias dos índices de validação estimados pelo método Monte Carlo de acordo com os diferentes métodos.. 1.3. Organização da Proposta. Além deste capítulo introdutório, a tese será apresentada em mais cinco capítulos organizados da seguinte forma: Análise de Dados Simbólicos A finalidade deste capítulo é fornecer o estado da arte da abordagem simbólica em análise de dados, juntamente com a apresentação de alguns conceitos que serão utilizados ao longo da tese..

(29) 1.3 ORGANIZAÇÃO DA PROPOSTA. 5. Modelos de Regressão Linear e Não-Linear Este capítulo apresenta os principais conceitos que envolvem a teoria dos modelos de regressão linear e não-linear para dados usuais, bem como definições sobre resíduos, medidas de alavanca e influência. Modelos de Regressão para Dados de Natureza Intervalar Neste capítulo propomos alguns modelos de regressão linear e não-linear para variáveis de natureza intervalar. Inicialmente, apresentamos o primeiro modelo de regressão para dados simbólicos de natureza intervalar, proposto por Billard & Diday (2000). Em seguida, o capítulo é dividido em três partes que contemplam as principais contribuições desta tese. Na primeira, propomos novos modelos de regressão objetivando uma melhor performance de predição dos limites dos intervalos em relação ao método de Billard & Diday (2000). A segunda parte apresenta os modelos de regressão linear para dados intervalares com restrições. Tais modelos impedem que a estimativa do limite inferior seja maior que a estimativa para o limite superior do intervalo. Finalmente, na terceira parte propomos uma abordagem não-linear para ajuste de um modelo de regressão. Comparação dos Modelos Na primeira parte deste capítulo é apresentado os resultados sobre a performance dos modelos propostos no Capítulo 4 usando conjuntos de dados sintéticos, através de experimentos Monte Carlo. Além disso, são apresentados os resultados de testes t-Student comparando os modelos propostos nesta tese com o modelo proposto por Billard & Diday (2000). Na segunda parte é descrita a aplicação dos métodos propostos com um conjunto de dados reais. Conclusões e Publicações Neste capítulo, apresentamos de forma sucinta os principais resultados e conclusões obtidos no Capítulo 5, bem como as principais contribuições desta tese na área de modelos de regressão para dados simbólicos, considerando variáveis de natureza intervalar, além das publicações de nossos resultados em revistas e congressos..

(30)

(31) C APÍTULO 2. Análise de Dados Simbólicos. 2.1 Introdução Os dados simbólicos podem surgir de diferentes formas. Por exemplo, considere que a variável de interesse é X = {Cor} e a população de interesse como Ω = { Espécies de Pássaros }. Uma dada espécie k ∈ Ω, pode assumir X(k) = {branco, preto} e uma outra espécie w assumir X(w) = {amarelo, verde}. Em outro exemplo, pode não ser possível mensurar o custo de uma fruta (ou camisa, ou produto, etc) em uma certa região produtora, mas apenas que o custo deste bem oscila entre [16, 24]. Em uma outra região, o custo do mesmo bem pode oscilar entre [18, 22]. Uma análise clássica utilizando o ponto médio dos intervalos perderia a informação de que as regiões possuem diferentes variações para o custo do mesmo produto. Em outro contexto, uma companhia de seguros de saúde possui um banco de dados com centenas (ou milhares) de informações a respeito das consultas de seus segurados, onde cada entrada desse banco armazena: o tipo de especialista consultado, o local do exame, os exames realizados, os medicamentos solicitados, etc. Entretanto, a seguradora pode não estar interessada em uma consulta em especial, mais em todas as consultas realizadas por um dado segurado (Paulo). Neste caso, todas as consultas realizadas por Paulo podem ser agregadas, produzindo dados simbólicos. Assim, seria extremamente atípico que o Peso (kg) de Paulo em todas as consultas fosse igual a 80 kg. No entanto, poderíamos observar que seu peso oscilou entre [78kg, 83kg]. Em um cenário diferente, poderíamos supor que um supermercado não estaria interessado nas vendas em um determinado produto, mas na variação das vendas de um produto entre Segunda e Sexta, ao longo de um período de tempo. Uma terceira situação nos leva a refletir que nos dias atuais torna-se cada vez mais comum a necessidade de armazenar e analisar grandes bases de dados. Como exemplo, citamos a empresa telefônica americana AT &T que concentra mais de 100 milhões de clientes e registra mais de 200 milhões de telefonemas em um único dia ou a empresa varejista Wal-Mart, com mais de 20 milhões de transações diárias. Apesar do poder de processamento dos computadores atuais, o esforço computacional necessário para manipulação de grandes conjuntos de dados ainda é um problema. A agregação da informação contida nestas grandes bases de dados em bases menores seria um 7.

(32) 8. CAPÍTULO 2 ANÁLISE DE DADOS SIMBÓLICOS. caminho para analisá-los. Além disso, os métodos tradicionais de análise de dados foram desenvolvidos numa época onde a quantidade de informação disponível era infinitamente menor que a disponível atualmente. Os dados simbólicos apresentam, em sua estrutura, formas interessantes para se reduzir grandes bases de dados clássicos em novos conjuntos de dados simbólicos de tamanho mais reduzido, facilitando a análise dos mesmos e, em alguns casos, sem nenhuma perda de informação (Neto & de Carvalho (2003)). Um conjunto de dados simbólico pode conter, em uma célula de sua matriz, informações expressas por intervalos, distribuições de freqüência, distribuições de probabilidade, etc, diferentemente de uma base de dados clássica onde cada célula assume apenas um único valor. Em relação aos diversos métodos estatísticos (paramétricos e não-paramétricos) existentes para análise de dados clássicos, apenas uma pequena parte (não-paramétrica) foi estendida para o caso de dados simbólicos, os quais podemos citar: estatísticas descritivas, análise gráfica, análise de cluster, análise de componentes principais, análise fatorial, árvores de decisão e alguns conceitos de regressão e séries temporais. Billard & Diday (2003) atestam o crescimento dos dados simbólicos e alertam à necessidade do desenvolvimento de algoritmos de aprendizagem e metodologias estatísticas para o tratamento de informações dessa natureza. Além disso, em relação aos métodos estatísticos disponíveis, faz-se necessário o estabelecimento de um maior suporte matemático e probabilístico, tais como: verificação de propriedades estatísticas, estimação de erros padrão e distribuições teóricas, entre outros. A respeito dos modelos de regressão, o mais recente livro na área de análise de dados simbólicos (Billard & Diday (2006)) destaca um capítulo para o tema. Nele, podemos encontrar as principais contribuições e referências até o momento, junto com alguns exemplos práticos. Contudo, ainda existem vários aspectos da teoria de regressão para dados clássicos que ainda continuam em aberto no caso de dados simbólicos. O coeficiente de determinação que mensura o quanto as variáveis independentes explicam a variabilidade da variável resposta, a suposição de uma distribuição de probabilidade para o erro do modelo, a análise de resíduos, a identificação de pontos aberrantes e utilização de medidas de diagnóstico ainda não foram estudadas. Adicionalmente, o modelo de regressão não-linear, o modelo logístico e probit para respostas binárias e o modelo gama para distribuições assimétricas, ilustram outros métodos de modelagem estatística que ainda não foram abordados no caso de dados simbólicos e precisam ser estendidos. A seguir, apresentamos um breve histórico sobre a Análise de Dados Simbólicos. Em seguida, abordaremos as diferenças entre um conjunto de dados clássico e o simbólico. Posteriormente, apresentaremos as principais técnicas estatísticas existentes para o tratamento de dados de natureza simbólica..

(33) 2.2 HISTÓRICO. 9. 2.2 Histórico A análise de dados simbólicos surgiu, simultaneamente, da influência de três áreas: Análise Exploratória de Dados (Tukey 1977, Bock 1974, Diday, Lemaire, Pouget & Tetsu 1984, Saporta 1990, Lebart, Morineau & Warwick 1995), Inteligência Artificial (Michalski 1973, Sowa 1984, Rich & Knight 1991, Winston 1992, Russell & Norvig 2002, Luger 2004) e Taxonomia Numérica (Sneath & Sokal 1973). As primeiras tentativas de obter objetos simbólicos a partir de dados clássicos foram realizadas por Belson (1959), seguidos de Morgan & Sonquist (1963) com o método AID (Automatic Interaction Detector). Os primeiros algoritmos, chamados de Conceptual Clustering, foram apresentados por Diday (1980) e Michalski, Stepp & Diday (1981). A Análise de Dados Simbólicos (SDA) constitui uma extensão de alguns métodos utilizados para análise de dados clássicos. Os primeiros trabalhos com os princípios básicos da abordagem simbólica apareceram no final dos anos 80 (Diday 1987, Diday 1989) e, desde então, vários outros trabalhos foram realizados em diversas direções. Bock & Diday (2000) apresentam de maneira sólida os principais conceitos da SDA e os principais métodos estatísticos desenvolvidos para manipular dados desta natureza. Além dos exemplos citados na Seção 2.1, os dados simbólicos também podem ser obtidos: 1. a partir da aplicação de um algoritmo de classificação não-supervisionada (cluster analysis) para simplificar grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes associadas aos grupos obtidos; 2. como resultado da descrição de conceitos por especialistas; 3. a partir de bases de dados relacionais para estudar conjuntos de unidades cuja descrição necessita a fusão eventual de varias relações. Com os avanços das tecnologias da informação tem sido comum, por exemplo, encontrar registros de intervalos em base de dados de aplicações oriundas de diversos lugares. Abaixo, é apresentada parte de uma tabela de dados simbólicos reais, onde os dados foram coletados na China. Nesta tabela as linhas são estações na China e as colunas são variáveis do tipo intervalo contendo as temperaturas mínima e máxima registradas mensalmente em 60 estações (ver http://dss.ucar.edu/datasets/ds578:5/data/). Uma vez obtida uma tabela desse tipo, a fase seguinte consiste em analisar, classificar, prever, resumir ou visualizar as informações contidas nesta tabela. Para minerar esses dados, a SDA tem desenvolvido uma metodologia que é uma extensão das ferramentas usuais de extração de conhecimento utilizadas para dados clássicos..

(34) 10. CAPÍTULO 2 ANÁLISE DE DADOS SIMBÓLICOS. Tabela 2.1: Temperaturas mínima e máxima registradas na China Estações AnQuin .. . ZhiJiang. 2.3. Temperatura ([min:max]) - Ano 1998 Janeiro Fevereiro . . . Novembro Dezembro [1.8:7.1] [2.1:7.2] . . . [7.8:19.7] [4.3:11.8] .. .. .. .. .. . . . . . [2.7:8.4] [2.7:8.7] . . . [8.2:20.0] [5.1:13.3]. Tabela de Dados Simbólicos e Objetos Simbólicos. Os objetos simbólicos foram introduzidos com o intuito de estender os objetos da análise de dados usual fornecendo, assim, uma representação multivariada de dados complexos dispostos em um novo tipo de apresentação tabular, chamada de tabela de dados simbólicos. 2.3.1 Tabela de Dados Simbólicos Os dados simbólicos podem descrever indivíduos levando em conta, ou não, imprecisão ou incerteza, ou podem descrever itens mais complexos, tais como grupos de indivíduos. Abaixo estão dois exemplos de dados simbólicos para indivíduos (objetos de primeira ordem) e classes de indivíduos (objetos de segunda ordem): • Considere Y uma variável simbólica que descreve o tempo de estudo diário de um indivíduo. A descrição de um indivíduo, em particular, k pode ser: Y (k) = [0, 6] (em horas). • Considere Z uma variável simbólica que descreve as instituições bancárias existentes em uma cidade (classe de indivíduos). A descrição da cidade k pode ser: Z(k) = {Banco do Brasil, Caixa, Bradesco, Banco Real}. Em uma tabela de dados simbólicos, as linhas correspondem aos indivíduos ou classes e as colunas são as variáveis simbólicas que descrevem os indivíduos. Na Tabela 2.2 apresentamos um exemplo de uma tabela de dados simbólicos onde as linhas são classes de indivíduos e nas colunas temos três variáveis simbólicas: peso (expresso por um intervalo), marca de automóvel (expresso por um conjunto de categorias) e fumante (expresso por uma distribuição de pesos). Uma variável simbólica é uma função que associa uma descrição a cada elemento do conjunto de dados. Diferentemente das variáveis usuais, as simbólicas podem assumir, por exemplo, um conjunto de categorias ou valores, intervalos, histogramas ou distribuições de probabilidade, e serão detalhadas na Seção 2.3.3..

(35) 2.3 TABELA DE DADOS SIMBÓLICOS E OBJETOS SIMBÓLICOS. 11. Tabela 2.2: Exemplo de uma tabela de dados simbólicos ID Peso Marca Automóvel 1 [58.8:70.1] {Ford, Fiat} 2 [65.6:84.2] {Ford, Fiat, GM} 3 [49.4:55.3] {Ford, GM}. 2.3.2. Fumante {(3/4)sim, (1/4)não} {(1/6)sim, (5/6não)} {(4/5)sim, (1/5)não}. Objetos Simbólicos. Os objetos simbólicos são informações complexas, definidas conforme o tipo de variável. Em relação aos objetos simbólicos, a literatura distingue basicamente em dois tipos: os booleanos e os modais. Seja E um conjunto de objetos, u ∈ E, D um conjunto de descrições expressas por um conjunto de valores ou intervalos, Y = (Y1 , . . . ,Yp )T um vetor de variáveis definido por uma função E → D que associa cada objeto u a uma descrição d ∈ D, e R uma relação de comparação definida em D. Denote [d 0 Rd] ∈ L = 0, 1, o resultado da comparação entre duas descrições d e d 0 , onde L = 1 significa que d e d 0 estão conectados através de R. Um objeto simbólico booleano é formalmente definido como uma tripla s = (a, R, d), onde R é uma relação, entre descrições, d é uma descrição e a é V uma função booleana as : E → L com as (u) = pj=1 [y j (u)Rd j ] = 1 se, e somente se, [y j (u)Rd j ] = 1, ∀ j = 1, . . . , p. A extensão de s, denotada por Ext(s), é o conjunto formado por todos os indivíduos u ∈ E, tal que, as (u) = 1, ou seja, Ext(s) = {u ∈ E|as (u) = 1}. Por exemplo, seja s = (a, R, d) um objeto simbólico, onde Y = (Y1 = altura,Y2 = peso), d = [[140, 160], [50, 60]], R uma relação de pertinência (isto é ∈), logo as (u) = [altura(u) ∈ [140, 160] ∧ peso ∈ [50, 60]]. Um indivíduo u é tal que a(u) = 1 se, e somente se, a sua altura estiver entre 140cm e 160cm e o seu peso entre 50kg e 60kg. Os objetos simbólicos podem levar em consideração regras de dependência entre variáveis. São adotadas dois tipos de dependências: • Hierárquica: quando uma variável Y tornar-se inaplicável se uma outra variável Z assume valores em um determinado subconjunto Sz . Por exemplo, seja um objeto simbólico booleano a = [sexo ∈ {M,F}] ∧ [parto ∈ {sim, não}], a dependência hierárquica é expressa pelas regras r1 : se [sexo = M] então [parto = NA] e r2 : se [parto = NA] então [sexo = M], onde NA significa não-aplicável. • Lógica: quando um subconjunto Sy dos possíveis valores de Y pode estar associado com um subconjunto da variável Z. Por exemplo, seja a = [idade ∈ [30,40]] ∧ [altura ∈ [150,165]], a dependência lógica é expressa pela regra r: se [idade ∈ [30,40]] então [altura ∈ [150,165]]..

(36) 12. CAPÍTULO 2 ANÁLISE DE DADOS SIMBÓLICOS. Seja E um conjunto de objetos, u ∈ E, D um conjunto de descrições expressas por medidas de ponderação ou distribuição, Y = (Y1 , . . . ,Yp )T um vetor de variáveis definido por uma função E → D que associa cada objeto u a uma descrição d ∈ D, e Φ uma relação de comparação definida em D. Denote [d 0 Φd] ∈ L = [0, 1], o resultado da comparação entre duas descrições d e d 0 . Um objeto simbólico modal é formalmente definido como uma tripla s = (a, Φ, d), onde Φ é uma relação nebulosa entre descrições, d é uma descrição e a é uma função definida de E em L. Dado um limiar α ∈ [0, 1], a extensão de s é definida por Extα (s) = {u ∈ E|as (u) > α }. Por exemplo, considere s = (a, Φ, d) um objeto modal. Sejam as descrições d = (t1 , . . . ,t p ) e d 0 = (q1 , . . . , q p ), duas distribuições discretas de probabilidade associadas em R p e Φ uma relação defip nida por [d 0 Φd] = ∑v= j t j q j exp[t j − min(t j , q j )]. Se p = 2 e d = [{(0.2)12, (0.8)[20, 28]}, {(0.4)F, (0.6)M}], então temos o objeto simbólico modal definido por a(u) = [idade(u) Φ{(0.2)12, (0.8)[20, 28]}] ∧ [sexo(u)Φ{(0.4)F, (0.6)M}]. Seja um grupo de indivíduos (u) com d 0 = [{(0.3)12, (0.7)[20, 28]}, {(0.35)F, (0.65)M}] então, a função a(u) = (0.06exp{0.1} + 0.56exp{0}) × (0.14exp{0} + 0.39exp{0.05}) = 0.344. Adotando um limiar α = 0.5, tem-se que a(u) < α , logo u não faz parte de Ext(s). 2.3.3 Variáveis Simbólicas Sabemos que na análise de dados clássicos, as variáveis assumem um único valor ou categoria para um dado indivíduo. Entretanto, as variáveis simbólicas podem assumir para um dado indivíduo (ou classe): conjuntos de categorias, intervalos, histogramas, etc. Basicamente, as variáveis simbólicas dividem-se em: variáveis multi-valoradas (ordenadas ou não-ordenadas), variáveis tipo-intervalo (ou intervalar) e variáveis modais. Define-se Y como uma variável simbólica multi-valorada se seus valores Y (k) correspondem a subconjuntos finitos do domínio D : |Y (k)| < ∞, para todos os indivíduos k ∈ E. Por exemplo, seja Y os bancos existentes em k cidades brasileiras, onde D = {BB, Bradesco, Real, . . . ,Caixa}. Logo, poderíamos ter Y (Paulista) = {BB, Real} ou Y (Oiapoque) = {BB,Caixa}. Uma variável simbólica Y é definida como multi-valorada ordinal se D suporta uma relação de ordem ≺, tal que, para quaisquer pares de elementos a, b ∈ D, tenhamos a ≺ b ou b ≺ a. Um caso típico é representado por uma variável qualitativa com domínio finito D = {a, b, c, . . . , h}, onde: a ≺ b ≺ c ≺ . . . ≺ h. Na prática, a ≺ b, é interpretado por a antecede b ou a é menor que b. Assim, para dois indivíduos k,t ∈ E, onde observamos a = Y (k) e b = Y (t) para a variável Y , é possível indicar qual dos indivíduos é estritamente melhor que o outro: a ≺ b ou b ≺ a. Por exemplo, Y = {qualidade do produto} e D = {excelente, bom, razoável, pobre, insuficiente}. Define-se Y como uma variável simbólica intervalar se, ∀k ∈ E, o subconjunto U := Y (k) é um intervalo em R ou um intervalo relacionado a uma dada ordem ≺ em D : Y (k) = [α , β ], tal que, α , β ∈ D, α ≤ β e α ¹ β . Por exemplo, seja.

(37) 2.4 MÉTODOS DE APRENDIZADO ESTENDIDOS PARA DADOS SIMBÓLICOS. 13. Y o tempo semanal de estudo de um estudante (em horas), teríamos como possíveis valores Y (c) = [0, 2] ou Y (l) = [5, 6]. As variáveis acima definidas, também são conhecidas por variáveis simbólicas booleanas. A variável simbólica Y é definida como modal, com domínio D sob o conjunto de objetos simbólicos E = {a, b, . . .}, uma variável multivalorada que, para cada objeto k ∈ E, apresenta não apenas um conjunto de categorias Y (a) ⊆ D, mas também uma freqüência, probabilidade ou peso w(y), associado a cada categoria y ∈ Y (a), que indica o quão freqüente, típico ou relevante a categoria y é para o objeto a. Por exemplo, seja Y a distribuição das agências bancárias em k cidades. Para uma cidade t, teríamos Y (t) = {BB(0.5), Bradesco(0.4), Real(0.1)}.. 2.4. Métodos de Aprendizado Estendidos para Dados Simbólicos. Ao contrário dos métodos clássicos para tratamento de dados que foram desenvolvidos ao longo de mais de um século, a aprendizagem estatística de dados simbólicos ou os métodos para tratamento de dados simbólicos ainda são em número bastante reduzido. A seguir, serão comentados alguns métodos clássicos de aprendizado estatístico já estendidos para o tratamento de problemas que envolvem dados simbólicos. 2.4.1 Estatística Descritiva A análise exploratória de Dados ((Tukey 1977)) foi uma das primeiras técnicas estatísticas empregadas para tratamento de dados simbólicos. Alguns conceitos de estatística descritiva como: média amostral, variância amostral e distribuição de freqüência, foram desenvolvidos no caso univariado (p=1) para variáveis simbólicas intervalares, multi-valorada e modal ((Bertrand & Goupil 2000)). de Carvalho (1995) introduziu a noção de histograma para dados simbólicos booleanos. Noirhomme-Fraiture & Rouard (1997) apresentaram um método gráfico, chamado de Zoom Star, onde é possível visualizar objetos simbólicos. Posteriormente, os conceitos desenvolvidos para o caso univaridado foram estendidos para o caso multivariado, ou seja, quando p > 1. Isso permitiu a definição de algumas medidas de dependência entre variáveis simbólicas como, por exemplo, a matriz de covariância, a distância Euclidiana, a distância de Minkowski e a distância de Mahalanobis. Billard & Diday (2000) estenderam os conceitos de função de correlação e covariância, proporcionando a obtenção de uma equação de regressão linear, quando as variáveis simbólicas assumem intervalos. O desenvolvimento da matriz de covariância também contribuiu para análise de componente principais simbólica, análise discriminante simbólica e análise de cluster simbólica. Outra medida de de-.

(38) 14. CAPÍTULO 2 ANÁLISE DE DADOS SIMBÓLICOS. pendência entre duas variáveis aleatórias é o coeficiente de Spearman. Billard (2004) apresentou sua extensão no caso de variáveis simbólicas intervalares, utilizando o conceito de cópulas proposto por Skal (1959). 2.4.2 Análise de Componentes Principais Simbólica Cazes, Chouakria, Diday & Schektman (1997), Chouakria (1998) e Chouakria, Cazes & Diday (1998) desenvolveram o método de componentes principais para dados simbólicos considerando um conjunto de p variáveis simbólicas de natureza intervalar. O objetivo da análise de componentes principais é reduzir um conjunto p − dimensional para um conjunto s − dimensional, onde s ≪ p. Uma componente principal é uma combinação linear das variáveis originais, onde o objetivo é encontrar um conjunto de s componentes que juntas expliquem ao máximo a estrutura de variação das p variáveis originais. Métodos com o objetivo de redução de dimensionalidade para dados de natureza intervalar também foram propostos por Ichino (1998) e Ichino & Yaguchi (1994), utilizando a métrica de Minskowsky, e por Nagabhushan, Gowda & Diday (1995) usando princípios de séries de Taylor. Lauro & Palumbo (2000) apresentaram novas técnicas para análise de componentes principais para variáveis simbólicas intervalares, usando as informações dos limites inferior e superior dos intervalos. Segundo os autores, sua abordagem vai de encontro à alguns métodos desenvolvidos que focam apenas no ponto médio dos intervalos e consideram a amplitude como um erro de mensuração ou uma pertubação aos dados. Rangarajan & Nagabhushan (2004) apresentam uma abordagem para reduzir a dimensionalidade de dados multidimensionais coletados de forma temporal. Eles enfocam o problema de reconhecimento de padrões (imagens), onde cada pixel é representado por um vetor de valores ao longo do tempo. Irpino (2006) apresenta uma extensão mais geral para a análise de componentes principais (PCA) para dados intervalares com dependência no tempo como, por exemplo, o preço de abertura e fechamento de uma ação negociada no mercado financeiro. 2.4.3 Análise de Cluster Simbólica Outra importante técnica estatística desenvolvida para dados simbólicos é a análise de cluster. O objetivo dos métodos de clusters é classificar um conjunto de objetos simbólicos em k classes, de tal forma que os objetos pertencentes a uma mesma classe sejam similares (ou homogêneos) e dissimilares (ou heterogêneo) entre as classes. Ichino & Yaguchi (1994), Gowda & Diday (1991) Guru, Kiranagi & Nagabhushan (2004) propuseram medidas de similaridade ou dissimilaridade para mensurar a distância entre objetos simbólicos. da Silva (2005) e Billard & Diday (2006) apresentam as principais medidas de distância para objetos simbólicos booleanos e modais. O conceito de cluster para variáveis simbólicas de natureza intervalar,.

(39) 2.4 MÉTODOS DE APRENDIZADO ESTENDIDOS PARA DADOS SIMBÓLICOS. 15. multi-valorada e modal, utilizando um algoritmo de cluster do tipo divisivohierárquico foi apresentado por Chavent (1998). Ela menciona que o método proposto fornece uma fácil interpretação e obteve bons resultado em grandes bases de dados. Em contraste com os métodos divisivos, os métodos aglomerativos iniciam com cada objeto simbólico representando um cluster primário. O objetivo do algoritmo aglomerativo é unir os objetos em grupos maiores, formando os clusters finais. Gowda & Diday (1991) e Gowda & Diday (1992) sugeriram um algoritmo aglomerativo baseado em uma medida de similaridade que pode ser usada em variáveis simbólicas quantitativas e qualitativas. Diday (1986) desenvolveu clusters piramidais para dados clássicos e Brito (1994) estendeu o conceito de cluster piramidal para dados simbólicos. Mais recentemente, Bock (2002) apresentou métodos de partição para dados de natureza intervalar e a utilização de mapas de Kohonen para visualização de dados simbólicos. de Carvalho & de Souza (2003) desenvolveram novos métodos de cluster para dados intervalares utilizando algoritmos do tipo nuvens dinâmicas. de Souza & de Carvalho (2004) introduziram novos métodos de partição para dados tipo-intervalo baseados na distância city-block, que representam uma extensão do algoritmo de nuvens dinâmicas usado em dados usuais. de Carvalho, de Souza, Chavent & Lechevallier (2006) propuseram um método dinâmico de partição para dados intervalares baseado na distância de Hausdorff. A vantagem desta abordagem é que o algoritmo de cluster se adapta a grupos de diferentes formas e tamanhos. Os resultados obtidos no processo experimental mostraram uma maior precisão quando comparado a outros algoritmos. 2.4.4. Análise Fatorial Simbólica. A Análise Fatorial no contexto de dados simbólicos foi abordada por Cazes et al. (1997). Eles introduziram um método geométrico de classificação nãosupervisionado em que indivíduos são descritos por vetores de intervalos numéricos. Lauro, Verde & Palumbo (2000) propuseram uma generalização da Análise Fatorial Discriminante para objetos simbólicos. Gettler-Summa & Pardoux (2000) apresentam uma abordagem simbólica para Análise Fatorial em tabelas com três entradas. As tabelas de três entradas constituem numa extensão da tabela bidimensional, onde o tempo ou espaço é tratado como a terceira dimensão. Morineau, Sammartino, Gettler-Summa & Pardoux (1994) e Loustaunau, Pardoux & Gettler-Summa (1997) também apresentam contribuições nesta área. 2.4.5. Árvores de Decisão. As Árvores de Decisão podem ser definidas como uma técnica não-paramétrica de classificação, onde uma amostra de indivíduos ou objetos é dividida em.

(40) 16. CAPÍTULO 2 ANÁLISE DE DADOS SIMBÓLICOS. classes pré-definidas que serão explicadas por um conjunto de regras baseadas em variáveis de interesse. Ciampi, Diday, Lebbe, Périnel & Vignes (2000) propuseram uma abordagem que generaliza o conceito de árvores de decisão no caso de variáveis simbólicas. Llatas & Garcia-Santesmases (2000) estudaram o uso de Árvores de Decisão considerando que os objetos simbólicos provém de uma amostra estratificada. Segundo os autores, através da abordagem proposta é possível detectar a influência dos estratos nas regras de predição. Recentemente, Mballo & Diday (2005) propuseram a utilização do critério de Kolmogorov-Smirnov (KS) como medida em árvores de decisão. 2.4.6 Probabilidade em Análise de Dados Simbólicos Métodos estatísticos supervisionados baseiam-se em suposições probabilísticas e exercem um papel importante na análise de dados clássicos sendo, em algumas situações, preferíveis à abordagens não-supervisionadas, pois permitem ao analista realizar inferência sobre as estimativas dos parâmetros populacionais. Esse fato reforça a importância e a necessidade de um maior suporte probabilístico aos métodos estatísticos estendidos para análise de dados simbólicos. Diday (1995), Diday & Emilion (1996) e Diday, Emilion & Hillali (1996) apresentaram alguns resultados, inicialmente, considerando dados modais associados com capacidades e credibilidades. Diday & Vrac (2005) sugerem o uso de funções cópulas para encontrar uma ‘boa’ partição em problemas de clusters. Também através do uso de cópulas, Billard (2004) conseguiu estender o coeficiente de Spearman que é usado para medir o grau de dependência entre duas variáveis. No entanto, é importante ressaltar que o campo de Probabilidade para dados simbólicos ainda encontra-se largamente em aberto para estudo. 2.4.7 Modelos de Regressão Linear para Dados Simbólicos Billard & Diday (2000) foram os primeiros a propor um modelo de regressão para dados simbólicos de natureza intervalar. A abordagem proposta por eles consiste em minimizar a soma dos quadrados dos erros dos pontos médios dos intervalos. Posteriormente, eles apresentaram outra abordagem que ajusta um modelo de regressão linear no caso de dados tipo-histograma. Alfonso, Billard & Diday (2005) propõem um modelo de regressão para variáveis taxonômicas e hierárquicas. O mais recente livro na área de análise de dados simbólicos (Billard & Diday (2006)) destaca um capítulo para o tema. Nele, encontramos as principais contribuições e referências, além de exemplos práticos. Maia & de Carvalho (2007) apresentam um trabalho, que considera como critério de minimização para estimação dos parâmetros do modelo a soma dos desvios absolutos, sendo uma extensão do modelo de regressão L1 para dados simbólicos intervalares..

(41) 2.4 MÉTODOS DE APRENDIZADO ESTENDIDOS PARA DADOS SIMBÓLICOS. 17. 2.4.8 Séries Temporais Maia, de Carvalho & Ludermir (2006) são os pioneiros nesta área. Eles apresentaram duas abordagens para previsão de séries temporais considerando variáveis simbólicas intervalares. O primeiro método considerada dois modelos ARMA (Auto-regressivo Médias Móveis) ajustados, de forma independente, sobre os pontos médios e as amplitudes dos intervalos. O segundo método proposto pelos autores baseia-se numa abordagem híbrida e combina um modelo ARMA com uma rede neural MLP..

(42)

(43) C APÍTULO 3. Modelos de Regressão Linear e Não-Linear. Neste capitulo apresentamos uma revisão teórica sobre os modelos de regressão linear e não-linear. Inicialmente, abordaremos o modelo clássico de regressão, o método dos mínimos quadrados e suas propriedades, as suposições do modelo, a análise de variância e as técnicas de análise residual e de diagnóstico. Em seguida, abordamos brevemente os modelos de regressão não-linear, as suposições do modelo, os métodos iterativos para obtenção das estimativas dos parâmetros, problemas de convergência, entre outros aspectos relevantes que englobam o ajuste de um modelo de regressão não-linear.. 3.1 Modelo Clássico de Regressão 3.1.1. Introdução. A análise de dados através da regressão linear é uma das técnicas mais usadas de estimação, existindo uma ampla literatura sobre o assunto. O principal objetivo deste capítulo é apresentar alguns conceitos básicos de regressão linear que visam a facilitar a compreensão dos capítulos seguintes, onde serão apresentados modelos de regressão para dados de natureza intervalar. Como dito anteriormente, o modelo clássico de regressão teve origem nos trabalhos de astronomia elaborados por Gauss no período de 1809 a 1821. É uma técnica adequada quando se deseja estudar o comportamento de uma variável dependente y (variável resposta) em relação a outras variáveis independentes (variáveis explicativas) que são responsáveis pela variabilidade da variável resposta. O modelo clássico de regressão é definido por: 1. respostas yi independentes (ou pelo menos não correlacionadas) para i = 1, . . . , n, cada yi tendo uma distribuição especificada de média µi = E(yi ), onde E(¦) representa a esperança ou valor esperado de uma variável aleatória Y , e variância σ 2 constante; 2. a média µi é expressa de forma linear como µi = xiT β , onde xiT é um vetor 1 × p com os valores de p variáveis explicativas relacionadas à i-ésima resposta yi e β é um vetor p × 1 de parâmetros a serem estimados. As estruturas (1) e (2) podem também ser expressas na forma matricial µ = E(y) = X β , onde y = (y1 , . . . , yn )T é um vetor n × 1 cuja i-ésima componente é 19.

(44) 20. CAPÍTULO 3 MODELOS DE REGRESSÃO LINEAR E NÃO-LINEAR. yi e X é uma matriz n × p formada pelas linhas x1T , . . . , xnT . Em geral, adota-se a hipótese de aditividade entre y e µ , isto é, y = µ + ε , onde ε é um vetor de erros de média zero e variância σ 2 constante. Os erros são considerados independentes ou pelos menos não-correlacionados. Os efeitos das variáveis explicativas, que formam as colunas da matriz X, sobre a variável resposta y são lineares e aditivos. Na formação da matriz modelo, considera-se geralmente a primeira coluna como um vetor de uns sendo o parâmetro correspondente denominado intercepto. O objetivo inicial é estimar β a partir do vetor y de dados e da matriz modelo X conhecida, suposta de posto completo p. A estimação pelo Método de Mínimos Quadrados não requer qualquer hipótese sobre a distribuição das componentes do vetor y. Este método consiste em minimizar ∑i (yi − µi )2 . Outras normas podem, também, ser adotadas como ∑i | yi − µi | ou max | yi − µi |, produzindo métodos alternativos de estimação. O método de estimação M (Huber, 1973) substitui a soma de quadrados dos erros ∑i εi2 por ∑i ρ (εi ), onde ρ (εi ) é uma função simétrica. A escolha entre os métodos pode ser baseada na suposição da distribuição dos erros ε ou no programa computacional disponível. Entretanto, segundo as hipóteses (1) e (2), o método de mínimos quadrados continua sendo o método preferido entre estes métodos de estimação. 3.1.2. Estimação. Adota-se a seguinte notação matricial para representar o modelo clássico de regressão y = Xβ + ε, (3.1) em que está expressa a aditividade entre os efeitos lineares sistemáticos em µ = X β e os efeitos aleatórios em ε , supondo ainda que Cov(ε ) = σ 2 I, onde I representa a matriz identidade de dimensão n. A soma de quadrados dos erros SQE(β ) = ∑i (yi − µi )2 correspondente ao modelo (3.1) é dada em notação matricial por SQE(β ) = (y − X β )T (y − X β ). (3.2) Para estimar β minimiza-se SQE(β ) em relação a β , ou seja, minimiza-se o quadrado da distância entre os vetores y e µ = X β . Esta minimização implica em resolver o sistema de p equações lineares dadas por n ∂ SQE(β ) = 2 ∑ xir (yi − µi ) = 0, ∂ βr i=1. (3.3). para r = 1, . . . , p. O sistema (3.3) em notação matricial é expresso por X T (y − X β ) = 0, ou, equivalentemente, X T X β = X T y. Estas p equações lineares são conhecidas como equações normais. Como a matriz modelo X tem posto completo, a matriz X T X é inversível e, portanto, a solução do sistema de equações.

(45) 3.1 MODELO CLÁSSICO DE REGRESSÃO. 21. normais é única. Esta solução corresponde ao estimador de mínimos quadrados (EMQ) de β dado por βˆ = (X T X)−1 X T y. (3.4) O EMQ βˆ em (3.4), segundo o modelo (3.1), tem as seguintes propriedades: i) βˆ minimiza a soma de quadrados dos erros ∑i εi2 , independentemente da distribuição proposta para os erros. Não é necessário conhecer a distribuição dos erros para estimar β mas precisa-se da normalidade para fazer inferência sobre os parâmetros em β . Esta inferência baseia-se nas distribuições t de Student e F de Snedecor; ii) as componentes do vetor βˆ são funções lineares das observações e são estimadores não-viesados de menor variância dos parâmetros em β , comparando-os com quaisquer combinações lineares das observações, independentemente da distribuição considerada para os erros. O EMQ βˆ em (3.4) pode ser escrito como função dos erros não observados por. βˆ = β + (X T X)−1 X T ε .. (3.5). Um estimador T de um parâmetro populacional τ é definido como não-viesado, quando a esperança (ou valor esperado) do estimador iguala o parâmetro, ou seja, E(T ) = τ . No caso de βˆ , este ainda possui a menor variância entre todos os possíveis estimadores não-viesados do vetor de parâmetros β . A diferença βˆ − β entre o EMQ e o vetor verdadeiro β de parâmetros não pode ser calculada pela equação (3.5), pois o vetor de erros ε não é observado. Entretanto, esta equação é importante no estudo das propriedades do EMQ βˆ . No caso da matriz A = X T X ser singular, ou seja, algumas das equações normais dependem de outras equações de modo que há menos de p equações independentes para estimar os p parâmetros β1 , . . . , β p , o sistema (3.3) admitirá uma infinidade de soluções. Entretanto, se o mesmo for consistente (se existir βˆ ), existem matrizes A− tais que βˆ = A− y é uma solução de (3.3). As matrizes A− dependem somente de X T X e em geral não são únicas, exceto quando X T X for não-singular. Tais matrizes são chamadas de inversas generalizadas. No método de estimação de Huber (1973), citado anteriormente, a minimização de ∑i ρ (εi ) em relação a β produz o sistema de p equações não-lineares n. ∑ xir ρ (1)(yi − µi) = 0,. (3.6). i=1. em que ρ (1) (ε ) = ∂ ρ (ε )/∂ µ . Se a função ρ (·) é quadrática, o EMQ (3.4) segue diretamente de (3.6). Exemplo 3.1: Regressão Linear Simples Chamamos um modelo de regressão linear de simples quando uma única variável explicativa x é utilizada para representar o comportamento da variável.

Referências

Documentos relacionados

Based on the energy level positions, trap depths determined by thermoluminescence and with synchrotron radiation measurements (VUV-UV-vis and XAS spectroscopies), mechanisms of

RESUMO: Este trabalho teve como cunho pedagógico mostrar para os alunos do 3º Ensino Médio da Escola Estadual Brandão de Amorim, no ano de 2015, a questão da história

Para nível diário incluiu intercepto e 20 diferenças defasadas.. Para diferença diária incluiu 19

TRANSPORTE DOS ANIMAIS ATÉ O ABATEDOURO. a) O transporte dos animais vivos provenientes do manejo realizado sob qualquer sistema com fins comerciais até o abatedouro

Entre os assuntos que podiam provocar avaliações consideradas “erradas” pelos integralistas estavam: a relação entre o integralismo e o fascismo; a questão do

Quando nos referimos a catalogação de partes de plantas a serem utilizadas como medicamento, observamos as especificidades de cada espécie. E neste uso, alguns aspectos

No estudo que ora apresentamos, em torno de Me llamo Rigoberta Menchú y así me nació la conciencia (1985), narrativa de cunho testemunhal, servir-nos-emos de alguns

Este capítulo trata da modelagem utilizada para analisar e projetar sensores baseados em SMF com trecho afunilado. Será descrita a modelagem utilizada para esses tipos de