Métodos de regressão robusta e kernel para dados intervalares

(1)

Universidade Federal da Pernambuco

Centro de Inform´

atica

P´

os-gradua¸c˜

ao em Ciˆencia da Computa¸c˜

ao

M´

ETODOS DE REGRESS˜

AO ROBUSTA E

KERNEL PARA DADOS INTERVALARES

Roberta Andrade de Ara´

ujo Fagundes

TESE DE DOUTORADO

Recife - PE

16 Dezembro 2013

(2)

Universidade Federal da Pernambuco

Centro de Inform´

atica

Roberta Andrade de Ara´

ujo Fagundes

M´

ETODOS DE REGRESS˜

AO ROBUSTA E KERNEL PARA

DADOS INTERVALARES

Trabalho apresentado ao Programa de Pós-gradua¸cão em Ciência da Computa¸cão do Centro de Informática da Uni-versidade Federal da Pernambuco como requisito do grau de Doutor em Ciência da Computa¸cão.

Orientadora: Profa. Dra. Renata Maria Cardoso Rodri-gues de Souza

Co-orientador: Prof. Dr. Francisco Jos´e de Azevˆedo Cys-neiros

Recife - PE

16 Dezembro 2013

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da Silva, CRB4-1217

Fagundes, Roberta Andrade de Araújo

Métodos de regressão robusta e kernel para dados intervalares / Roberta Andrade de Araújo Fagundes. - Recife: O Autor, 2013.

xv, 116 f.: il., fig., tab.

Orientadora: Renata Maria Cardoso Rodrigues de Souza.

Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui referências e apêndices.

1. Inteligência computacional. 2. Inteligência artificial. 3. Análise de dados simbólicos. 4. Aprendizado de máquina I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título.

(4)

Tese de Doutorado apresentada por Roberta Andrade de Araújo Fagundes à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Métodos de Regressão Robusta e Kernel para

Dados Intervalares” orientada pela Profa. Renata Maria Cardoso Rodrigues de Souza, co-orientada pelo Prof. Francisco José de Azevedo Cysneiros e aprovada

pela Banca Examinadora formada pelos professores:

______________________________________________ Prof. Adriano Lorena Inacio Oliveira

Centro de Informática / UFPE

______________________________________________ Prof. Cleber Zanchettin

Centro de Informática / UFPE

_______________________________________________ Prof. Getúlio José Amorim Amaral

Departamento de Estatística / UFPE

_____________________________________________ Prof. Carmelo Jose Albanez Bastos Filho

Escola Politécnica / UPE

____________________________________________ Prof. Byron Leite Dantas Bezerra

Escola Politécnica / UPE

Visto e permitida a impressão. Recife, 16 de dezembro de 2013.

___________________________________________________

Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

A Deus que me concedeu o privilégio sagrado da vida e da condição humana.

(6)

AGRADECIMENTOS

Qualquer realiza¸cão humana, mesmo que individual, é sempre o resultado de um conjunto diversificado de contextos, de institui¸cões e, especialmente de pessoas. A seguir, elicitarei algumas pessoas:

Primeiramente a Deus; por todos os propósitos que tem reservado para minha vida. A minha avó. Euridice Andrade de Niz; sem ela nada disso teria sido poss´ıvel. Aos meus pais; eles foram a referência da minha vida e responsáveis pela forma¸cão do meu carater.

`

A minha filha e ao meu marido; presen¸ca constante, compreens˜ao m´axima, com-panheiros de todas as horas.

`

A minha tia Marli, À minha sogra, Aos meus irmãos, Às minhas cunhadas,

Aos meus sobrinhos e sobrinha ; que sempre me apoiaram incondicionalmente, que

apostaram em mim para vencer mais uma etapa da vida.

Aos meus orientadores; as pessoas mais importantes para a realiza¸cão deste tra-balho. Através de uma orienta¸cão pautada no companheirismo, na motiva¸cão do aluno, na presen¸ca constante e na honestidade, a Dra. Renata Souza e o Dr. Francisco Cys-neiros proporcionaram as condi¸cões ideais de pesquisa, como também, ajudaram a ter a persistência necessária para a conclusão do trabalho.

Aos outros participantes da pesquisa; Agrade¸co a todos que participaram direta ou indiretamente da pesquisa nos diversos experimentos realizados. Fica aqui minha gratidão aos colegas do grupo de análise de dados simbólicos (Marco, Carlos, Arthur, Diego, Elaine, Telmo, Anderson e Ricardo).

(7)

"A genealidade é feita de 10% de talento e 90% de esforço." ---Thomas Alva Edison

(8)

RESUMO

O processo de descoberta de conhecimento tem o objetivo de extrair de informa¸cões úteis (conhecimento) em bases de dados. As abordagens usadas na execu¸cão do processo de extra¸cão do conhecimento são genéricas e derivadas das diferentes áreas de conhecimento, tais como da estat´ıstica, aprendizagem de máquina e banco de dados. A Análise de Dados Simbólicos (ADS) [Bock e Diday, (2000)] é introduzida como abordagem na área de des-coberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis através de conjuntos de categorias, lista de valores, intervalos ou distribui¸cão de probabilidade. Dentre as técnicas estat´ısticas, os modelos de regressão procuram prever o comportamento da variável resposta (dependente) a partir de informa¸cões provenientes do conjunto de variáveis preditoras (independentes). O objetivo deste trabalho é propor duas metodologias para análise de dados intervalares. A primeira metodologia aborda o método robusto em regressão, que é uma alternativa para o uso do método dos m´ınimos quadrados quando os dados contêm outliers. Enquanto a segunda aborda regressão por kernel, que é um método que prover uma rela¸cão não paramétrica entre as variáveis, sem utilizar um modelo com paramêtros fixos, mas as taxas de convergências dos estimadores não paramétricos são mais lentas do que a dos estimadores paramétricos. Experimentos com conjuntos de dados simulados e aplica¸cões com conjuntos de dados reais intervalares indicam a funcionalidade e eficiência dos métodos propostos.

Palavras-chave: Regressão Robusta. Regressão Kernel. Análise de Dados Simbólicos. Dados simbólicos do tipo intervalo.

(9)

ABSTRACT

The process of knowledge discovery is aimed at extracting useful information (knowledge) in databases. The approaches used in the implementation of the knowledge extraction process are generic and derived from different knowledge areas such as statistics, ma-chine learning and database. The Symbolic Data Analysis (ADS) [Bock e Diday, (2000)] is introduced as an approach in the field of automatic knowledge discovery aimed at de-veloping methods for data described by sets of variables across categories, list of values, ranges or probability distribution. Among the statistical techniques, regression models seek to predict the behavior of the response variable (dependent) from information from the set of (independent) predictors. The objective of this work is to propose two metho-dologies for analysis of interval data. The first methodology addresses the robust method in regression, which is an alternative to the use of the method of least squares when the data contain outliers. While the second deals with kernel regression, which is a method to provide a non-parametric relationship between the variables, without using a model with fixed parameters, but the rates of convergence of nonparametric estimators are slower than the parametric estimators. Experiments with simulated data sets and applicati-ons with real data sets indicate intervallic functionality and efficiency of the proposed methods.

Keywords: Robust Regression. Kernel Regression. Simbolic Data Analysis. Simbolic Date of the interval

(10)

LISTA DE FIGURAS

2.1 Histograma para dados intervalares. . . 19 3.1 Fun¸cão de Tukey’s Biweight. . . 36 3.2 Cenário 1.: Alta variabilidade na parte superior do centro dos hipercubos. 43 3.3 Cenário 2.:Alta variabilidade na parte superior e inferior do centro dos

hipercubos. . . 44 3.4 Cen´ario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos. 44 3.5 Cen´ario 4.:Alta variabilidade no centro e na amplitude dos hipercubos

conjuntamente. . . 45 3.6 Cen´ario 5.:Alta variabilidade n centro e na amplitude dos hipercubos

se-paradamente. . . 46 3.7 Gráfico 3D: Pressão Sistólica (X), Pressão Diastólica (Z) e Taxa Pulso (Y ). 50 3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia. 51 3.9 Gráfico 3D: Cilindrada do Motor (X), Velocidade Máxima (Z) e Pre¸co (Y ). 51 3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro. . . 52 3.11 Gráfico 3D: Largura do P´ıleo (Y ), Comprimento do Stipe (X) e Espessura

do Stipe(Z). . . 53 3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo. . 53 3.13 Gráfico 3D: Altura (X), Idade (Z) e Peso (Y ). . . 54 3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol. . . . 54 3.15 Gráfico 3D: Número de Operandos (X), Número de Operadores (Z) e

Tamanho do Software (Y ). . . 55 3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos

da Nasa. . . 56 3.17 Gr´afico Residual Intervalar dos conjuntos de dados simb´olicos reais. . . . 59

4.1 Y Estimado versus Y Real baseado no m´etodo RKI:CA. . . 77

4.2 Y Estimado versus Y Real baseado no m´etodo RMI:CK+AL. . . 77

4.3 Cenário 1.:Rela¸cões não linear para o centro e aleatória para amplitude. 82 viii

(11)

LISTA DE FIGURAS

4.4 Cenário 2.: Relação não linear para o centro relação linear para amplitude. . . .83 4.5 Cenário 3.: Relação não linear para o centro e a amplitude. . . 83 4.6 Cenário 4.: Relação não linear para o centro e aleatória para amplitude na

presença de ruídos. . . .84 4.7 Cenário 5.: Relação não linear para o centro e linear para amplitude na

presença de ruídos. . . .84 4.8 Cenário 6.: Relações não linear para o centro e amplitude na presença de

ruídos. . . 85

(12)

LISTA DE TABELAS

1.1 Projetos de software do repositório da NASA para estima¸cão de software descritos por dados simbólicos do tipo intervalo. . . 4 2.1 Temperaturas m´ınimas e máxima registradas na China. . . 8 2.2 Parte dos módulos de software do projeto 1. . . . 12 3.1 Média e Desvio Padrão (entre parentesis) do MMRE para os métodos

RRI e RLI nos cenários 1 e 2. . . 47 3.2 Média e Desvio Padrão (entre parenteses) do MMRE para os métodos

RRI e RLI nos cenários 3, 4 e 5. . . 48 3.3 Compara¸cão entre modelos de regressão de acordo com o ganho relativo

(%) do MMRE. . . 49 3.4 Média e Desvio Padrão (entre parenteses) do MMRE para os métodos de

regressão (RRI e RLI). . . 57 3.5 Compara¸cão entre os modelos (RRI) e (RLI). . . 58 4.1 Média e Desvio Padrão (em parêntesis) do MMRE para conjunto de dados

reais intervalar. . . 75 4.2 Teste de Wilcoxon: p-value . . . . 76 4.3 Média e Desvio Padrão (em parêntesis) do MMRE para cenários (1, 2 e

3) sem ru´ıdos. . . 87 4.4 Teste de Wilcoxon: p-value . . . . 87 4.5 Média e Desvio Padrão (em parêntesis) do MMRE para cenários (4, 5 e

6) com ru´ıdos. . . 88 4.6 Teste de Wilcoxon: p-value . . . . 89 4.7 Compara¸c˜ao entre modelos regress˜ao de acordo com o ganho relativo (%)

do MMRE. . . 90 4.8 Média e Desvio Padrão (em parêntesis) do MMRE assumindo rela¸cão

linear para centro e amplitude, respectivamente, da vari´avel resposta in-tervalar. . . 93

(13)

LISTA DE TABELAS

4.9 Teste de Wilcoxon: p-value . . . . . . . . . . 93 4.10 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma forma

arbitrária para amplitude e uma relação linear para o centro da variável

resposta intervalar. . . . . . . . . . . .94 4.11 Teste de Wilcoxon: p-value . . . . . . . . . . 95 4.12 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma relação

não linear para centro e amplitude, respectivamente, da variável resposta

intervalar . . . . . . . .96 4.13 Teste de Wilcoxon: p-value . . . . . . . . . .96 4.14 Média e Desvio Padrão (em parêntesis) do MMRE para o conjunto de dados

reais intervalar considerando os métodos de Centro e Amplitude. . . . . . 97 1. Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão

sistólica e pressão diastólica dos pacientes) . . . 114 2. Conjunto de Dados: Carro (Range dos intervalos do preço, motor e

velocidade máxima do conjunto de dados carro) . . . . . . 115 3. Conjunto de Dados: Cogumelo (Range dos intervalos do píleo,

comprimento e espessura do estipe dos cogumelos do gênero Agricies . . . 116 4. Conjunto de Dados: Futebol (Range dos intervalos do peso, altura e idade

dos jogadores de futebol de times da França) . . . . . . .117

(14)

LISTA DE ACRÔNIMOS

ADS Análise de Dados Simbólicos KDD Knowledge Discovery in Databases AID Automatic Interation Detector

KNN Kernel Nearest Neighbor

MRLC modelo de regressão linear clássico NO número de operadores

NOR número de operandos NL número de linhas de código inf inferior

sup superior

MLG modelos lineares generalizados

MBRS modelos bivariados de regressão simbólicos RRI regressão robusta intervalar

RLI regressão linear intervalar GR ganho relativo

MMRE magnitude do erro médio relativo

RKI:C Regressão Kernel Intervalar baseado na informação do centro

RKI:CA Regressão Kernel Intervalar baseado na informação do centro e da amplitude RMI:CL+AK Mistura de Regressão Intervalar: Centro Linear + Amplitude Kernel RMI:CK+AL Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear RLI:C modelo linear baseado na informação do centro

RLI:CA modelo linear baseado na informação do centro e da amplitude

(15)

SUM´

ARIO

Cap´ıtulo 1—INTRODUC¸ ˜AO 1

1.1 Motiva¸c˜ao . . . 1

1.2 Objetivos . . . 5

1.3 Organiza¸c˜ao da Tese . . . 5

Cap´ıtulo 2—FUNDAMENTAÇ ÃO TE ÓRICA 7 2.1 Histórico da Análise de Dados Simbólicos . . . 7

2.1.1 Classifica¸cão Não Supervisionada, Classifica¸cão Supervisionada e Fun¸cões de Proximidade . . . 9

2.1.2 Regress˜ao . . . 10

2.2 Dados Simb´olicos . . . 11

2.2.1 Vari´avel simb´olica do tipo modal . . . 13

2.2.2 Variável simbólica do tipo não modal . . . 13

2.3 Estat´ıstica Descritiva . . . 14

2.4 Métodos de Regressão Simbólica sem Suposi¸cão de Distribui¸cão para os erros 19 2.4.1 Método do centro . . . 20

2.4.2 M´etodo do m´ınimo e m´aximo . . . 21

2.4.3 M´etodo do centro e da amplitude . . . 23

2.4.4 M´etodos com Restri¸c˜oes . . . 25

2.5 Métodos de Regressão Simbólica com Distribui¸cão para os erros . . . 26

2.5.1 Modelo Sim´etrico . . . 26

2.5.2 Modelo Bivariado . . . 28

2.5.3 Modelo Log´ıstico . . . 28

2.6 Coment´arios finais . . . 29

Cap´ıtulo 3—REGRESS˜AO ROBUSTA PARA DADOS SIMB ´OLICOS DO TIPO

INTERVALO 31

(16)

SUMÁRIO

3.1 Introdução . . . 31

3.2 Construção do Modelo e Regra de Predição. . . . . . .32

3.3 Deﬁnição de outlier simbólico do tipo intervalo . . . 36

3.3.1 Deﬁnição de outlier intervalar no centro. . . .37

3.3.2 Deﬁnição de outlier intervalar na amplitude. . . . . . .37

3.3.3 Deﬁnição de outlier intervalar no centro e na amplitude. . . .37

3.4 Experimentos com Simulação Monte Carlo. . . 37

3.4.1 Simulação Monte Carlo. . . .38

3.4.2 Análise de Desempenho. . . .46

3.5 Aplicação Dados Reais. . . .49

3.5.1 Conjunto de Dados: Cardiologia. . . .49

3.5.2 Conjunto de Dados: Carro. . . .51

3.5.3 Conjunto de Dados: Cogumelo. . . .52

3.5.4 Conjunto de Dados: Futebol. . . .54

3.5.5 Conjunto de Dados: NASA. . . .55

3.6 Análise dos Resultados. . . 56

3.6.1 Análise Gráﬁca dos Resíduos Intervalares. . . . . . 58

3.7 Considerações Finais. . . .61

Capítulo 4 — REGRESSÃO KERNEL PARA DADOS SIMBÓLICOS DO TIPO INTERVALO 62

4.1 Introdução. . . .62

4.2 Regressão Kernel Simbólica. . . .63

4.2.1 Regressão Kernel Intervalar baseado na informação do centro (RKI:C) . . . 64

4.2.1.1 Representação dos Intervalos. . . . . . 64

4.2.1.2 Modelando a relação. . . . . . 64

4.2.2 Regressão Kernel Intervalar baseado na informação do centro e da amplitude (RKI:CA) . . . .. . . .66

4.2.2.1 Representando intervalos . . . . . . 66

4.2.2.2 Modelando a relação . . . 67

4.2.3 Mistura de Regressão Intervalar . . . . . . 69

(17)

SUMÁRIO

4.2.3.1 Mistura de Regressão Intervalar: Centro Linear + Amplitude

Kernel (RMI:CL+AK) . . . . . . 70

4.2.3.2 Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear (RMI:CK+AL) . . . .72

4.3 Aplicação dos modelos com dados reais do tipo intervalo. . . 73

4.3.1 Resultados e diagnósticos dos modelos. . . 74

4.4 Avaliação Experimental. . . .78

4.4.1 Simulação Monte Carlo: Caso A. . . .78

4.4.2 Avaliação de desempenho. . . .85

4.4.3 Simulação Monte Carlo: Caso B. . . .90

4.5 Comparação entre os métodos propostos. . . 97

4.6 Considerações Finais. . . 98

Capítulo 5 — CONCLUSÕES . . . 100

5.1 Considerações. . . 100

5.1.1 Comparação entre os métodos. . . . .101

5.2 Publicações.. . . 103

5.3 Trabalhos Futuros. . . .104

REFERÊNCIAS. . . .106

APÊNDICE A . . . 113

(18)

CAP´ITULO 1

INTRODUC

¸ ˜

AO

Este cap´ıtulo fundamenta a utiliza¸cão da análise de dados simbólicos, expõe os objetivos em rela¸cão ao trabalho proposto e por fim, descreve a organiza¸cão dos demais cap´ıtulos.

1.1 MOTIVAC¸ ˜AO

Recentemente mais opera¸cões ou processos são automatizados, ou seja, para cada nova transa¸cão como compras pela internet, opera¸cões bancárias, entre outras, todos esses registros são armazenados em enormes bases de dados. Entretanto, apesar do poder de processamento dos computadores atuais, o esfor¸co computacional necessário para a manipula¸cão de grandes conjuntos de dados ainda é um problema.

O problema de extra¸cão de informa¸cão tem atra´ıdo um interesse amplo em várias comunidades de pesquisa, e tem sido conduzido por uma variedade de aplica¸cões. Muitas aplica¸cões envolvem cada vez mais uma grande quantidade de dados estruturados. A modelagem e descoberta de conhecimento para esses dados exigem técnicas de aprendizado de máquina, bem como formalismos para a extra¸cão de informa¸cão.

Como o ambiente está em constante mudan¸ca, tornam-se necessárias novas técnicas (ou ferramentas) que suportem a extra¸cão de conhecimento útil a partir de volumes crescentes de dados. Essas técnicas denominam-se descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases (KDD)). Essa área de pesquisa está em bastante evidência e visa desenvolver meios automáticos para descobrir conhecimento em grandes base de dados.

As técnicas de KDD incluem: (i) estrutura¸cão de banco de dados; (ii) sele¸cão de variáveis; (iii) preprocessamento, transforma¸cão e redu¸cão de dados; (iv) minera¸cão de dados; (v) análise, avalia¸cão e interpreta¸cão dos resultados e (vi) utiliza¸cão do conhe-cimento extra´ıdo. Segundo [Boente et al., (2007)] o processo de descoberta de conheci-mento possui três etapas importantes: pré-processaconheci-mento, minera¸cão de dados e pós-processamento.

No pré-processamento, é necessário efetuar a identifica¸cão de quais informa¸cões

da base de dados existente devem ser efetivamente consideradas importantes para 1

(19)

1.1 MOTIVAC¸ ˜AO 2 o dom´ınio do problema.

A etapa de minera¸cão de dados consiste na aplica¸cão de algoritmos ou técnicas

que extraem conhecimento a partir dos dados. Esses algoritmos ou técnicas po-dem ser de classifica¸cão, regressão, agrupamento (clusteriza¸cão), dentre outros, que possibilitem a sintetiza¸cão do conhecimento.

A etapa de p´os-processamento compreende o processo de tratamento do

conhe-cimento adquirido por meio da minera¸cão de dados, com o intuito de facilitar a interpreta¸cão e avalia¸cão deste, para priorizar a utilidade do conhecimento des-coberto através da elabora¸cão de gráficos, diagramas e outros tipos de relatórios demonstrativos.

Os algoritmos utilizados no processo de minera¸cão de dados são de diferentes áreas de conhecimento, tais como: estat´ıstica, inteligência computacional e banco de dados [Witten et. al, (2011)]. Na estat´ıstica, essas técnicas podem ser aplicadas para descobrir estruturas ou associa¸cões em conjunto de dados, realizar previsões, etc. Dentre elas, destacam-se modelos de regressão, que são modelo matemáticos e têm como um dos objetivos prever o valor da variável dependente (Y ) a partir das informa¸cões provinientes de um conjunto de variáveis independentes (X).

Adicionalmente, através desses modelos, é poss´ıvel realizar previsões sobre o compor-tamento futuro de algum fenômeno da realidade, como, por exemplo, prever a popula¸cão futura de uma cidade, simulando a tendência de crescimento da popula¸cão no passado, como também mensurar o quanto X influencia ou modifica o valor de Y .

Por exemplo, considere um paciente que tem sua pressão arterial acompanhada pelo seu médico. Um paciente saudável pode ter o valor de sua pressão oscilando no intervalo [115, 118]. Um outro, também saudável, poderia ter sua pressão oscilando no intervalo [114, 116]. Uma análise clássica utilizando o centro dos intervalos perderia a informa¸cão sobre a varia¸cão de pressão no estado saudável para cada paciente.

Em outra possibilidade, seria extremamente at´ıpico que o peso (kg) desse determinado cliente, em todas as suas consultas fosse igual a 70kg. No entanto, observa-se que o peso variou no intervalo [67, 75] e essa varia¸c˜ao poderia fazer diferen¸ca no diagn´ostico mais preciso.

Suponha também, que um determinado banco não estaria interessado no valor mo-netário da conta corrente de um certo cliente, mas na varia¸cão desse valor ao longo do ano para fornecer benef´ıcios relacionados a sua conta.

(20)

1.1 MOTIVAÇ ÃO 3 Nesses casos citados, a representa¸cão clássica de dados não é capaz de representar informa¸cões mais complexas, como, por exemplo, intervalos, conjuntos, frequências e distribui¸cões de probabilidade. Na representa¸cão clássica as variáveis podem ser repre-sentadas como: variáveis quantitativas e qualitativas. As variáveis qualitativas denotam caracter´ısticas individuais das unidades sob análise, tais como sexo, estado civil, natura-lidade, ra¸ca, grau de instru¸cão. As variáveis quantitativas assumem valores numa escala métrica definida por uma origem e uma unidade, por exemplo: idade, salário, peso.

Os dados presentes em bases de dados simbólicas representam um extensão das in-forma¸cões contidas em bases de dados clássicas, apresentando-as de forma agregada. Uma base de dados simbólicos pode conter, em uma célula de sua matriz, informa¸cões expres-sas como listas, intervalos, distribui¸cões de frequência, distribui¸cões de probabilidade, etc., diferentemente de uma base de dados clássica em que cada célula assume apenas um ´

unico valor.

Diante desse pressuposto, é essencial um tipo de análise de dados que considere a complexidade, imprecisão, incerteza ou variabilidade presentes na estrutura dos dados. Com isso, surge a Análise de Dados Simbólicos (ADS) [Billard e Diday, (2006)].

Billiard e Diday (2003) atestam o crescimento de dados de natureza simbólica e aler-tam a necessidade do desenvolvimento de novas metodologias estat´ısticas para o tra-tamento de informa¸cões dessa natureza. Além disso, com rela¸cão aos poucos métodos estat´ısticos dispon´ıveis, faz-se necessário o estabelecimento de um maior suporte ma-temático e estat´ıstico a esses métodos, tais como: verifica¸cão de propriedades estat´ısticas, estima¸cão de erros padrão e distribui¸cões teóricas, entre outros.

Os principais conceitos da análise de dados simbólica e alguns métodos estat´ısticos de-senvolvidos para manipular dados desta natureza foram apresentados em [Bock e Diday, (2000)], [Billard e Diday, (2006)] e [Diday e Noirhomme-Fraiture, (2008)].

Os dados simbólicos são caracterizados por variáveis estruturadas que representam intervalos, distribui¸cões de peso e conjuntos. Por exemplo, a Tabela 1.1 apresenta um problema de engenharia de software, em que se pretende prever o tamanho do software a ser desenvolvido para, posteriormente, obter o custo e tempo de desenvolvimento do mesmo.

Ainda nesta Tabela 1.1 observa-se que os dados simbólicos do tipo intervalo são re-presentados pelos valores m´ınimo e máximo das variáveis independentes (X): número de operandos (NO), número de operadores (NOR) e variável dependente (Y ): número de linhas (NL). Esses registros foram gerados pelos 13 projetos do repositório da NASA http://mdp.ivv.nasa.gov/.

(21)

1.1 MOTIVAC¸ ˜AO 4

Tabela 1.1 Projetos de software do repositório da NASA para estima¸cão de software descritos por dados simbólicos do tipo intervalo.

Projetos Vari´aveis Intervalares

NL NO NOR 1 [0:602] [0:1144] [1:1641] 2 [0:663] [0:843] [0:1198] 3 [0:817] [0:4015] [1:5590] 4 [0:210] [0:1403] [0:1687] 5 [0:242] [0:556] [1:857] 6 [13:2571] [1:467] [1:19] 7 [2:503] [0:798] [1:1129] 8 [0:639] [0:2279] [0:2948] 9 [3:112] [2:396] [3:493] 10 [1:3442] [0:3021] [0:5420] 11 [1:288] [0:428] [0:687] 12 [1:365] [0:632] [1:864] 13 [0:2072] [0:5169] [0:10862]

Portanto, ADS pode ser utilizada como uma abordagem para representar os limites de um conjunto de poss´ıveis valores de um item ou a varia¸cão interna de uma variável através da redu¸cão de conjuntos de dados em um número reduzido de pequenos grupos de informa¸cão. Dados simbólicos do tipo intervalo também são relevantes no caso de aplica¸cões com dados confidenciais em que somente permite-se conhecer o intervalo dos valores.

A ADS [Diday e Noirhomme-Fraiture, (2008)] é uma área, que nasceu da influência simultânea de vários campos de pesquisa como: análise de dados clássica, inteligência artificial, aprendizagem de máquina e banco de dados. O principal objetivo de SDA é de-senvolver modelos para o tratamento de dados mais complexos, como intervalos, conjuntos e distribui¸cões de probabilidades ou de pesos. Além disso, ADS é capaz de generalizar os métodos tradicionais com dados clássicos para métodos com dados simbólicos através do desenvolvimento exploratórios, estat´ısticos e representa¸cões gráficas para esses tipos de dados. Esta tese está inserida neste contexto de generaliza¸cão de técnicas clássicas para dados simbólicos do tipo intervalo.

(22)

1.2 OBJETIVOS 5

1.2 OBJETIVOS

O objetivo principal desta tese é desenvolver um conjunto de solu¸cões teóricas e aplicadas na área de regressão para dados simbólicos do tipo intervalo, cujos resultados sejam qualitativamente superiores aos dos métodos atualmente utilizados. Mais especificamente propomos:

1. Desenvolver um método de regressão robusta para dados simbólicos do tipo inter-valo;

2. Propor análise gráfica dos res´ıduos para dados simbólicos do tipo intervalo;

3. Desenvolver um método de regressão baseado em kernel para dados simbólicos do tipo intervalo;

4. Desenvolver um método de regressão baseado em duas regressões: via kernel e linear para dados simbólicos do tipo intervalo, denominado de método de regressão mista; 5. Realizar estudos de simula¸cão para verificar o desempenho da predi¸cão dos modelos

propostos;

6. Aplicar as solu¸cões propostas neste trabalho em conjuntos de dados simbólicos do tipo intervalo em repositórios dispon´ıveis para a valida¸cão experimental das solu¸cões propostas;

7. Comparar os modelos propostos através do erro estimado através da simula¸cão Monte Carlo.

1.3 ORGANIZAC¸ ˜AO DA TESE

Esta tese é composta deste cap´ıtulo introdutório e mais quatro cap´ıtulos, a saber: Cap´ıtulo 2 - Fundamenta¸cão Teórica

Neste cap´ıtulo serão apresentados os conceitos fundamentais de análise de dados simbólicos, assim como métodos de regressão que existem na literatura de dados simbólicos do tipo intervalo.

(23)

1.3 ORGANIZAÇ ÃO DA TESE 6 Este cap´ıtulo apresenta a proposi¸cão do método de regressão robusta simbólica para dados do tipo intervalo, e análise de res´ıduos para deteçcão de potencias outliers, como também, é apresentado um conjunto de resultados de experimentos com simula¸cões e dados reais realizados com o método proposto.

Cap´ıtulo 4 - Regress˜ao Kernel para Dados Simb´olicos do Tipo Intervalo

Este cap´ıtulo propõe duas abordagens de regressão para dados simbólicos. A primeira abordagem é baseada na regressão kernel para dados simbólicos do tipo intervalo. A se-gunda abordagem é baseada no modelo de regressão mista(regressão via kernel e linear). Com as duas abordagens são realizados experimentos utilizando simula¸cões e dados reais. Ao final, é conduzida uma análise gráfica dos modelos que obtiveram melhor desempenho.

Cap´ıtulo 5 - Conclus˜oes

Este cap´ıtulo apresenta parte dos principais resultados e conclusões obtidos neste tra-balho, bem como, as contribui¸cões na área de modelos de regressão para dados simbólicos do tipo intervalo, além de publica¸cões dos resultados em revista e congressos, nacionais e internacionais. Por fim são apresentadas dire¸cões para trabalhos futuros.

(24)

CAP´ITULO 2

FUNDAMENTAC

¸ ˜

AO TE ´

ORICA

Este cap´ıtulo divide-se em duas partes: inicialmente serão descritas as principais ca-racter´ısticas de análise de dados simbólicos, suas aplica¸cões e uma revisão de diversos trabalhos desenvolvidos os quais fundamentaram esta Tese. Além disso, apresenta-se os métodos regressão linear para dados simbólicos do tipo intervalo existentes na literatura de ADS.

2.1 HIST ÓRICO DA ANÁLISE DE DADOS SIMB ÓLICOS

A análise de dados simbólicos [Bock e Diday, (2000)] surgiu através da influência simul-tanea de três áreas. Análise Exploratória de Dados [Beaton e Tukey, (1974)], Inteligência Artificial [Russel e Norvig, (2003)] e Taxonomia Numérica [Sneath e Sokal, (1973)]. As primeiras tentativas de obter dados simbólicos a partir de dados clássicos foram realizadas por [Belson, (1959)], seguidos de [Morgan e Sonquist, (1963)] com o método Automatic Interation Detector (AID). Os primeiros algoritmos, chamados de Conceptual Clustering, foram apresentadas por [Michalski et al., (1981)].

ADS constitui uma extensão de alguns métodos utilizados para análise de dados clássicos. Os primeiros trabalhos com os princ´ıpios básicos da abordagem simbólica apa-receram no final dos anos 80 [Diday, (1987)], [Diday e Brito, (1989)]e, desde então, vários outros trabalhos foram realizados em diversas dire¸cões. Bock e Diday, (2000) apresen-tam os principais conceitos de ADS e métodos estat´ısticos desenvolvidos para manipular dados desta natureza. Os dados simbólicos podem ser obtidos através de:

1. Aplica¸cão de um algoritmo de classifica¸cão não supervisionado (cluster analysis) para simplificar grandes conjuntos de dados e descrever, de uma maneira autoex-plicativa as classes associadas ao grupo obtidas;

2. Do resultado da descri¸c˜ao de conceitos por especialistas;

3. De bases de dados relacionais para estudar conjuntos de unidades cuja descri¸cão necessita da fusão eventual de varias rela¸cões.

(25)

2.1 HIST ÓRICO DA AN ÁLISE DE DADOS SIMB ÓLICOS 8 Como os avan¸cos das tecnologias têm sido comum, encontram-se registros de intervalos em base de dados de aplica¸cões oriundas de diversos lugares. Na Tabela 2.1 é ilustrada parte de uma tabela de dados simbólico reais coletados na China. Nesta tabela, as linhas são cidades da China e as colunas são variáveis do tipo intervalo contendo as temperaturas m´ınima e máxima registradas mensalmente em 60 cidades [China, (1998)].

Tabela 2.1 Temperaturas m´ınimas e m´axima registradas na China.

Cidades Temperatura da China ([min : max]) - Ano 1998

Janeiro Fevereiro . . . Novembro Dezembro

AnQuin [1,8:7,1] [5,2:11,2] ... [7,8:17,9] [4,3:11,8]

BaoDuin [-5,8:1,4] [-2,2:3,2] ... [4,8:10,1] [-4,3:1,8]

BeiJing [-12,8:2,0] [-11,2:2,5] ... [2,5:5,1] [-8,3:0,3]

... ... ... ... ... ...

Zhijiang [2,7:8,4] [2,7:8,7] . . . [8,2:20,9] [5,1:13,3]

Com a Tabela 2.1 obtida, a fase posterior consiste em analisar, classificar, prever, resumir ou visualizar informa¸c˜oes contidas nesta tabela. Assim, ADS pode ser aplicada para apoio a tomada de decis˜ao.

A partir do final da década de 80, análise de dados simbólicos deixou de ser restrita a um pequeno grupo de pesquisadores para ser uma área de pesquisa bastante relevante marcada por muitas publica¸cões e conferências [Noirhomme-Fraiture e Brito, (2011)].

Trabalhos pioneiros [Diday, (1987)], [Diday, (1988)], [Diday, (1989)] e [Diday, (1991)] apresentam os princ´ıpios básicos da análise de dados simbólicos. Com isso, iniciou-se um crescente interesse nessa área de pesquisa.

Neste contexto, apresenta-se uma breve descri¸cão de alguns trabalhos de ADS nas áreas de [Noirhomme-Fraiture e Brito, (2011)]: classifica¸cão não supervisionada e super-visionada, fun¸cões de proximidades e regressão.

(26)

2.1 HIST ÓRICO DA AN ÁLISE DE DADOS SIMB ÓLICOS 9 2.1.1 Classifica¸cão Não Supervisionada, Classifica¸cão Supervisionada e Fun¸cões

de Proximidade

Classifica¸c˜ao N˜ao Supervisionada

No que diz respeito aos métodos de classifica¸cão não supervisionada, [Gordon, (2000)] apresentou um algoritmo de agrupamento de dados simbólicos que minimiza a soma do potencial de descri¸cão dos grupos. [De Carvalho e De Souza, (2010)] introduzem métodos de agrupamento dinâmicos para dados simbólicos intervalares com caracter´ısticas mistas, baseadas na distância euclidiana adaptativa quadrática.

[Almeida et al., (2013)] introduzem duas redes fuzzy kohonen clustering para partici-onamento de dados intervalares. A primeira rede é baseada em uma distância euclidiana fixa para os intervalos e a segunda considera distâncias ponderadas que mudam a cada itera¸cão, e são diferentes de um cluster para outro.

[Costa et al., (2013)] introduzem método de clustering baseado em kernel para dados simbólicos do tipo intervalo, onde a distância de um item e seu protótipo no espa¸co ca-racter´ıstico é expandido usando dois componentes de kernel misturados para controlar os intervalos. Além disso, ferramentas para particionamento e interpreta¸cão do cluster para dados simbólicos do tipo intervalo também são introduzidas.

Classifica¸c˜ao Supervisionada

No que diz respeito aos métodos de classifica¸cão supervisionada, [Ichino et al., (1996)] introduziram um classificador simbólico, baseado em uma abordagem geométrica cha-mada regiões para dados simbólicos.

[Prudêncio et al., (2004)] propuseram um método de classifica¸cão supervisionado, usando dados simbólicos aplicados a um problema de sele¸cão de modelos de séries temporais. [Bezerra e De Carvalho, (2004)] apresentaram uma abordagem para sistemas de reco-menda¸cão, em que o perfil do usuário modelado é descrito por dados simbólicas modais. [Arroyo et al., (2011)] analisam vários métodos de previsão para séries temporais de da-dos do tipo intervalo e histograma, são adaptada-dos filtros de suaviza¸cão e métoda-dos não paramétricos (Kernel Nearest Neighbor (KNN), Redes Neurais).

Fun¸c˜oes de Proximidade

(27)

2.1 HIST ÓRICO DA AN ÁLISE DE DADOS SIMB ÓLICOS 10 propostas: são extendidas as medidas de dissimilaridade para dados simbólicos.

[Le-Rademacher e Billiard, (2011)] propõem a fun¸cão de verossimilhan¸ca para dados simbólicos, ilustrando sua aplica¸cão ao se encontrar os estimadores de máxima verossi-milhan¸ca da média e variância para distribui¸cões de dados do tipo intervalo e histograma.

2.1.2 Regress˜ao

Vários modelos de regressão para dados simbólicos do tipo intervalo têm sido introdu-zidos na literatura. A maioria destes modelos usam o método dos m´ınimos quadrados para estimar seus parâmetros. [Billard e Diday, (2000)] apresentam uma abordagem para estender o modelo de regressão linear clássico (MRLC) para dados simbólicos do tipo intervalo pelo ajuste do método dos m´ınimos quadrados para o centro dos intervalos. [Billard e Diday, (2002)] propuseram outra abordagem que ajusta dois MRLC indepen-dentes sobre os limites inferior e superior dos intervalos. [Billard e Diday, (2006)] também incluiram variáveis explicativas, bem como a estrutura hierárquica da variável em um modelo de regressão simbólica. [Maia e De Carvalho, (2008)] apresentam um modelo de regressão linear para dados simbólicos do tipo intervalo basedos na regressão L1.

[Lima Neto e De Carvalho, (2008)] propuseram o método do centro e da amplitude para ajustar o MRLC para dados simbólicos do tipo intervalo com desempenho melhor do que os métodos apresentados em [Billard e Diday, (2000)] e [Billard e Diday, (2002)]. [Maia et al., (2008)] apresentaram abordagem para previsão de séries temporais para da-dos simbólicos do tipo intervalo. [Lima Neto e De Carvalho, (2010)] propuseram uma nova abordagem para ajustar o modelo de regressão linear com restri¸cão no centro e na amplitude dos intervalos, a fim de assegurar a coerência matemática entre os valores previstos dos limites inferior e superior do intervalo.

No contexto do modelo de regressão para os dados de intervalo que assumem distri-bui¸cões de probabilidade para os erros, [Domingues et al., (2010)] propuseram uma meto-dologia de análise de dados intervalares baseado no método de regressão linear simétrica. [Lima Neto et al., (2011)] introduziram o modelo de regressão bivariada simbólico para dados de intervalo, baseado na teoria de modelo linear generalizado. [Souza et al., (2011)] introduziram modelos de regressão linear log´ıstica para os limites inferior e superior dos intervalos, em conjunto e separadamente.

[Billiard e Xu, (2012)] consideram alguns métodos clássicos baseados no modelo de regressão m´ultipla para dados simbólicos do tipo intervalo ([De Carvalho et al., (2004)] , [Lima Neto et al., (2005)] e [Lima Neto e De Carvalho, (2010)]). Em seguida, para

(28)

com-2.2 DADOS SIMB ÓLICOS 11 parar esses métodos, a correla¸cão simbólica entre os intervalos observados e os intervalos preditos foi introduzida como uma métrica de desempenho.

Posteriormente, na se¸cão 2.4 serão descritos alguns dos métodos de regressão para dados simbólicos do tipo intervalo citados, os quais embasaram teoricamente o desenvol-vimento dos métodos propostos nessa tese.

2.2 DADOS SIMB ´OLICOS

Os dados simbólicos podem descrever indiv´ıduos levando em conta, ou não, imprecisão ou incerteza. Além disso, podem descrever itens mais complexos, tais como grupo de indiv´ıduos. Por exemplo:

Considere Y uma vari´avel simb´olica que descreve o tempo em horas de treinamento

de um indiv´ıduo jogador de futebol em uma semana. A descri¸c˜ao de um indiv´ıduo, em particular, k, pode ser: Y (k) = [0, 6];

Considere Z uma variável simbólica que descreve o grau de instru¸cão existente em

uma cidade (classe de indiv´ıduos). A descri¸cão da cidade k pode ser: Z(k) =Analfabeto, Ensino Fundamento Incompleto, Ensino Fundamental Completo, Ensino Médio In-completo, Ensino Médio Completo, Ensino Superior InIn-completo, Ensino Superior Completo, Pós-Gradua¸cão (Mestrado) e Pós-Gradua¸cão (Doutorado);

Outro cen´ario muito comum nas empresas ocorre quando existe a necessidade de

divulga¸cão de informa¸cões de caráter sigiloso como faixas salariais, valores em in-vestimentos de risco ou percentuais de acidentes de trabalho. Esse tipo de dado pode ser expresso através de dados simbólicos, usando intervalos, distribui¸cões de frequências ou distribui¸cões de probabilidade.

Em uma tabela de dados simbólicos, as linhas correspondem aos indiv´ıduos ou classes e as colunas são as variáveis simbólicas que caracterizam os individuos. Os cenários apresentados motivam a utiliza¸cão dos dados simbólicos para representa¸cão dos dados complexos.

A representa¸cão de dados simbólicos do tipo intervalo será objeto de estudo deste trabalho. A descri¸cão dos outros tipos de dados simbólicos pode ser encontrada na literatura pertinente [Billard e Diday, (2006)] e [Lechevallier et al., (2008)].

Os modelos da literatura de ADS apresentados na subse¸cão 2.1.2 podem ser aplica-dos para resolver problemas de regressão em diferentes áreas. Por exemplo, na área de engenharia de software é comum estimar o tempo e/ou custo relacionado a um projeto de

(29)

2.2 DADOS SIMB ÓLICOS 12 software [Bielak, (2000)]. As estimativas são as bases do planejamento e, particularmente, elas são ´uteis no desenvolvimento e na manuten¸cão do software. A predi¸cão baseada nos dados do tipo intervalo leva em conta a variabilidade, tornando mais flex´ıvel ao fazer o planejamento de um software. Algumas aplica¸cões de modelo de regressão para estima-tiva de defeito de software podem ser encontradas em [Fakhrahmad e Sami, (2009)] e em ([Oliveira, (2006)] e [Leal et al., (2009)]) para estima¸cão de esfor¸co de software.

Aqui, um conjunto de dados do tipo intervalo é constru´ıdo a partir dos 13 projetos do repositório da NASA http://mdp.ivv.nasa.gov/ que são amplamente utilizados na literatura da estimativa de software [Jiang et al., (2008)].

Cada projeto é formado por um conjunto de dados de módulos de software e as variáveis que descrevem projetos de software que variam em tamanho, complexidade, linguagens de programa¸cão, processos de desenvolvimento, etc. Assim, cada módulo de um projeto é descrito por 21 variáveis.

A fim de descrever intervalos simb´olicos para esses projetos atrav´es do conhecimento a

priori do especialista em estimativa de software, trˆes vari´aveis foram escolhidas: n´umero

de operadores (NO), número de operandos (NOR) e número de linhas de código (NL). Um processo de generaliza¸cão para os módulos de cada projeto foi realizado, considerando que os intervalos são calculados por valores m´ınimo e máximo das variáveis clássicas do repositório NASA.

A Tabela 2.2 ilustra parte do projeto 1 do repositório da NASA. Cada linha desta tabela corresponde a um módulo de software descrito pelas variáveis NO, NOR e NL.

Tabela 2.2 Parte dos m´odulos de software do projeto 1.

Número de linhas Número de operadores Número de operandos

(NL) (NO) (NOR) 41 590 111 14 0 1 100 180 345 0 0 678 . . . . 602 1144 435 110 530 1641 350 126 899

(30)

2.2 DADOS SIMB ÓLICOS 13 Em rela¸cão à Tabela 2.2, uma descri¸cão intervalar para o projeto 1 pode ser dada pelos valores de m´ınimo e máximo das variáveis NL, NO e NOR que são, respectivamente, [0, 602], [0, 1144] e [1, 1641].

No cap´ıtulo 1 a Tabela 1.1 mostra o conjunto de dados do tipo intervalo resultante da aplica¸cão do processo de generaliza¸cão, onde cada linha desta tabela descreve conceitos de projeto de software, considerando a varia¸cão interna.

Sabe-se que na análise de dados simbólicos, as variáveis assumem um único valor ou categoria para um dado indiv´ıduo. Entretanto, as variáveis simbólicas podem assumir para um dado indiv´ıduo (ou classe): conjunto de categorias, intervalos, histograma, etc.

Como nos dados clássicos, os dados simbólicos também são classificados segundo o tipo de variável simbólica que descreve os objetos, etapas por sua vez são definidas de acordo com seu dom´ınio. De acordo com [Bock e Diday, (2000)], as variáveis simbólicas são classificados em dois grandes grupos: não modais e modais.

2.2.1 Vari´avel simb´olica do tipo modal

Uma variável simbólica modal descreve um objeto usando par(c,π), onde c é o conjunto de categorias que a variável assume e π é um vetor de frequência, pesos ou probabilidades correspondentes às categorias do conjunto c.

Por exemplo, seja Y a distribui¸cão de agências bancárias em k cidades. Para uma cidade t, tem -se: Y (t) = BB (0,5), Bradesco (0,4) e Caixa (0,1).

2.2.2 Variável simbólica do tipo não modal

As variáveis não modais são: multivaloradas e do tipo intervalo. As variáveis multivalo-rada são definidas como: categórica e quantitativa.

Uma vari´avel multivalorada nominal assume, ao descrever um objeto, um conjunto

de categorias não ordenadas. Por exemplo, seja Y = Tipo de Passagem de um grupo k de indiv´ıduos, então Yk =Terrestre, Áerea;

Um vari´avel multivalorada ordinal assume um conjunto de categorias ordenados.

Por exemplo, seja Y = n´ıvel de escolaridade e k um grupo de indiv´ıduos de uma cidade, então Yk = fundamental, médio, gradu¸cão;

Uma vari´avel multivalorada quantitativa assume um conjunto de valores n˜ao

(31)

2.3 ESTAT´ISTICA DESCRITIVA 14 principais escolas particulares de uma cidade e k um grupo de indiv´ıduos de uma cidade, ent˜ao Yk = 10, 9, 20;

No caso clássico, todos esses exemplos apresentados, as variáveis só poderiam

assu-mir um ´unico valor ao descrever cada indiv´ıduo.

Uma variável Y é do tipo intervalo se ela representa uma realiza¸cão ξ = [a : b] ⊂ ℜ1_,

com a ≤ b e {a, b} ∈ ℜ1. No exemplo da Tabela 1.1, os intervalos são gerados como resultado da agrega¸cão (generaliza¸cão) de dados clássicos [Jiang et al., (2008)]. Os valores auj e buj do intervalo [auj : buj] referentes à variável j na categoria wu são dados por:

auj = min i∈Ωu xij, buj = max i∈Ωu xij,

onde Ωu é o conjunto dos i − ésimos valores (i ∈ Ω) que compõem a categoria wu.

Exemplos dessa defini¸c˜ao podem ser obtidos do conjunto de dados simb´olicos da Tabela 1.1.

2.3 ESTAT´ISTICA DESCRITIVA

Apesar dos métodos de minera¸cão de dados inicialmente terem sido elaborados sob os alicerces dos dados clássicos, é poss´ıvel adaptar seus conceitos e métodos para dados simbólicos.

Carvalho (1995) introduziu a no¸cão de histogramas para dados simbólicos booleanos. Bertrand e Goupil (2000) introduziram métodos para calcular a distribui¸cão de frequência para uma variável simbólica e estenderam, para cada tipo de variável, os conceitos de média, desvio padrão e mediana.

Billiard e Diday (2000), (2002) estenderam os conceitos de fun¸cão de correla¸cão e covariância, proporcionando a obten¸cão de uma equa¸cão de regressão linear múltipla para dados simbólicos de natureza intervalar. Nesse mesmo contexto, em [Billard, (2004)] são abordados média, variância e histograma para dados do tipo intervalo e multivalorado.

Nos trabalhos [Lauro e Gioia, (2006)] e [Billard, (2004)], são introduzidos métodos para analisar a interdependência e dependência entre variáveis com valores intervala-res. Os métodos de regressão para dados simbólicos do tipo intervalo serão descritos em detalhes na se¸cão 2.4.

Uma ilustra¸cão disso, é a adapta¸cão da estat´ıstica descritiva para dados simbólicos do tipo intervalar. São exemplos de métodos da estat´ıstica descritiva a constru¸cão

(32)

histo-2.3 ESTATÍSTICA DESCRITIVA 15 grama, cálculo da média e variância. Antes de ser explicado como esses métodos foram adaptados, é necessário definir o que é uma descri¸cão individual e uma descri¸cão virtual. Descri¸cão individual é o valor de uma variável de um objeto simbólico. O cálculo da frequência de um histograma simbólico envolve contar o número de descri¸cões individuais que tornam verdadeira uma determinada dependência lógica nos dados.

Uma dependência lógica pode ser representada pela equa¸cão (2.1), tal que x ∈ X (X é o conjunto de todas as descri¸cões individuais presentes na tabela) e A ⊆ D, B ⊆ D. Em que, v retornará um valor binário, isto é, ”0”, se a dependência lógica não for verdadeira para x, ou ”1” se for verdadeira [Billard e Diday, (2006)].

v : [x ∈ A] ⇒ [x ∈ B]. (2.1)

Já a descri¸cão virtual de um vetor é um conjunto de todos os elementos x presentes que satisfazem todas as dependências lógicas em X. Ela é representada pela equa¸cão2.2

como vir(d) sendo Vx todas regras presentes em X.

vir(d) = x ∈ D; v(x) = 1, ∀v ∈ Vx. (2.2)

Deste modo, supondo que h´a interesse em uma vari´avel Yj ≡ Z e o valor observado

para o objeto u nessa vari´avel ´e um intervalo Z(u) = [au, bu], para u ∈ E = {1, ..., m} e

que os vetores de descri¸c˜ao individuais x ∈ vir(du) s˜ao distribu´ıdos uniformemente sobre

o intervalo Z(u), temos para cada ξ:

P {x ≤ ξ|x ∈ vir(du)} =          0, _{se ξ ≤ a}u; ξ−au au−bu, se au ≤ ξ ≤ bu; 1, caso contr´ario. (2.3)

O vetor de descri¸c˜ao individual x vai ter valores globalmente em S_u∈Evir(du) e cada

um desses objetos vai ter a mesma probabilidade de ser observado com p = _m1. Fun¸c˜ao de Distribui¸c˜ao Emp´ırica Intervalar

Obtem-se, então, que a fun¸cão emp´ırica de distribui¸cão, FZ(ξ), que é uma fun¸cão de

distribui¸c˜ao de m distribui¸c˜oes uniformes nos m intervalos Z(u) = [au, bu] para u ∈ E .

(33)

2.3 ESTAT´ISTICA DESCRITIVA 16 FZ(ξ) = 1 m X u∈E P {x ≤ ξ|x ∈ vir(du)}, (2.4) = 1 m    X ξ∈Z(u) ξ − au bu− au + |u|ξ ≥ bu|   . Fun¸c˜ao de Densidade Emp´ırica Intervalar

Caso seja derivada a equa¸cão (2.4) em fun¸cão de ξ, será encontrada a fun¸cão emp´ırica de densidade de Z. f (ξ) = 1 m X u:ξ∈Z(u) 1 bu− au . (2.5)

Como na equa¸cão (2.5) o somatório é apenas sobre objetos u, para os quais ξ ∈ Z(u), é poss´ıvel escrevê-la de outra forma:

f (ξ) = 1 m X u∈E Iu(ξ) ||Z(u)||, ξ ∈ ℜ, (2.6)

onde Iu(ξ) é uma fun¸cão que indica se ξ está ou não em Z(u), quando afirmativo,

retornará 1, caso contrário, 0. E ||Z(u)|| é a amplitude do intervalo Z(u) ∈ E, onde ||Z(u)|| = bu− au.

M´edia Intervalar

Agora se torna poss´ıvel encontrar a média para dados simbólicos intervalares, pois se sabe que a média emp´ırica ¯Z em termos da fun¸cão de densidade emp´ırica é:

¯ Z =

Z ∞

−∞

(34)

2.3 ESTAT´ISTICA DESCRITIVA 17 Substituindo da equa¸c˜ao (2.6): ¯ Z = 1 m X u∈E Z ∞ −∞ Iu(ξ) ||Z(u)||ξdξ, = 1 m X u∈E 1 bu− au Z ξ∈Z(u) ξdξ, = 1 2m X u∈E b2 u− a2u bu− au , = 1 m X u∈E bu+ au 2 . (2.7)

Variˆancia Amostral Intervalar

De maneira análoga é poss´ıvel encontrar a variância para dados simbólicos intervalares através da variância emp´ırica s em termos da fun¸cão de densidade emp´ırica pode ser definido por

s2 =

Z ∞

−∞(ξ − ¯z)

2_{f (ξ)dξ.}

Agora computa-se s2_{, considerando que a equa¸c˜ao anterior ´e equivalente a}

s2 =

Z ∞

−∞

(ξ2_{)f (ξ)dξ − (¯z)}2. Usando o segundo momento

M2 = Z ∞ −∞ (ξ2_{)f (ξ)dξ,} = 1 m X u∈E Z ∞ −∞ (ξ2₎ ||Z(u)||dξ, = 1 m X u∈E (bu)3− (au)3 3 ||Z(u)|| , = 1 3m X u∈E [(bu)2+ (bu)(au) + (au)2]. (2.8)

(35)

2.3 ESTAT´ISTICA DESCRITIVA 18 S2 = 1 3m X u∈E b2_u+ buau + a2u −_4m1₂ " X u∈E bu+ au #2 . (2.9) Histograma Intervalar

Para construir um histograma de dados simb´olicos intervalares, ´e preciso tomar o intervalo I = minau|u∈E, maxbu|u∈E

em que todos os poss´ıveis valores de Z est˜ao contidos, e considerar uma parti¸c˜ao de I em r subintervalos Ig = [ξg−1, ξg), g = 1, ..., r − 1 e Ir =

[ξr−1, ξr] com g=r. Então, o histograma para Z é a representa¸cão gráfica da distribui¸cão

de frequˆencia {(Ig, pg) g = 1, ..., r} onde:

pg = 1 m X u∈E ||Z(u) ∩ Ig|| ||Z(u)|| . (2.10)

Nesse caso pg, para g = 1, . . . , r, representa a ´area da barra vertical da base de qual ´e o

intervalo de Ig pertencente ao eixo horizontal do histograma. Portanto, pg´e probabilidade

de um descri¸c˜ao individual u est´a no intervalo Ig.

Considerando uma vari´avel Z com valores intervalares definida no conjunto ξ = 1, . . . , 8 de n = 8 objetos b´asicos definidos como:

Z(E) = [0 : 2]; [1 : 3]; [1, 5 : 2, 5]; [2 : 4]; [3, 5 : 5]; [4, 5 : 5, 5]; [5 : 7]; [6.5; 7.5]

A Figura 2.1 representa o histograma intervalar das classes definidas para cada ele-mento do vetor. Com isso, as oito classes defindas cont´em os intervalos obtidos dentra de cada faixa definida. Assim, quanto mais intervalos existirem maiores ser˜ao as frequencias das respectivas classes.

(36)

2.4 MÉTODOS DE REGRESS ÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO PARA OS ERROS19

Figura 2.1 Histograma para dados intervalares.

Usando as equa¸cões (2.7) e (2.8), computam-se os valores média e variância intervalar de Z, como, respectivamente: ¯ Z = 1 8(1 + 2 + 3 + 3 + (8, 5/2) + 5 + 6 + 7) ≃ 3, 78125 S2 ₌q443,5 24 − 3, 7812 ≃ 2, 044826

2.4 MÉTODOS DE REGRESSÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO

PARA OS ERROS

Ao contrário dos métodos clássicos para tratamento de dados que foram desenvolvidos ao longo de mais de um século, os métodos para tratamento de dados simbólicos estão crescendo a cada dia. Esta se¸cão apresentará alguns métodos de regressão para dados simbólicos do tipo intervalo baseados no método dos m´ınimos quadrados sem fazer su-posi¸cão de distribui¸cão de probabilidade para os erros.

Os três principais métodos de regressão linear para dados simbólicos do tipo intervalo são: método do centro, método dos m´ınimos e máximos e método do centro e da amplitude do intervalo. O processo de estima¸cão dos parâmetros da regressão linear dos três métodos é baseado na minimiza¸cão de critérios predeterminados.

(37)

2.4.1 M´etodo do centro

O método do centro, proposto por [Billard e Diday, (2000)], consiste em ajustar um mo-delo de regressão linear ao centro dos intervalos assumidos pelas variáveis simbólicas, e em seguida aplicar esse modelo aos limites inferior (inf) e superior (sup) dos intervalos das variáveis preditoras para prever, respectivamente, o limite inferior e superior da variável resposta. Assim, o método do centro consiste em minimizar a soma dos quadrados dos erros do centro dos intervalos.

O método do centro para variáveis simbólicas do tipo intervalo pode ser formalmente definido do seguinte modo: Seja E = {e1, e2, . . . , en} um conjunto de exemplos descritos

por p + 1 variáveis simbólicas do intervalo: Y, X1, X2, . . . , Xn. Além disso, seja cada

exemplo de ei ∈ E(i = 1, . . . , n) representado por um vetor de intervalos zi = (xi, yi),

onde xi = (xi1, xi2, . . . , xij, . . . , xip), xij = ξij = [aij : bij] ∈ Ω = {[a : b] : a ≤ b; a, b ∈

ℜ1_{}(j = 1, . . . , p) e y}

i = [yiinf : y sup

i ] ∈ Ω, caracterizando, os valores observados de Xj e

Y .

Considere o conjunto de vari´aveis X1, X2, . . . , Xp como vari´aveis preditoras

relaciona-das linearmente com uma vari´avel resposta Y atrav´es do modelo:

y_iinf = β0+ β1ai1+ β2ai2+ . . . + βpaip+ εinfi ,

y_isup = β0+ β1bi1+ β2bi2+ . . . + βpbip+ εsupi . (2.11)

A partir das Equa¸c˜oes (2.11), pode-se encontrar os estimadores minimizando a soma

de quadrados dos erros do centro dado por:

n X (i=1) (εinf_i + εsup_i )2 = n X (i=1) (yinf_i _{− β}0− β1ai1− . . . − βpaip+ + y_isup_{− β}0− β1bi1− . . . − βpbip)2, (2.12)

que representa a soma dos quadrados dos erros dos limites inferior e superior.

O estimador de m´ınimos quadrados para β que minimiza a soma dos quadrados dos erros da Equa¸cão2.12para este método é a solu¸cão do sistema de p + 1 equa¸cões normais.

(38)

ˆ

β= (A)−1b (2.13)

em que A ´e uma matriz (p + 1) × (p + 1) e b ´e um vetor (p + 1) × 1, dados por:

A=       n P_ixc i1 . . . P ixcip P ixci1 P i(xci1)2 . . . P ixcipxci1 .. . ... ... ... Pn i xcip P ixci1xcip . . . P i(xcip)2      e b = ( P iyic, P iycixi)

A express˜ao (2.13) pode ser representada de uma forma mais interessante por:

ˆ

β = (XT

cXc)−1XTcyc, (2.14)

onde, Xc tem posto completo p + 1 ≤ n, yc = (yc1, . . . , ycn)T, Xc = (xTc1, . . . , xTcn)T,xTci =

(1, xci, . . . , xcip)e ˆβ = ( ˆβ0, . . . , ˆβp). Com xcij = (aij + bij)/2 e yic = (y inf

i + y

sup

i )/2.

Assim, ao aplicar o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj], (j = 1, 2, . . . , p), os valores dos

limites do intervalo relativo à variável resposta y serão dados por:

ˆ

y = [ˆyinf : ˆysup], com, ˆ

yinf = (xinf)T_βˆ _{e ˆ}_ysup_{= (x}sup₎T_β,ˆ ₍

2.15)

em que (xinf₎T _{= (1, a}

1, a2, . . . , ap) e (xsup)T= (1, b1, b2, . . . , bp).

Desta forma, o método do centro consiste em um modelo de regressão dos centros da variável resposta do tipo intervalo Y sobre os centros das variáveis preditoras do tipo intervalo Xj. Entretanto, é importante ressaltar que este método não garante que

ˆ

yinf_i _{≤ ˆy}_isup.

2.4.2 M´etodo do m´ınimo e m´aximo

Diferente do método do centro descrito na Se¸cão 2.4.1, o método do m´ınimo e máximo proposto por [Billard e Diday, (2002)] ajusta dois modelos independentes de regressão linear para os limites inferiores e superiores das variáveis simbólicas.

(39)

2.4 MÉTODOS DE REGRESS ÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO PARA OS ERROS22 Considere o conjunto de variáveis X1, X2, . . . , Xp como variáveis regressoras

relacio-nadas linearmente com uma vari´avel resposta Y atrav´es do modelo:

yinf_i = β₀inf + β₁infai1+ . . . + βpinfaip+ εinfi ,

y_isup= β₀sup+ β₁supbi1+ . . . + βpsupbip+ εsupi . (2.16)

A partir da equa¸c˜ao (2.16), pode-se deduzir a soma dos quadrados dos erros no m´etodo

dos limites m´ınimo e m´aximo, que s˜ao:

n X i=1 εinf_i 2+ n X i=1 (εsup_i )2 = n X i=1

y_iinf _{− β}₀inf _{− β}₁infai1− . . . − βpinfaip

2

+

n

X

i=1

y_isup_{− β}₀sup_{− β}₁supbi1− . . . − βpsupbip

2

. (2.17)

Essa equa¸cão representa a soma dos quadrados dos res´ıduos dos limites inferiores e dos limites superiores de forma independente, considerando também independentes os vetores de parâmetros β utilizados para predi¸cão dos limites da variável resposta ˆY.

Os estimadores de m´ınimos quadrados de β₀inf, β₁inf, . . . , βinf

p e β

sup

0 , β

sup

1 , . . . , βpsupque

minimizam a equa¸c˜ao (2.17) podem ser escritas na nota¸c˜ao matricial por:

ˆ

β =βˆ₀inf, ˆβ₁inf, . . . , ˆβ_pinf, ˆβ₀sup, ˆβ₁sup, . . . , ˆβ_psupT. (2.18)

onde A ´e uma matriz 2(p + 1) × 2(p + 1) e b ´e um vetor 2(p + 1) × 1, denotados por:

A =                  n P_iai1 . . . P_iaip 0 . . . 0 P iai1 P i(ai1)2 . . . P iaipai1 0 . . . 0 .. . ... ... ... ... ... ... P iaip Piai1aip . . . Pi(aip)2 0 . . . 0 0 0 . . . 0 n . . . P_ibip 0 0 . . . 0 P_ibi1 . . . Pibipbi1 .. . ... ... ... ... ... ... 0 0 . . . 0 P_ibi1bip . . . P_i(bip)2                  ,

e b = P_iy_iinf,P_iy_iinfai1, . . . ,P_iyiinfaip,P_iyisup,

P iy sup i bi1, . . . ,P_iysupi bip T .

(40)

2.4 MÉTODOS DE REGRESS ÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO PARA OS ERROS23 Aplicando o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj], (j = 1, 2, . . . , p), os valores preditos dos

limites inferiores e superiores ˆy = [ˆyinf_{, ˆ}_ysup_{] da vari´avel resposta Y s˜ao dados por:}

ˆ

yinf = (xinf)T_βˆinf _e _y_ˆsup_{= (x}sup₎T_βˆsup_, ₍

2.19)

onde

(xinf)T

= (1, a1, ..., ap), (xsup)T = (1, b1, ..., bp),

ˆ

βinf = ( ˆβ₀inf, ˆβ₁inf, . . . , ˆβinf p )T e ˆβ

sup

= ( ˆβ₀sup, ˆβ₁sup, . . . , ˆβsup p )T.

2.4.3 M´etodo do centro e da amplitude

Lima Neto e de Carvalho (2008) propuseram um novo método de regressão simbólica levando em considera¸cão o centro e a amplitude das variáveis intervalares. Esse método estabelece o critério de minimiza¸cão para estima¸cão dos parâmetros, considerando a soma dos quadrados dos erros relativos do centro e da amplitude dos intervalos de modo inde-pendente.

A expectativa é de que com a inclusão de informa¸cões da amplitude dos intervalos haja uma melhoria na predi¸cão do modelo. O ajuste dos limites inferiores e superiores da variável resposta é realizado através da aplica¸cão do vetor de parâmetros ˆβ ao centro e amplitude das variáveis regressoras.

Sejam yc _{e x}c

j com (j = 1, 2, . . . , p), vari´aveis quantitativas relativas ao centro dos

intervalos das variáveis simbólicas y e xj com (j = 1, 2, . . . , p). Além disso, considere

yr_exr

j(j = 1, 2, . . . , p) vari´aveis quantitativas que assumem como valores a metade da

am-plitude (ou meia-amam-plitude) dos intervalos das vari´aveis simb´olicas y e xj(j = 1, 2, . . . , p).

Considere yc _{e y}r _{como vari´aveis resposta e x}c

j e xrj(j = 1, 2, . . . , p) um conjunto de

vari´aveis regressoras relacionadas por:

yc_i = β₀c+ β₁cx_i1c + . . . + β_pcxc_ip+ εc_i,

y_ir= β₀r+ β₁rxr_i1+ . . . + β_prxr_ip+ εr_i. (2.20)

Neste método, os vetores de parâmetros ˆβ = (( ˆβc)T_{, ( ˆ}_βr₎T₎T _{são estimados de forma} independente para o centro e a amplitude dos intervalos. Portanto, a soma dos quadrados dos erros é dada por:

(41)

2.4 MÉTODOS DE REGRESS ÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO PARA OS ERROS24 n X i=1 (εc_i)2+ (εr_i)2= n X i=1 yc_i _{− β}₀c _{− β}₁cxc_i1_{− . . . − β}_pcxc_ip2 + n X i=1 y_ir_{− β}₀r_{− β}₁rxr_i1_{− . . . − β}_prxr_ip2. (2.21)

Os estimadores de m´ınimos quadrados de βc

0, β1c, . . . , βpce β0r, β1r, . . . , βprque minimizam

a equa¸c˜ao (2.21) podem ser escritas em nota¸c˜ao matricial por:

ˆ

β =βˆ₀c, ˆβ₁c, . . . , ˆβ_pc, ˆβ₀r, ˆβ₁r, . . . , ˆβ_prT= (A)−1b, (2.22)

em que A ´e uma matriz 2(p + 1) × 2(p + 1) e b ´e um vetor 2(p + 1) × 1, denotados por:

A =                  n P_ixc i1 . . . P ixcip 0 . . . 0 P ixci1 P i(xci1)2 . . . P ixcipxci1 0 . . . 0 ... ... ... ... ... ... ... P ixcip P ixci1xcip . . . P i(xcip)2 0 . . . 0 0 0 . . . 0 n . . . P_ixr ip 0 0 . . . 0 P_ixr i1 . . . P ixripxri1 ... ... ... ... ... ... ... 0 0 . . . 0 P_ixr i1xrip . . . P i(xrip)2                  , e b = P_iyc i, P iycixci1, . . . , P iyicxcip, P iyri, P iyrixri1, . . . , P iyirxrip T . Os estimadores de m´ınimos quadrados de βc

0, β1c, . . . , βpce β0r, β1r, . . . , βprque minimizam

a Equa¸c˜ao (2.21) podem ser re-escritas de forma mais representativa por:

ˆ

βc = (XTcXc)−1XTcyc, (2.23)

ˆ

βr = (XTrXr)−1XTryr, (2.24)

onde Xc e Xr tem posto completo p + 1 ≤ n, com

y_c = (yc1, . . . , ycn)T, Xc = [(xc1)T, . . . , (xcn)T]T,(xci)T= (1, xci, . . . , xcip), ˆβ = ( ˆβ0, . . . , ˆβp).

(42)

2.4 MÉTODOS DE REGRESS ÃO SIMB ÓLICA SEM SUPOSIÇ ÃO DE DISTRIBUIÇ ÃO PARA OS ERROS25 ( ˆβ0, . . . , ˆβp). Assim, xijc = (aij + bij)/2 e yic = (y inf i + y sup i )/2.

Aplicando o m´etodo do centro e da amplitude para predizer y a partir de um conceito w, descrito por z = (x, y), c = (xc_{, y}c_{) e r = (x}r_{, y}r_{), onde x = (x}

1, x2, . . . , xp) com

xj = [aj : bj](j = 1, 2, . . . , p), xc = (xc1, . . . , xcp) com xcj = (aj + bj)/2 e xr = (xr1, . . . , xrp)

com xr

j = (bj − aj)/2 (j = 1, . . . , p). O valor y = [yinf, ysup] ser´a predito a partir dos

valores ˆyc _{e ˆ}_yr_{, estimados de y}c _{e y}r_{, respectivamente, como mostrado a seguir:}

ˆ

yinf = ˆyc_{− ˆy}r e yˆsup= ˆyc+ ˆyr, (2.25)

onde ˆ yc = (xc)T_βˆc _e _y_ˆr _{= (x}r₎T_βˆr_, (xc)T_{= (1, x}c 1, ..., xcp) e (xr)T= (1, xr1, ..., xrp), ˆ βc = ( ˆβ₀c, ˆβ₁c, . . . , ˆβ_pc)T _e _βˆr_{= ( ˆ}_βr 0, ˆβ1r. . . , ˆβpr)T.

2.4.4 M´etodos com Restri¸c˜oes

Um resumo sobre dados simbólicos do tipo intervalo foi apresentado na Se¸cão 2.2. Esse tipo de dado simbólico é definido por uma realiza¸cão simbólica ξ = [a : b], com {a, b} ∈ ℜ1_,

a e b, vari´aveis quantitativas, representando, respectivamente, o limite inferior e o limite superior de um intervalo, onde necessariamente a condi¸c˜ao (a ≤ b) deve ser atendida.

Pode-se demonstrar que, em alguns cenários, não há garantia de que os intervalos pre-ditos pelos métodos apresentados nesta se¸cão contemplem a defini¸cão dos dados simbólicos do tipo intervalo, por exemplo, mantendo a estimativa do limite inferior do intervalo pre-dito menor do que a estimativa do limite superior deste intervalo para qualquer observa¸cão intervalar xi.

Alguns métodos foram propostos para resolver esse problema [Lima Neto e De Carvalho, (2010)]. A ideia básica é impor restri¸cões quanto aos valores estimados dos parâmetros dos

mode-los do método do centro, método do centro e da amplitude, e do método dos m´ınimos e máximos. O modelo estabelece uma rela¸cão linear entre a variável resposta e as variáveis regressoras, impondo restri¸cões aos parâmetros do vetor β, da seguinte forma:

yinf_i = β0+ β1ai1+ . . . + βpaip+ εinfi ,

y_isup= β0 + β1bi1+ . . . + βpbip+ εsupi , (2.26)