Universidade Federal da Pernambuco
Centro de Inform´
atica
P´
os-gradua¸c˜
ao em Ciˆencia da Computa¸c˜
ao
M´
ETODOS DE REGRESS˜
AO ROBUSTA E
KERNEL PARA DADOS INTERVALARES
Roberta Andrade de Ara´
ujo Fagundes
TESE DE DOUTORADO
Recife - PE
16 Dezembro 2013
Universidade Federal da Pernambuco
Centro de Inform´
atica
Roberta Andrade de Ara´
ujo Fagundes
M´
ETODOS DE REGRESS˜
AO ROBUSTA E KERNEL PARA
DADOS INTERVALARES
Trabalho apresentado ao Programa de P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao do Centro de Inform´atica da Uni-versidade Federal da Pernambuco como requisito do grau de Doutor em Ciˆencia da Computa¸c˜ao.
Orientadora: Profa. Dra. Renata Maria Cardoso Rodri-gues de Souza
Co-orientador: Prof. Dr. Francisco Jos´e de Azevˆedo Cys-neiros
Recife - PE
16 Dezembro 2013
Catalogação na fonte
Bibliotecária Monick Raquel Silvestre da Silva, CRB4-1217
Fagundes, Roberta Andrade de Araújo
Métodos de regressão robusta e kernel para dados intervalares / Roberta Andrade de Araújo Fagundes. - Recife: O Autor, 2013.
xv, 116 f.: il., fig., tab.
Orientadora: Renata Maria Cardoso Rodrigues de Souza.
Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.
Inclui referências e apêndices.
1. Inteligência computacional. 2. Inteligência artificial. 3. Análise de dados simbólicos. 4. Aprendizado de máquina I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título.
Tese de Doutorado apresentada por Roberta Andrade de Araújo Fagundes à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Métodos de Regressão Robusta e Kernel para
Dados Intervalares” orientada pela Profa. Renata Maria Cardoso Rodrigues de Souza, co-orientada pelo Prof. Francisco José de Azevedo Cysneiros e aprovada
pela Banca Examinadora formada pelos professores:
______________________________________________ Prof. Adriano Lorena Inacio Oliveira
Centro de Informática / UFPE
______________________________________________ Prof. Cleber Zanchettin
Centro de Informática / UFPE
_______________________________________________ Prof. Getúlio José Amorim Amaral
Departamento de Estatística / UFPE
_____________________________________________ Prof. Carmelo Jose Albanez Bastos Filho
Escola Politécnica / UPE
____________________________________________ Prof. Byron Leite Dantas Bezerra
Escola Politécnica / UPE
Visto e permitida a impressão. Recife, 16 de dezembro de 2013.
___________________________________________________
Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.
A Deus que me concedeu o privilégio sagrado da vida e da condição humana.
AGRADECIMENTOS
Qualquer realiza¸c˜ao humana, mesmo que individual, ´e sempre o resultado de um conjunto diversificado de contextos, de institui¸c˜oes e, especialmente de pessoas. A seguir, elicitarei algumas pessoas:
Primeiramente a Deus; por todos os prop´ositos que tem reservado para minha vida. A minha av´o. Euridice Andrade de Niz; sem ela nada disso teria sido poss´ıvel. Aos meus pais; eles foram a referˆencia da minha vida e respons´aveis pela forma¸c˜ao do meu carater.
`
A minha filha e ao meu marido; presen¸ca constante, compreens˜ao m´axima, com-panheiros de todas as horas.
`
A minha tia Marli, `A minha sogra, Aos meus irm˜aos, `As minhas cunhadas,
Aos meus sobrinhos e sobrinha ; que sempre me apoiaram incondicionalmente, que
apostaram em mim para vencer mais uma etapa da vida.
Aos meus orientadores; as pessoas mais importantes para a realiza¸c˜ao deste tra-balho. Atrav´es de uma orienta¸c˜ao pautada no companheirismo, na motiva¸c˜ao do aluno, na presen¸ca constante e na honestidade, a Dra. Renata Souza e o Dr. Francisco Cys-neiros proporcionaram as condi¸c˜oes ideais de pesquisa, como tamb´em, ajudaram a ter a persistˆencia necess´aria para a conclus˜ao do trabalho.
Aos outros participantes da pesquisa; Agrade¸co a todos que participaram direta ou indiretamente da pesquisa nos diversos experimentos realizados. Fica aqui minha gratid˜ao aos colegas do grupo de an´alise de dados simb´olicos (Marco, Carlos, Arthur, Diego, Elaine, Telmo, Anderson e Ricardo).
"A genealidade é feita de 10% de talento e 90% de esforço." ---Thomas Alva Edison
RESUMO
O processo de descoberta de conhecimento tem o objetivo de extrair de informa¸c˜oes ´uteis (conhecimento) em bases de dados. As abordagens usadas na execu¸c˜ao do processo de extra¸c˜ao do conhecimento s˜ao gen´ericas e derivadas das diferentes ´areas de conhecimento, tais como da estat´ıstica, aprendizagem de m´aquina e banco de dados. A An´alise de Dados Simb´olicos (ADS) [Bock e Diday, (2000)] ´e introduzida como abordagem na ´area de des-coberta autom´atica de conhecimento que visa desenvolver m´etodos para dados descritos por vari´aveis atrav´es de conjuntos de categorias, lista de valores, intervalos ou distribui¸c˜ao de probabilidade. Dentre as t´ecnicas estat´ısticas, os modelos de regress˜ao procuram prever o comportamento da vari´avel resposta (dependente) a partir de informa¸c˜oes provenientes do conjunto de vari´aveis preditoras (independentes). O objetivo deste trabalho ´e propor duas metodologias para an´alise de dados intervalares. A primeira metodologia aborda o m´etodo robusto em regress˜ao, que ´e uma alternativa para o uso do m´etodo dos m´ınimos quadrados quando os dados contˆem outliers. Enquanto a segunda aborda regress˜ao por kernel, que ´e um m´etodo que prover uma rela¸c˜ao n˜ao param´etrica entre as vari´aveis, sem utilizar um modelo com paramˆetros fixos, mas as taxas de convergˆencias dos estimadores n˜ao param´etricos s˜ao mais lentas do que a dos estimadores param´etricos. Experimentos com conjuntos de dados simulados e aplica¸c˜oes com conjuntos de dados reais intervalares indicam a funcionalidade e eficiˆencia dos m´etodos propostos.
Palavras-chave: Regress˜ao Robusta. Regress˜ao Kernel. An´alise de Dados Simb´olicos. Dados simb´olicos do tipo intervalo.
ABSTRACT
The process of knowledge discovery is aimed at extracting useful information (knowledge) in databases. The approaches used in the implementation of the knowledge extraction process are generic and derived from different knowledge areas such as statistics, ma-chine learning and database. The Symbolic Data Analysis (ADS) [Bock e Diday, (2000)] is introduced as an approach in the field of automatic knowledge discovery aimed at de-veloping methods for data described by sets of variables across categories, list of values, ranges or probability distribution. Among the statistical techniques, regression models seek to predict the behavior of the response variable (dependent) from information from the set of (independent) predictors. The objective of this work is to propose two metho-dologies for analysis of interval data. The first methodology addresses the robust method in regression, which is an alternative to the use of the method of least squares when the data contain outliers. While the second deals with kernel regression, which is a method to provide a non-parametric relationship between the variables, without using a model with fixed parameters, but the rates of convergence of nonparametric estimators are slower than the parametric estimators. Experiments with simulated data sets and applicati-ons with real data sets indicate intervallic functionality and efficiency of the proposed methods.
Keywords: Robust Regression. Kernel Regression. Simbolic Data Analysis. Simbolic Date of the interval
LISTA DE FIGURAS
2.1 Histograma para dados intervalares. . . 19 3.1 Fun¸c˜ao de Tukey’s Biweight. . . 36 3.2 Cen´ario 1.: Alta variabilidade na parte superior do centro dos hipercubos. 43 3.3 Cen´ario 2.:Alta variabilidade na parte superior e inferior do centro dos
hipercubos. . . 44 3.4 Cen´ario 3.: Alta variabilidade na parte superior da amplitude dos hipercubos. 44 3.5 Cen´ario 4.:Alta variabilidade no centro e na amplitude dos hipercubos
conjuntamente. . . 45 3.6 Cen´ario 5.:Alta variabilidade n centro e na amplitude dos hipercubos
se-paradamente. . . 46 3.7 Gr´afico 3D: Press˜ao Sist´olica (X), Press˜ao Diast´olica (Z) e Taxa Pulso (Y ). 50 3.8 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cardiologia. 51 3.9 Gr´afico 3D: Cilindrada do Motor (X), Velocidade M´axima (Z) e Pre¸co (Y ). 51 3.10 (a) Centro e (b) Amplitude do conjunto de dados intervalar Carro. . . 52 3.11 Gr´afico 3D: Largura do P´ıleo (Y ), Comprimento do Stipe (X) e Espessura
do Stipe(Z). . . 53 3.12 (a) Centro e (b) Amplitude do conjunto de dados intervalar Cogumelo. . 53 3.13 Gr´afico 3D: Altura (X), Idade (Z) e Peso (Y ). . . 54 3.14 (a) Centro e (b) Amplitude do conjunto de dados intervalar futebol. . . . 54 3.15 Gr´afico 3D: N´umero de Operandos (X), N´umero de Operadores (Z) e
Tamanho do Software (Y ). . . 55 3.16 (a) Centro e (b) Amplitude do conjunto de dados intervalar dos Projetos
da Nasa. . . 56 3.17 Gr´afico Residual Intervalar dos conjuntos de dados simb´olicos reais. . . . 59
4.1 Y Estimado versus Y Real baseado no m´etodo RKI:CA. . . 77
4.2 Y Estimado versus Y Real baseado no m´etodo RMI:CK+AL. . . 77
4.3 Cen´ario 1.:Rela¸c˜oes n˜ao linear para o centro e aleat´oria para amplitude. 82 viii
LISTA DE FIGURAS
4.4 Cenário 2.: Relação não linear para o centro relação linear para amplitude. . . .83 4.5 Cenário 3.: Relação não linear para o centro e a amplitude. . . 83 4.6 Cenário 4.: Relação não linear para o centro e aleatória para amplitude na
presença de ruídos. . . .84 4.7 Cenário 5.: Relação não linear para o centro e linear para amplitude na
presença de ruídos. . . .84 4.8 Cenário 6.: Relações não linear para o centro e amplitude na presença de
ruídos. . . 85
LISTA DE TABELAS
1.1 Projetos de software do reposit´orio da NASA para estima¸c˜ao de software descritos por dados simb´olicos do tipo intervalo. . . 4 2.1 Temperaturas m´ınimas e m´axima registradas na China. . . 8 2.2 Parte dos m´odulos de software do projeto 1. . . . 12 3.1 M´edia e Desvio Padr˜ao (entre parentesis) do MMRE para os m´etodos
RRI e RLI nos cen´arios 1 e 2. . . 47 3.2 M´edia e Desvio Padr˜ao (entre parenteses) do MMRE para os m´etodos
RRI e RLI nos cen´arios 3, 4 e 5. . . 48 3.3 Compara¸c˜ao entre modelos de regress˜ao de acordo com o ganho relativo
(%) do MMRE. . . 49 3.4 M´edia e Desvio Padr˜ao (entre parenteses) do MMRE para os m´etodos de
regress˜ao (RRI e RLI). . . 57 3.5 Compara¸c˜ao entre os modelos (RRI) e (RLI). . . 58 4.1 M´edia e Desvio Padr˜ao (em parˆentesis) do MMRE para conjunto de dados
reais intervalar. . . 75 4.2 Teste de Wilcoxon: p-value . . . . 76 4.3 M´edia e Desvio Padr˜ao (em parˆentesis) do MMRE para cen´arios (1, 2 e
3) sem ru´ıdos. . . 87 4.4 Teste de Wilcoxon: p-value . . . . 87 4.5 M´edia e Desvio Padr˜ao (em parˆentesis) do MMRE para cen´arios (4, 5 e
6) com ru´ıdos. . . 88 4.6 Teste de Wilcoxon: p-value . . . . 89 4.7 Compara¸c˜ao entre modelos regress˜ao de acordo com o ganho relativo (%)
do MMRE. . . 90 4.8 M´edia e Desvio Padr˜ao (em parˆentesis) do MMRE assumindo rela¸c˜ao
linear para centro e amplitude, respectivamente, da vari´avel resposta in-tervalar. . . 93
LISTA DE TABELAS
4.9 Teste de Wilcoxon: p-value . . . . . . . . . . 93 4.10 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma forma
arbitrária para amplitude e uma relação linear para o centro da variável
resposta intervalar. . . . . . . . . . . .94 4.11 Teste de Wilcoxon: p-value . . . . . . . . . . 95 4.12 Média e Desvio Padrão (em parêntesis) do MMRE assumindo uma relação
não linear para centro e amplitude, respectivamente, da variável resposta
intervalar . . . . . . . .96 4.13 Teste de Wilcoxon: p-value . . . . . . . . . .96 4.14 Média e Desvio Padrão (em parêntesis) do MMRE para o conjunto de dados
reais intervalar considerando os métodos de Centro e Amplitude. . . . . . 97 1. Conjunto de Dados: Cardiologia (Range dos intervalos do pulso, pressão
sistólica e pressão diastólica dos pacientes) . . . 114 2. Conjunto de Dados: Carro (Range dos intervalos do preço, motor e
velocidade máxima do conjunto de dados carro) . . . . . . 115 3. Conjunto de Dados: Cogumelo (Range dos intervalos do píleo,
comprimento e espessura do estipe dos cogumelos do gênero Agricies . . . 116 4. Conjunto de Dados: Futebol (Range dos intervalos do peso, altura e idade
dos jogadores de futebol de times da França) . . . . . . .117
LISTA DE ACRÔNIMOS
ADS Análise de Dados Simbólicos KDD Knowledge Discovery in Databases AID Automatic Interation Detector
KNN Kernel Nearest Neighbor
MRLC modelo de regressão linear clássico NO número de operadores
NOR número de operandos NL número de linhas de código inf inferior
sup superior
MLG modelos lineares generalizados
MBRS modelos bivariados de regressão simbólicos RRI regressão robusta intervalar
RLI regressão linear intervalar GR ganho relativo
MMRE magnitude do erro médio relativo
RKI:C Regressão Kernel Intervalar baseado na informação do centro
RKI:CA Regressão Kernel Intervalar baseado na informação do centro e da amplitude RMI:CL+AK Mistura de Regressão Intervalar: Centro Linear + Amplitude Kernel RMI:CK+AL Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear RLI:C modelo linear baseado na informação do centro
RLI:CA modelo linear baseado na informação do centro e da amplitude
SUM´
ARIO
Cap´ıtulo 1—INTRODUC¸ ˜AO 1
1.1 Motiva¸c˜ao . . . 1
1.2 Objetivos . . . 5
1.3 Organiza¸c˜ao da Tese . . . 5
Cap´ıtulo 2—FUNDAMENTAC¸ ˜AO TE ´ORICA 7 2.1 Hist´orico da An´alise de Dados Simb´olicos . . . 7
2.1.1 Classifica¸c˜ao N˜ao Supervisionada, Classifica¸c˜ao Supervisionada e Fun¸c˜oes de Proximidade . . . 9
2.1.2 Regress˜ao . . . 10
2.2 Dados Simb´olicos . . . 11
2.2.1 Vari´avel simb´olica do tipo modal . . . 13
2.2.2 Vari´avel simb´olica do tipo n˜ao modal . . . 13
2.3 Estat´ıstica Descritiva . . . 14
2.4 M´etodos de Regress˜ao Simb´olica sem Suposi¸c˜ao de Distribui¸c˜ao para os erros 19 2.4.1 M´etodo do centro . . . 20
2.4.2 M´etodo do m´ınimo e m´aximo . . . 21
2.4.3 M´etodo do centro e da amplitude . . . 23
2.4.4 M´etodos com Restri¸c˜oes . . . 25
2.5 M´etodos de Regress˜ao Simb´olica com Distribui¸c˜ao para os erros . . . 26
2.5.1 Modelo Sim´etrico . . . 26
2.5.2 Modelo Bivariado . . . 28
2.5.3 Modelo Log´ıstico . . . 28
2.6 Coment´arios finais . . . 29
Cap´ıtulo 3—REGRESS˜AO ROBUSTA PARA DADOS SIMB ´OLICOS DO TIPO
INTERVALO 31
SUMÁRIO
3.1 Introdução . . . 31
3.2 Construção do Modelo e Regra de Predição. . . . . . .32
3.3 Definição de outlier simbólico do tipo intervalo . . . 36
3.3.1 Definição de outlier intervalar no centro. . . .37
3.3.2 Definição de outlier intervalar na amplitude. . . . . . .37
3.3.3 Definição de outlier intervalar no centro e na amplitude. . . .37
3.4 Experimentos com Simulação Monte Carlo. . . 37
3.4.1 Simulação Monte Carlo. . . .38
3.4.2 Análise de Desempenho. . . .46
3.5 Aplicação Dados Reais. . . .49
3.5.1 Conjunto de Dados: Cardiologia. . . .49
3.5.2 Conjunto de Dados: Carro. . . .51
3.5.3 Conjunto de Dados: Cogumelo. . . .52
3.5.4 Conjunto de Dados: Futebol. . . .54
3.5.5 Conjunto de Dados: NASA. . . .55
3.6 Análise dos Resultados. . . 56
3.6.1 Análise Gráfica dos Resíduos Intervalares. . . . . . 58
3.7 Considerações Finais. . . .61
Capítulo 4 — REGRESSÃO KERNEL PARA DADOS SIMBÓLICOS DO TIPO INTERVALO 62
4.1 Introdução. . . .62
4.2 Regressão Kernel Simbólica. . . .63
4.2.1 Regressão Kernel Intervalar baseado na informação do centro (RKI:C) . . . 64
4.2.1.1 Representação dos Intervalos. . . . . . 64
4.2.1.2 Modelando a relação. . . . . . 64
4.2.2 Regressão Kernel Intervalar baseado na informação do centro e da amplitude (RKI:CA) . . . .. . . .66
4.2.2.1 Representando intervalos . . . . . . 66
4.2.2.2 Modelando a relação . . . 67
4.2.3 Mistura de Regressão Intervalar . . . . . . 69
SUMÁRIO
4.2.3.1 Mistura de Regressão Intervalar: Centro Linear + Amplitude
Kernel (RMI:CL+AK) . . . . . . 70
4.2.3.2 Mistura de Regressão Intervalar: Centro Kernel + Amplitude Linear (RMI:CK+AL) . . . .72
4.3 Aplicação dos modelos com dados reais do tipo intervalo. . . 73
4.3.1 Resultados e diagnósticos dos modelos. . . 74
4.4 Avaliação Experimental. . . .78
4.4.1 Simulação Monte Carlo: Caso A. . . .78
4.4.2 Avaliação de desempenho. . . .85
4.4.3 Simulação Monte Carlo: Caso B. . . .90
4.5 Comparação entre os métodos propostos. . . 97
4.6 Considerações Finais. . . 98
Capítulo 5 — CONCLUSÕES . . . 100
5.1 Considerações. . . 100
5.1.1 Comparação entre os métodos. . . . .101
5.2 Publicações.. . . 103
5.3 Trabalhos Futuros. . . .104
REFERÊNCIAS. . . .106
APÊNDICE A . . . 113
CAP´ITULO 1
INTRODUC
¸ ˜
AO
Este cap´ıtulo fundamenta a utiliza¸c˜ao da an´alise de dados simb´olicos, exp˜oe os objetivos em rela¸c˜ao ao trabalho proposto e por fim, descreve a organiza¸c˜ao dos demais cap´ıtulos.
1.1 MOTIVAC¸ ˜AO
Recentemente mais opera¸c˜oes ou processos s˜ao automatizados, ou seja, para cada nova transa¸c˜ao como compras pela internet, opera¸c˜oes banc´arias, entre outras, todos esses registros s˜ao armazenados em enormes bases de dados. Entretanto, apesar do poder de processamento dos computadores atuais, o esfor¸co computacional necess´ario para a manipula¸c˜ao de grandes conjuntos de dados ainda ´e um problema.
O problema de extra¸c˜ao de informa¸c˜ao tem atra´ıdo um interesse amplo em v´arias comunidades de pesquisa, e tem sido conduzido por uma variedade de aplica¸c˜oes. Muitas aplica¸c˜oes envolvem cada vez mais uma grande quantidade de dados estruturados. A modelagem e descoberta de conhecimento para esses dados exigem t´ecnicas de aprendizado de m´aquina, bem como formalismos para a extra¸c˜ao de informa¸c˜ao.
Como o ambiente est´a em constante mudan¸ca, tornam-se necess´arias novas t´ecnicas (ou ferramentas) que suportem a extra¸c˜ao de conhecimento ´util a partir de volumes crescentes de dados. Essas t´ecnicas denominam-se descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases (KDD)). Essa ´area de pesquisa est´a em bastante evidˆencia e visa desenvolver meios autom´aticos para descobrir conhecimento em grandes base de dados.
As t´ecnicas de KDD incluem: (i) estrutura¸c˜ao de banco de dados; (ii) sele¸c˜ao de vari´aveis; (iii) preprocessamento, transforma¸c˜ao e redu¸c˜ao de dados; (iv) minera¸c˜ao de dados; (v) an´alise, avalia¸c˜ao e interpreta¸c˜ao dos resultados e (vi) utiliza¸c˜ao do conhe-cimento extra´ıdo. Segundo [Boente et al., (2007)] o processo de descoberta de conheci-mento possui trˆes etapas importantes: pr´e-processaconheci-mento, minera¸c˜ao de dados e p´os-processamento.
No pr´e-processamento, ´e necess´ario efetuar a identifica¸c˜ao de quais informa¸c˜oes
da base de dados existente devem ser efetivamente consideradas importantes para 1
1.1 MOTIVAC¸ ˜AO 2 o dom´ınio do problema.
A etapa de minera¸c˜ao de dados consiste na aplica¸c˜ao de algoritmos ou t´ecnicas
que extraem conhecimento a partir dos dados. Esses algoritmos ou t´ecnicas po-dem ser de classifica¸c˜ao, regress˜ao, agrupamento (clusteriza¸c˜ao), dentre outros, que possibilitem a sintetiza¸c˜ao do conhecimento.
A etapa de p´os-processamento compreende o processo de tratamento do
conhe-cimento adquirido por meio da minera¸c˜ao de dados, com o intuito de facilitar a interpreta¸c˜ao e avalia¸c˜ao deste, para priorizar a utilidade do conhecimento des-coberto atrav´es da elabora¸c˜ao de gr´aficos, diagramas e outros tipos de relat´orios demonstrativos.
Os algoritmos utilizados no processo de minera¸c˜ao de dados s˜ao de diferentes ´areas de conhecimento, tais como: estat´ıstica, inteligˆencia computacional e banco de dados [Witten et. al, (2011)]. Na estat´ıstica, essas t´ecnicas podem ser aplicadas para descobrir estruturas ou associa¸c˜oes em conjunto de dados, realizar previs˜oes, etc. Dentre elas, destacam-se modelos de regress˜ao, que s˜ao modelo matem´aticos e tˆem como um dos objetivos prever o valor da vari´avel dependente (Y ) a partir das informa¸c˜oes provinientes de um conjunto de vari´aveis independentes (X).
Adicionalmente, atrav´es desses modelos, ´e poss´ıvel realizar previs˜oes sobre o compor-tamento futuro de algum fenˆomeno da realidade, como, por exemplo, prever a popula¸c˜ao futura de uma cidade, simulando a tendˆencia de crescimento da popula¸c˜ao no passado, como tamb´em mensurar o quanto X influencia ou modifica o valor de Y .
Por exemplo, considere um paciente que tem sua press˜ao arterial acompanhada pelo seu m´edico. Um paciente saud´avel pode ter o valor de sua press˜ao oscilando no intervalo [115, 118]. Um outro, tamb´em saud´avel, poderia ter sua press˜ao oscilando no intervalo [114, 116]. Uma an´alise cl´assica utilizando o centro dos intervalos perderia a informa¸c˜ao sobre a varia¸c˜ao de press˜ao no estado saud´avel para cada paciente.
Em outra possibilidade, seria extremamente at´ıpico que o peso (kg) desse determinado cliente, em todas as suas consultas fosse igual a 70kg. No entanto, observa-se que o peso variou no intervalo [67, 75] e essa varia¸c˜ao poderia fazer diferen¸ca no diagn´ostico mais preciso.
Suponha tamb´em, que um determinado banco n˜ao estaria interessado no valor mo-net´ario da conta corrente de um certo cliente, mas na varia¸c˜ao desse valor ao longo do ano para fornecer benef´ıcios relacionados a sua conta.
1.1 MOTIVAC¸ ˜AO 3 Nesses casos citados, a representa¸c˜ao cl´assica de dados n˜ao ´e capaz de representar informa¸c˜oes mais complexas, como, por exemplo, intervalos, conjuntos, frequˆencias e distribui¸c˜oes de probabilidade. Na representa¸c˜ao cl´assica as vari´aveis podem ser repre-sentadas como: vari´aveis quantitativas e qualitativas. As vari´aveis qualitativas denotam caracter´ısticas individuais das unidades sob an´alise, tais como sexo, estado civil, natura-lidade, ra¸ca, grau de instru¸c˜ao. As vari´aveis quantitativas assumem valores numa escala m´etrica definida por uma origem e uma unidade, por exemplo: idade, sal´ario, peso.
Os dados presentes em bases de dados simb´olicas representam um extens˜ao das in-forma¸c˜oes contidas em bases de dados cl´assicas, apresentando-as de forma agregada. Uma base de dados simb´olicos pode conter, em uma c´elula de sua matriz, informa¸c˜oes expres-sas como listas, intervalos, distribui¸c˜oes de frequˆencia, distribui¸c˜oes de probabilidade, etc., diferentemente de uma base de dados cl´assica em que cada c´elula assume apenas um ´
unico valor.
Diante desse pressuposto, ´e essencial um tipo de an´alise de dados que considere a complexidade, imprecis˜ao, incerteza ou variabilidade presentes na estrutura dos dados. Com isso, surge a An´alise de Dados Simb´olicos (ADS) [Billard e Diday, (2006)].
Billiard e Diday (2003) atestam o crescimento de dados de natureza simb´olica e aler-tam a necessidade do desenvolvimento de novas metodologias estat´ısticas para o tra-tamento de informa¸c˜oes dessa natureza. Al´em disso, com rela¸c˜ao aos poucos m´etodos estat´ısticos dispon´ıveis, faz-se necess´ario o estabelecimento de um maior suporte ma-tem´atico e estat´ıstico a esses m´etodos, tais como: verifica¸c˜ao de propriedades estat´ısticas, estima¸c˜ao de erros padr˜ao e distribui¸c˜oes te´oricas, entre outros.
Os principais conceitos da an´alise de dados simb´olica e alguns m´etodos estat´ısticos de-senvolvidos para manipular dados desta natureza foram apresentados em [Bock e Diday, (2000)], [Billard e Diday, (2006)] e [Diday e Noirhomme-Fraiture, (2008)].
Os dados simb´olicos s˜ao caracterizados por vari´aveis estruturadas que representam intervalos, distribui¸c˜oes de peso e conjuntos. Por exemplo, a Tabela 1.1 apresenta um problema de engenharia de software, em que se pretende prever o tamanho do software a ser desenvolvido para, posteriormente, obter o custo e tempo de desenvolvimento do mesmo.
Ainda nesta Tabela 1.1 observa-se que os dados simb´olicos do tipo intervalo s˜ao re-presentados pelos valores m´ınimo e m´aximo das vari´aveis independentes (X): n´umero de operandos (NO), n´umero de operadores (NOR) e vari´avel dependente (Y ): n´umero de linhas (NL). Esses registros foram gerados pelos 13 projetos do reposit´orio da NASA http://mdp.ivv.nasa.gov/.
1.1 MOTIVAC¸ ˜AO 4
Tabela 1.1 Projetos de software do reposit´orio da NASA para estima¸c˜ao de software descritos por dados simb´olicos do tipo intervalo.
Projetos Vari´aveis Intervalares
NL NO NOR 1 [0:602] [0:1144] [1:1641] 2 [0:663] [0:843] [0:1198] 3 [0:817] [0:4015] [1:5590] 4 [0:210] [0:1403] [0:1687] 5 [0:242] [0:556] [1:857] 6 [13:2571] [1:467] [1:19] 7 [2:503] [0:798] [1:1129] 8 [0:639] [0:2279] [0:2948] 9 [3:112] [2:396] [3:493] 10 [1:3442] [0:3021] [0:5420] 11 [1:288] [0:428] [0:687] 12 [1:365] [0:632] [1:864] 13 [0:2072] [0:5169] [0:10862]
Portanto, ADS pode ser utilizada como uma abordagem para representar os limites de um conjunto de poss´ıveis valores de um item ou a varia¸c˜ao interna de uma vari´avel atrav´es da redu¸c˜ao de conjuntos de dados em um n´umero reduzido de pequenos grupos de informa¸c˜ao. Dados simb´olicos do tipo intervalo tamb´em s˜ao relevantes no caso de aplica¸c˜oes com dados confidenciais em que somente permite-se conhecer o intervalo dos valores.
A ADS [Diday e Noirhomme-Fraiture, (2008)] ´e uma ´area, que nasceu da influˆencia simultˆanea de v´arios campos de pesquisa como: an´alise de dados cl´assica, inteligˆencia artificial, aprendizagem de m´aquina e banco de dados. O principal objetivo de SDA ´e de-senvolver modelos para o tratamento de dados mais complexos, como intervalos, conjuntos e distribui¸c˜oes de probabilidades ou de pesos. Al´em disso, ADS ´e capaz de generalizar os m´etodos tradicionais com dados cl´assicos para m´etodos com dados simb´olicos atrav´es do desenvolvimento explorat´orios, estat´ısticos e representa¸c˜oes gr´aficas para esses tipos de dados. Esta tese est´a inserida neste contexto de generaliza¸c˜ao de t´ecnicas cl´assicas para dados simb´olicos do tipo intervalo.
1.2 OBJETIVOS 5
1.2 OBJETIVOS
O objetivo principal desta tese ´e desenvolver um conjunto de solu¸c˜oes te´oricas e aplicadas na ´area de regress˜ao para dados simb´olicos do tipo intervalo, cujos resultados sejam qualitativamente superiores aos dos m´etodos atualmente utilizados. Mais especificamente propomos:
1. Desenvolver um m´etodo de regress˜ao robusta para dados simb´olicos do tipo inter-valo;
2. Propor an´alise gr´afica dos res´ıduos para dados simb´olicos do tipo intervalo;
3. Desenvolver um m´etodo de regress˜ao baseado em kernel para dados simb´olicos do tipo intervalo;
4. Desenvolver um m´etodo de regress˜ao baseado em duas regress˜oes: via kernel e linear para dados simb´olicos do tipo intervalo, denominado de m´etodo de regress˜ao mista; 5. Realizar estudos de simula¸c˜ao para verificar o desempenho da predi¸c˜ao dos modelos
propostos;
6. Aplicar as solu¸c˜oes propostas neste trabalho em conjuntos de dados simb´olicos do tipo intervalo em reposit´orios dispon´ıveis para a valida¸c˜ao experimental das solu¸c˜oes propostas;
7. Comparar os modelos propostos atrav´es do erro estimado atrav´es da simula¸c˜ao Monte Carlo.
1.3 ORGANIZAC¸ ˜AO DA TESE
Esta tese ´e composta deste cap´ıtulo introdut´orio e mais quatro cap´ıtulos, a saber: Cap´ıtulo 2 - Fundamenta¸c˜ao Te´orica
Neste cap´ıtulo ser˜ao apresentados os conceitos fundamentais de an´alise de dados simb´olicos, assim como m´etodos de regress˜ao que existem na literatura de dados simb´olicos do tipo intervalo.
1.3 ORGANIZAC¸ ˜AO DA TESE 6 Este cap´ıtulo apresenta a proposi¸c˜ao do m´etodo de regress˜ao robusta simb´olica para dados do tipo intervalo, e an´alise de res´ıduos para detec¸c˜ao de potencias outliers, como tamb´em, ´e apresentado um conjunto de resultados de experimentos com simula¸c˜oes e dados reais realizados com o m´etodo proposto.
Cap´ıtulo 4 - Regress˜ao Kernel para Dados Simb´olicos do Tipo Intervalo
Este cap´ıtulo prop˜oe duas abordagens de regress˜ao para dados simb´olicos. A primeira abordagem ´e baseada na regress˜ao kernel para dados simb´olicos do tipo intervalo. A se-gunda abordagem ´e baseada no modelo de regress˜ao mista(regress˜ao via kernel e linear). Com as duas abordagens s˜ao realizados experimentos utilizando simula¸c˜oes e dados reais. Ao final, ´e conduzida uma an´alise gr´afica dos modelos que obtiveram melhor desempenho.
Cap´ıtulo 5 - Conclus˜oes
Este cap´ıtulo apresenta parte dos principais resultados e conclus˜oes obtidos neste tra-balho, bem como, as contribui¸c˜oes na ´area de modelos de regress˜ao para dados simb´olicos do tipo intervalo, al´em de publica¸c˜oes dos resultados em revista e congressos, nacionais e internacionais. Por fim s˜ao apresentadas dire¸c˜oes para trabalhos futuros.
CAP´ITULO 2
FUNDAMENTAC
¸ ˜
AO TE ´
ORICA
Este cap´ıtulo divide-se em duas partes: inicialmente ser˜ao descritas as principais ca-racter´ısticas de an´alise de dados simb´olicos, suas aplica¸c˜oes e uma revis˜ao de diversos trabalhos desenvolvidos os quais fundamentaram esta Tese. Al´em disso, apresenta-se os m´etodos regress˜ao linear para dados simb´olicos do tipo intervalo existentes na literatura de ADS.
2.1 HIST ´ORICO DA AN´ALISE DE DADOS SIMB ´OLICOS
A an´alise de dados simb´olicos [Bock e Diday, (2000)] surgiu atrav´es da influˆencia simul-tanea de trˆes ´areas. An´alise Explorat´oria de Dados [Beaton e Tukey, (1974)], Inteligˆencia Artificial [Russel e Norvig, (2003)] e Taxonomia Num´erica [Sneath e Sokal, (1973)]. As primeiras tentativas de obter dados simb´olicos a partir de dados cl´assicos foram realizadas por [Belson, (1959)], seguidos de [Morgan e Sonquist, (1963)] com o m´etodo Automatic Interation Detector (AID). Os primeiros algoritmos, chamados de Conceptual Clustering, foram apresentadas por [Michalski et al., (1981)].
ADS constitui uma extens˜ao de alguns m´etodos utilizados para an´alise de dados cl´assicos. Os primeiros trabalhos com os princ´ıpios b´asicos da abordagem simb´olica apa-receram no final dos anos 80 [Diday, (1987)], [Diday e Brito, (1989)]e, desde ent˜ao, v´arios outros trabalhos foram realizados em diversas dire¸c˜oes. Bock e Diday, (2000) apresen-tam os principais conceitos de ADS e m´etodos estat´ısticos desenvolvidos para manipular dados desta natureza. Os dados simb´olicos podem ser obtidos atrav´es de:
1. Aplica¸c˜ao de um algoritmo de classifica¸c˜ao n˜ao supervisionado (cluster analysis) para simplificar grandes conjuntos de dados e descrever, de uma maneira autoex-plicativa as classes associadas ao grupo obtidas;
2. Do resultado da descri¸c˜ao de conceitos por especialistas;
3. De bases de dados relacionais para estudar conjuntos de unidades cuja descri¸c˜ao necessita da fus˜ao eventual de varias rela¸c˜oes.
2.1 HIST ´ORICO DA AN ´ALISE DE DADOS SIMB ´OLICOS 8 Como os avan¸cos das tecnologias tˆem sido comum, encontram-se registros de intervalos em base de dados de aplica¸c˜oes oriundas de diversos lugares. Na Tabela 2.1 ´e ilustrada parte de uma tabela de dados simb´olico reais coletados na China. Nesta tabela, as linhas s˜ao cidades da China e as colunas s˜ao vari´aveis do tipo intervalo contendo as temperaturas m´ınima e m´axima registradas mensalmente em 60 cidades [China, (1998)].
Tabela 2.1 Temperaturas m´ınimas e m´axima registradas na China.
Cidades Temperatura da China ([min : max]) - Ano 1998
Janeiro Fevereiro . . . Novembro Dezembro
AnQuin [1,8:7,1] [5,2:11,2] ... [7,8:17,9] [4,3:11,8]
BaoDuin [-5,8:1,4] [-2,2:3,2] ... [4,8:10,1] [-4,3:1,8]
BeiJing [-12,8:2,0] [-11,2:2,5] ... [2,5:5,1] [-8,3:0,3]
... ... ... ... ... ...
Zhijiang [2,7:8,4] [2,7:8,7] . . . [8,2:20,9] [5,1:13,3]
Com a Tabela 2.1 obtida, a fase posterior consiste em analisar, classificar, prever, resumir ou visualizar informa¸c˜oes contidas nesta tabela. Assim, ADS pode ser aplicada para apoio a tomada de decis˜ao.
A partir do final da d´ecada de 80, an´alise de dados simb´olicos deixou de ser restrita a um pequeno grupo de pesquisadores para ser uma ´area de pesquisa bastante relevante marcada por muitas publica¸c˜oes e conferˆencias [Noirhomme-Fraiture e Brito, (2011)].
Trabalhos pioneiros [Diday, (1987)], [Diday, (1988)], [Diday, (1989)] e [Diday, (1991)] apresentam os princ´ıpios b´asicos da an´alise de dados simb´olicos. Com isso, iniciou-se um crescente interesse nessa ´area de pesquisa.
Neste contexto, apresenta-se uma breve descri¸c˜ao de alguns trabalhos de ADS nas ´areas de [Noirhomme-Fraiture e Brito, (2011)]: classifica¸c˜ao n˜ao supervisionada e super-visionada, fun¸c˜oes de proximidades e regress˜ao.
2.1 HIST ´ORICO DA AN ´ALISE DE DADOS SIMB ´OLICOS 9 2.1.1 Classifica¸c˜ao N˜ao Supervisionada, Classifica¸c˜ao Supervisionada e Fun¸c˜oes
de Proximidade
Classifica¸c˜ao N˜ao Supervisionada
No que diz respeito aos m´etodos de classifica¸c˜ao n˜ao supervisionada, [Gordon, (2000)] apresentou um algoritmo de agrupamento de dados simb´olicos que minimiza a soma do potencial de descri¸c˜ao dos grupos. [De Carvalho e De Souza, (2010)] introduzem m´etodos de agrupamento dinˆamicos para dados simb´olicos intervalares com caracter´ısticas mistas, baseadas na distˆancia euclidiana adaptativa quadr´atica.
[Almeida et al., (2013)] introduzem duas redes fuzzy kohonen clustering para partici-onamento de dados intervalares. A primeira rede ´e baseada em uma distˆancia euclidiana fixa para os intervalos e a segunda considera distˆancias ponderadas que mudam a cada itera¸c˜ao, e s˜ao diferentes de um cluster para outro.
[Costa et al., (2013)] introduzem m´etodo de clustering baseado em kernel para dados simb´olicos do tipo intervalo, onde a distˆancia de um item e seu prot´otipo no espa¸co ca-racter´ıstico ´e expandido usando dois componentes de kernel misturados para controlar os intervalos. Al´em disso, ferramentas para particionamento e interpreta¸c˜ao do cluster para dados simb´olicos do tipo intervalo tamb´em s˜ao introduzidas.
Classifica¸c˜ao Supervisionada
No que diz respeito aos m´etodos de classifica¸c˜ao supervisionada, [Ichino et al., (1996)] introduziram um classificador simb´olico, baseado em uma abordagem geom´etrica cha-mada regi˜oes para dados simb´olicos.
[Prudˆencio et al., (2004)] propuseram um m´etodo de classifica¸c˜ao supervisionado, usando dados simb´olicos aplicados a um problema de sele¸c˜ao de modelos de s´eries temporais. [Bezerra e De Carvalho, (2004)] apresentaram uma abordagem para sistemas de reco-menda¸c˜ao, em que o perfil do usu´ario modelado ´e descrito por dados simb´olicas modais. [Arroyo et al., (2011)] analisam v´arios m´etodos de previs˜ao para s´eries temporais de da-dos do tipo intervalo e histograma, s˜ao adaptada-dos filtros de suaviza¸c˜ao e m´etoda-dos n˜ao param´etricos (Kernel Nearest Neighbor (KNN), Redes Neurais).
Fun¸c˜oes de Proximidade
2.1 HIST ´ORICO DA AN ´ALISE DE DADOS SIMB ´OLICOS 10 propostas: s˜ao extendidas as medidas de dissimilaridade para dados simb´olicos.
[Le-Rademacher e Billiard, (2011)] prop˜oem a fun¸c˜ao de verossimilhan¸ca para dados simb´olicos, ilustrando sua aplica¸c˜ao ao se encontrar os estimadores de m´axima verossi-milhan¸ca da m´edia e variˆancia para distribui¸c˜oes de dados do tipo intervalo e histograma.
2.1.2 Regress˜ao
V´arios modelos de regress˜ao para dados simb´olicos do tipo intervalo tˆem sido introdu-zidos na literatura. A maioria destes modelos usam o m´etodo dos m´ınimos quadrados para estimar seus parˆametros. [Billard e Diday, (2000)] apresentam uma abordagem para estender o modelo de regress˜ao linear cl´assico (MRLC) para dados simb´olicos do tipo intervalo pelo ajuste do m´etodo dos m´ınimos quadrados para o centro dos intervalos. [Billard e Diday, (2002)] propuseram outra abordagem que ajusta dois MRLC indepen-dentes sobre os limites inferior e superior dos intervalos. [Billard e Diday, (2006)] tamb´em incluiram vari´aveis explicativas, bem como a estrutura hier´arquica da vari´avel em um modelo de regress˜ao simb´olica. [Maia e De Carvalho, (2008)] apresentam um modelo de regress˜ao linear para dados simb´olicos do tipo intervalo basedos na regress˜ao L1.
[Lima Neto e De Carvalho, (2008)] propuseram o m´etodo do centro e da amplitude para ajustar o MRLC para dados simb´olicos do tipo intervalo com desempenho melhor do que os m´etodos apresentados em [Billard e Diday, (2000)] e [Billard e Diday, (2002)]. [Maia et al., (2008)] apresentaram abordagem para previs˜ao de s´eries temporais para da-dos simb´olicos do tipo intervalo. [Lima Neto e De Carvalho, (2010)] propuseram uma nova abordagem para ajustar o modelo de regress˜ao linear com restri¸c˜ao no centro e na amplitude dos intervalos, a fim de assegurar a coerˆencia matem´atica entre os valores previstos dos limites inferior e superior do intervalo.
No contexto do modelo de regress˜ao para os dados de intervalo que assumem distri-bui¸c˜oes de probabilidade para os erros, [Domingues et al., (2010)] propuseram uma meto-dologia de an´alise de dados intervalares baseado no m´etodo de regress˜ao linear sim´etrica. [Lima Neto et al., (2011)] introduziram o modelo de regress˜ao bivariada simb´olico para dados de intervalo, baseado na teoria de modelo linear generalizado. [Souza et al., (2011)] introduziram modelos de regress˜ao linear log´ıstica para os limites inferior e superior dos intervalos, em conjunto e separadamente.
[Billiard e Xu, (2012)] consideram alguns m´etodos cl´assicos baseados no modelo de regress˜ao m´ultipla para dados simb´olicos do tipo intervalo ([De Carvalho et al., (2004)] , [Lima Neto et al., (2005)] e [Lima Neto e De Carvalho, (2010)]). Em seguida, para
com-2.2 DADOS SIMB ´OLICOS 11 parar esses m´etodos, a correla¸c˜ao simb´olica entre os intervalos observados e os intervalos preditos foi introduzida como uma m´etrica de desempenho.
Posteriormente, na se¸c˜ao 2.4 ser˜ao descritos alguns dos m´etodos de regress˜ao para dados simb´olicos do tipo intervalo citados, os quais embasaram teoricamente o desenvol-vimento dos m´etodos propostos nessa tese.
2.2 DADOS SIMB ´OLICOS
Os dados simb´olicos podem descrever indiv´ıduos levando em conta, ou n˜ao, imprecis˜ao ou incerteza. Al´em disso, podem descrever itens mais complexos, tais como grupo de indiv´ıduos. Por exemplo:
Considere Y uma vari´avel simb´olica que descreve o tempo em horas de treinamento
de um indiv´ıduo jogador de futebol em uma semana. A descri¸c˜ao de um indiv´ıduo, em particular, k, pode ser: Y (k) = [0, 6];
Considere Z uma vari´avel simb´olica que descreve o grau de instru¸c˜ao existente em
uma cidade (classe de indiv´ıduos). A descri¸c˜ao da cidade k pode ser: Z(k) =Analfabeto, Ensino Fundamento Incompleto, Ensino Fundamental Completo, Ensino M´edio In-completo, Ensino M´edio Completo, Ensino Superior InIn-completo, Ensino Superior Completo, P´os-Gradua¸c˜ao (Mestrado) e P´os-Gradua¸c˜ao (Doutorado);
Outro cen´ario muito comum nas empresas ocorre quando existe a necessidade de
divulga¸c˜ao de informa¸c˜oes de car´ater sigiloso como faixas salariais, valores em in-vestimentos de risco ou percentuais de acidentes de trabalho. Esse tipo de dado pode ser expresso atrav´es de dados simb´olicos, usando intervalos, distribui¸c˜oes de frequˆencias ou distribui¸c˜oes de probabilidade.
Em uma tabela de dados simb´olicos, as linhas correspondem aos indiv´ıduos ou classes e as colunas s˜ao as vari´aveis simb´olicas que caracterizam os individuos. Os cen´arios apresentados motivam a utiliza¸c˜ao dos dados simb´olicos para representa¸c˜ao dos dados complexos.
A representa¸c˜ao de dados simb´olicos do tipo intervalo ser´a objeto de estudo deste trabalho. A descri¸c˜ao dos outros tipos de dados simb´olicos pode ser encontrada na literatura pertinente [Billard e Diday, (2006)] e [Lechevallier et al., (2008)].
Os modelos da literatura de ADS apresentados na subse¸c˜ao 2.1.2 podem ser aplica-dos para resolver problemas de regress˜ao em diferentes ´areas. Por exemplo, na ´area de engenharia de software ´e comum estimar o tempo e/ou custo relacionado a um projeto de
2.2 DADOS SIMB ´OLICOS 12 software [Bielak, (2000)]. As estimativas s˜ao as bases do planejamento e, particularmente, elas s˜ao ´uteis no desenvolvimento e na manuten¸c˜ao do software. A predi¸c˜ao baseada nos dados do tipo intervalo leva em conta a variabilidade, tornando mais flex´ıvel ao fazer o planejamento de um software. Algumas aplica¸c˜oes de modelo de regress˜ao para estima-tiva de defeito de software podem ser encontradas em [Fakhrahmad e Sami, (2009)] e em ([Oliveira, (2006)] e [Leal et al., (2009)]) para estima¸c˜ao de esfor¸co de software.
Aqui, um conjunto de dados do tipo intervalo ´e constru´ıdo a partir dos 13 projetos do reposit´orio da NASA http://mdp.ivv.nasa.gov/ que s˜ao amplamente utilizados na literatura da estimativa de software [Jiang et al., (2008)].
Cada projeto ´e formado por um conjunto de dados de m´odulos de software e as vari´aveis que descrevem projetos de software que variam em tamanho, complexidade, linguagens de programa¸c˜ao, processos de desenvolvimento, etc. Assim, cada m´odulo de um projeto ´e descrito por 21 vari´aveis.
A fim de descrever intervalos simb´olicos para esses projetos atrav´es do conhecimento a
priori do especialista em estimativa de software, trˆes vari´aveis foram escolhidas: n´umero
de operadores (NO), n´umero de operandos (NOR) e n´umero de linhas de c´odigo (NL). Um processo de generaliza¸c˜ao para os m´odulos de cada projeto foi realizado, considerando que os intervalos s˜ao calculados por valores m´ınimo e m´aximo das vari´aveis cl´assicas do reposit´orio NASA.
A Tabela 2.2 ilustra parte do projeto 1 do reposit´orio da NASA. Cada linha desta tabela corresponde a um m´odulo de software descrito pelas vari´aveis NO, NOR e NL.
Tabela 2.2 Parte dos m´odulos de software do projeto 1.
N´umero de linhas N´umero de operadores N´umero de operandos
(NL) (NO) (NOR) 41 590 111 14 0 1 100 180 345 0 0 678 . . . . 602 1144 435 110 530 1641 350 126 899
2.2 DADOS SIMB ´OLICOS 13 Em rela¸c˜ao `a Tabela 2.2, uma descri¸c˜ao intervalar para o projeto 1 pode ser dada pelos valores de m´ınimo e m´aximo das vari´aveis NL, NO e NOR que s˜ao, respectivamente, [0, 602], [0, 1144] e [1, 1641].
No cap´ıtulo 1 a Tabela 1.1 mostra o conjunto de dados do tipo intervalo resultante da aplica¸c˜ao do processo de generaliza¸c˜ao, onde cada linha desta tabela descreve conceitos de projeto de software, considerando a varia¸c˜ao interna.
Sabe-se que na an´alise de dados simb´olicos, as vari´aveis assumem um ´unico valor ou categoria para um dado indiv´ıduo. Entretanto, as vari´aveis simb´olicas podem assumir para um dado indiv´ıduo (ou classe): conjunto de categorias, intervalos, histograma, etc.
Como nos dados cl´assicos, os dados simb´olicos tamb´em s˜ao classificados segundo o tipo de vari´avel simb´olica que descreve os objetos, etapas por sua vez s˜ao definidas de acordo com seu dom´ınio. De acordo com [Bock e Diday, (2000)], as vari´aveis simb´olicas s˜ao classificados em dois grandes grupos: n˜ao modais e modais.
2.2.1 Vari´avel simb´olica do tipo modal
Uma vari´avel simb´olica modal descreve um objeto usando par(c,π), onde c ´e o conjunto de categorias que a vari´avel assume e π ´e um vetor de frequˆencia, pesos ou probabilidades correspondentes `as categorias do conjunto c.
Por exemplo, seja Y a distribui¸c˜ao de agˆencias banc´arias em k cidades. Para uma cidade t, tem -se: Y (t) = BB (0,5), Bradesco (0,4) e Caixa (0,1).
2.2.2 Vari´avel simb´olica do tipo n˜ao modal
As vari´aveis n˜ao modais s˜ao: multivaloradas e do tipo intervalo. As vari´aveis multivalo-rada s˜ao definidas como: categ´orica e quantitativa.
Uma vari´avel multivalorada nominal assume, ao descrever um objeto, um conjunto
de categorias n˜ao ordenadas. Por exemplo, seja Y = Tipo de Passagem de um grupo k de indiv´ıduos, ent˜ao Yk =Terrestre, ´Aerea;
Um vari´avel multivalorada ordinal assume um conjunto de categorias ordenados.
Por exemplo, seja Y = n´ıvel de escolaridade e k um grupo de indiv´ıduos de uma cidade, ent˜ao Yk = fundamental, m´edio, gradu¸c˜ao;
Uma vari´avel multivalorada quantitativa assume um conjunto de valores n˜ao
2.3 ESTAT´ISTICA DESCRITIVA 14 principais escolas particulares de uma cidade e k um grupo de indiv´ıduos de uma cidade, ent˜ao Yk = 10, 9, 20;
No caso cl´assico, todos esses exemplos apresentados, as vari´aveis s´o poderiam
assu-mir um ´unico valor ao descrever cada indiv´ıduo.
Uma vari´avel Y ´e do tipo intervalo se ela representa uma realiza¸c˜ao ξ = [a : b] ⊂ ℜ1,
com a ≤ b e {a, b} ∈ ℜ1. No exemplo da Tabela 1.1, os intervalos s˜ao gerados como resultado da agrega¸c˜ao (generaliza¸c˜ao) de dados cl´assicos [Jiang et al., (2008)]. Os valores auj e buj do intervalo [auj : buj] referentes `a vari´avel j na categoria wu s˜ao dados por:
auj = min i∈Ωu xij, buj = max i∈Ωu xij,
onde Ωu ´e o conjunto dos i − ´esimos valores (i ∈ Ω) que comp˜oem a categoria wu.
Exemplos dessa defini¸c˜ao podem ser obtidos do conjunto de dados simb´olicos da Tabela 1.1.
2.3 ESTAT´ISTICA DESCRITIVA
Apesar dos m´etodos de minera¸c˜ao de dados inicialmente terem sido elaborados sob os alicerces dos dados cl´assicos, ´e poss´ıvel adaptar seus conceitos e m´etodos para dados simb´olicos.
Carvalho (1995) introduziu a no¸c˜ao de histogramas para dados simb´olicos booleanos. Bertrand e Goupil (2000) introduziram m´etodos para calcular a distribui¸c˜ao de frequˆencia para uma vari´avel simb´olica e estenderam, para cada tipo de vari´avel, os conceitos de m´edia, desvio padr˜ao e mediana.
Billiard e Diday (2000), (2002) estenderam os conceitos de fun¸c˜ao de correla¸c˜ao e covariˆancia, proporcionando a obten¸c˜ao de uma equa¸c˜ao de regress˜ao linear m´ultipla para dados simb´olicos de natureza intervalar. Nesse mesmo contexto, em [Billard, (2004)] s˜ao abordados m´edia, variˆancia e histograma para dados do tipo intervalo e multivalorado.
Nos trabalhos [Lauro e Gioia, (2006)] e [Billard, (2004)], s˜ao introduzidos m´etodos para analisar a interdependˆencia e dependˆencia entre vari´aveis com valores intervala-res. Os m´etodos de regress˜ao para dados simb´olicos do tipo intervalo ser˜ao descritos em detalhes na se¸c˜ao 2.4.
Uma ilustra¸c˜ao disso, ´e a adapta¸c˜ao da estat´ıstica descritiva para dados simb´olicos do tipo intervalar. S˜ao exemplos de m´etodos da estat´ıstica descritiva a constru¸c˜ao
histo-2.3 ESTAT´ISTICA DESCRITIVA 15 grama, c´alculo da m´edia e variˆancia. Antes de ser explicado como esses m´etodos foram adaptados, ´e necess´ario definir o que ´e uma descri¸c˜ao individual e uma descri¸c˜ao virtual. Descri¸c˜ao individual ´e o valor de uma vari´avel de um objeto simb´olico. O c´alculo da frequˆencia de um histograma simb´olico envolve contar o n´umero de descri¸c˜oes individuais que tornam verdadeira uma determinada dependˆencia l´ogica nos dados.
Uma dependˆencia l´ogica pode ser representada pela equa¸c˜ao (2.1), tal que x ∈ X (X ´e o conjunto de todas as descri¸c˜oes individuais presentes na tabela) e A ⊆ D, B ⊆ D. Em que, v retornar´a um valor bin´ario, isto ´e, ”0”, se a dependˆencia l´ogica n˜ao for verdadeira para x, ou ”1” se for verdadeira [Billard e Diday, (2006)].
v : [x ∈ A] ⇒ [x ∈ B]. (2.1)
J´a a descri¸c˜ao virtual de um vetor ´e um conjunto de todos os elementos x presentes que satisfazem todas as dependˆencias l´ogicas em X. Ela ´e representada pela equa¸c˜ao2.2
como vir(d) sendo Vx todas regras presentes em X.
vir(d) = x ∈ D; v(x) = 1, ∀v ∈ Vx. (2.2)
Deste modo, supondo que h´a interesse em uma vari´avel Yj ≡ Z e o valor observado
para o objeto u nessa vari´avel ´e um intervalo Z(u) = [au, bu], para u ∈ E = {1, ..., m} e
que os vetores de descri¸c˜ao individuais x ∈ vir(du) s˜ao distribu´ıdos uniformemente sobre
o intervalo Z(u), temos para cada ξ:
P {x ≤ ξ|x ∈ vir(du)} = 0, se ξ ≤ au; ξ−au au−bu, se au ≤ ξ ≤ bu; 1, caso contr´ario. (2.3)
O vetor de descri¸c˜ao individual x vai ter valores globalmente em Su∈Evir(du) e cada
um desses objetos vai ter a mesma probabilidade de ser observado com p = m1. Fun¸c˜ao de Distribui¸c˜ao Emp´ırica Intervalar
Obtem-se, ent˜ao, que a fun¸c˜ao emp´ırica de distribui¸c˜ao, FZ(ξ), que ´e uma fun¸c˜ao de
distribui¸c˜ao de m distribui¸c˜oes uniformes nos m intervalos Z(u) = [au, bu] para u ∈ E .
2.3 ESTAT´ISTICA DESCRITIVA 16 FZ(ξ) = 1 m X u∈E P {x ≤ ξ|x ∈ vir(du)}, (2.4) = 1 m X ξ∈Z(u) ξ − au bu− au + |u|ξ ≥ bu| . Fun¸c˜ao de Densidade Emp´ırica Intervalar
Caso seja derivada a equa¸c˜ao (2.4) em fun¸c˜ao de ξ, ser´a encontrada a fun¸c˜ao emp´ırica de densidade de Z. f (ξ) = 1 m X u:ξ∈Z(u) 1 bu− au . (2.5)
Como na equa¸c˜ao (2.5) o somat´orio ´e apenas sobre objetos u, para os quais ξ ∈ Z(u), ´e poss´ıvel escrevˆe-la de outra forma:
f (ξ) = 1 m X u∈E Iu(ξ) ||Z(u)||, ξ ∈ ℜ, (2.6)
onde Iu(ξ) ´e uma fun¸c˜ao que indica se ξ est´a ou n˜ao em Z(u), quando afirmativo,
retornar´a 1, caso contr´ario, 0. E ||Z(u)|| ´e a amplitude do intervalo Z(u) ∈ E, onde ||Z(u)|| = bu− au.
M´edia Intervalar
Agora se torna poss´ıvel encontrar a m´edia para dados simb´olicos intervalares, pois se sabe que a m´edia emp´ırica ¯Z em termos da fun¸c˜ao de densidade emp´ırica ´e:
¯ Z =
Z ∞
−∞
2.3 ESTAT´ISTICA DESCRITIVA 17 Substituindo da equa¸c˜ao (2.6): ¯ Z = 1 m X u∈E Z ∞ −∞ Iu(ξ) ||Z(u)||ξdξ, = 1 m X u∈E 1 bu− au Z ξ∈Z(u) ξdξ, = 1 2m X u∈E b2 u− a2u bu− au , = 1 m X u∈E bu+ au 2 . (2.7)
Variˆancia Amostral Intervalar
De maneira an´aloga ´e poss´ıvel encontrar a variˆancia para dados simb´olicos intervalares atrav´es da variˆancia emp´ırica s em termos da fun¸c˜ao de densidade emp´ırica pode ser definido por
s2 =
Z ∞
−∞(ξ − ¯z)
2f (ξ)dξ.
Agora computa-se s2, considerando que a equa¸c˜ao anterior ´e equivalente a
s2 =
Z ∞
−∞
(ξ2)f (ξ)dξ − (¯z)2. Usando o segundo momento
M2 = Z ∞ −∞ (ξ2)f (ξ)dξ, = 1 m X u∈E Z ∞ −∞ (ξ2) ||Z(u)||dξ, = 1 m X u∈E (bu)3− (au)3 3 ||Z(u)|| , = 1 3m X u∈E [(bu)2+ (bu)(au) + (au)2]. (2.8)
2.3 ESTAT´ISTICA DESCRITIVA 18 S2 = 1 3m X u∈E b2u+ buau + a2u −4m12 " X u∈E bu+ au #2 . (2.9) Histograma Intervalar
Para construir um histograma de dados simb´olicos intervalares, ´e preciso tomar o intervalo I = minau|u∈E, maxbu|u∈E
em que todos os poss´ıveis valores de Z est˜ao contidos, e considerar uma parti¸c˜ao de I em r subintervalos Ig = [ξg−1, ξg), g = 1, ..., r − 1 e Ir =
[ξr−1, ξr] com g=r. Ent˜ao, o histograma para Z ´e a representa¸c˜ao gr´afica da distribui¸c˜ao
de frequˆencia {(Ig, pg) g = 1, ..., r} onde:
pg = 1 m X u∈E ||Z(u) ∩ Ig|| ||Z(u)|| . (2.10)
Nesse caso pg, para g = 1, . . . , r, representa a ´area da barra vertical da base de qual ´e o
intervalo de Ig pertencente ao eixo horizontal do histograma. Portanto, pg´e probabilidade
de um descri¸c˜ao individual u est´a no intervalo Ig.
Considerando uma vari´avel Z com valores intervalares definida no conjunto ξ = 1, . . . , 8 de n = 8 objetos b´asicos definidos como:
Z(E) = [0 : 2]; [1 : 3]; [1, 5 : 2, 5]; [2 : 4]; [3, 5 : 5]; [4, 5 : 5, 5]; [5 : 7]; [6.5; 7.5]
A Figura 2.1 representa o histograma intervalar das classes definidas para cada ele-mento do vetor. Com isso, as oito classes defindas cont´em os intervalos obtidos dentra de cada faixa definida. Assim, quanto mais intervalos existirem maiores ser˜ao as frequencias das respectivas classes.
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS19
Figura 2.1 Histograma para dados intervalares.
Usando as equa¸c˜oes (2.7) e (2.8), computam-se os valores m´edia e variˆancia intervalar de Z, como, respectivamente: ¯ Z = 1 8(1 + 2 + 3 + 3 + (8, 5/2) + 5 + 6 + 7) ≃ 3, 78125 S2 =q443,5 24 − 3, 7812 ≃ 2, 044826
2.4 M´ETODOS DE REGRESS˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO
PARA OS ERROS
Ao contr´ario dos m´etodos cl´assicos para tratamento de dados que foram desenvolvidos ao longo de mais de um s´eculo, os m´etodos para tratamento de dados simb´olicos est˜ao crescendo a cada dia. Esta se¸c˜ao apresentar´a alguns m´etodos de regress˜ao para dados simb´olicos do tipo intervalo baseados no m´etodo dos m´ınimos quadrados sem fazer su-posi¸c˜ao de distribui¸c˜ao de probabilidade para os erros.
Os trˆes principais m´etodos de regress˜ao linear para dados simb´olicos do tipo intervalo s˜ao: m´etodo do centro, m´etodo dos m´ınimos e m´aximos e m´etodo do centro e da amplitude do intervalo. O processo de estima¸c˜ao dos parˆametros da regress˜ao linear dos trˆes m´etodos ´e baseado na minimiza¸c˜ao de crit´erios predeterminados.
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS20
2.4.1 M´etodo do centro
O m´etodo do centro, proposto por [Billard e Diday, (2000)], consiste em ajustar um mo-delo de regress˜ao linear ao centro dos intervalos assumidos pelas vari´aveis simb´olicas, e em seguida aplicar esse modelo aos limites inferior (inf) e superior (sup) dos intervalos das vari´aveis preditoras para prever, respectivamente, o limite inferior e superior da vari´avel resposta. Assim, o m´etodo do centro consiste em minimizar a soma dos quadrados dos erros do centro dos intervalos.
O m´etodo do centro para vari´aveis simb´olicas do tipo intervalo pode ser formalmente definido do seguinte modo: Seja E = {e1, e2, . . . , en} um conjunto de exemplos descritos
por p + 1 vari´aveis simb´olicas do intervalo: Y, X1, X2, . . . , Xn. Al´em disso, seja cada
exemplo de ei ∈ E(i = 1, . . . , n) representado por um vetor de intervalos zi = (xi, yi),
onde xi = (xi1, xi2, . . . , xij, . . . , xip), xij = ξij = [aij : bij] ∈ Ω = {[a : b] : a ≤ b; a, b ∈
ℜ1}(j = 1, . . . , p) e y
i = [yiinf : y sup
i ] ∈ Ω, caracterizando, os valores observados de Xj e
Y .
Considere o conjunto de vari´aveis X1, X2, . . . , Xp como vari´aveis preditoras
relaciona-das linearmente com uma vari´avel resposta Y atrav´es do modelo:
yiinf = β0+ β1ai1+ β2ai2+ . . . + βpaip+ εinfi ,
yisup = β0+ β1bi1+ β2bi2+ . . . + βpbip+ εsupi . (2.11)
A partir das Equa¸c˜oes (2.11), pode-se encontrar os estimadores minimizando a soma
de quadrados dos erros do centro dado por:
n X (i=1) (εinfi + εsupi )2 = n X (i=1) (yinfi − β0− β1ai1− . . . − βpaip+ + yisup− β0− β1bi1− . . . − βpbip)2, (2.12)
que representa a soma dos quadrados dos erros dos limites inferior e superior.
O estimador de m´ınimos quadrados para β que minimiza a soma dos quadrados dos erros da Equa¸c˜ao2.12para este m´etodo ´e a solu¸c˜ao do sistema de p + 1 equa¸c˜oes normais.
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS21
ˆ
β= (A)−1b (2.13)
em que A ´e uma matriz (p + 1) × (p + 1) e b ´e um vetor (p + 1) × 1, dados por:
A= n Pixc i1 . . . P ixcip P ixci1 P i(xci1)2 . . . P ixcipxci1 .. . ... ... ... Pn i xcip P ixci1xcip . . . P i(xcip)2 e b = ( P iyic, P iycixi)
A express˜ao (2.13) pode ser representada de uma forma mais interessante por:
ˆ
β = (XT
cXc)−1XTcyc, (2.14)
onde, Xc tem posto completo p + 1 ≤ n, yc = (yc1, . . . , ycn)T, Xc = (xTc1, . . . , xTcn)T,xTci =
(1, xci, . . . , xcip)e ˆβ = ( ˆβ0, . . . , ˆβp). Com xcij = (aij + bij)/2 e yic = (y inf
i + y
sup
i )/2.
Assim, ao aplicar o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj], (j = 1, 2, . . . , p), os valores dos
limites do intervalo relativo `a vari´avel resposta y ser˜ao dados por:
ˆ
y = [ˆyinf : ˆysup], com, ˆ
yinf = (xinf)Tβˆ e ˆysup= (xsup)Tβ,ˆ (
2.15)
em que (xinf)T = (1, a
1, a2, . . . , ap) e (xsup)T= (1, b1, b2, . . . , bp).
Desta forma, o m´etodo do centro consiste em um modelo de regress˜ao dos centros da vari´avel resposta do tipo intervalo Y sobre os centros das vari´aveis preditoras do tipo intervalo Xj. Entretanto, ´e importante ressaltar que este m´etodo n˜ao garante que
ˆ
yinfi ≤ ˆyisup.
2.4.2 M´etodo do m´ınimo e m´aximo
Diferente do m´etodo do centro descrito na Se¸c˜ao 2.4.1, o m´etodo do m´ınimo e m´aximo proposto por [Billard e Diday, (2002)] ajusta dois modelos independentes de regress˜ao linear para os limites inferiores e superiores das vari´aveis simb´olicas.
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS22 Considere o conjunto de vari´aveis X1, X2, . . . , Xp como vari´aveis regressoras
relacio-nadas linearmente com uma vari´avel resposta Y atrav´es do modelo:
yinfi = β0inf + β1infai1+ . . . + βpinfaip+ εinfi ,
yisup= β0sup+ β1supbi1+ . . . + βpsupbip+ εsupi . (2.16)
A partir da equa¸c˜ao (2.16), pode-se deduzir a soma dos quadrados dos erros no m´etodo
dos limites m´ınimo e m´aximo, que s˜ao:
n X i=1 εinfi 2+ n X i=1 (εsupi )2 = n X i=1
yiinf − β0inf − β1infai1− . . . − βpinfaip
2
+
n
X
i=1
yisup− β0sup− β1supbi1− . . . − βpsupbip
2
. (2.17)
Essa equa¸c˜ao representa a soma dos quadrados dos res´ıduos dos limites inferiores e dos limites superiores de forma independente, considerando tamb´em independentes os vetores de parˆametros β utilizados para predi¸c˜ao dos limites da vari´avel resposta ˆY.
Os estimadores de m´ınimos quadrados de β0inf, β1inf, . . . , βinf
p e β
sup
0 , β
sup
1 , . . . , βpsupque
minimizam a equa¸c˜ao (2.17) podem ser escritas na nota¸c˜ao matricial por:
ˆ
β =βˆ0inf, ˆβ1inf, . . . , ˆβpinf, ˆβ0sup, ˆβ1sup, . . . , ˆβpsupT. (2.18)
onde A ´e uma matriz 2(p + 1) × 2(p + 1) e b ´e um vetor 2(p + 1) × 1, denotados por:
A = n Piai1 . . . Piaip 0 . . . 0 P iai1 P i(ai1)2 . . . P iaipai1 0 . . . 0 .. . ... ... ... ... ... ... P iaip Piai1aip . . . Pi(aip)2 0 . . . 0 0 0 . . . 0 n . . . Pibip 0 0 . . . 0 Pibi1 . . . Pibipbi1 .. . ... ... ... ... ... ... 0 0 . . . 0 Pibi1bip . . . Pi(bip)2 ,
e b = Piyiinf,Piyiinfai1, . . . ,Piyiinfaip,Piyisup,
P iy sup i bi1, . . . ,Piysupi bip T .
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS23 Aplicando o modelo para predizer Y a partir de um conceito w, descrito por z = (x, y), onde x = (x1, x2, . . . , xp) com xj = [aj : bj], (j = 1, 2, . . . , p), os valores preditos dos
limites inferiores e superiores ˆy = [ˆyinf, ˆysup] da vari´avel resposta Y s˜ao dados por:
ˆ
yinf = (xinf)Tβˆinf e yˆsup= (xsup)Tβˆsup, (
2.19)
onde
(xinf)T
= (1, a1, ..., ap), (xsup)T = (1, b1, ..., bp),
ˆ
βinf = ( ˆβ0inf, ˆβ1inf, . . . , ˆβinf p )T e ˆβ
sup
= ( ˆβ0sup, ˆβ1sup, . . . , ˆβsup p )T.
2.4.3 M´etodo do centro e da amplitude
Lima Neto e de Carvalho (2008) propuseram um novo m´etodo de regress˜ao simb´olica levando em considera¸c˜ao o centro e a amplitude das vari´aveis intervalares. Esse m´etodo estabelece o crit´erio de minimiza¸c˜ao para estima¸c˜ao dos parˆametros, considerando a soma dos quadrados dos erros relativos do centro e da amplitude dos intervalos de modo inde-pendente.
A expectativa ´e de que com a inclus˜ao de informa¸c˜oes da amplitude dos intervalos haja uma melhoria na predi¸c˜ao do modelo. O ajuste dos limites inferiores e superiores da vari´avel resposta ´e realizado atrav´es da aplica¸c˜ao do vetor de parˆametros ˆβ ao centro e amplitude das vari´aveis regressoras.
Sejam yc e xc
j com (j = 1, 2, . . . , p), vari´aveis quantitativas relativas ao centro dos
intervalos das vari´aveis simb´olicas y e xj com (j = 1, 2, . . . , p). Al´em disso, considere
yrexr
j(j = 1, 2, . . . , p) vari´aveis quantitativas que assumem como valores a metade da
am-plitude (ou meia-amam-plitude) dos intervalos das vari´aveis simb´olicas y e xj(j = 1, 2, . . . , p).
Considere yc e yr como vari´aveis resposta e xc
j e xrj(j = 1, 2, . . . , p) um conjunto de
vari´aveis regressoras relacionadas por:
yci = β0c+ β1cxi1c + . . . + βpcxcip+ εci,
yir= β0r+ β1rxri1+ . . . + βprxrip+ εri. (2.20)
Neste m´etodo, os vetores de parˆametros ˆβ = (( ˆβc)T, ( ˆβr)T)T s˜ao estimados de forma independente para o centro e a amplitude dos intervalos. Portanto, a soma dos quadrados dos erros ´e dada por:
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS24 n X i=1 (εci)2+ (εri)2= n X i=1 yci − β0c − β1cxci1− . . . − βpcxcip2 + n X i=1 yir− β0r− β1rxri1− . . . − βprxrip2. (2.21)
Os estimadores de m´ınimos quadrados de βc
0, β1c, . . . , βpce β0r, β1r, . . . , βprque minimizam
a equa¸c˜ao (2.21) podem ser escritas em nota¸c˜ao matricial por:
ˆ
β =βˆ0c, ˆβ1c, . . . , ˆβpc, ˆβ0r, ˆβ1r, . . . , ˆβprT= (A)−1b, (2.22)
em que A ´e uma matriz 2(p + 1) × 2(p + 1) e b ´e um vetor 2(p + 1) × 1, denotados por:
A = n Pixc i1 . . . P ixcip 0 . . . 0 P ixci1 P i(xci1)2 . . . P ixcipxci1 0 . . . 0 ... ... ... ... ... ... ... P ixcip P ixci1xcip . . . P i(xcip)2 0 . . . 0 0 0 . . . 0 n . . . Pixr ip 0 0 . . . 0 Pixr i1 . . . P ixripxri1 ... ... ... ... ... ... ... 0 0 . . . 0 Pixr i1xrip . . . P i(xrip)2 , e b = Piyc i, P iycixci1, . . . , P iyicxcip, P iyri, P iyrixri1, . . . , P iyirxrip T . Os estimadores de m´ınimos quadrados de βc
0, β1c, . . . , βpce β0r, β1r, . . . , βprque minimizam
a Equa¸c˜ao (2.21) podem ser re-escritas de forma mais representativa por:
ˆ
βc = (XTcXc)−1XTcyc, (2.23)
ˆ
βr = (XTrXr)−1XTryr, (2.24)
onde Xc e Xr tem posto completo p + 1 ≤ n, com
yc = (yc1, . . . , ycn)T, Xc = [(xc1)T, . . . , (xcn)T]T,(xci)T= (1, xci, . . . , xcip), ˆβ = ( ˆβ0, . . . , ˆβp).
2.4 M´ETODOS DE REGRESS ˜AO SIMB ´OLICA SEM SUPOSIC¸ ˜AO DE DISTRIBUIC¸ ˜AO PARA OS ERROS25 ( ˆβ0, . . . , ˆβp). Assim, xijc = (aij + bij)/2 e yic = (y inf i + y sup i )/2.
Aplicando o m´etodo do centro e da amplitude para predizer y a partir de um conceito w, descrito por z = (x, y), c = (xc, yc) e r = (xr, yr), onde x = (x
1, x2, . . . , xp) com
xj = [aj : bj](j = 1, 2, . . . , p), xc = (xc1, . . . , xcp) com xcj = (aj + bj)/2 e xr = (xr1, . . . , xrp)
com xr
j = (bj − aj)/2 (j = 1, . . . , p). O valor y = [yinf, ysup] ser´a predito a partir dos
valores ˆyc e ˆyr, estimados de yc e yr, respectivamente, como mostrado a seguir:
ˆ
yinf = ˆyc− ˆyr e yˆsup= ˆyc+ ˆyr, (2.25)
onde ˆ yc = (xc)Tβˆc e yˆr = (xr)Tβˆr, (xc)T= (1, xc 1, ..., xcp) e (xr)T= (1, xr1, ..., xrp), ˆ βc = ( ˆβ0c, ˆβ1c, . . . , ˆβpc)T e βˆr= ( ˆβr 0, ˆβ1r. . . , ˆβpr)T.
2.4.4 M´etodos com Restri¸c˜oes
Um resumo sobre dados simb´olicos do tipo intervalo foi apresentado na Se¸c˜ao 2.2. Esse tipo de dado simb´olico ´e definido por uma realiza¸c˜ao simb´olica ξ = [a : b], com {a, b} ∈ ℜ1,
a e b, vari´aveis quantitativas, representando, respectivamente, o limite inferior e o limite superior de um intervalo, onde necessariamente a condi¸c˜ao (a ≤ b) deve ser atendida.
Pode-se demonstrar que, em alguns cen´arios, n˜ao h´a garantia de que os intervalos pre-ditos pelos m´etodos apresentados nesta se¸c˜ao contemplem a defini¸c˜ao dos dados simb´olicos do tipo intervalo, por exemplo, mantendo a estimativa do limite inferior do intervalo pre-dito menor do que a estimativa do limite superior deste intervalo para qualquer observa¸c˜ao intervalar xi.
Alguns m´etodos foram propostos para resolver esse problema [Lima Neto e De Carvalho, (2010)]. A ideia b´asica ´e impor restri¸c˜oes quanto aos valores estimados dos parˆametros dos
mode-los do m´etodo do centro, m´etodo do centro e da amplitude, e do m´etodo dos m´ınimos e m´aximos. O modelo estabelece uma rela¸c˜ao linear entre a vari´avel resposta e as vari´aveis regressoras, impondo restri¸c˜oes aos parˆametros do vetor β, da seguinte forma:
yinfi = β0+ β1ai1+ . . . + βpaip+ εinfi ,
yisup= β0 + β1bi1+ . . . + βpbip+ εsupi , (2.26)