• Nenhum resultado encontrado

Análise de dados poligonais: uma nova abordagem para dados simbólicos

N/A
N/A
Protected

Academic year: 2021

Share "Análise de dados poligonais: uma nova abordagem para dados simbólicos"

Copied!
63
0
0

Texto

(1)

Wagner Jorge Firmino da Silva

ANÁLISE DE DADOS POLIGONAIS: UMA NOVA

ABORDAGEM PARA DADOS SIMBÓLICOS

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br <www.cin.ufpe.br/~posgraduacao>

RECIFE 2017

(2)

Wagner Jorge Firmino da Silva

ANÁLISE DE DADOS POLIGONAIS: UMA NOVA

ABORDAGEM PARA DADOS SIMBÓLICOS

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Uni-versidade Federal de Pernambuco como requisito parcial para obtenção do grau de

em Ciência da Computação.

Orientador: Renata Maria Cardoso Rodrigues de Souza Co-Orientador: Francisco José de Azevêdo Cysneiros

RECIFE 2017

(3)
(4)

Wagner Jorge Firmino da Silva

Análise de Dados Poligonais: Uma Nova Abordagem para Dados

Simbólicos

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação

Aprovado em: 15/02/2017.

BANCA EXAMINADORA

______________________________________________ Profa. Dra. Renata Maria Cardoso Rodrigues de Souza

Centro de Informática / UFPE (Orientadora)

__________________________________________ Profa. Dra. Roberta Andrade de Araújo Fagundes

Escola Politécnica de Pernambuco/UPE

__________________________________________ Prof. Dr. Eufrásio de Andrade Lima Neto

(5)

Dedico esta dissertação primeiramente a Deus, à minha esposa, minha família, amigos e professores que deram todo apoio necessário para que eu chegasse até aqui.

(6)

Agradecimentos

Adaptando a célebre frase de Isaac Newton, se eu cheguei mais longe, foi por estar sobre ombros de gigantes. Assim, elucido o nome destes que me fizeram chegar até aqui:

Agradeço a Deus, por inefáveis benefícios que me tem feito os quais destaco a

sabedoria necessária para vencer os obstáculos e chegar até aqui.

Aos meus pais, que desde sempre foram a janela que me permitiu alçar tão

grandes voôs. E muitas vezes sacrificaram a si mesmos em prol desta vitória.

À minha esposa, que pacientemente me incentivou todos os dias os quais estamos

juntos e mostrou-se ser companheira para as horas fáceis e difíceis da vida. E que quando todas as apostas estavam contra, resolveu insistir e seguir ao meu lado.

Aos meus orientadores, Dra. Renata Souza e o Dr. Francisco Cysneiros pela

liberdade, confiança, pelas riquíssimas discussões que direcionaram da melhor forma possível o desenvolvimento deste trabalho e compartilhamento de seus conhecimentos num ambiente ético, profissional e acima de tudo humano, sempre visando o crescimento.

Aos professores do Centro de Informática, aos quais me ensinaram

ferramen-tas novas na análise dados e me receberam muito bem neste programa.

Aos amigos pesquisadores do Centro de Informática aos quais destaco

Eraylson Galdino, César Magno e Renê Gadelha que solicitamente contribuíram com dicas e discussões importantes para este estudo.

A todos participantes do grupo de pesquisa, agradeço a todos pela

contri-buição direta ou indireta. Minha gratidão a todos colegas do grupo de Estatística Aplicada de Dados Numéricos e Simbólicos.

A todos os amigos, os quais destaco André, Edjailson e Josimar pelas palavras

(7)

Descobrir consiste em olhar para o que todo mundo está vendo e pensar uma coisa diferente. —ROGER VON OECH

(8)

Resumo

Análise de Dados Simbólicos (ADS) é um paradigma que fornece uma estrutura para construir, descrever, analisar e extrair conhecimento de dados mais complexos como intervalos, histogramas, distribuição de pesos ou lista de valores (categorias). Tipicamente, os dados simbólicos surgem em duas situações, ao longo da coleta e processamento de dados. Alguns dados coletados são inerentemente simbólicos e outros se tornam dados simbólicos após o processamento de enormes conjuntos de dados, a fim de resumi-los através de classes de dados. Dados poligonais, propostos neste trabalho, são estruturas complexas multivariadas de dados que são capazes de armazenar informações de classes de dados. Este trabalho introduz uma nova estrutura para análise de dados poligonais no paradigma de análise de dados simbólicos. Mostramos que dados poligonais generalizam dados de intervalos bivariados. Para análise de dados poligonais estatísticas descritivas e um modelo de regressão linear são propostos. Estudo de simulação de Monte Carlo são realizados para verificar o desempenho da previsão em dados poligonais. Dois conjuntos de dados reais são apresentados.

(9)

Abstract

Symbolic Interval Data (SDA) is a paradigm which provides a framework for building, describing, analyzing and extracting knowledge from data more complex such as intervals, histograms, distribution of weights or list of values (categories). Typically, symbolic data arise in two situations throughout data collecting and processing. Some data collected are inherently symbolic and some become symbolic data after processing of huge data sets in order to summarize them through classes of data. Polygonal data present in this work is a multivariate complex structure of data that is able to store information from classes of data. This work introduces a new framework for polygonal data analysis in the symbolic data analysis paradigm. We show that polygonal data generalizes bivariate interval data. To analyse polygonal data descriptive statistics and a linear regression model are proposed for symbolic polygonal data. A Monte Carlo study of simulation are present to verify the performance of prediction for polygonal data. Two real dataset are present.

(10)

Lista de Figuras

2.1 Modelagem por um objeto simbólico de um conceito conhecido por seu

conjunto de objetos . . . 21

3.1 Descrição através de um triângulo . . . 23

3.2 Descrição através de um quadrilátero . . . 23

3.3 Centro de gravidade . . . 29

3.4 Domínio da Função de Distribuição Acumulada (FDA) do círculo . . . 36

3.5 Relação entre polígonos regulares e quadrados . . . 37

4.1 Variável resposta - Airfares . . . 47

4.2 Histograma de y - Airfares . . . . 48

4.3 Curva de nível de y - Airfares . . . . 49

4.4 Variável resposta - WNBA . . . 50

4.5 Histograma de y - WNBA . . . . 51

4.6 Curva de nível de y - WNBA . . . . 51

(11)

Lista de Tabelas

2.1 Tabela clássica . . . 17

2.2 Tabela simbólica . . . 18

3.1 Dados clássicos WNBA . . . 26

3.2 Medidas para construção do polígono . . . 26

3.3 Variáveis do tipo polígono . . . 28

3.4 Medidas intervalares comparadas com medidas poligonais . . . 38

4.1 Distribuição dos dados sintéticos . . . 43

4.2 Comparação dos modelos com um regressor sob o cenário C1 . . . 44

4.3 Comparação dos modelos com um regressor sob o cenário C2 . . . 44

4.4 Comparação dos modelos com um regressor sob o cenário C3 . . . 45

4.5 Comparação dos modelos com um regressor sob o cenário C4 . . . 45

4.6 Comparação dos modelos com três regressores sob o cenário C1 . . . 45

4.7 Comparação dos modelos com três regressores sob o cenário C2 . . . 46

4.8 Comparação dos modelos com três regressores sob o cenário C3 . . . 46

4.9 Comparação dos modelos com três regressores sob o cenário C4 . . . 46

(12)

Lista de Acrônimos

ADS Análise de Dados Simbólicos . . . 15

CG Centro de Gravidade . . . 25

CM Centro de Massa . . . 27

MCA Modelo Centro e Amplitude . . . 42

EQM Erro Quadrático Médio . . . 41

FDA Função de Distribuição Acumulada . . . 31

FDP Função de Distribuição de Probabilidade . . . 31

KDD Knowledge-Discovery in Databases . . . 14

MMQ Método dos Mínimos Quadrados . . . 39

MLG Modelos Lineares Generalizados . . . 40

MRL Modelos de Regressão Linear . . . 39

(13)

Sumário 1 Introdução 14 1.1 Motivação . . . 14 1.2 Objetivos . . . 15 1.3 Organização da Dissertação . . . 16 2 Dados Simbólicos 17 2.1 Visão Geral . . . 17

2.2 Tipos de dados simbólicos . . . 19

2.3 Conceitos e Objetos Simbólicos . . . 20

2.3.1 Conceitos . . . 20

2.3.2 Objetos Simbólicos . . . 20

3 Dados Simbólicos Poligonais 22 3.1 Variáveis Simbólicas Poligonais . . . 22

3.1.1 Transformação de dados clássicos em dados do tipo polígono . . . . 24

3.2 Conceitos Importantes - Física . . . 27

3.3 Distribuição de Probabilidade . . . 30

3.4 Medidas Descritivas . . . 31

3.4.1 Média . . . 31

3.4.2 Variância . . . 31

3.4.3 Covariância . . . 32

3.4.4 Correlação e Coeficiente de Variação . . . 32

3.4.5 Histograma . . . 32

3.5 Casos Particulares . . . 33

3.5.1 Triângulo . . . 33

3.5.2 Quadrilátero . . . 33

3.5.3 Círculo . . . 34

3.6 Relação entre Dados Poligonais e Intervalares . . . 36

4 Regressão Linear Poligonal, Simulação e Resultados 39 4.1 Regressão Linear Poligonal . . . 39

4.2 Simulação . . . 42

4.2.1 Simulação com um regressor . . . 44

4.2.2 Simulação com três regressores . . . 45

4.3 Resultados . . . 46

4.3.1 Dados Airfares . . . 46

(14)

5 Considerações Finais, Limitações e Trabalhos Futuros 53 5.1 Considerações Finais . . . 53 5.2 Limitações . . . 54 5.3 Trabalhos Futuros . . . 55 Referências 56 Apêndice 59 A Demostrações 60

A.1 Função de Distribuição Acumulada Poligonal . . . 60 A.2 Momentos de uma Distribuição Circular . . . 61

(15)

14 14 14

1

Introdução 1.1 Motivação

Na era da informação todos os dias são geradas grandes massas de dados, em 2007 a humanidade conseguiu armazenar 2, 9 × 1020 bytes otimizados, comunicar quase 2 × 1021

bytes e realizar 6, 4 × 1018 instruções por segundo em computadores de propósito geral

(HILBERT; LOPEZ, 2011). Esta quantidade de dados sem dúvidas é absurdamente grande contudo, a maior parte desses dados não são processados para que haja absorção de seu conhecimento.

Essa extensa massa de dados exige da comunidade científica ferramentas eficien-tes para extrair suas informações preciosas. Apesar dos avanços em diversas áreas da computação apenas uma parte destes dados tem sido processadas sem a necessidade de um tempo inviável. Isto se dá, porque além do poder de processamento, é faz necessário desenvolver ferramentas no estudo destas informações para extração de conhecimento.

A extração de conhecimento é também conhecida como Knowledge-Discovery in Databases (KDD) (do inglês, knowledge-discovery in databases) e este é o método não trivial na coleta de informações, previamente desconhecidas e úteis adquirida a partir de dados armazenados em uma base de dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). Este procedimento consiste de uma série de passos, a saber: pré-processamento e limpeza de ruídos, transformação, mineração de dados, e interpretação.

Diversas áreas de estudos como estatística, mineração de dados, aprendizagem de máquina e outras propõem aplicar os conceitos KDD. Por séculos estes estudos tem sido dedicados a dados clássicos, ou seja, dados que são representados por um único ponto p-dimensional em Rp. Porém, este framework não é o mais adequado tratando-se de extensas bases de dados, por exemplo, big data. Uma solução para este problema é buscar descrever os fenômenos através de estruturas mais complexas e em alguns casos resumidas.

Estas estruturas são formadas através de subconjuntos de entidades individuais com propriedades incomum (DIDAY, 2016). A partir dessas estruturas é possível repre-sentar novos tipos de variáveis, por exemplo, histogramas, distribuições de probabilidade, intervalos entre outras.

(16)

15 INTRODUÇÃO O estudo deste tipo de dados é denominado Análise de Dados Simbólicos (ADS) e visa estudar conceitos diversos para este paradigma, isto se dá devido as técnicas usuais de análise de dados não se aplicarem sob este contexto, sendo assim, foi necessário apresentar novas medidas para a análise de dados, tais como: média, variância, momentos, covariância entre outras. Neste paradigma é possível verificar uma grande quantidade de aplicações em áreas diversas, tais como: Redes neurais aplicadas a mineração de dados (VLADUTU et al., 2001); Análise de redes sociais (GIORDANO; BRITO, 2014); séries temporais (TELES; BRITO, 2015); Computação em nuvem e big data (DIDAY, 2016) etc.

Contudo, ao conjunto de variáveis simbólicas (intervalos, multivalorados, categóricos, histogramas e outros) podem ser acrescentados novas estruturas objetivando ampliar o estudo de dados de naturezas diversas. Por exemplo, dados do tipo intervalo são representados geometricamente através de uma semi reta a ≠ b, porém esta forma geométrica não é única. Podemos representar dados através de superfícies e estas, por sua vez, são capazes de armazenar informações diversas sobre a amostra em estudo.

1.2 Objetivos

O objetivo deste trabalho é propor um novo tipo de variável para dados simbólicos e medidas para análise de variáveis desse tipo, denominada por variável simbólica poligonal (ou variável simbólica do tipo polígono).

Em detalhes, a presente dissertação visa: (i) Propor um novo tipo de variável simbólica;

(ii) propor uma distribuição de probabilidade truncada num polígono de n lados; (iii) desenvolver medidas descritivas para análise de dados simbólicos poligonais; (iv) desenvolver um método para histogramas a fim de estudar o comportamento

probabilístico de dados poligonais;

(v) propor um método de agregação e conversão de dados de outras descrições em dados poligonais;

(vi) propor uma representação para dados poligonais; (vii) apresentar um modelo de regressão linear poligonal;

(viii) realizar estudos de simulações para verificar o desempenho do modelo de regressão quanto ao erro de previsão;

(17)

16 INTRODUÇÃO

1.3 Organização da Dissertação

A organização da dissertação é constituída deste capítulo de introdução seguido de mais quatro capítulos. No Capítulo 2 são apresentados os principais conceitos e o estado da arte para análise de dados simbólicos; no Capítulo 3 é apresentado o conceito de dados simbólicos poligonais e as principais medidas descritivas desenvolvidas neste estudo. Agregação, Regressão Poligonal, Simulações e Exemplos são apresentados no Capítulo 4; Por fim, no Capítulo 5 são apresentadas as principais conclusões obtidas através do estudo descritivo e do modelo de regressão para dados simbólicos poligonais. Também é apresentado as principais expectativas para trabalhos futuros.

(18)

17 17 17

2

Dados Simbólicos

Neste capítulo apresentamos um breve resumo sobre o estado da arte em ADS visitando os pontos mais importantes deste paradigma.

2.1 Visão Geral

Para ciências tais como estatística, mineração de dados, aprendizagem de máquina e outras, dados clássicos consiste na representação da informação da amostra ou população através de um ponto p-dimensional em Rp. Nesta forma de pensar diversas ferramentas foram desenvolvidas a fim de extrair informações úteis sobre os indivíduos.

A representação destas informações é feita através de uma tabela de dados conhecida como tabela de dados clássicos (BILLARD; DIDAY, 2007). No entanto, esta tabela apenas descreve variáveis quantitativas que podem ser discretas (Anos de estudo) ou contínuas (Altura) e qualitativas que podem ser nominais (Sexo) ou ordinais (Avaliação da prova)

como pode ser visto na Tabela 2.1.

Tabela 2.1: Tabela clássica

Cidade Indivíduo Anos de estudo Altura Sexo Avaliação da prova

C1 id1 20 1, 50 F BOM C1 id2 16 1, 61 M REGULAR C1 ⋮ ⋮ ⋮ ⋮ ⋮ C1 id10 13 2, 10 F RUIM ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ C100 id1 8 1, 50 F RUIM C100 id2 11 1, 91 M REGULAR C100 ⋮ ⋮ ⋮ ⋮ ⋮ C100 id10 5 1, 81 F RUIM

No exemplo mostrado na Tabela 2.1 tanto a amostra como o número de variáveis são muito pequenos e as consolidadas ferramentas desenvolvidas para dados clássicos extrai com facilidade as informações desejadas. Contudo, em extensas massas de dados, por

(19)

18 DADOS SIMBÓLICOS exemplo, um milhão de indivíduos e 200 variáveis as ferramentas utilizadas para dados clássicos necessitariam de um tempo inviável para serem calculadas.

Com objetivo de encontrar uma solução para este problema a ADS apresenta uma extensão para dados clássicos que se dá através de dados considerados de nível mais alto, ou seja, mais complexos e diversos. Consequentemente, a ADS trouxe para a ciência de dados uma nova maneira de pensar e aqueceu a ciência nesta direção. Estes estudos tem sido amplamente aceitos pela comunidade científica desde os impactos dos primeiros trabalhos realizados na segunda metade da década de 1980 (DIDAY, 1987).

Segundo Bock (2000) Aristóteles em Aristotle Organon afirma que os indivíduos podem ser considerados de primeira e segunda ordem. Indivíduos de primeira ordem são considerados como uma unidade associada com um indivíduo do mundo, os de segunda ordem, por sua vez, são unidades associadas a um conjunto de indivíduos. Para estudar indivíduos de segunda ordem podemos descrever cada variável através de histogramas, intervalos, etc.

Estes novos tipos de variáveis exigiram da comunidade científica novas ferramentas, por exemplo: medidas descritivas usuais como média, variância, correlação, distribuição de probabilidade, histogramas e outras foram recriadas para esta nova estrutura de dados (CARVALHO, 1995; BERTRAND; GOUPIL, 2000; BILLARD; DIDAY, 2003).

A Tabela 2.1, anteriormente mostrada, pode ser transformada em uma tabela simbólica, ou seja, os dados clássicos são modificados para dados de nível mais elevado assim, podemos representar as informações através de uma tabela simbólica (veja, Tabela 2.2). Nós podemos observar no exemplo mostrado na Tabela 2.2 que a variável Cidade é a classe de dados contendo entidades individuais (pessoas entrevistadas), as demais variáveis são simbólicas.

Tabela 2.2: Tabela simbólica

Cidade Anos de estudo Altura Sexo Avaliação da prova

C1 [13; 20] [1, 5; 2, 10] {(0, 6)F, (0, 4)M } {R, RE, B}

⋮ ⋮ ⋮ ⋮ ⋮

C100 [5; 11] [1, 5; 1, 91] {(0, 8)F, (0, 2)M } {R, RE, B}

Seja uma classe (categoria), a notação que a define é dada por ω ∈ S = {w1, . . . , wm}, onde m representa o número de classes. Toda classe possui uma lei que a define, por exemplo, na Tabela 2.2 para o indivíduo C1 e variável Anos de estudo todas as entidades

individuais que compõe a classe estão dentro do domínio D = {x ∣ x ∈ [13, 20]}, este domínio é chamado de descrição. Em outras palavras, classes são conjuntos de entidades que satisfazem a descrição da mesma.

(20)

19 DADOS SIMBÓLICOS

2.2 Tipos de dados simbólicos

Este paradigma apresenta diversos tipos de estruturas para dados em classes, por exemplo: variáveis multi-valoradas, variáveis intervalares, variáveis modais, histogramas de variáveis intervalares entre outras (DIDAY, 2016).

Uma variável aleatória X é dita multi-valorada quando pode assumir um ou mais valores em uma lista dentro do domínio D = {X ∶ ∣X(w)∣ < ∞, ∀w ∈ S}, onde S representa o espaço amostral, D pode ser categórico ou valores quantitativos. Por exemplo, considerando o primeiro indivíduo (u = 1) da variável Sexo, temos X(w1) =Xi(Avaliação da prova) = {R, RE, B} (veja, Tabela 2.2).

Dados simbólicos do tipo intervalo são geometricamente representados através de uma semi-reta [a, b] para a ≠ b, claramente podemos notar que a combinação de p variáveis do tipo intervalo são geometricamente representadas através de um hiper-retângulo p-dimensional, por exemplo, se p = 2 tem-se um retângulo gerado pela combinação de duas variáveis intervalares. Em geral, as escolhas tradicionais para representação dos intervalos são [min, max], [centro, amplitude] e outras.

Os dados podem ser naturalmente intervalares como por exemplo, mensurar a temperatura de uma determinada região neste caso, podemos dizer que a X(temperatura) = (25, 28), outra forma é através de tabelas clássicas como a variável Anos de estudo da Tabela 2.1 que foi transformada em intervalo, em que au=min xi

i∈Ωu

e bu=max xi i∈Ωu

, onde Ωu é o conjunto de valores de i ∈ Ω contidos na categoria wu.

Se X é uma variável modal, então ela assume valores {ηkk = 1, 2, . . .} para um domínio χ, então X(wu) = {ηk, πkk = 1, . . . , su} para uma observação u ∈ S, em que πk é uma medida não negativa diretamente associada com ηk e su é o número de entidades em χ. ηk pode assumir valores categóricos ou quantitativos e pode ser infinito ou finito. A medida πk, em geral, são pesos, probabilidades, credibilidades etc. Um exemplo pode ser visto na variável Sexo da Tabela 2.2.

A variável X dita do tipo histograma se é quantitativa com um número finito de intervalos que não se sobrepõe, isto é, {[ak, bk), k = 1, 2, . . .} em que akbk. Assim, para uma observação wu, temos que Y (wu) = {[ak, bk), pkk = 1, . . . , su}, onde su< ∞ é um número finito de intervalos que gera o suporte de Y (wu) e puk é o peso do subintervalo [auk, buk), k = 1, . . . , su com ∑su

k=1puk=1. As variáveis do tipo histogramas são construídas a partir da discretização de variáveis numéricas (CARVALHO, 1995).

Uma coleção de estudos sobre o tema pode ser vista na publicação editada por Bock (BOCK, 2000). Neste livro os autores apresentam, além dos estudos citados, análise de cluster (CHAVENT et al., 2006). Como leitura complementar a esta, podemos citar: Symbolic Data Analysis: Conceptual Statistics and Data Mining (BILLARD; DIDAY, 2007) e Symbolic Data Analysis and the SODAS Software (DIDAY; NOIRHOMME-FRAITURE, 2008).

(21)

20 DADOS SIMBÓLICOS

2.3 Conceitos e Objetos Simbólicos

2.3.1 Conceitos

A fim de estudar as noções de conceitos e objetos simbólicos uma série de trabalhos foram publicados por Diday e cooperadores (DIDAY, 1989; DIDAY, 1990; BOCK, 2000). Por definição, um conceito é um conjunto de atributos e um caminho para encontrar o seu próprio conjunto de objetos (BILLARD; DIDAY, 2007).

O conjunto de objetos de um conceito é constituído de unidades categóricas que satisfazem as propriedades de um conjunto de atributos. Uma categoria, por sua vez, é modelada por uma descrição simbólica destes atributos, ou seja, pelo domínio da variável simbólica.

2.3.2 Objetos Simbólicos

Um objeto simbólico é a tripla s = (a, R, d), em que a é o mapeamento a ∶ Ω → L que mapea os indivíduos i ∈ Ω para o espaço L e a é denominado asserção. R expressa a relação de dependência (podendo ser estatística ou não) entre a descrição de i na descrição d.

Dois tipos de objetos são definidos, a saber: objetos simbólicos booleanos e modais. Basicamente, dizemos que o objeto simbólico é booleano se o mapeamento de Ω → {0, 1}, isto é, a(i) = 1, caso contrário, a(i) = 0 para todo i ∈ Ω (outra forma de representar a para uma variável simbólica X é dada por [XRd]). Um objeto simbólico é dito modal se o mapeamento Ω → [0, 1].

Objetos simbólicos desempenham um papel importante nas três principais formas dentro do âmbito da ADS. Primeiramente, podem representar um conceito e podem ser utilizados como entrada de uma ADS, por exemplo, na Tabela 2.2 um conceito A = {indivíduos que avaliaram a prova como no máximo regular} pode ser representado por um objeto simbólico cujo conjunto de atributos é definido por uma descrição em particular, além disso, o objeto simbólico é um caminho para encontrar o conjunto de objetos que satisfaz A.

Em segundo lugar, podem ser utilizados como saída para uma ADS como um cluster em particular, onde o cluster em si mesmo pode ser considerado como um conceito e ser representado como um objeto simbólico. Em terceiro lugar, quando queremos verificar se um novo indivíduo (i) com uma determinada descrição (d′) possui descrição igual a um objeto anterior (d). Isto é, a comparação de d e dé dada por [dRd] ∈ {0, 1}. O indivíduo novo pode ser o antigo com alguma atualização.

Podemos observar, por fim, que existem dois tipos de conceitos, conceitos do mundo real formados pelo conjunto de atributos e objetos que existem ou existirão no mundo real e conceitos abstratos que modelam nossa mente, imaginação (BOCK, 2000).

(22)

21 DADOS SIMBÓLICOS Semelhantemente a forma humana de pensar, os objetos simbólicos modelam os conceitos através das descrições e asserções. Segundo Diday, alguns filósofos caracterizam conceitos pelo conjunto de indivíduos similares, além disso, a Figura 2.1 mostra que ADS considera todos os pilares anteriormente mencionados (BILLARD; DIDAY, 2007).

Figura 2.1: Modelagem por um objeto simbólico de um conceito conhecido por seu

(23)

22 22 22

3

Dados Simbólicos Poligonais

Neste capítulo apresentamos os principais conceitos utilizados para definir a teoria para variáveis simbólicas poligonais, a saber: conceitos importantes, distribuição de probabilidade, medidas descritivas, histograma, alguns casos particulares de polígonos, um método de agregação e uma proposta para representação de variáveis poligonais.

3.1 Variáveis Simbólicas Poligonais

Um conjunto S em Rn é convexo se um segmento conectando quaisquer dois pontos em S está completamente contido no conjunto S. Matematicamente, para quaisquer x1, x2∈S, o conjunto de todos os pontos λx1+ (1 − λ)x2S para 0 ≤ λ ≤ 1. Uma família de n pontos (x1, . . . , xn) em Rd é dita ser linearmente independente se a combinação linear ∑ni λixi=0 se λ1=. . . = λn=0. A independência afim é equivalente dizer que nenhum ponto é combinação afim dos demais pontos.

Um conjunto que é um fecho convexo de conjuntos não vazios é denominado politopo regular, além disso, este conjunto é um compacto. Em geral, a estrutura das faces de um politopo convexo são consideravelmente mais simples que conjuntos convexos (BRONDSTED, 1982). Um politopo P = conv{x1, . . . , xn}é chamado k−politopo se dimP = k. Isto significa dizer que alguma (k + 1) subfamília de (x1, . . . , xn)é linearmente independente, mas uma (k + 2) subfamília não é linearmente independente.

Um 2−politopo é conhecido como polígono, isto é, uma figura plana que é limitada por uma cadeia finita de segmentos de reta conectados um ao final do outro formando uma superfície fechada. Estes segmentos são chamados de lados e o ponto onde se encontram dois lados é denominado de vértices. Um polígono apresenta uma quantidade de lados igual ou superior a três e recebem um nome especial, por exemplo, n = 3 é chamado de triângulo, n = 4 é um quadrilátero, n = 5 pentágono etc.

Seja P1(a1, b1)a representação de um ponto em R2, onde a, b ∈ R então, um conjunto de pontos em R2 pode ser descrito como P = {(a1, b1), . . . , (al, bl)}, dizemos que P forma um polígono se l ≥ 3 e forma um fecho convexo. Então, se P = {(a1, b1), (a2, b2), (a3, b3)}dizemos que P é um triângulo (Figura 3.1), se P = {(a1, b1), (a2, b2), (a3, b3), (a4, b4)}dizemos que P é um quadrilátero (Figura 3.2) e assim sucessivamente.

(24)

23 DADOS SIMBÓLICOS POLIGONAIS (a , b )1 1 D1 D2 (a , b )2 2 (a , b )3 3 y x r2 r3 r1

Figura 3.1: Descrição através de um triângulo

(a , b )1 1 (a , b )4 4 (a , b )3 3 y x (a , b )2 2

Figura 3.2: Descrição através de um quadrilátero

Baseados no conceito de polígonos esta dissertação visa apresentar um novo tipo de variável simbólica denominada de variável simbólica poligonal. Este tipo de variável tem como descrição um polígono, isto é, o domínio que descreve a variável simbólica poligonal é um polígono.

Dessa forma, Z é uma variável aleatória simbólica poligonal quando toma valores num polígono Z = ξ = {(a1, b1), . . . , (al, bl)} ⊂R2(onde ξ são os valores que a variável aleatória simbólica pode assumir) e os segmentos de reta que passa por todos os pontos formam um polígono. Outra forma de representar a variável é Z = ξ = (ξ1, ξ2), onde ξ1= {a1, . . . , al} e ξ2= {b1, . . . , bl}, ou seja, os valores que a variável pode assumir no eixo das abcissas e no eixo das coordenadas, respectivamente.

Fazemos duas menções importantes para esclarecimento da abordagem apresentada nesta dissertação,a saber:

∎ O novo tipo de variável para dados simbólicos proposto nesta dissertação é

diferente de números fuzzy. Esta teoria considera a subjetividade e a experiência dos profissionais, e é capaz de capturar informações imprecisas, descritas em linguagem natural, e convertê-las para um formato numérico, visando efetuar um raciocínio aproximado, com proposições imprecisas, através de conjuntos fuzzy (HANSS, 2005). Apesar destes apresentarem forma triangular ou trapezoidal por exemplo, esta forma é sobre uma função, chamada de função de pertinência

(25)

24 DADOS SIMBÓLICOS POLIGONAIS (LEE, 2005) diferentemente da abordagem das variáveis poligonais em que o

domínio da variável é um polígono.

∎ De igual modo, variáveis do tipo polígono são diferentes de dados poligonais,

este último é utilizado através de medidas de latitude e longitude podendo ser convexos ou não-convexos e estão dispostos disjuntamente num mapa geográfico (CRESSIE, 1993; HAINING, 2003).

3.1.1 Transformação de dados clássicos em dados do tipo polígono

Existem bases de dados que necessitam um alto poder de processamento para serem processados. Isto acontece principalmente devido o grande número de observações, em alguns casos esta grande quantidade de dados torna a manipulação e extração de conhecimento inviável. Em muitos casos agregar estes dados é a melhor solução para este problema. Além disso, é uma importante ferramenta para a tomada de decisão em ciência de dados (veja, (KIMBALL; ROSS, 2013)), em telecomunicação (veja, (MHATRE; ROSENBERG, 2004)) e outras.

Em ADS, Diday descreve que há basicamente dois tipos de classes e as mesmas apresentam tipos de variabilidade dependente dos indivíduos ((DIDAY, 2016)), a saber:

∎ Variabilidade para uma entidade: Dados padrões, por exemplo, dados

longitudi-nais (FITZMAURICE NAN M. LAIRD, 2011) ou dados com medidas repetidas (HAND, 1987). Estes dados são agregados por um rótulo, por exemplo, peso de ratos medidos diversas vezes para cada rato (isto é, os ratos são os rótulos). Neste caso, por exemplo, os valores do centro e raio da Equação (3.1) são calcu-lados para cada rótulo, isto transforma os dados padrões em dados simbólicos poligonais;

∎ Variabilidade entre diferentes indivíduos: Neste caso cada classe é um conjunto

de entidades. Neste caso, por exemplo, os valores do centro e do raio da Equação (3.1) são calculados para cada conjunto de entidades, isto é, existe mais de um indivíduo compondo as medidas.

Podemos supor que número de entidades individuais em uma classe é n então, podemos construir um polígono com número de lados l ≤ n contudo, quando l = n a melhor forma de analisar os dados é através da estatística clássica, pois não traz nenhuma vantagem para o pesquisador aplicar transformações para analisá-los. A fim de agregar os dados clássicos e transformá-los em variáveis simbólicas poligonais, podemos propor a transformação da classe em um polígono com número de lados l < n.

Diante disto, nós propomos um método de representação para dados simbólicos poligonais baseados no [centro, raio]. Esta representação é apta para representar uma

(26)

25 DADOS SIMBÓLICOS POLIGONAIS classe específica de polígonos, polígonos regulares. Desta forma, os dados em classe podem ser representados através de apenas dois valores, e estes são utilizados para construir um polígono regular com a quantidade de lados desejada pelo pesquisador (l ≤ n).

Pelo conceito de classes mencionado, nós propomos dois métodos de agregação para dados através da construção de um polígono regular de l lados baseados na representação [centro, raio], este polígono está inscrito numa circunferência, onde o centro dos dados é o Centro de Gravidade (CG) do polígono. A construção do polígono pode ser feita através de uma mudança de espaço assim, transformamo uma variável unidimensional em bidimensional, para isto, utilizamos coordenas polares.

Seja Pj, Qj e rj medidas utilizadas para construir o polígono dado por

Pji= (Qj1+rjcos ( 2πi

l ), Qj2+rjsin ( 2πi

l )), (3.1)

onde o vetor Qj expressa as coordenadas do centro e rj os raios da circunferência, respectivamente, com j = 1, . . . , m e m ∈ S representando o número de classes (ou categorias), isto é, o número de polígonos a serem construídos. E Pjirepresenta os pontos que constroem o polígono regular com i = 1, . . . , l, onde l ∈ N > 2 representa o número de lados do polígono.

Seja Xk uma variável aleatória clássica, onde k = 1, . . . , n e n é o número de entidades individuais dentro da classe. Então, duas propostas para agregação podem ser vistas:

(1) Seja o centro do polígono Qj= (Qj1, Qj2) = (media{Xk}, media{Xk}) e um ponto Pj = (max{∣Xk∣}, max{∣Xk∣}) então, nós definimos o raio como rj = dist(Pj, Qj)), onde dist é definido como a distância euclidiana;

(2) Seja o centro do polígono dado por (Qj1, Qj2) = (media{Xk}, media{Xk})e o raio por rj=Var (Xk).

A principal vantagem de agregar os dados através desta abordagem é a quantidade de informação armazenada se comparada com o método tradicional de agregação [min, max] (BILLARD; DIDAY, 2007). Além disso, este método garante que o polígono gerado é

convexo respeitando a hipótese de ser não auto-intersectável.

Para ilustrar a transformação de dados clássicos em simbólicos poligonais seja a Tabela 3.1 composta por dados clássicos reais que contem informações sobre a liga feminina norte americana de basquetebol no ano de 2014 (WNBA - Women’s National Basketball Association) (WINNER, 2017).

(27)

26 DADOS SIMBÓLICOS POLIGONAIS Tabela 3.1: Dados clássicos WNBA

player team points opp points minutes fgatt points efficiency

Alana Beard 69 76 19 2 0 0 Alana Beard 80 69 27 12 17 18 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Alana Beard 77 65 25 5 4 7 Alex Bentley 54 75 15 11 10 5 Alex Bentley 87 90 13 5 2 -3 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Alex Bentley 84 55 23 16 19 17 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Walteia Rolle 74 80 2 0 0 1 Walteia Rolle 67 76 5 1 2 2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Walteia Rolle 65 78 19 1 0 6

Arbitrariamente selecionamos três variáveis para mostrar a transformação: team points foi transformada em uma variável simbólica poligonal triangular; a variável opp points em uma variável simbólica do tipo quadrilátero; e a variável minutes foi transformada em uma variável do simbólica do tipo pentágono. A Tabela 3.2 mostra as medidas para o centro e para o raio para as variáveis citadas.

Tabela 3.2: Medidas para construção do polígono

player medidas team points opp points minutes

Alana Beard centro 77,2 78,1 27,7

var 82,6 164,2 40,1

Alex Bentley centro 75,7 77,5 25,6

var 104,6 124,5 38.8

⋮ ⋮ ⋮ ⋮ ⋮

Walteia Rolle centro 71,7 74,0 10,8

var 76,7 36,4 135,7

Então, a partir da Tabela 3.2 podemos construir os vértices que formam os polígonos através da Equação 3.1. Para a jogadora Alex Beard (j = ω = 1), a variável team points é dada por P1i= (77, 2 + 82, 6 cos ( 2πi 3 ); 77, 2 + 82, 6 sin ( 2πi 3 )),

(28)

27 DADOS SIMBÓLICOS POLIGONAIS transformada em uma variável simbólica poligonal quadrilátera é

P2i= (77, 5 + 124, 5 cos (

2πi

4 ); 77, 5 + 124, 5 sin ( 2πi

4 )),

para todo i = 1, 2, 3, 4. Já para a jogadora Walteia Rolle (j = ω = 152), a variável minutes transformada em uma variável poligonal pentagonal é dada por

P2i= (10, 8 + 135, 7 cos (

2πi

5 ); 10, 8 + 135, 7 sin ( 2πi

5 )),

para todo i = 1, 2, 3, 4, 5. O resultado da transformação das três variáveis citadas podem ser vistas em detalhes na Tabela 3.3.

Seja Z uma variável aleatória simbólica poligonal então a descrição de um indivíduo u é dada por

Zωu=ξu= {(au1, bu1), . . . , (aul, bul)}

Logo, seja a variável Z1 (team points) então, a descrição do indivíduo u = 1, Alana

Beard, (veja, Tabela 3.3) é dada por

Z(ω1) = {(59, 74; 107, 56), (59, 74; 46, 92), (112, 25; 77, 24)},

e para a variável Z3 (opp points) a descrição do indivíduo u = 152, Walteia Rolle, (veja,

Tabela 3.3) é dada por

Z3(ω152) = {(19, 65; 37, 95), (−12, 23; 27, 60), (−12, 24; −5, 93), (19, 65; −16, 29), (39, 35; 10, 83)}

3.2 Conceitos Importantes - Física

O movimento de todas as partículas que formam a massa de um corpo apresentam o mesmo tipo de movimento que coincide com o movimento de uma das partículas. É importante mencionar que nem todas as partículas que geram a massa de um corpo tem o mesmo movimento. O conjunto de partículas que considera os movimentos de cada componente é conhecido como sistema de partículas.

Caso um sistema de partículas apresente movimento de translação, comportando-se como uma partícula cuja massa coincide com toda a massa do sistema e situa-se em um ponto especial do corpo ou fora dele, este ponto é denominado Centro de Massa (CM). Além disso, o CM de um corpo é intrínseco a ele e independe de fatores externos porém, depende de sua densidade. Caso o corpo possua densidade uniforme podemos afirmar que o CM do corpo localiza-se sobre o eixo de simetria.

Outro ponto importante é o CG, ponto este onde passa a resultante das forças gravitacionais que atuam em cada elemento de área. Isto é, como se toda a massa de um

(29)

28 DADOS SIMBÓLICOS POLIGONAIS T ab ela 3.3: V ariá v eis do tip o p olígono Nome da v ariá v el pla y er -team p oin ts Alana Beard {( 59 ,74; 107 ,56 ) ,( 59 ,74; 46 ,92 ) ,( 112 ,25; 77 ,24 )} Alex Berkley {( 61 ,30; 100 ,57 ) ,( 61 ,30; 50 ,78 ) ,( 104 .42; 75 ,68 )} ⋮ ⋮ W alteia Rolle {( 60 ,12; 91 ,67 ) ,( 60 ,12; 51 ,66 ) ,( 94 ,76; 71 ,67 )} opp p oin ts Alana Beard {( 78 ,09; 110 ,49 ) ,( 45 ,69; 78 ,09 ) ,( 78 ,09; 45 ,69 ) ,( 110 ,49; 78 ,09 )} Alex Berkley {( 77 ,50; 110 ,73 ) ,( 44 ,26; 77 ,50 ) ,( 77 ,50 ,44 ,26 ) ,( 110 ,73; 77 ,50 )} ⋮ ⋮ W alteia Rolle {( 74 ,00; 82 ,48 ) ,( 65 ,51; 74 ,00 ) ,( 74 ,00; 65 ,51 ) ,( 82 ,48; 74 ,00 )} min utes Alana Beard {( 36 ,15; 53 ,65 ) ,( 5 ,68; 43 ,75 ) ,( 5 ,68; 11 ,71 ) ,( 36 ,15; 1 ,80 ) ,( 54 ,98; 27 ,73 )} Alex Berkley {( 29 ,28; 36 ,89 ) ,( 16 .03; 32 ,58 ) ,( 16 .03; 18 ,65 ) ,( 29 ,28; 14 ,34 ) ,( 37 ,4725 ,62 )} ⋮ ⋮ W alteia Rolle {( 19 ,65; 37 ,95 ) ,( − 12 ,23; 27 ,60 ) ,( − 12 ,24; − 5 ,93 ) ,( 19 ,65; − 16 ,29 ) ,( 39 ,35; 10 ,83 )}

(30)

29 DADOS SIMBÓLICOS POLIGONAIS corpo se concentrasse em um determinado ponto (veja, Figura 3.3). Além disso, se as forças forem uniforme o CG é igual ao CM.

y

x

X

g

Y

g

Figura 3.3: Centro de gravidade

A localização do CG é dada pelas coordenadas de Xg e Yg que são obtidas através da relação entre o respectivo momento de área e a área total da superfície (HALLIDAY; RESNICK; WALKER, 2013). Em que o primeiro momento de área (ou primeiro momento estático) para um sistema contínuo de partículas em relação aos eixos X e Y é dado por

CX = ∫

AydA CY = ∫AxdA, (3.2)

então, o CG é dado por

(Xg, Yg) = (∫A xdAAdA ,AydAAdA ) (3.3)

onde dA expressa o infinitesimal elemento de área. Se a superfície for um polígono de N lados podemos reduzir a Equação (3.3) a

(Xg, Yg) = ( 1 6A Ni=1 (xi+xi+1)(xiyi+1−xi+1yi), 1 6A Ni=1 (yi+yi+1)(xiyi+1−xi+1yi)) (3.4) onde xn+1=x1, y0=yn and yn+1=y1 forma um polígono (HECKBERT, 1994).

O segundo momento de área, por definição, de uma superfície para X e Y é dado pela expressão IX = ∫Ay2dA e I

Y = ∫Ax2dA. Trantando-se de polígonos com N lados, as equações acima podem ser reescritas como

(31)

30 DADOS SIMBÓLICOS POLIGONAIS IX= 1 12 Ni=1 (y2i+yiyi+1+yi2+1)(xiyi+1−xi+1yi) IY = 1 12 Ni=1 (x2i+xixi+1+x2i+1)(xiyi+1−xi+1yi), (3.5)

O segundo momento de área conjunto xy para um polígono é dado por

IXY = 1 24 Ni=1 (aibi+1+2aibi+2ai+1bi+1)(aibi+1−ai+1bi). (3.6) um estudo detalhado sobre o assunto pode ser visto em Statics and mechanics of materials (HIBBELER, 2004) e On the calculation of moments of polygons (STEGER, 1996).

3.3 Distribuição de Probabilidade

Baseados na hipótese de equidistribuição para dados intervalares (BILLARD; DIDAY, 2007), seja a hipótese de equidistribuição para variáveis poligonais dada em dois passos, a saber:

(1) Cada observação u ∈ S é equiprovável, isto é, cada observação u ∈ S é selecionada com probabilidade 1/m;

(2) Nós definimos que Zu é um polígono para cada u ∈ S e Zu segue distribuição uniforme no polígono.

Além da hipótese de equidistribuição outra hipótese igualmente necessária é que o polígono em estudo seja não auto-intersectável, a fim de aplicarmos as ferramentas matemáticas adequadas.

Seja (Ω, A, P ) um espaço arbitrário de probabilidade e seja Z = ξ = (ξ1, ξ2) uma função de valor real em Ω, nós definimos Z como uma distribuição uniforme no polígono P não auto-intersectável dada por

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, ξ1<a1 ou ξ2<b1, 1−a1)(ξ2−b1) A , se a1≤ξ1≤b2, e a1≤ξ2≤b2, 1, caso contrário.

Sabendo que a distribuição segue a hipótese de equidistribuição, nós definimos a mistura de distribuições uniformes poligonais dada por

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, ξ1<a1 ou y < b1, 1

mu∈S(ξ1−au,1A)(ξu2−bu,1), se au1x < au2, e bu1y < bu2,

1, caso contrário.

(32)

31 DADOS SIMBÓLICOS POLIGONAIS Calculando as derivadas da Equação (3.7) (veja, Equação A.4), nós temos a Função de Distribuição de Probabilidade (FDP) empírica para a mistura de m distribuições uniformes num polígono qualquer não auto-intersectável dada por

fZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎩ 1 mu∈S A1u, se ξ ∈ P , 0, caso contrário. (3.8) 3.4 Medidas Descritivas

Nesta seção nós apresentamos as medidas descritivas para variáveis poligonais, por exemplo, média, variância, covariância, correlação e coeficiente de variação, além disso, nós apresentamos o histograma.

3.4.1 Média

Considerando que a Função de Distribuição Acumulada (FDA) dada pela Equa-ção (3.7) e que o primeiro momento estatístico coincide com o centro de gravidade, nós apli-camos o modelo de mistura e propomos que a média poligonal empírica, (Xg, Yg) = ( ¯X, ¯Y ), seja dada por

Z = ( 1 6mu∈S

Ni=1

(au,i+au,i+1)(au,ibu,i+1−au,i+1bu,i) Au , 1 6mu∈S Ni=1

(bu,i+bu,i+1)(au,ibu,i+1−au,i+1bu,i) Au

).

(3.9)

3.4.2 Variância

Sabendo que a FDA é dada pela Equação (3.7) e que o segundo momento de área é igual ao segundo momento estatístico, nós aplicamos o modelo de mistura de densidades uniformes no polígono expresso na Equação (3.8) e derivamos o segundo momento empírico para Z (M2(Z) = (M2(ξ1), M2(ξ2))) dado por

M2(Z) = ⎛ ⎝ 1 12mu∈S Ni=1

(a2u,i+au,iau,i+1+a2u,i+1)(au,ibu,i+1−au,i+1bu,i) Au , 1 12mu∈S Ni=1

(b2u,i+bu,ibu,i+1+b2u,i+1)(au,ibu,i+1−au,i+1bu,i) Au

⎞ ⎠

(3.10)

Substituindo Equação (3.9) e Equação (3.10) nós obtemos a variância empírica (Sξ12 , Sξ22 ), onde Sξ12 =M2(ξ1) −ξ1

2

, Sξ22 =M2(ξ2) −ξ2

2

(33)

32 DADOS SIMBÓLICOS POLIGONAIS

3.4.3 Covariância

Pelo segundo momento de área conjunto mostrado na Equação 3.6 e pela hipótese de equidistribuição, nós propomos o segundo momento conjunto empírico para ξ1ξ2 dado

por M (ξ1ξ2) = 1 24mu∈S Ni=1

(au,ibu,i+1+2au,ibu,i+2au,i+1bu,i+1)(au,ibu,i+1−au,i+1bu,i) Au

. (3.11)

Assim, a covariância empírica é obtida substituindo a Equação (3.11) e Equação (3.9) em Cov(ξ1, ξ2) =M (ξ1ξ2) −ξ1ξ2.

3.4.4 Correlação e Coeficiente de Variação

A correlação empírica é definida pela razão entre a covariância empírica e o produto do desvio parão empírico de ξ1 e ξ2 dado por rξ1ξ2=Cov(ξ1, ξ2)/

Sξ2

1S

2

ξ2. O coeficiente de variação de ξ1 e ξ2 é dado pela razão entre o quadrado da variância e a média.

3.4.5 Histograma

Seja um super retângulo que contem todos os polígonos R0

def

= [α0, αr] × [β0, βr]. A frequência observada para o histograma bivariado no sub-retângulo Rg= [αg−1, αg] × [βg−1, βg], g = 1, . . . r, onde r é o número de sub-retângulos que compõem o gride do histograma é dada por

fg= ∑

u∈S

area(Z(u) ∩ Rg)

area(Z(u)) . (3.12)

Além disso, a frequência relativa é calculada como

pg= fg m,

onde pg é probabilidade de um indivíduo em S está no sub-retângulo Rg. O histograma para a variável poligonal Z é a representação gráfica de {(Rg, fg), g = 1, . . . , r}. Dessa forma, se desejarmos ilustrar graficamente o histograma com altura fg sob o sub-retângulo Rg, então o volume é pg dado por

pg= (αgαg−1) × (βgβg−1) ×fg. (3.13) Seja a regra do ponto médio (STEWART, 2007) dada por

fmed= 1

area(R)Rf (x, y)dArea, (3.14)

(34)

33 DADOS SIMBÓLICOS POLIGONAIS Assim, aplicando a regra do ponto médio na Equação (3.13) temos que a frequência relativa pg é o volume de um sólido com base no sub-retângulo Rg. Então, quando m → ∞ a área de cada sub-retângulo é tão pequena que o volume de pg na Equação (3.13) é igual ao volume sob a curva fZ(z).

Adicionalmente, para melhor visualização do histograma recomendamos que o número de sub-retângulos seja m × m, onde m é o número de observações da amostra. No entanto, esta quantidade de sub-retângulos pode ter alto custo computacional se o tamanho amostral for muito grande, neste caso, o projetista pode selecionar um número que otimize o tradeoff resolução vs custo computacional.

3.5 Casos Particulares

3.5.1 Triângulo

Seja Z uma variável aleatória simbólica poligonal cuja descrição é um triângulo (veja, Figura 3.1). Nós calculamos a média empírica aplicando a Equação (3.9) . Então a

média empírica é dada pela expressão,

(ξ1, ξ2) = ( 1 mu∈S au1+au2+au3 3 , 1 mu∈S bu1+bu2+bu3 3 ). (3.15)

Para obter a variância empírica para o triângulo nós aplicamos os vértices do triângulo na equação Equação (3.10) e calculamos o segundo momento empírico para Z (M2(Z) = (M2(ξ1), M2(ξ2))) dado por M2(Z) = ( 1 12mu∈S(a 2 u1+a2u2+a2u3+au1au2+au1au3+au2au3) 1 12mu∈S(b 2 u1+b2u2+b2u3+bu1bu2+bu1bu3+bu2bu3)) (3.16)

Então, a variância empírica para o triângulo é dada pela substituição da Equa-ção (3.16) e (3.15) em Sξ2 1=M2(ξ1) −ξ1 2 , Sξ2 2=M2(ξ2) −ξ2 2 . 3.5.2 Quadrilátero

Seja Z uma variável simbólica do tipo polígono e sua descrição e um quadrilátero (veja, Figura 3.2). Pela equação Equação (3.9) neste polígono nós calculamos a média

(35)

34 DADOS SIMBÓLICOS POLIGONAIS empírica para a variável, dada por

ξ1= 1 6mu∈S

1 Au

[(au,1+au,2)(au,1bu,2au,2bu,1)

+ (au,2+au,3)(au,2bu,3au,3bu,2) + (au,3+au,4)(au,3bu,4au,4bu,3) +(au,4+au,1)(au,4bu,1au,1bu,4)]

ξ2= 1 6mu∈S

1 Au

[(bu,1+bu,2)(au,1bu,2au,2bu,1)

+ (bu,2+bu,3)(au,2bu,3au,3bu,2) + (bu,3+bu,4)(au,3bu,4au,4bu,3) +(bu,4+bu,1)(au,4bu,1au,1bu,4)]

(3.17)

Considerando Z, nós podemos obter o segundo momento empírico para Z dado por

M2(Z) = ( 1 12mu∈S

1 Au

[(a2u,1+au,1au,2+au,22 )(au,1bu,2au,2bu,1)

+ (a2u,2+au,2au,3+au,32 )(au,2bu,3au,3bu,2) + (a2u,3+au,3au,4+au,42 )(au,3bu,4au,4bu,3) +(a2u,4+au,4au,1+au,12 )(au,4bu,1au,1bu,4)], 1

12mu∈S 1 Au

[(b2u,1+bu,1bu,2+au,22 )(au,1bu,2au,2bu,1)

+ (b2u,2+bu,2bu,3+bu,32 )(au,2bu,3au,3bu,2) + (b2u,3+bu,3bu,4+bu,42 )(au,3bu,4au,4bu,3)

+(b2u,4+bu,4bu,1+bu,12 )(au,4bu,1au,1bu,4)])

(3.18)

Então a variância é dada pela substituição da Equação (3.18) e (3.17) em Sξ12 =M2(ξ1) −ξ1

2

, Sξ22 =M2(ξ2) −ξ2

2

.

As medidas descritivas definidas por (BILLARD; DIDAY, 2007) para variáveis intervalares bidimensionais é um caso particular dos polígonos aqui representados quando os pontos a3=a2, a4=a1 e b1=b2, b3=b4. Além disso, podemos observar que quando ξ1 e ξ2 são uniformes no intervalo (0, 1) a média é E(ξ1) =E(ξ2) =1/2 e a variância empírica é Var(ξ1) =Var(ξ2) =1/12, mostrando que o método é coerente com a distribuição uniforme e os princípios usados por (BILLARD; DIDAY, 2007).

3.5.3 Círculo

Seja (Ω, A, P ) um espaço de probabilidade arbitrário e seja Z uma variável aleatória uniformemente distribuída num círculo de raio R. Assim a expressão matemática para

(36)

35 DADOS SIMBÓLICOS POLIGONAIS FDA é dada por

FZ(ξ) = 1 πR2∬

B1AdA,

onde A representa o círculo e B = {(ξ1, ξ2) ∣ − ∞ <ξ1x1, −∞ < ξ2y1} (veja, Figura 3.4). Após alguns passos a expressão que descreve a FDA é dada por

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, se ξ1< −R, ξ2< − √ R2x2 2+ √ R2−ξ2 1)(ξ1+R) πR2 , se ∣ξ1∣ ≤R, ∣ξ2∣ ≤ √ R2ξ2 1 1, caso contrário

Baseado no método de mistura, a mistura de distribuições uniforme no círculo é

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, se ξ1u< −Ru, ξ2u< − √ R2 uξ1u2 1 mu∈S (ξ2u+ √ R2 u−ξ21u)(ξ1u+Ru) πR2 u , se ∣ξ1u∣ ≤Ru, ∣ξ2u∣ ≤ √ R2 uξ1u2 1, caso contrário. (3.19)

Teorema 1. Se Z é uma variável simbólica poligonal com FDA dada pela Equação (3.19)

e {WN}∞N=3 é uma sequência de variável aleatória com FDA dada pela Equação (3.7) e cada W (ωu)é um polígono regular, então WN ÐDZ.

Demonstração. Sem perda de generalidade, podemos assumir que u = 1 (apenas uma amostra de S). Pelos estudos de Euclides (HEATH, 2010) um polígono de N lados quando N → ∞ converge para um círculo, então A1 da Equação (3.7) converge para πR21. Seja

[a1, a2] × [b1, b2] os limites do polígono nas coordenadas ξ1 e ξ2, então para o polígono nós podemos considerar que a1= −R, a2=R, b1= −

R2ξ2 1, b2= √ R2ξ2 1 e reescrever a Equação (3.7) como FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, se ξ1< −R1, ξ2< − √ R21ξ12 2+ √ R2 1−ξ12)(ξ1+R1) πR2 1 , se ∣ξ1∣ ≤R1, ∣ξ2∣ ≤ √ R21ξ12 1, caso contrário.

Pelo Teorema 1, nós podemos calcular a média empírica para o círculo, dada por

(ξ1, ξ2) = ( 1

6mu∈Scu1, 1

6mu∈Scu2). (3.20)

(37)

36 DADOS SIMBÓLICOS POLIGONAIS dado por M2(Z) = ( 1 12mu∈S[c 2 u1+ Ru2 4 ], 1 12mu∈S[c 2 u2+ R2 u 4 ]). (3.21)

Então, a variância empírica para o círculo é dada pela substituição da Equação (3.20) e (3.21) em (S2 ξ1, Sξ22), onde Sξ12 =M2(ξ1) −ξ1 2 , S2 ξ2 =M2(ξ2) −ξ2 2 . Detalhes sobre as demonstrações da FDP, média e segundo momento empírico pode ser visto no Apêndice A.

y x Xg Yg ,X1) (Y1

Figura 3.4: Domínio da FDA do círculo

3.6 Relação entre Dados Poligonais e Intervalares

Dados poligonais são de natureza diferente de dados simbólicos intervalares, pois apresentam uma estrutura de covariância interna sob uma distribuição poligonal, ou seja, são correlacionados bidimensionalmente considerando a distribuição no polígono. Desta forma, não é eficiente modelar este tipo de dados simbólicos através de intervalos. Pois sabemos que a combinação de p variáveis aleatória intervalares possuem a forma geométrica de um hiper-retângulo em Rp formado a partir de variáveis independentes.

A combinação de p variáveis do tipo polígono, por sua vez, formam um politopo de dimensão 2p. Isso acontece, pois o produto cartesiano de politopos P e Q são também politopos. Os vértices são pares de vértices (p, q), onde p é o vértice de P e q é o vértice de P . De fato, se temos dois politopos, em que P ⊂ Rn e Q ⊂ Rm então, todas as faces de P × Q são ainda o produto cartesiano das faces de P e Q. Isto pode ser visto através da descrição de um hiperplano: Os hiperplanos utilizados para definir P × Q são os mesmos que para P e Q, mas agora eles estão usando conjuntos disjuntos de variáveis. Então, se F ⊂ P × Q é uma face então, as primeiras n coordenadas de quaisquer pontos em F ainda satisfaz igualmente para a mesma face de P e as últimas m coordenadas de quaisquer pontos em F ainda satisfaz a igualdade para a mesma face de Q.

(38)

37 DADOS SIMBÓLICOS POLIGONAIS que o compõe então, se ignorarmos a covariância interna poligonal e aplicarmos as técnicas intervalares estamos superestimando as medidas poligonais, a Figura 3.5 ilustra a discussão. Em detalhes, podemos verificar que a representação através de intervalos é insuficiente para compreender o comportamento de dados dispostos em superfícies poligonais como triângulos, pentágonos, círculos e até quadrados especiais como o losango.

Figura 3.5: Relação entre polígonos regulares e quadrados

Todas as medidas calculadas a partir do pressuposto de uniformidade no intervalo consideram a área do polígono acrescentado da área em cinza como mostra a Figura 3.5. Dessa forma, podemos calcular a área de superestimação que é dada pela área do quadrado (Aq) menos a área do polígono (Ap) As=AqAp. Ou seja,

As= 1 2 ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ 4 ∑ i=1 yi(xi+1−xi−1) − Nj=1 yj(xj+1−xj−1) ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ (3.22) onde i representa o número de lados do quadrado, j = 1, . . . , N e N representa o número de lados do polígono. Além disso, se aplicarmos os conceitos da geometria euclidiana (HEATH, 2010) podemos dizer que quando N → ∞ a Equação (3.22) converge para

As= 1 2 4 ∑ i=1 yi(xi+1−xi−1) −πR2

Por exemplo, seja Z1 um triângulo Z1=ξ1= {(8, 6), (−5, 1), (2, −5)}, Z2 um qua-drilátero Z2=ξ2= {(1, 5), (−5, 1), (−1, −1), (3, 1)} e Z3 um pentágono dado por Z3=ξ3= {(3, −2), (2, −4), (4, −5), (6, −4), (5, −2)}. A Tabela 3.4 exibe a diferença entre as medidas intervalares e poligonais, podemos observar a diferença entre as abordagens. É possível no-tar que utilizando medidas intervalares as médias não correspondem ao centro do polígono e apresentam uma variância superior a apresentada pela abordagem poligonal.

(39)

38 DADOS SIMBÓLICOS POLIGONAIS Tabela 3.4: Medidas intervalares comparadas com medidas poligonais

Polígono Intervalo Medidas intervalares Medidas poligonais [a1, b1] × [a2, b2] Média Variância Média Variância Z1 [−5, 8] × [−5, 6] (1, 50; 0, 50) (14, 83; 10, 08) (1, 67; 0.67) (7, 06; 5, 60)

Z2 [−5, 3] × [−1, 5] (−1, 00, 2, 00) (5, 33; 3, 00) (−0, 56; 1, 67) (2, 91; 1, 56) Z3 [2, 6] × [−5; −2] (4; −3, 50) (1, 33; 0, 75) (4, 00; −3, 42) (0, 79; 0, 53)

(40)

39 39 39

4

Regressão Linear Poligonal, Simulação e Resultados

Este capítulo apresentar um modelo de regressão linear para variáveis simbólicas poligonais, simulações e resultados obtidos a partir de duas bases de dados reais.

4.1 Regressão Linear Poligonal

A análise de regressão é uma ferramenta essencial para a extração de conheci-mento de dados que apresentam correlação, esta técnica é amplamente utilizada devido a facilidade matemática e gigantesca quantidade de aplicações como na engenharia, bio-logia, física e outras. Modelos de Regressão Linear (MRL) são utilizados para descrever o comportamento de uma variável denominada de resposta (y) em função de uma ou mais variáveis denominadas explanatórias ou explicativas (x1, . . . , xp). Sob o contexto de dados simbólicos foi necessário desenvolver estudos sobre o tema, a fim de entender estes fenômenos considerando este paradigma.

Os primeiros estudos para análise de regressão foram baseados na representação intervalar [min, max] e visava analisar a relação entre uma variável dependente e demais variáveis, todas simbólicas intervalares (BILLARD; DIDAY, 2000). Neste estudo foi proposto dois modelos a serem estudados separadamente, um dos modelos é destinado ao limite inferior do intervalo e o outro ao limite superior. Neste caso foi utilizado Método dos Mínimos Quadrados (MMQ) para estimar os parâmetros desconhecidos da regressão.

Além disso, o modelo considera estimar o limite inferior e o limite superior separa-damente, então a dada a previsão para os limites o modelo apresenta dois resíduos um para o limite inferior e outro para o superior. Este framework basea-se num método de otimização sem qualquer restrição o que não garante a coerência matemática na previsão dos intervalos. Então, é possível que limite superior seja menor que o limite inferior.

Anos mais tarde, um novo modelo de regressão linear baseado numa nova represen-tação do intervalo (centro, amplitude) foi proposto, onde é demonstrado que a amplitude é um fator importante no estudo do modelo de regressão intervalar. Nesta proposta os autores também apresentam o modelo baseados em MMQ sem restrições e fazem uso de estimação dos parâmetros e previsão separadamente (CARVALHO; TENORIO; LIMA NETO, 2004).

Referências

Documentos relacionados

O Plano de Manutenção dos Monumentos é uma ferramenta de gestão e de conservação preventiva que tem os seguintes objetivos: melhorar a gestão de recursos (reduzindo custos a

O presente artigo pretende discutir o exercício do controle de constitucionalidade de leis e atos normativos por de entidades e órgãos não

Para casos específicos, os contadores são procurados, como por exemplo a declaração do imposto de renda no qual muitos alegaram se tornar o período de maior contato, pois os

O TBC surge como uma das muitas alternativas pensadas para as populações locais, se constituindo como uma atividade econômica solidária que concatena a comunidade com os

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Por fim, cumpre ressaltar que o Projeto de Lei 5080/2009 privilegia de forma cabal o incremento do devido processo legal, que se faz presente na desnecessidade de garantia do

Apesar dos esforços para reduzir os níveis de emissão de poluentes ao longo das últimas décadas na região da cidade de Cubatão, as concentrações dos poluentes

Identificar a língua espanhola como instrumento de acesso a informações, a outras culturas e grupos sociais com foco na área de Recursos Humanos.. Aplicar