• Nenhum resultado encontrado

A.1 Domínio da FDA poligonal

4.3 Resultados

4.3.2 Dados WNBA

A base de dados WNBA é formada a partir das informações adquiridas de jogadoras da liga feminina de basquetebol norte america (Women’s National Basketball Association), nesta base de dados nós estudamos cinco variáveis: team points (y), opponent points (x1),

minutes (x2), field goal attempts (x3), points (x4) e efficiency (x5).

A superfície utilizada para variável resposta (y) foi um círculo que apresenta uma estrutura linear como pode ser visto na Figura 4.4. Ainda sob a y apresentamos as principais medidas descritivas proposta nesta dissertação, são elas: Média (77, 15; 77, 15); desvio padrão (6, 19; 6, 19) e coeficiente de correlação 0, 98.

A Figura 4.5 e a Figura 4.6 mostram o histograma e a curva de nível da distribuição conjunta de y, respectivamente. É possível observar que existe maior frequência de

50 REGRESSÃO LINEAR POLIGONAL, SIMULAÇÃO E RESULTADOS indivíduos no ponto (0, 5; 0, 5), ou seja, a distribuição possui moda neste ponto. Além disso, a distribuição empírica está truncada numa base elipsoidal devido ao número de observações circulares que possuem estrutura linear.

60 70 80 90 60 70 80 90 c + rcos(theta) c + rsin(theta)

51 REGRESSÃO LINEAR POLIGONAL, SIMULAÇÃO E RESULTADOS

Frequência Relativa 1e-04

2e-04 3e-04 4e-04

0e+00

Figura 4.5: Histograma de y - WNBA

1e-04 2e-04 3e-04 4e-04

0e+00

52 REGRESSÃO LINEAR POLIGONAL, SIMULAÇÃO E RESULTADOS Para a variável resposta team points (y) e explicativas opponent points (x1), minutes

(x2), field goals (x3), points (x4) e efficiency (x5). A estimativa dos parâmetros desconheci-

dos (βc, βr) é ˆβc= (33, 85; 0, 57; −0, 12; −1, 05; 0, 88; 0, 21) e ˆβr= (8, 23; 0, 14; 0, 02; 0, 12; 0, 04; −0, 9)

com EQM = 5, 67. Através da análise dos parâmetros podemos observar, por exemplo, que quando o centro da variável x3 aumenta em uma unidade o centro de y diminui em

1, 05 para os demais parâmetros fixados. Quando o raio de x5 cresce em uma unidade o

raio de y diminui em 0, 90. Além disso, a estrutura de y explicada por x1, x2, x3, x4, x5 é

53 53 53

5

Considerações Finais, Limitações e Trabalhos Futuros

Neste capítulo apresentaremos as principais considerações, contribuições e resultados obtidos através desta dissertação. Além disso, apresentaremos as limitações e as principais expectativas para os trabalhos futuros.

5.1 Considerações Finais

Nós exibimos um novo tipo de variável aleatória simbólica utilizando polígonos não auto-intersectáveis. Como pode ser visto ao longo desta dissertação, os polígonos estudados apresentam características importantes para entender o comportamento de dados que estão contidos neste tipo de superfície.

Além disso, utilizar polígonos armazena mais informações que outros tipos de variáveis, por exemplo, intervalos. Isto se dá devido esta nova estrutura considerar elementos como média e variância da classe reduzindo significativamente a variabilidade das medidas apresentadas. Ou seja, para dados do tipo polígono a abordagem poligonal apresenta maior precisão nas medidas apresentadas.

Considerando este novo tipo de variável nós apresentamos uma nova FDA cujo domínio é um polígono. Em seguida, baseados na hipótese de equidistribuição para dados intervalares (BILLARD; DIDAY, 2003) nós apresentamos uma hipótese de equidistribuição para dados poligonais. Assim, uma abordagem utilizando os vértices do polígono foi utilizada para análise desta nova variável.

Nesta dissertação mostramos as principais medidas estatísticas, a saber: média, covariância e variância, coeficiente de variação, histogramas etc. Diferentemente da proposta para dados simbólicos usuais, em que as medidas descritivas, tais como média e variância são unidimensionais, estas medidas para variáveis poligonais são vetores bidimensionais.

Esta variável se aplica idealmente na quebra do pressuposto de uniformidade no intervalo, na presença de distribuição uniforme no polígono, por exemplo, na Figura 3.2 onde é notório que não podemos supor uniformidade no intervalo, pois o quadrilátero que apresenta estas características é apenas um quadrado.

54 CONSIDERAÇÕES FINAIS, LIMITAÇÕES E TRABALHOS FUTUROS Durante o estudo nós propomos um método de representação para dados desta natureza utilizando duas medidas importantes, o centro e o raio do polígono, assim todas informações de uma classe de dados poligonais podem ser armazenadas através de apenas duas medidas. Como forma de escolha do raio, nós propomos utilizar a média destes dados e uma medida de dispersão, esta abordagem faz com que a representação armazene muitas informações sobre os dados.

A partir da representação para dados poligonais nós apresentamos um método de construção de um polígono regular com N lados, onde N é menor ou igual ao número de entidades individuais de cada classe. O conceito para construção do polígono é baseado em coordenadas polares como mostra a Equação (3.1). Além disso, esta transformação agrega os dados de uma variável clássica transformando-os numa variável poligonal.

Também foi proposto um modelo de regressão linear para dados poligonais com um resíduo, onde a possibilidade de apresentar um resíduo se dá devido a modificação na matriz de variáveis explicativas. Para construir o modelo MRLP nós utilizamos a representação (centro, raio), o MMQ. Então, a partir das estimativas do modelo apresentamos o polígono

predito.

O modelo MRLP que basea-se na média e na variância dos dados, cuja distribuição é uniforme no polígono, apresentou um desempenho superior ao modelo crm! (crm!) que, por sua vez, considera apenas a variabilidade de uma distribuição uniforme no intervalo. Considerar a média e variabilidade interna dos dados poligonais mostrou uma diferença significativa, em especial, para cenários onde a dispersão entre os dados da amostra foram muito grandes.

Esta comparação foi feita através de 1000 réplicas de Monte Carlo e para tal ambos os modelos foram submetidos as mesmas amostras, além disso, a medida utilizada para a comparação dos métodos foi o EQM e este foi armazenado nas 1000 réplicas, em seguida, foi aplicado o teste estatístico t-Student pareado.

5.2 Limitações

Como mencionado, esta abordagem para dados simbólicos descreve novas carac- terísticas para este paradigma. As medidas descritivas apresentadas se aplicam sob a hipótese equidistribuição no polígono e que este seja não auto-intersectável. No entanto, o método de agregação e construção do polígono apresentado nesta dissertação resume-se a apenas uma classe específica de polígonos, os polígonos regulares. Ou seja, muita da técnica é perdido devido a limitação da construção de polígonos regulares.

Claramente, é inerente de técnicas de agregação perder informações, visto que o ideal é utilizar todas as informações disponíveis na base de dados, além disso, caso a hipótese de equidistribuição no polígono seja quebrada a medida de tendência central utilizada neste estudo (média) será facilmente influenciada.

55 CONSIDERAÇÕES FINAIS, LIMITAÇÕES E TRABALHOS FUTUROS

5.3 Trabalhos Futuros

Acreditamos que os métodos propostos nesta dissertação abre espaço para novas possibilidades dentro deste framework devido a flexibilidade que o mesmo traz. Além de inspirar a busca pela possibilidade do uso de novas superfícies. Para tal, dois principais frontes de atividades são propostos, a saber: Melhoria nas limitações da abordagem utilizada nesta dissertação e novas técnicas para complementar a análise de dados desta natureza. Destas ressaltamos: Limitações e Novas propostas.

Para as limitações contidas no método de agregação precisamos propor um novo método de representação adicionando uma nova variável e propor uma nova equação a fim de construir um polígono irregular não auto-intersectável, assim as medidas descritivas e o modelo de regressão captarão com maior precisão os fenômenos para dados poligonais irregulares.

Além disso, baseados na representação [centro, raio] podemos propor uma aborda- gem para análise de cluster utilizando novas superfícies, polígonos, além da possibilidade de propor um novo método para análise de séries temporais, componentes principais e generalizar os conceitos de dados poligonais.

56 56 56

Referências

BERTRAND, P.; GOUPIL, F. Analysis of symbolic data: Exploratory methods for extracting statistical information from complex data. In: . Berlin, Heidelberg: Springer Berlin Heidelberg, 2000. cap. Descriptive Statistics for Symbolic Data, p. 106–124. ISBN 978-3-642-57155-8. Disponível em: <http: //dx.doi.org/10.1007/978-3-642-57155-8_6>.

BILLARD, L.; DIDAY, E. Regression analysis for interval-valued data. In: . Data Analysis, Classification, and Related Methods. Berlin, Heidelberg: Springer Berlin Heidelberg, 2000. p. 369–374. ISBN 978-3-642-59789-3. Disponível em: <http://dx.doi.org/10.1007/978-3-642-59789-3_58>.

BILLARD, L.; DIDAY, E. From the statistics of data to the statistics of knowledge: symbolic data analysis. Journal of the American Statistical Association, Taylor & Francis, v. 98, n. 462, p. 470–487, 2003.

BILLARD, L.; DIDAY, E. Symbolic Data Analysis: Conceptual Statistics and Data Mining (Wiley Series in Computational Statistics). [S.l.]: John Wiley & Sons, 2007. ISBN 0470090162.

BOCK, H. H. Analysis of Symbolic Data: Exploratory Methods for Extracting Statistical Information from Complex Data. Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2000. ISBN 3540666192.

BRONDSTED, A. An Introduction to Convex Polytopes. 1. ed. [S.l.]: Springer, 1982. (Graduate Texts in Mathematics). ISBN 9780387907222,038790722X,354090722X.

CARVALHO, F. A. T. D. Histograms in symbolic data analysis. Annals of Operations Research, v. 55, n. 2, p. 299–322, jun. 1995.

CARVALHO, F. A. T. D.; TENORIO, C. P.; LIMA NETO, E. A new method to fit a linear regression model for interval-valued data. Advances in Artificial Intelligence, v. 3238, p. 295–306, 2004.

CHAVENT, M. et al. New clustering methods for interval data. Computational Statistics, v. 21, n. 2, p. 211–229, jun. 2006.

CRESSIE, N. Statistics for Spatial Data. Revised edition. [S.l.]: Wiley-Interscience, 1993. ISBN 0471002550,9780471002550.

DIDAY, E. The symbolic approach in clustering and relating methods of data analysis: The basic choices. In: 1. Conference of the International Federation of Classification Societies. [S.l.: s.n.], 1987. p. 673–684.

DIDAY, E. (Ed.). Proceedings of the Conference on Data Analysis, Learning Symbolic and Numeric Knowledge. Commack, NY, USA: Nova Science Publishers, Inc., 1989. ISBN 0-941743-64-0.

DIDAY, E. Knowledge representation and symbolic data analysis. In: . Knowledge, Data and Computer-Assisted Decisions. Berlin, Heidelberg: Springer Berlin Heidelberg, 1990. p. 17–34. ISBN 978-3-642-84218-4. Disponível em: <http://dx.doi.org/10.1007/978-3-642-84218-4_2>.

57 REFERÊNCIAS DIDAY, E. Thinking by classes in data science: the symbolic data analysis paradigm. Wiley Interdisciplinary Reviews: Computational Statistics, John Wiley & Sons, Inc., v. 8, n. 5, p. 172–205, 2016. ISSN 1939-0068. Disponível em: <http://dx.doi.org/10.1002/wics.1384>. DIDAY, E.; NOIRHOMME-FRAITURE, M. Symbolic Data Analysis and the

SODAS Software. New York, NY, USA: Wiley-Interscience, 2008. ISBN 0470018836, 9780470018835.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Advances in knowledge discovery and data mining. In: FAYYAD, U. M. et al. (Ed.). Menlo Park, CA, USA: American Association for Artificial Intelligence, 1996. cap. From Data Mining to Knowledge Discovery: An Overview, p. 1–34. ISBN 0-262-56097-6. Disponível em: <http://dl.acm.org/citation.cfm?id=257938.257942>.

FITZMAURICE NAN M. LAIRD, J. H. W. G. M. Applied Longitudinal Analysis (Wiley Series in Probability and Statistics). 2. ed. [S.l.]: Wiley-Interscience, 2011. ISBN

978-0-470-38027-7.

GIORDANO, G.; BRITO, P. Social networks as symbolic data. In: . Analysis and Modeling of Complex Data in Behavioral and Social Sciences. Cham: Springer

International Publishing, 2014. p. 133–141. ISBN 978-3-319-06692-9. Disponível em: <http://dx.doi.org/10.1007/978-3-319-06692-9_15>.

HAINING, R. Spatial data analysis: theory and practice. [S.l.]: Cambridge University Press, 2003. ISBN 0521773199,9780521773195,9780511040856.

HALLIDAY, D.; RESNICK, R.; WALKER, J. Fundamentals of Physics. [S.l.]: John Wiley & Sons, 2013.

HAND, C. C. T. a. D. J. Multivariate Analysis of Variance and Repeated Measures: A practical approach for behavioural scientists. [S.l.]: Springer Netherlands, 1987. ISBN 978-94-010-7913-6,978-94-009-3143-5.

HANSS, M. Applied fuzzy arithmetic: an introduction with engineering applications. 1. ed. [S.l.]: Springer-Verlag, 2005. ISBN 9783540242017,3-540-24201-5.

HEATH, E. T. L. The Thirteen Books of the Elements, Vol. 3: Books 10-13. 1. ed. [S.l.]: HOLT MCDOUGAL, 2010. ISBN 0486600904,9780486600901.

HECKBERT, P. Graphics Gems IV (IBM Version) (Graphics Gems - IBM) (No. 4). 1st. ed. Morgan Kaufmann, 1994. ISBN 0123361559,9780123361554. Disponível em: <http: //gen.lib.rus.ec/book/index.php?md5=B00DCB4553742114A84451A37CF3D3E2>.

HIBBELER, R. C. Statics and mechanics of materials. 2nd. ed. [S.l.]: Pearson/Prentice Hall, 2004. ISBN 0130281271,9780130281272.

HILBERT, M.; LOPEZ, P. The world’s technological capacity to store, communicate, and compute information. science, American Association for the Advancement of Science, v. 332, n. 6025, p. 60–65, 2011.

KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. 3rd. ed. [S.l.]: Wiley Publishing, 2013. ISBN 1118530802, 9781118530801.

58 REFERÊNCIAS LEE, K. H. First Course on Fuzzy Theory and Applications. 1. ed. Springer-Verlag Berlin Heidelberg, 2005. (Advances in Soft Computing 27). ISBN 978-3-540-22988- 9,978-3-540-32366-2. Disponível em: <http://gen.lib.rus.ec/book/index.php?md5= 7FA79C2B019830B1F21D830629127CDF>.

LIMA NETO, E.; CARVALHO, F. D. Constrained linear regression models for symbolic interval-valued variables. Computational Statistics & Data Analysis, v. 54, n. 2, p. 333 – 347, 2010. ISSN 0167-9473. Disponível em: <http://www.sciencedirect.com/science/

article/pii/S0167947309003065>.

LIMA NETO, E.; CARVALHO, F. de. Centre and range method for fitting a linear regression model to symbolic interval data. Computational Statistics & Data Analysis, v. 52, n. 3, p. 1500 – 1515, 2008. ISSN 0167-9473. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0167947307001934>.

LIMA NETO, E.; CORDEIRO, G. M.; CARVALHO, F. de. Bivariate symbolic regression models for interval-valued variables. Journal of Statistical Computation and Simulation, v. 81, n. 11, p. 1727–1744, 2011. Disponível em: <http: //dx.doi.org/10.1080/00949655.2010.500470>.

MHATRE, V.; ROSENBERG, C. Design guidelines for wireless sensor networks: communication, clustering and aggregation. Ad Hoc Networks, v. 2, n. 1, p. 45 – 63, 2004. ISSN 1570-8705. Disponível em: <http://www.sciencedirect.com/science/article/pii/ S1570870503000477>.

SEARLE, S. Linear Models. Wiley, 2012. (Wiley Series in Probability and Statistics - Applied Probability and Statistics Section). ISBN 9781118491775. Disponível em: <https://books.google.com.br/books?id=8LX-hj-JCxMC>.

STEGER, C. On the calculation of moments of polygons. [S.l.], 1996.

STEWART, J. Calculus. Cengage Learning, 2007. (Available 2010 Titles Enhanced Web Assign Series). ISBN 9780495011606. Disponível em: <https://books.google.com.br/ books?id=jBD0yTh64wAC>.

TELES, P.; BRITO, P. Modeling interval time series with space–time processes. Communications in Statistics - Theory and Methods, v. 44, n. 17, p. 3599–3627, 2015.

Disponível em: <http://dx.doi.org/10.1080/03610926.2013.782200>.

VLADUTU, L. et al. Generalised rbf networks trained using an ibl algorithm for mining symbolic data. In: . Advances in Knowledge Discovery and Data Mining: 5th Pacific-Asia Conference, PAKDD 2001 Hong Kong, China, April 16–18, 2001 Proceedings. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001. p. 587–593. ISBN 978-3-540-45357-4. Disponível em: <http://dx.doi.org/10.1007/3-540-45357-1_63>.

WINNER, L. Miscellaneous Datasets. 2017. Disponível em: <http://www.stat.ufl.edu/ ~winner/datasets.html>.

60 60 60

A

Demostrações

A.1 Função de Distribuição Acumulada Poligonal

Seja Z uma variável aleatória uniformemente distribuída no retângulo R = {(x, y) ∣ α1≤ x ≤ α2, β1≤y ≤ β2} contendo o polígono P , e Q = {(ξ1, ξ2) ∣γ1ξ1γ2, η1ξ2η2} é um quadrado qualquer contido em P , então podemos definir

P (ξ ∈ Q ∣ ξ ∈ P ) =P (ξ ∈ Q) P (ξ ∈ P ) = area(Q)/area(R) area(P )/area(R)= area(Q) area(P ). (A.1)

Graficamente podemos afirmar que tal probabilidade expressa na Equação A.1 é dada pela razão da área hachurada pela área do polígono de n lados (veja, Figura A.1).

61 DEMOSTRAÇÕES Dessa forma, a partir da Equação A.1 podemos calcular a FDA, dada por

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, ξ1∗<a1 ou ξ2∗<b1,b1ξ2a1ξ11dξ ∗ 1∗2 A , se a1≤ξ∗1<a2, b1≤ξ2∗<a2 1, caso contrário, (A.2) em que A = 1 2∣ Ni=1 bi(ai+1−ai−1)∣.

onde A representa a área de um polígono não auto-intersectável de N lados dado pela equação de Shoelace, também conhecida como fórmula de Gauss para área.

Então, resultando a integral: Seja (Ω, A, P ) um espaço arbitrário de probabilidade e seja Z = ξ = (ξ1, ξ2)uma função de valor real em Ω, nós definimos Z como uma distribuição uniforme no polígono P não auto-intersectável dada por

FZ(ξ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, se ξ1<a1 ou ξ2<b1, 1−a1)(ξ2−b1) A , se a1≤ξ1≤a2, e b1≤ξ2≤a2, 1, caso contrário.

Na Equação A.1 aplicando a derivada em ξ1, temos

∂FZ(ξ) ∂ξ1

=ξ2 −b1

A , se a1≤ξ1≤a2, e b1≤ξ2≤a2, (A.3)

derivado em relação a ξ2, temos

∂FZ(ξ) ∂ξ1∂ξ2

= 1

A, se a1≤ξ1≤a2, e b1≤ξ2≤a2. (A.4) Aplicando o modelo de mistura de distribuições poligonais, a Equação (A.4) pode ser reescrita como

fZ(ξ) = 1 mu∈ω 1Z(u) Au , ξ ∈ R2, (A.5)

onde 1u(.) é a função indicadora de ξ, em que assume um se Z(u) está no polígono e zero caso contrário.

A.2 Momentos de uma Distribuição Circular

Sabemos pela Equação (3.19) que a FDA para a mistura de distribuições uniformes no círculo então, a FDP para uma variável Z = ξ do tipo poligonal para uma classe w1 é

62 DEMOSTRAÇÕES fZ(ξ) = ∂F ∂ξ1∂ξ2 = 1 πR2, (ξ1, ξ2) ∈R 2. (A.6)

Dessa forma, podemos calcular a esperança para a variável X Y , dada por

E(ξ1) = ∫ √ R2−ξ2 1 −√R2−ξ2 1 ∫ R −R 1 πR2ξ112, E(ξ2) = ∫ √ R2−ξ2 1 −√R2−ξ2 1 ∫ R −R 1 πR2ξ212,

se utilizarmos coordenadas polares, em que ξ1=c1+rcos(θ) e ξ2=c2+rsin(θ) podemos calcular a integral da Equação (A.2), então temos que a média é dada por

E(ξ1) =c1, E(ξ2) =c2.

Se a variável Z respeita a hipótese de equidistribuição, então a média empírica é expressa por ξ1= 1 6mu∈Scu1, ξ2= 1 6mu∈Scu2. (A.7)

De igual modo, podemos calcular o segundo momento para ξ1 e ξ2

E(ξ1) = ∫ √ R2−ξ2 1 −√R2−ξ2 1 ∫ R −R 1 πR2ξ 2 112, E(ξ2) = ∫ √ R2−ξ2 1 −√R2−ξ2 1 ∫ R −R 1 πR2ξ 2 212,

aplicando coordenadas polares, temos

E(ξ12) =c1+R 2 4 , E(ξ22) =c2+ R2 4 .

Pela hipótese de equidistribuição, temos o segundo momento empírico de X e Y como M2(ξ1) = 1 12mu∈S[c 2 u1+ R2 u 4 ] M2(ξ2) = 1 12mu∈S[c 2 u2+ Ru2 4 ]. (A.8)

Documentos relacionados