• Nenhum resultado encontrado

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA PGCOMP - Programa de Pós-Graduação em Ciência da Computação

N/A
N/A
Protected

Academic year: 2021

Share "MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA PGCOMP - Programa de Pós-Graduação em Ciência da Computação"

Copied!
90
0
0

Texto

(1)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

Ata da Sessão Pública de Defesa de Mestrado nº. 97

Colegiado do Programa de Pós-Graduação em Ciência da Computação

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro, matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”. Às Catorze horas do citado dia, via webconferência, foi aberta a sessão pelo presidente da banca examinadora Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da banca: Prof. Dr.Marcelo Keese Albertini(UFU), e o Marcos Ennes Barreto(UFBA). Em seguida foram esclarecidos os procedimentos pelo presidente que passou a palavra ao examinado para apresentação do trabalho de Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em seguida, reuniu-se para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do trabalho apresentado pela candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo esta aprovação um requisito parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a tratar, foi encerrada a sessão pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata, abaixo assinada por todos os membros da banca.

Salvador, 29 de julho de 2020

__________________________________ Prof. Dr. Ricardo Araújo Rios

(Orientador-UFBA)

__________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

__________________________________ Marcos Ennes Barreto(UFBA)

(2)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

Ata da Sessão Pública de Defesa de Mestrado nº. 97

Colegiado do Programa de Pós-Graduação em Ciência da Computação

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro, matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”. Às Catorze horas do citado dia, webconferencia, foi aberta a sessão pelo presidente da banca examinadora Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da banca: Prof. Dr.Marcelo Keese Albertini(UFU),e o Marcos Ennes Barreto(UFBA). Em seguida foram esclarecidos os procedimentos pelo presidente que passou a palavra ao examinado para apresentação do trabalho de Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em seguida, reuniu-se para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do trabalho apresentado pela candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo esta aprovação um requisito parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a tratar, foi encerrada a sessão pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata, abaixo assinada por todos os membros da banca.

Salvador, 29 de julho de 2020

__________________________________ Prof. Dr. Ricardo Araújo Rios

(Orientador-UFBA)

__________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

__________________________________ Marcos Ennes Barreto(UFBA)

(3)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

Defesa de Mestrado nº 97 – FICHA DE AVALIAÇÃO

NOMEDOALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais” Data: 29 de julho de 2020 Horário: 14h

LOCAL: webconferencia. RESULTADO: Observações: ______________________________________________________________________________________________ ______________________________________________________________________________________________ ______________________________________________________________________________________________ ______________________________________________________________________________________________ ______________________________________________________________________________________________ Sugestões: ______________________________________________________________________________________________ ______________________________________________________________________________________________ ______________________________________________________________________________________________ ______________________________________________________________________________________________ Nome e Assinatura dos Membros da Banca:

__________________________________ Prof. Dr. Ricardo Araújo Rios

(Orientador-UFBA)

__________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

__________________________________ Marcos Ennes Barreto(UFBA)

(4)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br Defesa de Mestrado nº 97 – Lista de Presença

NOMEDOALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais” Data: 29 de julho de 2020 Horário: 14h

LOCAL: webconferencia.

(5)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

DECLARAÇÃO

Declaramos para os devidos fins que o Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) atuou como orientador e participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

(6)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

DECLARAÇÃO

Declaramos para os devidos fins que o Prof. Dr.Marcelo Keese Albertini(UFU) participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de

agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

(7)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br DECLARAÇÃO

Declaramos para os devidos fins que o Marcos Ennes Barreto(UFBA) participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de

agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

(8)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

PORTARIA Nº 07/2020 de 19 de julho de 2020

O COORDENADOR DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO, no uso

de suas atribuições legais,

RESOLVE:

Designar comissão composta pelos Professores Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA), Prof. Dr.Marcelo Keese Albertini(UFU), Marcos Ennes Barreto(UFBA), e para compor a Banca para Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, que ocorrerá no dia Vinte e bove de julho de dois mil e vinte às 14h, webconferencia.

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

(9)

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

PGCOMP - Programa de Pós-Graduação em Ciência da Computação

http://pgcomp.dcc.ufba.br

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273 Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110

EMAIL: ceapgmat@ufba.br

O Programa de Pós-Graduação em Ciência da Computação da UFBA convida a todos para a defesa pública de Mestrado de número 97 deste programa.

Aluna: Rosana Guimarães Ribeiro

Título: Novo índice interno de validação de agrupamento de dados temporais Banca Examinadora:

- Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) - Prof. Dr.Marcelo Keese Albertini(UFU)

- Marcos Ennes Barreto(UFBA)

Data da Defesa: 29 de julho de 2020; Horário: 14h Local da Defesa: webconferencia

Resumo: Técnicas de Aprendizado de Máquina não-supervisionado foram desenvolvidas visando encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatística. Esses critérios são comumente divididos em $3$ categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em índices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses índices são aplicados sobre dados caracterizados por serem independentes e identicamente distribuídos. A realização de uma Revisão Sistemática da Literatura demonstrou que há um número reduzido de pesquisas que investigam índices de validação de agrupamento para dados com dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de índices que utilizam critério interno de validação. Neste sentido, este trabalho de mestrado apresenta um novo índice interno de validação baseado na adaptação da Estatística GAP (Gap Statistic) comumente utilizado na literatura. O índice apresentado foi desenvolvido com o objetivo de mensurar e validar informações extraídas de dados temporais a partir da aplicação de técnicas de Aprendizado de Máquina não-supervisionado. Dessa forma, resultados experimentais demonstram a eficiência do novo índice interno de validação para dados com dependência temporal e confirmam a importância do mesmo para o estado da arte.

(10)

Novo índice interno de validação de agrupamento de dados temporais

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa de Pós-Graduação em Ciência da Computação na Universidade Federal da Bahia, como requisito parcial para obtenção do Título de Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________ Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________ Marcos Ennes Barreto(UFBA)

(11)

Novo índice interno de validação de agrupamento de dados temporais

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa de Pós-Graduação em Ciência da Computação na Universidade Federal da Bahia, como requisito parcial para obtenção do Título de Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________ Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________ Marcos Ennes Barreto(UFBA)

(12)

Novo índice interno de validação de agrupamento de dados temporais

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa de Pós-Graduação em Ciência da Computação na Universidade Federal da Bahia, como requisito parcial para obtenção do Título de Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________ Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________ Marcos Ennes Barreto(UFBA)

(13)

Novo índice interno de validação de agrupamento de dados temporais

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa de Pós-Graduação em Ciência da Computação na Universidade Federal da Bahia, como requisito parcial para obtenção do Título de Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________ Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________ Marcos Ennes Barreto(UFBA)

(14)

Novo índice interno de validação de agrupamento de dados temporais

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa de Pós-Graduação em Ciência da Computação na Universidade Federal da Bahia, como requisito parcial para obtenção do Título de Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________ Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________ Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________ Marcos Ennes Barreto(UFBA)

(15)

Ficha catalográfica elaborada pela Biblioteca Universitária de Ciências e Tecnologias Prof. Omar Catunda, SIBI - UFBA.

R484 Ribeiro, Rosana Guimarães

 

Estatística Gap Temporal: um novo índice interno de validação de agrupamento de dados temporais/ Rosana Guimarães Ribeiro. – Salvador, 2020.

63 f.

Orientadora: Prof. Dr. Ricardo Araújo Rios

Dissertação (Mestrado) – Universidade Federal da Bahia. Instituto de Matemática, 2020.

1. Ciência da Computação. 2. Estatística. I. Rios, Ricardo Araújo. II. Universidade Federal da Bahia. III. Título.

(16)

Universidade Federal da Bahia

Instituto de Matem´

atica

Programa de P´

os-Gradua¸c˜

ao em Ciˆ

encia da Computa¸c˜

ao

ESTAT´ISTICA GAP TEMPORAL: UM NOVO

´INDICE INTERNO DE VALIDAC

¸ ˜

AO DE

AGRUPAMENTO DE DADOS TEMPORAIS

Rosana Guimar˜

aes Ribeiro

DISSERTAC

¸ ˜

AO DE MESTRADO

Salvador

06 de julho de 2020

(17)
(18)

ROSANA GUIMAR˜

AES RIBEIRO

ESTAT´ISTICA GAP TEMPORAL: UM NOVO ´INDICE INTERNO

DE VALIDAC

¸ ˜

AO DE AGRUPAMENTO DE DADOS TEMPORAIS

Esta Disserta¸c˜

ao de Mestrado foi

apresentada ao Programa de P´

os-Gradua¸c˜

ao em Ciˆ

encia da

Com-puta¸c˜

ao da Universidade Federal da

Bahia, como requisito parcial para

obten¸c˜

ao do grau de Mestre em

Ciˆ

encia da Computa¸c˜

ao.

Orientador: Prof. Dr. Ricardo Ara´

ujo Rios

Salvador

06 de julho de 2020

(19)
(20)

RESUMO

T´ecnicas de Aprendizado de M´aquina N˜ao-Supervisionado foram desenvolvidas visando encontrar estruturas e padr˜oes em conjuntos de dados sem considerar qualquer informa¸c˜ao pr´evia fornecida, por exemplo, por um especialista. Essa ausˆencia de informa¸c˜ao impacta diretamente no processo de valida¸c˜ao devido `a dificuldade em mensurar o conhecimento obtido por meio destas t´ecnicas. Visando solucionar este problema, diversas pesquisas tˆem sido publicadas na literatura propondo crit´erios que integram diferentes ´areas do conhecimento como Ciˆencia da Computa¸c˜ao e Estat´ıstica. Esses crit´erios s˜ao comumente divididos em 3 categorias: relativo, externo e interno. Em geral, tais crit´erios s˜ao desen-volvidos com base em ´ındices com diferentes objetivos e vieses de an´alise. Entretanto, grande parte desses ´ındices s˜ao aplicados sobre dados caracterizados por serem indepen-dentes e identicamente distribu´ıdos. A realiza¸c˜ao de uma Revis˜ao Sistem´atica da Lite-ratura demonstrou que h´a um n´umero reduzido de pesquisas que investigam ´ındices de valida¸c˜ao de agrupamento para dados com dependˆencia temporal entre suas observa¸c˜oes. Este n´umero ´e ainda mais reduzido quando se trata de ´ındices que utilizam crit´erio in-terno de valida¸c˜ao. Para superar essa limita¸c˜ao, este trabalho de mestrado apresenta um novo ´ındice interno de valida¸c˜ao baseado na estat´ıstica GAP (Gap Statistic). Este novo ´ındice foi desenvolvido com o objetivo de mensurar e validar informa¸c˜oes extra´ıdas de dados temporais com comportamento ca´otico a partir da aplica¸c˜ao de t´ecnicas de Sistemas Dinˆamicos e de Aprendizado de M´aquina n˜ao-supervisionado. Resultados expe-rimentais demonstraram a eficiˆencia do novo ´ındice interno de valida¸c˜ao para dados com dependˆencia temporal e confirmaram a importˆancia do mesmo para o estado da arte. Palavras-chave: S´eries Temporais, ´Indice Interno, Valida¸c˜ao de Agrupamento, es-tat´ıstica GAP

(21)
(22)

SUM ´

ARIO

Cap´ıtulo 1—Introdu¸c˜ao 1

1.1 Contextualiza¸c˜ao e Motiva¸c˜ao . . . 1 1.2 Motiva¸c˜ao e Objetivo . . . 2 1.3 Organiza¸c˜ao do trabalho . . . 3

Cap´ıtulo 2—Fundamenta¸c˜ao Te´orica 5

2.1 Considera¸c˜oes Iniciais . . . 5 2.2 Valida¸c˜ao de Agrupamento . . . 5 2.2.1 Crit´erio Externo . . . 5 2.2.2 Crit´erio Relativo . . . 6 2.2.3 Crit´erio Interno . . . 8 2.3 Distˆancia DTW . . . 10 2.4 An´alise de S´eries Temporais . . . 12 2.4.1 Sistemas Dinˆamicos . . . 13

Cap´ıtulo 3—Estado da Arte 17

3.1 Fase I: Crit´erios de busca nos reposit´orios . . . 17 3.2 Fase II: An´alise e Quantifica¸c˜ao dos artigos . . . 19 3.3 Fase III: Considera¸c˜oes Finais . . . 24

Cap´ıtulo 4—Estat´ıstica Gap Temporal 25

4.1 Vis˜ao Geral . . . 25 4.2 Metodologia . . . 25

Cap´ıtulo 5—Resultados Experimentais 33

5.1 Configura¸c˜ao dos Experimentos . . . 33 5.2 An´alise Quantitativa . . . 35 5.2.1 Experimentos sem ru´ıdo . . . 35 5.2.2 Experimentos com ru´ıdo . . . 39 5.2.3 Considera¸c˜oes finais . . . 39

Cap´ıtulo 6—Conclus˜ao 45

(23)

vi SUM ´ARIO

Apˆendice A—Conceitos Fundamentais 51

A.1 Considera¸c˜oes Iniciais . . . 51 A.2 Agrupamento . . . 51 A.3 S´erie Temporal . . . 56 A.3.1 Estocasticidade . . . 57 A.3.2 Estacionaridade . . . 58 A.3.3 Linearidade . . . 59 A.4 Modelagem: Estat´ıstica e Sistemas Dinˆamicos . . . 60 A.4.1 Modelagem baseada em Estat´ıstica . . . 60 A.4.2 Modelagem baseada em Sistemas Dinˆamicos e Teoria do Caos . . 61

(24)

LISTA DE FIGURAS

2.1 (a) Representa¸c˜ao dos dados e (b) Dispers˜ao dos dados Wk com a varia¸c˜ao

do n´umero de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001) . . . 10 2.2 Representa¸c˜ao da distribui¸c˜ao de referˆencia . . . 11 2.3 (a) Fun¸c˜ao log(Wk) (O) e log(Wkb∗) (E) utilizando o m´etodo de Monte

Carlo e (b) Curva Gap . . . 11 2.4 Caminho de deforma¸c˜ao (warping path) entre duas s´eries temporais . . . 12 2.5 S´erie temporal produzida pelo sistema Lorenz (`a esquerda) e a s´erie

des-dobrada no espa¸co fase (`a direita) (RIOS, 2013). . . 14 4.1 Fluxo da estat´ıstica Gap Temporal utilizando Sistemas Dinˆamicos . . . . 28 4.2 Desdobramento de um conjunto de s´eries temporais na mesma dimens˜ao

embutida. . . 29 4.3 Sistemas Dinˆamicos na etapa de Monte Carlo . . . 31 5.1 Sistema de Lorenz . . . 34 5.2 Sistema de R¨ossler . . . 34 5.3 S´erie temporal ca´otica criada pela equa¸c˜ao Logistic . . . 34 5.4 Mapeamento H´enon . . . 34 5.5 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-gistic e H´enon . . . 36 5.6 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e H´enon . . . 36 5.7 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e Logistic . . . 36 5.8 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e R¨ossler . . . 37 5.9 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler e H´enon . . . 37 5.10 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler e Logistic . . . 37 5.11 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, Logistic e H´enon . . . 38 5.12 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler e H´enon . . . 38 5.13 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler e Logistic . . . 38 vii

(25)

viii LISTA DE FIGURAS 5.14 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler, Logistic e H´enon . . . 39 5.15 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler, Logistic e H´enon . . . 39 5.16 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-gistic e H´enon . . . 40 5.17 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e H´enon . . . 40 5.18 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e Logistic . . . 40 5.19 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz e R¨ossler . . . 41 5.20 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler e H´enon . . . 41 5.21 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler e Logistic . . . 41 5.22 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, Logistic e H´enon . . . 42 5.23 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler e H´enon . . . 42 5.24 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler e Logistic . . . 42 5.25 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais R¨

oss-ler, Logistic e H´enon . . . 43 5.26 Valores de dispers˜ao (esquerda) e GAP (direita) das s´eries temporais

Lo-renz, R¨ossler, Logistic e H´enon . . . 43 A.1 M´etodo Particional, com K grupos igual a 3. . . 52 A.2 Algoritmo Hier´arquico . . . 53 A.3 M´etodo baseado em densidade . . . 53 A.4 M´etodo baseado em densidade em diferentes formas . . . 54 A.5 M´etodo baseado em modelo, algoritmo Self-Organizing Map (SOM) . . . 54 A.6 M´etodo baseado em grid (LIAO; LIU; CHOUDHARY, 2004) . . . 55 A.7 Procedimento de agrupamento. O processo b´asico de an´alise de grupos

consiste em quatro etapas com um caminho de feedback. Essas etapas est˜ao intimamente relacionadas entre si e determinam os grupos derivados – adaptado de (XU; WUNSCH, 2008). . . 56 A.8 S´erie Temporal . . . 57 A.9 Decomposi¸c˜ao de S´eries Temporais . . . 58 A.10 Expoente de Hurst com an´alise R/S - adaptado de (QIAN; RASHEED,

(26)

LISTA DE TABELAS

3.1 N´umero de artigos encontrados pela Revis˜ao Sistem´atica. . . 19 3.2 N´umero de artigos publicados por ano. . . 20 3.3 ´Indices mais utilizados na valida¸c˜ao de agrupamento de s´eries temporais. 23

(27)
(28)

Cap´ıtulo

1

INTRODUC

¸ ˜

AO

1.1 CONTEXTUALIZAC¸ ˜AO E MOTIVAC¸ ˜AO

Atualmente, grandes volumes de dados s˜ao coletados e produzidos por diferentes siste-mas. Para exemplificar essa afirma¸c˜ao, mais de 5,8 bilh˜oes de buscas s˜ao realizadas em reposit´orios do Google (PRATER, 2019) e cerca de 12,1TB de imagens s˜ao gerados por sat´elites da NASA todos os dias (GOREY, 2017). Al´em de grandes corpora¸c˜oes, as pes-soas passaram a produzir grandes volumes de dados com a populariza¸c˜ao de dispositivos de acesso `a Internet e o surgimento das redes sociais.

Esse aumento significativo na quantidade de dados tem dificultado a tarefa de especi-alistas na an´alise e extra¸c˜ao de novas informa¸c˜oes. Buscando superar essas dificuldades, t´ecnicas de Aprendizado de M´aquina (AM) tˆem sido propostas visando induzir hip´oteses que sejam capazes de descrever rela¸c˜oes entre os dados analisados. A indu¸c˜ao destas hip´oteses ocorre de acordo com o paradigma de aprendizado (MITCHELL et al., 1997; BISHOP, 2006; FACELI et al., 2011), o qual pode ser organizado em supervisionado, n˜ ao-supervisionado, semi-supervisionado e baseado em refor¸co. A pesquisa apresentada neste projeto foi planejada considerando o paradigma n˜ao-supervisionado, no qual m´etodos s˜ao ajustados sobre as caracter´ısticas (atributos) dos dados, visando extrair padr˜oes sem considerar qualquer informa¸c˜ao previamente fornecida por especialistas.

Neste paradigma, destacam-se os algoritmos de agrupamento, cujo principal objetivo ´e encontrar estruturas, de maneira que dados pertencentes a um mesmo grupo com-partilhem caracter´ısticas ou propriedades relevantes para um determinado problema em estudo (JAIN; DUBES et al., 1988; FACELI et al., 2011). Para avaliar objetivamente e quantitativamente se a estrutura derivada do agrupamento ´e significativa, faz-se ne-cess´ario utilizar crit´erios de valida¸c˜ao (XU; WUNSCH, 2008), os quais implementam ´ındices que tˆem como objetivo testar e avaliar a qualidade dos grupos obtidos. Conforme discutido em (XU; WUNSCH, 2008; THEODORIDIS; KOUTROUMBAS, 2006; JAIN; DUBES et al., 1988; FACELI et al., 2011), tais crit´erios s˜ao organizados em trˆes

(29)

2 INTRODUC¸ ˜AO

rias: externos, relativos e internos1. Crit´erios externos analisam o resultado produzido

por um algoritmo de agrupamento visando comprovar alguma hip´otese previamente espe-cificada sobre os dados. Os crit´erios relativos s˜ao amplamente utilizados para comparar diferentes m´etodos de agrupamento ou diferentes configura¸c˜oes de parˆametros. Neste caso, n˜ao ´e necess´ario estabelecer nenhuma suposi¸c˜ao pr´evia sobre dados. Por fim, os crit´erios internos s˜ao usualmente aplicados para identificar o melhor n´umero de grupos existentes em bases de dados. Esses crit´erios analisam as estruturas obtidas, conside-rando apenas o pr´oprio conjunto de dados. Por exemplo, o melhor ajuste entre uma determinada estrutura obtida e o conjunto de dados pode ser explicado pela matriz de similaridade calculada entre pares de instˆancias2.

Ao analisar estudos publicados na literatura, foi poss´ıvel notar que grande parte dos algoritmos de agrupamento e valida¸c˜ao foi desenvolvida assumindo que o processo de co-leta de informa¸c˜oes acontece de maneira independente e identicamente distribu´ıda (iid ). Entretanto, quando existe, por exemplo, uma rela¸c˜ao de dependˆencia temporal entre in-tervalos de coletas, i.e., o valor de uma observa¸c˜ao atual est´a relacionado com um ou mais valores passados, ent˜ao, torna-se necess´ario criar novos algoritmos de agrupamento e de valida¸c˜ao ou adaptar aqueles existentes na literatura. O desenvolvimento ou adapta¸c˜ao de algoritmos para agrupamento de dados com dependˆencia temporal, como s´eries tem-porais, tem sido proposto por diversos pesquisadores. Por exemplo, a distˆancia DTW (Dynamic time warping) (BERNDT; CLIFFORD, 1994) tem sido amplamente utilizada em diversas tarefas de AM no lugar das varia¸c˜oes das distˆancias de Minkowski quando os dados possuem dependˆencia temporal. Desta forma, algoritmos de agrupamento para da-dos iid podem ser aplicada-dos sobre s´eries temporais, uma vez que sua execu¸c˜ao ´e realizada sobre uma matriz de distˆancias previamente calculada usando DTW.

No entanto, a valida¸c˜ao do agrupamento obtido sobre tais dados ainda ´e um problema em aberto como foi observado com a execu¸c˜ao de uma Revis˜ao Sistem´atica da Literatura, apresentada na Se¸c˜ao 3. De acordo com essa revis˜ao, o n´umero de trabalhos propostos visando apresentar um novo ´ındice ou crit´erio interno de valida¸c˜ao ´e consideravelmente inferior, enfatizando que este problema n˜ao tem sido amplamente abordado na literatura. Essa limita¸c˜ao motivou o desenvolvimento desta pesquisa, cuja motiva¸c˜ao e objetivo s˜ao apresentados na pr´oxima se¸c˜ao.

1.2 MOTIVAC¸ ˜AO E OBJETIVO

A Revis˜ao Sistem´atica da Literatura, que foi executada durante a fase de planejamento desta proposta de mestrado, demonstrou que o desenvolvimento de pesquisas com ˆenfase na valida¸c˜ao de agrupamento realizado sobre s´eries temporais, especialmente utilizando ´ındices de valida¸c˜ao do crit´erio interno, ainda ´e um problema em aberto.

Visando solucionar esse problema, este projeto de mestrado tem como principal obje-tivo desenvolver um novo ´ındice interno de valida¸c˜ao. Este novo ´ındice ser´a baseado na

1Alguns estudos organizam os crit´erios de valida¸ao em apenas duas categorias, externos e internos, sendo os crit´erios relativos considerados um subconjunto dos internos. Neste trabalho, contudo, adotou-se a taxonomia proposta por (XU; WUNSCH, 2008).

(30)

1.3 ORGANIZAC¸ ˜AO DO TRABALHO 3

estat´ıstica Gap, a qual ´e comumente utilizada em agrupamento de dados iid. De maneira resumida, essa estat´ıstica visa comparar uma distribui¸c˜ao nula de referˆencia apropriada com dispers˜oes intra-cluster calculadas sobre as parti¸c˜oes produzidas pelos algoritmos de agrupamento. Nesta compara¸c˜ao, a principal etapa est´a relacionada com distribui¸c˜ao nula de referˆencia, a qual depende da gera¸c˜ao de conjuntos de dados sint´eticos produzidos considerando uma distribui¸c˜ao uniforme por meio do m´etodo de Monte Carlo.

De acordo com a estat´ıstica Gap original, essa gera¸c˜ao ´e realizada considerando que os novos dados sint´eticos seguem uma distribui¸c˜ao uniforme limitada pelo hiperplano definido pela dimens˜ao dos atributos. Entretanto, tratando-se de s´eries temporais, a gera¸c˜ao desses novos dados devem respeitar os relacionamentos entre suas observa¸c˜oes. Al´em disso, a limita¸c˜ao imposta pelo hiperplano ´e mais complexa devido aos diferentes tamanhos e comportamentos das s´eries temporais analisadas.

Diante deste cen´ario, este trabalho de mestrado apresenta um novo ´ındice de valida¸c˜ao interno que realiza trˆes modifica¸c˜oes na estat´ıstica Gap original. A primeira modifica¸c˜ao utiliza a medida DTW, a qual ´e uma escolha usual para calcular distˆancia entre s´eries temporais. Em seguida, foi realizada uma substitui¸c˜ao do algoritmo K-means pelo algo-ritmo K-medoid. Embora sejam algoalgo-ritmos com comportamentos similares, essa troca foi necess´aria porque a medida DTW n˜ao garante a propriedade de desigualdade triangu-lar, exigida em m´etricas de distˆancia. Logo, essa limita¸c˜ao, no contexto deste trabalho, poderia produzir grupos vazios, o que n˜ao ´e conceitualmente aceito na literatura de apren-dizado n˜ao supervisionado (XU; WUNSCH, 2008). Finalmente, como prova de conceito, definiu-se que o escopo deste projeto seria no tratamento de s´eries temporais com com-portamento ca´otico. Nesse sentido, optou-se por utilizar ferramentas da ´area de Sistemas Dinˆamicos e Teoria do Caos (ALLIGOOD; SAUER; YORKE, 1997) para produzir novas s´eries sint´eticas utilizadas pelo m´etodo de Monte Carlo na estat´ıstica Gap.

1.3 ORGANIZAC¸ ˜AO DO TRABALHO

Maiores informa¸c˜oes sobre cada etapa da pesquisa realizada nesse projeto de mestrado ser˜ao apresentadas nas seguintes se¸c˜oes: na Se¸c˜ao 2, a fundamenta¸c˜ao te´orica desta pesquisa ´e apresentada destacando conceitos de valida¸c˜ao de agrupamento, An´alise de S´eries Temporais e ferramentas de Sistemas Dinˆamicos. Em complemento a esta se¸c˜ao, o Apˆendice A apresenta assuntos fundamentais para o estudo desta disserta¸c˜ao de mes-trado. Na Se¸c˜ao 3, ´e apresentada uma Revis˜ao Sistem´atica da Literatura, contendo os trabalhos encontrados sobre ´ındices de valida¸c˜ao no agrupamento de dados temporais. A Se¸c˜ao 4 apresenta a proposta deste mestrado. Na Se¸c˜ao 5 s˜ao discutidos os resultados experimentais desenvolvidos como prova de conceito do m´etodo proposto. E por fim, a Se¸c˜ao 6 discute a conclus˜ao deste trabalho de mestrado.

(31)
(32)

Cap´ıtulo

2

FUNDAMENTAC

¸ ˜

AO TE ´

ORICA

2.1 CONSIDERAC¸ ˜OES INICIAIS

Este cap´ıtulo apresenta, de maneira resumida, os conceitos fundamentais explorados nesta disserta¸c˜ao de mestrado. Primeiramente, apresenta-se uma vis˜ao geral sobre valida¸c˜ao de agrupamento. Em seguida, a medida de distˆancia DTW e os conceitos b´asicos so-bre Sistemas Dinˆamicos e Teoria do Caos, utilizados no novo ´ındice de valida¸c˜ao s˜ao discutidos em detalhes. Al´em da fundamenta¸c˜ao te´orica apresentada neste cap´ıtulo, o apˆendice A discute outros conceitos b´asicos necess´arios para uma melhor compreens˜ao desta disserta¸c˜ao.

2.2 VALIDAC¸ ˜AO DE AGRUPAMENTO

Valida¸c˜ao de agrupamento s˜ao m´etodos quantitativos e objetivos que avaliam os resul-tados das estruturas de grupos (parti¸c˜oes) produzidas por m´etodos de Aprendizado de M´aquina N˜ao-Supervisionado (XU; WUNSCH, 2008). Os resultados fornecidos por algo-ritmos de agrupamento podem ser avaliados de dois modos (JAIN; DUBES et al., 1988): (i) atrav´es de t´ecnicas ad hoc, os quais s˜ao baseadas na ´area de aplica¸c˜ao, i.e., utilizando conhecimento pr´evio fornecido por especialistas no processo de escolha sobre o melhor particionamento; (ii) uso de t´ecnicas autom´aticas para avalia¸c˜ao de agrupamento sem a necessidade de um especialista da ´area. Nesta se¸c˜ao, esses modos s˜ao explorados por meio de trˆes crit´erios de valida¸c˜ao de estruturas de agrupamento.

2.2.1 Crit´erio Externo

Crit´erios externos medem o desempenho do agrupamento combinando uma estrutura obtida com informa¸c˜oes pr´e-estabelecidas. Em resumo, tais crit´erios medem o grau de correspondˆencia entre o n´umero de grupos estimado por algoritmos e os r´otulos de ca-tegoria atribu´ıdos a priori (JAIN; DUBES et al., 1988). Para melhor compreender esses

(33)

6 FUNDAMENTAC¸ ˜AO TE ´ORICA

crit´erios, considere P como sendo uma parti¸c˜ao pr´e-definida a partir de um dado con-junto de dados X composto por N instˆancias1 e seja C uma parti¸c˜ao obtida por um algoritmo de agrupamento. A avalia¸c˜ao por crit´erios externos ´e, ent˜ao, conduzida pela compara¸c˜ao entre C e P . Assim, sendo xi e xj pares de instˆancias de X, h´a quatro

poss´ıveis organiza¸c˜oes dessas instˆancias em C e P (XU; WUNSCH, 2008):

• Caso 1: xi e xj pertencem aos mesmos grupos de C e a mesma categoria de P .

• Caso 2: xi e xj pertencem aos mesmos grupos de C, mas diferentes categorias de

P .

• Caso 3: xi e xj pertencem a diferentes grupos de C, mas a mesma categoria de P .

• Caso 4: xi e xj pertencem a diferentes grupos de C e diferentes categorias de P .

Correspondentemente, os casos 1, 2, 3 e 4 s˜ao denotados como a, b, c e d, respectiva-mente, sendo M = a + b + c + d. Desse modo, atrav´es da rela¸c˜ao entre os diferentes casos ´

e poss´ıvel determinar alguns ´ındices externos que s˜ao comumente usados na literatura para medir a correspondˆencia entre C e P (XU; WUNSCH, 2008):

• Rand Index R = (a + d) M (.) • Jaccard coefficient J = a (a + b + c) (.)

• Fowlkes and Mallows Index

F M = r a (a + b) · a (a + c) (.) • Γ statistics Γ = M a − m1· m2 pm1· m2(M − m1)(M − m2) (.) onde m1 = a + b e m2 = a + c.

2.2.2 Crit´erio Relativo

Crit´erios relativos concentram-se na compara¸c˜ao de resultados de agrupamento gera-dos por diferentes algoritmos ou pelo mesmo algoritmo com diferentes configura¸c˜oes de parˆametros (XU; WUNSCH, 2008). Neste caso, n˜ao ´e necess´ario estabelecer nenhuma suposi¸c˜ao pr´evia sobre dados, como determinado pelos crit´erios externos. Por outro lado, necessita-se de diversos testes realizados pelo usu´ario at´e ser encontrada uma estrutura de agrupamento ideal. Por exemplo, para muitos algoritmos de agrupamentos particionais,

(34)

2.2 VALIDAC¸ ˜AO DE AGRUPAMENTO 7

o n´umero de grupos ´e um parˆametro especificado pelo usu´ario. Embora em alguns casos esse parˆametro possa ser estimado em termos de experiˆencia do usu´ario ou informa¸c˜oes a priori, em geral, o n´umero de grupos ´e estimado a partir de diferentes execu¸c˜oes de algo-ritmos de grupamento sobre o conjunto de dados (XU; WUNSCH, 2008). Neste contexto, a determina¸c˜ao da melhor estrutura de agrupamento ´e realizada por diferentes execu¸c˜oes do algoritmo e a aplica¸c˜ao de ´ındices relativos para diferentes valores do parˆametro tes-tado. Assim, tais ´ındices retornar˜ao valores referentes ao agrupamento que indicar˜ao a qualidade da estrutura.

Podem ser citados como ´ındices de crit´erio relativo (VENDRAMIN; CAMPELLO; HRUSCHKA, 2009): • Calinski-Harabasz Index (VRC) V RC = trace(B) trace(W) × N − k k − 1 (.)

N ´e o n´umero total de dados em uma parti¸c˜ao em k grupos mutuamente disjuntos. W e B podem ser definidos como:

W = k X i=1 Ni X l=1 (xi(l) − ¯xi)(xi(l) − ¯xi)T (.) B = k X i=1 Ni( ¯xi− ¯x)( ¯xi− ¯x)T (.)

Ni ´e o n´umero de objetos atribu´ıdos ao ith grupo, xi(l) ´e o lth objeto atribu´ıdo

a esse grupo, ¯xi ´e o vetor n-dimensional das m´edias amostrais dentro do grupo,

chamado de centr´oide e ¯x ´e o vetor n-dimensional da m´edia global da amostra, chamado de centr´oide dos dados. O valor ´otimo de k grupos ´e aquele que maximiza o ´ındice VRC.

• Davies-Bouldin Index ´

E um ´ındice que se assemelha ao VRC, de modo que tamb´em ´e baseado na rela¸c˜ao de distˆancias intra-cluster e inter-cluster.

DB = 1 k k X i=1 Di (.)

Di = maxj6=iDi,j. O termo (Di,j) ´e a rela¸c˜ao intra-cluster e inter-cluster para o

ith e o jth grupo, tal que, Di,j = ( ˆdi + ˆdj)/di,j, onde ˆdi e di,j s˜ao as distˆancias

m´edias intra-cluster para o ith grupo e a distˆancia inter-cluster entre os grupos i e j, respectivamente. O valor ´otimo de k grupos ´e aquele que minimiza esse ´ındice.

(35)

8 FUNDAMENTAC¸ ˜AO TE ´ORICA

• Dunn’s Index

´Indice baseado em medidas geom´etricas de compacta¸c˜ao e separa¸c˜ao de grupos.

DN = min p,q∈(1,...,k)∀p6=q    δp,q max l∈(1,...,k)∆l    (.)

∆l ´e o diˆametro do lth grupo e δp,q ´e a distˆancia definida entre os grupos p e q. A

distˆancia δp,q ´e originalmente definida como a distˆancia m´ınima entre um par de

objetos entre os grupos p e q. O valor ideal de k grupos ´e aquele que maximiza o ´ındice Dunn.

• Silhouette

Este ´ındice tamb´em ´e baseado em considera¸c˜oes geom´etricas referentes `a com-pacta¸c˜ao e separa¸c˜ao de grupos. Considera-se que o jth objeto do conjunto de dados xj pertence a um dado grupo p ∈ {1, ..., k}. Ent˜ao, a distˆancia m´edia deste

objeto para todos os outros objetos no grupo p ´e denotada por ap,j. Finalmente,

bj ´e a menor distˆancia entre xj e todos os outros objetos do conjunto de dados que

n˜ao pertence ao grupo p, i.e., ∀q ∈ {1, ..., k}, q 6= p. Ent˜ao, a silhueta (silhouette) do objeto individual x(j) ´e definido como:

sx(j) =

bj− ap,j

max{ap,j, bj}

(.)

Neste caso, quanto maior sx(j), melhor ser´a a atribui¸c˜ao de x(j) ao grupo p. Na

existˆencia de apenas um grupo, sx(j) = 0. Portanto, o c´alculo da Silhouette ´e

definido como a m´edia de sx(j) tal que j = 1, 2, ..., N .

SW C = 1 N N X j=1 sx(j) (.)

A melhor parti¸c˜ao ´e alcan¸cada quando SWC ´e maximizado, isto implica na mini-miza¸c˜ao da distˆancia intra-cluster ap,j e na maximiza¸c˜ao da distˆancia inter-cluster

bj.

2.2.3 Crit´erio Interno

Crit´erios internos avaliam a estrutura de agrupamento sem nenhuma informa¸c˜ao externa sobre os dados (XU; WUNSCH, 2008), assim como o crit´erio relativo. Todavia, o crit´erio interno ´e usualmente aplicado para identificar o melhor n´umero de grupos existentes em bases de dados. Assim sendo, esse crit´erio possui um diferencial em que n˜ao h´a necessidade do usu´ario fazer diversos testes com diferentes algoritmos ou varia¸c˜oes de parˆametros at´e encontrar a melhor estrutura para o agrupamento. Dessa forma, apenas com a aplica¸c˜ao de uma t´ecnica ´e poss´ıvel obter o n´umero ideal de grupos. A especifica¸c˜ao

(36)

2.2 VALIDAC¸ ˜AO DE AGRUPAMENTO 9

do n´umero de grupos tem fundamental importˆancia para o agrupamento, pois a supe-restima¸c˜ao ou a subestima¸c˜ao de grupos afeta a qualidade da estrutura resultante. De maneira geral, uma parti¸c˜ao com muitos grupos afeta a verdadeira estrutura de agrupa-mento, tornando dif´ıcil interpretar e analisar os resultados. Por outro lado, uma parti¸c˜ao com poucos grupos pode causar a perda de informa¸c˜oes (XU; WUNSCH, 2008).

No contexto geral, diferentemente dos ´ındices externos e relativos, a literatura n˜ao apresenta muitas publica¸c˜oes de ´ındices internos. Sendo assim, os mais conhecidos s˜ao o coeficiente de correla¸c˜ao Cophenetic utilizado para validar estruturas de agrupamento hier´arquicas (XU; WUNSCH, 2008) e a estat´ıstica Gap (Gap Statistic) (TIBSHIRANI; WALTHER; HASTIE, 2001) utilizada para validar estruturas de agrupamento obtidas a partir de algoritmos particionais e hier´arquicos.

Conforme mencionado na introdu¸c˜ao deste projeto, a metodologia utilizada para de-senvolvimento desta pesquisa ser´a baseada no ´ındice interno de valida¸c˜ao fornecido pela estat´ıstica Gap (TIBSHIRANI; WALTHER; HASTIE, 2001). Este ´ındice visa comparar as dispers˜oes intra-cluster das parti¸c˜oes obtidas a partir de algoritmos de agrupamento com uma distribui¸c˜ao nula de referˆencia apropriada. De maneira resumida, essa es-tat´ıstica ´e calculada considerando alguns passos que s˜ao demonstrados nessa se¸c˜ao.

Inicialmente, o conjunto de dados, conforme Figura 2.1(a), ´e agrupado usando algum algoritmo como, por exemplo, K-means ou Hier´arquico. Esse agrupamento ´e realizado variando o n´umero total de grupos no intervalo k = {1, 2, 3, . . . , K}. Em seguida, para cada parti¸c˜ao obtida, calcula-se a dispers˜ao Wk conforme apresentado na Equa¸c˜ao.,

sendo C· um grupo e d·· uma medida de distˆancia. A representa¸c˜ao da dispers˜ao tamb´em

pode ser vista na Figura 2.1(b).

Dr = X i,i0∈C r dii0 (.) Wk= k X r=1 1 2nr Dr (.)

Utiliza-se, ent˜ao, o m´etodo de Monte Carlo para gerar B conjuntos de dados de referˆencia considerando, por exemplo, uma distribui¸c˜ao uniforme, conforme mostrado em pontos vermelhos na Figura 2.2. Para cada conjunto de dados de referˆencia, realiza-se um agrupamento e calcula-se sua dispers˜ao Wk∗ e a estat´ıstica Gap considerando b = {1, 2, . . . , B} e k = {1, 2, 3, . . . , K}, conforme Equa¸c˜ao .. A Figura 2.3(a) demonstra os valores das dispers˜oes Wk e Wkb com a fun¸c˜ao logar´ıtmica ao longo de k grupos.

GAP (k) = 1 B  X b log(Wkb∗) − log(Wk) (.)

Na sequˆencia, a partir da Equa¸c˜ao., calcula-se o desvio padr˜ao sk (Equa¸c˜ao.).

¯ l =  1 B  X b log(Wkb∗) (.)

(37)

10 FUNDAMENTAC¸ ˜AO TE ´ORICA sdk = "  1 B  X b log(W∗ kb) − ¯l 2 #1/2 (.) sk = sdk s  1 + 1 B  (.) Por fim, o melhor n´umero de grupos ´e encontrado considerando a Equa¸c˜ao .. Segundo os autores, a estimativa de melhor n´umero de grupos ser´a definida pelo valor que maximiza a estat´ıstica Gap, conforme mostra a Figura 2.3(b).

ˆ

k = menor k tal que GAP (k) > GAP (k + 1) − sk+1 (.)

x2

x1 número de clusters k

Wk

(a) (b)

Figura 2.1 (a) Representa¸c˜ao dos dados e (b) Dispers˜ao dos dados Wk com a varia¸c˜ao do

n´umero de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001)

Conforme discutido na introdu¸c˜ao deste trabalho, trˆes modifica¸c˜oes foram realizadas na estat´ıstica Gap original para valida¸c˜ao de parti¸c˜oes obtidas sobre dados temporais. A primeira modifica¸c˜ao ´e baseado na medida DTW, descrita na pr´oxima se¸c˜ao, a qual ´e amplamente utilizada para c´alculo de distˆancia entre s´eries temporais.

2.3 DIST ˆANCIA DTW

Em geral, as medidas utilizadas para calcular distˆancias entre objetos em uma base de dados assumem que os atributos s˜ao iid. Entretanto, para dados que n˜ao possuem essa caracter´ıstica, por exemplo quando h´a dependˆencia temporal, existem outras medidas que podem ser utilizadas, como a distˆancia de Hausdorff, modificada Hausdorff (MODH), baseada em HMM, Dynamic Time Warping (DTW) e Sub-Sequˆencia Comum Mais Longa (LCSS) (AGHABOZORGI; SHIRKHORSHIDI; WAH, 2015).

(38)

2.3 DIST ˆANCIA DTW 11

Figura 2.2 Representa¸c˜ao da distribui¸c˜ao de referˆencia

Gap

número de clusters k número de clusters k

log(Wk)

(a) (b)

Figura 2.3 (a) Fun¸c˜ao log(Wk) (O) e log(Wkb∗) (E) utilizando o m´etodo de Monte Carlo e (b)

Curva Gap

´

E importante destacar que essa se¸c˜ao n˜ao tem o objetivo de realizar uma ampla discuss˜ao sobre as principais medidas de distˆancia (ou similaridade) que podem ser apli-cadas a s´eries temporais. Para maiores informa¸c˜oes sobre tais medidas, recomenda-se a leitura dos artigos publicados por Duarte et al. (2019) e Aghabozorgi, Shirkhorshidi e Wah (2015).

Dentre essas medidas, a mais referenciada na literatura ´e a DTW (TORMENE et al., 2009; DING et al., 2008), que usa uma abordagem de programa¸c˜ao dinˆamica para alinhar pares de s´eries temporais e calcular a distˆancia entre elas. Para melhor compreender essa medida, considere as s´eries temporais S = {s1, s2, ..., si, ..., sn} e T = {t1, t2, ..., tj, ..., tm}.

(39)

12 FUNDAMENTAC¸ ˜AO TE ´ORICA

matriz (i, j), corresponde a um alinhamento entre os elementos si e tj. Um caminho de

deforma¸c˜ao ou warping path (W ), mapeia ou alinha os elementos de S e T , de modo que a distˆancia entre eles seja minimizada (BERNDT; CLIFFORD, 1994), conforme representa a Equa¸c˜ao., onde d(·, ·) ´e a distˆancia (e.g. euclidiana) entre dois elementos das s´eries temporais. DT W (X, Y ) =pdist(Sn, Tm) (.) dist(Si, Tj) = d(Si, Tj) + min      dist(Si−1, Tj) dist(Si, Tj−1) dist(Si−1, Tj−1) (.)

A Figura 2.4 ilustra o caminho de deforma¸c˜ao (warping path) entre duas s´eries tem-porais ruidosas apresentadas como r´otulo dos eixos x e y.

Timeseries alignment d$index1 d$inde x2 Query index xts 0 200 400 600 800 1000 0.0 0.5 1.0 yts Ref erence inde x 2 1 0 −1 0 200 400 600 800 1000

Figura 2.4 Caminho de deforma¸c˜ao (warping path) entre duas s´eries temporais

2.4 AN ´ALISE DE S´ERIES TEMPORAIS

Uma outra importante modifica¸c˜ao realizada na estat´ıstica Gap est´a relacionada com a forma de gera¸c˜ao de dados sint´eticos no m´etodo de Monte Carlo. Nesta pesquisa, tal modifica¸c˜ao foi realizada levando em considera¸c˜ao que as s´eries temporais possuem comportamento ca´otico e, como consequˆencia, suas observa¸c˜oes s˜ao analisadas de maneira mais adequada por meio de ferramentas dispon´ıveis na ´area de Sistemas Dinˆamicos e Teoria do Caos, conforme discutido nessa se¸c˜ao.

(40)

2.4 AN ´ALISE DE S ´ERIES TEMPORAIS 13

2.4.1 Sistemas Dinˆamicos

A an´alise de s´eries temporais com comportamento ca´otico pode ser realizada por meio de sua transforma¸c˜ao do dom´ınio temporal para o espa¸co fase, o qual tamb´em ´e re-ferenciado como coordenadas de atraso (ALLIGOOD; SAUER; YORKE, 1997; RIOS, 2013). Esses espa¸cos foram inicialmente estudados por Whitney (1936a), que aplicou variedades diferenciais para reconstruir fun¸c˜oes em espa¸cos multidimensionais. Com base nessa reconstru¸c˜ao, Whitney (1936a) propˆos o seu teorema de imers˜ao, que afirma que os atratores s˜ao melhor compreendidos quando as s´eries temporais s˜ao desdobradas em um espa¸co de alta dimens˜ao (RIOS, 2013).

Segundo Alligood, Sauer e Yorke (1997), os atratores s˜ao definidos pela presen¸ca de pontos fixos e ´orbitas que definem como as observa¸c˜oes das s´eries temporais evoluem ao longo do tempo. Nesse sentido, seja f um mapa em R e p um n´umero tal que f (p) = p. Se todos os pontos pr´oximos a p, levando em considera¸c˜ao uma vizinhan¸ca ν, forem atra´ıdos para p, ent˜ao p ´e referido como um ponto fixo de atra¸c˜ao. Por outro lado, se todos os pontos se afastarem de p, ent˜ao ´e chamado de ponto fixo de repuls˜ao. Da mesma forma, uma ´orbita ´e uma regi˜ao no espa¸co fase, em que as observa¸c˜oes s˜ao atra´ıdas ou repelidas (RIOS, 2013).

Takens (1981) provou em seu teorema que dada uma s´erie {x0, x1, ..., xn−1} esta pode

ser reconstru´ıda no espa¸co fase xn(m, τ ) = xn, xn+τ, ..., xn+(m−1)τ, tendo m a dimens˜ao

embutida e τ representando o atraso de tempo (ou dimens˜ao de separa¸c˜ao ou dimens˜ao de atraso). A dimens˜ao embutida define basicamente o n´umero de eixos necess´arios para desdobrar as s´eries temporais no espa¸co fase. A dimens˜ao de separa¸c˜ao, por outro lado, ´e importante para representar o comportamento sazonal de s´eries temporais, indicando o deslocamento necess´ario entre as observa¸c˜oes passadas (RIOS, 2013).

A estima¸c˜ao da dimens˜ao embutida foi estudada por Takens (1981) e Ma˜n´e (1981), que confirmou que o limite superior para a dimens˜ao embutida De∈ N pode ser definido pela

dimens˜ao fractal Df conforme a equa¸c˜ao De > 2, 0·Df. No entanto, estudos realizados por

Kennel, Brown e Abarbanel (1992) demonstraram que a dimens˜ao obtida a partir dessa equa¸c˜ao ´e, em geral, maior que o necess´ario, adicionando mais complexidade e tempo de execu¸c˜ao ao analisar o espa¸co fase correspondente (KENNEL; BROWN; ABARBANEL, 1992; RIOS, 2013).

Para superar essa desvantagem, Kennel, Brown e Abarbanel (1992) propuseram o m´etodo False Nearest Neighbors (FNN), que analisa a vizinhan¸ca para cada observa¸c˜ao no espa¸co fase. Em resumo, este m´etodo come¸ca a calcular a distˆancia entre as observa¸c˜oes considerando que a dimens˜ao embutida ´e igual a um. Em seguida, uma nova dimens˜ao ´e adicionada e as distˆancias s˜ao novamente calculadas. Se as distˆancias aumentam, as observa¸c˜oes s˜ao consideradas como falsos vizinhos, ou seja, as observa¸c˜oes que est˜ao juntas s˜ao separadas em dimens˜oes de maior incorpora¸c˜ao, eliminando os falsos vizinhos e evidenciando a necessidade de uma reconstru¸c˜ao dimensional mais alta. Se, ao adicionar uma nova dimens˜ao, a taxa do vizinho falso for zero, o total de dimens˜oes ser´a considerado como dimens˜ao embutida (ALLIGOOD; SAUER; YORKE, 1996; RIOS, 2013).

Formalmente, o m´etodo False Nearest Neighbors considera uma dimens˜ao embutida m, em que o vizinho r-´esimo pr´oximo a y(n) ´e definido por yr(n). A distˆancia Euclidiana

(41)

14 FUNDAMENTAC¸ ˜AO TE ´ORICA

entre a observa¸c˜ao y(n) e o r-´esimo vizinho esta presente na Equa¸c˜ao.. Adicionando uma nova dimens˜ao, a s´erie temporal ´e reconstru´ıda adicionando coordenadas (m+1) para cada vetor representando uma observa¸c˜ao y(n), como representado pelo termo x(n + mT ) na Equa¸c˜ao.. Assim, este m´etodo avalia a varia¸c˜ao de distˆancia `a medida que novas dimens˜oes s˜ao adicionadas de acordo com a Equa¸c˜ao ..

R2m(n, r) = m−1 X k=0 (x(n + kT ) − x(r)(n + kT ))2 (.) R2m+1(n, r) = Rm2(n, r) + (x(n + mT ) − x(r)(n + mT ))2 (.) Vn,r = s R2 m+1(n, r) − R2m(n, r) R2 m(n, r) = x(n + mT ) − x(n)(n + mT ) R2 m(n, r) (.) Segundo Kennel, Brown e Abarbanel (1992), se a varia¸c˜ao da distˆancia Vn,r ´e maior

que um limite Rtol, ent˜ao as observa¸c˜oes s˜ao consideradas como falsos vizinhos, sendo um

valor aceit´avel para este limite Rtol≥ 10. Para exemplificar, a Figura 2.5 demonstra uma

s´erie temporal produzida pelo sistema Lorenz (`a esquerda), em seguida, segue a mesma s´erie sendo desdobrada no espa¸co fase com valores de m = 3 e τ = 5 (`a direita).

Figura 2.5 S´erie temporal produzida pelo sistema Lorenz (`a esquerda) e a s´erie desdobrada no espa¸co fase (`a direita) (RIOS, 2013).

A ferramenta apresentada nesta se¸c˜ao permite analisar, no espa¸co fase, as s´eries que ser˜ao agrupadas. Para isso, a gera¸c˜ao de s´eries sint´eticas precisa respeitar os limites no hiperplano onde as observa¸c˜oes foram produzidas. Neste sentido, prop˜oe-se criar s´eries sint´eticas visando manter informa¸c˜oes sobre as dimens˜oes embutida e de separa¸c˜ao para

(42)

2.4 AN ´ALISE DE S ´ERIES TEMPORAIS 15

que os testes de dispers˜ao respeitem tais limites como discutido na metodologia deste trabalho.

(43)
(44)

Cap´ıtulo

3

ESTADO DA ARTE

Visando identificar ´ındices utilizados especificadamente na valida¸c˜ao de agrupamento de dados com dependˆencia temporal, foi realizada uma Revis˜ao Sistem´atica da Literatura (Systematic Literature Review – SLR) para melhor compreender as pesquisas produzida sobre o tema. Os resultados obtidos com SLR s˜ao discutidos em trˆes fases: Fase I – defini¸c˜ao dos crit´erios de busca nos reposit´orios; ase II – an´alise e quantifica¸c˜ao da qualidade dos artigos coletados; e, por fim, Fase III – conclus˜oes obtidas a partir dos artigos analisados.

3.1 FASE I: CRIT´ERIOS DE BUSCA NOS REPOSIT ´ORIOS

Nesta fase, foram determinados os crit´erios utilizados para selecionar os trabalhos rela-cionados ao problema abordado nesta pequisa. Dessa forma, foram definidos o objetivo da pesquisa, as quest˜oes principal e secund´arias relacionadas ao tema em estudo, os re-posit´orios de busca, a lista de palavras chaves, os crit´erios de inclus˜ao e exclus˜ao, e por fim, o processo geral de execu¸c˜ao.

Conforme discutido anteriormente, o objetivo desta pesquisa ´e encontrar crit´erios internos utilizados na valida¸c˜ao do agrupamento de s´eries temporais. Com base neste objetivo, elaborou-se a seguinte quest˜ao principal:

Quais s˜ao os crit´erios internos utilizados na valida¸c˜ao do agrupamento de s´eries temporais?

Al´em desta pergunta principal, foram definidas perguntas secund´arias que est˜ao di-retamente associadas `a valida¸c˜ao da pesquisa proposta. Este conjunto de perguntas s˜ao fundamentais para discutir as aplica¸c˜oes pr´aticas da pesquisa, t´ecnicas de avalia¸c˜ao e o entendimento das tendˆencias de publica¸c˜ao. Desta forma, foram elaboradas as seguintes quest˜oes secund´arias:

QS.1 - Em quais tipos de aplica¸c˜oes pr´aticas pode-se utilizar a valida¸c˜ao de agrupa-mento para s´eries temporais?

(45)

18 ESTADO DA ARTE

QS.2 - Como a valida¸c˜ao de agrupamento ´e utilizada?

QS.3 - Por que utilizar valida¸c˜ao de agrupamento para s´eries temporais?

QS.4 - Quais s˜ao os principais ´ındices usados na valida¸c˜ao do agrupamento de s´eries temporais?

QS.5 - Com que frequˆencia os artigos s˜ao publicados por ano? QS.6 - Quais s˜ao as limita¸c˜oes desses ´ındices?

Ap´os definir tais perguntas, foram selecionados os reposit´orios de pesquisa onde os estudos relacionados foram obtidos. Neste contexto, considerou-se apenas reposit´orios que aceitam consultas usando palavras-chave e que s˜ao comumente utilizados pela comunidade cient´ıfica. Os reposit´orios escolhidos foram:

• Scopus (https://www.scopus.com/)

• ACM Digital Library (https://dl.acm.org/)

• IEEE Xplore Digital Library (https://ieeexplore.ieee.org/)

A linguagem padr˜ao usada nesta revis˜ao sistem´atica foi o inglˆes, ou seja, todos os trabalhos escritos em outras l´ınguas foram descartados. Como pr´oximo passo, foram escolhidas as palavras-chave considerando a quest˜ao principal desta revis˜ao:

• Organiza¸c˜ao de dados: S´eries Temporais • Objetivos: Crit´erios Internos

• Resultados: Valida¸c˜ao de agrupamento

Com base nestas palavras-chave, definiu-se, ent˜ao, a seguinte string de busca: (“time series”) AND (“internal criteria”) AND (“cluster validity”)

Devido ao fato de que nenhum artigo relevante para o estudo foi encontrado nos reposit´orios utilizando essa consulta em inglˆes, elaborou-se uma nova string de busca que aborda um contexto mais amplo da pesquisa:

(“time series”) AND (“cluster validity”)

Al´em dos artigos retornados com as strings anteriores, optou-se por realizar uma busca nos reposit´orios por trabalhos que, especificamente, utilizam a estat´ıstica Gap para validar agrupamentos em s´eries temporais. Para tanto, definiu-se outra string de busca:

(46)

3.2 FASE II: AN ´ALISE E QUANTIFICAC¸ ˜AO DOS ARTIGOS 19

Para filtrar trabalhos diretamente relacionados com o assunto abordado na revis˜ao sistem´atica, foi realizada uma avalia¸c˜ao dos artigos para definir quais seriam inclu´ıdos ou n˜ao na revis˜ao. Nessa filtragem, optou-se por incluir trabalhos que definem claramente os crit´erios internos, externos ou relativos utilizados na valida¸c˜ao de agrupamento de s´eries temporais. Por outro lado, a exclus˜ao de artigos foi realizada sempre que os trabalhos n˜ao apresentassem um processo valida¸c˜ao de agrupamento satisfat´orio. Al´em disso, fo-ram descartados trabalhos que n˜ao realizaram uma apresenta¸c˜ao clara de utiliza¸c˜ao de valida¸c˜ao e quando havia trabalhos redundantes.

Portanto, a Fase I apresenta as condi¸c˜oes iniciais de sele¸c˜ao de artigos para revis˜ao sistem´atica. A pr´oxima fase consiste na an´alise dos artigos selecionados nesta primeira fase.

3.2 FASE II: AN ´ALISE E QUANTIFICAC¸ ˜AO DOS ARTIGOS

Atrav´es da consulta realizada nos reposit´orios apresentados, foram encontrados um total de 54 artigos, cuja distribui¸c˜ao em cada reposit´orio est´a apresentado na Tabela 3.1. Ap´os a coleta, a inclus˜ao ou exclus˜ao dos artigos encontrados foi realizada pela leitura dos t´ıtulos e dos resumos. Como resultado, grande parte dos artigos foram exclu´ıdos por se tratarem de trabalhos redundantes ou n˜ao apresentarem um estudo detalhado sobre o uso de ´ındices de valida¸c˜ao no contexto de s´eries temporais. Portanto, depois da remo¸c˜ao desse artigos restaram apenas 10 artigos que est˜ao diretamente relacionados ao assunto apresentado neste trabalho.

Tabela 3.1 N´umero de artigos encontrados pela Revis˜ao Sistem´atica.

Reposit´orio N´umero de artigos

ACM 1 IEEE 13 Scopus 40 Total 54 Inclus˜ao 10 Exclus˜ao 44

Visando responder a quest˜ao secund´aria QS.5, analisou-se a frequˆencia de publica¸c˜ao destes artigos por ano, a fim de encontrar trabalhos mais recentes e que correspondam ao assunto abordado neste projeto de mestrado. Conforme pode ser observado na Tabela 3.2, nota-se que artigos tˆem sido publicados sobre esse tema com regularidade desde 2001, apesar da baixa quantidade.

No primeiro artigo analisado, Fadili et al. (2001) apresentam uma estrat´egia explo-rat´oria orientada a dados baseada em Unsupervised Fuzzy Clustering Analysis (UFCA), validando sua estrat´egia ao analisar dados de fMRI (ressonˆancia magn´etica funcional1). Neste contexto, os autores adaptam e aplicam o algoritmo Fuzzy C-Means (FCM) aos da-dos no dom´ınio do tempo e um novo ´ındice de valida¸c˜ao de agrupamento ´e introduzido e

(47)

20 ESTADO DA ARTE

Tabela 3.2 N´umero de artigos publicados por ano.

Ano Frequˆencia

2001 1 2004 1 2007 1 2011 1 2015 1 2016 2 2017 2 2018 1

validado comparando com os ´ındices CS, S e fuzzy. Tais ´ındices tˆem por finalidade minimi-zar a variˆancia intra-cluster e maximizar a variˆancia inter-cluster. De maneira resumida, o trabalho prop˜oe um novo ´ındice de valida¸c˜ao, denominado SCF, que tira vantagem dos trˆes ´ındices citados anteriormente, levando em considera¸c˜ao a compacta¸c˜ao, separa¸c˜ao, uni˜ao e intersec¸c˜ao dos grupos obtidos. Os resultados demonstram a vantagem do ´ındice proposto (SCF) e sua efic´acia para valida¸c˜ao de dados no dom´ınio do tempo.

O trabalho publicado por Himberg, Hyv¨arinen e Esposito (2004) apresenta experi-mentos utilizando algoritmo hier´arquico sobre dados de fMRI e dados de magnetoence-falografia (MEG). O trabalho proposto baseia-se na execu¸c˜ao do algoritmo Independent Component Analysis (ICA), um modelo estat´ıstico de prop´osito geral amplamente uti-lizado na an´alise de dados de imagem cerebral. Sendo assim, os autores desenvolvem um pacote chamado Icasso, com foco na implementa¸c˜ao de um conjunto abrangente de m´etodos suportados para an´alise e visualiza¸c˜ao explorat´oria dos dados. Em uma das fa-ses deste trabalho, ap´os a aplica¸c˜ao do algoritmo ICA, o usu´ario explora o agrupamento, iniciando uma aplica¸c˜ao de visualiza¸c˜ao interativa. Assim, o mesmo examina a qualidade dos grupos. Posteriormente, ´e poss´ıvel visualizar a matriz de similaridade entre todas as instˆancias e sua parti¸c˜ao final obtida em um ´unico gr´afico, produzido a partir do m´etodo de liga¸c˜ao average-link. Neste pacote ´e introduzido um ´ındice de qualidade de grupo, Iq,

que reflete sua compacta¸c˜ao e seu isolamento. Esse ´ındice ´e computado pela diferen¸ca entre as similaridades m´edias intra-cluster e intercluster. Al´em desses ´ındices, os autores analisam os ´ındices Dunn-like e R-index (IR). Entretanto, a conclus˜ao do trabalho ´e

que, muitas vezes, os ´ındices produzem resultados diferentes dependendo do car´ater dos dados utilizados, sem indica¸c˜ao clara de superioridade geral. Logo, com base nos expe-rimentos realizados, o trabalho n˜ao sugere nenhum ´ındice vencedor definitivo. Por outro lado, recomenda-se que a sele¸c˜ao final do n´umero de grupos deve ser feito pelo usu´ario, o qual pode explorar, de forma interativa, os resultados produzidos por diferentes n´ıveis de dendrograma.

No trabalho de Meyer-B¨ase et al. (2007) s˜ao aplicados algoritmos de agrupamento, tais como Kohonen’s self-organizing map, Minimal free energy vector quantizer e ”Neural gas”network em s´eries temporais de imagens biom´edicas em aplica¸c˜oes para: (i) an´alise de dados de fMRI para mapeamento do c´erebro humano; (ii) ressonˆancia magn´etica de contraste dinˆamica para o diagn´ostico de doen¸ca cerebrovascular; e (iii) ressonˆancia

(48)

3.2 FASE II: AN ´ALISE E QUANTIFICAC¸ ˜AO DOS ARTIGOS 21

magn´etica de mama para a segmenta¸c˜ao de les˜oes suspeitas de pacientes com cˆancer de mama. Para a valida¸c˜ao dos agrupamentos obtidos s˜ao utilizados trˆes ´ındices: (i) Kim; (ii) Calinski Harabasz (CH); e (iii) intraclass. Apesar dos estudo experimental, os autores afirmam que n˜ao ´e poss´ıvel determinar qual o melhor ´ındice para validar agrupamento em s´eries temporais de imagens biom´edicas.

Maji e Paul (2011) aplicam o algoritmo Rough-fuzzy C-Means (RFCM) a fim de descobrir grupos de genes co-expressos a partir de dados de microarray, que ´e uma an´alise importante em genˆomica funcional. Uma compara¸c˜ao entre RFCM e outros algoritmos de agrupamento foi realizada considerando cinco conjuntos de dados de s´eries temporais de microarray de levedura. Os resultados obtidos foram validados com os ´ındices Davies-Bouldin e Silhouette. Com base nos resultados quantitativos desses ´ındices, estimou-se que o algoritmo RFCM produz melhor resultado de agrupamento do que os algoritmos convencionais.

Salgado, Ferreira e Vieira (2017) demonstram em seu trabalho as vantagens do al-goritmo Mixed Fuzzy Clustering (MFC) ao avaliar s´eries temporais de dados m´edicos que descrevem a evolu¸c˜ao de uma vari´avel fisiol´ogica. O calculo da distˆancia entre as s´eries foi realizado usando Dynamic Time Warping (DTW). A performance dos algorit-mos comparados foi avaliada usando medidas de valida¸c˜ao de agrupamento, mostrando que o algoritmo proposto supera o Fuzzy C-Means. A valida¸c˜ao foi realizada com os ´ındices interno de valida¸c˜ao Xie-Beni (XB) e Dunn, os quais s˜ao comumente utilizados no agrupamento fuzzy, e com os ´ındices de valida¸c˜ao externa Rand e precis˜ao. Em geral, o algoritmo MFC identifica grupos mais compactos do que o FCM, conforme expresso pelo ´ındice XB, em cada conjunto de dados testado. Nesse trabalho, os autores observam que tipos diferentes de ´ındices s˜ao usados para resolver diferentes tipos de problemas e a sele¸c˜ao do melhor ´ındice depende do tipo de dados, da t´ecnica de agrupamento e, em ´

ultima an´alise, do objetivo do estudo.

Das e Padhy (2017) combinam os algoritmos Unsupervised Extreme Learning Machine (US-ELM ) e Support Vector Machine (SVR), propondo um modelo h´ıbrido chamado USELM-SVR. O algoritmo ´e comparado com os algoritmos SOM e k-means utilizando dados de s´eries temporais da ´area financeira. Os dados de entrada s˜ao normalizados e inseridos nos m´etodos de ´ındice interno de valida¸c˜ao para c´alculo do n´umero ´otimo de clusters. Assim, o algoritmo USELM-SVR executa os dados de entrada com base no n´umero ideal de clusters. Os ´ındices considerados nos experimentos foram: Silhou-ette, em que ´e prefer´ıvel valor de ´ındice alto; Davies-Bouldin, prefer´ıvel valor de ´ındice baixo; Calinski-Harabasz, prefer´ıvel valor de ´ındice alto; Krzanowski-Lai, prefer´ıvel valor de ´ındice alto; weighted inter-intra, prefer´ıvel valor de ´ındice alto e homogeneity, prefer´ıvel valor de ´ındice alto. Os valores dos ´ındices foram calculados para n´umero de grupos vari-ando de 2 a 6. Os resultados mostram que os melhores valores para os ´ındices Silhouette, Davies-Bouldin, weighted inter-intra e homogeneity foram obtidos usando 5 grupos. Os ´ındices Calinski-Harabasz e Krzanowski-Lai sugerem 2 grupos. Por fim, foi utilizado 5

grupos, sugerido pela maioria dos ´ındices.

Homenda e Jastrzebska (2017) apresentam uma abordagem para modelagem de s´eries temporais, sint´eticas e reais, com Fuzzy Cognitive Maps. A pesquisa teve como ob-jetivo introduzir meios algor´ıtmicos para avaliar o Fuzzy Cognitive Map antes da fase

Referências

Documentos relacionados

Janaína Oliveira, que esteve presente em Ouagadougou nas últimas três edições do FESPACO (2011, 2013, 2015) e participou de todos os fóruns de debate promovidos

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

F REQUÊNCIAS PRÓPRIAS E MODOS DE VIBRAÇÃO ( MÉTODO ANALÍTICO ) ... O RIENTAÇÃO PELAS EQUAÇÕES DE PROPAGAÇÃO DE VIBRAÇÕES ... P REVISÃO DOS VALORES MÁXIMOS DE PPV ...

A versão reduzida do Questionário de Conhecimentos da Diabetes (Sousa, McIntyre, Martins & Silva. 2015), foi desenvolvido com o objectivo de avaliar o

intitulado “O Plano de Desenvolvimento da Educação: razões, princípios e programas” (BRASIL, 2007d), o PDE tem a intenção de “ser mais do que a tradução..

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

Na experiência em análise, os professores não tiveram formação para tal mudança e foram experimentando e construindo, a seu modo, uma escola de tempo

Dessa forma, diante das questões apontadas no segundo capítulo, com os entraves enfrentados pela Gerência de Pós-compra da UFJF, como a falta de aplicação de