Experiências com variações prequential para avaliação da aprendizagem em fluxo de dados

(1)

Juan Isidro González Hidalgo

Experiências com Variações Prequential para

Avaliação da Aprendizagem em Fluxo de Dados

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br http://cin.ufpe.br/~posgraduacao

RECIFE

2017

(2)

Juan Isidro González Hidalgo

Experiências com Variações Prequential para Avaliação

da Aprendizagem em Fluxo de Dados

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Universidade Fe-deral de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Roberto Souto Maior de

Barros

RECIFE

2017

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

H632e Hidalgo, Juan Isidro González

Experiências com variações prequential para avaliação da aprendizagem em fluxo de dados / Juan Isidro González Hidalgo. – 2017.

93 f.: il., fig., tab.

Orientador: Roberto Souto Maior de Barros.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2017.

Inclui referências e apêndices.

1. Ciência da computação. 2. Fluxo de dados. I. Barros, Roberto Souto Maior de (orientador). II. Título.

004 CDD (23. ed.) UFPE- MEI 2017-191

(4)

Juan Isidro González Hidalgo

Experiências com Variações Prequential para Avaliação da Aprendizagem em Fluxo de Dados

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação

Aprovado em: 04/08/2017.

BANCA EXAMINADORA

__________________________________________ Prof. Dr. Ricardo Bastos Cavalcante

Centro de Informática / UFPE

__________________________________________ Prof. Dr. Paulo Maurício Gonçalves Júnior Instituto Federal de Pernambuco – Campus Recife

__________________________________________ Prof. Dr. Roberto Souto Maior de Barros

Centro de Informática / UFPE

(5)

Dedico esta dissertação a todas as pessoas que, de uma forma ou de outra, me apoiaram incondicionalmente para lograr esse sonho de me formar como Mestre em Ciência da

(6)

Agradecimentos

Agradeço aos meus pais todo o amor e o carinho, pela forma deslumbrante com que sempre me trataram e especialmente pelos seus bons conselhos durante toda a minha vida.

Aos meus avós Dora e Evilio por seu amor, esforço e dedicação durante todos estes anos. Muito obrigado a vocês por ser os modelos em que procuro me espelhar sempre.

Agradeço a meu orientador, Professor Roberto Souto Maior de Barros, pelos ensina-mentos, seu exemplo de ética, por me aceitar em sua turma de orientandos, por confiar em mim e, sobretudo, pela paciência em todos os momentos. Sou muito grato de ter você como meu orientador porque tenho a certeza absoluta de que estou me formando com seu exemplo de profissão intelectual.

Agradeço especialmente a meu amigo Bruno Maciel pela amizade, motivação e cola-boração em tudo o que precisei para realizar este trabalho.

A Yarima Sanchez García por seu amor e carinho, pelos bons conselhos e o apoio incondicional em todos os momentos.

A José Luís Martinez por seu apoio e pelas ideias sugeridas para realizar este trabalho. Agradeço aos meus amigos e irmãos dos anos Dailys e Yaicel. Muito obrigado por ter me dado a oportunidade de continuar fazendo parte de suas vidas, sem a ajuda de vocês hoje eu não estivesse aqui.

Agradeço a todos os professores do programa de pós-graduação em ciências da com-putação, principalmente aqueles que tive contato na sala de aula. Muito obrigado pelos conhecimentos adquiridos.

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pela bolsa de estudos de Mestrado.

(7)

“Só um sentido de invenção e uma necessidade intensa de criar levam o homem a revoltar-se, a descobrir e a descobrir-se com lucidez.” (Pablo Picasso)

(8)

Resumo

Fluxo de dados (Data Stream) é uma sequência ordenada de instâncias que chegam a uma velocidade que não permite que sejam armazenadas permanentemente na memó-ria. Tais dados são potencialmente ilimitados no tamanho, tornando-os impossíveis de serem processados pela maioria das abordagens tradicionais de mineração de dados. Es-tes acontecimentos impõem novas exigências aos algoritmos de aprendizagem devido às especificidades dos ambientes dinâmicos. A maioria deles aprende modelos de decisão que evoluem continuamente ao longo do tempo, tornando evidente que a não estacionaridade dificulta o processo de aprendizagem, onde ocorrem mudanças na distribuição de pro-babilidade dos dados – Mudança de Conceito (Concept Drift). Uma questão importante, ainda não convenientemente abordada, é o projeto de trabalho experimental para avaliar e comparar modelos de decisão que evoluem ao longo do tempo. A metodologia Prequential é uma abordagem utilizada para a avaliação de desempenho de classificadores em fluxos de dados com distribuições estacionárias e não estacionárias. Ela é baseada na premissa de que o objetivo da inferência estatística é fazer previsões de probabilidade sequencial para observações futuras, em vez de expressar informações sobre a acurácia passada alcançada. Este trabalho realiza uma avaliação empírica da metodologia abordada considerando as três estratégias utilizadas para atualizar o modelo de predição, a saber Basic Window (Janela Básica), Sliding Window (Janela Deslizante), e Fading Factors (Fator de Desva-necimento). Especificamente, procura-se identificar qual das variações é a mais adequada para a avaliação experimental dos resultados em cenários onde acontecem mudanças de conceitos, com maior interesse nas observações passadas dentro do fluxo total de dados. As métricas adotadas para a avaliação são acurácia Prequential dos enfoques e a acurácia real obtida no processo de aprendizagem de cada fluxo de dados. Os resultados dos expe-rimentos realizados sugerem que a utilização de Prequential na variação Sliding Window seja a melhor alternativa.

(9)

Abstract

A data stream is an ordered sequence of instances that arrive at a rate that does not allow them to be permanently stored in memory. Such data are potentially unlimited in size, rendering it impossible to be processed by most traditional data mining approaches. These events require new requirements of the learning algorithms due to the specifics of dynamic environments. Most of them learn decision models that evolve continuously over time, making it evident that non-stationarity hinders the learning process, where changes occur in the distribution of probability of the data (Concept Drift). An impor-tant issue, not yet adequately addressed, is the experimental work project to evaluate and compare decision models that evolve over time. The Prequential methodology is an approach used to evaluate the performance of classifiers in data streams with stationary and non-stationary distributions. It is based on the premise that the goal of statistical inference is to make sequential probability forecasts for future observations, instead of ex-pressing information about the past predictions accuracy. This work makes an empirical evaluation of the methodology, considering the three strategies used to update the pre-diction model, namely Basic Window, Sliding Window, and Fading Factors. Specifically, it seeks to identify which of the variations is most appropriate for the experimental eval-uation of the results in scenarios where concept drifts occur, with greater interest in the accuracy observed within the total data flow. The metrics adopted for the evaluation are Prequential accuracy of the approaches and the actual accuracy obtained in the learning process of each data stream. The results of the carried out experiments suggest that the use of Prequential in the variation Sliding Window is the best alternative.

(10)

Lista de ilustrações

Figura 1 – Avaliação Prequential. . . 35 Figura 2 – Comparação entre as diferenças de acurácia prequential das variações,

através do Teste de 𝐹 𝑟𝑖𝑒𝑑𝑚𝑎𝑛 e o Pós-Teste 𝑁𝑒𝑚𝑒𝑛𝑦𝑖, em cenários de mudanças de conceito abruptas, com 95% de intervalo de confiança utilizando o detector artificial e os classificadores: (𝑎) NB, (𝑏) HT e (𝑐) os dois. . . 60 Figura 3 – Comparação entre as diferenças de acurácia prequential das variações,

através do Teste de 𝐹 𝑟𝑖𝑒𝑑𝑚𝑎𝑛 e o Pós-Teste 𝑁𝑒𝑚𝑒𝑛𝑦𝑖, em cenários de mudanças de conceito abruptas, com 95% de intervalo de confiança sem o detector artificial e utilizando os classificadores: (𝑎) NB, (𝑏) HT e (𝑐) os dois. . . 61 Figura 4 – Comparação entre as diferenças de acurácia prequential das variações

e 𝐴𝐶𝐶𝑟, através do Teste de 𝐹 𝑟𝑖𝑒𝑑𝑚𝑎𝑛 e o Pós-Teste 𝑁𝑒𝑚𝑒𝑛𝑦𝑖

utili-zando o detector artificial, combinando todos os cenários de mudanças de conceito, com 95% de intervalo de confiança. . . 64 Figura 5 – Comparação entre as diferenças de acurácia prequential das variações,

através do Teste de 𝐹 𝑟𝑖𝑒𝑑𝑚𝑎𝑛 e o Pós-Teste 𝑁𝑒𝑚𝑒𝑛𝑦𝑖, utilizando os conjuntos de dados artificiais: (𝑎) Agrawal, (𝑏) Mixed e (𝑐) Waveform. . 65

(11)

Lista de tabelas

Tabela 1 – Resumo descritivo de bases de dados artificiais. . . 49 Tabela 2 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando o detector artificial com NB nos conjuntos de dados

artificiais com todos os tipos de mudanças de conceito. . . 51 Tabela 3 – Médias – em Porcentagem (%) – da acurácia prequential das variações e

𝐴𝐶𝐶𝑅, utilizando o detector artificial com HT nos geradores artificiais

com todos os tipos de mudanças de conceito. . . 52 Tabela 4 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando NB nos conjuntos de dados artificiais com todos

os tipos de mudanças de conceito sem detector. . . 52 Tabela 5 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando HT nos conjuntos de dados artificiais com todos

os tipos de mudanças de conceito sem detector. . . 53 Tabela 6 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝑊 𝑆𝑇 𝐷 com NB nos conjuntos de dados

artificiais com todos os tipos de mudanças de conceito. . . 53 Tabela 7 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝑊 𝑆𝑇 𝐷 com HT nos conjuntos de dados

artificiais com todos os tipos de mudanças de conceito. . . 54 Tabela 8 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector artificial com NB nos

conjun-tos de dados artificiais com todos os tipos de mudanças de conceito. . . 54 Tabela 9 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector artificial com HT nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando NB nos conjuntos de dados artificiais

com todos os tipos de mudanças de conceito sem o detector. . . 55 Tabela 11 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando HT nos conjuntos de dados artificiais

com todos os tipos de mudanças de conceito sem o detector. . . 56 Tabela 12 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑊 𝑆𝑇 𝐷 com NB nos conjuntos

(12)

Tabela 13 – Diferenças das acurácias (prequential) das variações em relação a acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑊 𝑆𝑇 𝐷 com HT nos conjuntos

de dados artificiais com todos os tipos de mudanças de conceito. . . 57 Tabela 14 – Teste 𝑧 com as comparações entre as variações prequential utilizando o

detector artificial 𝐴𝐷𝐷𝑀, sem a presença de detectores e com 𝑊 𝑆𝑇 𝐷 nos diferentes cenários de mudanças de conceito. . . 57 Tabela 15 – Teste 𝑧 com as comparações entre as variações prequential utilizando

todos os detectores nos diferentes cenários de mudanças de conceito. . 58 Tabela 16 – Medições dos ranks das variações prequential em todos os tipos de

mudanças de conceito com os detectores. . . 58 Tabela 17 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐴𝐷𝑊 𝐼𝑁 com NB nos conjuntos de

dados artificiais com todos os tipos de mudanças de conceito. . . 77 Tabela 18 – Médias – em Porcentagem (%) – da acurácia prequential das variações

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐴𝐷𝑊 𝐼𝑁 com HT nos conjuntos de

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐷𝐷𝑀 com NB nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐷𝐷𝑀 com HT nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐸𝐶𝐷𝐷 com NB nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐸𝐶𝐷𝐷 com HT nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐸𝐷𝐷𝑀 com NB nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐸𝐷𝐷𝑀 com HT nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐹 𝐻𝐷𝐷𝑀 com NB nos conjuntos de

(13)

Tabela 26 – Médias – em Porcentagem (%) – da acurácia prequential das variações e 𝐴𝐶𝐶𝑅, utilizando o detector 𝐹 𝐻𝐷𝐷𝑀 com HT nos conjuntos de

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝑆𝑒𝑞𝐷𝑟2 com NB nos conjuntos de dados

e 𝐴𝐶𝐶𝑅, utilizando o detector 𝑆𝑒𝑞𝐷𝑟2 com HT nos conjuntos de dados

𝐴𝐶𝐶𝑅, utilizando o detector 𝑆𝑇 𝐸𝑃 𝐷 com NB nos conjuntos de dados

𝐴𝐶𝐶𝑅, utilizando o detector 𝑆𝑇 𝐸𝑃 𝐷 com HT nos conjuntos de dados

artificiais com todos os tipos de mudanças de conceito. . . 84 Tabela 31 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐴𝐷𝑊 𝐼𝑁 com NB nos

con-juntos de dados artificiais com todos os tipos de mudanças de conceito. 85 Tabela 32 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐴𝐷𝑊 𝐼𝑁 com HT nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐷𝐷𝑀 com NB nos conjuntos

de dados artificiais com todos os tipos de mudanças de conceito. . . 86 Tabela 34 – Diferenças das acurácias (prequential) das variações em relação a

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐷𝐷𝑀 com HT nos conjuntos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐸𝐶𝐷𝐷 com NB nos conjuntos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐸𝐶𝐷𝐷 com HT nos conjuntos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐸𝐷𝐷𝑀 com NB nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐸𝐷𝐷𝑀 com HT nos

(14)

Tabela 39 – Diferenças das acurácias (prequential) das variações em relação a acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐹 𝐻𝐷𝐷𝑀 com NB nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐹 𝐻𝐷𝐷𝑀 com HT nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐻𝐷𝐷𝑀𝐴 com NB nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝐻𝐷𝐷𝑀𝐴 com HT nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑆𝑒𝑞𝐷𝑟2 com NB nos conjuntos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑆𝑒𝑞𝐷𝑟2 com HT nos conjuntos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑆𝑇 𝐸𝑃 𝐷 com NB nos

acu-rácia real (𝐴𝐶𝐶𝑅), utilizando o detector 𝑆𝑇 𝐸𝑃 𝐷 com HT nos

(15)

Lista de abreviaturas e siglas

ADWIN Adaptive Windowing.

BW Basic Window.

DDM Drift Detection Method.

ECDD EWMA for Concept Drift Detection. EDDM Early Drift Detection Method.

EWMA Exponentially Weighted Moving Average. FF Fading Factors.

FHDDM Fast Hoeffding Drift Detection Method. FN Falsos Negativos.

FP Falsos Positivos.

HDDM Drift Detection Method Based on Hoeffding’s Inequality. HT Hoeffding Tree.

MOA Massive Online Analysis. NB Naive Bayes.

PAC Probably Approximately Correct.

SeqDrift1 Sequential Drift Change Detector 1. SeqDrift2 Sequential Drift Change Detector 2. STEPD Statistical Test of Equal Proportions. SW Sliding Window.

(16)

Sumário

1 INTRODUÇÃO . . . 18 1.1 Contexto . . . 18 1.2 Objetivos . . . 20 1.3 Metodologia . . . 20 1.4 Organização do Trabalho . . . 21

2 CLASSIFICAÇÃO E DETECÇÃO DE MUDANÇAS DE CONCEITO 23 2.1 Classificação . . . 23

2.2 Algoritmos de Classificação . . . 24

2.2.1 Naive Bayes . . . 24

2.2.2 Hoeffding Tree . . . 25

2.3 Detecção de Mudanças de Conceito . . . 25

2.3.1 Detectores de Mudanças de Conceito . . . 26

2.3.1.1 DDM . . . 27 2.3.1.2 EDDM . . . 27 2.3.1.3 STEPD . . . 28 2.3.1.4 WSTD . . . 28 2.3.1.5 ADWIN . . . 29 2.3.1.6 ECDD . . . 30 2.3.1.7 SeqDrift1 . . . 30 2.3.1.8 SeqDrift2 . . . 31 2.3.1.9 HDDM . . . 31 2.3.1.10 FHDDM . . . 32

2.3.2 Detector Artificial de Mudanças de Conceito. . . 33

2.4 Conclusões . . . 33

3 AVALIAÇÃO PREQUENTIAL E TESTES ESTATÍSTICOS . . . 34

3.1 Prequential . . . 34 3.1.1 Basic Window . . . 35 3.1.2 Sliding Window . . . 36 3.1.3 Fading Factors . . . 37 3.2 Acurácia Prequential . . . 39 3.3 Testes Estatísticos . . . 40 3.3.1 Fundamentos relevantes . . . 40 3.3.2 Testes Paramétricos . . . 41

(17)

3.3.3 Testes Não Paramétricos . . . 42

3.3.3.1 Teste de Friedman . . . 42

3.3.3.2 Pós-Teste de Nemenyi . . . 43

3.4 Conclusões . . . 44

4 ESTUDO EMPÍRICO E RESULTADOS . . . 45

4.1 Configuração dos Experimentos . . . 45

4.2 Bases Artificiais. . . 46 4.2.1 Agrawal . . . 47 4.2.2 LED . . . 47 4.2.3 Mixed . . . 48 4.2.4 Random RBF . . . 48 4.2.5 Sine . . . 48 4.2.6 WaveForm . . . 49

4.3 Resultados dos experimentos . . . 49

4.4 Análise dos resultados . . . 59

4.4.1 Cenário de Mudanças de Conceito Abruptas . . . 59

4.4.2 Cenário de Mudanças de Conceito Graduais . . . 61

4.4.3 Cenário de Mudanças de Conceito Muito Graduais . . . 62

4.4.4 Considerações gerais . . . 63

4.5 Conclusões . . . 65

5 CONCLUSÕES . . . 66

5.1 Contribuições . . . 67

5.2 Publicações . . . 67

5.3 Perspectivas para trabalhos futuros . . . 68

REFERÊNCIAS . . . 69

APÊNDICE A – PROVAS DE CONVERGÊNCIA DO ERRO PRE-QUENTIAL . . . 74

A.1 Limite do erro Prequential utilizando uma janela básica (Basic Window) . . . 74

A.2 Limite do erro Prequential utilizando uma janela deslizante (Sliding Window) . . . 75

A.3 Limite do erro Prequential com fatores de desvanecimento (Fa-ding Factors) . . . 76

(18)

APÊNDICE B – TABELAS DETALHADAS, POR DETECTORES, COM AS MÉDIAS DA ACURÁCIA PREQUEN-TIAL DAS VARIAÇÕES E A ACURÁCIA REAL . 77 APÊNDICE C – TABELAS DETALHADAS, POR DETECTORES,

COM AS DIFERENÇAS DAS ACURÁCIAS PRE-QUENTIAL DAS VARIAÇÕES EM RELAÇÃO À ACURÁCIA REAL . . . 85

(19)

18

1 INTRODUÇÃO

1.1 Contexto

A evolução da tecnologia tem trazido grandes desafios, um dos mais importantes é lidar com metodologias ágeis que nos possibilitem extrair conhecimento a partir de grandes vo-lumes de dados. Mesmo que essa situação seja desafiadora, o homem é incansável, e a todo momento busca aprimorar as metodologias existentes e desempenhar novas investigações suficientemente autônomas no aprendizado para a criação de modelos que sejam capazes de extrair este conhecimento. A classificação de dados é uma área de pesquisa popular e, ao longo dos anos, várias abordagens têm sido propostas para estimar a acurácia e outras métricas (MASUD et al., 2011;BRZEZINSKI; STEFANOWSKI, 2014).

Na aprendizagem de máquina supervisionada tradicional (FACELI et al., 2011), a tarefa

de classificação é realizada utilizando dados estáticos e os dados completos estão nor-malmente disponíveis para que os classificadores trabalhem. No entanto, em ambientes dinâmicos, o trabalho é feito com dados gerados como um fluxo (streams).

O processo de trabalho com fluxos de dados exige novas demandas e tarefas desafi-adoras na área de mineração de dados e aprendizagem de máquina. Requerimentos ou restrições como utilizar um pequeno tempo constante por dados de exemplo e/ou uma quantidade fixa de memória principal, independentemente do número total de exemplos, e construir um modelo de decisão usando uma única exploração nos dados de treinamento são algumas das características indicadas aos sistemas de aprendizagem para extrair in-formação de forma eficiente em fluxos de dados contínuos com grande volume de dados (HULTEN; SPENCER; DOMINGOS, 2001).

Os dados não estacionários desempenham um papel fundamental nos ambientes dinâ-micos especialmente quando a distribuição de probabilidade dos dados muda ao longo do tempo, o que é chamado de mudança de conceito (Concept Drift) (BRZEZIŃSKI, 2010).

Uma das categorizações das mudanças de conceito refere-se à velocidade de mudança de um conceito para outro no fluxo de dados, que pode ser abrupta ou gradual (MINKU; WHITE; YAO, 2010). Outra acontece no contexto onde tais mudanças provocam reações

nas distribuições dos dados e que são nomeadas reais ou virtuais (WIDMER; KUBAT, 1993; GONÇALVES JR.; BARROS, 2013) .

Nestes cenários, é necessário atualizar o modelo de decisão em tempo real. Os classifi-cadores precisam ser capazes de incorporar novas informações na velocidade que os dados chegam, e também precisam identificar as mudanças e adaptar os modelos de decisão com os dados mais recentes. Além disso, eles muitas vezes implementam algum mecanismo de esquecimento para manter o modelo de decisão atualizado para os dados mais recentes,

(20)

Capítulo 1. INTRODUÇÃO 19

devido à possibilidade da mudança na distribuição (DOMINGOS; HULTEN, 2000; GAMA et al., 2014). Finalmente, em fluxos de dados, os modelos são dinâmicos e não existe um

conjunto de treinamento finito específico, isto é, cada instância rotulada pode ser utilizada para treinamento.

A avaliação de modelos de decisão que evoluem ao longo do tempo é muitas vezes realizada de acordo com a acurácia, o tempo de execução, e o consumo de memória. No que diz respeito à velocidade de processamento de dados, os algoritmos devem processar os exemplos rapidamente e no momento em que eles chegam. O uso da memória ao longo do tempo também precisa ser avaliado, bem como seu impacto sobre a precisão do modelo. Por fim, a aderência do modelo atual aos dados mais recentes também precisa ser medida (GAMA; SEBASTIÃO; RODRIGUES, 2009).

Avaliar modelos de decisão evolutivos não é simples. A metodologia de avaliação Pre-quential (DAWID, 1984) é considerada a mais apropriada para ambientes dinâmicos com

distribuições não-estacionárias e é definida como a soma cumulativa dos erros sequenciais ao longo do tempo, ou seja, a função de perda entre as previsões e os valores observados. No entanto, há três variações mais comuns: Basic Window (BW), Sliding Window (SW) e Fading Factors (FF) (GAMA; SEBASTIÃO; RODRIGUES, 2013).

Cada uma das variações Prequential tem algumas dificuldades durante o processo de avaliação dos algoritmos de aprendizagem: BW complica a análise do potencial de classi-ficação real do classificador em um dado momento devido ao uso de todas as instâncias processadas no fluxo de dados para atualizar o modelo de decisão; com SW é difícil de-limitar o tamanho adequado da janela para determinar as diferentes fases nas mudanças de conceito; e, finalmente, com o uso do método FF, é difícil determinar o valor adequado do fator de desvanecimento usado na atualização do modelo de decisão.

Mesmo assim, muitas pesquisas da área que utilizam esta metodologia de avaliação alegam que prever os índices de acerto futuros dentro do processo da aprendizagem em fluxos de dados é o mais aconselhável, pelo que neste sentido as variações SW e FF são as mais indicadas a aplicar nas experimentações para avaliar a classificação pela particularidade que possuem de esquecer as observações mais antigas nos dados (GAMA; SEBASTIÃO; RODRIGUES, 2009; GAMA; SEBASTIÃO; RODRIGUES, 2013; FRÍAS-BLANCO,

2014).

Além disso, não está esclarecido o que poderia acontecer com a performance dos dife-rentes enfoques prequential quando é tomada em consideração as medições das observações passadas em um fluxo de dados para avaliar experimentalmente outros ambientes ligados com a classificação.

Todo o exposto anteriormente é um problema para o qual a ciência ainda não tem dado respostas definitivas. Para tentar dar mais um passo nesse sentido, a pesquisa atual propõe-se a responder a seguinte questão, que é o seu problema de investigação. A avalia-ção experimental realizada pelas variações Prequential possuem o comportamento

(21)

seme-Capítulo 1. INTRODUÇÃO 20

lhante no que se refere ao índice de acertos passados dentro do fluxo total de dados onde acontecem mudanças de conceitos?

1.2 Objetivos

Uma vez levadas em conta as considerações mencionadas anteriormente, o objetivo geral deste trabalho é: Identificar qual das variações da metodologia Prequential é a mais ade-quada para a avaliação experimental dos resultados passados em cenários onde acontecem mudanças de conceitos na distribuição dos dados.

Como objetivos específicos a serem obtidos durante e após o desenvolvimento deste trabalho, estão:

• Explicar o detector artificial de mudanças de conceito introduzido no trabalho e sua vinculação à tarefa de classificação na metodologia Prequential.

• Descrever as variações da metodologia abordada utilizando o cálculo das estimativas dos erros para avaliar os modelos de decisão evolutiva.

• Aplicar avaliações estatísticas às variações da metodologia abordada, utilizando en-foques paramétricos e não paramétricos.

• Comparar os resultados das diferenças das medições da acurácia Prequential obtida nos experimentos com a medida da acurácia real do fluxo total de dados, para conhecer qual delas apresenta melhor aproximação, e assim, identificar a variação mais apropriada a utilizar experimentalmente.

1.3 Metodologia

Para atingir os objetivos desejados, foram seguidas as metodologias de pesquisa teórica e empírica. Neste sentido, foram analisados trabalhos científicos relacionados, também foram formulados e discutidos os conceitos de pesquisa teórica e empírica da investigação, e finalmente foram feitas avaliações empíricas das variações do método prequential. Na análise da investigação relacionada, identificam-se as desvantagens ou necessidades das abordagens prequential existentes. As soluções propostas são validadas experimentalmente usando uma avaliação adequada e uma grande variedade de dados relevantes.

Desta forma, são apresentadas as seguintes tarefas de investigação no decorrer do projeto:

• Estudo do estado de arte da classificação de dados em ambientes dinâmicos, tendo maior ênfase nos dados não estacionários onde acontecem mudanças de conceito. • Revisão bibliográfica sobre detectores de mudanças de conceitos em fluxo de dados.

(22)

• Revisão bibliográfica sobre a metodologia de avaliação Prequential.

• Investigação dos testes estatísticos paramétricos e não paramétricos mais usados para identificar qual é a variação da metodologia mais apropriada a usar experi-mentalmente em ambientes onde acontecem mudanças de conceito.

• Levantamento bibliográfico sobre os geradores de bases de dados artificiais que con-tenham mudanças de conceitos em fluxos de dados.

• Realização dos experimentos, utilizando o ambiente Massive Online Analysis (MOA) (BIFET et al., 2010), usando conjuntos de dados sintéticos com mudanças de conceito,

utilizando o detector artificial de mudanças de conceito introduzido no trabalho, depois sem a presença deste detector de alterações artificias; e finalmente, com o uso de detectores de mudanças de conceito na distribuição dos dados não estacionários formados em cada base de dados.

• Análise dos resultados dos experimentos e conclusões da pesquisa.

1.4 Organização do Trabalho

Os próximos capítulos da dissertação estão organizados da seguinte forma:

• Capítulo 2: O escopo deste capítulo é fundamentar os principais conceitos da classificação em fluxo de dados introduzindo os algoritmos de classificação Naive Bayes (NB) e Hoeffding Tree (HT) usados no trabalho, assim como fazer uma breve revisão conceitual do desempenho da detecção de mudanças de conceitos.

• Capítulo 3: O propósito deste capítulo é fornecer o estado de arte da abordagem Prequential para a avaliação de desempenho de classificadores em fluxos de dados, juntamente com a apresentação de conceitos fundamentais que serão utilizados ao longo da dissertação, com especial atenção às suas três variações (BW, SW e FF). Além disso, é apresentada uma breve descrição da estatística paramétrica e não paramétrica utilizada neste trabalho, para identificar na avaliação experimental qual foi a variação Prequential com o melhor desempenho.

• Capítulo 4: Este capítulo descreve todas as informações relevantes sobre os ex-perimentos desenvolvidos no trabalho, incluindo também uma breve descrição dos conjuntos de dados sintéticos usados nos testes. Além disso, são apresentados os resultados obtidos, estabelecendo a relevância significativa que possuem as varia-ções de Prequential entre elas, levando em consideração as diferenças das medivaria-ções dos percentuais de acurácia prequential e acurácia real obtidas após a aplicação dos métodos estatísticos.

(23)

• Capítulo 5: Por último este capítulo apresenta as conclusões e contribuições refe-rentes à pesquisa realizada nesta dissertação e também são apresentadas algumas perspectivas para trabalhos futuros.

(24)

23

2 CLASSIFICAÇÃO E DETECÇÃO DE

MU-DANÇAS DE CONCEITO

Um tema que tem vital importância no aprendizado online é a classificação em fluxo de dados. Neste capítulo denota-se a abordagem conceitual da classificação em fluxo de dados. Nesse contexto, apresenta-se uma breve descrição dos algoritmos de classificação Naive Bayes (NB) e Hoeffding Tree (HT) utilizados nos experimentos da dissertação para avaliar as variações de prequential. Também descreve-se o processo de trabalho dos detectores de mudanças de conceito e sua vinculação com a tarefa de classificação na metodologia prequential.

2.1 Classificação

A classificação é uma forma de análise de dados onde um modelo ou classificador é cons-truído para predizer ou prever as classes (categóricas) rotuladas ou etiquetadas. Essas categorias podem ser representadas por valores discretos, onde a ordenação entre eles não tem nenhuma importância (HAN; PEI; KAMBER, 2011). Neste sentido, a predição

desem-penha um papel fundamental neste processo, no qual o modelo construído prevê uma função de valor contínuo, ou valor ordenado, ao invés de um rótulo categórico.

O processo de trabalho da classificação é dividido em duas etapas:

• Construção do modelo: Nesta primeira etapa descreve-se um conjunto de clas-ses predeterminadas. Cada amostra pertence a uma classe predefinida, conforme determinado pelo atributo da classe rotulada. O conjunto de amostras usado para construir o modelo é o conjunto de treinamento. Esse modelo é representado por regras de classificação, árvores de decisão, ou fórmulas matemáticas.

• Uso do modelo: Este segundo passo é efetuado para a classificação dos objetos futuros ou desconhecidos. É aqui onde a precisão do modelo é estimada. Para fazer a estimação, o rótulo conhecido da amostra de teste é comparado com o resultado classificado do modelo: a taxa de precisão é a porcentagem do conjunto de amostras que são corretamente classificadas pelo modelo. Observe-se que o conjunto de teste é independente do conjunto de treinamento, caso contrário ocorrerá um excesso de treinamento (overfitting). Finalmente, se a precisão for aceitável é conveniente fazer uso do modelo para classificar os dados cujos rótulos ou etiquetas de classe não são conhecidos.

(25)

Capítulo 2. CLASSIFICAÇÃO E DETECÇÃO DE MUDANÇAS DE CONCEITO 24

No âmbito de fluxos de dados, a classificação é uma variação da aprendizagem de má-quina supervisionada tradicional (FACELI et al., 2011; GAMA et al., 2004) conjuntamente

com as formas de classificação. Ambas formas estão relacionadas com o problema de pre-dizer um valor nominal de uma instância não rotulada representada por um vetor de características. A principal diferença entre essas tarefas é que, em cenários de fluxo con-tínuo, as instâncias não estão facilmente disponíveis para o classificador, não sendo parte de um extenso conjunto de dados estáticos. Ao invés disso, as instâncias são fornecidas sequencial e rapidamente ao longo do tempo como um fluxo de dados contínuo. Portanto, um classificador de fluxo de dados deve estar preparado para lidar com um grande nú-mero de instâncias, de modo que cada instância só pode ser inspecionada uma vez ou armazenada por apenas um curto período de tempo (GOMES et al., 2017).

No problema abordado na dissertação, as entradas para os algoritmos são dadas como um fluxo de dados. Cada instância é da forma (𝑥1, 𝑦1), ..., (𝑥𝑁, 𝑦𝑁), com uma função

desconhecida 𝑓(x) = 𝑦. Os 𝑥𝑖são vetores da forma (𝑥𝑖1, 𝑥𝑖2, ..., 𝑥𝑖𝑀), com valores discretos,

em que 𝑥𝑖𝑗 refere-se ao valor do 𝑗-ésimo atributo, chamado 𝑋𝑗, de instância 𝑇𝑖. Os valores

𝑦𝑖 referem-se aos valores do atributo 𝑌 , a classe. O atributo de classe 𝑦𝑖 é discreto, ou seja,

𝑦𝑖 ∈ 𝐶1, 𝐶2, ..., 𝐶𝑁𝐶𝑙. A partir do conjunto de instâncias de treinamento 𝑆, um classificador

𝑝 é induzido pelo sistema de aprendizagem.

2.2 Algoritmos de Classificação

Como foi visto anteriormente, os algoritmos de classificação são úteis no processo de avaliação de aprendizagem num fluxo de dados. Árvores de decisão, regras de associação, redes neurais artificiais, máquina de vetores de suporte e redes bayesianas são uma série de abordagens em que os classificadores desempenham um papel fundamental.

Para colocar esta proposta em prática, o próximo passo foi a seleção dos classificadores NB e HT que foram usados no trabalho. Os algoritmos foram escolhidos porque são populares na área de classificação online e estão livremente disponíveis no ambiente MOA.

2.2.1 Naive Bayes

NB lida com o processo de indução do modelo de classificação do conjunto de dados rotulados. Ele utiliza uma variação da regra de Bayes para prever a classe para uma instância de teste, assumindo que as características são condicionalmente independentes umas das outras, dada a classe. No NB aplica-se a regra da equação 2.1.

𝑐𝑁 𝐵 = arg max 𝑐𝑗_∈𝐶𝑝(𝑐 𝑗₎ 𝑛 ∏︁ 𝑖=1 𝑝(𝑥𝑖|𝑐𝑗) (2.1)

Note-se que 𝑐𝑁 𝐵 denota o valor da categoria prevista pelo classificador NB para uma

(26)

dados usando a estimativa da probabilidade máxima (ŽLIOBAIT ˙E et al., 2015). Valores

desconhecidos na instância de teste são ignorados. Apesar de sua simplicidade, seu baixo custo computacional e sua suposição de independência condicional entre as variáveis, a literatura mostra que o classificador NB retorna precisões notavelmente altas, em muitos domínios (JOHN; LANGLEY, 1995;BIFET; FRANK, 2010a).

2.2.2 Hoeffding Tree

HT é um algoritmo de classificação incremental popular para lidar com as mudanças de conceito. Suporta a indução de árvores de decisão e fornece soluções para os seguintes desafios:

• A incerteza no tempo de aprendizagem. Em HT, o tempo de aprendizado é cons-tante por exemplo (instância) e isso significa que o classificador é adequado para a mineração de fluxos de dados.

• As árvores resultantes são quase idênticas às árvores construídos pela aprendizagem em lote convencional (MARRÓN et al., 2016), desde que receba instâncias suficientes

para treinar e construir as árvores.

HT assume que a geração de distribuição dos exemplos não é constante e explora o fato de que uma pequena amostra pode ser suficiente para escolher um atributo com boa separação entre as classes, o que é matematicamente suportado pelo conceito de Hoeffding bound (HOEFFDING, 1963; MARON; MOORE, 1993). Este conceito afirma que,

com probabilidade 1 − 𝛿, a verdadeira média da variável é de pelo menos ¯𝑟 − 𝜀, onde ¯𝑟 é o valor médio calculado a partir de 𝑛 observações independentes e 𝜀 está determinado pela equação 2.2.

𝜀=

√︃

𝑅2(ln 1/𝛿)

2𝑛 (2.2)

Hoeffding bound quantifica o número de observações quando é necessário estimar o quão bom um atributo é (DOMINGOS; HULTEN, 2000). O que torna a Hoeffding bound

atrativo é a sua capacidade de dar os mesmos resultados independentemente da distribui-ção de probabilidade, gerando assim as observações. No entanto, o número de observações necessárias para atingir certos valores de 𝛿 e 𝜀 são diferentes entre as distribuições de probabilidade.

2.3 Detecção de Mudanças de Conceito

A função de um detector de mudanças de conceito é notificar ao classificador que ocorreu mudança na distribuição de probabilidades dos dados. A metodologia Prequential, inde-pendente da abordagem adotada para o cálculo estatístico, tem a função de avaliar a tarefa de classificação e, para isso, cada instância é repassada ao classificador, esperando-se uma

(27)

resposta. As respostas das previsões do classificador são disponibilizadas aos algoritmos de detecção de mudanças de conceitos.

Os detectores trabalham com os acertos e erros das classificações realizadas pelo classi-ficador. As respostas do classificador estão representadas como uma função 𝑋 que associa cada elemento 𝜔 do espaço amostral Ω com um valor 𝑥 ∈ 𝑅 𝑁(0, 1). São admitidos ape-nas dois valores 0 (se ocorrer sucesso) ou 1 (se ocorrer fracasso). Portanto, os detectores trabalham com base em dados binários e precisam detectar a ocorrência de mudanças de conceitos.

Diferentes técnicas são usadas para detectar mudanças de conceitos e uma das mais comuns é baseada em duas janelas: geralmente há uma janela que possui dados recentes e outra que tem dados mais antigos. Teoricamente, os tamanhos das janelas devem ser mai-ores que 29 observações para respeitar o teorema estatístico do limite central (JOHNSON,

2004) e assim assumir a normalidade do dados das amostras de uma população.

Tradicionalmente, as variabilidades das distribuições são calculadas usando alguma medida estatística. Portanto, a baixa correlação de similaridade das distribuições sugere a ocorrência de mudança de conceito. No framework MOA, os dados que formam as distribuições são formados por sequências de zeros e uns em um número crescente de instâncias ao longo do tempo.

2.3.1 Detectores de Mudanças de Conceito

Como foi visto anteriormente, é evidente a estreita relação dos métodos ou detectores de mudanças de conceito conjuntamente com os classificadores para trabalhar no pro-cesso de aprendizagem com fluxo de dados, o que torna esta metodologia completamente adaptativa.

Em geral, os detectores analisam as predições do classificador base e adotam um modelo de decisão para detectar as mudanças na distribuição dos dados. Em especifico, estes métodos trabalham com dois níveis de alarmes: 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝑑𝑟𝑖𝑓𝑡 (ATTAR et al., 2012,

p. 158), onde, o 𝑑𝑟𝑖𝑓𝑡 representa um nível maior de mudança na distribuição analisada e simboliza que, de fato, ocorreu uma modificação de conceito. Assim sendo, quando o nível de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 é sinalizado, uma nova instância do classificador base é criada e mantida em paralelo com o classificador antigo. Caso o nível de 𝑑𝑟𝑖𝑓𝑡 seja alcançado, o detector exclui o antigo classificador e mantém apenas o novo. Por outro lado, caso o sinal de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 passe a ser considerado um alarme falso, a nova instância do classificador é excluída.

Nas próximas subseções apresentam-se alguns detectores de mudanças de conceito, que pela particularidade de suas características são geralmente utilizados nas experimentações da área.

(28)

2.3.1.1 DDM

O Drift Detection Method (DDM) (GAMA et al., 2004) assume que, de acordo com o modelo

de aprendizagem provavelmente aproximadamente correta (MITCHELL, 1997, p. 201–223),

se um determinado algoritmo preditor estiver recebendo – como entradas – exemplos de uma distribuição estacionária, então a sua taxa de erro irá decrescer quando o número de exemplos aumentar. Assim, um significante aumento nos erros do classificador sugere uma mudança na distribuição aprendida e que o modelo de aprendizagem atual não é mais apropriado.

Uma vez que o detector foi projetado para trabalhar de forma conjunta com um classificador supervisionado, o método supõe que os erros e acertos do preditor seguem a forma de uma distribuição binomial, onde, para cada ponto 𝑖 da sequência de exemplos aprendida, a taxa de erro é representada por 𝑝𝑖 e o seu desvio padrão é dado por: 𝑠𝑖 =

√︁

𝑝𝑖×(1 − 𝑝𝑖) / 𝑖 .

O algoritmo de detecção proposto gerencia duas variáveis – 𝑝𝑚𝑖𝑛 e 𝑠𝑚𝑖𝑛 – durante o

treinamento. Propositalmente, o método inicializa 𝑝𝑚𝑖𝑛 e 𝑠𝑚𝑖𝑛 com um número real de

alto valor. Assim, a cada instância avaliada, é comparado se 𝑝𝑖+ 𝑠𝑖 < 𝑝𝑚𝑖𝑛+ 𝑠𝑚𝑖𝑛. Caso

a expressão anterior seja verdadeira, 𝑝𝑚𝑖𝑛 e 𝑠𝑚𝑖𝑛 recebem, respectivamente, os valores de

𝑝𝑖 e 𝑠𝑖.

Conforme mencionado anteriormente, é comum que os detectores de mudanças de conceitos trabalhem com dois níveis de alarmes (𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝑑𝑟𝑖𝑓𝑡). Para o DDM, os níveis de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝑑𝑟𝑖𝑓𝑡 são alcançados, respectivamente, quando 𝑝𝑖+ 𝑠𝑖 ≥ 𝑝𝑚𝑖𝑛+ 𝑤 × 𝑠𝑚𝑖𝑛 e

𝑝𝑖+ 𝑠𝑖 ≥ 𝑝𝑚𝑖𝑛+ 𝑑 × 𝑠𝑚𝑖𝑛. Onde, 𝑤 e 𝑑 são dois parâmetros configurados pelo usuário, os

quais – por padrão – são 2 e 3, respectivamente. Além disso, o detector também possui o parâmetro 𝑛, o qual é responsável por determinar o número mínimo de instâncias que devem ser analisadas antes que o método passe a realizar as comparações citadas.

2.3.1.2 EDDM

O Early Drift Detection Method (EDDM) é muito semelhante ao DDM. Ambos os mé-todos foram implementados seguindo a mesma particularidade básica, exceto que, ao contrário do DDM, o EDDM foi criado com o objetivo de melhorar as detecções dos drifts graduais, considerando a distância entre os erros de classificação ao invés da média do número de erros. Desta forma, é evidente que a distância entre os erros de predição do classificador aumenta à medida que o algoritmo de detecção assume que a distribuição aprendida mantém o comportamento estável. No caso contrário a esta teoria, o método leva em conta que houve uma mudança de conceito na distribuição dos dados.

Ao contrário do DDM, o EDDM calcula a distância média entre os erros (𝑝𝑖′) e o

seu desvio padrão (𝑠𝑖′). As variáveis 𝑝𝑚𝑎𝑥′ e 𝑠𝑚𝑎𝑥′ também são mantidas sendo

(29)

novo erro do classificador, o método estabelece a comparação das expressões seguintes: (𝑝𝑖′+2×𝑠𝑖′) > (𝑝𝑚𝑎𝑥

′_+2×𝑠

𝑚𝑎𝑥′). No caso em que a comparação anterior seja verdadeira,

𝑝𝑚𝑎𝑥′ recebe o valor de 𝑝𝑖′ e para 𝑠𝑚𝑎𝑥′ é atribuído 𝑠𝑖′.

O algoritmo de detecção do EDDM atinge o nível de warning no momento que: (𝑝𝑖′+

2 × 𝑠𝑖′)/(𝑝𝑚𝑎𝑥′ + 2 × 𝑠𝑚𝑎𝑥)′ < 𝛼. De maneira semelhante, o nível de drift é projetado

quando: (𝑝𝑖′+ 2 × 𝑠𝑖′)/(𝑝𝑚𝑎𝑥′+ 2 × 𝑠𝑚𝑎𝑥′) < 𝛽. Os valores dos parâmetros de configuração

padrão 𝛼 e 𝛽 do EDDM são 0, 95 e 0, 90, respectivamente (BAENA-GARCIA et al., 2006).

2.3.1.3 STEPD

Como foi aludido no início desta seção, Statistical Test of Equal Proportions (STEPD) é um dos detectores que usa a estratégia das duas janelas (recente e antiga) para detectar as mudanças. O detector trabalha de acordo com as suposições seguintes:

• Igualdade entres as precisões de um classificador para 𝑤 exemplos recentes e a precisão geral computada desde o início do processo de aprendizagem, desde que não haja mudança do conceito alvo.

• A diminuição significativa na precisão da janela recente indica o acontecimento de uma mudança de conceito.

A estatística apresentada na equação 2.3 é utilizada pelo método para realizar a com-paração entre as precisões das duas janelas. O número de predições corretas sobre os 𝑛𝑜

exemplos da janela antiga é armazenado como 𝑟𝑜, excluindo da comparação os 𝑤

exem-plos recentes, e o 𝑟𝑟 é o número de predições corretas sobre os 𝑤 (𝑛𝑟) exemplos, da janela

atual, onde ∧𝑝 = (𝑟_𝑜+ 𝑟_𝑟)/(𝑛_𝑜+ 𝑛_𝑟). 𝑇(𝑟𝑜, 𝑟𝑟, 𝑛𝑜, 𝑛𝑟) = |𝑟𝑜/𝑛𝑜− 𝑟𝑟/𝑛𝑟| −0, 5(1/𝑛𝑜+ 1/𝑛𝑟) √︂ ∧ 𝑝(1−∧𝑝)(1/𝑛_𝑜+ 1/𝑛_𝑟) (2.3) Verdadeiramente, a estatística de 2.3 é simplesmente um teste de hipóteses para com-paração entre proporções de duas amostras independentes. Finalmente o critério de de-cisão é determinado pelo valor 𝑝 encontrado através da tabela da distribuição normal padrão usando o resultante de 𝑇 (𝑟𝑜, 𝑟𝑟, 𝑛𝑜, 𝑛𝑟). Caso o valor 𝑝 seja menor do que o nível

de significância adotado (𝛼𝑤 para 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝛼𝑑 para 𝑑𝑟𝑖𝑓𝑡), a hipótese nula que assume

a igualdade entre as precisões das amostras independentes das janelas antiga e recente será rejeitada e o detector entrará em 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 ou em 𝑑𝑟𝑖𝑓𝑡 (de acordo com o valor de

𝑎𝑙𝑝ℎ𝑎 comparado) (NISHIDA; YAMAUCHI, 2007).

2.3.1.4 WSTD

O Wilcoxon Rank Sum Test Drift Detector (WSTD) (BARROS, 2017) é um eficiente

(30)

Positivos (FP) do que STEPD e que também fosse estatisticamente mais preciso. Para isso, a implementação do método utiliza o teste estatístico da soma dos ranks de Wilcoxon, o qual é usado estatisticamente para determinar se duas amostras independentes provém de populações com a mesma distribuição nos dados (LARSON; FARBER, 2010).

Este detector funciona de forma semelhante a STEPD monitorando as predições do classificador base usando as duas janelas (recente e antiga). As principais diferenças estão relacionadas com:

• O teste estatístico utilizado que já foi aludido.

• O tamanho da janela mais antiga, para o qual no WSTD o valor recomendado é 4000 ao invés de todos os outros exemplos, como é usado no STEPD.

Na equação 2.4, é apresentada a estatística do método utilizada para comparar as distribuições entre as duas janelas, onde 𝑅 é a soma dos postos para a menor amostra. Neste sentido, o cálculo dos postos foi simplificado matematicamente no método, usando a fórmula para calcular a soma dos elementos das séries aritméticas (AS) - progressões aritméticas finitas, tornando desnecessário o uso de uma ordenação explícita como acon-tece no teste estatístico original, devido a que as observações da classificação são binarias (0 ou 1). 𝑧 = 𝑅 − 𝑛𝑟(𝑛𝑜+𝑛𝑟+1) 2 √︁ 𝑛𝑜𝑛𝑟(𝑛𝑜+𝑛𝑟+1) 12 (2.4) Por último o critério de decisão determinado pelo valor 𝑝 para rejeitar ou não a hipótese nula e, por conseguinte, estabelecer os estados de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 ou 𝑑𝑟𝑖𝑓𝑡 do detector, é realizado da mesma maneira como procede o STEPD.

2.3.1.5 ADWIN

O escopo principal da detecção de mudanças de conceitos para Adaptive Windowing (ADWIN) é baseado no uso de uma janela deslizante (𝑊 ) de valores de desempenho com um tamanho variável ou dinamicamente ajustável (BIFET; GAVALDA, 2007). Assim, na

medida que os dados apreciados no processo de aprendizado continuarem dentro de uma determinada distribuição de probabilidade, o tamanho de 𝑊 vai ser maior. No caso que o tamanho de 𝑊 seja menor, o método vai detectar a presença de mudanças de conceitos.

Além disso, uma vez que o preditor fornece os erros e acertos na distribuição, o ADWIN divide 𝑊 em duas sub-janelas (𝑊0 e 𝑊1) e realiza a comparação entre as suas médias

(31)

a diferença entre 𝜇∧_𝑊0 _e 𝜇∧_𝑊1 _{for maior – ou igual – ao limiar 𝜖}_𝑐𝑢𝑡_{, o qual é estabelecido na}

equação 2.5, 𝜖𝑐𝑢𝑡 = √︃ 2 𝑚.𝜎 2 𝑊.log (︂2 𝛿′ )︂ +_3𝑚2 .log (︂2 𝛿′ )︂ (2.5) onde 𝑚 é a média harmônica de 𝑛0 e 𝑛1, os quais representam os tamanhos de 𝑊0 e 𝑊1

respectivamente. Aliás, a variância observada nos elementos de 𝑊 é definida por 𝜎2

𝑊 e

𝛿 ∈ [0, 1] refere-se ao nível de confiança (definido como 0, 002 por padrão). Finalmente 𝛿′

é dado por: 𝛿′

= 𝛿/ log(𝑛). 2.3.1.6 ECDD

O EWMA for Concept Drift Detection (ECDD) (ROSS et al., 2012) foi proposto como

uma adaptação do método Exponentially Weighted Moving Average (EWMA) (ROBERTS,

1959) com a finalidade de ocupar-se das tarefas de classificação num fluxo de dados e atuar com mais agilidade diante de possíveis mudanças de conceitos.

O método armazena as predições do classificador numa variável estabelecida como 𝑋𝑡

e logo depois define a sua probabilidade de erro no instante de tempo 𝑡 como 𝑝𝑡. Deste

modo, é possível monitorar a detecção das prováveis mudanças de conceitos por qualquer das variações em 𝑝𝑡.

Os níveis de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝑑𝑟𝑖𝑓𝑡, são sinalizados por ECDD através de inequações levando em consideração a estimativa da média dos acertos do classificador base e a sua variação de probabilidade de erro. Também usa um limiar para definir a distância necessária para a detecção de uma mudança de conceito na medida em que o tempo vai passando. Por fim, 𝜎∧𝑍𝑡 refere-se ao desvio padrão de 𝑍𝑡 e tem o seu valor definido pela equação 2.6, onde

𝜆 é um parâmetro definido para ponderar o aumento das instâncias atuais em relação às

mais antigas e 𝜎∧𝑋𝑡 representa o desvio padrão de 𝑋𝑡.

∧ 𝜎𝑍𝑡= √︃ 𝜆 2 − 𝜆(1 − (1 − 𝜆)2𝑡) ∧ 𝜎𝑋𝑡 (2.6)

O ECDD também possui o parâmetro 𝑛 responsável por determinar o número mínimo de instâncias que devem ser analisadas antes que o método passe a detectar possíveis mudanças de conceitos.

2.3.1.7 SeqDrift1

O Sequential Drift Change Detector 1 (SeqDrift1) (SAKTHITHASAN; PEARS; KOH, 2013)

foi projetado para ampliar sua aplicabilidade a fluxos com características diferentes, exi-bindo um desempenho mais preciso e robusto em comparação com outros detectores como ADWIN. O método não tem conhecimento dos dados de distribuição subjacentes e

(32)

é econômico em termos de custo computacional e consumo de memória. Também faz uso de duas sub-janelas para representar os dados recentes e antigos na distribuição do fluxo. Para comparar as médias aritméticas das distribuições em ambas janelas, o detector utiliza o limite de Bernstein (BERNSTEIN, 1946) que fornece um limite bem reduzido,

evitando assim que a estimativa da probabilidade de grandes variações para distribuições com uma variação pequena seja demasiado conservadora, como acontece com a desigual-dade de Hoeffding (BIFET; GAVALDA, 2007). A desigualdade de Bernstein está definida

pela inequação 2.7. 𝑃 𝑟 (︃⃒ ⃒ ⃒ ⃒ ⃒ 1 𝑛 𝑛 ∑︁ 1 𝑋𝑖− 𝐸[𝑋] ⃒ ⃒ ⃒ ⃒ ⃒ > 𝜖 )︃ ≤2𝑒𝑥𝑝 (︃ −𝑛𝜖2 2𝑝^𝜎2+ 2 3𝜖(𝑐 − 𝑎) )︃ (2.7) Observe-se que 𝑋1, ..., 𝑋𝑛são variáveis aleatórias independentes, 𝐸 [𝑋] é o valor

espe-rado ou a média da população, e 𝑋𝑖 ∈[𝑎, 𝑐], ^𝜎2 é a variância da amostra. Por último, 𝜖 é

um limiar de ponto de corte obtido pelo cálculo da equação 2.8, onde 𝑝 = ln(︁₄

𝛿 )︁ . 𝜖= 2 3𝑏 {︂ 𝑝+√︁𝑝2+ 18𝜎2 𝑠𝑏𝑝 }︂ (2.8) Em SeqDrift1 os níveis de 𝑤𝑎𝑟𝑛𝑖𝑛𝑔 e 𝑑𝑟𝑖𝑓𝑡 são estabelecidos conjuntamente com um fator de correção 𝛿′ _{para controlar a probabilidade de falsos positivos.}

2.3.1.8 SeqDrift2

O detector Sequential Drift Change Detector 2 (SeqDrift2) (PEARS; SAKTHITHASAN; KOH,

2014) é uma versão estendida do SeqDrift1 apresentado na subseção anterior. O método utiliza a mesma estratégia de teste de hipóteses, mas contém uma série de melhorias im-portantes, incluindo a utilização de um reservatório de amostragens para o gerenciamento de memória e o uso de um limite muito mais reduzido para o limiar de ponto de corte 𝜖. O algoritmo do reservatório de amostragens (VITTER, 1985) é um método elegante

de passagem única para obter uma amostra aleatória de tamanho fixo de um conjunto de dados cujo tamanho não é conhecido antecipadamente. Além de melhorar a sensibi-lidade, esta técnica apresenta eficiência computacional na manutenção e amostragem do reservatório.

O limiar de ponto de corte 𝜖 em SeqDrift2 é denotado na equação 2.9, onde 𝑘 =

𝑛𝑟/𝑛𝑙+ 𝑛𝑟 e 𝑛𝑙 e 𝑛𝑟 são os tamanhos dos repositórios esquerdo e direito, respectivamente.

𝜖= 1 3 (1 − 𝑘) 𝑛𝑟 {︂ 𝑝+√︁𝑝2+ 18𝜎2 𝑠𝑛𝑟𝑝 }︂ (2.9) 2.3.1.9 HDDM

De acordo com Frías-Blanco et al. (2015), Drift Detection Method Based on Hoeffding’s Inequality (HDDM) é uma família de métodos que se propõem monitorar as métricas de

(33)

desempenho medidas durante o processo de aprendizagem e sinalizar as mudanças quando uma variação significativa é detectada. Os métodos aplicam desigualdades de probabili-dade que assumem apenas variáveis aleatórias independentes, uni-variáveis e delimitadas para obter garantias teóricas para as detecções. Duas versões principais são descritas:

• ATest é implementado mediante modificações realizadas a um corolário proposto por Hoeffding (1963) que pode ser aplicado à detecção de mudanças significativas nas médias móveis dos valores de um fluxo de dados, surgindo assim um teste estatístico bicaudal onde são detectadas as mudanças na média da população e por conseguinte, permite monitorar a diferença entre as médias abordadas do teste utilizando uma sequência de variáveis aleatórias 𝑋1, ..., 𝑋𝑛, 𝑌1, ..., 𝑌𝑚. O método tem um melhor

comportamento na detecção de mudanças de conceito abruptas.

• WTest é baseado em um teste estatístico mais geral que usa médias móveis ponde-radas, embora igualmente eficiente e simples. Neste caso, os valores recentes no fluxo de dados têm mais peso do que os mais velhos, assumindo que eles têm maior proba-bilidade de ocorrência. O teste McDiarmid (1989) é uma generalização do conceito de Hoeffding bound para variáveis aleatórias dependentes. Finalmente, este método é mais recomendável para a utilização das execuções com as mudanças de conceito graduais.

2.3.1.10 FHDDM

O Fast Hoeffding Drift Detection Method (FHDDM) (PESARANGHADER; VIKTOR, 2016)

foi proposto com a finalidade de minorar a taxa de FP e Falsos Negativos (FN) ao detectar as alterações na distribuições dos dados.

O algoritmo desliza uma janela com um tamanho de 𝑛 (200 valor padrão) nos resulta-dos da classificação. Posteriormente, insere um 1 na janela se o resultado da previsão for verdadeiro, no caso contrário insere 0. À medida que as entradas são processadas, calcula a probabilidade de observar 1𝑠 (𝑝1

𝑡) na janela deslizante no tempo 𝑡, e também mantém a

probabilidade máxima de ocorrência de 1s, ou seja, 𝑝1

𝑚𝑎𝑥. Na equação 2.10 mostra-se que

se o valor de 𝑝1 no tempo 𝑡 é maior do que o valor de 𝑝1𝑚𝑎𝑥, então o valor de 𝑝1𝑚𝑎𝑥 será

atualizado.

𝑖𝑓 𝑝1_𝑚𝑎𝑥 < 𝑝1_𝑡 ⇒ 𝑝1_𝑡 → 𝑝1_𝑚𝑎𝑥 (2.10)

Assim, os autores demostram, sob a base do modelo de aprendizado Probably Approxi-mately Correct (PAC) (MITCHELL, 1997), que a possibilidade de enfrentar uma mudança

de conceito aumenta se 𝑝1

𝑚𝑎𝑥 não muda e 𝑝1𝑡 diminui ao longo do tempo. Eventualmente,

como apresenta-se na equação 2.11, uma diferença significativa entre 𝑝1

𝑚𝑎𝑥 e 𝑝1𝑡 indica a

(34)

probabilidade do erro 𝛿 (padrão 10−7_{) fornecida pelo conceito de Hoeffding bound (}

HO-EFFDING, 1963;MARON; MOORE, 1993).

Δ𝑝 = 𝑝1

𝑚𝑎𝑥− 𝑝1𝑡 ≥ 𝜀𝑑⇒ 𝐷𝑟𝑖𝑓 𝑡:= 𝑇 𝑟𝑢𝑒 (2.11)

2.3.2 Detector Artificial de Mudanças de Conceito

Para uma mudança de conceito abrupta, o seu tempo de ocorrência pode ser facilmente conhecido. Isso ocorre porque a mudança é radical e pode ser definida claramente. Dessa maneira, é fácil determinar quando um detector declara corretamente uma mudança. Mas os critérios de avaliação aplicados a este tipo de mudanças como os Falsos Positivos (FP) e Falsos Negativos (FN) influenciam negativamente nos resultados experimentais dos detectores. Os FP acontecem quando os detectores declaram as mudanças de conceito, enquanto não ocorreu mudança nenhuma. Por outro lado, os FN surgem quando ocorre uma mudança de conceito, enquanto o método não pode detectá-la (DU; SONG; JIA, 2014).

Devido à necessidade de processar resultados efetivos nas métricas utilizadas na parte experimental do trabalho, para evitar a presença de FP e FN na avaliação, foi implemen-tado um método de avaliação adaptativa para detectar as mudanças de conceito reais em conjuntos de dados artificias e simular um comportamento de detector perfeito. O detector recebe como parâmetro os valores das posições onde a mudança vai acontecer, devido a que nesse ambiente de processamento de geradores de bases artificias disponibilizado pelo framework utilizado no trabalho, é conhecido o intervalo correto onde ocorre a alteração. Assim, em cada mudança do intervalo do fluxo de dados, o método ira detectar a alteração na distribuição, tornando os resultados das acurácias mais exatos.

2.4 Conclusões

Nesta seção, foram apresentadas as particularidades referentes à classificação em fluxo de dados com o aprendizado online. Especificamente, foram descritos os algoritmos de classificação NB e HT utilizados nos experimentos da dissertação para avaliar as variações de prequential. Igualmente evidente a importância dos detectores de mudanças de conceito em relação à sua utilidade na função de classificação da metodologia prequential.

(35)

34

3 AVALIAÇÃO PREQUENTIAL E TESTES

ESTATÍSTICOS

As metodologias de avaliação para lidar com a classificação em tempo real (online) de qualquer técnica de aprendizagem de máquina em fluxo de dados precisam valorizar o cálculo de estimativas. Também é útil ter um nível de informações bem detalhadas para se apoiar na decisão de determinar quando um modelo (técnica) é superior a outra ou não. Este capítulo visa apresentar o estado da arte conjuntamente com os conceitos principais da metodologia de avaliação Prequential, com uma maior ênfase no desempenho das variações Basic Window (BW), Sliding Window (SW) e Fading Factors (FF) .

Além disso, descreve-se brevemente o uso da acurácia prequential (prequential

accu-racy), a métrica de medição usada pelas variações. Já por último, são descritas breves

explicações teóricas dos cálculos estatísticos considerando os métodos paramétricos e não paramétricos utilizados nos experimentos desta dissertação para avaliar o desempenho das variações prequential.

3.1 Prequential

A abordagem Prequential (predictive sequential) é baseada na premissa de que o objetivo da inferência estatística é fazer previsões de probabilidade sequencial para observações futuras, em vez de expressar informações sobre observações passadas. Muitos conceitos paramétricos tradicionais, tais como a consistência e eficácia, apresentam uma similari-dade natural nesta formulação, o que gera nova visão sobre as mesmas e sugere extensões frutíferas (DAWID, 1984).

Este enfoque é uma metodologia para a avaliação de desempenho de classificadores em fluxos de dados com distribuições estacionárias e não-estacionárias (GAMA et al., 2004),

sendo este último o ambiente com maior interesse para o desenvolvimento desta disser-tação. As métricas de avaliação e fórmulas utilizadas nas estimativas da precisão das previsões são detalhadas, levando em consideração as três variações para calcular a taxa de erro sequencial. Em geral, o método pode ser usado para avaliar qualquer algoritmo de aprendizagem em cenários de fluxos de dados (Data Streams) (GAMA; SEBASTIÃO; RODRI-GUES, 2009). Cada instância individual é usada para testar o modelo antes de ser usada

para treinamento e, portanto, a acurácia é atualizada incrementalmente (BIFET; FRANK,

2010b). Este esquema tem a vantagem, em relação ao também conhecido procedimento para avaliar algoritmos de aprendizagem chamado de holdout (BIFET, 2010) porque o