• Nenhum resultado encontrado

MINERAÇÃO DE DADOS METEOROLÓGICOS PELA TEORIA DOS CONJUNTOS APROXIMATIVOS NA PREVISÃO DE CLIMA POR REDES NEURAIS ARTIFICIAIS

N/A
N/A
Protected

Academic year: 2021

Share "MINERAÇÃO DE DADOS METEOROLÓGICOS PELA TEORIA DOS CONJUNTOS APROXIMATIVOS NA PREVISÃO DE CLIMA POR REDES NEURAIS ARTIFICIAIS"

Copied!
149
0
0

Texto

(1)

INPE-15665-TDI/1441

MINERA ¸

C ˜

AO DE DADOS METEOROL ´

OGICOS PELA

TEORIA DOS CONJUNTOS APROXIMATIVOS NA

PREVIS ˜

AO DE CLIMA POR REDES NEURAIS

ARTIFICIAIS

Alex Sandro Aguiar Pessoa

Disserta¸c˜ao de Mestrado do Curso de P´os-Gradua¸c˜ao em Computa¸c˜ao Aplicada, orientada pelo Dr. Jos´e Demisio Sim˜oes da Silva, aprovada em 9 de dezembro de

2004

Registro do documento original:

<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>

INPE

(2)

PUBLICADO POR:

Instituto Nacional de Pesquisas Espaciais - INPE Gabinete do Diretor (GB)

Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) Caixa Postal 515 - CEP 12.245-970

S˜ao Jos´e dos Campos - SP - Brasil Tel.:(012) 3945-6911/6923

Fax: (012) 3945-6919

E-mail:pubtc@sid.inpe.br

CONSELHO DE EDITORA ¸C ˜AO: Presidente:

Dr. Gerald Jean Francis Banon - Coordena¸c˜ao Observa¸c˜ao da Terra (OBT) Membros:

Dra Maria do Carmo de Andrade Nono - Conselho de P´os-Gradua¸c˜ao

Dr. Haroldo Fraga de Campos Velho - Centro de Tecnologias Especiais (CTE) Dra Inez Staciarini Batista - Coordena¸c˜ao Ciˆencias Espaciais e Atmosf´ericas (CEA) Marciana Leite Ribeiro - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID)

Dr. Ralf Gielow - Centro de Previs˜ao de Tempo e Estudos Clim´aticos (CPT) Dr. Wilson Yamaguti - Coordena¸c˜ao Engenharia e Tecnologia Espacial (ETE) BIBLIOTECA DIGITAL:

Dr. Gerald Jean Francis Banon - Coordena¸c˜ao de Observa¸c˜ao da Terra (OBT) Marciana Leite Ribeiro - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID)

Jefferson Andrade Ancelmo - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) Simone A. Del-Ducca Barbedo - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) REVIS ˜AO E NORMALIZA ¸C ˜AO DOCUMENT´ARIA:

Marciana Leite Ribeiro - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) Maril´ucia Santos Melo Cid - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) Yolanda Ribeiro da Silva Souza - Servi¸co de Informa¸c˜ao e Documenta¸c˜ao (SID) EDITORA ¸C ˜AO ELETR ˆONICA:

(3)

INPE-15665-TDI/1441

MINERA ¸

C ˜

AO DE DADOS METEOROL ´

OGICOS PELA

TEORIA DOS CONJUNTOS APROXIMATIVOS NA

PREVIS ˜

AO DE CLIMA POR REDES NEURAIS

ARTIFICIAIS

Alex Sandro Aguiar Pessoa

Disserta¸c˜ao de Mestrado do Curso de P´os-Gradua¸c˜ao em Computa¸c˜ao Aplicada, orientada pelo Dr. Jos´e Demisio Sim˜oes da Silva, aprovada em 9 de dezembro de

2004

Registro do documento original:

<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>

INPE

(4)

Dados Internacionais de Cataloga¸c˜ao na Publica¸c˜ao (CIP)

P475m Pessoa, Alex Sandro Aguiar.

Minera¸c˜ao de dados meteorol´ogicos pela teoria dos conjun-tos aproximativos na previs˜ao de clima por redes neurais artifici-ais / Alex Sandro Aguiar Pessoa. – S˜ao Jos´e dos Campos: INPE, 2009.

146p. ; (INPE-15665-TDI/1441)

Disserta¸c˜ao (Computa¸c˜ao Aplicada) – Instituto Nacional de Pesquisas Espaciais, S˜ao Jos´e dos Campos, 2004.

1. Teoria dos conjuntos aproximativos. 2. Redes neurais ar-tificiais. 3. Retropropaga¸c˜ao. 4. Previs˜ao do clima. 5. Minera¸c˜ao de Dados. I.T´ıtulo.

CDU 004.738

Copyright c 2009 do MCT/INPE. Nenhuma parte desta publica¸c˜ao pode ser re-produzida, armazenada em um sistema de recupera¸c˜ao, ou transmitida sob qualquer forma ou por qualquer meio, eletrˆonico, mec´anico, fotogr´afico, microf´ılmico, repro-gr´afico ou outros, sem a permiss˜ao escrita da Editora, com exce¸c˜ao de qualquer material fornecido especificamente no prop´osito de ser entrado e executado num sistema computacional, para o uso exclusivo do leitor da obra.

Copyright c 2009 by MCT/INPE. No part of this publication may be reproduced, stored in a retrieval system, or transmitted in any form or by any means, eletro-nic, mechanical, photocopying, microfilming, recording or otherwise, without written permission from the Publisher, with the exception of any material supplied

(5)
(6)
(7)

speci-“Pedras no caminho? Guardo todas, um dia vou construir um castelo...”

(8)
(9)

A minha companheira, cúmplice e amiga, por sempre estar ao meu lado, nos momentos bons ou

(10)
(11)

AGRADECIMENTOS

Agradeço a Deus, por me impulsionar para mais uma conquista em minha vida. Tudo para sua honra e glória.

Agradeço, também:

A minha esposa Ridenia, pelas orações, carinho e apoio.

A meu Pai, João e minha Mãe, Lenita, pelos esforços e renuncias que fizeram em suas vidas pelos filhos.

A meus irmãos: Cezar, Cristiano, Arley e Aline, pelo amor e por todos os dias em que estivemos juntos.

Ao meu orientador Dr. Demisio, pela confiança depositada em minha pessoa.

Ao CNPq pelo apoio financeiro.

Ao Prof. Santo Scuderi pelo caminho mostrado.

Ao Prof. Cláudio da Rocha Brito, pelo incentivo a Ciência.

Ao Jacques Polit e Fernando Marques, irmãos dados pela vida, pelo companheirismo.

É fato, que muitas outras participaram de minha vida, e agradeço pelo apoio e incentivo dados. São por essas pessoas que penso que o importante nesta vida, não é o que temos, mas quem temos. Obrigado Senhor pelos seus instrumentos colocados em minha vida...

(12)
(13)

RESUMO

Esta dissertação aborda a utilização da teoria dos conjuntos aproximativos (TCA) com o propósito de redução de variáveis para a realização de previsão climática utilizando redes neurais artificiais (RNA), de modo a diminuir o esforço computacional e manter os erros em níveis aceitáveis na previsão climática. A TCA é uma ferramenta eficaz na compactação de uma base de dados, não só pela redução de elementos, mas também pela eliminação do conjunto de atributos supérfluos. Adicionalmente, neste estudo, as redes neurais foram utilizadas para aprender, a partir de 18 anos (Jan/1980-Dec/1997) de dados para a América do Sul, o comportamento sazonal das variáveis de precipitação e temperatura para fazer uma estimativa para os 3 anos consecutivos aos dados de treinamento (1998,1999 e 2000). Como entrada as RNA tem dados de duas espécies, para efeitos comparativos: variáveis ou atributos reduzidos e com todas as variáveis. O produto final deste processo para as variáveis de precipitação e temperatura são previsões, contendo médias trimestrais com de alcance temporal ∆ (1 ou 3 trimestres à frente).

(14)
(15)

METEOROLOGICAL DATA MINING USING ROUGH SET THEORY IN CLIMATE FORECAST WITH ARTIFICIAL NEURAL NETWORK.

ABSTRACT

This study analyze the use of the Rough Set Theory (RST) with goal the reduce variables for the climate forecast using Artificial Neural Network (ANN), decreasing the computational computation time and keeping the errors in accept levels on the climate forecast. The RST is an efficient tool for compress a database, reducing the numbers of elements and the superfluous variables. Additionally, on this study, the neural networks, was used to learn the seasonal atmospheric behavior for precipitation and temperature, data between the period of Jan/1980 until Dec/1997 in the South America and estimate the 3 consecutive years (1998, 1999 and 2000) of this variables. The input of RNA there is two kinds of data: reduce variables data and full variables data. This process results in quarterly forecast for precipitation and temperature, estimated by neural networks for a time-step ∆ forward.

(16)
(17)

SUMÁRIO Pág. LISTA DE FIGURAS LISTA DE TABELAS 1 INTRODUÇÃO... 21 2 PREVISÃO CLIMÁTICA... 27 2.1 Meteorologia... 27

2.2 Tipos de modelo numérico... 28

2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)... 28

2.1.2 Modelo regional... 30 2.3 Previsão climática... 30 2.4 Tipos de previsão... 31 2.4.1 Previsão determinística... 33 2.4.2 Previsão probabilística... 33 3 MINERAÇÃO DE DADOS... 35 3.1 Introdução... 35 3.2 Definições básicas... 35

3.3 O processo de descoberta de conhecimento... 37

3.4 Classificação da mineração de dados... 39

3.5 Principais tarefas da mineração de dados... 39

3.5.1 Caracterização... 40

3.5.2 Associação... 40

3.5.3 Classificação... 40

3.5.4 Regressão... 41

3.5.5 Segmentação... 41

3.6 Técnicas de mineração de dados... 41

3.7 Mineração de dados espaço-temporal... 42

4 TEORIA DOS CONJUNTOS APROXIMATIVOS... 47

4.1 Introdução... 47

4.2 Conceitos básicos... 48

4.2.1 Sistemas de informação... 48

4.3 Indiscernibilidade... 50

4.4 Aproximação dos conjuntos... 52

4.5 Reduções... 58

4.6 “Conjuntos candidatos” (Hitting sets)... 66

4.7 “ε – conjuntos candidatos aproximados” (ε – approximate hitting sets)... 67

4.8 Função de pertinência aproximativa... 68

4.9 Rosetta... 69

(18)

4.9.3 Algoritmo JohnsonReducer... 74

4.10 Núcleo aproximado... 75

4.11 Comentários finais sobre a TCA... 77

5 REDES NEURAIS ARTIFICIAIS... 78

5.1 Introdução... 78

5.2 O que são as RNA?... 79

5.3 Modelo do neurônio... 81

5.4 Estrutura da rede... 82

5.5 Regra de aprendizado... 85

5.6 Perceptron multicamadas (Multilayer perceptron - MLP)... 86

5.6.1 O algoritmo de retro-propagação do erro... 87

6 KDD COM DADOS METEOROLÓGICOS... 91

6.1 Introdução... 91

7 REDES NEURAIS ARTIFICIAIS E A PREVISÃO CLIMÁTICA... 107

7.1 Introdução... 107

7.2 Treinamento das redes neurais... 107

7.3 Resultados gráficos... 116

7.3.1 Precipitação... 117

7.3.2 Temperatura... 125

8 CONCLUSÕES... 135

(19)

LISTA DE FIGURAS

Pág.

2.1 - Grade ... 28

2.2 - Grade global de baixa resolução. ... 29

2.3 - Modelo de previsão climática ... 29

2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico... 30

2.5 - Tipos de predição ... 32

2.6 - Previsão probabilística. ... 34

3.1 - Etapas do processo de KDD... 37

3.2 - Dados espaciais ... 42

3.3 - Mapas temáticos da represa Billings...Erro! Indicador não definido. 3.4 - Série temporal – precipitação (Centro-Oeste, Jan 81 a Dez 91) ... 43

3.5 - Posicionamento dos eletrodos. ... 44

3.6 - Precipitação de JAN – 1980 a ABR – 1980 ... 45

3.7 - Representação gráfica dos dados espaço-temporal ... 45

4.1 - Aproximações do conjunto ... 53 4.2 - Aproximações ... 54 4.3 - Estrutura do cromossomo... 71 4.4 - Operação de recombinação ... 71 4.5 - Operação de mutação ... 72 4.6 - Operação de inversão ... 72

5.1 - Estrutura de um neurônio biológico ... 80

5.2 - Modelo de um neurônio não-linear. ... 81

5.3 - Funções de ativação. ... 82

5.4 - Exemplo de estrutura de interconexões... 83

5.5 - Arquitetura da RNA. ... 83

5.6 - Divisão das arquiteturas das RNA. ... 84

5.7 - Perceptron de uma única camada. ... 86

5.8 - MLP com uma camada escondida... 88

6.1 - Precipitação na América do Sul. ... 92

6.2 - Regiões selecionadas para análise... 95

6.3 - Metodologia do processo de previsão climática ... 95

6.4 - Formação do atributo temperatura... 96

6.5 - Discretização de atributos ... 100

6.6 - Matriz de confusão para o CO e ∆ = 1 ... 102

7.1 - Arquitetura da rede neural R-k-1... 108

7.2 - Ciclo das estações... 111

7.3 - Saída da RNA para região CO ... 117

7.4 - Previsão Climática de Prec. da RNA para região CO em DJF98/99 ... 118

7.5 - Precipitação para região CO em DJF98/99 ... 119

7.6 - Saída da rede para região N... 119

7.7 - Previsão Climática de Prec. da RNA para região N em JJA98... 120

(20)

7.10 - Precipitação para região N em SON98 ... 122

7.11 - Saída da RNA para região NE ... 123

7.12 - Previsão Climática de Prec. da RNA para região NE em DJF98/99... 123

7.13 - Precipitação para região NE em DJF98/99 ... 124

7.14 - Saída da RNA para região CO ... 125

7.15 - Previsão Climática de Temp. da RNA para região CO em SON98... 126

7.16 - Temperatura para região CO em SON98 ... 127

7.17 - Saída da RNA para região S... 127

7.18 - Previsão Climática de Temp. da RNA para região S em MAM98 ... 128

7.19 - Temperatura para região S em MAM98 ... 129

7.20 - Saída da RNA para região SE ... 129

7.21 - Previsão Climática de Temp. da RNA para região SE em JJA98... 130

7.22 - Temperatura para região SE em JJA98 ... 131

7.23 - Saída da RNA para região CO ... 131

7.24 - Previsão Climática de Temp. da RNA para região CO em JJA98... 132

(21)

LISTA DE TABELAS

Pág.

2.1 - Alcance das previsões. ... 32

3.2 - Representação com tempo repetido. ... 46

3.3 - Representação sem tempo repetido. ... 46

4.1 - Sistema de informação. ... 48

4.2 - Sistema de decisão. ... 49

4.3 - Número possível de reduções... 59

4.4 - Número de conjuntos elementares. ... 60

4.5 - Matriz de discernibilidade... 62

4.6 - Novo sistema de decisão. ... 64

4.7 - Sistema de decisão compactado. ... 65

4.8 - Sistema de decisão consistente... 65

4.9 - Regras de decisão. ... 65

6.1 - Variáveis. ... 93

6.2 - Formato dos dados. ... 97

6.3 - Exemplo do atributo de decisão. ... 98

6.4 - Distribuição de classes para prec. ... 100

6.5 - Distribuição de classes para temp. ... 101

6.6 - Fragmento das reduções para a região CO... 101

6.7 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =1. ... 103

6.8 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =3. ... 104

6.9 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =1. ... 104

6.10 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =3. ... 104

7.1 - Erro médio (R-20-1, Prec, ∆=1)... 110

7.2 - Erro médio (R-20-1, Prec, ∆=3). ... 110

7.3 - Erro médio (R-30-1, Prec, ∆=1). ... 111

7.4 - Erro médio (R-30-1, Prec, ∆=3). ... 112

7.5 - Erro médio (R-40-1, Prec, ∆=1). ... 112

7.6 - Erro médio (R-40-1, Prec, ∆=3). ... 113

7.7 - Erro médio (R-20-1, TEMP, ∆=1). ... 113

7.8 - Erro médio (R-20-1, TEMP, ∆=3). ... 114

7.9 - Erro médio (R-30-1, TEMP, ∆=1). ... 114

7.10 - Erro médio (R-30-1, TEMP, ∆=3). ... 115

7.11 - Erro médio (R-40-1, TEMP, ∆=1). ... 115

(22)
(23)

1 INTRODUÇÃO

O clima é importante para a humanidade, pois dependendo do comportamento atmosférico, muitas atividades em geral podem ter desempenhos alterados, podendo afetar as vidas das pessoas. Uma das atividades mais dependentes do clima é, por exemplo, a agricultura, cujo rendimento está diretamente ligado às condições climáticas.

O Brasil é um país com grande volume de negócios ligados à agricultura, sendo em alguns casos líder mundial, como por exemplo, na produção de soja entre outros. Assim é necessário buscar a excelência das safras para manter o posto global em agro-negócio, seja pelo estudo de variedades de sementes, enriquecimento do solo, máquinas modernas, estudo do escoamento das safras, ou pelo estudo climático, que merece atenção, pois em muitos casos, pode haver enormes prejuízos na produção agrícola, devido o comportamento anômalo.

Por isso, entender o comportamento climático é uma tarefa essencial, há muito tempo perseguida pelo homem. Atualmente o advento de satélites e computadores, cada vez com mais capacidade de processamento e armazenamento, tem tornado estas tarefas cada vez mais confiáveis.

Os satélites são responsáveis pelo envio de um grande volume de informações a centros de estudos climáticos em diversas localidades no planeta. No Brasil um dos órgãos responsáveis é o Centro de Previsão de Tempo e Estudos Climáticos do Instituto Nacional de Pesquisas Espaciais (CPTEC-INPE), onde estas informações são analisadas, para a produção de previsões do estado atmosférico em um tempo futuro. Dependendo da escala temporal para esta previsão pode-se classifica-la como previsão do tempo ou previsão climática.

(24)

Por exemplo, é objeto da previsão climática dizer o quanto choverá em relação a media histórica nos meses de chuva de uma determinada região. Normalmente esta informação é transmitida em três categorias: “acima da média”, “na média” e “abaixo da média histórica” (Centro de Previsão do Tempo e Estudos Climáticos, 2003).

Para a realização da previsão climática, atualmente são utilizados dois métodos (Centro de Previsão do Tempo e Estudos Climáticos, 2003):

1) Método estatístico: utiliza equações matemáticas e conceitos de estatística. 2) Método dinâmico: utiliza equações matemáticas e conceitos físicos.

Na previsão climática, no CPTEC, é utilizado o método dinâmico, que se baseia nas equações da primeira lei da termodinâmica, equações do movimento (2° lei de Newton), equação da continuidade de massa de ar e vapor de água, conhecido como modelo de circulação geral atmosférico (MCGA). No MCGA são utilizadas entradas, conhecidas como condições iniciais (C.I.), compostas por variáveis atmosféricas, como por exemplo temperatura virtual, divergência, vorticidade e umidade específica, calculadas a partir de dados de temperatura, componentes zonal e meridional do vento e umidade relativa, observados durante um período (1 dia corresponde a 1 condição inicial, portanto se o modelo necessita de 9 CI são necessários dados de 9 dias consecutivos para a análise), e através do processamento (integrações) destas informações no modelo, obtêm-se os resultados, chamados de membros. Vale ressaltar que para cada C.I. tem-se um membro como resultado. Quando este modelo opera em modo ensemble, ou seja, são exigidas várias C.I, o resultado é a média dos membros. Este procedimento se faz necessário, pois segundo Murphy (Cavalcante et. al, 2002) esta é uma ferramenta necessária para reduzir os efeitos das condições iniciais em sistemas caóticos, como a atmosfera.

Porém segundo especialista em previsão climática, Camargo (2004), consultado no CPTEC, o modelo não supre algumas necessidades de previsão, tal como padrões de

(25)

deste tipo de informação é possível estimar para um período onde vai chover mais ou menos, ou ainda dizer qual sub-região será mais quente e qual será mais fria.

Ainda em relação à previsão climática, mas sob a luz da computação, se existem diversas variáveis que são empregadas no modelo para realização da estimativa do comportamento atmosférico, seria possível reduzir estas variáveis sem perder informação e realizar uma estimativa da previsão climática mais confiável?

Para esta indagação umas das possíveis respostas é por meio da descoberta de conhecimento, que é a área que contempla a exploração de banco de dados de modo à “lapidar” seus elementos em busca de informações relevantes.

Esta área surgiu em decorrência dos volumes massivos de dados existentes e a não utilização. Nesta era da informação, a facilidade de armazenar e recuperar informações viabilizou a modelagem de banco de dados de enorme capacidade. O grande problema é que quando estes bancos de dados tornavam-se grandes demais para ser manipuladas e extraídas informações úteis para seus mantenedores, os analistas de banco de dados mostravam-se ineficazes para tratá-los. Em conseqüência dessas dificuldades começou-se a estudar a descoberta de conhecimento em banco de dados (KDD – Knowledge Discovery in Database).

O processo de KDD, dentre muitas etapas, tem a chamada mineração de dados, que como o próprio nome sugere é a tarefa responsável pela descoberta de padrões escondidos entre os dados. Existem muitas técnicas para fazer mineração de dados, mas esta dissertação aborda a Teoria dos Conjuntos Aproximativos (TCA), (“Rough Sets Theory”, do inglês). A TCA é uma teoria relativamente recente, criada na década de 80, por meio de Pawlak (1982), e que se beneficiou do avanço computacional que vinha acontecendo na época, no que diz respeito ao aumento da capacidade de processamento e memória. É empregada na manipulação de informações vagas ou imprecisas.

(26)

Baseia-se na partição do universo de discurso em conjuntos precisos (crisp) e imprecisos, ou aproximados (rough), utilizando uma relação chamada de indiscernibilidade.

O que faz com que a TCA cresça, em termos de número de aplicações cada vez maior, é a sua simplicidade de utilização e versatilidade, pois é empregada em diversas áreas. Algumas vantagens da utilização da TCA são: a redução do número de variáveis redundantes no processo; redução do volume de dados, o que acarreta uma compactação no banco de dados; a fundamentação matemática; e possibilidade de modelagem dos dados por meio de regras, permitindo a construção de softwares.

Nesta dissertação, através de uma análise baseada na mineração de dados utilizando a teoria dos conjuntos aproximativos, busca-se a redução das variáveis de entrada para um modelo que realiza previsão climática. Este modelo é composto pelas redes neurais artificiais (RNA) que são responsáveis pelo aprendizado dos padrões atmosféricos para prever estados futuros.

As redes neurais são expostas a dados históricos na tentativa de aprender a estabelecer um primeiro prognóstico das condições climáticas para um intervalo de tempo. Os dados entretanto, são pré-processados pela TCA, numa tentativa de melhorar os resultados, buscando o uso de variáveis de maior importância para cada região.

Os experimentos realizados mostraram a possibilidade da combinação de duas técnicas de inteligência artificial, TCA e RNA, na previsão climática e permitiu a concepção de um método que pode ser aplicado operacionalmente.

A principal vantagem no uso de um sistema como proposto nesta dissertação, está no fato de que é possível se fazer prognósticos de comportamento climático global de forma automática (ou semi-automática) e se ter grupos de especialistas concentrados nos estudos do comportamento climático locais.

(27)

Ao longo desta dissertação será abordada a previsão climática e seus elementos, a descoberta de conhecimento e suas etapas, a teoria dos conjuntos aproximativos, as redes neurais artificiais e a metodologia desenvolvida para efetuação da tarefa de previsão climática sob a luz da IA. O Capítulo 2 é conceitual, sobre a previsão climática e tem por objetivo posicionar o leitor dos termos utilizados nesta área. Não diferente do Capítulo 3 é sobre a mineração de dados, importante ferramenta para encontrar padrões e compactar base de dados. O principal capítulo é o quarto, pois fornece elementos ao leitor sobre a teoria dos conjuntos aproximativos, que é uma técnica, oriunda da teoria dos conjuntos, muito utilizada na inteligência artificial e mineração de dados.

As redes neurais, importante técnica empregada na inteligência artificial é tratada no Capítulo 5. Os Capítulos 6 e 7 exploram as técnicas e metodologias abordadas nos capítulos anteriores, para alcançar os objetivos postos, assim como os resultados obtidos.

(28)
(29)

2 PREVISÃO CLIMÁTICA

2.1 Meteorologia

A meteorologia é definida como a ciência que estuda os fenômenos que ocorrem na atmosfera, e está relacionada ao estado físico, dinâmico, químico atmosférico e as interações entre elas e a superfície terrestre subjacente (Instituto Nacional de Meteorologia - INMET, 2003).

Em meteorologia há uma distinção entre tempo e clima que são conceitos usados para se entender o comportamento da atmosfera em diferentes "intervalos de tempo". O tempo é o estado da atmosfera em um determinado momento e lugar ou, é o estado da atmosfera com relação aos seus efeitos sobre a vida e as atividades humanas. Já o clima se refere às características da atmosfera inferidas de observações contínuas durante um longo período, como por exemplo, 30 anos (normal climatológica). O clima abrange um maior número de dados que as condições do tempo para uma determinada área. Ele inclui considerações dos desvios em relação às médias, variabilidade, condições extremas e freqüência de ocorrência de determinada condição de tempo. Assim, o clima representa uma generalização, enquanto o tempo lida com eventos específicos.

O clima tem influência direta sobre diversas atividades, tais como agricultura, pesca, geração e distribuição de energia elétrica, defesa civil, dentre outras. Por tantas tarefas dependerem do comportamento atmosférico, tanto a curto como a longo prazo, que é importante se entender os fenômenos naturais e assim se antecipar as possíveis calamidades que possam vir a ocorrer em casos de um clima atípico. A meteorologia está em contínuo aperfeiçoamento para cada vez tornar mais confiáveis e aumentar o prazo de previsão climática e do tempo. Entre as técnicas para a realização da previsão de tempo e clima são utilizados, pelos centros de previsão em todo o mundo os modelos numéricos. Outro ponto importante é que em região em análise é formada por uma

(30)

grade, ou malha e a intersecção das linhas verticais e horizontais é um ponto da grade em questão, como mostra a Figura 2.1.

(x1,y1)

y

x

Figura 2.1 – Grade.

2.2 Tipos de modelo numérico

Para previsão do clima e tempo existem os modelos numéricos, que é o nome dado à técnica que simula o estado da atmosfera, por meio de modelos físico-matemáticos resolvidos numericamente, através de técnicas computacionais. O prazo de previsão está diretamente relacionado com a resolução temporal (amostragem das variáveis de entrada, podendo ser em: minutos, horas, meses, etc) e espacial (distância entre os pontos de grade) das variáveis. Em geral, modelos que trabalham com alta resolução (exemplo: 1 km) requerem um passo de integração menor, limitando o alcance de previsão em poucos dias. Já os modelos que operam com baixas resoluções (250 km, por exemplo), o alcance operacional da previsão pode chegar a ser mensal ou inter-anual (Gutiérrez, 2003).

2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)

São modelos que integram todo o globo. Trabalham com baixas resoluções, devido à quantidade de informações que manipula. Em novembro de 1994 o CPTEC-INPE iniciou o uso desde modelo para previsão do tempo e com devidas modificações este se

(31)

de conservação de massa e de umidade, de energia e de momentum angular e como dito no Capitulo 1 emprega as equações de continuidade de massa para o ar seco e vapor de água, primeira lei da termodinâmica e a segunda lei de Newton (Centro de Previsão do Tempo e Estudos Climáticos, 2003).

Figura 2.2 – Grade global de baixa resolução.

As variáveis utilizadas no modelo segundo Cavalcanti et. al. (2002) são: temperatura, componentes do vento zonal e meridional e umidade relativa. Estas variáveis são transformadas em temperatura virtual, divergente, vorticidade, umidade específica e logaritmo da pressão que então constituem a condição inicial, ou entrada do MCGA. Cada C.I corresponde a média diária das variáveis citadas, portanto para n C.I. são necessários dados de n dias consecutivos. A Figura 2.3 mostra um esquema da previsão climática. Modelo Condição 1 Condição 2 Condição n . . . Membro 1 Membro 2 Membro n . . .

(32)

2.1.2 Modelo regional

È uma solução para aumentar a resolução do modelo sem aumentar o custo computacional. Consiste em limitar a grade em uma zona geográfica limitada de interesse. Deste modo pode-se prever fenômenos de pequena escala como tempestades.

Figura 2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico. FONTE: NCEP/NOAA, Gutiérrez (2003).

2.3 Previsão climática

A previsão climática é uma estimativa do comportamento médio da atmosfera com alguns meses de antecedência. Por exemplo, pode-se prever se o próximo verão será mais quente ou mais frio que o normal, ou ainda, mais ou menos chuvoso. Todavia, tal estimativa não pode dizer exatamente qual será a quantidade de chuvas ou quantos graus a temperatura estará mais ou menos elevada.

Para previsão climática, no CPTEC-INPE são utilizados modelos numéricos, alguns em caráter experimental, pois no Brasil e no mundo, essa é uma área que está em constante evolução com o propósito de torná-la mais confiável (Centro de Previsão do Tempo e Estudos Climáticos, 2003).

(33)

O modelo de circulação geral atmosférico (MCGA), descrito na seção 2.1.1, tem sido utilizado para estudar a variabilidade e as mudanças climáticas e predição sazonal no CPTEC, na qual emprega uma técnica para o tratamento do comportamento caótico da atmosfera denominada de ensemble, conhecida também por previsão por conjuntos, que é uma ferramenta necessária para reduzir os efeitos das condições iniciais (Cavalcanti et al, 2002).

A previsão por ensemble é o resultado da média de todos os membros do MCGA (Figura 2.3) e surgiu com a finalidade de aumentar os prazos de previsões de tempo e clima e a previsibilidade dos modelos dinâmicos (não lineares), através da suposição de que os modelos sejam perfeitos e, assim, considerando apenas a incerteza na condição inicial, busca-se, através de alguma técnica específica, estimar os erros associados às observações para criar um conjunto de condições iniciais perturbadas. Este método veio para solucionar o problema da previsibilidade numérica de forma determinística, pois Lorenz (1963, 1965, 1969) observou que a solução de sistemas de equações semelhantes às que governam os movimentos atmosféricos, apresentam dependência sensível em relação às condições iniciais fornecidas no início da integração, ou seja, notou que partindo de condições ligeiramente perturbadas, após algum tempo de integração, as soluções podem ser completamente diferentes. Isto é conhecido como caos determinístico e é o fenômeno que limita o horizonte das previsões pois devido às condições iniciais ligeiramente perturbadas o erro se propaga exponencialmente pelo sistema gerando resultados errados Gutiérrez (2003). Portanto dependendo das aproximações físicas e escalas consideradas no modelo numérico, a não linearidade deste imporá um alcance maior ou menor na predição.

2.4 Tipos de previsão

Assim como os modelos numéricos para previsão, seja de tempo ou clima, os tipos de previsão ou predição, estão relacionados com a resolução temporal e espacial dos dados. Esta dependência espaço-temporal é mostrada na Figura 2.5, pois quando se aumenta o

(34)

alcance da previsão decresce a resolução espacial e os fenômenos que podem ser preditos.

Tabela 2.1 – Alcance das previsões. Previsão Alcance de Previsão Now-casting (imediata) minutos, horas

Curto prazo 1 a 3 dias

Médio prazo (ensemble) 4 a 15 dias

Mensal mês

Sazonal trimestre

As previsões, a respeito do comportamento atmosférico em escalas na ordem de metros e km, são realizadas de forma determinística para um alcance temporal na ordem de minutos e segundos (Tabela 2.1). Não é possível realizar previsões nestas escalas para dias, meses e anos, pois o modelo, devido a sua não-linearidade, apresentaria resultados totalmente equivocados devidos às incertezas associadas nas condições iniciais. Já nas previsões para médio prazo, que são aquelas com um alcance de quatro a quinze dias, tem que ser realizada utilizando a técnica do ensemble, também conhecida como previsão por conjuntos, para minimizar os efeitos das condições iniciais a médio prazo. As previsões mensais e sazonais são realizadas com ensemble e de forma probabilística, como mostra a Figura 2.5.

Portanto os tipos de previsão são: Determinística e Probabilística.

D et er m in ís ti ca P ro b ab il ís ti ca

Tipos de Predição

a n u a l m e n sa l d iá ri a h o rá ri a m km 100 km 1000 km

Escala Espacial

E

sc

a

la

T

em

p

o

ra

l

computacionalmentecustoso Restrição Não-linearidade do modelo Precip. = 10.3 mm P(Precip.>10mm)=0.85 Anomalia > s

Precip. diária esperada para manhã é de 10.3mm

A probabilidade de que a precip. diária esperada para dentro de uma semana supere 10mm é de 0.85

É provável que a anomalia da precip. acumulada para o próximo inverno seja atípica

Now-casting Curto prazo Médio Prazo Mensal Sazonal

(35)

2.4.1 Previsão determinística

Uma previsão é determinística quando proporciona um estado para uma variável discreta ou contínua, como por exemplo, vento > 90km/h, precipitação é 18.5 mm (Gutiérrez, 2003). São previsões que obedecem as funções do tipo f: C P, onde f é a função de predição, C as variáveis necessárias para realização da previsão e P o estado da variável prevista.

Existem dois tipos elementares de previsão determinística:

Persistência: Consiste em prognosticar para um dado instante de tempo t o que ocorreu no instante t-1.

ô(t)=o(t-1);

Climatologia: Consiste em prognosticar utilizando algum parâmetro derivado da distribuição climatológica obtida empiricamente para um evento dado. Por exemplo, a precipitação predita para um dia de Janeiro será a média dos valores diários da precipitação em Janeiro nos últimos dez anos:

ô(t)=<o(ti)>; i=1..N;

onde < > denota a média para o período desejado, ô(t) o valor predito para o(ti).

2.4.2 Previsão probabilística

Uma predição é probabilística quando descreve em termos quantitativos a incerteza associada com a predição. O prognóstico realizado é uma distribuição de probabilidade sobre os de valores de uma variável. As predições podem ser visualizadas com variáveis continuas ou discretas como mostra a Figura 2.6.

(36)

Figura 2.6 – Previsão probabilística. À esquerda a previsão probabilística contínua e a direita mostrada de forma discreta ou categórica.

(37)

3 MINERAÇÃO DE DADOS

3.1 Introdução

Claramente o volume de informações cresceu vertiginosamente, com o aumento significativo da capacidade de armazenamento que as tecnologias para estes fins vêm permitindo. Mas nem sempre o acúmulo de informações é benéfico. Em muitos casos mantêm-se estas grandes bases para fazer simples consultas, sem retirar destas, informações que tenham “valor” ou significado. Por isso e para isso, surgiu a descoberta de conhecimento para de banco de dados, “lapidar”, “extrair” ou “minerar” padrões que estejam escondidos entre os dados com o propósito de entender o comportamento dos mesmos.

Neste contexto de exploração de grandes bases de dados, este capítulo trata basicamente das definições sobre mineração de dados, que faz parte do processo de descoberta de conhecimento, que servirá de fundamento teórico para o estudo desenvolvido nesta dissertação, uma vez que se deseja fazer previsão climática, com técnicas empregadas na inteligência artificial, com o menor número de variáveis possíveis.

Como reduzir variáveis envolve o entendimento das relações entre elas e a mineração de dados executa esta tarefa, então se optou pelo emprego desta metodologia, que é descrita com maiores detalhes a seguir.

3.2 Definições básicas

Mineração de dados é um conjunto de técnicas computacionais para a extração de informações desconhecidas e potencialmente úteis em grandes volumes de dados através de um resumo compacto dos mesmos. O termo “mineração de dados” é somente um de vários termos, incluindo extração de conhecimento, arqueologia de dados,

(38)

colheita de informações ou descoberta de conhecimento em banco de dados (KDD - Knowledge Discovery in Databases) (Fayyad et al, 1996).

Chen (2001) Define mineração de dados como a extração não-trivial de informações implícitas, previamente desconhecidas, interessantes e potencialmente usuais, dos dados.

As características principais do processo de mineração de dados são:

• O conhecimento descoberto é representado em uma linguagem de alto nível que pode ser entendido por usuários humanos.

• As descobertas retratam o conteúdo do banco de dados.

• O conhecimento descoberto é interessante de acordo com os usuários. • O processo de descoberta é eficiente.

Algumas vezes os termos KDD e mineração de dados são usados com o mesmo sentido. Isto porque, do ponto de vista da aplicação, o acrônimo KDD, está diretamente relacionado à extração de conhecimento residente em base de dados, fazendo uso de sistemas gerenciadores de banco de dados, enquanto a mineração de dados, não especifica o tipo da fonte de dados e muito menos o formato dos mesmos (Chen, 2001).

A pesquisa em KDD tem crescido e atraído esforços, baseada na disseminação da tecnologia de bancos de dados e na premissa de que as grandes coleções de dados hoje existentes podem ser fontes de conhecimento útil, que está implicitamente representado e pode ser extraído. No sentido de viabilizar esta tecnologia, a KDD se vale, entre outras coisas, de técnicas de inteligência artificial e de conceitos estatísticos para lidar com a incerteza relacionada às descobertas.

(39)

3.3 O processo de descoberta de conhecimento

A descoberta de conhecimento é o processo de extração de conhecimento novo, útil e interessante a partir de bases de dados. Este processo tem natureza iterativa e interativa e é composto por uma série de atividades (Fayyad, 1996). A mineração de dados, por sua vez, pode ser considerada o núcleo da KDD, consistindo na aplicação de algoritmos de extração de padrões a partir de dados. A Figura 3.1 apresenta uma representação do processo de KDD. Dados Dados Objetivos Dados Pré Processados Dados Transformados Padrões Conhecimento Seleção Pré-Processamento Transfomação Minerção de Dados Interpretação

Figura 3.1 – Etapas do processo de KDD.

FONTE: Adaptado de Fayyad, 1996.

Então de uma forma geral as etapas da KDD resumidamente são:

Definição dos objetivos e seleção dos dados

Inclui descrever cuidadosamente o problema, determinar se o uso da mineração de dados é apropriado e qual método utilizar, decidir a forma de entrada e saída dos dados, decidir relações custo/benefício etc. Também nesta etapa, se deve determinar quais os dados que serão necessários para análise. É importante a escolha dos dados, pois evidentemente irá refletir diretamente nos resultados.

(40)

Pré-Processamento

Eliminação de ruídos e erros, estabelecimento de procedimentos para verificação da falta de dados; estabelecimento de convenções para nomeação e outros passos demorados para a construção de uma base de dados consistente. Por exemplo, verificar se os dados necessitam ser normalizados, quais atributos podem ser descartados, se é necessário converter dados para outro formato, etc. Essa é a etapa mais lenta do processo, tomando cerca de 50-80% do tempo total.

Transformação

Alguns passos opcionais podem ser utilizados para auxiliar nas etapas seguintes, e são altamente recomendados, dentre eles temos a redução de dados e a compressão de dados. Nesta etapa ainda, pode-se transformar atributos não-categóricos em atributos não-categóricos, por exemplo, transformar um atributo contínuo (ou não-categórico) como a temperatura (°C) em variável categórica como “Temperatura Alta”, “Normal” e “Baixa”, por meio de uma discretização.

Mineração de dados

Aplicação dos algoritmos para descoberta de padrões nos dados; envolve a seleção de métodos, técnicas e modelos que são mais adequados para realizar a análise desejada.

Interpretação

Consiste na visualização dos resultados obtidos pelo processo de mineração de dados. Os padrões obtidos serão utilizados como ferramenta de suporte a decisão por parte do usuário. Este deverá avaliar a adequação dos padrões identificados pelo processo no tocante à extração de conhecimento desejado.

(41)

Vale ressaltar que após a obtenção do conhecimento e caso os resultados não sejam satisfatórios o processo pode ser retomado a partir do ponto que seja mais oportuno para tal análise.

3.4 Classificação da mineração de dados

Existem muitos modos de categorizar ou classificar a mineração de dados. Um modo é classificar a mineração de dado de acordo com os seus objetivos. Neste caso surgem duas categorias (Chen, 2001):

Descritiva: focada na procura de padrões que os interpretáveis descritos nos dados. Este tipo de mineração de dado descreve as características existentes nos dados.

Preditiva: envolve usar variáveis para predizer valores desconhecidos e futuros de outras variáveis de interesse.

3.5 Principais tarefas da mineração de dados

As tarefas ou funcionalidades da mineração de dados estão relacionadas com o domínio da aplicação e do interesse do usuário, indicando o tipo de conhecimento que deve ser minerado. As principais tarefas são resumidamente:

Caracterização; Associação; Classificação; Regressão; Segmentação;

(42)

3.5.1 Caracterização

O objetivo da caracterização é generalizar, resumir e possivelmente comparar características dos dados. Por exemplo, é um tipo de caracterização saber qual tipo de pessoas são típicas compradoras de imóveis na cidade X, para casas novas com valor mínimo de $500.000,00 (Chen, 2001).

3.5.2 Associação

Também chamado de market basket analysis (MBA) (dá-se esse nome porque os dados consistem em um conjunto de atributos binários chamados itens) ou análise de afinidades em aplicações de negócios, associação é a descoberta de relações entre vários atributos ou transações. Por exemplo, é associação a análise que dá informações para o gerente da vídeo-locadora conhecer quais filmes sempre são alugados juntos ou se existe alguma relação entre alugar determinados gêneros de filmes e comprar pipoca ou refrigerante (Chen, 2001).

3.5.3 Classificação

Frequentemente se quer classificar dados de acordos com valores em atributo classificador, também conhecido como meta ou objetivo. Nesta tarefa, que é a mais empregada em descoberta de conhecimento, cada tupla ou registro pertence a uma classe. O principio da classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo, o que envolve uma função que mapeie os dados nas classes pré-definidas. Por exemplo, é classificação identificar que tipos de clientes seriam eventuais compradores de um livro de culinária, baseado em um banco de dados contento dados sobre os clientes da editora nos países onde o livro foi publicado (Chen, 2001).

(43)

3.5.4 Regressão

Regressão envolve aprender uma função que mapeie os dados para predição de uma variável contínua. Esta tarefa é conceitualmente similar à classificação. A maior diferença é que na regressão o atributo meta é contínuo, enquanto que na classificação em geral é do tipo discreto (Chen, 2001).

3.5.5 Segmentação

Segmentação ou clustering consiste em agrupar os dados em novas classes. Isto é o que as pessoas fazem intuitivamente quando visualizam o mundo e segmentam em grupos discretos, por exemplo, tipos de animais, plantas, veículos, etc. Nesta tarefa o algoritmo deve criar classes através da partição dos dados com valores de atributos semelhantes, ou seja, propriedades de interesse comum sejam reunidas em uma mesma classe (Chen, 2001).

3.6 Técnicas de mineração de dados

Existem inúmeras técnicas que são empregadas na mineração de dados, sendo algumas delas (Komorowski et. al, 1999),(Chen, 2001):

Teoria dos Conjuntos Aproximativos (Rough Sets Theory); Teoria dos Conjuntos Nebulosos (Fuzzy Sets Theory); • Redes Neurais Artificiais;

• Indução de regras; • Árvores de decisão;

Dentre as técnicas citadas acima, duas delas, a teoria dos conjuntos aproximativos e as redes neurais artificiais, são utilizadas no desenvolvimento desta dissertação sendo por isso detalhada no Capítulo 4 e 5.

(44)

3.7 Mineração de dados espaço-temporal

Em mineração de dados, principalmente na área científica, existem dados que possuem componentes espaciais, temporais ou ambas (Chen, 2001). O uso de tais componentes dependerá da aplicação e meta das análises envolvendo estes dados.

Os dados de natureza espaciais são caracterizados por elementos que possuem parâmetros de localização (Figura 3.2), como x e y ou longitude e latitude, por exemplo.

Lon

Lat

Figura 3.2 – Dados espaciais.

Em Pessoa et al (2003) é mostrada uma aplicação da mineração de dados espacial na região da represa Billings – SP, onde o objetivo era estabelecer relações entre as variáveis: “uso da terra”, “características geológicas” e “declividade” com a variável “risco de deslizamento de terra” (Figura 3.3).

(a) (b)

Figura 3.3 – Mapas temáticos da represa Billings. (a) declividade, (b) características geológicas, (c) uso da terra e (d) risco de deslizamento.

(45)

(c) (d) Figura 3.3 – Conclusão.

No tipo de dados temporal uma variável tem uma evolução durante um intervalo de tempo, ou seja, está na forma de série temporal. A Figura 3.4 mostra um exemplo de dados temporal.

Figura 3.4 – Série temporal de precipitação (Centro-Oeste, Jan 81 a Dez 91).

Em Pessoa (2003) é construído um classificador de tarefas mentais, através do processo de descoberta de conhecimento (KDD), baseado em Anderson & Sijercic (1996). Os dados estavam dispostos em forma de série temporal, oriundo de sinais de EEG (eletro-encefalograma) de 6 canais como mostrado na Figura 3.5. Cada linha do banco de dados contêm: uma série temporal, um canal, uma tarefa (respectivamente colunas 1 a 2502, x e y da Tabela 3.1). As tarefas a serem classificadas são:

Tempo P re ci p it aç ão

(46)

1) Repouso;

2) Elaboração de uma carta;

3) Multiplicação não trivial de dois números; 4) Contagem numérica;

5) Visualização de uma figura geométrica em rotação.

Figura 3.5 – Posicionamento dos eletrodos.

FONTE: Anderson & Sijercic (1996).

Tabela 3.1 – Dados de EEG.

Sinal de EEG (colunas) Canal Tarefa

Elementos 1 2 ... 2502 x y

1 a1 a2 a2502 x1 y1

2 a1 a2 a2502 x2 y2

...

1950 a1 a2 a2502 x1950 y1950

Um terceiro tipo de dado envolve as componentes espaciais e temporais, com a função de descrever a evolução no tempo de uma dada variável em uma região. Variáveis como precipitação, umidade e pressão na meteorologia, são exemplos de dados espaço-temporais. Nas Figura 3.6 é mostrado um exemplo como a variável precipitação, com dados coletados no Climate Diagnostic Center/ National Oceanic and Atmospheric Administration (CDC/NOAA) em [http://www.cdc.noaa.gov/], de janeiro de 1980 a abril do mesmo ano.

(47)

Figura 3.6 – Precipitação de JAN – 1980 a ABR – 1980.

Existem diversas formas de representação espaço-temporal, dependendo do objetivo. A mais comum e utilizada é a forma tabular, inclusive pelos algoritmos de mineração de dados. Mas as informações na maioria dos casos encontram-se na forma matricial como na representação mostrada na Figura 3.7.

Tempo Variável 4 Variável 1 Variável 2 Variável 3 Variável 4 Variável 1 Variável 2 Variável 3

Figura 3.7 – Representação gráfica dos dados espaço-temporal.

Na forma tabular cada ponto, chamado de ponto de grade, pode representar um grau, um minuto ou um segundo de coordenadas geográficas, por exemplo, ou uma resolução diferente, e é representado como um elemento rotulado, com um identificador de tempo

(48)

representação com tempo repetido e representação sem tempo repetido (Pang-Ning et al, 2001).

Na representação com tempo repetido em cada instante de tempo um elemento é representado por um registro na tabela com seus respectivos valores para as variáveis. Portanto, se existem n tempos, cada ponto da grade é representado n vezes. Na Tabela 3.2 é mostrado o formato deste tipo de representação. Os subscritos exibidos nas Tabelas 3.2 e 3.3 são b (baixo), m (médio) e a (alto).

Tabela 3.2 – Representação com tempo repetido.

Localização Tempo Variável 1 Variável 2 Variável 3

Lid1 t1 xb ym za Lid2 t1 xm yb zm Lid1 t2 xa ym zb Lid2 t2 xa yb za ... ... ... ... ... Lidi tn xa ym zb Lidi tn xa yb za Lidi tn xm yb zb

Fonte: Adaptada de Pang-Ning et al (2001)

Já na representação sem repetir a componente temporal não há necessidade de representar cada elemento para um instante de tempo, uma vez que cada instante de tempo é representado em uma coluna. Os valores para estas colunas são os estados das variáveis envolvidas na análise no tempo em questão, como mostrado na Tabela 3.3. A desvantagem desta representação é que para análise de um longo período de tempo, existiria um número elevado de colunas.

Tabela 3.3 – Representação sem tempo repetido.

Localização t1 t2 ... tn Lid1 (xb,yb,za) (xa,ym,zb) ... (xa,yb,za) Lid2 (xm,yb,zm) (xa,yb,za) ... (xa,ym,za) Lid3 (xm,ym,zb) (xa,ya,za) ... (xb,yb,zb) ... ... ... ... ... Lidi (xa,ym,zb) (xa,yb,za) ... (xm,yb,zb)

(49)

4 TEORIA DOS CONJUNTOS APROXIMATIVOS

4.1 Introdução

No mundo real as informações são freqüentemente incertas, imprecisas ou incompletas, talvez devido à dificuldade em relatar os fenômenos naturais observáveis, expressar acontecimentos ou fatos, etc. Diversas teorias foram desenvolvidas para “tratar” tais imperfeições, dentre elas a teoria dos conjuntos nebulosos (Zadeh, 1965), teoria de Dempster-Shafer (Dempster, 1967), (Shafer, 1976), teoria das possibilidades (Zadeh, 1978). No início da década de 80, surgiu uma teoria, caracterizada pela simplicidade e bom formalismo matemático, o que facilita a manipulação de informações, em especial, incertas, conhecida como Teoria dos Conjuntos Aproximativos (TCA), ou do inglês Rough Set Theory. A TCA é uma extensão da teoria dos conjuntos, que enfoca o tratamento de incerteza dos dados através de uma relação de indiscernibilidade que diz que dois elementos são ditos indiscerníveis, se possui as mesmas propriedades, segundo Leibniz (Scuderi, 2001). Alguns autores como Nicoletti e Uchôa (1997) apontam como a principal vantagem da teoria dos conjuntos aproximativos a não necessidade de utilização de informações adicionais, tais como distribuição de probabilidade, grau de pertinência, possibilidade ou atribuição de crença. A TCA foi inicialmente proposta por Zdzislaw Pawlak (Pawlak, 1982) e desde então atraiu o interesse de parte da comunidade acadêmica, e suas aplicações em diversas áreas do conhecimento, propiciaram o surgimento de extensões. Porém ao longo deste capítulo é abordado o formalismo matemático do ponto de vista clássico (como idealizado inicialmente por Pawlak) e as nomenclaturas de acordo como o apresentado por Komorowski et al (1999) para o uso da TCA na análise de dados.

(50)

4.2 Conceitos básicos

4.2.1 Sistemas de informação

Um sistema de informação (SI), ou espaço aproximativo é um par ordenado SI = (U; A), onde:

U é um conjunto finito não-vazio de objetos (um caso, um evento, um paciente, ou simplesmente um objeto) chamado de universo e A;

A representam os atributos (uma variável, uma observação, uma propriedade, etc.).

Cada atributo a A define uma função de informação fa: U Va, onde Va é o conjunto

dos valores de a, chamado de domínio do atributo a.

Exemplo 1

Tabela 4.1 – Sistema de informação.

Pressão Temperatura Umidade

x1 1 2 1 x2 2 2 1 x3 1 1 0 x4 1 2 1 x5 2 2 1 x6 0 0 2

Por questão de simplicidade adota-se a seguinte nomenclatura para os atributos:

p = pressão; t = temperatura;

(51)

O universo e os atributos são, respectivamente: U = {x1, x2, x3, x4, x5, x6};

A = {p, t, u};

O domínio dos atributos são: Vp = {0, 1, 2};

Vt = {0,1, 2};

Vu = {0, 1, 2};

Quando um atributo é especialmente adicionado a um sistema de informação para fins classificatórios, este sistema passa a ser denominado sistema de decisão (SD), denotado por SD = (U; A {d}), onde d A é o atributo de decisão.

Colocada a definição de sistema de decisão acima e com o propósito de utilizar uma terminologia de acordo com a teoria dos conjuntos aproximativos, os elementos pertencentes a A, passa a serem chamados de atributos condicionais ou simplesmente condições e d é o atributo de decisão, como dito anteriormente. O atributo de decisão pode ser representado por vários valores, entretanto valores binários são mais freqüentes O domínio ou classes do atributo de decisão nos SD são freqüentemente binários, tal como {Sim, Não} ou {0, 1}, mas também pode assumir representações de múltiplos valores. (Komorowski et al, 1999).

Exemplo 2

Tabela 4.2 – Sistema de decisão.

Pressão Temperatura Umidade Precipitação

x1 1 2 1 0

x2 2 2 1 1

x3 1 1 0 1

x4 1 2 1 1

(52)

Um sistema de decisão pode ser resumido com regras, como por exemplo, algo da forma:

“Se a =’x’ e b =’y’ então d = Sim”; “Se a = 0.25 então d1 é 0 ou d2 é 1”;

“Se a =[155; 159] então d é Não”;

Com esta capacidade de representar um sistema de decisão em regras é possível construir modelos baseados nestas, que representem todo o sistema em questão de uma forma resumida e com isto, na abordagem utilizando TCA, em muitas vezes são encontrados padrões implícitos e usuais nos dados. Por esta razão esta teoria é tão usual como técnica de mineração de dados.

4.3 Indiscernibilidade

Uma das principais características da TCA é a redução de dados, por meio da compactação do sistema de decisão, que pode ser desnecessariamente grande. Esta compactação em TCA ocorre duas situações:

• quando elementos “iguais” são representados muitas vezes; • quando alguns atributos são supérfluos.

Nesta seção é abordado o caso onde os objetos são representados muitas vezes. Para este tipo de situação vários elementos pertencentes a mesma classe de equivalência são representados por um único elemento no SI.

Dado um conjunto de elementos X e x, y e z X, uma relação de equivalência é uma relação binária R⊆ X x X que é reflexiva (xRx), simétrica (se xRy então yRx) e transitiva (se xRy e yRz então xRz), para todo x, y e z X. A classe de equivalência de um elemento xX, consiste em todos os elementos yXtal que xRy e é denotada por

(53)

Dado SI = (U; A) como sistema de informação e x e x’ X, então com qualquer B A existe uma relação de equivalência INDA (B), quando os elementos (x, x’) possuem os

mesmos valores de atributos B (elementos idênticos sob a luz dos atributos B). Esta relação é mostrada na Equação 4.1:

)} ( ) ( , | ) , {( ) (B x x U a B a x a x INDA = ′ ∈ ∀ ∈ = ′ (4.1)

INDA(B) é chamada de relação de B-indiscernibilidade. Se (x,x′)∈INDA(B), então os objetos x e x’ são indiscerníveis relativamente a qualquer atributo no conjunto B. [x]B

denota a classe de equivalência descrita pelo elemento x X. As classes de equivalência INDA(B) dá-se o nome de conjuntos elementares em B, porque estas representam o

menor grupo de objeto discerníveis.

Exemplo 3:

O SD para este exemplo é mostrado na Tabela 4.2. São mostrados os conjuntos elementares ocasionados pela relação IND, utilizando todas as combinações dos atributos condicionais: IND (p) = [{x1, x3, x4}, {x2, x5}, {x6}]; IND (t) = [{x1, x4, x2, x5}, {x3}, {x6}]; IND (u) = [{x1, x2, x4, x5}, {x3}, {x6}]; IND (p, t) = [{x1, x4}, {x2, x5}, {x3}, {x6}]; IND (p, u) = [{x1, x4}, {x2, x5}, {x3}, {x6}]; IND (t, u) = [{x1, x4, x2, x5}, {x3}, {x6}]; IND (A) = [{x1, x4}, {x2, x5}, {x3}, {x6}];

(54)

4.4 Aproximação dos conjuntos

Na Tabela 4.2 os elementos {x1, x4} são indiscerníveis segundo a relação de

indiscernibilidade. Porém acontece que estes possuem valores de decisão diferentes, o que para fins classificatórios causa uma dúvida, ou imprecisão dos dados, quanto ao pertencimento destes elementos a uma só classe de decisão. Fundamentado neste raciocínio, os elementos de um SD pode ser particionado em regiões, chamadas em TCA de aproximações. Existem quatro regiões formadas por este particionamento (Komorowski et al, 1999):

Aproximação inferior ou região interna; Aproximação superior;

Região de Fronteira ou Borda; Região Externa.

A idéia por trás deste fundamento é bastante simples. Elementos que possuem mesmos valores de condições e decisão certamente pertencem a uma classe de decisão. Se esta classe for à classe alvo, ou seja, a classe tomada como referência para análise, então os elementos estão na aproximação inferior, caso contrário são pertencentes à região externa.

Já os elementos que possuem condições iguais e decisão diferente são possíveis membros da classe alvo, pois não existe consenso, quanto à pertinência classe de decisão. Estes elementos pertencem à região de fronteira, pois separam os elementos que certamente pertencem à classe alvo dos que certamente não pertencem.

Por sua vez a aproximação superior é formada pela união dos elementos da aproximação inferior e os da região de fronteira. O formalismo matemático para as aproximações inferior e superior, respectivamente, são (B A, A são os atributos condicionais, X U, U é o conjunto de elementos, X é a classe alvo e x X):

(55)

} ] [ | {x x X X B = B ⊆ e BX ={x|[x]BX ≠∅} (4.2) e (4.3)

Em TCA as aproximações das Equações 4.2 e 4.3 são chamadas de aproximações B-inferiores e B-superiores de X.

As regiões de fronteira e externa, matematicamente podem ser expressas pelas diferenças:

FB (X) = XBBX e EB (X) = U - XB (4.4) e (4.5)

De forma análoga as aproximações superior e inferior as Equações 4.4 e 4.5, em TCA são chamadas de região de B-fronteira de X e região B-externa de X. Na Figura 4.1 é exibida uma representação gráfica das aproximações discutidas nesta seção.

Borda ou Fronteira Região Externa

Aproximação Inferior

Aproximação Superior

+ =

Figura 4.1 – Aproximações do conjunto.

Quando existe a região da fronteira, o conjunto é dito aproximativo e caso contrário é chamado de preciso (crisp).

Exemplo 4

(56)

= ) (X1 B {x6}; = ) (X1 B [{x1, x4}, {x6}]; F(X1) = B(X1)− B(X1) ={x1, x4} E(X1) = U –B(X1)= [{x2, x5}, {x3}] = ) (X2 B [{x2, x5}, {x3}]; = ) (X2 B [{x2, x5}, {x3}, {x1, x4}]; F(X2) = B(X2)− B(X2) = {x1, x4} E(X2) = U–B(Y)={x6}

Aproximação com X1 = {x1, x6} Aproximação com X2 = {x2, x3, x4, x5}

Figura 4.2 – Aproximações

As aproximações apresentam as seguintes propriedades (Komorowski et al, 1999): (1) BXXBX ; (2) B(∅)=B(∅)=∅,B(U)=B(U)=U; (3) B(XY)=B(X)∪B(Y); (4) B(XY)=B(X)∩B(Y); (5) XY implica B(X)⊆ B(Y) e B(X)⊆B(Y); (6) B(XY)⊇B(X)∪B(Y); ∩ ⊆ ∩ {x6} {x1, x4} {x2, x5} {x3} d = 0 {x6} {x1, x4} {x3} {x2, x5} d = 1

(57)

(8) B(−X)=−B(X); (9) B(−X)=−B(X);

(10) B(B(X))=B(B(X))=B(X); (11) B(B(X))=B(B(X))=B(X); onde (– X) denota (U – X).

Pode-se então definir quatro classes básicas dos conjuntos aproximativos ou quatro categorias de incerteza:

X é B-aproximadamente definido, see B( X)≠∅ e B(X)≠U ;

X é B-internamente indefinido, see B( X)=∅ e B(X)≠U ;

X é B-externamente indefinido, see B( X)≠∅ e B(X)=U;

X é B-totalmente indefinido, see B( X)=∅ e B(X)=U.

O significado desta classificação é o seguinte:

X é B-aproximadamente definido: significa que, usando B, pode-se definir que alguns elementos de U pertencem a X e alguns elementos de U pertencem a –X.

X é B-internamente indefinido: significa que, usando B, pode-se definir que alguns elementos de U pertencem a –X, mas nenhum elemento de U pode ser caracterizado como pertencente a X.

X é B-externamente indefinido: significa que, usando B, pode-se definir que alguns elementos de U pertencem a X, mas não se pode afirmar se algum elemento de U pertence a –X.

(58)

Uma maneira de aferir as aproximações em um conjunto B pode ser através dos seguintes coeficientes, | ) ( | | ) ( | i i B X B X B ∪ ∪ = α (4.6) | | | ) ( | U X B i B ∪ = β (4.7)

onde αB é chamado de acurácia de aproximação e βB é chamado de qualidade de

aproximação. Evidentemente 0 ≤αB ≤ 1 e 0 ≤βB ≤ 1. Se αB = 1, Xi é dito preciso (crisp)

em relação a B, caso contrário, isto é, se αB < 1, então X é aproximado em relação a B.

Algumas definições são importantes para a compreensão da estrutura do universo U, quanto às inconsistências causadas por imprecisões ou incertezas de elementos, segundo a relação de indiscernibilidade. Então estas definições são discutidas a seguir:

Se X1 ,...,X|Vd|

SD

SD (|Vd| é a cardinalidade do domínio do atributo de decisão, por exemplo,

Vd = {0, 1}, |Vd| = 2) são classes de decisão de SD, então o conjunto

| | 1 ... BXVd X B ∪ ∪ é

chamado de B-região positiva de SD, e é denotado por POSB(d). A região B–negativa

de SD é dada por NEGB(d) = U – (BX1∪...∪BX|Vd|).

Duas propriedades importantes dos SD são relativas à sua consistência ou não, que é uma forma de saber se há objetos que “degradam” a classificação de um conjunto devido a uma incerteza associada aos mesmos, e isto pode ser observado através da região positiva, conforme é abordado abaixo:

Dado um SD = {U; A {d}}, a decisão generalizada em SD, que é a decisão que dois objetos indiscerníveis possuem é definida por ∂A = {i | x’IND(A)x e d(x) = i} com x e

(59)

x’ U. Um SD é dito consistente se |A | = 1 para qualquer x U, caso contrário o SD é

inconsistente.

Utilizando a noção de região positiva, um SD é dito consistente se POSA(d) = U, caso

contrário é inconsistente.

Exemplo 5

A acurácia para as aproximações do Exemplo 4 pode ser calculada a partir da expressão (4.6): • X1 = {x1, x6}: 0,33 3 1 | } {x }, x , {x | | } {x | | ) ( | | ) ( | 6 4 1 6 1 1 1 = = = = X B X B X α • X2 = {x2, x3, x4, x5}: 6 , 0 5 3 | } x , {x }, {x }, x , {x | | } {x }, x , {x | | ) ( | | ) ( | 4 1 3 5 2 3 5 2 2 2 2 = = = = X B X B X α • Todos Conjuntos (X1 + X2): 5 , 0 8 4 | }] x , {x }, {x }, x , {x [ }] {x }, x , [{x | | }] {x }, x , {x [ } {x | | ) ( | | ) ( | 4 1 3 5 2 6 4 1 3 5 2 6 = = ∪ ∪ = = X B X B B α ;

A qualidade de aproximação (4.7) é dada por:

X1 = {x1, x6}: 17 , 0 6 1 | }] {x }, {x }, x , {x }, x , [{x | | } {x | | | | ) ( | 6 3 5 2 4 1 6 1 1 = = = = U X B X β X2 = {x2, x3, x4, x5}: 5 , 0 6 3 | }] {x }, {x }, x , {x }, x , [{x | | } {x }, x , {x | | | | ) ( | 6 3 5 2 4 1 3 5 2 2 2 = = = = U X B X β

Referências

Documentos relacionados

Constatou-se com este estudo que, apesar da classificação geral do estilo de vida de acordo com o questionário FANTASTIC da população estudada estar na categoria Muito

Por lo tanto, RD no solo debe reconocer su nacionalidad dominicana para disminuir su vulnerabilidad (CIDH, 2005, párr. 25)), pero también restituirlos por el daño inmaterial

duplamente encadeada com este valor caso o mesmo ainda não exista na lista, em ordem CRESCENTE, ou seja, sempre entre um nó contendo um valor menor e outro contendo um valor

 São TADs representados através de listas sequenciais.. (fixas) ou encadeadas (dinâmicas), em que a seguinte regra deve

função recursiva, mais recursos de memória são necessários para executar o programa, o que pode torná-lo lento ou. computacionalmente

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os

Descrevemos com uma breve hist´ oria como surgiram os paradoxos na teoria de conjuntos, e alguns intentos para elimina-las, apresentamos quais s˜ ao estes paradoxos e no final

Também num outro livro, duma outra natureza, Fantasia para Dois Coronéis e uma Piscina as opiniões que um dos coronéis expende sobre literatura reproduzem, em linguagem corrente