Data Mining - Mineração de Dados - Indicadores de qualidade do ar como instrumento de gestão am

4.1 Mineração de Dados

4.1.6 Data Mining

4.1.5.5.3 Atributos referentes às estações de monitoramento de qualidade do ar

Consistiu na criação de um script específico para substituir, durante as exportações dos dados para o WEKA, os valores numéricos dos atributos pela correspondente classificação. Optou- se por não fazer a substituição diretamente na base de dados para facilitar eventuais testes de mineração caso fosse desejável a alteração dos limites adotados para classificação de cada um dos atributos.

Ilustração 39 – Tela exemplo da interface criada para exportação dos atributos convertidos em classes

Fonte: Criação do autor, utilizando software Excel.

4.1.6.1 Levantamento de cenários de mineração

Inicialmente, foram feitos vários testes para identificação do algoritmo mais adequado à mineração, bem como a configuração mais adequada do algoritmo escolhido.

Foi gerado um arquivo de entrada para o WEKA selecionando-se todas as instâncias da base de dados nas quais foram excluídas todas as instâncias em que estivesse ausente algum dado de qualquer dos atributos. O arquivo obtido possuía 1325 instâncias, correspondendo a aproximadamente 3,8% do número máximo de instâncias possíveis para o período analisado.

Com esse arquivo foi possível fazer uma avaliação de todas as opções de algoritmos para geração de árvores de decisão disponíveis no WEKA. Para isso, foi escolhido o atributo QA2- OZ como variável dependente e testados os algoritmos com suas configurações padrões. A Tabela 11 apresenta um resumo desses testes:

Algoritmo Comentários

AdTree Não foi possível aplicá-lo pois ele só trabalha com atributos que possuam apenas duas classes.

Decision Stump Algoritmo não gera árvore de decisão, mas uma tabela de distribuição de classes. Apresentou percentual de instâncias classificadas corretamente de apenas 47,7%

Id3 Só pode ser utilizado se todos os atributos forem nominais.

J48 Apresentou percentual de instâncias classificadas corretamente de 92,5%, gerando uma árvore com 208 regras.

LMT Apresentou percentual de instâncias classificadas corretamente de 86.8%, gerando uma árvore com 14 regras. Porém cada regra é definida por uma equação que pode envolver um número grande de atributos.

Apresentou um tempo de processamento bastante elevado, quando comparado aos outros algoritmos.

M5P Não foi possível aplicá-lo pois ele só admite variável dependente numérica.

NBTree Apresentou percentual de instâncias classificadas corretamente de 91,2%, gerando uma árvore com 98 regras. Assim como o LMT, apresentou um tempo de processamento bastante elevado, quando comparado aos outros algoritmos.

Random Forest Apresentou percentual de instâncias classificadas corretamente de 99,7%, porém não gerou uma árvore. Na verdade, esse algoritmo trabalha com várias árvores - daí o termo "forest", i.e. floresta.

Random Tree Apresentou percentual de instâncias classificadas corretamente de 100%, mas gerou uma árvore com 852 instâncias.

RepTree Apresentou percentual de instâncias classificadas corretamente de 79,4% e gerou uma árvore com 56 instâncias.

Tabela 11 – Resumo da aplicação dos algoritmos de geração de árvore de decisão em amostra da base.

Fonte: Criação do autor, utilizando o software Excel.

Pelos resultados, percebe-se que apenas os algoritmos J48, LMT e NBTree apresentaram desempenho satisfatório com as configurações padrão, visto que os outros algoritmos ou apresentaram um percentual de instâncias classificadas relativamente baixo (menor do que 80%), não geravam árvore, ou possuíam um número de instâncias muito grande ou complexas. Dos três algoritmos que responderam à mineração da amostra, apenas o J48 apresentou um tempo de processamento baixo. Por essa razão, foi escolhido para que fossem efetuadas as minerações seguintes.

O algoritmo J48 possui algumas configurações que podem ser ajustadas pelo usuário⁵⁸. Para esta pesquisa, há especial interesse no número mínimo de instâncias por folha (minimum number of instances per leaf), visto que ele força o algoritmo a trabalhar com árvores menores, fornecendo, assim, regras que tendem a ser mais concisas.

Antes da busca por regras para predição dos atributos relacionados à qualidade do ar, é importante que sejam feitas minerações de exploração com o intuito de levantar-se que tipos de atributos têm maior influência sobre as medições de qualidade do ar. Dessa forma, pode-se passar para a etapa seguinte que seria fazer minerações mais aprofundadas dentro dos cenários mais favoráveis. Assim, foram definidos os arranjos de dados que estão listados na Ilustração 40. São nove cenários, sendo necessária uma mineração para cada variável dependente listada, de forma que há um total de 80 aplicações do algoritmo. Foram então gerados nove arquivos de entrada do WEKA para cada um dos cenários e efetuadas as minerações utilizando os ajustes padrões do algoritmo J48⁵⁹. Esses cenários são mostrados na Ilustração 40, onde é possível observar quais são os atributos presentes no conjunto de dados a ser minerado e também quais desses atributos que funcionarão como variáveis dependentes.

58 Seção 2.1.3.1.1

59 binarySplits=false; confidenceFactor=0.25; minNumObj=2; numFolds=3; reducedErrorPrunning=false;

seed=1; sbtreeRaising=true; unpruned=false; useLaplace=false.

Ilustração 40 – Cenários escolhidos para a mineração de exploração Fonte: Criação do autor, utilizando o software Excel

Foi providenciada a execução do algoritmo J48 no software WEKA e, conseqüentemente, foram obtidas 80 árvores de decisão. A Tabela 12 apresenta um resumo dos resultados obtidos, apresentando o percentual de instâncias classificadas corretamente e o número de folhas da árvore para cada uma das árvores geradas.

Percebe-se que o cenário com melhor percentual de acerto na classificação das instâncias é o número 1 e os cenários que geraram árvores menores foram os cenários 8 e 9. Mas testes utilizando o próprio WEKA, evidenciaram que à medida que se aumenta a poda da árvore para minimizar as regras, o percentual de instâncias classificadas corretamente também tende a cair⁶⁰. Portanto, o cenário 1 seria o mais recomendável de se trabalhar.

60 O teste foi feito utilizando os mesmos cenários discutidos, mas aumentando-se o parâmetro minNumObj (que corresponde ao número mínimo de instâncias por folha) para os valores 10, 25 e 50, obtendo-se gradualmente árvores menores, porém com menores percentuais de classificação correta das instâncias.

Tabela 12 – Resumo das árvores obtidas na mineração exploratória Fonte: Criação do autor, usando o software Excel.

Entretanto, a análise das árvores geradas no cenário 1, há participação de atributos de qualidade do ar na elaboração da árvore, mas essas relações não são úteis em termos de gestão ambiental por parte da UTE Mário Lago, uma vez que o empreendimento não tem gestão direta sobre eles.

Assim, foram feitas novas minerações, porém dessa vez foram eliminados todos os atributos relativos à qualidade do ar, com exceção do atributo que serviria de variável dependente.

Isso produziu árvores com percentual de instâncias classificadas corretamente e número de folhas da árvore com valores diferentes das anteriores, mas que em média os percentuais de instâncias classificadas corretamente aproximavam-se mais do cenário 2, para os atributos provenientes da Estação de Monitoramento de Qualidade do Ar 1, e do cenário 3, para atributos provenientes da Estação de Monitoramento de Qualidade do Ar 2, conforme pode ser visto na Tabela 13. Esse cenário atende aos objetivos do trabalho, visto que envolve os atributos operacionais, sob os quais o empreendimento possui gestão, e os atributos meteorológicos, que podem atuar como sinalizadores para eventuais estratégias de geração.

Para a mineração final foram, então consideradas minerações nas quais os atributos operacionais e meteorológicos estavam presentes, porém apenas um atributo de qualidade do ar (a variável dependente) estava presente.

Tabela 13 – Comparação entre mineração de exploração com exclusão dos atributos de qualidade do ar e os cenários propostos.

Fonte: Criação do autor, usando o software Excel.

Em relação às instâncias classificadas corretamente, os resultados ficaram próximos de outros trabalhos de mineração de dados utilizando árvores de decisão⁶¹. Entretanto, os números de regras obtidos são muito elevados, pois mesmo a menor delas, que corresponde ao caso em que o atributo QA1-HT foi ajustado como a variável dependente, ainda apresenta um número excessivo de regras.

Outra característica importante é que não houve seleção dos atributos e que, como se esperava, os atributos relacionados à estação de monitoramento de qualidade do ar, assim como a meteorológica associada, tendem a aparecer em posição mais próxima da raiz, indicando que possuem mais relevância na predição da variável dependente.

Segue abaixo, por exemplo, a árvore de decisão gerada para o atributo QA1-HT, na qual o único atributo de origem operacional que aparece está marcado. É possível observar que sua posição na árvore está distante da raiz, evidenciando que esse atributo possui pouca relevância para a predição da variável dependente⁶².

61 YANG(2002) e BARBOSA(2006) consideram a faixa acima de 90% aceitável.

62 O algoritmo J48 posiciona os atributos mais significativos mais próximos da raiz (vide seção 2.1.1.3)

No documento Indicadores de qualidade do ar como instrumento de gestão ambiental em operação de unidades de geração termelétrica a gás natural - estudo de caso da Usina Termelétrica Mário Lago (páginas 112-118)