5. Implementação do projeto DDF
5.1 Equipamento Ar Condicionado Convencional
5.1.3 Classificador e Algoritmo
O sistema DDF possui características com aprendizado automático, logo, o algoritmo do classificador deve ser capaz de aprender com os conjuntos de treinamentos e testes e com dados novos não apresentados. Para solucionar o problema com diagnóstico de falha automaticamente, a escolha pela tarefa de classificação é a mais apropriada. A maneira como a falha deverá ser diagnosticada e avaliada, converge para os algoritmos da tarefa de classificação que aprendem com exemplos e observações de dados.
Para aplicação da tarefa de classificação e o algoritmo, na construção do DDF, utilizaremos o software livre Weka (Waikato Enviroment for Knowledge Analysis) que possui ferramenta em pré processamento, testes e simulações dos conjuntos de dados.
Antes do uso deste software, é necessário converter os dados para o padrão no formato *. arff (Attribute Relation File Format).
Os dados extraídos do ar-condicionado em regime de funcionamento são agrupados e rotulados de acordo com seus respectivos atributos. A classe representa o alvo do diagnóstico da falha a ser detectada pelo algoritmo do classificador que a ferramenta Weka fornecerá após a execução do dataset gerado pelos dados do arquivo ddfarcondiconado.arff. O arquivo contém o conjunto de treinamento no formato arff de acordo com os atributos e as classes.
Figura 32 - Sensores, módulo de aquisição de dados e ar-condicionado.
O módulo de aquisição de dados é composto por sensores não invasivos capazes de medir corrente elétrica, tensão, temperatura, presença, porta aberta e vibração. Os sensores devem captar os sinais e transmiti-los para placa Intel Galileo.
Para simulação do algoritmo J4.8, foi utilizado o software Weka, este software é formado por um conjunto de algoritmos de diversas técnicas para resolver problemas concretos de Aprendizado de Máquina. O software está implementado em linguagem Java. O Weka foi escolhido tendo em vista sua praticidade de utilização, bem como o fato de ser um software de domínio público.
Árvore de Decisão
O paradigma simbólico árvore de decisão no Aprendizado de Máquina é um diagrama que permite representar e avaliar problemas que envolvem decisões sequenciais de um conjunto de variáveis. Foi utilizado o software Weka / preprocess / classify / trees / algoritmo J48.
Para execução do algoritmo J4.8, foi necessário alocar cada base de dados contendo instâncias e atributos. A representação da base de dados está representada na Tabela 7.
Fonte: próprio autor.
Na experiência com o algoritmo J48 foi utilizado o padrão arff para os arquivos de entrada. Este padrão é utilizado para representar uma série de dados dos exemplos independentes. Tensão (V) Corrente nominal (A) Temperatura Interna º C Temperatura Externa º C Temperatura (saída) º C Porta aberta Presença Vibração 127.5 6,35 21.55 29.55 8.79 1 1 0 127.5 6.39 21.16 29.55 8.79 0 1 0 127.5 6.10 21.16 29.60 9.28 1 1 0 127.5 6.80 21.18 29.70 10.26 1 1 0 128.4 6.40 21.16 29.95 11.73 1 0 0 127.9 6,50 21.16 30.15 13.19 1 1 0 127.9 6.35 21.18 30.25 14.66 1 1 0 126.9 6.85 21.25 30.30 16.12 1 1 0
Figura 33 - Arquivo arff contendo exemplo do ar condicionado.
Fonte: próprio autor.
As características dos arquivos arff devem ser obedecidas para o reconhecimento da ferramenta Weka.
O símbolo % significa que a linha é um comentário, não tendo validade junto ao processamento pelo algoritmo. A primeira linha válida indica o nome da relação a encontrar (@relation nome_da_relação), as linhas seguintes devem listar todos os atributos, onde deve- se definir o tipo dos atributos e os valores que eles podem representar. Neste último caso os valores devem estar entre “{}” e separados por vírgula. No próximo bloco de informações, após uma linha de indicação (@data), vêm as instâncias, ou seja, os registros a serem aprendidos com os valores dos atributos para cada instância separado por vírgula, a ausência de um item em um registro deve ser atribuída pelo símbolo “?”Para a simulação no algoritmo J48 foi utilizado o padrão arff para os arquivos de entrada. Este padrão é utilizado para representar um série de dados que consistem em exemplos independentes.
Rede Bayesiana
A técnica das redes bayesianas constitui um modelo gráfico probabilístico que representa de forma simples as relações de causalidades das variáveis de um sistema. Para analisar a base de dados da Tabela 7 e utilizar o algoritmo naive bayes, utilizamos o software Weka / preprocess / classify /bayes/ naive bayes.
Para o experimento do algoritmo, naive bayes foi utilizado o mesmo conjunto de dados do arquivo ilustrado da Figura 33.
A escolha do melhor algoritmo é uma tarefa que necessita de treinamento, já que o algoritmo pode ter melhor desempenho em determinada situação e outro pode ser mais eficiente em outros tipos de situações.
Os experimentos com os algoritmos através dos conjuntos de dados foram agrupados da seguinte forma; cada base de dados é organizada em dois conjuntos, sendo um de treinamento e o outro de validação. Os dados de treinamento foram feitos com 70% e as validações com 30% restantes dos conjuntos de treinamentos.
Foram utilizadas duas bases de dados contendo características do funcionamento do ar- condicionado com experimentos para os diagnósticos de defeitos.
Base 1: composta de 50 instâncias para os diagnósticos determinados através de medições específicas e visuais no ar-condicionado, feitas por especialista, com resultados; 15 instâncias da classe normal, 10 instâncias da classe ausência,10 instâncias filtro obstruído, 02 instâncias da classe defeito compressor, 10 instâncias classe porta aberta, 03 instâncias vibração.
Base 2: composta de 100 instâncias determinadas através de medições específicas e observadas por especialista, os diagnósticos apresentaram resultados; 65 instâncias da classe normal, 15 instâncias da classe ausência, 05 instâncias da classe filtro obstruído, 05 instâncias da classe defeito compressor,05 instâncias da classe porta aberta e 05 instâncias da classe vibração.
Para a escolha do algoritmo, foram utilizados 70% dos dados para treinamentos e 30% para testes tanto para Base de teste 1 e 2 respectivamente.
Fonte: próprio autor. Classificadores Algoritmos Opções de teste
WEKA Taxa de Acertos (%) Base - 1 Taxa de Acertos (%) Base - 2 Árvore de decisão J48 Split 70.0% train, remainder test 94,00 98,33 Rede Bayesiana Naive Bayes Split 70.0% train, remainder test 86,86 92,23
Comparando os resultados, pode-se considerar que os algoritmos utilizados nesta avaliação apresentaram resultados bastante equivalentes de acordo com a base de dados submetida para os treinamentos e testes. O algoritmo da árvore de decisão J48 apresentou taxa de acerto com maior percentual, 98,33%. A Base 1 possui a metade das instâncias que a Base 2, entretanto é percebido o ganho em acertos com o acréscimo das instâncias de treinamentos para os algoritmos avaliados.
5.2 Conclusão
Neste capítulo, foi apresentado o ar-condicionado compacto, equipamento de uso doméstico convencional selecionado para extração das grandezas elétricas e físicas em regime de funcionamento, a extração de dados on-line através dos sensores eletrônicos específicos em cada etapa de leitura, a definição da tarefa de classificação, árvore de decisão com a escolha do algoritmo J48, a construção das bases dos conjuntos de dados off-line para simulações com seus respectivos diagnósticos com auxílio de especialista em ar-condicionado convencional.
O capítulo também descreveu a ferramenta Weka como a construção do arquivo com o formato padrão arff para a execução dos conjuntos de dados para treinamentos e testes.
No próximo capítulo, serão apresentados os resultados das avaliações do sistema DDF através do estudo de caso com o cenário utilizando o ar-condicionado convencional, as etapas das experimentações e resultados, a visualização dos diagnósticos nas telas do monitoramento em tempo real detectados pelo sistema DDF proposto.