Detec¸c˜ ao de Falhas com M´ aquinas de Vetores de Suporte

Suporte

Passada a fase de extra¸cão dos dados, é poss´ıvel então construir os modelos de Aprendizado de Máquina. Nesta se¸cão abordaremos o modelo SVM. É com ele que exe- cutamos a tarefa de Deteçcão de Falhas usando a Predi¸cão.

A Predi¸cão se dá da seguinte forma: uma vez extra´ıdos os dados (parâmetros) de ativa¸cões passadas, queremos predizer se uma nova ativa¸cão com uma nova instância de parâmetros irá executar corretamente ou produzir uma falha. As ativa¸cões passadas são

32 obtidas a partir da fase de extra¸c˜ao, que vimos na se¸c˜ao anterior.

Antes de tornar poss´ıvel a predi¸cão de uma ativa¸cão a ser executada, precisamos construir o modelo preditor. Esta constru¸cão passa por algumas fases. São elas: car- regamento dos dados extra´ıdos, transforma¸cão dos dados, constru¸cão do modelo em si, e avalia¸cão do modelo. Essas fases fazem parte de um processo chamado de Knowledge Discovery in Databases (KDD). A Figura 3.3 ilustra o processo.

Figura 3.3: [39] Processo de KDD

A extra¸cão dos dados neste trabalho engloba a fase de sele¸cão do processo de KDD. A sele¸cão é por meio da query especificada para extra¸cão dos dados do banco de proveni- ência do workflow. Nesta etapa, também podemos incluir a fase pré-processamento, uma vez que a query de extra¸cão deverá fazer o papel de buscar os dados relevantes e de quali- dade adequada para constru¸cão do modelo. É importante frisar que para o modelo SVM precisamos tanto do conjunto de parâmetros de cada ativa¸cão como também o resultado da mesma (sucesso ou falha) para atuar como a classe do mesmo, lembrando que o SVM tem o Aprendizado do tipo Supervisionado.

A transforma¸cão dos dados do sistema faz parte da fase de mesma designa¸cão no processo de KDD. Neste ponto, realiza-se a codifica¸cão de dados categóricos em numé- ricos, uma vez que o modelo SVM da biblioteca scikit-learn trabalha apenas com dados numéricos. Importante frisar que essa transforma¸cão não trouxe diferen¸cas significativas ao resultado. A biblioteca scikit-learn já conta com ferramentas que apoiam essa ques- tão. Aqui também se faz a conversão dos dados para estrutura numpy array [9] que são

poss´ıveis de serem utilizadas pelo modelo SVM do scikit-learn.

Ainda há um outro passo antes de se tornar poss´ıvel a constru¸cão do modelo preditor. Ao extrair os dados executando a consulta SQL e pré-processar os dados fazendo os ajustes necessários, não foi realizada a divisão dos dados entre atributos e variável de classe. Essa divisão se faz necessária para a constru¸cão do modelo, pois são tratados como parâmetros de entrada diferentes para o treinamento.

E neste ponto que estamos aptos a construir o modelo de predi¸cão que irá fazer a Deteçcão de Falhas. Esta etapa faz parte da fase de Minera¸cão de Dados [26] do processo de KDD. Ressalta-se que a Minera¸cão de Dados utiliza técnicas de Aprendizado de Máquina para alcan¸car seus objetivos.

No presente trabalho existe um la¸co entre a fase de constru¸cão do modelo e da avalia¸cão do mesmo. Utilizando uma técnica denominada Stratified k-Fold Cross Valida- tion [36] é feita a avalia¸cão de vários modelos constru´ıdos a partir de diferentes parti¸cões geradas a partir da base de dados. O Stratified k-Fold Cross Validation é uma varia¸cão do k-Fold Cross Validation, diferindo apenas por manter em cada uma das k parti¸cões do conjunto de treinamento e teste a propor¸cão de exemplos da classe de forma a manter a representa¸cão do conjunto todo. Ou seja, se em um problema de classifica¸cão binário existirem 100 exemplos da classe A e 50 exemplos da classe B, e k = 10, então cada fold terá 10 exemplos da classe A e 5 exemplos da classe B. Para cada execu¸cão do processo de Cross validation, o conjunto de treinamento terá 10 × 9 = 90 exemplos da classe A e 5 × 9 = 45 exemplos da classe B. O conjunto de valida¸cão, por sua vez, terá 10 exemplos dessa mesma classe A e 5 exemplos da classe B. Neste trabalho foi usado k = 5.

Dentre os modelos gerados, a escolha é feita utilizando o que possui a melhor pontua¸cão. Esta métrica é uma média da acurácia em rela¸cão ao conjunto de teste. No entanto, devido o desbalanceamento dos exemplos com rela¸cão as classes na base de dados, para termos de avalia¸cão do modelo, visto em 4.1, outras medidas serão consideradas, tais como: Precision, Recall e F-Measure

O trecho de código 3.1 é a implementa¸cão de todas as etapas descritas até aqui. 1 def fit(self):

2 try:

3 self.notify("Running query...", ’SUP’) 4 data = self.query("SVM")

34 5 self.notify("Transforming data...", ’SUP’)

6 data = self.pre_processing_data(data)

7 self.notify("Extracting features and class...", ’SUP’) 8 X, y = self.extract_features_and_class(data)

9 X_train, y_train, X_test, y_test = self.split_train_test(X, y) 10 skf = StratifiedKFold(y_train, n_folds=self.n_folds)

11 self.notify("KFold training...", ’SUP’) 12 for train, test in skf:

13 X_fold = X_train[train] 14 y_fold = y_train[train]

15 fold_clf = SVC()

16 fold_clf.fit(X_fold, y_fold)

17 fold_score = fold_clf.score(X_train[test], y_train[test]) 18 if fold_score > self.validation_accuracy:

19 self.clf = fold_clf

20 self.validation_accuracy = fold_score 21 self.notify("Validation accuracy: " +

str(self.validation_accuracy), ’SUP’)

22 self.predict(X_test, y_test, env_type=’test’, clf_type=’SUP’) 23 self.notify("OK", ’SUP’)

24 except Exception as e:

25 self.notify("ERROR - " + str(e), ’SUP’)

Código Fonte 3.1: Processo de constru¸cão do modelo SVM para a Deteçcão de Falhas Nas linha 4, o sistema executa a consulta que foi definida na etapa de Extra¸cão dos Dados e recupera os dados retornados pela consulta. A linha 6 mostra a chamada ao método responsável pelo pré-processamento dos dados, que para o caso do preditor SVM é a transforma¸cão dos dados categóricos em numéricos. A linha 8 apresenta a parte do código que fica responsável por separar os dados que serão tratados como atributos e variável de classe. O método responsável por fazer a separa¸cão entre os dados de treinamento e teste é mostrado na linha 9. Das linha 12 a 20 está o código que realiza o procedimento de treinamento em si. Para cada amostra diferente das parti¸cões geradas pelo Stratified k-Fold Cross Validation, é gerado um modelo preditor. O if dentro deste loop é usado para escolher o melhor modelo dentre os gerados com os dados das parti¸cões

do Stratified k-Fold Cross Validation, com rela¸cão à pontua¸cão que possuir.

O procedimento visto no código 3.1 é o responsável pelo treinamento do modelo. A exibi¸cão dessa tarefa ao usuário pode ser vista na Figura 3.4 (a). Terminada a fase de treinamento, o modelo está pronto para fazer predi¸cões, e a Figura 3.4 (b), mostra como esta tarefa pode ser executada pelo usuário.

Figura 3.4: (a) Tela de exibi¸cão de informa¸cões do treinamento do classificador. (b) Tela de entrada de dados para predi¸cão.

A tarefa de predi¸cão tem como objetivo prever se ocorrerá ou não falha em uma ativa¸cão do workflow antes que a mesma seja de fato executada. Por isso, todos os dados históricos relevantes a ativa¸cões passadas do workflow devem ser definidos na consulta SQL. Na consulta SQL todas as colunas, com exce¸cão da última, são considerados como atributos para o algoritmo de constru¸cão do modelo, enquanto a última coluna é tra- tada como a variável de classe. O modelo preditor que é usado é o que possuir a maior pontua¸cão no processo de valida¸cão cruzada do Stratified k-Fold Cross Validation.

No documento Uma ferramenta de apoio à detecção de falhas e recomendação de parâmetros em workflows científicos com mineração de dados (páginas 44-48)