• Nenhum resultado encontrado

A sele¸c˜ao de atributos ´e importante na minera¸c˜ao de processos quando o objetivo ´e identificar subconjuntos de atributos que possam conduzir `a gera¸c˜ao de sistemas ou modelos que generalizam melhor, s˜ao mais relevantes e possuem condi¸c˜oes melhores de representar um processo ou de estimar alguma caracter´ıstica relacionada ao processo, por exemplo, em termos de caracter´ısticas dos tra¸cos.

O problema caracterizado pela sele¸c˜ao de atributos ´e o de encontrar um subconjunto de atributos, a partir do conjunto de atributos completo de um conjunto de dados. Dessa maneira, assumindo que o melhor subconjunto de atributos foi encontrado, um algoritmo de indu¸c˜ao, executado no conjunto de dados utilizando o subconjunto de atributos, teria condi¸c˜oes de gerar um modelo de predi¸c˜ao com a melhor acur´acia poss´ıvel. Logo, o problema de sele¸c˜ao de atributos pode ser reduzido ao problema de encontrar um subconjunto ´otimo de atributos.

A defini¸c˜ao de um subconjunto ´otimo de atributos pressup˜oe que existe um algoritmo de indu¸c˜ao e um conjunto de dados rotulado sobre o qual esse algoritmo ser´a aplicado. Segundo Kohavi e John (1997), se, a partir de um subconjunto de atributos, o algoritmo de indu¸c˜ao alcan¸ca a acur´acia m´axima de predi¸c˜ao, ent˜ao esse subconjunto de atributos ´e ´

otimo.

Ainda seguindo tal defini¸c˜ao, para a constru¸c˜ao um modelo de predi¸c˜ao com a melhor acur´acia, o melhor subconjunto de atributos deve ser selecionado por um algoritmo de sele¸c˜ao. O cen´ario mais complexo para utiliza¸c˜ao dessa defini¸c˜ao, em termos pr´aticos, ´e a impossibilidade de acesso `a distribui¸c˜ao real dos dados subjacentes a um problema de predi¸c˜ao, logo, estimativas devem ser realizadas a partir de resultados obtidos com o uso dos dados existentes.

Usualmente os atributos de um conjunto de dados s˜ao classificados em relevantes e irrelevantes, sendo que na literatura, habitualmente, dois n´ıveis de relevˆancia s˜ao definidos: fraca e forte. A relevˆancia deve ser definida em termos de um classificador de Bayes ´otimo para um determinado problema. Um atributo ´e fortemente relevante se a remo¸c˜ao deste atributo resulta em uma redu¸c˜ao de desempenho em um classificador Bayes ´otimo. Um atributo ´e fracamente relevante se ele n˜ao ´e fortemente relevante e existe um subconjunto de atributos, tal que o desempenho do classificador Bayes, neste subconjunto, ´e pior do

que o desempenho na uni˜ao do primeiro atributo com esse subconjunto de atributos. Um atributo ´e irrelevante se n˜ao e fortemente relevante ou fracamente relevante.

Geralmente, resultados ´otimos de predi¸c˜ao s˜ao obtidos com o uso dos atributos fortemente relevantes e alguns atributos fracamente relevantes. H´a relatos na literatura de situa¸c˜oes na qual atributos irrelevantes fazem parte de um conjunto de atributos ´otimo, por´em, s˜ao situa¸c˜oes pouco frequentes.

Caracter´ısticas importantes da sele¸c˜ao de atributos s˜ao a medida de relevˆancia de um subconjunto de vari´aveis (ou atributos) e a estrat´egia de otimiza¸c˜ao que encontra o subconjunto ´otimo com referˆencia a subconjuntos selecionados. Os procedimentos de sele¸c˜ao de subconjuntos de vari´aveis podem ser divididos em trˆes grupos: por filtro, por inv´olucro (do inglˆes wrapper ) e incorporados (do inglˆes embedded ) (GUYON; ELISSEEFF, 2003). Neste trabalho, ser˜ao aplicados os m´etodos de filtro e inv´olucro.

No caso dos procedimentos de filtro, a medida de relevˆancia ´e definida independen- temente do algoritmo de aprendizagem. O procedimento de sele¸c˜ao de subconjuntos pode ser visto como um passo de pr´e-processamento. No caso de procedimentos de inv´olucro, a medida de relevˆancia ´e diretamente definida a partir do algoritmo de aprendizado, tal como o custo de aprendizagem e capacidade de generaliza¸c˜ao. Embora as abordagens de filtro sejam mais r´apidas, sua principal desvantagem ´e que um subconjunto ´otimo de vari´aveis pode n˜ao ser independente do vi´es da representa¸c˜ao usada no algoritmo aplicado na fase de aprendizado. No caso de procedimentos por inv´olucro, o algoritmo de aprendizagem deve atender a duas condi¸c˜oes principais: o n´umero de parˆametros a serem otimizados deve ser o menor poss´ıvel e o algoritmo deve ser eficiente computacionalmente (KOHAVI; JOHN, 1997). A sele¸c˜ao de subconjuntos de atributos ´e feita usando o algoritmo de indu¸c˜ao como uma “caixa preta”.

De acordo comBlum e Langley(1997), antes de iniciar as atividades de aprendizado autom´atico, h´a duas tarefas que precisam ser realizadas: decidir quais atributos podem ser usados para descrever o conceito a ser aprendido e como combin´a-los. Tomando por base essa suposi¸c˜ao, a sele¸c˜ao de atributos ´e proposta neste documento como uma fase essencial para a constru¸c˜ao de modelos de predi¸c˜ao capazes de prever adequadamente o tempo de conclus˜ao dos chamados – “incidentes”.

2.2.1 Filtros e ranking

O objetivo principal dos m´etodos de filtro ´e selecionar os atributos relevantes que tˆem potencial para produzir um resultado otimizado e remover os atributos irrelevantes. Estes m´etodos s˜ao vistos como um passo de pr´e-processamento, uma vez que s˜ao aplicados de forma independente e antes da escolha do modelo de aprendizagem. Devido `a sua independˆencia, os m´etodos de filtro s˜ao tidos frequentemente como competitivos em tempo de execu¸c˜ao quando comparados com outros m´etodos de sele¸c˜ao de atributos e podem fornecer um formato de sele¸c˜ao de atributos gen´erico, livre da influˆencia do comportamento dos modelos de aprendizagem.

Considere um conjunto de dados com: dados, atributos e uma vari´avel dependente (r´otulo para cada dado do conjunto). Para a cria¸c˜ao do ranking, faz-se uso de uma fun¸c˜ao de avalia¸c˜ao aplicada sobre os valores que cada dado assume em cada atributo e sobre os valores da vari´avel dependente associada a cada dado.Por padr˜ao, assume-se que o valor mais alto ´e o indicativo de um atributo mais relevante e os resultados dos atributos s˜ao ordenados de maneira decrescente de acordo com o resultado da fun¸c˜ao de avalia¸c˜ao. Na utiliza¸c˜ao do ranking para constru¸c˜ao de preditores, os subconjuntos de atributos s˜ao criados progressivamente por meio da incorpora¸c˜ao dos atributos em ordem decrescente de relevˆancia.

Um outro ponto a ser tratado no processo de sele¸c˜ao de atributos ´e a influˆencia dos atributos redundantes (ou perfeitamente correlacionados) sobre o desempenho dos preditores. H´a na literatura relatos (GUYON; ELISSEEFF,2003;KOHAVI; JOHN,1997) indicando que a remo¸c˜ao dos atributos perfeitamente correlacionados, geralmente, resulta na constru¸c˜ao de preditores de melhor desempenho.

V´arios trabalhos utilizam filtros como um m´etodo de referˆencia (BEKKERMAN et al., 2003; CARUANA; SA,2003; WESTON et al., 2003). Conforme citado por Hastie, Tibshirani e Friedman (2009), estatisticamente, os m´etodos de filtro s˜ao robustos contra o sobreajuste. Tal como citado por Guyon e Elisseeff (2003), esses m´etodos s˜ao eficientes computacionalmente, pois requerem uma execu¸c˜ao para cada um dos atributos existentes e a ordena¸c˜ao dos resultados.Usando como referˆencia a classifica¸c˜ao de Kohavi e John (1997), o ranking de atributos ´e um dos tipos dos m´etodos de filtro.

Nesse trabalho, foi aplicado um m´etodo de filtro baseado em an´alise de correla¸c˜ao. Em uma primeira etapa foram avaliadas as correla¸c˜oes entre os atributos com o objetivo de remover os atributos perfeitamente correlacionados. Na etapa seguinte, cada atributo foi avaliado individualmente de acordo com sua correla¸c˜ao com o atributo dependente (isto ´e, o tempo para conclus˜ao do incidente). A an´alise de correla¸c˜ao utilizou a estat´ıstica eta ao quadrado (η2) para c´alculo com atributos categ´oricos e o coeficiente de correla¸c˜ao de Pearson (R) para os atributos cont´ınuos. Os resultados obtidos foram ent˜ao ordenados de maneira decrescente para cria¸c˜ao do ranking.

Segundo KENNEDY (1970), o coeficiente eta (η), originalmente proposto por Karl Pearson como uma medida da rela¸c˜ao entre uma vari´avel categ´orica e cont´ınua, foi reintroduzido como uma medida a posteriori para ANOVA (KERLINGER,1964; COHEN, 1973). No caso da situa¸c˜ao em estudo neste trabalho, o “one-way ANOVA” (uma ´unica vari´avel categ´orica independente), a interpreta¸c˜ao cl´assica de eta pode ser aplicada. Ou seja, o coeficiente eta ao quadrado (η2) serve como um ´ındice descritivo que, para um dado conjunto de dados, pode ser usado para avaliar a extens˜ao em que a variˆancia na vari´avel dependente ´e explicada pela vari´avel independente.

A f´ormula para c´alculo proposta por Kerlinger (1964), ´e: η2 = SSef f ect

SStotal

,

e o valor do η pode ser calculado como: η =r SSef f ect

SStotal

,

sendo que SSef f ect ´e a soma dos quadrados das diferen¸cas entre os dados de um

grupo e a m´edia deste grupo, sendo o grupo formado a partir da vari´avel categ´orica independente; e SStotal ´e a soma dos quadrados das diferen¸cas entre cada dado da amostra

e a m´edia da amostra.

2.2.2 Inv´olucro

Nos m´etodos de inv´olucro, a sele¸c˜ao de atributos ´e realizada por meio da intera¸c˜ao com uma interface do modelo de aprendizado escolhido (neste trabalho o STA), que ´e

visto com o conceito de caixa preta. Efetivamente, h´a um espa¸co de estados que precisa ser explorado utilizando alguma estrat´egia de busca. A busca ´e dirigida pela acur´acia obtida com a aplica¸c˜ao do modelo de aprendizado em cada um dos estados, nesse trabalho, considerando a combina¸c˜ao de atributos e eventualmente outros parˆametros como o horizonte do log de eventos e o tipo de abstra¸c˜ao. Frequentemente h´a duas formas mais comuns de inicializar o processo de busca: a sele¸c˜ao incremental (do inglˆes forward selection) que parte de um conjunto vazio e acrescenta atributos gradativamente e a outra op¸c˜ao ´e a remo¸c˜ao seletiva (do inglˆes backward elimination) que parte do conjunto completo de atributos e vai eliminando os atributos gradativamente. Nesse trabalho ser˜ao utilizadas duas t´ecnicas de busca amplamente conhecidas:

• Subida da encosta (do inglˆes hill-climbing) ´e uma das t´ecnicas de busca mais elementares; A busca ´e feita pela expans˜ao do estado atual com a gera¸c˜ao de novos estados e a movimenta¸c˜ao na dire¸c˜ao do estado com a melhor acur´acia. A busca ´e interrompida quando nenhum dos novos estados (estados filhos) consegue apresentar melhoria na acur´acia sobre o estado atual.

• A busca pela primeira melhora (do inglˆes Best-first ) difere da subida da encosta no sentido que o processo n˜ao ´e interrompido quando deixa de haver incremento sobre o estado atual, mas quando n˜ao h´a incremento em um n´umero pr´e-determinado de passos de expans˜ao. Isto significa que mesmo que n˜ao exista uma melhoria no estado atual, a busca tenta realizar a expans˜ao do estado com a melhor avalia¸c˜ao lista de estados com expans˜ao em aberto (KOHAVI; JOHN, 1997).