Medidas de informação de Rényi e Tsallis aplicadas na construção de

3.2 Classificação por Indução de Árvores de Decisão

3.2.3 Medidas de informação de Rényi e Tsallis aplicadas na construção de

As medidas de entropia propostas por Shannon [84] encontram muitas aplicações não somente na engenharia, mas também em diversas áreas, tais como a estatística, economia, re- conhecimento de padrões e aprendizado de máquina. Nessa perspectiva, dentro da teoria da informação, foram formuladas propostas de generalização da entropia, algumas claramente relacionadas, chegando a reduzirem-se à mesma expressão de Shannon [84], em alguns casos particulares, tais como a formulação de Rényi [40] e Tsallis [41, 42] (ver Apêndice C).

As entropias de Rényi [40] e Tsallis [42] contêm um coeficiente α que pode ser usado para ajustar a sensibilidade em relação à distribuição de probabilidade. Usando a entropia de Shannon [84], os eventos com probabilidade alta ou baixa têm pesos iguais no cálculo da entropia.

No entanto, usando a entropia de Tsallis [42], para α > 1, eventos mais frequentes são enfatizados, ou seja, os eventos com alta probabilidade contribuem mais do que os de baixa probabilidade. Assim, quanto maior for o valor de α, maior será a contribuição dos eventos de alta probabilidade para o resultado final [98].

Da mesma forma, o aumento de α (α → ∞) contribui para que a entropia de Rényi [40] seja determinada pelos eventos com probabilidades mais elevadas, e, ao contrário, diminuindo os valores de α (α → 0), os eventos passam a ter pesos iguais, independentemente de suas probabilidades.

Em [99], foi verificado que a entropia de Rényi [40] possui características que a torna mais eficiente do que a entropia de Shannon [84] na resolução de problemas binários e em [100], os autores também comprovam empiricamente que a entropia de Tsallis [41, 42] pode ser utilizada em problemas de classificação, apresentando resultados motivadores.

Portanto, as características supracitadas servem de motivação para que as medidas de informação de Rényi [40] e Tsallis [42] sejam aplicadas, uma vez que estas podem determinar esquemas de perguntas mais eficientes, construindo, assim, árvores de decisão mais adequadas ao problema de detectar intrusos em redes de computadores.

Nesse contexto, as medidas de informação de Rényi [40] e Tsallis [42] foram imple- mentadas (ver códigos fonte no Apêndice K), como parte integrante desta tese, na ferramenta Weka [101], no algoritmo J48 (implementação em linguagem Java do algoritmo C4.5, Release 8, descrito no Capítulo 3), em substituição às medidas de informação de Shannon [84], con- forme ilustrado na Figura 3.5.

A adoção do WEKA no contexto deste trabalho se deu por vários fatores, a saber: • Contempla uma série de algoritmos de preparação de dados, aprendizagem de máquina

para tarefas de mineração de dados, e contém ferramentas para pré-processamento de dados, classificação, regressão, agrupamento, descoberta de regras de associação, visual- ização e validação de resultados;

Técnicas e Algoritmos de Classificação 39

Figura 3.5 Esquemas para construção de árvore de decisão C4.5 baseada no cálculo de entropia de Rényi (a) e Tsallis (b)

Entropia de Rényi Entropia de Tsallis Árvore de Decisão C4.5 Árvore de Decisão C4.5 (a) (b)

• É gratuita, possui código aberto sob licença GNU (Licença Pública Geral) e é escrita em linguagem de programação Java, o que possibilita a sua portabilidade para diversos sistemas operacionais.

Como as entropias de Rényi [40] e Tsallis [42] oferecem diferentes resultados no cálculo de entropia, de acordo com o valor de α adotado, buscou-se encontrar coeficientes ótimos para o problema de detectar intrusos em redes de computadores.

Dessa forma, foi verificado empiricamente que as medidas de informação de Rényi [40] (com parâmetro α ∈ (0, 1)) e Tsallis [42] (com parâmetro α > 1), alcançaram melhor desem- penho na solução do problema proposto, construindo árvores mais compactas e eficientes, de forma mais rápida, se comparados às medidas de informação de Shannon [84].

Essas duas estratégias empregadas na construção de árvore de decisão C4.5 serão utilizadas nos esquemas de seleção de atributos propostos neste trabalho.

3.3 Considerações Finais

Neste capítulo, foram abordados os conceitos relacionados ao processo de classificação de dados. Como classificadores, há diversos algoritmos de árvore de decisão implementados, sendo os mais populares provavelmente o ID3 (Induction of Decision Tree), desenvolvido por Quinlan [88] com base no CLS (Concept Learning System) [102] e seu sucessor, o C4.5 [83]. Ambos constroem a árvore em um processo top-down, selecionando o atributo de teste apropri- ado para cada nó de decisão da árvore, por meio de medidas de informação de Shannon [84], determinando, por fim, um esquema de perguntas adequado ao problema proposto. Contudo, outras estratégias podem ser utilizadas.

Nesse contexto, como uma das contribuições deste trabalho de tese, duas estratégias foram apresentadas neste capítulo, a saber: uma estratégia utilizando as medidas de informação de Rényi [40] e outra utilizando as medidas de informação de Tsallis [42], com o objetivo de encontrar alternativas mais eficientes na construção de árvores de decisão C4.5 [83]. Alguns resultados da aplicação destas estratégias foram apresentadas em [16, 103] e podem ser encon- trados nos anexos deste trabalho de tese.

Técnicas e Algoritmos de Classificação 40 Neste trabalho, como mais uma contribuição, as medidas de informação de Rényi [40] e Tsallis [42] são utilizadas na seleção dos atributos que servirão como pontos de observação dos detectores de rede e de host (ver Capítulo 5), semelhante ao critério de seleção de atributos adotado na construção de árvores de decisão C4.5, a fim de obter um subconjunto de atributos ideais que incremente a capacidade de um Sistema de Detecção de Intrusão para classificar uma atividade como normal ou como suspeita (categorizando o tipo de ataque).

A partir das pesquisas sobre classificação de dados, surgiu a necessidade de usar novas abordagens que contribuíssem para aprimorar a utilização de códigos corretores de erros (revisado no Apêndice D). Em busca de novas soluções, foi feito um estudo sobre estratégias de decomposição de problemas multiclasses em subproblemas binários baseadas em matrizes código [19, 38]. Nesse contexto, no Capítulo 4 são abordadas estratégias usadas em classifi- cação multiclasses, com ênfase no uso de códigos corretores de erros, e que servem de base para a escolha da estratégia a ser utilizada neste trabalho de tese.

CAPÍTULO

4

Solução de Problemas Multiclasses

baseadas em Estratégias Decomposicionais

No Capítulo 3 foram apresentados os conceitos básicos sobre classificação de dados, dando enfoque aos algoritmos de árvore de decisão baseados em medidas de informação. Como identificar ataques pode ser visto como uma tarefa de classificação multiclasses, em geral, busca-se por soluções que possam diminuir a complexidade do problema, em que uma das formas é adotar alguma estratégia decomposicional. Portanto, neste capítulo é referenciado em que contexto surge a decomposição de problemas multiclasses. Em seguida, são apresentadas as estratégias decomposicionais comumente encontradas na literatura científica, fazendo-se um comparativo com a estratégia baseada em códigos corretores de erros.

No documento Detecção de intrusos em redes de computadores com uso de códigos corretores de erros e medidas de informação. (páginas 61-64)