Considerações Finais - Marcação das partes do discurso usando computação evolucionária

O estudo dos trabalhos apresentados neste capítulo permitiu retirar um conjunto de conclusões que contribuíram para a escolha da direcção seguida no trabalho de inves- tigação apresentado nesta tese. De entre essas conclusões destacamos as seguintes:

• Existe um número substancial de abordagens evolucionárias a problemas de PLN, embora, atendendo às potencialidades destes métodos, se pudesse esperar serem em maior número.

• As abordagens descritas são geralmente complexas, tanto ao nível das represen- tações utilizadas, como das alterações aos algoritmos base, como ainda pelas funções de avaliação utilizadas.

• Muitos dos artigos descrevem diversas dificuldades encontradas durante o desenvolvimento da abordagem, desde a complexidade computacional até à impossi- bilidade de obter resultados competitivos com abordagens anteriores. Estes dois últimos pontos ajudam talvez a compreender a inexistência de mais abordagens evolucionárias a este tipo de problemas.

• Ainda assim, muitos métodos permitem obter resultados competitivos e mesmo superiores a abordagens clássicas, além de que o próprio desenvolvimento de novas representações e funções de avaliação, contribuem para a melhor compreensão dos problemas em estudo.

• Existem abordagens para diferentes problemas, indicando assim a aplicabilidade versátil dos algoritmos evolucionários na área de PLN, onde muitos dos problemas implicam a procura de soluções em espaços complexos.

• A vasta maioria dos métodos descritos baseiam-se na utilização de algoritmos genéticos. Métodos de inteligência de enxame, mais especificamente os baseados em enxames de partículas, quase ainda não foram explorados.

Em resumo, a aplicação de computação evolucionária na área de processamento de língua natural encontra-se ainda numa fase inicial, sendo as dificuldades encontradas em cada nova aplicação, frequentemente recompensadas por melhores resultados e uma melhor compreensão de diversos aspectos dos problemas. A utilização de algoritmos menos explorados, como a programação genética, ou a optimização por enxame de partículas, abre novas possibilidades de aplicação e a promessa de novos contributos para esta área emergente.

Descoberta de Regras de

Desambiguação

Neste capítulo abordamos a estratégia adoptada para representar e recolher a infor- mação utilizada para resolver o problema das partes do discurso. Como iremos ver o caminho seguido passou pela generalização da informação tipicamente usada, à custa de um algoritmo de classificação para descoberta de regras. De forma a melhor contex- tualizar o trabalho apresentado, começamos por fazer uma pequena introdução à descoberta de regras de classificação. Seguem-se a fundamentação da estratégia adoptada e a descrição do algoritmo de classificação utilizado. Como iremos ver este algoritmo foi implementado de duas formas distintas, as quais permitiram estudar a aplicação de dois algoritmos representativos da área da computação evolucionária para a descoberta de regras de desambiguação. É com a descrição da implementação de cada um destes algoritmos, um algoritmo genético e um optimizador baseado em enxames de partículas, que terminamos o capítulo.

5.1 Descoberta de Regras de Classificação

Num problema de classificação, o objectivo consiste em definir um mecanismo capaz de atribuir, automaticamente, a um objecto descrito por vários atributos mensuráveis, uma de várias classes possíveis. Um exemplo clássico consiste em atribuir a um ani- mal a classe a que pertence (mamífero, ave, réptil, peixe...) com base em atributos como a presença de penas, se produz ou não leite, etc... Tipicamente, o mecanismo de classificação é construído a partir de um conjunto de exemplos de objectos previ- amente classificados, numa forma de aprendizagem supervisionada. Este conjunto é denominado conjunto de treino.

De forma genérica, um conjunto de treino T com n exemplos tem a forma T = {(x1, y1), ..., (xn, yn)}, em que cada par (xi, yi) corresponde a um exemplo de treino individual. Cada exemplo de treino i é constituído por um vector de m características utilizadas para descrever uma instância em particular do objecto a classificar. Para a instância xi, cada valor xij 2 Xi corresponde a um atributo mensurável do objecto, cujo espaço de valores possíveis é Xi. Este espaço tanto pode ser um subconjunto de R como um conjunto de valores discretos, os quais por sua vez podem ser numéricos ou simbólicos. O valor de yi 2 Y corresponde à classificação da instância xi, podendo assumir uma gama de valores discretos (no caso mais simples, dois) representada por Y.

O objectivo de um algoritmo de classificação é, a partir do conjunto de treino T , construir uma função f : X1 ⇥ X2 ⇥ · · · ⇥ Xm ! Y , capaz de mapear cada instância possível x na correspondente classe y, i.e. f(x)=y. A qualidade da função f é normalmente avaliada utilizando um conjunto de exemplos S, disjunto do conjunto de treino T, denominado conjunto de teste. A precisão com que f é capaz de classificar estas novas instâncias, que não estiveram envolvidas na sua construção, permite estimar a sua capacidade de generalização, ou seja a precisão com que irá classificar futuras instâncias que lhe sejam apresentadas e que não fizeram parte do conjunto de treino. A função f pode assumir muitas formas, desde modelos estatísticos a árvores de decisão, passando por funções matemáticas e algoritmos de variados níveis de complexidade. É de especial interesse para o trabalho apresentado nesta tese a definição de f como um conjunto de regras de classificação com a forma Se z1 = a E z2 = b E ... E z3 = c Então y d, em que os zi são atributos da instância z, a, b, e c são valores possíveis para cada um desses atributos, e d é uma classe possível de y. Na realidade, as regras de classificação não são mais do que cláusulas condicionais envolvendo duas partes: o antecedente e o consequente. O primeiro toma a forma de uma conjunção de testes lógicos, envolvendo os atributos mensuráveis do objecto que se pretende classificar, e o último revela a classe a que pertencem as instâncias cobertas pela regra.

Concretizando com um pequeno exemplo, admitamos que se pretende decidir quando é que a generalidade das pessoas pratica desporto ao ar livre. Tipicamente, a generalidade das pessoas toma esta decisão com base nas condições meteorológicas. Limitemos essa decisão às seguintes características atmosféricas: Humidade, Vento e Temperatura. Neste caso, o conjunto de atributos de predição é A = {Humidade, V ento, T emp} e XHumidade = {baixa, normal, elevada}, XV ento = {fraco, forte, intenso}, XT emp = {baixa, moderada, elevada}. O objecto a classificar é o objecto Praticar_Desporto, sendo que as classes possíveis pertencem a um conjunto de valores discretos de apenas dois elementos: Sim e Não, Y = {Sim, N˜ao}. Uma eventual regra de classificação para este problema poderia ser,

Se Humidade=normal E Vento=fraco E Temp=moderada Então Praticar_Desporto Sim

Considera-se que uma instância em particular é coberta por uma regra de classificação, se os valores que apresenta para os atributos de predição satisfazem a expressão lógica definida no antecedente da regra. Ou seja, se o valor lógico resultante corresponde ao valor de verdade Verdadeiro.

As regras de classificação são particularmente populares por constituírem uma das for- mulações mais compreensíveis, sobretudo para utilizadores não familiarizados com a área. Um algoritmo de classificação baseado em regras utiliza o conjunto de exemplos T para construir uma lista de regras, com o formato atrás referido, para cada uma das classes possíveis. Novas instâncias são geralmente classificadas percorrendo, se- quencialmente, o conjunto de regras até que a conjunção de condições duma regra seja satisfeita pelos valores dos atributos da instância. Esta recebe a classe associada ao consequente da regra cuja parte condicional foi satisfeita, e diz-se que a instância foi coberta pela regra.

Existem, em especial na área da aprendizagem, inúmeros algoritmos que permitem construir regras a partir de um conjunto de exemplos de treino. Abordagens clássicas incluem algoritmos de cobertura como o PRISM, que gera as regras directamente, ou algoritmos como o C4.5 que geram árvores de decisão que podem, posteriormente, ser convertidas em conjuntos de regras. Muitos destes algoritmos utilizam, no entanto, estratégias gananciosas na procura das regras, já que a vastidão dos espaço de procura torna outras abordagens pouco eficientes. Estas técnicas podem assim facilmente ficar presas em soluções sub-óptimas. É neste contexto que, mais recentemente, têm surgido várias soluções que permitem encontrar regras de classificação utilizando algoritmos de optimização global, em especial os provenientes da computação evolucionária [Freitas, 2003].

Os primeiros algoritmos da área da computação evolucionária a serem utilizados na procura de regras de classificação foram os algoritmos genéticos. A facilidade com que as regras podem ser codificadas como vectores binários foi talvez responsável pela proliferação de abordagens baseadas em AG, as quais podem ser divididas em dois grandes grupos segundo a abordagem utilizada para a representação das regras. Nas abordagens do tipo Michigan uma regra é codificada à custa de um indivíduo (e.g. [Greene and Smith, 1993; Giordana and Neri, 1995]). Quando um indivíduo representa todo o conjunto de regras, a bordagem é normalmente designada como sendo do tipo Pittsburgh (e.g. [de Jong et al., 1993; Janikow, 1993]). A escolha da abordagem depende normalmente do problema, em especial do facto de ser ou não possível avaliar a qualidade de uma regra de forma isolada, ou se essa avaliação só faz sentido para um conjunto de regras no seu todo.

A avaliação das regras é geralmente uma questão complexa que envolve diversos factores. Alguns destes estão directamente ligados ao desempenho em termos de classifica- ção, incluindo factores como a precisão, ou o número de exemplos de treino cobertos pela(s) regra(s), embora também possam ser utilizados elementos adicionais como a parsimónia, i.e. o quão compacto é o classificador em termos de número de regras ou de testes. Os classificadores mais compactos são, de uma forma geral, mais desejáveis, já que tendem a apresentar uma maior capacidade de generalização.

Além dos algoritmos genéticos, também a programação genética foi utilizada com sucesso na evolução de regras de classificação, tanto directamente, como a partir de árvores de decisão, as quais se adequam mais naturalmente à representação utilizada em PG (e.g. [Eggermont et al., 1999; Wong and Leung, 2000]). Os algoritmos baseados em inteligência de enxame, tendo surgido mais tarde, só mais recentemente foram aplicados aos problemas de classificação e, mais especificamente, à procura de regras de classificação.

Em trabalho anterior, apresentámos uma das primeiras propostas de utilização de algoritmos de optimização por enxames de partículas em tarefas de classificação [Sousa et al., 2003, 2004]. Nesse trabalho, utilizando vários problemas típicos da área, com- parámos vários classificadores, baseados em OEP, com um algoritmo genético e uma implementação do C4.5. Os resultados obtidos permitiram estabelecer que a abordagem utilizada era não só viável, mas também bastante competitiva, em termos de precisão da classificação, com os restantes algoritmos. Foi, também, possível verificar que os classificadores baseados em inteligência de enxame conseguiam frequentemente obter resultados semelhantes, ou melhores, do que os do classificador baseado em AG, necessitando para isso, em alguns dos problemas, de significativamente menos partícu- las/indivíduos, com óbvios ganhos computacionais.

Posteriormente realizámos uma comparação mais extensa, utilizando mais conjuntos de dados e dois dos algoritmos clássicos mais populares (PRISM, C4.5), além de várias versões de classificadores baseadas em OEP [Sousa et al., 2005]. De acordo com as expectativas teóricas, foi possível obter melhores resultados de precisão de classificação, com os algoritmos de enxame, em vários dos problemas utilizados na comparação. Adicionalmente, pôde-se constatar que os modelos de classificação construídos pelos classificadores baseados em OEP eram substancialmente menos complexos, tanto em termos de número de regras, como de número médio de testes por regra, do que os classificadores produzidos pelos algoritmos clássicos. Esta qualidade de parsimónia é bastante valiosa em muitas aplicações (por exemplo, na análise inteligente de dados), e acreditamos que também o possa ser no problema objecto desta tese. Refira-se ainda que a inteligência de enxame tem continuado a ser aplicada com sucesso nesta área, tendo inclusivamente surgido abordagens também baseadas em optimização por colónias de formigas [Holden and Freitas, 2005; Falco et al., 2007]. Um resumo recente

da utilização de inteligência de enxame em problemas de classificação, no contexto mais lato da análise inteligente de dados, pode ser encontrada em [Martens et al., 2011]. Os resultados obtidos neste trabalho anterior, aliado ao sucesso obtido por outras abordagens baseadas em inteligência de enxame, levam-nos a considerar a possibilidade de aplicação destes algoritmos à tarefa da marcação das PdD, que, embora diferente do problema de classificação, tem com ele vários pontos de contacto, discutidos na próxima secção. A experiência ganha em termos de representação e avaliação das regras, bem como na construção dos próprios algoritmos, também se mostrará útil no desenvolvimento de abordagens evolucionárias a este novo problema.

No documento Marcação das partes do discurso usando computação evolucionária (páginas 90-96)