Condi¸c˜ oes no algoritmo combinado - Consistˆ encia do aprendizado em crALC

PROBABIL´ISTICA

5.7 Consistˆ encia do aprendizado em crALC

5.7.3 Condi¸c˜ oes no algoritmo combinado

Neste algoritmo, embora a constru¸cão de defini¸cões ou inclusões probabil´ısticas seja feita de modo integrado as duas formas de aprendizado são identificáveis. O objetivo inicial é a busca por um defini¸cão de conceito, a qual usa operadores de refinamento de ALC (condi¸cão (i) atingida). O algoritmo que percorre os diferentes candidatos obtidos pelo operador de refinamento constrói defini¸cões ac´ıclicas (apesar do procedimento usar cobertura e pontua¸cão probabil´ıstica), e portanto a condi¸cão (ii) é satisfeita. O algoritmo de inclusões probabil´ısticas baseado no classificador TAN avalia poss´ıveis candidatos para defini¸cões aprendidas na primeira parte do algoritmo. Deste modo apenas nomes de conceitos são considerados na parte condicional e portanto a condi¸cão (iii) é atingida. A escolha entre uma defini¸cão determin´ıstica ou o aprendizado das probabilidades para uma inclusão probabil´ıstica é realizada internamente pelo algoritmo via a aplica¸cão de um limiar. Portanto, é imposs´ıvel que existam nomes de conceitos conflitantes em defini¸cões e inclusões probabil´ısticas assim a condi¸cão (iv) é atingida.

5.8 Considera¸c˜oes finais

O aprendizado de máquina de formalismos lógico-probabil´ısticos foi o foco desse cap´ıtulo. De maneira sucinta foi descrita a abordagem da programa¸cão em lógica indu- tiva probabil´ıstica em tarefas de aprendizado. Alguns dos conceitos apresentados foram adaptados para o aprendizado da lógica de descri¸cão probabil´ıstica crALC — princi- pal contribui¸cão deste trabalho. Três algoritmos foram propostos para o aprendizado de crALC.

O primeiro (OCHOA-LUNA; COZMAN, 2009), enfatizou o aprendizado de terminologias

de maneira probabil´ıstica. O processo de aprendizado foi transformado no processo de aprendizado de um classificador que induz a defini¸c˜ao de conceitos por meio da classifica¸c˜ao dos exemplos positivos e negativos fornecidos. O classificador Noisy-OR foi usado como classificador probabil´ıstico.

A segunda proposta (REVOREDO; OCHOA-LUNA; COZMAN, 2010), focou no aprendi-

zado das inclusões probabil´ısticas a partir de uma terminologia determin´ıstica, a qual poderia ter sido aprendida ou constru´ıda por um especialista. Dada as defini¸cões de conceitos, esse algoritmo busca por condicionantes entre as defini¸cões de conceitos, e avalia poss´ıveis componentes via uma fun¸cão de pontua¸cão. No final deste procedimento, caso a inser¸cão de inclusões probabil´ısticas melhore a pontua¸cão global, as inclusões probabil´ısticas são mantidas; caso contrário são descartadas.

A terceira proposta (OCHOA-LUNA; REVOREDO; COZMAN, 2010a), parte do pressu-

posto que os dois tipos de componentes, probabil´ıstico e determin´ıstico, têm a mesma relevância e a natureza probabil´ıstica ou determin´ıstica dos conceitos está ligada aos dados. Isto é, os exemplos positivos e negativos dão indicios da natureza dos componentes da terminologia. O aprendizado é realizado sob uma base probabil´ıstica e usam-se fun¸cões de cobertura e pontua¸cões probabil´ısticas, e inicia-se a busca pela defini¸cão determin´ıstica de conceitos. Após uma série de itera¸cões decide-se pelo fim da busca ou pelo in´ıcio do processo de aprendizado de inclusão probabil´ıstica.

Uma análise sucinta de cada algoritmo de ponto de vista da aderencia em rela¸cão à linguagem crALC foi realizada. Cabe ressaltar que o aprendizado de lógicas de descri¸cão probabil´ısticas é um tópico pouco ou nada explorado na literatura. Em particular, os algoritmos para o aprendizado de crALC foram as primeiras propostas até o momento. No próximo cap´ıtulo serão apresentados alguns resultados emp´ıricos da aplica¸cão destes algoritmos em conjuntos de dados artificiais e reais.

6 EXPERIMENTOS

Neste cap´ıtulo são apresentados os experimentos conduzidos para verificar os be- nef´ıcios dos algoritmos propostos. Em particular, aprendizado de lógica de descri¸cão probabil´ıstica é um tópico que tem sido pouco explorado na literatura.

Dois tipos de experimentos foram realizados. O primeiro avalia os algoritmos propostos em rela¸cão ao aprendizado de lógicas de descri¸cão (sem inclusões probabil´ısticas). O segundo avalia os algoritmos propostos em rela¸cão ao aprendizado de terminologias probabil´ısticas em crALC. Conjuntos de dados coletados de repositórios de informa¸cões públicas dispon´ıveis na Internet foram usados.

O cap´ıtulo é organizado da seguinte maneira. A Se¸cão 6.1 detalha a metodologia usada na realiza¸cão dos experimentos. Os conjuntos de dados usados são descritos na Se¸cão 6.2. A compara¸cão entre os algoritmos propostos para aprendizado é detalhado na Se¸cão 6.3. Considera¸cões finais são apresentadas na Se¸cão 6.4.

6.1 Metodologia

Avaliar empiricamente a acurácia de hipóteses é fundamental em aprendizado de máquina (MITCHELL, 1997). Nesse sentido, dois tipos de experimentos foram conduzidos.

O objetivo do primeiro tipo de experimento consiste em testar as propostas para aprendizado de terminologias probabil´ısticas em aprendizado de lógicas de descri¸cão. En- tretanto, mesmo no aprendizado de ontologias a partir de exemplos, há falta de padrões de avalia¸cão (LEHMANN, 2007)1_{. Os algoritmos propostos foram comparados em termos de}

acur´acia com os resultados obtidos por Lehmann e Hitzler (LEHMANN; HITZLER, 2008b)2_.

Em todos os casos foram usados 5-folds valida¸c˜ao cruzada3_{. O teste de significˆancia usado}

1_{Em alguns casos, conhecimento base de diversos problemas de aprendizado geral foram adaptados} para o aprendizado de ontologias (LEHMANN; HITZLER, 2008b).

2_{Os melhores resultados dispon´ıveis na literatura.}

3_{Valida¸c˜ao cruzada estratificada (mantendo-se o balanceamento das classes) consiste em dividir o} conjunto de treinamento em k partes aproximadamente iguais. Uma dessas partes ser´a o subconjunto a

foi t-test com intervalos de confian¸ca de 95%.

O segundo tipo de experimentos avaliou a capacidade de aprendizado de terminologias probabil´ısticas. Cada uma das propostas de aprendizado foi testada em termos de acurácia usando conjunto de dados reais. Estes resultados possibilitaram a compara¸cão dos algoritmos propostos. Valida¸cão cruzada foi usada e intervalos de confian¸ca de 95%.

Para avaliar essas propostas podem ser usadas métricas básicas em recupera¸cão de informa¸cão, tais como precisão, revoca¸cão e acurácia. Em particular, acurácia foi adotada nas compara¸cões por ser uma métrica de efetividade usada frequentemente para avaliar problemas de classifica¸cão em aprendizado de máquina (MANNING; RAGHAVAN; SCH ÜTZE,

2008). A acurácia mede a fra¸cão de classifica¸cões corretas. A no¸cão de acurácia fica clara se examinada a seguinte tabela:

relevante n˜ao relevante

recuperado verdadeiros positivos (vp) falsos positivos (fp)

n˜ao recuperado falsos negativos (fn) verdadeiros negativos (vn)

Nesse sentido, a acur´acia ´e dada por:

acur´acia = vp + vn vp + f p + f n + vp.

Os algoritmos de aprendizado e os cen´arios para valida¸c˜ao cruzada foram implemen- tados na linguagem Java. Muitas das rotinas foram constru´ıdas usando como base as APIs das ferramentas DL-Learner 4 _{e JavaBayes} 5_.

O banco de dados MySQL 5 6 _{foi usado para armazenar padr˜oes encontrados durante}

o parsing de páginas HTML usadas posteriormente na constru¸cão dos exemplos positivos e negativos durante o treinamento e teste dos algoritmos de aprendizado. Os experimentos foram executados em um computador CORE 2 DUO 2.2 GHz com 4GB de memória na plataforma Ubuntu Linux.

ser utilizado para teste. A cada execu¸cão do experimento (fold) esse conjunto muda. O erro médio da valida¸cão cruzada é computado a partir da média aritmética dos erros fornecidos por cada conjunto de testes.

4_{http://dl-learner.org}

5_{http://www.pmr.poli.usp.br/ltd/Software/javabayes/Home/} 6_{www.mysql.com/}

6.2 Dados 93

6.2 Dados

Dois tipos de conjuntos de dados foram usados nas experimenta¸cões. O primeiro tipo, denominado de repositório, contém conjuntos de dados previamente usados na compara¸cão de algoritmos de aprendizado de lógica de descri¸cão. O segundo tipo, denominado de dados reais, contém dados coletados de fontes públicas dispon´ıveis na Internet e foram usados no aprendizado de terminologias probabil´ısticas e na realiza¸cão de compara¸cões entre as propostas. Esses dados passaram pelas etapas de sele¸cão, pre-processamento (limpeza dos dados e normaliza¸cão) e transforma¸cão (por exemplo, nomes transformados em códigos para identificar instâncias). Cada tipo de conjunto de dados é detalhado a seguir.

No documento JOSÉ EDUARDO OCHOA LUNA LÓGICAS PROBABILÍSTICAS COM RELAÇÕES DE CONHECIMENTO E APRENDIZADO DE MÁQUINA (páginas 89-93)