PROBABIL´ISTICA
5.7 Consistˆ encia do aprendizado em crALC
5.7.3 Condi¸c˜ oes no algoritmo combinado
Neste algoritmo, embora a constru¸c˜ao de defini¸c˜oes ou inclus˜oes probabil´ısticas seja feita de modo integrado as duas formas de aprendizado s˜ao identific´aveis. O objetivo inicial ´e a busca por um defini¸c˜ao de conceito, a qual usa operadores de refinamento de ALC (condi¸c˜ao (i) atingida). O algoritmo que percorre os diferentes candidatos obtidos pelo operador de refinamento constr´oi defini¸c˜oes ac´ıclicas (apesar do procedimento usar cobertura e pontua¸c˜ao probabil´ıstica), e portanto a condi¸c˜ao (ii) ´e satisfeita. O algoritmo de inclus˜oes probabil´ısticas baseado no classificador TAN avalia poss´ıveis candidatos para defini¸c˜oes aprendidas na primeira parte do algoritmo. Deste modo apenas nomes de conceitos s˜ao considerados na parte condicional e portanto a condi¸c˜ao (iii) ´e atingida. A escolha entre uma defini¸c˜ao determin´ıstica ou o aprendizado das probabilidades para uma inclus˜ao probabil´ıstica ´e realizada internamente pelo algoritmo via a aplica¸c˜ao de um limiar. Portanto, ´e imposs´ıvel que existam nomes de conceitos conflitantes em defini¸c˜oes e inclus˜oes probabil´ısticas assim a condi¸c˜ao (iv) ´e atingida.
5.8
Considera¸c˜oes finais
O aprendizado de m´aquina de formalismos l´ogico-probabil´ısticos foi o foco desse cap´ıtulo. De maneira sucinta foi descrita a abordagem da programa¸c˜ao em l´ogica indu- tiva probabil´ıstica em tarefas de aprendizado. Alguns dos conceitos apresentados foram adaptados para o aprendizado da l´ogica de descri¸c˜ao probabil´ıstica crALC — princi- pal contribui¸c˜ao deste trabalho. Trˆes algoritmos foram propostos para o aprendizado de crALC.
O primeiro (OCHOA-LUNA; COZMAN, 2009), enfatizou o aprendizado de terminologias
de maneira probabil´ıstica. O processo de aprendizado foi transformado no processo de aprendizado de um classificador que induz a defini¸c˜ao de conceitos por meio da classi- fica¸c˜ao dos exemplos positivos e negativos fornecidos. O classificador Noisy-OR foi usado como classificador probabil´ıstico.
A segunda proposta (REVOREDO; OCHOA-LUNA; COZMAN, 2010), focou no aprendi-
zado das inclus˜oes probabil´ısticas a partir de uma terminologia determin´ıstica, a qual poderia ter sido aprendida ou constru´ıda por um especialista. Dada as defini¸c˜oes de con- ceitos, esse algoritmo busca por condicionantes entre as defini¸c˜oes de conceitos, e avalia poss´ıveis componentes via uma fun¸c˜ao de pontua¸c˜ao. No final deste procedimento, caso a inser¸c˜ao de inclus˜oes probabil´ısticas melhore a pontua¸c˜ao global, as inclus˜oes proba- bil´ısticas s˜ao mantidas; caso contr´ario s˜ao descartadas.
A terceira proposta (OCHOA-LUNA; REVOREDO; COZMAN, 2010a), parte do pressu-
posto que os dois tipos de componentes, probabil´ıstico e determin´ıstico, tˆem a mesma relevˆancia e a natureza probabil´ıstica ou determin´ıstica dos conceitos est´a ligada aos da- dos. Isto ´e, os exemplos positivos e negativos d˜ao indicios da natureza dos componentes da terminologia. O aprendizado ´e realizado sob uma base probabil´ıstica e usam-se fun¸c˜oes de cobertura e pontua¸c˜oes probabil´ısticas, e inicia-se a busca pela defini¸c˜ao determin´ıstica de conceitos. Ap´os uma s´erie de itera¸c˜oes decide-se pelo fim da busca ou pelo in´ıcio do processo de aprendizado de inclus˜ao probabil´ıstica.
Uma an´alise sucinta de cada algoritmo de ponto de vista da aderencia em rela¸c˜ao `a linguagem crALC foi realizada. Cabe ressaltar que o aprendizado de l´ogicas de descri¸c˜ao probabil´ısticas ´e um t´opico pouco ou nada explorado na literatura. Em particular, os algoritmos para o aprendizado de crALC foram as primeiras propostas at´e o momento. No pr´oximo cap´ıtulo ser˜ao apresentados alguns resultados emp´ıricos da aplica¸c˜ao destes algoritmos em conjuntos de dados artificiais e reais.
6
EXPERIMENTOS
Neste cap´ıtulo s˜ao apresentados os experimentos conduzidos para verificar os be- nef´ıcios dos algoritmos propostos. Em particular, aprendizado de l´ogica de descri¸c˜ao probabil´ıstica ´e um t´opico que tem sido pouco explorado na literatura.
Dois tipos de experimentos foram realizados. O primeiro avalia os algoritmos pro- postos em rela¸c˜ao ao aprendizado de l´ogicas de descri¸c˜ao (sem inclus˜oes probabil´ısticas). O segundo avalia os algoritmos propostos em rela¸c˜ao ao aprendizado de terminologias probabil´ısticas em crALC. Conjuntos de dados coletados de reposit´orios de informa¸c˜oes p´ublicas dispon´ıveis na Internet foram usados.
O cap´ıtulo ´e organizado da seguinte maneira. A Se¸c˜ao 6.1 detalha a metodologia usada na realiza¸c˜ao dos experimentos. Os conjuntos de dados usados s˜ao descritos na Se¸c˜ao 6.2. A compara¸c˜ao entre os algoritmos propostos para aprendizado ´e detalhado na Se¸c˜ao 6.3. Considera¸c˜oes finais s˜ao apresentadas na Se¸c˜ao 6.4.
6.1
Metodologia
Avaliar empiricamente a acur´acia de hip´oteses ´e fundamental em aprendizado de m´aquina (MITCHELL, 1997). Nesse sentido, dois tipos de experimentos foram conduzidos.
O objetivo do primeiro tipo de experimento consiste em testar as propostas para aprendizado de terminologias probabil´ısticas em aprendizado de l´ogicas de descri¸c˜ao. En- tretanto, mesmo no aprendizado de ontologias a partir de exemplos, h´a falta de padr˜oes de avalia¸c˜ao (LEHMANN, 2007)1. Os algoritmos propostos foram comparados em termos de
acur´acia com os resultados obtidos por Lehmann e Hitzler (LEHMANN; HITZLER, 2008b)2.
Em todos os casos foram usados 5-folds valida¸c˜ao cruzada3. O teste de significˆancia usado
1Em alguns casos, conhecimento base de diversos problemas de aprendizado geral foram adaptados para o aprendizado de ontologias (LEHMANN; HITZLER, 2008b).
2Os melhores resultados dispon´ıveis na literatura.
3Valida¸c˜ao cruzada estratificada (mantendo-se o balanceamento das classes) consiste em dividir o conjunto de treinamento em k partes aproximadamente iguais. Uma dessas partes ser´a o subconjunto a
foi t-test com intervalos de confian¸ca de 95%.
O segundo tipo de experimentos avaliou a capacidade de aprendizado de terminolo- gias probabil´ısticas. Cada uma das propostas de aprendizado foi testada em termos de acur´acia usando conjunto de dados reais. Estes resultados possibilitaram a compara¸c˜ao dos algoritmos propostos. Valida¸c˜ao cruzada foi usada e intervalos de confian¸ca de 95%.
Para avaliar essas propostas podem ser usadas m´etricas b´asicas em recupera¸c˜ao de informa¸c˜ao, tais como precis˜ao, revoca¸c˜ao e acur´acia. Em particular, acur´acia foi adotada nas compara¸c˜oes por ser uma m´etrica de efetividade usada frequentemente para avaliar problemas de classifica¸c˜ao em aprendizado de m´aquina (MANNING; RAGHAVAN; SCH ¨UTZE,
2008). A acur´acia mede a fra¸c˜ao de classifica¸c˜oes corretas. A no¸c˜ao de acur´acia fica clara se examinada a seguinte tabela:
relevante n˜ao relevante
recuperado verdadeiros positivos (vp) falsos positivos (fp)
n˜ao recuperado falsos negativos (fn) verdadeiros negativos (vn)
Nesse sentido, a acur´acia ´e dada por:
acur´acia = vp + vn vp + f p + f n + vp.
Os algoritmos de aprendizado e os cen´arios para valida¸c˜ao cruzada foram implemen- tados na linguagem Java. Muitas das rotinas foram constru´ıdas usando como base as APIs das ferramentas DL-Learner 4 e JavaBayes 5.
O banco de dados MySQL 5 6 foi usado para armazenar padr˜oes encontrados durante
o parsing de p´aginas HTML usadas posteriormente na constru¸c˜ao dos exemplos positivos e negativos durante o treinamento e teste dos algoritmos de aprendizado. Os experimentos foram executados em um computador CORE 2 DUO 2.2 GHz com 4GB de mem´oria na plataforma Ubuntu Linux.
ser utilizado para teste. A cada execu¸c˜ao do experimento (fold) esse conjunto muda. O erro m´edio da valida¸c˜ao cruzada ´e computado a partir da m´edia aritm´etica dos erros fornecidos por cada conjunto de testes.
4http://dl-learner.org
5http://www.pmr.poli.usp.br/ltd/Software/javabayes/Home/ 6www.mysql.com/
6.2 Dados 93
6.2
Dados
Dois tipos de conjuntos de dados foram usados nas experimenta¸c˜oes. O primeiro tipo, denominado de reposit´orio, cont´em conjuntos de dados previamente usados na compara¸c˜ao de algoritmos de aprendizado de l´ogica de descri¸c˜ao. O segundo tipo, denominado de dados reais, cont´em dados coletados de fontes p´ublicas dispon´ıveis na Internet e foram usados no aprendizado de terminologias probabil´ısticas e na realiza¸c˜ao de compara¸c˜oes entre as propostas. Esses dados passaram pelas etapas de sele¸c˜ao, pre-processamento (limpeza dos dados e normaliza¸c˜ao) e transforma¸c˜ao (por exemplo, nomes transformados em c´odigos para identificar instˆancias). Cada tipo de conjunto de dados ´e detalhado a seguir.