IBM OmniFind Enterprise Edition

(1)

IBM OmniFind Enterprise Edition

Integração da Análise de Texto

Versão8.5

򔻐򗗠򙳰

(2)

(3)

IBM OmniFind Enterprise Edition

Integração da Análise de Texto

Versão8.5

򔻐򗗠򙳰

(4)

Atenção

Antesdeutilizarasinformaçõescontidasnestapublicação,bemcomooprodutoaquesereferem,leiaasinformações incluídasnasecção“Informaçõesespeciaisemarcascomerciais”napágina121.

NotadeEdição

Estaediçãoéreferenteàversão8,edição5,modificação0doIBMOmniFindEnterpriseEdition(númerode produto5724-C74)eatodasasediçõesemodificaçõesposterioresdesteprograma,atéindicaçãoemcontrário fornecidaatravésdenovasediçõesdestapublicação.

QuandoenviainformaçõesparaaIBM,estáaconcederàIBMumdireitonãoexclusivodeutilizaroudistribuiras informaçõesporqualquermeioqueconsidereapropriadosemincorreremqualquerobrigaçãoparacomo utilizador.

(5)

Índice

ibm.come recursosrelacionados. . . . v

Comoenviarcomentários . . . v

ContactaraIBM. . . vi

Suportelinguístico para aprocura semântica. . . . . . . . . . . . . . 3

Integraçãoda análisede texto personalizada . . . . . . . . . . . . 5

Conceitosbásicosutilizadosnoprocessamentode análisedetexto . . . 6

Algoritmosdeanálisedetexto . . . 7

Fluxodetrabalhoparaintegraçãodeanálise personalizada . . . 8

UtilizarosanotadoresbasedoEnterpriseSearchem UIMA . . . 10

Utilizaroconsumidordeestruturadeanálise comumparabasededadosemUIMA . . . . 12

Utilizaroanotadordeexpressõesglobaisem UIMA . . . 15

Visualizaroanotadorbaseeosresultadosdaanálise detextopersonalizada. . . 15

Descriçãodosistematipo. . . 17

Mudardomododeanálisebaseparaomodode análiseavançada . . . 18

Tiposefuncionalidadesdefinidosparao EnterpriseSearch . . . 19

TiposefunçõesespecíficosparaoEnterprise Search . . . 24

Amostradadescriçãodosistematipo . . . . 27

MarcaçãoXMLnaanáliseeprocura . . . 30

Criarumficheirodemapeamentodeelementos XMLparaaestruturadeanálisecomum. . . . 32

Resultadosdaanálisedetexto . . . 37

Caminhosdefuncionalidade . . . 37

Funcionalidadesincorporadas . . . 39

Filtros . . . 41

Indexaromapeamentopararesultadosdaanálise personalizada. . . 42

Criaroficheirodemapeamentodaestruturade análisecomumparaoíndice . . . 44

Mapeamentodabasededadosparaosresultados daanáliseseleccionada . . . 50

Armazenarresultadosdaanálisenumabasede dados . . . 51

Utilizarconjuntosdeficheirosdecarregamento 51 Criaroficheirodemapeamentodaestruturade análisecomumparaabasededados. . . 52

Mapeamentodotipodecontentor. . . 57

Obterpartesdeumdocumentoquecorrespondama umaconsultadeprocurasemântica . . . 61

Aplicaçõesdeprocurasemântica . . . 64

Termodeconsultadeprocurasemântica . . . 65

Suporte desinónimos emaplicações de procura . . . . . . . . . . . . . 67

CriarumficheiroXMLparasinónimos . . . 68

Criarumdicionáriodesinónimos. . . 69

Dicionáriosde palavrasde paragem personalizados . . . . . . . . . . . 71

CriarumficheiroXMLparapalavrasdeparagem 72 Criarumdicionáriodepalavrasdeparagem . . . 73

Dicionáriosde palavrashierárquicas personalizados . . . . . . . . . . . 75

CriarumficheiroXMLparapalavrashierárquicas 76 Criarumdicionáriodepalavrashierárquicas . . . 77

Análisede textoincluída no Enterprise Search. . . . . . . . . . . . . . . 79

Identificaçãodoidioma . . . 79

Suportelinguísticoparasegmentaçãonãobaseada emdicionários . . . 81

Segmentarcaracteresnuméricoscomotokens n-gram. . . 82

Suportelinguísticoparasegmentaçãobaseadaem dicionários . . . 82

Segmentaçãodepalavrasemjaponês. . . 84

Variantesortográficasemjaponês . . . 85

Remoçãodepalavrasdeparagem. . . 85

Normalizaçãodecaracteres . . . 86

Anotador deexpressõesglobais . . . 87

Procurasemânticafácilutilizandooanotadorde expressõesglobais . . . 88

Activaraprocurasemânticafácilutilizandoo anotadordeexpressõesglobais. . . 89

Ficheirodoconjuntoderegras . . . 90

Definirregrasdeexpressãoglobal. . . 91

Personalizaroanotadordeexpressõesglobais. . . 95

Descritordoanotador. . . 96

Registar . . . 100

Documentaçãode Enterprise Search 103 Funçõesde acessibilidade . . . . . 105

Glossáriode termospara Enterprise Search . . . . . . . . . . . . . . 107

Informaçõesespeciais e marcas comerciais . . . . . . . . . . . . 121

Avisos. . . 121

Marcascomerciais. . . 123

(6)

ÍndiceRemissivo. . . . . . . . . . 125

(7)

ibm.com e recursos relacionados

Osuporte eadocumentaçãosobreprodutosestãodisponíveisnosítioibm.com.

Suporte e assistência

Osuporte aprodutosestádisponívelnaWeb.

IBMOmniFind EnterpriseEdition

http://www.ibm.com/software/data/enterprise-search/omnifind- enterprise/support.html

IBMOmniFind DiscoveryEdition

http://www.ibm.com/software/data/enterprise-search/omnifind- discovery/support.html

IBMOmniFind Yahoo!Edition

http://www.ibm.com/software/data/enterprise-search/omnifind-yahoo/

support.html

Information Center

É possívelvisualizaradocumentaçãosobreprodutosnumInformationCenter baseadonoEclipsecomum navegadordaWeb.ConsulteoInformationCenterem http://publib.boulder.ibm.com/infocenter/discover/v8r5m0/.

Publicações em PDF

É possívelvisualizarficheirosPDFonline utilizandooAdobeAcrobatReader adequadoaosistemaoperativo.SeoAcrobatReadernão estiverinstalado,é possível transferi-lodosítiodaWebdaAdobeem http://www.adobe.com.

Consulte osseguintessítios daWebcompublicações emPDF:

Produto EndereçodosítiodaWeb

OmniFindEnterpriseEdition, Versão8.5

http://www.ibm.com/support/docview.wss?rs=63

&uid=swg27010938 OmniFindDiscoveryEdition,

Versão8.4

&uid=swg27008552 OmniFindYahoo!Edition,Versão

8.4

&uid=swg27008932

Como enviar comentários

Os seuscomentáriossãoimportantes paraajudarafornecerinformaçõesmais rigorosasede melhorqualidade.

Envieoscomentáriosutilizandooformuláriode comentáriosdeleitoronline disponívelnosítiohttps://www14.software.ibm.com/webapp/iwm/web/

signup.do?lang=en_US&source=swg-rcf.

(8)

Contactar a IBM

Paracontactara assistênciaaclientesdaIBM nosE.U.A.ounoCanadá,ligue 1-800-IBM-SERV (1-800-426-7378).

Paraobter informaçõessobreasopções deassistênciadisponíveis,telefonepara um dosseguintes números:

v NosE.U.A.:1-888-426-4343 v NoCanadá:1-800-465-9600

Paraobter maisinformaçõessobrecomocontactaraIBM,consulte osítiodaWeb daIBMnoendereçohttp://www.ibm.com/contact/us/.

(9)

Integração da análise de texto

Depoisdeutilizara UIMA(UnstructuredInformationManagementArchitecture) paracriar suporteparaumaanálisepersonalizada,pode integrara lógicade análisecomcolecções deEnterpriseSearchepermitirqueascolecções sejam procuradascomprocurasemântica.

(10)

(11)

Suporte linguístico para a procura semântica

OEnterpriseSearchofereceosuporte deprocuralinguísticoparadocumentos de textonamaior partedosidiomasindo-europeuseasiáticos,incluindo japonês.

Podeutilizarosuportelinguístico paramelhoraraqualidadedosresultadosda procura.

Oprocessamentolinguístico éexecutadoemduasetapas: quandoum documentoé processado paraser adicionadoaoíndicee quandoum utilizadorintroduzuma consultadeprocura.

OEnterpriseSearchinclui apenasafuncionalidadelinguísticagranularoubásica utilizadaparadeterminaroidiomadeumdocumentode entradade dadose segmentar asequênciade entradasdedocumentos empalavrasou testemunhos.

Seo utilizadorsouberqueasprocurasserãorestringidasprincipalmenteaprocuras porpalavra-chavebásicasouprocurasde deXMLnativasqueutilizama estrutura de documentos,oprocessamentolinguísticoincluídonoEnterpriseSearchabrange adequadamente asnecessidadesdoutilizador.

Amaiorparte dasinformaçõesnosdocumentos detextoédesestruturada,oque dificulta autilizaçãode formaeficiente porquenãoé fácilacederaosignificadodas informações.

Aprocuradepalavras-chaveésimples,masnemsempreésatisfatóriosepretender procurarparaalémde meraspalavrasnodocumento,talcomoilustradonos seguintes exemplos:

v Noscasosdecolaboração,asinformaçõesnão estãosempreexplicitamente marcadas,porexemplo,um endereçoou umnúmerodetelefonenuma

mensagemde correioelectrónico.Narealidade,otermo númerodetelefonepode aténemser utilizado.Emvezdisso,a mensagemdecorreio electrónicopode conterumaexpressãotalcomo″podecontactar-mepelo219999999″.

Frequentemente,outilizadornemsempresabecomoasinformaçõesque pretendeprocurarexistemnodocumentoe,idealmente,pretenderiaintroduzir umaconsultacomo″NúmerodetelefonedaBárbara″aoprocuraronúmerode telefonede alguémquesechamaBárbara.Noentanto,estaconsultanãoterá êxito,porqueaspalavrasnúmero detelefonenãoocorremnodocumento.

v Nainteligênciacompetitiva,osdocumentosmencionamosconcorrentes eos produtosquefornecemou osítiodaWebdo concorrentequemudouaolongo dosúltimos trêsmesesdevendade umconjuntodeprodutosparaoutro.Neste caso,outilizadorpode introduzirumaconsultacomo″Produtosde Silva&C.ª″

ou″Produtosde Silva&C.ªdeNov. de2004atéJan.de2005″.Naprimeira consulta,otermoprodutosrepresenta umprodutoouumlequede produtos,mas aconsultanãodevolveráosprodutosfornecidospelaempresaSilva&C.ª,uma vezqueestáa procuraro termoprodutos.Aamostraaplica-seàconsultaque incluiumperíododetempo específico.Équase impossívelconsultarumperíodo detempoutilizandoa procuraporpalavra-chave.

v Nagestãoderelaçõescomclientes, osdocumentospodemmencionarproblemas nostravõesdosautomóveisemoficinas dereparaçãonaáreadoPorto.Os relatóriosdasoficinasdereparaçãodescrevemsituações taiscomo″sapata ajustadadevidoa fuganosistemahidráulico″.Outilizadorqueconsultamais

(12)

informaçõesdetalhadaspodeintroduzirumaconsultacomo ″oficinasde

reparaçãodeproblemasnostravõesa nortedo Porto″.Noentanto,estaconsulta podenãodevolverquaisquerrelatórios quefalamsobre″sapataajustada devido afuganosistemahidráulico″porqueostermosproblemasnostravõesouoficinas dereparaçãonão ocorremnosrelatórios.Além disso,estesrelatóriospodem mencionarapenasonome daruaou bairrodaoficinadereparação,nãoo endereçocompletoincluindoo nomedacidadedo Porto.

v Eminvestigação,osdocumentosdescrevemummedicamentoespecífico amplamentevendidoatravésdeváriasmarcascomerciaisea respectivarelação compelomenosumadoençamencionadanomesmoparágrafo.Outilizador ocasionalpode introduzirumaconsultautilizandoumdostermospopularesde ummedicamentoesperandoumlequemais detalhadodasváriasdoenças incluindosintomas.Noentanto,aconsultapodenão devolverdocumentos satisfatóriosporque otermopopularpode nãoserutilizado nosdocumentose, frequentemente,estesdocumentosnemsequermencionamapalavradoença, apenasonomedadoençaem si.

Nestes exemplos,aprocuraqueoutilizadornecessitadeefectuarnasvastas colecções dasorigensdeinformaçõesqueexistemhojeemdiaapresentanovos desafiosquerequerumaanálisesofisticadaqueultrapasseoníveldesegmentação e aanálisecombasenosdicionáriosqueéoferecidanoEnterpriseSearch.Amaior parte dasinformaçõesquesãointeressantesnãoestãoexplicitamentecontroladas nem marcadasdequalquermodonodocumentooriginal.Emvezdisso, o

conteúdodo documentotemdeser analisadoparareconhecerelocalizarconceitos de interesse,porexemplo,entidadesnomeadascomopessoas,organizações,locais, instalaçõese produtos,easpossíveisrelaçõesentreestasentidades.

Asinformações quepretendeidentificareextrair nosdocumentosde textosão específicos doutilizadoredodomínio.Paraajudaraconceberosseuspróprios algoritmos deanálise,aIBMofereceoIBM UnstructuredInformationManagement Architecture (UIMA),umcontexto desoftwareearquitecturaqueajudaa criaras funçõesde análiseavançadaparalocalizar asinformações deinteressenas colecções dedocumentos noEnterpriseSearch.

Conceitosrelacionados

“Integraçãodaanálisedetextopersonalizada”na página5

ApóstercriadoaanálisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture (UIMA),podeintegrara lógicadaanálisenoEnterpriseSearchutilizandoaconsoladeadministraçãodo EnterpriseSearch.

“Conceitosbásicosutilizadosnoprocessamentode análisedetexto”napágina 6

Osconceitosbásicosquesãoutilizadosnoprocessamentodeanálisedetexto incluemanotadores,resultadosdeanálise,estruturafuncional,tipo, tipode sistema,estruturadeanotaçãoeanálisecomum.

(13)

Integração da análise de texto personalizada

Após tercriadoa análisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture(UIMA),pode integrara lógica daanálisenoEnterpriseSearchutilizandoa consolade administraçãodo EnterpriseSearch.

AUIMAconsistenuma plataformaabertaqueidentificaoscomponentesparacada funçãode análiseconceptualmentedistintaegarantequeestescomponentes possamserfacilmentereutilizados ecombinados.

Aanáliselinguísticaavançadapodeincluir umacombinaçãode muitasediferentes tarefasde análise.Aanálisecomeça comadetecção deidiomaesegmentaçãoe continuacomo reconhecimentodeparte dodiscurso,seguidopelaanálise gramatical aprofundada.Asúltimastarefasincluemaidentificação, porexemplo, darelaçãoentredeterminadassubstânciasquímicaseoaparecimentode sintomas específicos.Cadapassonoprocesso deanálisedependedosresultadosnopasso anterior.

Alógica daanáliseparacadapassoencontra-senoanotador(annotator).Os

anotadores combinamparaformarumacadeiadeprocessamentoqueiteraatravés de cadadocumento nacolecçãoparaidentificarnovasinformaçõesearmazenar estas informaçõesparaoprocessamentonadirecçãodofluxo.

Os anotadoresquesãoresponsáveispelaidentificação erepresentaçãodo conteúdo daanálisenosdocumentos detextoencontram-senummotordeanálise,um

conceitocentralem UIMA.Ummotordeanálisepode conterumúnicoanotador ou podeserum compostode muitosmotores,cadaumporsuavezcontendo anotadores.

AUIMAforneceapenasosblocosde criaçãobásicosparacriar,testare implementar osseusprópriosmotoresdeanálise.Nãofornecequaisquer funcionalidadesde análiselinguísticasoba formade motoresde análise pré-configurados quepode implementarnoambientede UIMA.Noentanto,o processamentolinguístico, queéaplicadonoEnterpriseSearchestádisponível como umconjuntodeanotadorescomoqual podetrabalharna UIMA.

Paratrabalhar comUIMA,temde instalaroUIMASoftwareDevelopmentKit.O kitdedesenvolvimento estádisponívelnoIBM developerWorks.Visitea zonado WebSphereInformationIntegratorparaobterinformaçõesnosítiodaWeb http://www.ibm.com/developerworks/db2/zones/db2ii/.OUIMASoftware DevelopmentKit(SDK) incluiumaimplementaçãoJavadocontexto UIMAparaa entradaem vigor,descrição,composiçãoeimplementaçãodecomponentes UIMA.

OUIMASDKfornecetambémumconjuntodeferramentas eutilitáriospara utilizarUIMAnumambientededesenvolvimento baseadoemEclipse (suplementos Eclipse).Paraobter informaçõessobreoEclipse,consulte

www.eclipse.orgea documentaçãode UIMAparaobter instruçõessobrecomo instalaroUIMASoftwareDevelopmentKitnoAmbientedeDesenvolvimento InteractivodoEclipse.

(14)

“Suportelinguístico paraaprocurasemântica”napágina3

OEnterpriseSearchofereceosuportede procuralinguístico paradocumentos detextonamaiorparte dosidiomasindo-europeuseasiáticos,incluindo japonês.

“Conceitosbásicosutilizadosnoprocessamentode análisedetexto”

Osconceitosbásicosquesãoutilizadosnoprocessamentodeanálisedetexto incluemanotadores,resultadosdeanálise,estruturafuncional,tipo, tipode sistema,estruturadeanotaçãoeanálisecomum.

Conceitos básicos utilizados no processamento de análise de texto

Os conceitosbásicosquesãoutilizadosnoprocessamentodeanálisede texto incluem anotadores,resultadosde análise,estruturafuncional,tipo,tipode sistema,estruturade anotaçãoeanálisecomum.

Os anotadorescontêmalógica queanalisaum documentoeidentificaosdados descritivosdosregistossobreodocumentocomoumtodo (referidoscomo metadadosdo documento)ecomponentesnodocumento.Estesdadosdescritivos sãoreferidoscomo resultadosdaanálise.Osresultadosdaanáliseanotamqualquer subcadeiacontígua(tambémreferidacomogrupode recursosderede)do

documento detexto.Idealmente,osresultadosdaanálisecorrespondemàs informações quepretendeprocurar.

Uma estruturafuncionaléa estruturade dadossubjacentequerepresentaum resultado deanálise.Umaestruturafuncional éumaestruturaatributo-valor.Cada estruturafuncionalpertenceaum tipo(type)ecadatipotemumconjunto

especificado defuncionalidadesválidasouatributos(propriedades), semelhantea umaclassede Java.Asfuncionalidadestêm umtipode intervaloaindicarotipo de valorqueafuncionalidadetemdeter,talcomo,Cadeia.

Por exemplo,a expansãodotexto″JoséMateusBolota″podeser expandidapor umaanotaçãodotipo PessoacomasfuncionalidadesnomePessoa,idade, nacionalidade eprofissão.

Osistemadetiposdefineostiposdeobjectos (estruturasfuncionais)quepodemser identificadosnumdocumento.Osistemade tiposdefinetodasasestruturas funcionaispossíveis nostermosdetiposefuncionalidades(atributos),semelhante a umahierarquiadeclassesemJava. Podedefinirqualquernúmerode tipos diferentesnumsistemadetipos.Umsistemadetiposéespecíficodedomínioe aplicação.

Amaiorparte dosanotadores deanálisedetextoproduzosrespectivosresultados de análisesoba formadeanotações.Asanotaçõessãoumtipoespecialdeestrutura funcional designadoparaoprocessamentodaanáliselinguística.Umaanotação expande ouabrangeumapartedo textodeentradaeestádefinidanostermosdo respectivoinícioeposiçõesfinaisnotextodeentrada.

Por exemplo,umaanotadorquereconheceexpressõesmonetáriascriaparaotexto

″100,55Dólaresnorte-americanos″umaanotaçãodotipomonetaryExpressionque abrange otextocomafuncionalidadecurrencySymboldefinidacomo″$″.

TodososanotadoresnomodeloUIMAarmazenam osdadosnasestruturas funcionais.

(15)

Todasasestruturasfuncionaisestãorepresentadasnumaestruturadedadoscentral denominadaestruturadeanálisecomum.Todaapermutadedados éprocessada utilizandoa estruturade análisecomum.

Aestruturadeanálisecomumcontémosseguintes objectos:

v Odocumentode texto

v Adescriçãodo sistemade tiposqueindicaostipos, subtiposerespectivas funcionalidades

v Osresultadosdaanálisequedescrevemodocumento ouregiõesdodocumento v Umrepositório deíndicequesuportaoacessoeaiteração atravésdos

resultadosdaanálise

“Suportelinguístico paraaprocurasemântica”napágina3

OEnterpriseSearchofereceosuportede procuralinguístico paradocumentos detextonamaiorparte dosidiomasindo-europeuseasiáticos,incluindo japonês.

“Integraçãodaanálisedetextopersonalizada”napágina 5

ApóstercriadoaanálisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture(UIMA), podeintegrara lógicadaanálisenoEnterpriseSearchutilizandoaconsoladeadministraçãodo EnterpriseSearch.

Algoritmos de análise de texto

OUIMASoftwareDevelopmentKitincluiAPIseferramentas comasquaispode criar anotadores(algoritmosdeanáliseincluindo otipode descriçãodo sistema)e incorporar estesanotadoresnosmotoresdeanálise.

AdocumentaçãodeUIMAincluium guiadeestilosdeiniciaçãoqueajudaa criar estescomponentes.Okitdedesenvolvimentode softwareincluiutilitáriospara testarevisualizarosresultadoseummotorde procurasemântica depequena escala paraindexarosresultadosdaanálise.Podetambémexecutarumaprocura semântica maisavançadacomparandocominformaçõesarmazenadasnoíndice.

Uma vezqueo UIMASoftwareDevelopmentKitnãofornecequaisqueranotadores pré-configurados eporquequaisqueranotadorespersonalizados quedesenvolva utilizandoUIMAe,emseguida,integrenoEnterpriseSearchsefundamentamnos resultadosdosanotadoresbasedoEnterpriseSearch,pode utilizaro pacote anotadorbase noambiente doUIMA.Consultea documentaçãodeUIMApara obter informaçõessobrecomoincluira funcionalidadede detecçãodeidiomaede segmentaçãodetestemunhosantesde executarosalgoritmosde análisedetexto personalizados noambiente deUIMA.

Após desenvolveretestarosmotoresde análiseutilizandooUIMASoftware DevelopmentKit,temde criarumficheiroPEAR(ProcessingEngineARchive) paraexecutarosalgoritmosnumacolecção dedocumentosdo EnterpriseSearch.

Esteficheirodearquivoincluitodososrecursos requeridosparaimplementara funcionalidadedeanálisepersonalizadacomo motoresdeanálisenoEnterprise Search. OmodocomoédescritoumarquivonadocumentaçãodeUIMAfornecida noKitde DesenvolvimentodeSoftware.

OarquivocriadoparacarregarnoEnterpriseSearchtemapenasdeconter alógica de análisepersonalizada.Nãopode conterqualquerdosanotadoresbasedo EnterpriseSearchmesmo quea lógicadeanálisepersonalizadasefundamentenos

(16)

resultadosdoanotadorbase porqueosanotadores baseexecutamsempreantesde qualqueranálisepersonalizadanoEnterpriseSearch.

Paraobter informaçõessobrecomo configurareimplementar umasolução de procurasemântica noEnterpriseSearch,executeoguiade iniciaçãomencionado em http://www.ibm.com/developerworks/db2/zones/db2ii/.Oguiadeiniciação orienta-onospassosnecessáriosparaaimplementaçãodealgoritmosde análisede textopersonalizadanoEnterpriseSearchemostra-lhe comoutilizarosresultados daanálisenasconsultasparamelhorarosresultadosdaprocura.

Tarefasrelacionadas

“Utilizarosanotadores basedoEnterpriseSearchem UIMA”na página10 Podeutilizarosanotadoresnopacoteanotadorbasedo EnterpriseSearchpara desenvolverosnovosanotadoresnoâmbito doUIMASoftwareDevelopment Kit(SDK)eparamapear resultadosdaanáliseparatabelasJDBC.

Fluxo de trabalho para integração de análise personalizada

Criee testeosalgoritmosdeanálisedetextopersonalizadosutilizandoUIMA SoftwareDevelopmentKite,emseguida,implementeeexecuteascolecçõesde documentos noEnterpriseSearch.

Paradesenvolveralgoritmos deanáliseeintegrá-losnoEnterpriseSearch:

1. Planeareestruturar:

a. Determinequaisasinformações quepretendeprocurar.Quaissãoos documentosquepretenderobter?Quaissãoosconceitoserelações

necessáriosparacadatarefadeprocuraespecífica?Porexemplo,osnomes deprodutos eempregadospodemsernecessáriosparamelhoraroobjectivo geraldasprocurasnumsítiodaWebinternodeumaempresafarmacêutica, enquantoqueaspessoasnaáreadainvestigaçãoe desenvolvimento

necessitamdeutilizarvariantesdenomesdefármacose consultarrelações fármaco-causa-cura.

b. Especifiqueo tipodeanálisedetextode quenecessitaparaobteras informaçõesnosdocumentos quepretendeprocurar.

c. Sea colecçãocontiverdocumentos XML,decidasepretendeexplorara marcaçãoXMLna solução.NoEnterpriseSearch,podeutilizara marcação XMLnumadeduasformas:

v Seforpossívelutilizara marcaçãoXMLnaanálisepersonalizada(por exemplo,osdocumentos contiveremoselementos<resumo>ou<tópico>

quepodemser úteisnumanotadorde categorizaçãoouresumo),crieum ficheirode mapeamentodeelementosXMLparaa estruturadeanálise comum.

v SepretenderutilizaramarcaçãoXMLnasconsultasconformeapareceno documento,temde activaromapeamentoXMLnativo.

d. Determinequaisasinformações dosresultadosdaanálisede texto armazenadasnaestruturade análisecomumaquepretendeteracesso utilizandoaprocurasemântica.Crieoficheirode mapeamentodaestrutura deanálisecomumparaoíndice.

e. Determinesepretendearmazenarosresultadosdaanálisenumabasede dadosrelacional,porexemplo,paraidentificartendênciaseassociações utilizandoacomunicaçãoouaplicaçõesdeexploraçãodedados.Crieo ficheirodemapeamento daestruturadeanálisecomumparaa basede dados.

(17)

f. Estrutureaaplicaçãodaprocurasemântica.Determinea utilizaçãoqueo utilizadorfazdaprocurade funçõesadicionaisdaprocurasemântica.

Estrutureainterfacedo utilizador.

2. Desenvolver:Actividadesdo UIMASoftwareDevelopmentKit a. Definaospassosde análiseindividual.

b. Descrevaosistematipo dosmapeamentosealgoritmosde análise.

c. Desenvolvaosalgoritmos deanálise(anotadores)paracadapasso da análiseeincorporeosanotadoresnos motoresde análiseutilizandoo UIMA SoftwareDevelopmentKit.Criequalqueranálisepersonalizadautilizandoa funcionalidadebásica(identificação deidiomaesegmentação)nopacote de anotadoresbasedo EnterpriseSearch.

d. Apóstestarosalgoritmosde análiseem UIMA,torneomotorde análise numficheiroPEAR(ProcessingEngineArchive).Oarquivotemdeconter apenasosalgoritmos deanáliseenãoa funcionalidadebásicalinguísticado EnterpriseSearch.

Quandoconcebeumasoluçãodeanálisedetexto,podeincluir vários módulosde análisefornecidosemmais doqueumficheiroPEAR.AUIMA forneceummeiodeintercalardoisoumaisficheiros PEARnumúnico ficheiroPEARquepode carregareexecutarnoEnterpriseSearch.Aopção deintercalarficheirosPEARgarantequenão existemcolisõesde

nomenclatura,queascapacidadesdeentradaesaídasãointercaladas correctamentee quenão existesubstituiçãodeparâmetros seosparâmetros intercaladosnosdescritoresanotadorestiveremomesmonome.Consulte a documentaçãodeUIMAparaobter instruçõessobrecomointercalar ficheirosPEAR.

3. Implementar:ActividadesdoEnterpriseSearch

a. Carregueoficheirode arquivodomotor deprocessamento(.pear)no EnterpriseSearch. Forneçaumnomeparao componentede análisedetexto atravésdoquallhepossa fazerreferêncianoEnterpriseSearch.

b. Associeumaoumais colecçõesdedocumentos comocomponentede análisedetexto.

c. Seaplicável,paracadacolecção,carregueeseleccioneomapeamentode elementoXMLparaa estruturade análisecomumquedefiniuparaa análisepersonalizada.

d. Seaplicável,paracadacolecção,carregue eseleccioneomapeamentoda estruturade análisecomum paraabasede dadosquedefiniuparaa análise personalizada.

e. Paracadacolecção,carregue eseleccioneomapeamentodaestruturade análisecomumparaoíndicequedefiniuparaa procurasemântica.

f. Senecessário,configureaaplicaçãodeprocurasemânticapersonalizada,por exemplo,implementea interfacedoutilizador deprocurabaseadano navegadornumservidor daaplicação.

g. Pesquise,analiseeindexe osdocumentos nacolecçãodeprocurasemântica comofariaparaumacolecçãobaseadaem palavras-chave.

“Utilizarosanotadoresbase doEnterpriseSearchemUIMA”na página10 Podeutilizarosanotadoresnopacoteanotadorbasedo EnterpriseSearchpara desenvolverosnovosanotadoresnoâmbito doUIMASoftwareDevelopment Kit(SDK)eparamapearresultadosdaanáliseparatabelasJDBC.

(18)

Utilizar os anotadores base do Enterprise Search em UIMA

Podeutilizarosanotadoresnopacote anotadorbasedoEnterpriseSearchpara desenvolver osnovosanotadoresnoâmbitodo UIMASoftwareDevelopmentKit (SDK) eparamapearresultadosdaanáliseparatabelasJDBC.

Oconjuntodosanotadoresbaseinclui:

v AnotadordoIDdo idioma

Detectao idiomade umdocumento.Paraobterosparâmetros deconfiguraçãoe capacidades,consulte oficheirodescritorjlangid.xml.

v anotadordeprocurado dicionárioFROST

Forneceasegmentaçãoedetecçãode frases,combase nosdicionáriosdoIBM LanguageWare.Paratestemunhos,asinformaçõeslinguísticasadicionais,por exemplo,oformuláriobaseoulema,sãogeradas.Paraobterosparâmetrosde configuraçãoecapacidades,consulte oficheirodescritorjfrost.xml.

v Segmentadordeespaçosembranco

Podeexecutara segmentaçãobaseada emespaçosembranco emtodosos documentosdeidiomaseuropeusououtrosscripts separadoscomespaçosem branco.Paraalém disso,oanotadorconsegueefectuar asegmentaçãon-grama nosseguintesscripts detexto:árabe, han,hebraico, hiragana,katakana,laosiano, mongol,tailandês,YIehangul.Estalistainclui todososscripts detextoasiático principaisesignificaqueoanotadorsuportajaponês,chinêsecoreano.

Paraobterosparâmetros deconfiguraçãoecapacidades,consulteoficheiro descritorjtok.xml.

v Anotadordeexpressõesglobais

Detectaasentidades ouexpansõesdeinformaçõesnumdocumentode textocom baseemexpressõesglobais.Podepersonalizaroanotadorde expressõesglobais paradetectarasentidadesdetextodequenecessitadefinindoassuaspróprias regras.Umanotadordeexpressõesglobais deamostraquedetectanúmeros de telefone,URLseendereçosde correioelectróniconosdocumentos detextoestá incluídonopacote anotadorbase.

v Consumidordaestruturadeanálisecomumparaabasededados

Oconsumidordaestruturadeanálisecomum paraa basededados preenche umabase dedadosrelacional comresultadosdaanálisedetextoespecíficos.

Opacote anotadorbase doEnterpriseSearchéumficheirozipadoquecontém anotadores daanálisedetextobase comoanotadordeexpressõesglobaiseo consumidordaestruturade análisecomum paraabasede dados.Oanotadorde IDdoidioma, oanotadordeprocuraemdicionáriosFROSTeosegmentadorde espaços embrancosãoosanotadoresdaanálisede textobase queexecutam sempreantesdequalqueranálisede textopersonalizadaquandoosdocumentos sãoanalisadosnoEnterpriseSearch.

Uma vezqueosanotadoresdaanálisedetextobaseexecutamsempreantesde qualqueranálisedetextopersonalizadanoEnterpriseSearchejáquetodaa análisede textopersonalizada ébaseadanasaídadedados dosanotadoresbase, pode utilizarestesanotadoresnoambientedeUIMAquandodesenvolveetestaos anotadores personalizados.

Oanotadordeexpressões globaiseoconsumidordaestruturadeanálisecomum paraa basededados sãoopçõesadicionaisquepodeseleccionarnaconsolade administração doEnterpriseSearchquandoconfiguraasopções deprocessamento de texto.Podetambémutilizá-lasemUIMA. Paraapersonalizaçãoavançadado

(19)

anotadorde expressõesglobais,recomenda-sequeutilizeasferramentasdoUIMA SDK fornecidasparapersonalizar oanotador.

Paraexecutarqualquerdestesanotadoresem UIMA,temdeteroUIMASoftware DevelopmentKit(SDK) instalado.EstádisponívelnosítiodaWebIBM

developerWorksem http://www.ibm.com/developerworks/db2/zones/db2ii/.

Parainstalaropacotedo anotadornainstalaçãodoUIMASDK:

1. LocalizeopacoteanotadorOF_base_annotators.zipnainstalaçãodoEnterprise Search(OmniFindEnterpriseEdition)nodirectório ES_INSTALL_ROOT/

packages/uima.

2. Copieo ficheirozipadoparaodirectório raizdainstalaçãoUIMASDK.

3. Extraiaoficheirozipadoparaadicionarosficheiros anotadoresbasedo

EnterpriseSearchà estruturadedirectóriosespecificadadainstalaçãodo UIMA SDK.Oficheirott_core_typesystem.xmlserásobreposto.Sepretendermanter a versãoantigadesteficheiro,guarde-a antesdeextrair oficheirozipado.

4. Paradefinirocaminhodaclasse,abraoscriptsetUIMAClasspathnodirectório bine adicioneumalinhanofinaldoscriptqueinicieoscriptOFAnnotEnv.

5. SepretenderutilizarquaisquertiposespecíficosdoEnterpriseSearchou personalizadosem UIMA,consultea documentaçãodo UIMASDK paraobter informaçõessobrecomoosdefinir.

Após instalaropacote anotadorbase,pode encontrarosficheirosdescritoresdo anotadornodirectório UIMA_SDK_INSTALL/docs/examples/descriptors/

analysis_engine.Oficheiroof_tokenization.xml listaosanotadores daanálisede textobase(o anotadordeIDdo idioma,oanotadorde procuraem dicionários FROST eosegmentadorde espaçosembranco)nasequência pelaqualsão utilizadosnoâmbitodo EnterpriseSearch.

Os ficheirosdescritorescontêmosmesmosvaloresdeconfiguraçãoutilizadosno EnterpriseSearch.Podealterarosvaloresparafinsde depuraçãonoUIMASDK.

Noentanto,nãoaltereestesficheirosdescritoresnosistemado EnterpriseSearch.

Aoefectuaralteraçõesnestesficheirospoderácausarainstabilidadedo sistemaou problemasnodesempenho.

Opacoteanotadorbase doEnterpriseSearchcontémapenasosdicionáriosquesão requeridos paraprocessardocumentos eminglês.Sepretenderprocessaroutros idiomasnoambiente dedesenvolvimento,sigaestespassos:

1. LocalizeosdicionáriosdoEnterpriseSearchna respectivainstalaçãoem ES_INSTALL_ROOT/configurations/parserservice/jediidata/frost/resources.

2. Copieo conteúdodo directórioparaa instalaçãodo UIMASDK localem UIMA_SDK_INSTALL/data/frost/resources.

Paraverificar seopacote anotadorfoiinstaladocomêxito:

1. Abrao VisualDebugger(CVD)naEstruturadeAnáliseComum(CAS,

CommonAnalysisStructure)noseguintedirectório:UIMA_SDK_INSTALL/bin/

cvd[.bat/.sh].

2. FaçacliqueemExecutar(Run) →carregarTAE(loadTAE).

3. Seleccioneo ficheiroespecificadordomotor deanálisedetexto

of_tokenization.xmlnodirectório UIMA_SDK_INSTALL/docs/examples/

descriptors/analysis_engine.

4. Carregueum documentoamostraeexecuteomotor deanálisedetexto.Iráver asanotaçõesdotipo uima.tt.TokenAnnotationnoCVD.

(20)

Seexecutarqualquerdosanotadoresdeanálisedetextobase antesdosanotadores personalizados noambiente dedesenvolvimentoe osanotadorespersonalizados utilizaremtiposdefinidos pelaanálisede textobase,incluem umareferênciaparao ficheirott_core_typesystemnasecção dosistematipodo especificadordo

anotadorpersonalizado.Oficheirott_core_typesystemencontra-se nodirectório UIMA_SDK_INSTALL/docs/examples/descriptors/analysis_engine.Consulteo ficheirojtok.xmlnodirectório analysis_engineparaobterumaexemplodecomo incluir referênciasnos ficheirosdescritores.

“Visualizaroanotadorbase eosresultadosdaanálisede textopersonalizada”

napágina15

Paravisualizarosresultadosdaanáliseproduzidosapósaanálisee por quaisqueranotadoresnoEnterpriseSearch,temdeactualizaraspropriedades dacolecçãodedocumentos paraproduzirumaversãoXMLlegíveldos resultadosdaanálisequesãoarmazenadosnaestruturadeanálisecomum.

“Activaraprocurasemânticafácilutilizandooanotadordeexpressões globais”

napágina89

Paraactivaraprocurasemântica fácilutilizandosinónimos,tem deadicionaro anotadordeexpressõesglobais,oficheirode mapeamentodaestruturade análisecomumparaoíndicee odicionáriodesinónimos deamostraaosistema EnterpriseSearcheassociarestesrecursosàcolecção.

“Utilizaroconsumidordeestruturade análisecomumparabasededados em UIMA”

Antesdepoderutilizaroconsumidordeestruturadeanálisecomumparabase dedadosem UIMA,temde efectuaralteraçõesnoficheirodescritordo

consumidoreescreveroficheirode mapeamentodaestruturade análise comumparaabase dedados.

“Utilizaroanotadordeexpressõesglobais emUIMA”napágina15

Utilizeoanotadorde expressõesglobaisparadetectarentidadesou unidades deinformaçõesnumdocumentode texto.Podepersonalizaroanotadorparao domíniodoassuntoparacumprirassuasnecessidadesdeprocura.

Utilizar o consumidor de estrutura de análise comum para base de dados em UIMA

Antesdepoder utilizaroconsumidordeestruturade análisecomum parabasede dados emUIMA,tem deefectuaralteraçõesnoficheirodescritordoconsumidore escreveroficheirodemapeamento daestruturadeanálisecomumparaa basede dados.

Antesdepoder executaroconsumidordeestruturade análisecomumparabase de dadosnoambientedeUIMA, énecessárioefectuarosseguintesprocedimentos:

1. Abrao ficheirodescritorXMLcas2jdbc.xmlem UIMA_SDK_INSTALL/docs/

examples/descriptors/cas_consumer.Paraevitar errosdesintaxeXML,utilize umeditordeXMLouferramentadecriaçãodeXMLà suaescolha.

2. ModifiqueoparâmetromappingFileparaincluiro caminhoabsolutoondese localizao ficheirodemapeamentodaestruturadeanálisecomumparaabase dedados,por exemplo,D:\temp\MyMapping.xml

3. ModifiqueoparâmetrodocMetadata_Typeparaespecificarotipo deUIMAa partirdoqualosmetadadosparaasfuncionalidadesforamobtidos,por exemplo,uima.tcas.DocumentAnnotation.

4. ModifiqueoparâmetrodocId_Featureparaincluira funcionalidadeou caminhode funcionalidadenotipo demetadadosapartirdoqual oID numéricode umdocumento(dotipo númerointeiro)éobtido.Esteprocesso é

(21)

requeridoportodasasfuncionalidadesincorporadasquerequeremoID, tais comodocId(),uniqueId(),objectId()efsId().

5. NãodefinaoparâmetroencryptionClassumavezqueéutilizadoapenas no EnterpriseSearchparapermitirqueo consumidorde estruturadeanálise comumparabasede dadosfuncionecomficheirosdemapeamento codificado.

6. Guardeoficheiro.

7. Copieosficheirosde bibliotecaEMF(common.jar,ecore.jar eecore.xmi.jar) a partirdodirectóriolibdainstalaçãodoEnterpriseSearchparaodirectório lib dainstalaçãodeUIMA.Oficheirocc_cas2jdbc.jarjáseencontranodirectório libdainstalaçãodeUIMA.

8. Crieoficheirode mapeamentodaestruturade análisecomum paraa basede dadosquedefinequaisosresultadosdaanálisedetextoaarmazenarnuma basede dados.Podeutilizaroficheirodemapeamento sampleMapping.xmlem UIMA_SDK_INSTALL/docs/examples/descriptors/cas_consumercomouma amostra paracriar oseupróprioficheirodemapeamento.

Utilizeo ficheirodeesquemaXMLdenominado CasToJDBCMapping.xsdem UIMA_SDK_INSTALL/docs/examples/descriptors/cas_consumerparavalidar oficheirode mapeamentodaestruturadeanálisecomum paraa basede dados.Pormotivosdedesempenho,oconsumidorde estruturade análise comumparabasede dadosnãovalida oficheirodemapeamento,tem desero utilizadora fazê-lo.

OmodocomoexecutaroconsumidoremUIMAencontra-sedescritona documentaçãodeUIMA.

Aseguinteamostra mostracomoosparâmetros obrigatóriostemdeestardefinidos nodescritor:

...

<name>mappingFile</name>

<value>

<string>D:/temp/MyMapping.xml</string>

</value>

</nameValuePair>

<name>docMetadata_Type</name>

<value>

<string>uima.tcas.DocumentAnnotation</string>

</value>

</nameValuePair>

<name>docId_Feature</name>

<value>

</value>

</nameValuePair>

...

Atabelamostraosparâmetros deconfiguraçãopelaordemdeapresentação no ficheirodescritoreindicaquaisosquesãoobrigatórios:

(22)

Tabela1.Parâmetrosdeconfiguraçãonoficheirodescritordoconsumidordeestruturade análisecomumparaabasededados

Parâmetro Descrição Obrigatório

mappingFile Ocaminhoabsolutoparao ficheirodemapeamentoda estruturadeanálisecomum paraabasededados,por exemplo,

D:/temp/sample.xml.Nos sistemasWindows,utilize

“/”comoseparadorde caminho.

verdadeiro

encryptionClass Nãodefinaesteparâmetro, sóéutilizadonoEnterprise Searchparapermitiro consumidordeestruturade análisecomumparaabase dedadosparatrabalharcom ficheirosdemapeamento codificados.

falso

docMetadata_Type OtipoUIMAapartirdo qualosmetadadospara funcionalidadesincorporadas sãoobtidos.

verdadeiro

docId_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosapartirdoqualo IDnuméricododocumentoé obtido.Temdeserdotipo númerointeiro(integer)eé necessárioparatodasas funcionalidadesincorporadas querequeremoID,tais comouniqeId(),objectId() efsId().

verdadeiro

docUri_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosdeondeprovém oURIdodocumento.Tem deserdotipocadeia.

falso

IsCompleted_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosquesinalizaseo documentoactualestá divididoemváriasestruturas deanálisecomum.

falso

chunkNumber_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosqueassinalao númerosubsequenteda parteactual.

falso

(23)

Utilizar o anotador de expressões globais em UIMA

Utilize oanotadordeexpressõesglobaisparadetectar entidadesouunidadesde informações numdocumentodetexto.Podepersonalizaroanotadorparao domíniodo assuntoparacumprirassuas necessidadesdeprocura.

Paraexecutaroanotadorde expressõesglobaisdeamostra quedetecta osnúmeros de telefone,URLseendereçosde correioelectrónicoouutilizaroanotadorde amostra comobaseparacriara suaprópriaversãopersonalizadadoanotadorde expressõesglobais noambientedeUIMA,é necessário:

1. Odescritordo anotadordeexpressõesglobaisnodirectório

UIMA_SDK_INSTALL/docs/examples/descriptors/analysis_engine.

2. Oconjuntoderegrasdeamostra eadescriçãodosistematipo nodirectório UIMA_SDK_INSTALL/docs/examples/regex.

3. Umficheirodetextoexemploqueo conjuntode regrasdeamostrapode ser aplicado,nodirectório UIMA_SDK_INSTALL/docs/data denominado of_sample_regex.txt.

OmodocomoexecutaroanotadoremUIMAencontra-sedescritona documentaçãodeUIMA.

Visualizar o anotador base e os resultados da análise de texto personalizada

Paravisualizar osresultadosdaanáliseproduzidos apósaanáliseeporquaisquer anotadores noEnterpriseSearch,tem deactualizaraspropriedadesdacolecçãode documentos paraproduzirumaversãoXMLlegíveldosresultadosdaanáliseque sãoarmazenadosnaestruturadeanálisecomum.

Acercadestatarefa

Utilize aserializaçãoXMLdosresultadosdaanálisedoanotadorarmazenadosna estruturadeanálisecomumpara:

v Visualizeosresultadosapósa análise,antesdosanotadores baseserem processados.

v Visualizeosresultadosapósa análiseesegmentação(a executarosanotadores basedoEnterpriseSearch).Esteprocesso podeajudá-lo adeterminaras estruturasde dadosdeentradaparaqualqueranálisepersonalizadaque pretendadesenvolverequeexecutarásempreapósosanotadoresbase.

v Visualizeevalideosresultadosde umaanálisepersonalizadaexecutadanuma pequenacolecçãodedocumentos noEnterpriseSearchcoma finalidadede efectuartestesantesde decidirexecutara análisenumacolecçãocompleta.

AserializaçãoXMLproduz doisconjuntosderesultados:

v Osresultadosapósa análise.Estesincluem mapeamentosde campose metadadosdedocumentos.

v Osresultadosapósa análiseesegmentaçãoe,seestiverseleccionada,a análise detextopersonalizada.Estesincluem todosostestemunhoseanotações produzidos.

Procedimento

ParaproduzirumaversãoXMLlegíveldosresultadosdaanálise:

(24)

1. Abrao ficheirocollection.propertiesem ES_NODE_ROOT/master_config/

<CollectionID>.parserdriver antesdecomeçar aanalisarosdocumentosnasua colecção.

2. Paravisualizarosresultadosapósa análise,adicionea seguintelinhaao ficheirocollection.properties:

trevi.parser.dumpXCas=<o_directório_cópia_de_memória>

Énecessário quejáexistaodirectório dacópiadememória.

a. Seleccioneotipo desaídaquepretende.Asaídaincluisempreadescrição dosistematipoutilizadaparaanalisarosresultadosdenominada

OmniFindParserTypeSystem.xml.Adicioneumadasseguintes linhas:

v Paravisualizara saídadosúltimos25ficheiros processados,adicione trevi.parser.maxXCasFileCount=25.

Opróprioutilizadorpode determinaronúmerodeficheiros,mas recomenda-sequenão definaestevalor muitoelevado.

Lembre-sequeamemóriatampãodesaídadoficheiroéconstantemente substituídaapósseralcançado otamanhodamemóriatampão máximo.

Esteprocedimentotambémimplicaqueodocumentocomonúmeromais elevadonãonecessitade seroúltimoprocessado.

Asaídaincluiosseguintesficheiros:OmniFindParserXCasDump1.xml seguidodeOmniFindParserXCasDump2.xml,etc.,atéseremlistados25 ficheiros.

v Paravisualizara saídade documentosespecíficos,adicioneoURIdo documentotrevi.parser.xCasURI.1=ficheiro://home/test/

ficheiro1.txt.

Podeadicionarqualquernúmerode documentos,noentanto,os

documentos têmdeestarnumeradosporordemcrescente começandoem 1 semintervalosentreosnúmeros.Porexemplo,osegundodocumento seriatrevi.parser.xCasURI.2=ficheiro://home/test/ficheiro2.txteo terceirotrevi.parser.xCasURI.3=ficheiro://home/test/ficheiro3.txt Asaídaincluiosseguintesficheiros:

OmniFindParserXCasDumpURI_1.xml,

OmniFindParserXCasDumpURI_2.xmle assimsucessivamente paratodos osnomesdeficheiros queforamlistados

3. Paravisualizarosresultadosapósa segmentação,adicionea seguintelinha:

trevi.tokenizer.dumpXCas=<o_directório_cópia_de_memória>

Novamente, énecessárioquejáexistao directóriodacópiade memória.

a. Seleccioneotipo desaídaquepretende.Asaídacriadatambéminclui semprea descriçãodosistematipoutilizadaparaasegmentaçãoeparaos resultadosdaanálisedetexto,denominadaOmniFindTypeSystem.xml.

Adicioneumadasseguinteslinhas:

v Paravisualizara saídadosúltimos25ficheiros processados,adicione trevi.tokenizer.maxXCasFileCount=25.

Opróprioutilizadorpode determinaronúmerodeficheiros,mas recomenda-sequenão definaestevalor muitoelevado.

Lembre-sequeamemóriatampãodesaídadoficheiroéconstantemente substituídaapósseralcançado otamanhodamemóriatampão máximo.

Esteprocedimentotambémimplicaqueodocumentocomonúmeromais elevadonãonecessitade seroúltimoprocessado.

Asaídaincluiosseguintesficheiros:OmniFindXCasDump1.xml, OmniFindXCasDump2.xml,etc.,atéseremlistados25ficheiros.

(25)

v Paravisualizara saídade documentosespecíficos,adicioneoURIdo documentotrevi.tokenizer.xCasURI.1=ficheiro://home/test/

ficheiro1.txt.

Podeadicionarqualquernúmerode documentos,noentanto,os

documentostêm deestarnumeradosporordemcrescente começandoem 1semintervalosentreosnúmeros.Porexemplo,osegundodocumento seriatrevi.tokenizer.xCasURI.2=ficheiro://home/test/ficheiro2.txte oterceirotrevi.tokenizer.xCasURI.3=ficheiro://home/test/

ficheiro3.txt

Asaídaincluiosseguintes ficheiros:OmniFindXCasDumpURI_1.xml, OmniFindXCasDumpURI_2.xmleassimsucessivamente paratodosos nomesdeficheirosqueforamlistados

NoEnterpriseSearch,podeutilizaroVisualizadordeAnotaçãoXCAS(XCAS AnnotationViewer)paravisualizaroconteúdodosficheirosXML.Inicie o Visualizador deAnotaçãoXCASexecutando oficheirodescript

xcasAnnotationViewerlocalizadonodirectórioES_INSTALL_ROOT/bin.Surgeum pedidode informaçãoapedir:

v Odirectório dacópiadememóriaondeosresultadossãocolocadosapósa análiseousegmentação

v Oficheirodescritor, OmniFindParserTypeSystem.xml(pararesultadosdo analisador)ouOmniFindTypeSystem.xml(pararesultadosdasegmentaçãoe da análise),comonodirectório dacópiadamemória.

Aoseleccionarumdocumento dalista serãoapresentadososresultadosdaanálise paraodocumento.Aoclicarnumaanotaçãoevidenciadanodocumentosão apresentadososdetalhes daanotação.

Descrição do sistema tipo

Osistematipodefineostiposdeobjectos erespectivaspropriedades(ou

funcionalidades)quepodemserinstanciadasnumaestruturadeanálisecomum.

Cadamotorde análisetemassuasprópriasdescriçõesdosistematipoque descrevemosrequisitosdeentradaetiposde saídaparaosanotadoresnomotor de análise.Asdescriçõesdosistematiposãoespecíficas dodomíniodeaplicação.

Os sistemastipoincluemasdefiniçõesdostipos,respectivas propriedadese hierarquiaporherançasimplesdostipos. Umaestruturadeanálisecomumtemde estarem conformidadecomdeterminadosistematipo.

Os tiposefuncionalidadesquesãodefinidosna descriçãodo sistematipo têm também deserutilizadosemtodososficheiros demapeamento queestão associados àanálisedo documento,incluindo oficheirodemapeamento de elementos XMLparaa estruturadeanálisecomum,oficheirode mapeamentoda estruturadeanálisecomumparaoíndice eoficheirodemapeamento daestrutura de análisecomumparaabasede dados.

Adescriçãodosistematipo deumanotadorpodefazerparte dodescritordo anotadorou podeestarcontidonumficheirodescritorde sistematipo separado.

Por vezes,fazpartedo descritordeoutroanotadorcontidonomesmomotor de análise.

(26)

Quando tiverconcluído odesenvolvimentoetestesdomotor deanáliseno ambiente deUIMA,oficheirode arquivo(ficheiro.pear)queoutilizadorcrioue carregou paraoEnterpriseSearchcontémosficheiros lógicosdeanálisebemcomo a descriçãodosistematipo.

Os anotadoresbasedoEnterpriseSearchutilizamtrês descriçõesdosistematipo;

umadescriçãodosistematipode núcleoqueestásempreincluídaeduasoutras quepodeactivar opcionalmenteparaalteraroprocessamentodaanálisebase da colecção dedocumentosparaomododeanáliseavançada.Anecessidadede incluir umaouambasasdescriçõesdosistematipo expandidasdependedos resultadosdoprocessamentodaanálisedetextoadicionaisquepretenderincluir durante oprocessamentodaanálisebase.

Podeactivaromododeanáliseavançadaincluindo umouambosossistemastipo de extensão.Nomodode análiseavançada,asfuncionalidadesdeanálise

adicionaissãodisponibilizadas duranteoprocessamentodaanálisebaseesão guardadas naestruturadeanálisecomum.Porexemplo,serequerer mais

informações sobreumtestemunho (maisinformaçõessobreafuncionalidade), tais como todososlemaspossíveis paraotestemunhoouseolemaforumapalavrade paragemouparte dodiscursodolema,oufuncionalidadesespeciaisparao

processamentomorfológico, tambémparajaponês,necessitadeactivaromodode análiseavançada.

“Mudardomododeanálisebase parao modode análiseavançada”

Paraalteraroprocessamentodacolecçãodedocumentos queéexecutado pelos anotadoresbasedo EnterpriseSearchapartirdomododeanálisebaseparao mododeanáliseavançada,tem deincluirasdescriçõesdosistematipoparao mododeanáliseavançada.

Referênciasrelacionadas

“TiposefuncionalidadesdefinidosparaoEnterpriseSearch”napágina19 Osistematipo definidoparaoEnterpriseSearchabrangeoprocessamentode metadadosdodocumentoeanáliselinguísticabásica.

Mudar do modo de análise base para o modo de análise avançada

Paraalterar oprocessamentodacolecçãode documentosqueéexecutadopelos anotadores basedoEnterpriseSearcha partirdo modode análisebase parao mododeanáliseavançada,temdeincluir asdescriçõesdosistematipoparao mododeanáliseavançada.

Restrições

Existemduasdescriçõesdosistematipo quepode seleccionarparaactivar omodo de análiseavançada:

v Adescriçãott_extension_typesystem,queincluimais informaçõesde funcionalidadede tipolexicaldetalhadassobrelemas.

v Adescriçãodlt_extension_typesystem,queinclui funcionalidadesmorfológicas adicionaisetiposlexicaisespeciais.

Procedimento

Paramudaroprocessamentode colecçãobaseparaomododeanáliseavançada:

(27)

1. Abrao ficheirott_core_typesystem.xmlnodirectório ES_NODE_ROOT/

master_config/IDColecção.parserdriver/specifiers.Paraevitarerrosde sintaxe XML,utilizeumeditordeXMLouferramentadecriaçãodeXMLàsua escolha.

2. Remova oscontrolosdecomentárioquerodeiamoelemento<import>na secção <imports>paraincluirumouambos osficheiros dedescriçãodosistema tipo.

</imports>

3. Abraosdoisficheirosdescritoresjfrost.xmlejfrost_ngram.xmle modifiqueo conteúdodoelemento<outputs>paraincluir ostipos(numelemento<type>)e funcionalidades(numelemento<feature>)listadosnoelemento<description>

nasecção <capabilities>quepretendeincluirdurante aanálise.Guardeas alterações.

4. Abrao ficheirodescritorjtok.xmlemodifiqueoconteúdodoelemento

<outputs>paraincluir asfuncionalidades (numelemento<feature>)listadasno elemento<description>nasecção <capabilities>quepretendeincluirdurante a análise.Guardeasalterações.

5. Abrao ficheirodescritores_tok_no_stw.xmle,tambémnestecaso,modifiqueo conteúdodoelemento<outputs>paraincluir asfuncionalidades (num

elemento<feature>)listadas noelemento<description> nasecção

<capabilities>quepretendeincluir duranteaanálise.Guardeasalterações.

6. Quandomudarparaomododeanáliseavançada,temdeanalisarnovamentea colecçãode documentos.

“Descriçãodosistematipo”napágina17

Osistematipo defineostiposdeobjectoserespectivas propriedades(ou funcionalidades)quepodemser instanciadasnuma estruturade análise comum.

“TiposefuncionalidadesdefinidosparaoEnterpriseSearch”

Osistematipo definidoparaoEnterpriseSearchabrangeoprocessamentode metadadosdodocumentoeanáliselinguísticabásica.

Tipos e funcionalidades definidos para o Enterprise Search

OsistematipodefinidoparaoEnterpriseSearchabrange oprocessamentode metadadosdo documentoeanáliselinguísticabásica.

Os tiposutilizadosnoEnterpriseSearchsãodefinidosemtrês ficheirosde descriçãodo sistematipo separados,começandopeloficheirodedescriçãodo sistematipo quecontémostiposnúcleosemprerequeridosparatodaaanálise linguísticabásicaecontinuacomasdescriçõesdosistematipoquedefinemas funcionalidadeslinguísticas avançadasquesão,normalmente,apenasrequeridas nomododeanáliseavançada.

Aanáliselinguísticabásicasoba formade reconhecimentoesegmentaçãodo idiomadodocumento éexecutadaquandoum documentoéindexado,

independentemente daanálisepersonalizadaestarounão seleccionada.Durantea análisede documentosbásica,a descriçãott_core_typesystemé utilizadaesão

(28)

adicionadas asseguintesinformaçõesàestruturadeanálisecomumquepode utilizarnaanálisepersonalizadasubsequente:

v Osmetadadosdodocumentodotipo com.ibm.es.tt.DocumentMetaData.

v Asinformaçõesdaestruturadodocumentotaiscomo anotaçõesdefrasee parágrafodo tipouima.tt.SentenceAnnotationeuima.tt.ParagraphAnnotation. v Asanotaçõeslexicaistaiscomotestemunhosecompostosdotipo

uima.tt.TokenAnnotation.

Adescriçãott_core_typesysteméadequadaparaa maiorpartedoprocessamento daanálisedetexto.

Sepretenderalteraro processamentodecolecçõesparaomododeanálise avançada,pode incluirosseguintes doissistemastipo.Ossistemastipo incluem, principalmente,asfuncionalidadesquenãosãocriadasdurante oprocessamento linguístico básico.

v tt_extension_typesystemqueinclui maisinformaçõesde funcionalidadessobre testemunho,lema,parágrafoefrase

v dlt_core_typesystemquecontémalgunsdostiposdeanotaçãoexpandidado IBMLanguageWare,porexemplo,URLseendereços.Tambéminclui

funcionalidadesmorfológicasquenão sãoutilizadasfrequentemente.

tt_core_typesystem

Os seguintestiposefuncionalidadessãodefinidosnadescriçãode tt_core_typesystem:

uima.tcas.DocumentAnnotation

Aanotaçãododocumento contémmetadadosdo documentoetema seguintefuncionalidade:

v categoriescomcategoriasdedocumentos adicionadasporumutilitário decategorizaçãodetexto.Cadacategoriaadicionadaédotipo

com.tt.CategoryConfidencePair

v languageCandidatescomosidiomasdedocumentodetectados

automaticamentedurante aanálise.Osidiomassãoadicionadosauma listadotipo com.tt.LanguageConfidencePair,como idiomamais provávellistadoemprimeirolugar

v idcom oIDde documento,talcomooURL uima.tt.TTAnnotation

Esteotipode raizparaanotaçõesdefinidasem tt_core_typesystem.O respectivosupertipoéuima.tcase.Annotation.Temosseguintestipos:

uima.tt.DocStructureAnnotation

Asanotaçõessobreaestruturadodocumento.Temosseguintes subtipos:

uima.tt.SentenceAnnotation Frases

uima.tt.ParagraphAnnotation Parágrafododocumento uima.tt.LexicalAnnotation

Asanotaçõeslexicais taiscomotestemunhose expressõesdevárias palavras.Tem osseguintessubtipos:

(29)

uima.tt.TokenLikeAnnotation

Asanotaçõesdetestemunho únicoquepodemteras seguintesfuncionalidades:

v tokenPropertiescom aspropriedadesdotestemunho v lemma comolemaouraizdo termo

v normalizedCoveredTextcoma representaçãonormalizada do textoabrangido

Estetipodeanotaçãotem osseguintessubtipos:

uima.tt.TokenAnnotation

Ostestemunhosreaisaseremdistinguidosdos componentescomuns.

uima.tt.CompPartAnnotation

Oscomponentescompostosdeum termo.

uima.tt.CompoundAnnotation

Aanotaçãodeumtestemunho composto.

Normalmente,o testemunhocompostoexpande maisdo queumaanotaçãodotestemunho.

uima.tt.MultiTokenAnnotation

Aanotaçãolexicalconsistindoemmais doqueum testemunho.Estetipodeanotaçãotem osseguintes subtipos:

uima.tt.StopwordAnnotation

Asanotaçõesdaspalavrasde paragem.Aspalavras deparagempodemtambém seraspalavrasde váriostermos.

uima.tt.SynonymAnnotation

Aanotaçãodeumtermo parao qualexistem sinónimos.Tema funcionalidadesynonymsquelista ossinónimos encontradosparaotermo.

uima.tt.SpellCorrectionAnnotation

Aanotaçãodeumtermo parao qualexistem correcçõesde ortografia.Tema funcionalidade correctionTermsquelistaascorrecçõesprováveis numaordem começandopelascorrecçõesmais prováveis.

uima.tt.MultiWordAnnotation

Aanotaçãodeumtermo deváriaspalavras.

uima.CAS.TOP

Araizdo sistematipo. Temosseguintessubtipos:

uima.tt.KeyStringEntry

Otipoabstractode estruturasdedadosdaCadeia(String).Incluia funcionalidadekeyquecontémachave decadeiaeoseguinte subtipo:

uima.tt.Lemma

Entradasdelemasdodicionário.

uima.tt.CategoryConfidencePair

Ovalorde fiabilidadeparaacategoriaencontrada.Tem as seguintesfuncionalidades:

(30)

v categoryStringcomonome dacategoria

v categoryConfidencecomovalor defiabilidadeparaacategoria v mostSpecificcomosinalizadora indicarseestacategoriaéa

mais específicaparaodocumento

v taxonomycomonome dataxonomiade ondederivaa categoria uima.tt.LanguageConfidencePair

Ovalorde fiabilidadeparaacategoriaencontrada.Estetipoinclui asfuncionalidadeslanguageConfidence,languagee languageID.

tt_extension_typesystem

Afuncionalidadett_extension_typesysteminclui asfuncionalidadesde análisede textoparaumprocessamentomais avançado.

Estetipode anotaçãoemtt_extension_typesystemtemasseguintes funcionalidades:

v lemmaEntrieslista todososlemaspossíveis paraotestemunho.Ositens dalista sãodotipouima.tt.Lemma

v tokenNumber v stopwordToken uima.tt.Lemma

Estaanotaçãodotipo uima.tt.KeyStringEntrytem asseguintes funcionalidades:

v isStopwordé verdadeiro(true)seolema forumapalavrade paragem v isDetermineréverdadeiro (true)seolema forumdeterminante v partOfSpeech.Existemosseguintes códigosdedescriçãodonúmerode

partedodiscurso:

– 0:desconhecido – 1:pronome – 2:verbo – 3:substantivo – 4:adjectivo – 5:advérbio – 6:aposição – 7:interjeição – 8:conjunção uima.tt.DocStructureAnnotation

Asanotaçõessobreaestruturadodocumento.Temosseguintessubtipos:

uima.tt.SentenceAnnotation

Frasedo documento.TemafuncionalidadesentenceNumber.

uima.tt.ParagraphAnnotation

Parágrafododocumento.Tema funcionalidadeparagraphNumber.

dlt_extension_typesystem

Afuncionalidadedlt_extension_typesystemincluiasfuncionalidadesadicionais utilizadasporIBM LanguageWare.

(31)

uima.tt.LexicalAnnotation

Estaanotaçãotemosseguintessubtipos:

Em dlt_extension_typesystem,estaanotaçãotemasseguintes funcionalidades:

v synonymEntries v frost_TokenType v inflectedForms v spellAid v decomposition

com.ibm.dlt.uimatypes.FilePath com.ibm.dlt.uimatypes.Email com.ibm.dlt.uimatypes.Number com.ibm.dlt.uimatypes.URL com.ibm.dlt.uimatypes.Date com.ibm.dlt.uimatypes.Time com.ibm.dlt.uimatypes.Tel com.ibm.dlt.uimatypes.Currency com.ibm.dlt.uimatypes.Acronym uima.tt.TokenLikeAnnotation

Estetipode anotaçãoemdlt_extension_typesystemtem oseguintetipo:

com.ibm.dlt.uimatypes.MWU

EstetipoéutilizadopeloIBMLanguageWareparaanotaras expressõesde váriaspalavras.

uima.tt.KeyStringEntry

Asanotaçõesde cadeia.Temosseguintes subtipos:

uima.tt.Lemma

Temasseguintesfuncionalidades:

v frost_Constraints comossinalizadoresderestrição

v frost_MorphBitMasks contendoumamatrizdemáscaradebits morfológica

v frost_ExtendedPOS commaisinformaçõesdeparte dodiscurso, talcomo,JPOSparajaponês eCPOSparachinês

v frost_JKomcontendodadosmorfológicosemjaponês

v frost_JPStart contendodadosde análisedeiníciodo japonês v morphID contendopropriedadesdolema

uima.tcas.Annotation

Temo seguintesubtipo:

com.ibm.dlt.uimatypes.Decomp_Analysis

Análiseestruturalcompletadeumcomposto. Temasseguintes funcionalidades:

v headComponentIndexcomocomponenteprincipaldocomposto v route contendoumalistade testemunhosqueabrangeumúnico

encaminhamentodedecomposição

(32)

“Amostradadescriçãodo sistematipo”na página27

Adescriçãodosistematipodescreveasestruturasfuncionais(asestruturasde dadossubjacentesquerepresentam osresultadosdaanálise)utilizadasna análisepersonalizada.

Tipos e funções específicos para o Enterprise Search

Os tiposefunçõesdefinidos nadescriçãoof_typesystemabrangemtipos específicos parao OmniFindEnterpriseEdition.Estestipossãoutilizadospara metadadosespecíficos dosdocumentos.Também descrevemarepresentaçãode camposede informaçõesdemarcaçãoXMLouâncorasHTML.

Adescriçãoof_typesystemnão édefinidanoKitdeDesenvolvimentode Software (SDK,SoftwareDevelopmentKit)UIMA.Sepretenderutilizarqualquerdestes tiposquandoescreverumanotadoremUIMA,tem dedefinirostiposnovamente na descriçãodo sistemadetipodo motordeanálise.Porexemplo,poderá

pretenderacederainformaçõesde segurançadodocumentoouaotipode ferramentade sequênciasde hiperligaçõesoudedocumento.

Os seguintestiposefunçõessãodefinidosnadescriçãoof_typesystem:

uima.tcas.DocumentAnnotation

Aanotaçãodedocumentos UIMApadrãoéexpandidaatravésdaseguinte função:

esDocumentMetaData

Contémosmetadadosdo documentodotipo com.ibm.es.tt.DocumentMetaData.

com.ibm.es.tt.DocumentMetaData

Otipode metadadosdodocumentoinclui asfunçõesqueseseguem.As funcionalidadesestãoligadas àfuncionalidadedeanotaçãodo documento esDocumentMetaData.

crawlerId

Onomedaferramentadesequênciasdehiperligações.Ovalor da funcionalidadeédotipo uima.cas.String.

dataSource

Umdosseguintestiposdeorigemdedados:Ovalor da funcionalidadeédotipo uima.cas.String.

v CM,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo DB2ContentManager

v Base dedados,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo BasededadosJDBC

v DB2,paradocumentos pesquisadospelaferramentade sequênciasdehiperligaçõesdo DB2

v DominoDoc, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo DominoDocumentManager v Exchange,paradocumentospesquisadospelaferramentade

sequênciasdehiperligaçõesdo ExchangeServer

v NNTP,paradocumentos pesquisadospelaferramentade sequênciasdehiperligaçõesdo NNTP

v Notes,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo Notes

(33)

v QuickPlace,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo QuickPlace

v Lista dovalorgerador,paradocumentospesquisadospela ferramentade sequênciasdehiperligaçõesdo Listadevalores geradores

v UnixFS, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo SistemadeficheirosUNIX v VBR,paradocumentospesquisadospelaferramentade

sequênciasdehiperligaçõesdo ContentEdition

v WCM, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo WebContentManagement v Web,paradocumentospesquisadospelaferramentade

sequênciasdehiperligaçõesdaWeb

v WinFS,paradocumentos pesquisadospelaferramentade

sequênciasdehiperligaçõesdo Sistemadeficheirosdo Windows v WP,paradocumentospesquisadospelaferramentade

sequênciasdehiperligaçõesdo WebSpherePortal dataSourceName

Onomedaferramentadesequênciasdehiperligações(origemde dados).Ovalordafuncionalidadeédotipouima.cas.String. docType

Umdosseguintestiposdedocumentos:Ovalordafuncionalidade édo tipouima.cas.String.

v text/html

v application/postscript v application/pdf

v application/x-mspowerpoint v application/msword

v application/x-msexcel v application/rtf

v application/vnd.lotus-wordpro v application/x-lotus-123

v application/vnd.lotus-freelance v text/xml

v text/plain

v application/x-js-taro (Ichitaro) securityTokens

Ostestemunhosdesegurançado documento.Ovalor da funcionalidadeédotipo uima.cas.StringArray.

date Adatadodocumento.Ovalordafuncionalidadeédotipo uima.cas.String.

baseUri

OURIbasedapágina. Ovalor dafuncionalidadeédotipo uima.cas.String.

metaDataFields

Ovalordafuncionalidadeédotipouima.cas.FSArray.Cada elementonestamatrizédotipo com.ibm.es.tt.MetaDataField.