IBM OmniFind Enterprise Edition
Integração da Análise de Texto
Versão8.5
IBM OmniFind Enterprise Edition
Integração da Análise de Texto
Versão8.5
Atenção
Antesdeutilizarasinformaçõescontidasnestapublicação,bemcomooprodutoaquesereferem,leiaasinformações incluídasnasecção“Informaçõesespeciaisemarcascomerciais”napágina121.
NotadeEdição
Estaediçãoéreferenteàversão8,edição5,modificação0doIBMOmniFindEnterpriseEdition(númerode produto5724-C74)eatodasasediçõesemodificaçõesposterioresdesteprograma,atéindicaçãoemcontrário fornecidaatravésdenovasediçõesdestapublicação.
QuandoenviainformaçõesparaaIBM,estáaconcederàIBMumdireitonãoexclusivodeutilizaroudistribuiras informaçõesporqualquermeioqueconsidereapropriadosemincorreremqualquerobrigaçãoparacomo utilizador.
Índice
ibm.come recursosrelacionados. . . . v
Comoenviarcomentários . . . v
ContactaraIBM . . . vi
Suportelinguístico para aprocura semântica . . . . . . . . . . . . . . 3
Integraçãoda análisede texto personalizada . . . . . . . . . . . . 5
Conceitosbásicosutilizadosnoprocessamentode análisedetexto . . . 6
Algoritmosdeanálisedetexto . . . 7
Fluxodetrabalhoparaintegraçãodeanálise personalizada . . . 8
UtilizarosanotadoresbasedoEnterpriseSearchem UIMA . . . 10
Utilizaroconsumidordeestruturadeanálise comumparabasededadosemUIMA . . . . 12
Utilizaroanotadordeexpressõesglobaisem UIMA . . . 15
Visualizaroanotadorbaseeosresultadosdaanálise detextopersonalizada. . . 15
Descriçãodosistematipo. . . 17
Mudardomododeanálisebaseparaomodode análiseavançada . . . 18
Tiposefuncionalidadesdefinidosparao EnterpriseSearch . . . 19
TiposefunçõesespecíficosparaoEnterprise Search . . . 24
Amostradadescriçãodosistematipo . . . . 27
MarcaçãoXMLnaanáliseeprocura . . . 30
Criarumficheirodemapeamentodeelementos XMLparaaestruturadeanálisecomum. . . . 32
Resultadosdaanálisedetexto . . . 37
Caminhosdefuncionalidade . . . 37
Funcionalidadesincorporadas . . . 39
Filtros . . . 41
Indexaromapeamentopararesultadosdaanálise personalizada. . . 42
Criaroficheirodemapeamentodaestruturade análisecomumparaoíndice . . . 44
Mapeamentodabasededadosparaosresultados daanáliseseleccionada . . . 50
Armazenarresultadosdaanálisenumabasede dados . . . 51
Utilizarconjuntosdeficheirosdecarregamento 51 Criaroficheirodemapeamentodaestruturade análisecomumparaabasededados . . . 52
Mapeamentodotipodecontentor. . . 57
Obterpartesdeumdocumentoquecorrespondama umaconsultadeprocurasemântica . . . 61
Aplicaçõesdeprocurasemântica . . . 64
Termodeconsultadeprocurasemântica . . . 65
Suporte desinónimos emaplicações de procura . . . . . . . . . . . . . 67
CriarumficheiroXMLparasinónimos . . . 68
Criarumdicionáriodesinónimos . . . 69
Dicionáriosde palavrasde paragem personalizados . . . . . . . . . . . 71
CriarumficheiroXMLparapalavrasdeparagem 72 Criarumdicionáriodepalavrasdeparagem . . . 73
Dicionáriosde palavrashierárquicas personalizados . . . . . . . . . . . 75
CriarumficheiroXMLparapalavrashierárquicas 76 Criarumdicionáriodepalavrashierárquicas . . . 77
Análisede textoincluída no Enterprise Search. . . . . . . . . . . . . . . 79
Identificaçãodoidioma . . . 79
Suportelinguísticoparasegmentaçãonãobaseada emdicionários . . . 81
Segmentarcaracteresnuméricoscomotokens n-gram . . . 82
Suportelinguísticoparasegmentaçãobaseadaem dicionários . . . 82
Segmentaçãodepalavrasemjaponês. . . 84
Variantesortográficasemjaponês . . . 85
Remoçãodepalavrasdeparagem . . . 85
Normalizaçãodecaracteres . . . 86
Anotador deexpressõesglobais . . . 87
Procurasemânticafácilutilizandooanotadorde expressõesglobais . . . 88
Activaraprocurasemânticafácilutilizandoo anotadordeexpressõesglobais. . . 89
Ficheirodoconjuntoderegras . . . 90
Definirregrasdeexpressãoglobal. . . 91
Personalizaroanotadordeexpressõesglobais. . . 95
Descritordoanotador . . . 96
Registar . . . 100
Documentaçãode Enterprise Search 103 Funçõesde acessibilidade . . . . . 105
Glossáriode termospara Enterprise Search . . . . . . . . . . . . . . 107
Informaçõesespeciais e marcas comerciais . . . . . . . . . . . . 121
Avisos. . . 121
Marcascomerciais. . . 123
ÍndiceRemissivo. . . . . . . . . . 125
ibm.com e recursos relacionados
Osuporte eadocumentaçãosobreprodutosestãodisponíveisnosítioibm.com.
Suporte e assistência
Osuporte aprodutosestádisponívelnaWeb.
IBMOmniFind EnterpriseEdition
http://www.ibm.com/software/data/enterprise-search/omnifind- enterprise/support.html
IBMOmniFind DiscoveryEdition
http://www.ibm.com/software/data/enterprise-search/omnifind- discovery/support.html
IBMOmniFind Yahoo!Edition
http://www.ibm.com/software/data/enterprise-search/omnifind-yahoo/
support.html
Information Center
É possívelvisualizaradocumentaçãosobreprodutosnumInformationCenter baseadonoEclipsecomum navegadordaWeb.ConsulteoInformationCenterem http://publib.boulder.ibm.com/infocenter/discover/v8r5m0/.
Publicações em PDF
É possívelvisualizarficheirosPDFonline utilizandooAdobeAcrobatReader adequadoaosistemaoperativo.SeoAcrobatReadernão estiverinstalado,é possível transferi-lodosítiodaWebdaAdobeem http://www.adobe.com.
Consulte osseguintessítios daWebcompublicações emPDF:
Produto EndereçodosítiodaWeb
OmniFindEnterpriseEdition, Versão8.5
http://www.ibm.com/support/docview.wss?rs=63
&uid=swg27010938 OmniFindDiscoveryEdition,
Versão8.4
http://www.ibm.com/support/docview.wss?rs=3035
&uid=swg27008552 OmniFindYahoo!Edition,Versão
8.4
http://www.ibm.com/support/docview.wss?rs=3193
&uid=swg27008932
Como enviar comentários
Os seuscomentáriossãoimportantes paraajudarafornecerinformaçõesmais rigorosasede melhorqualidade.
Envieoscomentáriosutilizandooformuláriode comentáriosdeleitoronline disponívelnosítiohttps://www14.software.ibm.com/webapp/iwm/web/
signup.do?lang=en_US&source=swg-rcf.
Contactar a IBM
Paracontactara assistênciaaclientesdaIBM nosE.U.A.ounoCanadá,ligue 1-800-IBM-SERV (1-800-426-7378).
Paraobter informaçõessobreasopções deassistênciadisponíveis,telefonepara um dosseguintes números:
v NosE.U.A.:1-888-426-4343 v NoCanadá:1-800-465-9600
Paraobter maisinformaçõessobrecomocontactaraIBM,consulte osítiodaWeb daIBMnoendereçohttp://www.ibm.com/contact/us/.
Integração da análise de texto
Depoisdeutilizara UIMA(UnstructuredInformationManagementArchitecture) paracriar suporteparaumaanálisepersonalizada,pode integrara lógicade análisecomcolecções deEnterpriseSearchepermitirqueascolecções sejam procuradascomprocurasemântica.
Suporte linguístico para a procura semântica
OEnterpriseSearchofereceosuporte deprocuralinguísticoparadocumentos de textonamaior partedosidiomasindo-europeuseasiáticos,incluindo japonês.
Podeutilizarosuportelinguístico paramelhoraraqualidadedosresultadosda procura.
Oprocessamentolinguístico éexecutadoemduasetapas: quandoum documentoé processado paraser adicionadoaoíndicee quandoum utilizadorintroduzuma consultadeprocura.
OEnterpriseSearchinclui apenasafuncionalidadelinguísticagranularoubásica utilizadaparadeterminaroidiomadeumdocumentode entradade dadose segmentar asequênciade entradasdedocumentos empalavrasou testemunhos.
Seo utilizadorsouberqueasprocurasserãorestringidasprincipalmenteaprocuras porpalavra-chavebásicasouprocurasde deXMLnativasqueutilizama estrutura de documentos,oprocessamentolinguísticoincluídonoEnterpriseSearchabrange adequadamente asnecessidadesdoutilizador.
Amaiorparte dasinformaçõesnosdocumentos detextoédesestruturada,oque dificulta autilizaçãode formaeficiente porquenãoé fácilacederaosignificadodas informações.
Aprocuradepalavras-chaveésimples,masnemsempreésatisfatóriosepretender procurarparaalémde meraspalavrasnodocumento,talcomoilustradonos seguintes exemplos:
v Noscasosdecolaboração,asinformaçõesnão estãosempreexplicitamente marcadas,porexemplo,um endereçoou umnúmerodetelefonenuma
mensagemde correioelectrónico.Narealidade,otermo númerodetelefonepode aténemser utilizado.Emvezdisso,a mensagemdecorreio electrónicopode conterumaexpressãotalcomo″podecontactar-mepelo219999999″.
Frequentemente,outilizadornemsempresabecomoasinformaçõesque pretendeprocurarexistemnodocumentoe,idealmente,pretenderiaintroduzir umaconsultacomo″NúmerodetelefonedaBárbara″aoprocuraronúmerode telefonede alguémquesechamaBárbara.Noentanto,estaconsultanãoterá êxito,porqueaspalavrasnúmero detelefonenãoocorremnodocumento.
v Nainteligênciacompetitiva,osdocumentosmencionamosconcorrentes eos produtosquefornecemou osítiodaWebdo concorrentequemudouaolongo dosúltimos trêsmesesdevendade umconjuntodeprodutosparaoutro.Neste caso,outilizadorpode introduzirumaconsultacomo″Produtosde Silva&C.ª″
ou″Produtosde Silva&C.ªdeNov. de2004atéJan.de2005″.Naprimeira consulta,otermoprodutosrepresenta umprodutoouumlequede produtos,mas aconsultanãodevolveráosprodutosfornecidospelaempresaSilva&C.ª,uma vezqueestáa procuraro termoprodutos.Aamostraaplica-seàconsultaque incluiumperíododetempo específico.Équase impossívelconsultarumperíodo detempoutilizandoa procuraporpalavra-chave.
v Nagestãoderelaçõescomclientes, osdocumentospodemmencionarproblemas nostravõesdosautomóveisemoficinas dereparaçãonaáreadoPorto.Os relatóriosdasoficinasdereparaçãodescrevemsituações taiscomo″sapata ajustadadevidoa fuganosistemahidráulico″.Outilizadorqueconsultamais
informaçõesdetalhadaspodeintroduzirumaconsultacomo ″oficinasde
reparaçãodeproblemasnostravõesa nortedo Porto″.Noentanto,estaconsulta podenãodevolverquaisquerrelatórios quefalamsobre″sapataajustada devido afuganosistemahidráulico″porqueostermosproblemasnostravõesouoficinas dereparaçãonão ocorremnosrelatórios.Além disso,estesrelatóriospodem mencionarapenasonome daruaou bairrodaoficinadereparação,nãoo endereçocompletoincluindoo nomedacidadedo Porto.
v Eminvestigação,osdocumentosdescrevemummedicamentoespecífico amplamentevendidoatravésdeváriasmarcascomerciaisea respectivarelação compelomenosumadoençamencionadanomesmoparágrafo.Outilizador ocasionalpode introduzirumaconsultautilizandoumdostermospopularesde ummedicamentoesperandoumlequemais detalhadodasváriasdoenças incluindosintomas.Noentanto,aconsultapodenão devolverdocumentos satisfatóriosporque otermopopularpode nãoserutilizado nosdocumentose, frequentemente,estesdocumentosnemsequermencionamapalavradoença, apenasonomedadoençaem si.
Nestes exemplos,aprocuraqueoutilizadornecessitadeefectuarnasvastas colecções dasorigensdeinformaçõesqueexistemhojeemdiaapresentanovos desafiosquerequerumaanálisesofisticadaqueultrapasseoníveldesegmentação e aanálisecombasenosdicionáriosqueéoferecidanoEnterpriseSearch.Amaior parte dasinformaçõesquesãointeressantesnãoestãoexplicitamentecontroladas nem marcadasdequalquermodonodocumentooriginal.Emvezdisso, o
conteúdodo documentotemdeser analisadoparareconhecerelocalizarconceitos de interesse,porexemplo,entidadesnomeadascomopessoas,organizações,locais, instalaçõese produtos,easpossíveisrelaçõesentreestasentidades.
Asinformações quepretendeidentificareextrair nosdocumentosde textosão específicos doutilizadoredodomínio.Paraajudaraconceberosseuspróprios algoritmos deanálise,aIBMofereceoIBM UnstructuredInformationManagement Architecture (UIMA),umcontexto desoftwareearquitecturaqueajudaa criaras funçõesde análiseavançadaparalocalizar asinformações deinteressenas colecções dedocumentos noEnterpriseSearch.
Conceitosrelacionados
“Integraçãodaanálisedetextopersonalizada”na página5
ApóstercriadoaanálisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture (UIMA),podeintegrara lógicadaanálisenoEnterpriseSearchutilizandoaconsoladeadministraçãodo EnterpriseSearch.
“Conceitosbásicosutilizadosnoprocessamentode análisedetexto”napágina 6
Osconceitosbásicosquesãoutilizadosnoprocessamentodeanálisedetexto incluemanotadores,resultadosdeanálise,estruturafuncional,tipo, tipode sistema,estruturadeanotaçãoeanálisecomum.
Integração da análise de texto personalizada
Após tercriadoa análisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture(UIMA),pode integrara lógica daanálisenoEnterpriseSearchutilizandoa consolade administraçãodo EnterpriseSearch.
AUIMAconsistenuma plataformaabertaqueidentificaoscomponentesparacada funçãode análiseconceptualmentedistintaegarantequeestescomponentes possamserfacilmentereutilizados ecombinados.
Aanáliselinguísticaavançadapodeincluir umacombinaçãode muitasediferentes tarefasde análise.Aanálisecomeça comadetecção deidiomaesegmentaçãoe continuacomo reconhecimentodeparte dodiscurso,seguidopelaanálise gramatical aprofundada.Asúltimastarefasincluemaidentificação, porexemplo, darelaçãoentredeterminadassubstânciasquímicaseoaparecimentode sintomas específicos.Cadapassonoprocesso deanálisedependedosresultadosnopasso anterior.
Alógica daanáliseparacadapassoencontra-senoanotador(annotator).Os
anotadores combinamparaformarumacadeiadeprocessamentoqueiteraatravés de cadadocumento nacolecçãoparaidentificarnovasinformaçõesearmazenar estas informaçõesparaoprocessamentonadirecçãodofluxo.
Os anotadoresquesãoresponsáveispelaidentificação erepresentaçãodo conteúdo daanálisenosdocumentos detextoencontram-senummotordeanálise,um
conceitocentralem UIMA.Ummotordeanálisepode conterumúnicoanotador ou podeserum compostode muitosmotores,cadaumporsuavezcontendo anotadores.
AUIMAforneceapenasosblocosde criaçãobásicosparacriar,testare implementar osseusprópriosmotoresdeanálise.Nãofornecequaisquer funcionalidadesde análiselinguísticasoba formade motoresde análise pré-configurados quepode implementarnoambientede UIMA.Noentanto,o processamentolinguístico, queéaplicadonoEnterpriseSearchestádisponível como umconjuntodeanotadorescomoqual podetrabalharna UIMA.
Paratrabalhar comUIMA,temde instalaroUIMASoftwareDevelopmentKit.O kitdedesenvolvimento estádisponívelnoIBM developerWorks.Visitea zonado WebSphereInformationIntegratorparaobterinformaçõesnosítiodaWeb http://www.ibm.com/developerworks/db2/zones/db2ii/.OUIMASoftware DevelopmentKit(SDK) incluiumaimplementaçãoJavadocontexto UIMAparaa entradaem vigor,descrição,composiçãoeimplementaçãodecomponentes UIMA.
OUIMASDKfornecetambémumconjuntodeferramentas eutilitáriospara utilizarUIMAnumambientededesenvolvimento baseadoemEclipse (suplementos Eclipse).Paraobter informaçõessobreoEclipse,consulte
www.eclipse.orgea documentaçãode UIMAparaobter instruçõessobrecomo instalaroUIMASoftwareDevelopmentKitnoAmbientedeDesenvolvimento InteractivodoEclipse.
Conceitosrelacionados
“Suportelinguístico paraaprocurasemântica”napágina3
OEnterpriseSearchofereceosuportede procuralinguístico paradocumentos detextonamaiorparte dosidiomasindo-europeuseasiáticos,incluindo japonês.
“Conceitosbásicosutilizadosnoprocessamentode análisedetexto”
Osconceitosbásicosquesãoutilizadosnoprocessamentodeanálisedetexto incluemanotadores,resultadosdeanálise,estruturafuncional,tipo, tipode sistema,estruturadeanotaçãoeanálisecomum.
Conceitos básicos utilizados no processamento de análise de texto
Os conceitosbásicosquesãoutilizadosnoprocessamentodeanálisede texto incluem anotadores,resultadosde análise,estruturafuncional,tipo,tipode sistema,estruturade anotaçãoeanálisecomum.
Os anotadorescontêmalógica queanalisaum documentoeidentificaosdados descritivosdosregistossobreodocumentocomoumtodo (referidoscomo metadadosdo documento)ecomponentesnodocumento.Estesdadosdescritivos sãoreferidoscomo resultadosdaanálise.Osresultadosdaanáliseanotamqualquer subcadeiacontígua(tambémreferidacomogrupode recursosderede)do
documento detexto.Idealmente,osresultadosdaanálisecorrespondemàs informações quepretendeprocurar.
Uma estruturafuncionaléa estruturade dadossubjacentequerepresentaum resultado deanálise.Umaestruturafuncional éumaestruturaatributo-valor.Cada estruturafuncionalpertenceaum tipo(type)ecadatipotemumconjunto
especificado defuncionalidadesválidasouatributos(propriedades), semelhantea umaclassede Java.Asfuncionalidadestêm umtipode intervaloaindicarotipo de valorqueafuncionalidadetemdeter,talcomo,Cadeia.
Por exemplo,a expansãodotexto″JoséMateusBolota″podeser expandidapor umaanotaçãodotipo PessoacomasfuncionalidadesnomePessoa,idade, nacionalidade eprofissão.
Osistemadetiposdefineostiposdeobjectos (estruturasfuncionais)quepodemser identificadosnumdocumento.Osistemade tiposdefinetodasasestruturas funcionaispossíveis nostermosdetiposefuncionalidades(atributos),semelhante a umahierarquiadeclassesemJava. Podedefinirqualquernúmerode tipos diferentesnumsistemadetipos.Umsistemadetiposéespecíficodedomínioe aplicação.
Amaiorparte dosanotadores deanálisedetextoproduzosrespectivosresultados de análisesoba formadeanotações.Asanotaçõessãoumtipoespecialdeestrutura funcional designadoparaoprocessamentodaanáliselinguística.Umaanotação expande ouabrangeumapartedo textodeentradaeestádefinidanostermosdo respectivoinícioeposiçõesfinaisnotextodeentrada.
Por exemplo,umaanotadorquereconheceexpressõesmonetáriascriaparaotexto
″100,55Dólaresnorte-americanos″umaanotaçãodotipomonetaryExpressionque abrange otextocomafuncionalidadecurrencySymboldefinidacomo″$″.
TodososanotadoresnomodeloUIMAarmazenam osdadosnasestruturas funcionais.
Todasasestruturasfuncionaisestãorepresentadasnumaestruturadedadoscentral denominadaestruturadeanálisecomum.Todaapermutadedados éprocessada utilizandoa estruturade análisecomum.
Aestruturadeanálisecomumcontémosseguintes objectos:
v Odocumentode texto
v Adescriçãodo sistemade tiposqueindicaostipos, subtiposerespectivas funcionalidades
v Osresultadosdaanálisequedescrevemodocumento ouregiõesdodocumento v Umrepositório deíndicequesuportaoacessoeaiteração atravésdos
resultadosdaanálise
Conceitosrelacionados
“Suportelinguístico paraaprocurasemântica”napágina3
OEnterpriseSearchofereceosuportede procuralinguístico paradocumentos detextonamaiorparte dosidiomasindo-europeuseasiáticos,incluindo japonês.
“Integraçãodaanálisedetextopersonalizada”napágina 5
ApóstercriadoaanálisepersonalizadaforadoEnterpriseSearchutilizandoa UnstructuredInformationManagementArchitecture(UIMA), podeintegrara lógicadaanálisenoEnterpriseSearchutilizandoaconsoladeadministraçãodo EnterpriseSearch.
Algoritmos de análise de texto
OUIMASoftwareDevelopmentKitincluiAPIseferramentas comasquaispode criar anotadores(algoritmosdeanáliseincluindo otipode descriçãodo sistema)e incorporar estesanotadoresnosmotoresdeanálise.
AdocumentaçãodeUIMAincluium guiadeestilosdeiniciaçãoqueajudaa criar estescomponentes.Okitdedesenvolvimentode softwareincluiutilitáriospara testarevisualizarosresultadoseummotorde procurasemântica depequena escala paraindexarosresultadosdaanálise.Podetambémexecutarumaprocura semântica maisavançadacomparandocominformaçõesarmazenadasnoíndice.
Uma vezqueo UIMASoftwareDevelopmentKitnãofornecequaisqueranotadores pré-configurados eporquequaisqueranotadorespersonalizados quedesenvolva utilizandoUIMAe,emseguida,integrenoEnterpriseSearchsefundamentamnos resultadosdosanotadoresbasedoEnterpriseSearch,pode utilizaro pacote anotadorbase noambiente doUIMA.Consultea documentaçãodeUIMApara obter informaçõessobrecomoincluira funcionalidadede detecçãodeidiomaede segmentaçãodetestemunhosantesde executarosalgoritmosde análisedetexto personalizados noambiente deUIMA.
Após desenvolveretestarosmotoresde análiseutilizandooUIMASoftware DevelopmentKit,temde criarumficheiroPEAR(ProcessingEngineARchive) paraexecutarosalgoritmosnumacolecção dedocumentosdo EnterpriseSearch.
Esteficheirodearquivoincluitodososrecursos requeridosparaimplementara funcionalidadedeanálisepersonalizadacomo motoresdeanálisenoEnterprise Search. OmodocomoédescritoumarquivonadocumentaçãodeUIMAfornecida noKitde DesenvolvimentodeSoftware.
OarquivocriadoparacarregarnoEnterpriseSearchtemapenasdeconter alógica de análisepersonalizada.Nãopode conterqualquerdosanotadoresbasedo EnterpriseSearchmesmo quea lógicadeanálisepersonalizadasefundamentenos
resultadosdoanotadorbase porqueosanotadores baseexecutamsempreantesde qualqueranálisepersonalizadanoEnterpriseSearch.
Paraobter informaçõessobrecomo configurareimplementar umasolução de procurasemântica noEnterpriseSearch,executeoguiade iniciaçãomencionado em http://www.ibm.com/developerworks/db2/zones/db2ii/.Oguiadeiniciação orienta-onospassosnecessáriosparaaimplementaçãodealgoritmosde análisede textopersonalizadanoEnterpriseSearchemostra-lhe comoutilizarosresultados daanálisenasconsultasparamelhorarosresultadosdaprocura.
Tarefasrelacionadas
“Utilizarosanotadores basedoEnterpriseSearchem UIMA”na página10 Podeutilizarosanotadoresnopacoteanotadorbasedo EnterpriseSearchpara desenvolverosnovosanotadoresnoâmbito doUIMASoftwareDevelopment Kit(SDK)eparamapear resultadosdaanáliseparatabelasJDBC.
Fluxo de trabalho para integração de análise personalizada
Criee testeosalgoritmosdeanálisedetextopersonalizadosutilizandoUIMA SoftwareDevelopmentKite,emseguida,implementeeexecuteascolecçõesde documentos noEnterpriseSearch.
Paradesenvolveralgoritmos deanáliseeintegrá-losnoEnterpriseSearch:
1. Planeareestruturar:
a. Determinequaisasinformações quepretendeprocurar.Quaissãoos documentosquepretenderobter?Quaissãoosconceitoserelações
necessáriosparacadatarefadeprocuraespecífica?Porexemplo,osnomes deprodutos eempregadospodemsernecessáriosparamelhoraroobjectivo geraldasprocurasnumsítiodaWebinternodeumaempresafarmacêutica, enquantoqueaspessoasnaáreadainvestigaçãoe desenvolvimento
necessitamdeutilizarvariantesdenomesdefármacose consultarrelações fármaco-causa-cura.
b. Especifiqueo tipodeanálisedetextode quenecessitaparaobteras informaçõesnosdocumentos quepretendeprocurar.
c. Sea colecçãocontiverdocumentos XML,decidasepretendeexplorara marcaçãoXMLna solução.NoEnterpriseSearch,podeutilizara marcação XMLnumadeduasformas:
v Seforpossívelutilizara marcaçãoXMLnaanálisepersonalizada(por exemplo,osdocumentos contiveremoselementos<resumo>ou<tópico>
quepodemser úteisnumanotadorde categorizaçãoouresumo),crieum ficheirode mapeamentodeelementosXMLparaa estruturadeanálise comum.
v SepretenderutilizaramarcaçãoXMLnasconsultasconformeapareceno documento,temde activaromapeamentoXMLnativo.
d. Determinequaisasinformações dosresultadosdaanálisede texto armazenadasnaestruturade análisecomumaquepretendeteracesso utilizandoaprocurasemântica.Crieoficheirode mapeamentodaestrutura deanálisecomumparaoíndice.
e. Determinesepretendearmazenarosresultadosdaanálisenumabasede dadosrelacional,porexemplo,paraidentificartendênciaseassociações utilizandoacomunicaçãoouaplicaçõesdeexploraçãodedados.Crieo ficheirodemapeamento daestruturadeanálisecomumparaa basede dados.
f. Estrutureaaplicaçãodaprocurasemântica.Determinea utilizaçãoqueo utilizadorfazdaprocurade funçõesadicionaisdaprocurasemântica.
Estrutureainterfacedo utilizador.
2. Desenvolver:Actividadesdo UIMASoftwareDevelopmentKit a. Definaospassosde análiseindividual.
b. Descrevaosistematipo dosmapeamentosealgoritmosde análise.
c. Desenvolvaosalgoritmos deanálise(anotadores)paracadapasso da análiseeincorporeosanotadoresnos motoresde análiseutilizandoo UIMA SoftwareDevelopmentKit.Criequalqueranálisepersonalizadautilizandoa funcionalidadebásica(identificação deidiomaesegmentação)nopacote de anotadoresbasedo EnterpriseSearch.
d. Apóstestarosalgoritmosde análiseem UIMA,torneomotorde análise numficheiroPEAR(ProcessingEngineArchive).Oarquivotemdeconter apenasosalgoritmos deanáliseenãoa funcionalidadebásicalinguísticado EnterpriseSearch.
Quandoconcebeumasoluçãodeanálisedetexto,podeincluir vários módulosde análisefornecidosemmais doqueumficheiroPEAR.AUIMA forneceummeiodeintercalardoisoumaisficheiros PEARnumúnico ficheiroPEARquepode carregareexecutarnoEnterpriseSearch.Aopção deintercalarficheirosPEARgarantequenão existemcolisõesde
nomenclatura,queascapacidadesdeentradaesaídasãointercaladas correctamentee quenão existesubstituiçãodeparâmetros seosparâmetros intercaladosnosdescritoresanotadorestiveremomesmonome.Consulte a documentaçãodeUIMAparaobter instruçõessobrecomointercalar ficheirosPEAR.
3. Implementar:ActividadesdoEnterpriseSearch
a. Carregueoficheirode arquivodomotor deprocessamento(.pear)no EnterpriseSearch. Forneçaumnomeparao componentede análisedetexto atravésdoquallhepossa fazerreferêncianoEnterpriseSearch.
b. Associeumaoumais colecçõesdedocumentos comocomponentede análisedetexto.
c. Seaplicável,paracadacolecção,carregueeseleccioneomapeamentode elementoXMLparaa estruturade análisecomumquedefiniuparaa análisepersonalizada.
d. Seaplicável,paracadacolecção,carregue eseleccioneomapeamentoda estruturade análisecomum paraabasede dadosquedefiniuparaa análise personalizada.
e. Paracadacolecção,carregue eseleccioneomapeamentodaestruturade análisecomumparaoíndicequedefiniuparaa procurasemântica.
f. Senecessário,configureaaplicaçãodeprocurasemânticapersonalizada,por exemplo,implementea interfacedoutilizador deprocurabaseadano navegadornumservidor daaplicação.
g. Pesquise,analiseeindexe osdocumentos nacolecçãodeprocurasemântica comofariaparaumacolecçãobaseadaem palavras-chave.
Tarefasrelacionadas
“Utilizarosanotadoresbase doEnterpriseSearchemUIMA”na página10 Podeutilizarosanotadoresnopacoteanotadorbasedo EnterpriseSearchpara desenvolverosnovosanotadoresnoâmbito doUIMASoftwareDevelopment Kit(SDK)eparamapearresultadosdaanáliseparatabelasJDBC.
Utilizar os anotadores base do Enterprise Search em UIMA
Podeutilizarosanotadoresnopacote anotadorbasedoEnterpriseSearchpara desenvolver osnovosanotadoresnoâmbitodo UIMASoftwareDevelopmentKit (SDK) eparamapearresultadosdaanáliseparatabelasJDBC.
Oconjuntodosanotadoresbaseinclui:
v AnotadordoIDdo idioma
Detectao idiomade umdocumento.Paraobterosparâmetros deconfiguraçãoe capacidades,consulte oficheirodescritorjlangid.xml.
v anotadordeprocurado dicionárioFROST
Forneceasegmentaçãoedetecçãode frases,combase nosdicionáriosdoIBM LanguageWare.Paratestemunhos,asinformaçõeslinguísticasadicionais,por exemplo,oformuláriobaseoulema,sãogeradas.Paraobterosparâmetrosde configuraçãoecapacidades,consulte oficheirodescritorjfrost.xml.
v Segmentadordeespaçosembranco
Podeexecutara segmentaçãobaseada emespaçosembranco emtodosos documentosdeidiomaseuropeusououtrosscripts separadoscomespaçosem branco.Paraalém disso,oanotadorconsegueefectuar asegmentaçãon-grama nosseguintesscripts detexto:árabe, han,hebraico, hiragana,katakana,laosiano, mongol,tailandês,YIehangul.Estalistainclui todososscripts detextoasiático principaisesignificaqueoanotadorsuportajaponês,chinêsecoreano.
Paraobterosparâmetros deconfiguraçãoecapacidades,consulteoficheiro descritorjtok.xml.
v Anotadordeexpressõesglobais
Detectaasentidades ouexpansõesdeinformaçõesnumdocumentode textocom baseemexpressõesglobais.Podepersonalizaroanotadorde expressõesglobais paradetectarasentidadesdetextodequenecessitadefinindoassuaspróprias regras.Umanotadordeexpressõesglobais deamostraquedetectanúmeros de telefone,URLseendereçosde correioelectróniconosdocumentos detextoestá incluídonopacote anotadorbase.
v Consumidordaestruturadeanálisecomumparaabasededados
Oconsumidordaestruturadeanálisecomum paraa basededados preenche umabase dedadosrelacional comresultadosdaanálisedetextoespecíficos.
Opacote anotadorbase doEnterpriseSearchéumficheirozipadoquecontém anotadores daanálisedetextobase comoanotadordeexpressõesglobaiseo consumidordaestruturade análisecomum paraabasede dados.Oanotadorde IDdoidioma, oanotadordeprocuraemdicionáriosFROSTeosegmentadorde espaços embrancosãoosanotadoresdaanálisede textobase queexecutam sempreantesdequalqueranálisede textopersonalizadaquandoosdocumentos sãoanalisadosnoEnterpriseSearch.
Uma vezqueosanotadoresdaanálisedetextobaseexecutamsempreantesde qualqueranálisedetextopersonalizadanoEnterpriseSearchejáquetodaa análisede textopersonalizada ébaseadanasaídadedados dosanotadoresbase, pode utilizarestesanotadoresnoambientedeUIMAquandodesenvolveetestaos anotadores personalizados.
Oanotadordeexpressões globaiseoconsumidordaestruturadeanálisecomum paraa basededados sãoopçõesadicionaisquepodeseleccionarnaconsolade administração doEnterpriseSearchquandoconfiguraasopções deprocessamento de texto.Podetambémutilizá-lasemUIMA. Paraapersonalizaçãoavançadado
anotadorde expressõesglobais,recomenda-sequeutilizeasferramentasdoUIMA SDK fornecidasparapersonalizar oanotador.
Paraexecutarqualquerdestesanotadoresem UIMA,temdeteroUIMASoftware DevelopmentKit(SDK) instalado.EstádisponívelnosítiodaWebIBM
developerWorksem http://www.ibm.com/developerworks/db2/zones/db2ii/.
Parainstalaropacotedo anotadornainstalaçãodoUIMASDK:
1. LocalizeopacoteanotadorOF_base_annotators.zipnainstalaçãodoEnterprise Search(OmniFindEnterpriseEdition)nodirectório ES_INSTALL_ROOT/
packages/uima.
2. Copieo ficheirozipadoparaodirectório raizdainstalaçãoUIMASDK.
3. Extraiaoficheirozipadoparaadicionarosficheiros anotadoresbasedo
EnterpriseSearchà estruturadedirectóriosespecificadadainstalaçãodo UIMA SDK.Oficheirott_core_typesystem.xmlserásobreposto.Sepretendermanter a versãoantigadesteficheiro,guarde-a antesdeextrair oficheirozipado.
4. Paradefinirocaminhodaclasse,abraoscriptsetUIMAClasspathnodirectório bine adicioneumalinhanofinaldoscriptqueinicieoscriptOFAnnotEnv.
5. SepretenderutilizarquaisquertiposespecíficosdoEnterpriseSearchou personalizadosem UIMA,consultea documentaçãodo UIMASDK paraobter informaçõessobrecomoosdefinir.
Após instalaropacote anotadorbase,pode encontrarosficheirosdescritoresdo anotadornodirectório UIMA_SDK_INSTALL/docs/examples/descriptors/
analysis_engine.Oficheiroof_tokenization.xml listaosanotadores daanálisede textobase(o anotadordeIDdo idioma,oanotadorde procuraem dicionários FROST eosegmentadorde espaçosembranco)nasequência pelaqualsão utilizadosnoâmbitodo EnterpriseSearch.
Os ficheirosdescritorescontêmosmesmosvaloresdeconfiguraçãoutilizadosno EnterpriseSearch.Podealterarosvaloresparafinsde depuraçãonoUIMASDK.
Noentanto,nãoaltereestesficheirosdescritoresnosistemado EnterpriseSearch.
Aoefectuaralteraçõesnestesficheirospoderácausarainstabilidadedo sistemaou problemasnodesempenho.
Opacoteanotadorbase doEnterpriseSearchcontémapenasosdicionáriosquesão requeridos paraprocessardocumentos eminglês.Sepretenderprocessaroutros idiomasnoambiente dedesenvolvimento,sigaestespassos:
1. LocalizeosdicionáriosdoEnterpriseSearchna respectivainstalaçãoem ES_INSTALL_ROOT/configurations/parserservice/jediidata/frost/resources.
2. Copieo conteúdodo directórioparaa instalaçãodo UIMASDK localem UIMA_SDK_INSTALL/data/frost/resources.
Paraverificar seopacote anotadorfoiinstaladocomêxito:
1. Abrao VisualDebugger(CVD)naEstruturadeAnáliseComum(CAS,
CommonAnalysisStructure)noseguintedirectório:UIMA_SDK_INSTALL/bin/
cvd[.bat/.sh].
2. FaçacliqueemExecutar(Run) →carregarTAE(loadTAE).
3. Seleccioneo ficheiroespecificadordomotor deanálisedetexto
of_tokenization.xmlnodirectório UIMA_SDK_INSTALL/docs/examples/
descriptors/analysis_engine.
4. Carregueum documentoamostraeexecuteomotor deanálisedetexto.Iráver asanotaçõesdotipo uima.tt.TokenAnnotationnoCVD.
Seexecutarqualquerdosanotadoresdeanálisedetextobase antesdosanotadores personalizados noambiente dedesenvolvimentoe osanotadorespersonalizados utilizaremtiposdefinidos pelaanálisede textobase,incluem umareferênciaparao ficheirott_core_typesystemnasecção dosistematipodo especificadordo
anotadorpersonalizado.Oficheirott_core_typesystemencontra-se nodirectório UIMA_SDK_INSTALL/docs/examples/descriptors/analysis_engine.Consulteo ficheirojtok.xmlnodirectório analysis_engineparaobterumaexemplodecomo incluir referênciasnos ficheirosdescritores.
Tarefasrelacionadas
“Visualizaroanotadorbase eosresultadosdaanálisede textopersonalizada”
napágina15
Paravisualizarosresultadosdaanáliseproduzidosapósaanálisee por quaisqueranotadoresnoEnterpriseSearch,temdeactualizaraspropriedades dacolecçãodedocumentos paraproduzirumaversãoXMLlegíveldos resultadosdaanálisequesãoarmazenadosnaestruturadeanálisecomum.
“Activaraprocurasemânticafácilutilizandooanotadordeexpressões globais”
napágina89
Paraactivaraprocurasemântica fácilutilizandosinónimos,tem deadicionaro anotadordeexpressõesglobais,oficheirode mapeamentodaestruturade análisecomumparaoíndicee odicionáriodesinónimos deamostraaosistema EnterpriseSearcheassociarestesrecursosàcolecção.
“Utilizaroconsumidordeestruturade análisecomumparabasededados em UIMA”
Antesdepoderutilizaroconsumidordeestruturadeanálisecomumparabase dedadosem UIMA,temde efectuaralteraçõesnoficheirodescritordo
consumidoreescreveroficheirode mapeamentodaestruturade análise comumparaabase dedados.
“Utilizaroanotadordeexpressõesglobais emUIMA”napágina15
Utilizeoanotadorde expressõesglobaisparadetectarentidadesou unidades deinformaçõesnumdocumentode texto.Podepersonalizaroanotadorparao domíniodoassuntoparacumprirassuasnecessidadesdeprocura.
Utilizar o consumidor de estrutura de análise comum para base de dados em UIMA
Antesdepoder utilizaroconsumidordeestruturade análisecomum parabasede dados emUIMA,tem deefectuaralteraçõesnoficheirodescritordoconsumidore escreveroficheirodemapeamento daestruturadeanálisecomumparaa basede dados.
Antesdepoder executaroconsumidordeestruturade análisecomumparabase de dadosnoambientedeUIMA, énecessárioefectuarosseguintesprocedimentos:
1. Abrao ficheirodescritorXMLcas2jdbc.xmlem UIMA_SDK_INSTALL/docs/
examples/descriptors/cas_consumer.Paraevitar errosdesintaxeXML,utilize umeditordeXMLouferramentadecriaçãodeXMLà suaescolha.
2. ModifiqueoparâmetromappingFileparaincluiro caminhoabsolutoondese localizao ficheirodemapeamentodaestruturadeanálisecomumparaabase dedados,por exemplo,D:\temp\MyMapping.xml
3. ModifiqueoparâmetrodocMetadata_Typeparaespecificarotipo deUIMAa partirdoqualosmetadadosparaasfuncionalidadesforamobtidos,por exemplo,uima.tcas.DocumentAnnotation.
4. ModifiqueoparâmetrodocId_Featureparaincluira funcionalidadeou caminhode funcionalidadenotipo demetadadosapartirdoqual oID numéricode umdocumento(dotipo númerointeiro)éobtido.Esteprocesso é
requeridoportodasasfuncionalidadesincorporadasquerequeremoID, tais comodocId(),uniqueId(),objectId()efsId().
5. NãodefinaoparâmetroencryptionClassumavezqueéutilizadoapenas no EnterpriseSearchparapermitirqueo consumidorde estruturadeanálise comumparabasede dadosfuncionecomficheirosdemapeamento codificado.
6. Guardeoficheiro.
7. Copieosficheirosde bibliotecaEMF(common.jar,ecore.jar eecore.xmi.jar) a partirdodirectóriolibdainstalaçãodoEnterpriseSearchparaodirectório lib dainstalaçãodeUIMA.Oficheirocc_cas2jdbc.jarjáseencontranodirectório libdainstalaçãodeUIMA.
8. Crieoficheirode mapeamentodaestruturade análisecomum paraa basede dadosquedefinequaisosresultadosdaanálisedetextoaarmazenarnuma basede dados.Podeutilizaroficheirodemapeamento sampleMapping.xmlem UIMA_SDK_INSTALL/docs/examples/descriptors/cas_consumercomouma amostra paracriar oseupróprioficheirodemapeamento.
Utilizeo ficheirodeesquemaXMLdenominado CasToJDBCMapping.xsdem UIMA_SDK_INSTALL/docs/examples/descriptors/cas_consumerparavalidar oficheirode mapeamentodaestruturadeanálisecomum paraa basede dados.Pormotivosdedesempenho,oconsumidorde estruturade análise comumparabasede dadosnãovalida oficheirodemapeamento,tem desero utilizadora fazê-lo.
OmodocomoexecutaroconsumidoremUIMAencontra-sedescritona documentaçãodeUIMA.
Aseguinteamostra mostracomoosparâmetros obrigatóriostemdeestardefinidos nodescritor:
...
<nameValuePair>
<name>mappingFile</name>
<value>
<string>D:/temp/MyMapping.xml</string>
</value>
</nameValuePair>
<nameValuePair>
<name>docMetadata_Type</name>
<value>
<string>uima.tcas.DocumentAnnotation</string>
</value>
</nameValuePair>
<nameValuePair>
<name>docId_Feature</name>
<value>
<string>end</string>
</value>
</nameValuePair>
...
Atabelamostraosparâmetros deconfiguraçãopelaordemdeapresentação no ficheirodescritoreindicaquaisosquesãoobrigatórios:
Tabela1.Parâmetrosdeconfiguraçãonoficheirodescritordoconsumidordeestruturade análisecomumparaabasededados
Parâmetro Descrição Obrigatório
mappingFile Ocaminhoabsolutoparao ficheirodemapeamentoda estruturadeanálisecomum paraabasededados,por exemplo,
D:/temp/sample.xml.Nos sistemasWindows,utilize
“/”comoseparadorde caminho.
verdadeiro
encryptionClass Nãodefinaesteparâmetro, sóéutilizadonoEnterprise Searchparapermitiro consumidordeestruturade análisecomumparaabase dedadosparatrabalharcom ficheirosdemapeamento codificados.
falso
docMetadata_Type OtipoUIMAapartirdo qualosmetadadospara funcionalidadesincorporadas sãoobtidos.
verdadeiro
docId_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosapartirdoqualo IDnuméricododocumentoé obtido.Temdeserdotipo númerointeiro(integer)eé necessárioparatodasas funcionalidadesincorporadas querequeremoID,tais comouniqeId(),objectId() efsId().
verdadeiro
docUri_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosdeondeprovém oURIdodocumento.Tem deserdotipocadeia.
falso
IsCompleted_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosquesinalizaseo documentoactualestá divididoemváriasestruturas deanálisecomum.
falso
chunkNumber_Feature Afuncionalidadeoucaminho dafuncionalidadenotipode metadadosqueassinalao númerosubsequenteda parteactual.
falso
Utilizar o anotador de expressões globais em UIMA
Utilize oanotadordeexpressõesglobaisparadetectar entidadesouunidadesde informações numdocumentodetexto.Podepersonalizaroanotadorparao domíniodo assuntoparacumprirassuas necessidadesdeprocura.
Paraexecutaroanotadorde expressõesglobaisdeamostra quedetecta osnúmeros de telefone,URLseendereçosde correioelectrónicoouutilizaroanotadorde amostra comobaseparacriara suaprópriaversãopersonalizadadoanotadorde expressõesglobais noambientedeUIMA,é necessário:
1. Odescritordo anotadordeexpressõesglobaisnodirectório
UIMA_SDK_INSTALL/docs/examples/descriptors/analysis_engine.
2. Oconjuntoderegrasdeamostra eadescriçãodosistematipo nodirectório UIMA_SDK_INSTALL/docs/examples/regex.
3. Umficheirodetextoexemploqueo conjuntode regrasdeamostrapode ser aplicado,nodirectório UIMA_SDK_INSTALL/docs/data denominado of_sample_regex.txt.
OmodocomoexecutaroanotadoremUIMAencontra-sedescritona documentaçãodeUIMA.
Visualizar o anotador base e os resultados da análise de texto personalizada
Paravisualizar osresultadosdaanáliseproduzidos apósaanáliseeporquaisquer anotadores noEnterpriseSearch,tem deactualizaraspropriedadesdacolecçãode documentos paraproduzirumaversãoXMLlegíveldosresultadosdaanáliseque sãoarmazenadosnaestruturadeanálisecomum.
Acercadestatarefa
Utilize aserializaçãoXMLdosresultadosdaanálisedoanotadorarmazenadosna estruturadeanálisecomumpara:
v Visualizeosresultadosapósa análise,antesdosanotadores baseserem processados.
v Visualizeosresultadosapósa análiseesegmentação(a executarosanotadores basedoEnterpriseSearch).Esteprocesso podeajudá-lo adeterminaras estruturasde dadosdeentradaparaqualqueranálisepersonalizadaque pretendadesenvolverequeexecutarásempreapósosanotadoresbase.
v Visualizeevalideosresultadosde umaanálisepersonalizadaexecutadanuma pequenacolecçãodedocumentos noEnterpriseSearchcoma finalidadede efectuartestesantesde decidirexecutara análisenumacolecçãocompleta.
AserializaçãoXMLproduz doisconjuntosderesultados:
v Osresultadosapósa análise.Estesincluem mapeamentosde campose metadadosdedocumentos.
v Osresultadosapósa análiseesegmentaçãoe,seestiverseleccionada,a análise detextopersonalizada.Estesincluem todosostestemunhoseanotações produzidos.
Procedimento
ParaproduzirumaversãoXMLlegíveldosresultadosdaanálise:
1. Abrao ficheirocollection.propertiesem ES_NODE_ROOT/master_config/
<CollectionID>.parserdriver antesdecomeçar aanalisarosdocumentosnasua colecção.
2. Paravisualizarosresultadosapósa análise,adicionea seguintelinhaao ficheirocollection.properties:
trevi.parser.dumpXCas=<o_directório_cópia_de_memória>
Énecessário quejáexistaodirectório dacópiadememória.
a. Seleccioneotipo desaídaquepretende.Asaídaincluisempreadescrição dosistematipoutilizadaparaanalisarosresultadosdenominada
OmniFindParserTypeSystem.xml.Adicioneumadasseguintes linhas:
v Paravisualizara saídadosúltimos25ficheiros processados,adicione trevi.parser.maxXCasFileCount=25.
Opróprioutilizadorpode determinaronúmerodeficheiros,mas recomenda-sequenão definaestevalor muitoelevado.
Lembre-sequeamemóriatampãodesaídadoficheiroéconstantemente substituídaapósseralcançado otamanhodamemóriatampão máximo.
Esteprocedimentotambémimplicaqueodocumentocomonúmeromais elevadonãonecessitade seroúltimoprocessado.
Asaídaincluiosseguintesficheiros:OmniFindParserXCasDump1.xml seguidodeOmniFindParserXCasDump2.xml,etc.,atéseremlistados25 ficheiros.
v Paravisualizara saídade documentosespecíficos,adicioneoURIdo documentotrevi.parser.xCasURI.1=ficheiro://home/test/
ficheiro1.txt.
Podeadicionarqualquernúmerode documentos,noentanto,os
documentos têmdeestarnumeradosporordemcrescente começandoem 1 semintervalosentreosnúmeros.Porexemplo,osegundodocumento seriatrevi.parser.xCasURI.2=ficheiro://home/test/ficheiro2.txteo terceirotrevi.parser.xCasURI.3=ficheiro://home/test/ficheiro3.txt Asaídaincluiosseguintesficheiros:
OmniFindParserXCasDumpURI_1.xml,
OmniFindParserXCasDumpURI_2.xmle assimsucessivamente paratodos osnomesdeficheiros queforamlistados
3. Paravisualizarosresultadosapósa segmentação,adicionea seguintelinha:
trevi.tokenizer.dumpXCas=<o_directório_cópia_de_memória>
Novamente, énecessárioquejáexistao directóriodacópiade memória.
a. Seleccioneotipo desaídaquepretende.Asaídacriadatambéminclui semprea descriçãodosistematipoutilizadaparaasegmentaçãoeparaos resultadosdaanálisedetexto,denominadaOmniFindTypeSystem.xml.
Adicioneumadasseguinteslinhas:
v Paravisualizara saídadosúltimos25ficheiros processados,adicione trevi.tokenizer.maxXCasFileCount=25.
Opróprioutilizadorpode determinaronúmerodeficheiros,mas recomenda-sequenão definaestevalor muitoelevado.
Lembre-sequeamemóriatampãodesaídadoficheiroéconstantemente substituídaapósseralcançado otamanhodamemóriatampão máximo.
Esteprocedimentotambémimplicaqueodocumentocomonúmeromais elevadonãonecessitade seroúltimoprocessado.
Asaídaincluiosseguintesficheiros:OmniFindXCasDump1.xml, OmniFindXCasDump2.xml,etc.,atéseremlistados25ficheiros.
v Paravisualizara saídade documentosespecíficos,adicioneoURIdo documentotrevi.tokenizer.xCasURI.1=ficheiro://home/test/
ficheiro1.txt.
Podeadicionarqualquernúmerode documentos,noentanto,os
documentostêm deestarnumeradosporordemcrescente começandoem 1semintervalosentreosnúmeros.Porexemplo,osegundodocumento seriatrevi.tokenizer.xCasURI.2=ficheiro://home/test/ficheiro2.txte oterceirotrevi.tokenizer.xCasURI.3=ficheiro://home/test/
ficheiro3.txt
Asaídaincluiosseguintes ficheiros:OmniFindXCasDumpURI_1.xml, OmniFindXCasDumpURI_2.xmleassimsucessivamente paratodosos nomesdeficheirosqueforamlistados
NoEnterpriseSearch,podeutilizaroVisualizadordeAnotaçãoXCAS(XCAS AnnotationViewer)paravisualizaroconteúdodosficheirosXML.Inicie o Visualizador deAnotaçãoXCASexecutando oficheirodescript
xcasAnnotationViewerlocalizadonodirectórioES_INSTALL_ROOT/bin.Surgeum pedidode informaçãoapedir:
v Odirectório dacópiadememóriaondeosresultadossãocolocadosapósa análiseousegmentação
v Oficheirodescritor, OmniFindParserTypeSystem.xml(pararesultadosdo analisador)ouOmniFindTypeSystem.xml(pararesultadosdasegmentaçãoe da análise),comonodirectório dacópiadamemória.
Aoseleccionarumdocumento dalista serãoapresentadososresultadosdaanálise paraodocumento.Aoclicarnumaanotaçãoevidenciadanodocumentosão apresentadososdetalhes daanotação.
Descrição do sistema tipo
Osistematipodefineostiposdeobjectos erespectivaspropriedades(ou
funcionalidades)quepodemserinstanciadasnumaestruturadeanálisecomum.
Cadamotorde análisetemassuasprópriasdescriçõesdosistematipoque descrevemosrequisitosdeentradaetiposde saídaparaosanotadoresnomotor de análise.Asdescriçõesdosistematiposãoespecíficas dodomíniodeaplicação.
Os sistemastipoincluemasdefiniçõesdostipos,respectivas propriedadese hierarquiaporherançasimplesdostipos. Umaestruturadeanálisecomumtemde estarem conformidadecomdeterminadosistematipo.
Os tiposefuncionalidadesquesãodefinidosna descriçãodo sistematipo têm também deserutilizadosemtodososficheiros demapeamento queestão associados àanálisedo documento,incluindo oficheirodemapeamento de elementos XMLparaa estruturadeanálisecomum,oficheirode mapeamentoda estruturadeanálisecomumparaoíndice eoficheirodemapeamento daestrutura de análisecomumparaabasede dados.
Adescriçãodosistematipo deumanotadorpodefazerparte dodescritordo anotadorou podeestarcontidonumficheirodescritorde sistematipo separado.
Por vezes,fazpartedo descritordeoutroanotadorcontidonomesmomotor de análise.
Quando tiverconcluído odesenvolvimentoetestesdomotor deanáliseno ambiente deUIMA,oficheirode arquivo(ficheiro.pear)queoutilizadorcrioue carregou paraoEnterpriseSearchcontémosficheiros lógicosdeanálisebemcomo a descriçãodosistematipo.
Os anotadoresbasedoEnterpriseSearchutilizamtrês descriçõesdosistematipo;
umadescriçãodosistematipode núcleoqueestásempreincluídaeduasoutras quepodeactivar opcionalmenteparaalteraroprocessamentodaanálisebase da colecção dedocumentosparaomododeanáliseavançada.Anecessidadede incluir umaouambasasdescriçõesdosistematipo expandidasdependedos resultadosdoprocessamentodaanálisedetextoadicionaisquepretenderincluir durante oprocessamentodaanálisebase.
Podeactivaromododeanáliseavançadaincluindo umouambosossistemastipo de extensão.Nomodode análiseavançada,asfuncionalidadesdeanálise
adicionaissãodisponibilizadas duranteoprocessamentodaanálisebaseesão guardadas naestruturadeanálisecomum.Porexemplo,serequerer mais
informações sobreumtestemunho (maisinformaçõessobreafuncionalidade), tais como todososlemaspossíveis paraotestemunhoouseolemaforumapalavrade paragemouparte dodiscursodolema,oufuncionalidadesespeciaisparao
processamentomorfológico, tambémparajaponês,necessitadeactivaromodode análiseavançada.
Tarefasrelacionadas
“Mudardomododeanálisebase parao modode análiseavançada”
Paraalteraroprocessamentodacolecçãodedocumentos queéexecutado pelos anotadoresbasedo EnterpriseSearchapartirdomododeanálisebaseparao mododeanáliseavançada,tem deincluirasdescriçõesdosistematipoparao mododeanáliseavançada.
Referênciasrelacionadas
“TiposefuncionalidadesdefinidosparaoEnterpriseSearch”napágina19 Osistematipo definidoparaoEnterpriseSearchabrangeoprocessamentode metadadosdodocumentoeanáliselinguísticabásica.
Mudar do modo de análise base para o modo de análise avançada
Paraalterar oprocessamentodacolecçãode documentosqueéexecutadopelos anotadores basedoEnterpriseSearcha partirdo modode análisebase parao mododeanáliseavançada,temdeincluir asdescriçõesdosistematipoparao mododeanáliseavançada.
Restrições
Existemduasdescriçõesdosistematipo quepode seleccionarparaactivar omodo de análiseavançada:
v Adescriçãott_extension_typesystem,queincluimais informaçõesde funcionalidadede tipolexicaldetalhadassobrelemas.
v Adescriçãodlt_extension_typesystem,queinclui funcionalidadesmorfológicas adicionaisetiposlexicaisespeciais.
Procedimento
Paramudaroprocessamentode colecçãobaseparaomododeanáliseavançada:
1. Abrao ficheirott_core_typesystem.xmlnodirectório ES_NODE_ROOT/
master_config/IDColecção.parserdriver/specifiers.Paraevitarerrosde sintaxe XML,utilizeumeditordeXMLouferramentadecriaçãodeXMLàsua escolha.
2. Remova oscontrolosdecomentárioquerodeiamoelemento<import>na secção <imports>paraincluirumouambos osficheiros dedescriçãodosistema tipo.
<imports>
<!-- importa tt_extension_typsystem para a análise avançada -->
<!-- <import location="tt_extension_typesystem.xml"/>-->
<!-- importa o sistema tipo com a extensão dlt -->
<!-- <import location="dlt_extension_typesystem.xml"/> -->
</imports>
3. Abraosdoisficheirosdescritoresjfrost.xmlejfrost_ngram.xmle modifiqueo conteúdodoelemento<outputs>paraincluir ostipos(numelemento<type>)e funcionalidades(numelemento<feature>)listadosnoelemento<description>
nasecção <capabilities>quepretendeincluirdurante aanálise.Guardeas alterações.
4. Abrao ficheirodescritorjtok.xmlemodifiqueoconteúdodoelemento
<outputs>paraincluir asfuncionalidades (numelemento<feature>)listadasno elemento<description>nasecção <capabilities>quepretendeincluirdurante a análise.Guardeasalterações.
5. Abrao ficheirodescritores_tok_no_stw.xmle,tambémnestecaso,modifiqueo conteúdodoelemento<outputs>paraincluir asfuncionalidades (num
elemento<feature>)listadas noelemento<description> nasecção
<capabilities>quepretendeincluir duranteaanálise.Guardeasalterações.
6. Quandomudarparaomododeanáliseavançada,temdeanalisarnovamentea colecçãode documentos.
Conceitosrelacionados
“Descriçãodosistematipo”napágina17
Osistematipo defineostiposdeobjectoserespectivas propriedades(ou funcionalidades)quepodemser instanciadasnuma estruturade análise comum.
Referênciasrelacionadas
“TiposefuncionalidadesdefinidosparaoEnterpriseSearch”
Osistematipo definidoparaoEnterpriseSearchabrangeoprocessamentode metadadosdodocumentoeanáliselinguísticabásica.
Tipos e funcionalidades definidos para o Enterprise Search
OsistematipodefinidoparaoEnterpriseSearchabrange oprocessamentode metadadosdo documentoeanáliselinguísticabásica.
Os tiposutilizadosnoEnterpriseSearchsãodefinidosemtrês ficheirosde descriçãodo sistematipo separados,começandopeloficheirodedescriçãodo sistematipo quecontémostiposnúcleosemprerequeridosparatodaaanálise linguísticabásicaecontinuacomasdescriçõesdosistematipoquedefinemas funcionalidadeslinguísticas avançadasquesão,normalmente,apenasrequeridas nomododeanáliseavançada.
Aanáliselinguísticabásicasoba formade reconhecimentoesegmentaçãodo idiomadodocumento éexecutadaquandoum documentoéindexado,
independentemente daanálisepersonalizadaestarounão seleccionada.Durantea análisede documentosbásica,a descriçãott_core_typesystemé utilizadaesão
adicionadas asseguintesinformaçõesàestruturadeanálisecomumquepode utilizarnaanálisepersonalizadasubsequente:
v Osmetadadosdodocumentodotipo com.ibm.es.tt.DocumentMetaData.
v Asinformaçõesdaestruturadodocumentotaiscomo anotaçõesdefrasee parágrafodo tipouima.tt.SentenceAnnotationeuima.tt.ParagraphAnnotation. v Asanotaçõeslexicaistaiscomotestemunhosecompostosdotipo
uima.tt.TokenAnnotation.
Adescriçãott_core_typesysteméadequadaparaa maiorpartedoprocessamento daanálisedetexto.
Sepretenderalteraro processamentodecolecçõesparaomododeanálise avançada,pode incluirosseguintes doissistemastipo.Ossistemastipo incluem, principalmente,asfuncionalidadesquenãosãocriadasdurante oprocessamento linguístico básico.
v tt_extension_typesystemqueinclui maisinformaçõesde funcionalidadessobre testemunho,lema,parágrafoefrase
v dlt_core_typesystemquecontémalgunsdostiposdeanotaçãoexpandidado IBMLanguageWare,porexemplo,URLseendereços.Tambéminclui
funcionalidadesmorfológicasquenão sãoutilizadasfrequentemente.
tt_core_typesystem
Os seguintestiposefuncionalidadessãodefinidosnadescriçãode tt_core_typesystem:
uima.tcas.DocumentAnnotation
Aanotaçãododocumento contémmetadadosdo documentoetema seguintefuncionalidade:
v categoriescomcategoriasdedocumentos adicionadasporumutilitário decategorizaçãodetexto.Cadacategoriaadicionadaédotipo
com.tt.CategoryConfidencePair
v languageCandidatescomosidiomasdedocumentodetectados
automaticamentedurante aanálise.Osidiomassãoadicionadosauma listadotipo com.tt.LanguageConfidencePair,como idiomamais provávellistadoemprimeirolugar
v idcom oIDde documento,talcomooURL uima.tt.TTAnnotation
Esteotipode raizparaanotaçõesdefinidasem tt_core_typesystem.O respectivosupertipoéuima.tcase.Annotation.Temosseguintestipos:
uima.tt.DocStructureAnnotation
Asanotaçõessobreaestruturadodocumento.Temosseguintes subtipos:
uima.tt.SentenceAnnotation Frases
uima.tt.ParagraphAnnotation Parágrafododocumento uima.tt.LexicalAnnotation
Asanotaçõeslexicais taiscomotestemunhose expressõesdevárias palavras.Tem osseguintessubtipos:
uima.tt.TokenLikeAnnotation
Asanotaçõesdetestemunho únicoquepodemteras seguintesfuncionalidades:
v tokenPropertiescom aspropriedadesdotestemunho v lemma comolemaouraizdo termo
v normalizedCoveredTextcoma representaçãonormalizada do textoabrangido
Estetipodeanotaçãotem osseguintessubtipos:
uima.tt.TokenAnnotation
Ostestemunhosreaisaseremdistinguidosdos componentescomuns.
uima.tt.CompPartAnnotation
Oscomponentescompostosdeum termo.
uima.tt.CompoundAnnotation
Aanotaçãodeumtestemunho composto.
Normalmente,o testemunhocompostoexpande maisdo queumaanotaçãodotestemunho.
uima.tt.MultiTokenAnnotation
Aanotaçãolexicalconsistindoemmais doqueum testemunho.Estetipodeanotaçãotem osseguintes subtipos:
uima.tt.StopwordAnnotation
Asanotaçõesdaspalavrasde paragem.Aspalavras deparagempodemtambém seraspalavrasde váriostermos.
uima.tt.SynonymAnnotation
Aanotaçãodeumtermo parao qualexistem sinónimos.Tema funcionalidadesynonymsquelista ossinónimos encontradosparaotermo.
uima.tt.SpellCorrectionAnnotation
Aanotaçãodeumtermo parao qualexistem correcçõesde ortografia.Tema funcionalidade correctionTermsquelistaascorrecçõesprováveis numaordem começandopelascorrecçõesmais prováveis.
uima.tt.MultiWordAnnotation
Aanotaçãodeumtermo deváriaspalavras.
uima.CAS.TOP
Araizdo sistematipo. Temosseguintessubtipos:
uima.tt.KeyStringEntry
Otipoabstractode estruturasdedadosdaCadeia(String).Incluia funcionalidadekeyquecontémachave decadeiaeoseguinte subtipo:
uima.tt.Lemma
Entradasdelemasdodicionário.
uima.tt.CategoryConfidencePair
Ovalorde fiabilidadeparaacategoriaencontrada.Tem as seguintesfuncionalidades:
v categoryStringcomonome dacategoria
v categoryConfidencecomovalor defiabilidadeparaacategoria v mostSpecificcomosinalizadora indicarseestacategoriaéa
mais específicaparaodocumento
v taxonomycomonome dataxonomiade ondederivaa categoria uima.tt.LanguageConfidencePair
Ovalorde fiabilidadeparaacategoriaencontrada.Estetipoinclui asfuncionalidadeslanguageConfidence,languagee languageID.
tt_extension_typesystem
Afuncionalidadett_extension_typesysteminclui asfuncionalidadesde análisede textoparaumprocessamentomais avançado.
uima.tt.TokenLikeAnnotation
Estetipode anotaçãoemtt_extension_typesystemtemasseguintes funcionalidades:
v lemmaEntrieslista todososlemaspossíveis paraotestemunho.Ositens dalista sãodotipouima.tt.Lemma
v tokenNumber v stopwordToken uima.tt.Lemma
Estaanotaçãodotipo uima.tt.KeyStringEntrytem asseguintes funcionalidades:
v isStopwordé verdadeiro(true)seolema forumapalavrade paragem v isDetermineréverdadeiro (true)seolema forumdeterminante v partOfSpeech.Existemosseguintes códigosdedescriçãodonúmerode
partedodiscurso:
– 0:desconhecido – 1:pronome – 2:verbo – 3:substantivo – 4:adjectivo – 5:advérbio – 6:aposição – 7:interjeição – 8:conjunção uima.tt.DocStructureAnnotation
Asanotaçõessobreaestruturadodocumento.Temosseguintessubtipos:
uima.tt.SentenceAnnotation
Frasedo documento.TemafuncionalidadesentenceNumber.
uima.tt.ParagraphAnnotation
Parágrafododocumento.Tema funcionalidadeparagraphNumber.
dlt_extension_typesystem
Afuncionalidadedlt_extension_typesystemincluiasfuncionalidadesadicionais utilizadasporIBM LanguageWare.
uima.tt.LexicalAnnotation
Estaanotaçãotemosseguintessubtipos:
uima.tt.TokenLikeAnnotation
Em dlt_extension_typesystem,estaanotaçãotemasseguintes funcionalidades:
v synonymEntries v frost_TokenType v inflectedForms v spellAid v decomposition
com.ibm.dlt.uimatypes.FilePath com.ibm.dlt.uimatypes.Email com.ibm.dlt.uimatypes.Number com.ibm.dlt.uimatypes.URL com.ibm.dlt.uimatypes.Date com.ibm.dlt.uimatypes.Time com.ibm.dlt.uimatypes.Tel com.ibm.dlt.uimatypes.Currency com.ibm.dlt.uimatypes.Acronym uima.tt.TokenLikeAnnotation
Estetipode anotaçãoemdlt_extension_typesystemtem oseguintetipo:
com.ibm.dlt.uimatypes.MWU
EstetipoéutilizadopeloIBMLanguageWareparaanotaras expressõesde váriaspalavras.
uima.tt.KeyStringEntry
Asanotaçõesde cadeia.Temosseguintes subtipos:
uima.tt.Lemma
Temasseguintesfuncionalidades:
v frost_Constraints comossinalizadoresderestrição
v frost_MorphBitMasks contendoumamatrizdemáscaradebits morfológica
v frost_ExtendedPOS commaisinformaçõesdeparte dodiscurso, talcomo,JPOSparajaponês eCPOSparachinês
v frost_JKomcontendodadosmorfológicosemjaponês
v frost_JPStart contendodadosde análisedeiníciodo japonês v morphID contendopropriedadesdolema
uima.tcas.Annotation
Temo seguintesubtipo:
com.ibm.dlt.uimatypes.Decomp_Analysis
Análiseestruturalcompletadeumcomposto. Temasseguintes funcionalidades:
v headComponentIndexcomocomponenteprincipaldocomposto v route contendoumalistade testemunhosqueabrangeumúnico
encaminhamentodedecomposição
Referênciasrelacionadas
“Amostradadescriçãodo sistematipo”na página27
Adescriçãodosistematipodescreveasestruturasfuncionais(asestruturasde dadossubjacentesquerepresentam osresultadosdaanálise)utilizadasna análisepersonalizada.
Tipos e funções específicos para o Enterprise Search
Os tiposefunçõesdefinidos nadescriçãoof_typesystemabrangemtipos específicos parao OmniFindEnterpriseEdition.Estestipossãoutilizadospara metadadosespecíficos dosdocumentos.Também descrevemarepresentaçãode camposede informaçõesdemarcaçãoXMLouâncorasHTML.
Adescriçãoof_typesystemnão édefinidanoKitdeDesenvolvimentode Software (SDK,SoftwareDevelopmentKit)UIMA.Sepretenderutilizarqualquerdestes tiposquandoescreverumanotadoremUIMA,tem dedefinirostiposnovamente na descriçãodo sistemadetipodo motordeanálise.Porexemplo,poderá
pretenderacederainformaçõesde segurançadodocumentoouaotipode ferramentade sequênciasde hiperligaçõesoudedocumento.
Os seguintestiposefunçõessãodefinidosnadescriçãoof_typesystem:
uima.tcas.DocumentAnnotation
Aanotaçãodedocumentos UIMApadrãoéexpandidaatravésdaseguinte função:
esDocumentMetaData
Contémosmetadadosdo documentodotipo com.ibm.es.tt.DocumentMetaData.
com.ibm.es.tt.DocumentMetaData
Otipode metadadosdodocumentoinclui asfunçõesqueseseguem.As funcionalidadesestãoligadas àfuncionalidadedeanotaçãodo documento esDocumentMetaData.
crawlerId
Onomedaferramentadesequênciasdehiperligações.Ovalor da funcionalidadeédotipo uima.cas.String.
dataSource
Umdosseguintestiposdeorigemdedados:Ovalor da funcionalidadeédotipo uima.cas.String.
v CM,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo DB2ContentManager
v Base dedados,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo BasededadosJDBC
v DB2,paradocumentos pesquisadospelaferramentade sequênciasdehiperligaçõesdo DB2
v DominoDoc, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo DominoDocumentManager v Exchange,paradocumentospesquisadospelaferramentade
sequênciasdehiperligaçõesdo ExchangeServer
v NNTP,paradocumentos pesquisadospelaferramentade sequênciasdehiperligaçõesdo NNTP
v Notes,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo Notes
v QuickPlace,paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo QuickPlace
v Lista dovalorgerador,paradocumentospesquisadospela ferramentade sequênciasdehiperligaçõesdo Listadevalores geradores
v UnixFS, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo SistemadeficheirosUNIX v VBR,paradocumentospesquisadospelaferramentade
sequênciasdehiperligaçõesdo ContentEdition
v WCM, paradocumentospesquisadospelaferramentade sequênciasdehiperligaçõesdo WebContentManagement v Web,paradocumentospesquisadospelaferramentade
sequênciasdehiperligaçõesdaWeb
v WinFS,paradocumentos pesquisadospelaferramentade
sequênciasdehiperligaçõesdo Sistemadeficheirosdo Windows v WP,paradocumentospesquisadospelaferramentade
sequênciasdehiperligaçõesdo WebSpherePortal dataSourceName
Onomedaferramentadesequênciasdehiperligações(origemde dados).Ovalordafuncionalidadeédotipouima.cas.String. docType
Umdosseguintestiposdedocumentos:Ovalordafuncionalidade édo tipouima.cas.String.
v text/html
v application/postscript v application/pdf
v application/x-mspowerpoint v application/msword
v application/x-msexcel v application/rtf
v application/vnd.lotus-wordpro v application/x-lotus-123
v application/vnd.lotus-freelance v text/xml
v text/plain
v application/x-js-taro (Ichitaro) securityTokens
Ostestemunhosdesegurançado documento.Ovalor da funcionalidadeédotipo uima.cas.StringArray.
date Adatadodocumento.Ovalordafuncionalidadeédotipo uima.cas.String.
baseUri
OURIbasedapágina. Ovalor dafuncionalidadeédotipo uima.cas.String.
metaDataFields
Ovalordafuncionalidadeédotipouima.cas.FSArray.Cada elementonestamatrizédotipo com.ibm.es.tt.MetaDataField.