• Nenhum resultado encontrado

Resultado Final da Identifica¸c˜ao de Conceitos

A defini¸c˜ao de pontos de corte conclui o processo de extra¸c˜ao autom´atica de conceitos de um

corpus de dom´ınio. Dessa forma, ´e poss´ıvel descrever o processo completo de extra¸c˜ao de

conceitos atrav´es das seguintes etapas:

• Os termos s˜ao extra´ıdos e tratados pelas heur´ısticas descritas no Cap´ıtulo 3;

• Os termos extra´ıdos s˜ao ordenados segundo o processo de compara¸c˜ao com corpora con- trastantes e c´alculo do ´ındice tf-dcf descrito no Cap´ıtulo 4;

• As listas de termos extra´ıdos e ordenados s˜ao submetidas a um ponto de corte duplo (por limiar e relativo) conforme descrito nesse cap´ıtulo.

Feitas essas trˆes etapas, os termos que n˜ao forem descartados s˜ao considerados conceitos do dom´ınio. De um ponto de vista pr´atico, para cada um dos cinco corpora utilizados nessa tese s˜ao extra´ıdos os conceitos descritos no anexo B. De um ponto de vista num´erico, a Figura 5.4 representa graficamente o n´umero de termos extra´ıdos e o n´umero de conceitos identificados. Nessa figura, identifica-se com a sigla do corpus a barra corresponde ao n´umero de termos extra´ıdos e com um asterisco os conceitos identificados. Note-se que nessa figura representa- se os n´umeros de termos e conceitos sem repeti¸c˜ao, ou seja, ao contr´ario do representado na Figura 3.7, n˜ao s˜ao representadas as diversas ocorrˆencias de um mesmo termo (ou conceito) extra´ıdo do corpus.

5.3. RESULTADO FINAL DA IDENTIFICAC¸ ˜AO DE CONCEITOS 83 0 20K 40K 60K 80K 100K 120K 140K 160K 180K 200K

PED PED˚ ME ME˚ MD MD˚ PP PP˚ GEO GEO˚

unigramas bigramas trigramas 4-gramas 5-gramas 6-gramas 7-gramas 8-gramas 9-gramas N-gramas

Figura 5.4: Comparativo do n´umero de termos extra´ıdos considerando a aplica¸c˜ao das heur´ısticas e identifica¸c˜ao de conceitos.

6. APLICAC¸ ˜OES DOS TERMOS E

CONCEITOS EXTRA´IDOS

Uma vez extra´ıdos os conceitos, v´arias recursos lingu´ısticos podem ser disponibilizados. Nesse cap´ıtulo exemplificam-se algumas dessas poss´ıveis aplica¸c˜oes que foram implementadas na ferra- menta EχATOLP. Essa ferramenta de software realiza todo o processo de extra¸c˜ao e ordena¸c˜ao

de termos, bem como a identifica¸c˜ao de conceitos proposta nessa tese. Os recursos lingu´ısticos disponibilizados, ou seja, as informa¸c˜oes detalhadas de termos extra´ıdos (Tabela 3.10) e as listas de conceitos (anexo B), possibilitam a gera¸c˜ao de recursos mais sofisticados pela manipula¸c˜ao dessas informa¸c˜oes.

Nesse sentido, esse cap´ıtulo apresenta as seguintes aplica¸c˜oes: • Gera¸c˜ao de listas de termos e conceitos (Se¸c˜ao 6.1);

• Concordanciador de termos extra´ıdos (Se¸c˜ao 6.2); • Gera¸c˜ao de nuvens de conceitos (Se¸c˜ao 6.3); • Gera¸c˜ao de hierarquia de conceitos (Se¸c˜ao 6.4).

Cabe salientar que, essas aplica¸c˜oes representam algumas utiliza¸c˜oes dos recursos lingu´ısticos produzidos pelo processo de extra¸c˜ao de conceitos proposto nessa tese, mas muitas outras aplica¸c˜oes podem ser implementadas. No entanto, as aplica¸c˜oes descritas nesse cap´ıtulo repre- sentam um conjunto de funcionalidades pr´aticas disponibilizadas com a ferramenta EχATOLP,

e que j´a vem sendo utilizadas por diversos grupos de pesquisa [53, 164, 67, 52].

6.1

Listas de Termos e Conceitos

A disponibiliza¸c˜ao de listas de termos e listas de conceitos dos corpora ´e a principal aplica¸c˜ao do processo desenvolvido nessa tese. Dados alguns corpora de dom´ınio, ´e poss´ıvel disponibilizar listas, n˜ao somente de conceitos, mas de quaisquer termos extra´ıdos. Enquanto os conceitos tem um uso mais espec´ıfico, como por exemplo, constru¸c˜ao de hierarquias de conceitos, onto- logias, gloss´arios, etc. As listas de termos podem ser ´uteis para aplica¸c˜oes mais ligadas a uma an´alise humana detalhada, como por exemplo, an´alise e gera¸c˜ao de vocabul´arios, dicion´arios de tradu¸c˜ao, etc.

Adicionalmente, tamb´em ´e poss´ıvel enriquecer a lista de termos gerada com outras in- forma¸c˜oes. Essas informa¸c˜oes adicionais, por sua vez, podem ser manipuladas por consultas que permitam ao usu´ario da ferramenta EχATOLP inferir conhecimentos sobre o uso dos termos

e conceitos no corpus que est´a sendo analisado.

A Figura 6.1 mostra um exemplo de consulta aos bigramas do corpus de Geologia que possuem como n´ucleo a palavra “lago”. Nesse exemplo, inclui-se os termos como foram en- contrados no corpus (term), sua forma canˆonica (lemma), seu n´ucleo (head ), sua etiqueta semˆantica (sem tag) e seus ´ındices tf e tf-dcf.

Al´em dessas informa¸c˜oes, ´e poss´ıvel gerar listas de termos e conceitos com outras in- forma¸c˜oes, como, por exemplo:

Figura 6.1: Exemplo de lista bigramas do corpus de Geologia com n´ucleo “lago”.

• Varia¸c˜oes morfol´ogicas em que o termo foi encontrado no corpus;

• N´umero de vezes em que o termo foi empregado como sujeito, objeto ou complemento; • Verbos aos quais o termo foi relacionado;

• Valor num´erico dos ´ındices tf-idf, tds, thd e TF-IDF relativos ao termo; • Informa¸c˜oes referente ao n´ucleo do termo.

As varia¸c˜oes morfol´ogicas nas quais o conceito foi encontrado permitem observar carac- ter´ısticas de como o termo ´e empregado. Esse tipo de informa¸c˜ao ´e ´util a pesquisadores que podem, atrav´es desse recurso lingu´ıstico, observar padr˜oes de uso de diversos termos. Por exemplo, no corpus de Pediatria, os termos “crian¸ca” e “bebˆe” tˆem padr˜oes bem distintos de varia¸c˜oes morfol´ogicas. O termo “crian¸ca” ´e empregado 984 vezes no singular e 1.076 no plural. O termo “bebˆe” ´e empregado 138 vezes no singular e 64 vezes no plural.

O n´umero de ocorrˆencias em que o termo foi empregado como sujeito, objeto ou comple- mento, tamb´em pode auxiliar na detec¸c˜ao de padr˜oes de uso em ´areas distintas. Por exemplo, o termo “ordem” aparece em todos os corpora, por´em ele ´e encontrado como sujeito 19% das vezes no corpus de Processamento paralelo (13 de 68 ocorrˆencias), enquanto que no corpus de Geologia ele ´e encontrado como sujeito somente 8% das vezes (5 de 61 ocorrˆencias).

Os verbos aos quais o termo foi relacionado podem indicar mais um aspecto das carac- ter´ısticas de uso do termo. Por exemplo, no corpus de Pediatria, os ´unicos unigramas que est˜ao relacionados com o verbo “desconhecer” s˜ao os termos “m˜ae”, “sorologia” e “universo”. Sendo que desses, apenas o termo, “m˜ae”, foi utilizado como sujeito do verbo desconhecer.

O valor num´erico dos ´ındices relativos a cada termo extra´ıdo tamb´em permite analisar as caracter´ısticas do termo. Esse tipo de informa¸c˜ao permite que sejam feitas an´alises, ordena¸c˜oes e at´e aplica¸c˜oes de pontos de corte experimentais segundo outros crit´erios, al´em dos adotados nessa tese (Cap´ıtulo 5).

Finalmente, as informa¸c˜oes relativas ao n´ucleo do termo possibilitam observar outros aspec- tos da utiliza¸c˜ao dos termos. Um exemplo do uso desse tipo de informa¸c˜ao ´e a identifica¸c˜ao das etiquetas sint´aticas (pos-tag) dos n´ucleos, que permite, por exemplo, identificar quais termos possuem como n´ucleo substantivos comuns. Informa¸c˜oes como essas podem permitir an´alises lingu´ısticas avan¸cadas, e at´e a redefini¸c˜ao de m´etodos de extra¸c˜ao de termos e identifica¸c˜ao de conceitos.