• Nenhum resultado encontrado

Analisador Morfossint´ atico

No documento Universidade de Évora (páginas 49-52)

4.2 Analisador Morfossint´atico

Este componente foi tido como necess´ario para o desenvolvimento do sistema por se com-preender serem relevantes as propriedades resultantes do seu processamento. Os conceitos inerentes ao seu funcionamento j´a foram enunciados no ponto2.1.5. Descreve-se aqui o seu prop´osito no prot´otipo desenvolvido e a forma como opera com as restantes componentes.

4.2.1 Finalidade

A informa¸c˜ao recolhida por este m´odulo ´e utilizada pelos restantes componentes de v´arias formas. Enumeram-se as principais de que o sistema beneficiou.

• Os substantivos s˜ao a classe gramatical associada aos nomes. Estes podem ser co-muns ou pr´oprios, fornecendo uma boa indica¸c˜ao de onde se encontra o sujeito de uma frase. Estes factos s˜ao tidos em conta pelo m´odulo de REM para detetar o objeto de opini˜ao.

• A existˆencia de adjetivos no texto ´e uma forte indica¸c˜ao da existˆencia de subjeti-vidade. ´E feito uso desta caracter´ıstica em conjunto com a conjuga¸c˜ao dos verbos para categorizar o tipo de opini˜ao presente.

• A sintaxe de uma frase indica-nos como est˜ao dispostas as suas v´arias componentes, permitindo assim estabelecer algumas regras relativamente `a abrangˆencia. A ora¸c˜ao foi uma das componentes sint´aticas exploradas para isolar a influˆencia de elementos com polaridade, evitando assim a propaga¸c˜ao incorreta de um sentimento.

• Os adv´erbios, tˆem a capacidade de alterar ou inverter o sentimento atrav´es da sua influˆencia sobre o verbo. Esta propriedade ´e tida em conta no m´odulo de AS.

De acordo com fluxo do sistema ilustrado na figura 4.1, o resultado do processamento deste m´odulo alimenta o m´odulo de REM. Como tal, o formato de sa´ıda corresponde ao formato de entrada do m´odulo seguinte.

4.2.2 Evolu¸c˜ao

A componente de AM passou por duas vers˜oes distintas durante o desenvolvimento do sistema. Para al´em de altera¸c˜oes no formato das mensagens a passar ao m´odulo seguinte, a utiliza¸c˜ao de ferramentas foi tamb´em uma variante. Neste ponto descreve-se a sua evolu¸c˜ao.

28 CAP´ITULO 4. SOLUC¸ ˜AO PROPOSTA AM v1.0

A primeira vers˜ao desta componente utilizou como ferramenta base o LX-Tagger, j´a des-crito no ponto 2.2.1. Esta ferramenta, na forma em que ´e disponibilizada, apenas realiza uma an´alise morfol´ogica do texto. Esta vers˜ao do componente restringe-se assim apenas a este tipo de an´alise.

1 O Socrates tem estado horr´ıvel, mas o Lou¸c~a est´a em grande! Listagem 3: Frase de exemplo.

1 <F ID="1"> 2 <VALUE>

3 O Socrates tem estado horr´ıvel, mas o Lou¸c~a 4 est´a em grande! 5 </VALUE> 6 <TOKENS> 7 <TOKEN TYPE="DA">O</TOKEN> 8 <TOKEN TYPE="PNM">Socrates</TOKEN> 9 <TOKEN TYPE="VAUX">tem</TOKEN> 10 <TOKEN TYPE="PPT">estado</TOKEN> 11 <TOKEN TYPE="ADJ">horr´ıvel</TOKEN> 12 <TOKEN TYPE="PNT">,</TOKEN>

13 <TOKEN TYPE="CJ">mas</TOKEN> 14 <TOKEN TYPE="DA">o</TOKEN> 15 <TOKEN TYPE="PNM">Lou¸c~a</TOKEN> 16 <TOKEN TYPE="V">est´a</TOKEN> 17 <TOKEN TYPE="PREP">em</TOKEN> 18 <TOKEN TYPE="ADJ">grande</TOKEN> 19 <TOKEN TYPE="PNT">!</TOKEN> 20 </TOKENS>

21 </F>

Listagem 4: Resultado do processamento realizado pelo m´odulo de AM v1.0. A listagem 3 representa um exemplo de uma frase a processar. O resultado do proces-samento desta pela vers˜ao 1.0 do m´odulo encontra-se na listagem 4. Para facilitar a compreens˜ao torna-se necess´aria uma breve descri¸c˜ao da estrutura resultante.

TOKENS Lista de elementos que comp˜oe a frase.

TOKEN TYPE="xx" O elemento TOKEN cont´em um termo da frase. Este pode conter uma palavra ou um sinal de pontua¸c˜ao. O atributo TYPE neste elemento indica qual a classe morfol´ogica da palavra de acordo com o analisador sint´atico utilizado. F ID="xx" As frases s˜ao delimitadas pelas etiquetas <F> e </F>. O ID da frase identifica

4.2. ANALISADOR MORFOSSINT ´ATICO 29 VALUE Este elemento cont´em o texto original da frase.

AM v2.0

A segunda vers˜ao do m´odulo fez uso de uma ferramenta um pouco mais complexa, o PALAVRAS, descrito no ponto 2.2.2. Utilizando as capacidades desta ferramenta foi poss´ıvel realizar a an´alise morfol´ogica e sint´atica dos textos.

1 <F ID="1"> 2 <VALUE>

3 O Socrates tem estado horr´ıvel, mas o Lou¸c~a 4 est´a em grande! 5 </VALUE> 6 <CLAUSES> 7 <CLAUSE TYPE="FCL"> 8 <GROUP_FORM TYPE="NP"> 9 <TOKEN TYPE="ART">O</TOKEN> 10 <TOKEN TYPE="PROP">Socrates</TOKEN> 11 </GROUP_FORM>

12 <TOKEN TYPE="V-FIN" INFINITIVE="achar" 13 CONJUGATION="0/1/3S">tem</TOKEN> 14 <TOKEN TYPE="V-PCP">estado</TOKEN> 15 <TOKEN TYPE="ADJ">horr´ıvel</TOKEN> 16 </CLAUSE>

17 <CLAUSE TYPE="FCL"> 18 <GROUP_FORM TYPE="NP">

19 <TOKEN TYPE="ART">o</TOKEN> 20 <TOKEN TYPE="PROP">Lou¸c~a</TOKEN> 21 </GROUP_FORM>

22 <TOKEN TYPE="V-FIN" INFINITIVE="estar" 23 CONJUGATION="PR 3S IND">est´a</TOKEN> 24 <TOKEN TYPE="PRP">em</TOKEN>

25 <TOKEN TYPE="ADJ">grande</TOKEN> 26 </CLAUSE>

27 </CLAUSES> 28 </F>

Listagem 5: Resultado do processamento realizado pelo m´odulo de AM v2.0. A listagem 5 mostra o resultado do processamento da frase contida na listagem 3 por esta vers˜ao do m´odulo. Para facilitar a compreens˜ao s˜ao descritos os novos elementos relativamente `a vers˜ao anterior.

CLAUSES O elemento CLAUSES cont´em uma lista das ora¸c˜oes encontradas na frase. CLAUSE TYPE="FCL" O elemento CLAUSE corresponde a uma ora¸c˜ao da frase, composta por

30 CAP´ITULO 4. SOLUC¸ ˜AO PROPOSTA sintagmas e/ou tokens. O atributo TYPE identifica o tipo da cl´ausula, que apenas pode tomar o valor de FCL que corresponde `a ora¸c˜ao finita. Existem outros tipos de ora¸c˜ao que n˜ao foram tidos em conta na implementa¸c˜ao do prot´otipo.

GROUP FORM TYPE="NP" A etiqueta GROUP FORM representa um sintagma. O atributo TYPE apenas pode tomar o valor de NP. Existem outros sintagmas que n˜ao foram tidos em conta na implementa¸c˜ao, foi no entanto deixada em aberto a possibilidade da sua inclus˜ao no futuro.

No documento Universidade de Évora (páginas 49-52)

Documentos relacionados