• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRÓ-REITORIA DE GRADUAÇÃO CAMPUS CARAÚBAS BACHARELADO EM CIÊNCIA E TECNOLOGIA IARA CRISTINA ARAÚJO NOGUEIRA

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRÓ-REITORIA DE GRADUAÇÃO CAMPUS CARAÚBAS BACHARELADO EM CIÊNCIA E TECNOLOGIA IARA CRISTINA ARAÚJO NOGUEIRA"

Copied!
40
0
0

Texto

(1)

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRÓ-REITORIA DE GRADUAÇÃO

CAMPUS CARAÚBAS

BACHARELADO EM CIÊNCIA E TECNOLOGIA

IARA CRISTINA ARAÚJO NOGUEIRA

ANÁLISE DO PROGRAMA BAG OF TOOLS NA SUA FUNCIONALIDADE SOBRE CONCEITOS MATEMÁTICOS, LINGUÍSTICOS E COMPUTACIONAIS

CARAÚBAS - RN

2019

(2)

© Todos os direitos estão reservados a Universidade Federal Rural do Semi-Árido. O conteúdo desta obra é de inteira

responsabilidade do (a) autor (a), sendo o mesmo, passível de sanções administrativas ou penais, caso sejam infringidas as leis que regulamentam a Propriedade Intelectual, respectivamente, Patentes: Lei n° 9.279/1996 e Direitos Autorais: Lei n°

9.610/1998. O conteúdo desta obra tomar-se-á de domínio público após a data de defesa e homologação da sua respectiva ata. A mesma poderá servir de base literária para novas pesquisas, desde que a obra e seu (a) respectivo (a) autor (a) sejam devidamente citados e mencionados os seus créditos bibliográficos.

O serviço de Geração Automática de Ficha Catalográfica para Trabalhos de Conclusão de Curso (TCC´s) foi desenvolvido pelo Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (USP) e gentilmente cedido para o Sistema de Bibliotecas da Universidade Federal Rural do Semi-Árido (SISBI-UFERSA), sendo customizado pela Superintendência de Tecnologia da Informação e Comunicação (SUTIC) sob orientação dos bibliotecários da instituição para ser adaptado às necessidades dos alunos dos Cursos de Graduação e Programas de Pós-Graduação da Universidade.

N774a Nogueira, Iara Cristina Araújo .

Análise do programa Bag of tools em sua

funcionalidade através de conceitos linguísticos, matemáticos e computacionais / Iara Cristina Araújo Nogueira. - 2019.

40 f. : il.

Orientador: Cid Ivan da Costa Carvalho.

Monografia (graduação) - Universidade Federal Rural do Semi-árido, Curso de , 2019.

1. Bag of tools. 2. transcrição. 3. conceitos.

I. da Costa Carvalho, Cid Ivan, orient. II.

Título.

(3)
(4)

IARA CRISTINA ARAÚJO NOGUEIRA

ANÁLISE DO PROGRAMA BAG OF TOOLS NA SUA FUNCIONALIDADE SOBRE CONCEITOS MATEMÁTICOS, LINGUÍSTICOS E COMPUTACIONAIS

Trabalho de Conclusão de Curso apresentado ao curso de Ciência e Tecnologia da Universidade Federal Rural do Semi-Árido (UFERSA), Campus Caraúbas, como parte dos requisitos para obtenção do Título de Bacharel em Ciência e Tecnologia.

Orientador: Prof. Dr. Cid Ivan da Costa Carvalho – UFERSA.

CARAÚBAS - RN

2019

(5)

AGRADECIMENTOS

Agradeço primeiramente a Deus por ter me guiado nessa longa caminhada até aqui e por ter me ajudado em cada fase difícil. Agradeço aos amores da minha vida, minha família, em especial minha mãe, Vanusa Cristiane de Araújo Amador, por cada momento, cada palavra de conforto que me foi passada, cada abraço dado em momentos difíceis e por não desistir do meu sonho, mesmo com tantas turbulências nesses três anos, com desavenças e minhas teimosias, estamos juntos em mais uma grande vitória, à minha irmã, Vitória Cristina, agradeço a você por sempre ser tão sincera e amiga, afinal, onde você for, estarei contigo, obrigada por sempre caminhar lado-a-lado comigo.

Não poderia esquecer-me de agradecer aos amigos que me acompanharam nessa jornada, que tornaram os dias mais leves, mais fáceis e mais alegres, agradeço a todos que me ajudaram de alguma forma, mas em especial a Thalia de Cássia, Helíude Vieira, Maria Lopes, Viviane Dantas e Hadassa Juliana pelo convívio diário antes e ao longo da minha estadia na residência estudantil, não só vocês, mas todos os meninos que tanto tem me ajudado e me acolhido, meus verdadeiros irmãos de outros pais, Dennis Denniam, Micael Medeiros, Paulino, Pablo Fernandes, Geovane, Allef, e todos os componentes não citados da moradia estudantil, campus Caraúbas. Agradecer, também, pelo convívio passado, a Amanda Tavares, por ter sido minha melhor amiga nos momentos que mais precisei, assim como, Joanna Paulla. Rafaella Lorrane, Pábula Rayane, José Diego e Ianna Mirelly por serem meu suporte nos grupos de estudo, fazendo nossa amizade ir muito além da universidade. Jandira, Catherine, Maria Luiza, Rodrigo, Renatha, Humberto, Rita, Valéria, Matheus Rodrigues, Thaís, Fernanda, Letícia, Natália, Luiz, pelos momentos de descontração, afinal, nem só de estudar se vive. A todos que passaram por mim na universidade e de alguma forma contribuíram para minha formação acadêmica e pessoal, discentes, docentes, coordenações. Todas essas pessoas que me acompanharam sabem tudo que precisei passar para chegar até aqui e conseguir essa minha primeira vitória, foi difícil, mas com a ajuda de vocês, a primeira parte do meu sonho torna-se realidade.

Agradeço especialmente a meu orientador, Cid Ivan da Costa Carvalho, por todos os

ensinamentos compartilhados, toda a atenção dada, pela paciência nesses anos de projeto e

nesse último semestre em especial, o senhor foi meu primeiro espelho dessa universidade para

mim como pessoa e profissional, obrigada por sempre estar presente desde o meu primeiro

período nesse campus. Agradeço aos componentes do Grupo de estudo em linguística

(6)

computacional (GELC) pelo suporte e ajuda na elaboração desse projeto e, consequentemente, meu trabalho de conclusão do curso, como também a todos os servidores e terceirizados que de algum modo tornaram esse projeto possível. Agradeço, também, a banca pelo tempo disponibilizado na leitura e avaliação do meu trabalho.

(7)

RESUMO

A Bag of Tools é um programa desenvolvido pelo grupo de estudo em linguística computacional (GELC), da Universidade Federal Rural do semi-Árido (UFERSA), a qual contém sistemas para processamento de linguagem natural. Neste trabalho, apresento os sistemas que integram esse programa, o wordlist: organiza o texto adicionado em forma de lista de palavras; separador silábico: sistema que separa palavras em sílabas da língua brasileira; o grapheme to phoneme: conversor gráfico fônico que faz a transcrição das formas ortográficas para forma fonética ou fonológica; e, o etiquetador morfossintático: decompõe o texto em itens lexicais e atribui uma etiqueta a cada palavra de um texto. Para o desenvolvimento desse software, utilizou-se o Foma, uma biblioteca e uma linguagem de programação de uso múltiplo que agiliza a criação de algoritmos para o processamento de linguagem natural, devido ao suporte de expressões regulares, à agilidade na manipulação de caracteres e à facilidade no uso de sua sintaxe. Com o intuito de distribuir o software e facilitar sua utilização, o programa foi implementado à linguagem de programação Java, que possibilitou a adição de novas funções ao software e o desenvolvimento de uma interface gráfica, a qual deixou a usabilidade do algoritmo mais intuitiva. Após o desenvolvimento, A partir dos resultados obtidos e analisados, concluímos que o sistema Bag of tools apresenta um bom desempenho como um todo, pois em cada uma de suas funções foi obtido mais de 90% de acertos em seu desempenho, mas apresentando alguns erros.

Palavras-chave: Bag of tools, transcrição fonológica, separador silábico, etiquetador,

desempenho.

(8)

ABSTRACT

The Bag of Tools is a program developed by the study group in computational linguistics (GELC) of the Federal Rural University of the Semi-Arid (UFERSA), which contains systems for natural language processing. In this work, I present the systems that integrate this program, wordlist: organizes the added text as a list of words; syllabic separator: system that separates words in syllables from the Brazilian language; grapheme to phoneme: phonic graphic converter that transcribes the orthographic forms into a phonetic or phonological form; and, the morphosyntactic labeler: decomposes the text into lexical items and assigns a label to each word in a text. For the development of this software, we used Foma, a library and a multi-language programming language that speeds up the creation of algorithms for the natural language processing, due to the support of regular expressions, the agility in the manipulation of characters and the ease in the use of its syntax. In order to distribute the software and facilitate its use, the program was implemented in the Java programming language, which allowing the addition of new functions to the software and the development of a graphical interface, which made the usability of the algorithm more intuitive. After the development, from the results obtained and analyzed, we conclude that the Bag of tools system presents a good performance as a whole, because in each one of its functions more than 90% of hits were obtained in its performance, but with some errors.

Keywords: Bag of tools, phonological transcription, syllabic separator, labeling, performance.

(9)

LISTA DE TABELAS

Tabela 1: Principais erros encontrados ... 30

(10)

LISTA DE FIGURAS

Figura 1:

Figura 2:

Figura 3:

Figura 4:

Figura 5:

Figura 6:

Figura 7:

Figura 8:

Figura 9:

Figura 10:

Modelo de análise e geração das representações superficial e subjacente...

Relação e função...

Grafo...

Árvore...

Cadeia de Markov...

Interface inicial do programa Bag of tools...

Funcionamento do programa...

Função de transcrição fonológica...

Função de separação silábica...

Função de etiquetagem...

16

19

20

20

21

28

28

30

32

33

(11)

LISTA DE GRÁFICOS

Gráfico 1: Desempenho do sistema ... 34

(12)

SUMÁRIO

1 1.1 1.1.1 1.1.2 2 2.1 2.1.1 2.1.1.1 2.1.2 2.2 2.2.1 2.2.1.1 2.2.1.2 2.2.2 2.2.3 2.2.4 2.3 2.3.1 2.3.2 3 3.1 3.2 3.3 4 4.1 4.2 4.3 5

INTRODUÇÃO...

Objetivos...

Objetivo geral...

Objetivos específicos ...

REFERENCIAL TEÓRICO...

Conceitos linguísticos...

Fonética e fonologia...

Fones e fonemas...

Sílaba...

Conceitos matemáticos...

Conjuntos...

União e intersecção...

Complementação...

Funções e relações...

Grafos e árvores...

Modelos de markov...

Conceitos computacionais...

Língua formal, gramática e autômatos...

Marcação de corpora...

METODOLOGIA...

Tipo de pesquisa...

Contexto da pesquisa...

Procedimento de análise...

RESULTADOS E DISCUSSÃO...

Transcrição fonológica...

Separador silábico...

Etiquetador...

CONCLUSÕES...

REFERÊNCIAS...

ANEXOS...

13

14

14

14

15

15

15

16

16

17

17

18

18

19

19

20

22

22

23

25

25

25

26

27

29

31

32

35

36

39

(13)

13

1 INTRODUÇÃO

O uso da tecnologia da linguagem funciona muitas vezes “nos bastidores”, de forma invisível dentro de sistemas de software complexos, ajudando-nos em tarefas como na verificação da ortografia e na correção gramatical como ocorre nos processadores de texto; na tradução automática de páginas da web ou de palavras e expressões.

A Bag of Tools é um programa desenvolvido pelo grupo de estudo em linguística computacional (GELC), da Universidade Federal Rural do semi-Árido (UFERSA), que contém sistemas para processamento de linguagem natural. Os sistemas que integram esse programa são: o wordlist: organiza o texto adicionado em forma de lista de palavras; separador silábico:

sistema que separa palavras em sílabas da língua brasileira; o grapheme to phoneme: conversor gráfico fônico que faz a transcrição das formas ortográficas para forma fonética ou fonológica;

e, o etiquetador morfossintático: decompõe o texto em itens lexicais e atribui uma etiqueta a cada palavra de um texto.

Para a criação deste sistema, foi necessário adquirir o conhecimento em três principais áreas que serão apresentadas neste trabalho: Na matemática, foi abordada principalmente a teoria dos conjuntos e as cadeias de Markov, questões fundamentais para a execução de qualquer sistema computacional; na linguística, o estudo foi direcionado às regras gramaticais utilizadas para a correta funcionalidade do programa, regras de transcrição fonética, fonológica, separação de sílabas e de sílabas tônicas; e, os recursos computacionais aplicados à pesquisa em linguística, como algoritmos, noções de linguagem, gramáticas formais e autômatos.

A transcrição manual de corpora (plural de corpus), tradicionalmente feita por peritos em fonética, está associada aos inconvenientes de um processo lento, com déficit de pesquisas, muitas vezes, mais sujeito a erros humanos e à falta de coerência na aplicação dos critérios entre anotadores.

Sendo assim, verificamos a necessidade de um sistema automático para a transcrição de corpora, tornando possível a anotação de grandes quantidades de material de fala através da aplicação de um conjunto fixo de critérios objetivos.

Há sistemas que fazem a conversão de grafema para fonema e são comumente chamados

de Grapheme to Phoneme (G2P) ou de Letter to Sound (LTS). Esses conversores são aplicados

(14)

14

no pré-processamento dos sistemas da tecnologia de fala e como ferramenta de pesquisa em Linguística. Também fazem parte do pré-processamento para que o sistema de síntese de fala e reconhecimento de voz consigam “adivinhar” a pronúncia correta das palavras (TEIXEIRA et alii, 2006).

A síntese de fala (Text-To-Speech - TTS) e o reconhecimento de voz (Speech-To-Text - STT) estão presentes em serviços de telecomunicações, na educação, em controle de equipamentos industriais, em alarmes para situações de risco, em ajuda às pessoas com algum tipo de necessidade especial (especialmente em pessoas com deficiência visual ou auditiva), em controles de lista de espera em hospitais, sinalização de bagagens em transportes públicos, sistemas de navegação GPS, smartphones, etc. Além do uso no pré-processamento, os conversores são muito úteis como instrumento de auxílio aos linguistas, mais especificamente, aos foneticistas que trabalham com transcrição fonética de corpora de língua portuguesa e, também, aos lexicógrafos na construção da transcrição fonética dos verbetes de dicionários.

1.1 Objetivos 1.1.1 Objetivo Geral

• Apresentar os conceitos matemáticos, linguísticos e computacionais utilizados no programa Bag of tools.

1.1.2 Objetivos Específicos

• Apresentar os conceitos matemáticos utilizados na implementação do programa;

• Descrever conceitos linguísticos que foram aplicados para a execução do programa;

• Explicar e descrever os recursos computacionais na execução do programa aplicados à

pesquisa em linguística;

(15)

15

2 REFERENCIAL TEÓRICO

2.1 CONCEITOS LINGUÍSTICOS 2.1.1 FONÉTICA E FONOLOGIA

Enquanto a Fonética estuda a natureza física da produção e da percepção dos sons da fala (chamados de fones), a Fonologia preocupa-se com a maneira como eles se organizam dentro de uma língua, classificando-os em unidades capazes de distinguir significados, chamadas fonemas.

A fonética estuda os sons como entidades físico articulatórias isoladas (aparelho fonador).

Cabe a ela descrever os sons da linguagem e analisar suas particularidades acústicas e perceptivas. Ela fundamenta-se em estudar os sons da voz humana, examinando suas propriedades físicas independentemente do seu papel linguístico de construir as formas da língua. Sua unidade mínima de estudo é o som da fala, ou seja, o fone. A fonética é dividida em três tipos:

Fonética articulatória: estuda como os sons são produzidos, isto é, a posição e a função de cada um dos órgãos do aparelho fonador (língua, lábios, etc.); fonética acústica: analisa as características físicas dos sons da fala, ou seja, as ondas mecânicas produzidas e a sua percepção auditiva; fonética auditiva: estuda os processos que realiza o receptor na recepção e interpretação da onda sonora.

À fonologia cabe estudar as diferenças fônicas intencionais, distintivas, isto é, que se unem a diferenças de significação; estabelecer a relação entre os elementos de diferenciação e quais as condições em que se combinam uns com os outros para formar morfemas, palavras e frases. Sua unidade mínima de estudo é o som da língua, ou seja, o fonema.

Os elementos da fonologia são: Fonemas - unidades mínimas de som usadas na Fonologia; sílabas - conjunto de um ou mais fonemas que produz um som completo; encontros vocálicos - agrupamento de duas ou três vogais e/ou semivogais; encontro consonantais - agrupamento de duas ou mais consoantes; dígrafos - agrupamento de duas letras que formam o mesmo fonema. Tonicidade e prosódia - estudo dos tons mais intensos presentes nas sílabas fortes.

Para efeito da transcrição automática de grafema para fonema, consideramos os grafemas

como a forma subjacente e os fonemas como a forma superficial. Ou seja, input-output,

mostrado a seguir:

(16)

16

Figura 1. Modelo de Análise e geração das representações superficial e subjacente.

Fonte: SANTOS, Daniel da Silva; NOGUEIRA , Iara Cristina Araújo; CARVALHO , Cid Ivan da Costa, 2018.

2.1.1.1 FONES E FONEMAS

Descritos pela fonética, os fones são os sons pronunciados pelos falantes de uma língua, quase todos os humanos são capazes de reproduzi-los. Eles se reúnem num conjunto relativamente pequeno de propriedades fonéticas. Para fazer transcrições fonéticas, os linguistas recorrem ao Quadro Fonético Internacional. Nesse quadro há para cada fone um símbolo fonético específico.

Bechara (2005) traz uma definição sobre fonemas; segundo ele, são uma realidade acústica registrada pelo aparelho auditivo, ou seja, “os sons elementares e distintivos que o homem produz quando, pela voz, exprime seus pensamentos e emoções” (p. 57). São representados por letras entre barras, como em: /a/, /é/, /i/, /ó/ e /u/.

2.1.2 A SÍLABA

A sílaba é uma divisão espontânea e profundamente examinada pela fonologia. Seus tipos

de estrutura marcam caracteristicamente as línguas. Não é o fonema, mas sim a sílaba a

estrutura fonêmica elementar (Jakobson, 1971). Do ponto de vista fonético, tem sido um árduo

problema definir a sílaba, apesar disso, de maneira geral, a delimitação silábica é nítida em

(17)

17

português, embora haja três casos em que é flutuante (Câmara Jr. 1986, 1997). Trata-se de três contextos de grupos de vogais em que entra, como primeira ou segunda vogal, uma vogal alta e átona: a) /i/ ou /u/precedido ou seguido de outra vogal átona (“saudade”, “variedade”); b) /i/

ou /u/ seguido por vogal tônica (“piano”, “viola”); e c) /i/ ou /u/ seguido por vogal átona em final de vocábulo(“índia”, “assíduo”). Foneticamente, podem-se entender esses casos como ditongos ou hiatos, em variação livre, sem oposição distintiva. Fonologicamente, entretanto, há uma fronteira silábica variável e não significativa.

Na ortografia, a sílaba tem sua base na emissão sonora da leitura, e outro fator que determina essa separação, ou seja, a delimitação silábica, é a translineação, processo realizado ao separar uma palavra que encerra uma linha durante a escrita (Bergström, 2001), que se pauta em um conjunto de regras. Assim, é pertinente esclarecer silabação e translineação. Silabação é a separação em sílabas de uma palavra, que obedece a sua pronúncia. O critério fonológico rege a escrita, à medida que procura representar aproximadamente os fonemas por letras e dividir suas sequências de acordo com as sílabas, enquanto a apresentação do vocábulo na escrita se faz pelo critério formal (Câmara Jr. 1986). Translineação é a partição da palavra escrita no fim da linha, de modo a deixar parte da palavra em uma linha e seu restante em outra.

A translineação segue as normas de divisão silábica, e dentro dessas normas prefere algumas, mas adota outras que nem sempre estão em consonância com a cadeia da fala (Vasilévski 2010, 2011).

Uma das maiores dificuldades na silabação (na conversão grafema-fonema) refere-se a palavras com hífen, uma vez que nem todas as regras de interpolação do hífen estão em acordo com a pronúncia. Na escrita, a divisão silábica em fim de linha, por exemplo, é feita por meio do hífen, o qual também é usado em palavras compostas, nas mesóclises e ênclises (casos em que se une o verbo ao pronome átono e à partícula “se”, que nessa circunstância pode ser apassivadora ou índice de indeterminação do sujeito). Assim, o hífen que une as partes da palavra composta e os pronomes objetos aos verbos também é delimitador de sílaba nesses vocábulos. Disso decorrem discrepâncias entre fala e escrita, pois se passa ao âmbito da morfologia (Vasilévski, 2011). Desse modo, a interface entre pronúncia e escrita é permeada pela fonologia, mas a escrita pode adotar convenções que se desviam da fonologia, as quais podem ser, por exemplo, etimológicas ou decorrentes de acordos internacionais.

2.2 CONCEITOS MATEMÁTICOS

2.2.1 CONJUNTOS

(18)

18

É uma coleção de objetos (seus elementos) distintos, os quais não possuem qualquer ordem associada. Quando o conjunto não possui elementos, o chamamos de conjunto vazio, denotado por { }. São três as operações básicas sobre conjuntos: união, intersecção e complementação.

Como exemplos de conjuntos podem ser citados: as vogais (a, e, i, o, u), o par de sapatos preferidos, os dígitos numéricos (0, 1, 2, 3, 4, 5, 6, 7, 8 e 9), todos os brasileiros, os números pares, entre muitas outras coisas.

2.2.1.1 UNIÃO E INTERSECÇÃO

A união de dois conjuntos quaisquer A e B, denotada por A ∪ B, é o conjunto dos elementos x tais que, x pertence a pelo menos um dos dois conjuntos A e B. Ou seja, x A ∪ B se e somente se x A x B.

Dados os conjuntos A = {c, a, r, e, t} e B = {a, e, i, o, u}, o conjunto união (A ∪ B): para encontrar o conjunto união basta juntar os elementos dos dois conjuntos dados. Temos de ter o cuidado de incluir os elementos que se repetem nos dois conjuntos uma única vez. Assim, o conjunto união será: A ∪ B = {c, a, r, e, t, i, o, u}

A intersecção de dois conjuntos quaisquer A e B, denotada por A B, é o conjunto dos elementos x tais que x pertence a ambos os conjuntos A e B.

Dado o mesmo conjunto apresentado anteriormente, (A intersecção B): devemos identificar os elementos comuns nos conjuntos, assim o conjunto intersecção ficará: A intersecção B = {a, e}

Obs: quando dois conjuntos não apresentam elementos em comum, dizemos que a intersecção entre eles é um conjunto vazio.

2.2.1.2 COMPLEMENTAÇÃO

É similar à operação de subtração na aritmética. Se A e B são conjuntos, o complemento relativo de B em A é o conjunto A - B, definido por A - B = { x A | x B }

Dados os conjuntos A= {a, b, c, d, e, f} e B = {d, e, f, g, h}, determinar o conjunto

diferença entre eles. Para encontrar a diferença, primeiro devemos identificar quais elementos

pertencem ao conjunto A e que também aparecem ao conjunto B.

(19)

19

No exemplo, identificamos que os elementos d, e e f pertencem a ambos os conjuntos.

Assim, vamos retirar esses elementos do resultado. Logo, o conjunto diferença de A menos B será dado por:

A – B = {a, b, c}.

No próximo tópico deste trabalho, serão tratados conceitos de funções e relações entre conjuntos,

2.2.2 FUNÇÕES E RELAÇÕES

Uma função é uma regra que associa a certos elementos de um conjunto um único elemento de outro conjunto. As relações são mais gerais que as funções: numa função cada elemento do domínio tem associado a ele exatamente um elemento no contradomínio; numa relação podem existir vários de tais elementos no contradomínio.

A relação exige que haja uma conexão entre os elementos que se relacionam. Esta noção de conexão de um objeto a com um objeto b, pode ser formalmente colocado introduzindo a noção de par ordenado: nos pares ordenados, a ordem que os elementos são colocados importa:

(x1, x2) = (y1, y2) se, e somente se, x1 = y1 e x2 = y2

Figura 2. Relação e função.

Fonte: https://conceito.de/relacao-matematica

(20)

20

2.2.3 GRAFOS E ÁRVORES

Um grafo é um par (V, A) onde V e A são conjuntos finitos e A é um subconjunto de pares não ordenados de vértices. Os elementos de V são chamados de vértices enquanto que os elementos de A são chamados de aresta.

Os grafos podem ser melhor visualizados através de diagramas, onde os vértices são representados por círculos e as arestas por linhas. O comprimento de um caminho é o número total de arestas que ele atravessa indo do vértice inicial ao final, quando nenhuma aresta é repetida chama-se de trilha.

As árvores são tipos particulares de grafos. Uma árvore é um grafo dirigido que não possui ciclos, tendo um vértice distinguido chamado raiz, tal que existe exatamente uma trilha da raiz a qualquer outro vértice. Esta definição implica que não existe aresta de chegada na raiz e que existem vértices sem arestas de saída, as folhas da árvore.

2.2.4 MODELOS DE MARKOV

Processos/cadeias/modelos de Markov foram inicialmente desenvolvidos por Andrei A.

Markov. Sua primeira utilização foi na modelagem de sequências de letras em trabalhos da literatura russa. Modelos de Markov escondidos são as principais ferramentas para o processamento estatístico da linguagem natural. Um HMM é uma função probabilística de um processo de Markov.

Figura 3. Grafo

Fonte: http://danielamaral.wikidot.com/o- problema-da-arvore-geradora-minima-agm

Figura 4. Árvore

Fonte:http://www.professeurs.polymtl.ca/michel.g agnon/Disciplinas/Bac/Grafos/CaminhoMin/camin

ho_min.html

(21)

21

Trabalhar com a ordem das palavras nas sentenças é o que fazem os modelos visíveis de Markov. HMMs

1

operam em um nível mais alto de abstração, inserindo estruturas “ocultas”

adicionais, que permitem visualizar a ordem das categorias das palavras.

Em modelos visíveis de Markov, sabe-se por quais estados da máquina se está passando.

Assim, a sequência de estados, ou alguma função determinística desta sequência, pode ser observada.

Em geral, considera-se uma sequência, possivelmente no tempo, de variáveis aleatórias, cujos valores são dependentes dos elementos anteriores nesta sequência. Para a maioria dos sistemas, parece razoável assumir-se que o necessário para determinar variáveis aleatórias futuras é o valor da variável aleatória atual, sem a necessidade dos valores das variáveis aleatórias passadas na sequência. Ou seja, elementos futuros da sequência.

Enfim, modelos de Markov podem ser usados toda vez que se quer modelar a probabilidade de uma sequência de eventos. Alternativamente, pode-se representar uma cadeia de Markov por um diagrama de estados. Os estados são representados por círculos em torno do nome do estado, e o estado inicial é indicado por uma seta de chegada. As transições possíveis são representadas por setas conectando os estados, que são rotuladas com a probabilidade de esta transição ser percorrida, dado que se está no estado de partida da seta. Transições com probabilidade zero são omitidas no diagrama. A soma das probabilidades das setas que partem de um estado é 1. A partir desta representação, pode-se dizer que um modelo de Markov é um autômato finito com probabilidades associadas aos arcos.

Figura 5. Cadeia de Markov.

Fonte: https://www.researchgate.net/figure/Figura-7-Cadeia-de-Markov-na-forma-de-grafo-dirigido

Um modo de agrupar todas as sequências de tamanho n que começam pelas mesmas n palavras em uma classe de equivalência é supor que o contexto local prévio afeta a palavra

1 Do inglês Hidden Markov Models – HMMs.

(22)

22

seguinte, e construir o modelo de Markov de ordem ou modelo de n-Gramas (sendo a última palavra do n-grama a que está sendo prevista). Os casos de n-gramas mais utilizados são com n = 2, 3 e 4, particularmente denominados bigramas, trigramas e tetragramas, respectivamente.

Quanto maior o valor de n, isto é, maior o número de classes que dividem os dados, maior a confiabilidade da inferência. No entanto, o número de parâmetros a serem estimados cresce exponencialmente em relação a n. Por isso, geralmente são utilizados bigramas ou trigramas em sistemas dessa natureza.

Tratando-se do modelo de n-Gramas, pode-se pensar que este não é um modelo de Markov quando n ≥ 3, pois este violaria a propriedade do horizonte limitado, já que necessita que se conheça mais de uma palavra anterior. No entanto, qualquer modelo de n-gramas pode ser reformulado como um VMM. Em VMMs

2

, sabe-se por quais estados da máquina se está passando. Assim, a sequência de estados, ou alguma função determinística desta sequência, pode ser observada.

2.3 CONCEITOS COMPUTACIONAIS

2.3.1 LÍNGUA FORMAL, GRAMÁTICA E AUTÔMATOS

“Língua formal é um conjunto formado por sequências de elementos resultantes da concatenação de elementos extraídos de um conjunto de símbolos, chamado de alfabeto ou sigma, sequências essas chamadas de cadeias. Exemplo: ∑= {a}, com isso formamos a língua L={a, aa, aaa} que também pode ser representado como L={a¹, a², a³}. Também pode ser substituído por uma variável e fixando um valor: L=a^n, 1 ≤ n ≤ 3.” (ALENCAR 2011, p 19).

Para ser considerada, como conjunto, uma língua formal deve ser caracterizada por um dos dois métodos a seguir: enumeração exaustiva dos elementos, especificação de “um critério de pertinência que é satisfeito por todos os elementos do conjunto e somente esses elementos.”

(ALENCAR 1990, p 24.)

“A gramática de uma língua formal é um mecanismo capaz de produzir todas e somente as cadeias pertencentes a essa língua.” (ALENCAR 2011, p 22). Denominam-se autômatos os dispositivos capazes de reconhecer uma língua, ou seja, determinar se uma dada sequência é

2 Do inglês Visible Markov Models – VMMs.

(23)

23

elemento da língua. Assim, entendemos que gramática se restringe aos dispositivos capazes de gerar uma língua e o reconhecimento fica por parte dos autômatos. Na linguística computacional eles não possuem distinção.

A descrição morfológica é como podemos construir palavras a partir de fórmulas, a partir de morfemas ou palavras já existentes. Analogamente, uma sintaxe do português deve especificar as fórmulas conforme as quais constroem os sintagmas bem-formados na língua.

Assim, a morfologia constitui uma gramática da palavra (ou sintaxe). Para construir algoritmos capazes de gerar as cadeias pertencentes a uma determinada língua formal, é preciso caracterizar explicitamente os elementos que constituem uma gramática formal.

O algoritmo, em sua definição, requer um conjunto de passos ordenados, isto significa que estes passos devem ser bem definidos e estruturados para uma ordem de execução. Isto não quer dizer que estes passos devem ser executados sempre ema única sequência consistindo de um primeiro passo seguido por um segundo, e assim por diante. Assim, todo algoritmo deve consistir em passos executáveis.

2.3.2 MARCAÇÃO DE CORPORA

A marcação de uma sentença pode ser definida como a tarefa de rotular cada palavra da sentença com sua categoria morfossintática. Dada uma sequência de palavras e um conjunto de rótulos, associa-se a cada palavra o rótulo correspondente. Como muitas palavras têm mais de uma categoria sintática, a marcação visa determinar qual destas categorias é a mais provável para um uso particular da palavra na sentença.

Desta forma, o objetivo de um sistema marcador/rotulador é encontrar a sequência mais provável de marcas/rótulos que correspondam à sequência de palavras dada. Por isso, a marcação pode ser vista como uma tarefa que reduz a ambiguidade das sentenças.

O processo de marcação do corpus é um nível intermediário de representação, que é útil e mais tratável que a análise sintática completa.

Há essencialmente duas principais fontes de informação para decidir a categoria de uma palavra em um contexto:

1. As marcas das outras palavras do contexto, que permitem a observação de

sequências comuns de categorias de palavras. Este tipo de informação estrutural sintagmática é

a mais visível através da marcação, mas isolada não é de grande importância;

(24)

24

2. As informações léxicas sobre a própria palavra, pois palavras com mais de uma categoria ocorrem, na maioria das vezes, com uma das suas categorias possíveis. Esta categoria mais frequente é dita básica, e as demais são vistas como derivadas da categoria básica.

A eficiência de um sistema para marcação de corpora depende consideravelmente dos seguintes fatores:

1. A quantidade de dados de treinamento disponível: em geral, quanto mais dados, melhor;

2. O conjunto de rótulos: normalmente, quanto maior o conjunto de rótulos, maior a possibilidade de ambiguidade, dificultando a tarefa de marcação;

3. A diferença entre dados de treinamento e dados da aplicação: se o corpus de treinamento e de aplicação são obtidos da mesma fonte, a precisão da marcação será maior. Se o corpus da aplicação for de uma fonte diferente ou de um gênero diferente de texto, o desempenho do sistema de marcação será pior;

4. Palavras desconhecidas: a ocorrência de muitas palavras desconhecidas no corpus pode degradar consideravelmente o desempenho da marcação. Estes tipos de condições externas frequentemente têm maior influência no desempenho do que a escolha do método de marcação a ser implementado.

Em rotuladores baseados no modelo de Markov, a sequência de rótulos em um texto é

vista como uma cadeia de Markov, que tem as propriedades de horizonte limitado e invariância

no tempo. Isto significa que se assume que o rótulo de uma palavra dependa somente do rótulo

da palavra anterior (horizonte limitado) e que esta dependência não mude com o passar do

tempo (invariância no tempo). Por exemplo, se um verbo tem probabilidade 0.2 de ocorrer

depois de um pronome, no início da sentença, então esta probabilidade muda conforme for feita

a marcação do resto da sentença ou das próximas sentenças.

(25)

25

3 METODOLOGIA 3.1 Tipo de pesquisa

Para este projeto ser realizado foi utilizado o tipo de pesquisa qualitativa, com método descritivo, já que foi preciso, ter por base, o conhecimento teórico empírico atribuído a cientificidade para, assim, descrever o programa Bag of tools. Com isso, percebemos a importância da pesquisa qualitativa, já que nos proporciona uma relação real entre teoria e prática.

Em princípio, a descrição constitui a habilidade de fazer com que o outro veja mentalmente aquilo que o pesquisador observou. Em outras palavras, a descrição deve ser suficientemente precisa para que o interlocutor ou o leitor seja capaz de visualizar exatamente aquilo que o pesquisador observou. A descrição se presta ainda para descrever, metodologicamente, cada um dos passos dados na realização da pesquisa e na aplicação das técnicas de pesquisa. Assim, a replicabilidade consiste na possibilidade de qualquer outro pesquisador, orientando-se pelo mesmo método, empregando as mesmas técnicas e inserido nas mesmas circunstâncias, chegar aos mesmos resultados obtidos por outro pesquisador.

A pesquisa descritiva exige do investigador uma série de informações sobre o que deseja pesquisar. Esse tipo de estudo pretende descrever os fatos e fenômenos de determinada realidade (TRIVIÑOS, 1987).

3.2 Contexto da pesquisa

Bag of Tools é um programa desenvolvido pelo Grupo de Estudo em Linguística Computacional (GELC) da Universidade Federal Rural do Semi-Árido (UFERSA), o qual contém sistemas para o processamento de linguagem natural, como wordlist, separador silábico, o Grapheme to Phoneme, etiquetador morfossintático. Feito para apoiar o ensino, a investigação e o desenvolvimento no domínio da ciência e tecnologia da linguagem natural.

O GELC contribui para o desenvolvimento das pesquisas em teoria e funcionamento das

línguas naturais, disponibilizando sistemas computacionais para a investigação e descrição dos

fenômenos linguísticos;

(26)

26

3.3 Procedimento de Análise

A partir dos conhecimentos adquiridos, oriundos da pesquisa e dos estudos na área da linguística e da Informática citados no referencial teórico deste trabalho, tais como: teoria de conjuntos, modelos de Markov, fonética e fonologia, entre outros abordados, foi desenvolvido o software de transcrição com auxílio do Foma, um compilador de estados finitos, biblioteca e linguagem de programação de uso múltiplo (HULDEN, 2008). Sua simples sintaxe, rica biblioteca de funções e o suporte a expressões regulares, possibilitam o desenvolvimento de poderosas aplicações de processamento com linguagem natural. Possuindo como um ponto fraco, apenas, o quesito portabilidade, uma vez que é restrita às linguagens de programação C/C++, Perl e JavaScritpt, não possuindo suporte direto à outras linguagens importantes como o Java e o PHP.

Os sistemas que integram esse programa são:

1. O wordlist: organiza o texto adicionado em forma de lista de palavras;

2. Separador silábico: sistema que separa palavras em sílabas da língua brasileira;

3. O grapheme to phoneme: conversor gráfico fônico que faz a transcrição das formas ortográficas para forma fonética ou fonológica de uma língua; e,

4. O etiquetador morfossintático: os analisadores morfológicos decompõem a

sentença de um texto em itens lexicais e verificam a estrutura associada a um determinado item,

atribuindo-lhes uma etiqueta.

(27)

27

4 RESULTADOS E DISCUSSÃO

Para Bird, Klein e Loper (2009), a avaliação de um modelo computacional tem como objetivo principal decidir se o sistema classifica com precisão um determinado padrão linguístico. O resultado da avaliação é importante para compreender até que ponto o modelo é confiável, para que fins o utilizar e, também, para guiar o desenvolvedor na busca de melhorias futuras para o modelo.

Pensando assim, o programa Bag of tools foi analisado e avaliado em busca de conhecer sua funcionalidade, para um melhor desempenho futuro, melhorando-o.

Para o desenvolvimento desse software, utilizou-se o Foma, uma biblioteca e uma linguagem de programação de uso múltiplo que agiliza a criação de algoritmos para o processamento de linguagem natural, devido ao suporte de expressões regulares, à agilidade na manipulação de caracteres e à facilidade no uso de sua sintaxe.

Com o intuito de distribuir o software e facilitar sua utilização, o programa foi

implementado à linguagem de programação Java, que possibilitou a adição de novas funções

ao software e o desenvolvimento de uma interface gráfica, a qual deixou a usabilidade do

algoritmo mais intuitiva. Como podemos ver na figura 6 a interface inicial do programa e na

figura 7 seu funcionamento.

(28)

28

Figura 6. Interface inicial do programa Bag of tools.

Fonte: A pesquisa.

Figura 7. Funcionamento do programa.

Fonte: A pesquisa.

Nos próximos subtópicos, será detalhado as informações sobre a funcionalidade do

programa, nos recursos implementados dentro do sistema, como sistema de transcrição

fonológica, sistema de separação silábica e o sistema de etiquetagem morfossintática.

(29)

29

4.1 TRANSCRIÇÃO FONOLÓGICA

Utilizaremos o termo transcrição para nos referir à representação escrita dos símbolos fonéticos de um texto escrito graficamente. A expressão transcrição fonológica se refere à representação dos fonemas da língua, ou seja, é uma representação abstrata do sistema sonoro da língua e se distingue da transcrição fonética, que é a representação dos sons emitidos por falantes de uma língua quando produz a fala, como afirmam Seara, Nunes e Lazzaratto-Volcão (2015).

Assim, a expressão transcrição fonológica automática remete à representação escrita dos fonemas da língua feita por um sistema computacional. Quando falamos de transcrição grafofônica, como aponta Carvalho (2016), nos deparamos com o fato inconteste de que a forma escrita da língua portuguesa é diferente da forma como os falantes a pronunciam.

Utilizando a interface gráfica da Bag of Tools, o usuário pode escolher entre a execução do sistema de um único arquivo ou de um conjunto de arquivos. Para isso, basta optar pelo botão open na barra de menu, se quiser abrir um arquivo no input do sistema ou escolher o botão import na mesma barra, para executar o sistema com vários arquivos. Os arquivos ficam dispostos na barra vertical text imports no qual o usuário poderá executar uma das ferramentas que se encontram na barra de sistemas.

Após a solicitação de execução, o programa retorna para o usuário o resultado das

palavras em duas colunas: na primeira coluna, estão presentes todas palavras, não repetidas,

dos textos selecionados para a execução e, na segunda coluna, estão presentes as transcrições

das palavras nos símbolos do Alfabeto Fonético Internacional, como mostra a Figura 8. Feito

isso, fizemos a avaliação do sistema utilizando a acurácia – a métrica comumente aplicada para

avaliar os sistemas de transcrição fonológica, como podemos ver em Veiga, Candeias e

Perdigão (2011) e Barros e Weiss (2006). A acurácia é a métrica mais simples que pode ser

usada para avaliar um G2P e medir os percentuais de entrada no conjunto de teste que o sistema

transcreveu corretamente (BIRD, KLEIN e LOPER, 2009). Essa métrica calcula uma

pontuação para um modelo, comparando as entradas em um conjunto de teste com os símbolos

corretos para essas entradas, ou seja, a tarefa fundamental desse método é a classificação binária

dos resultados obtidos.

(30)

30

Figura 8. Função de transcrição fonológica.

Fonte: A pesquisa.

O sistema de transcrição de grafema para fonema da língua portuguesa que apresentamos consegue transcrever muitas palavras da língua portuguesa com eficiência, em testes, cerca de 90% de acurácia nas mil palavras utilizadas que foram transcritas aceitavelmente pelo software.

Contudo, de modo inerente, ele comete alguns equívocos com alguns vocábulos.

PALAVRAS TRANSCRIÇÃO ERRO

Pelos 'pɛloS

Seja ‘sɛƷa

Oferecer ofeɾe'sɛR

Valer va'lɛR Transcrição da vogal “e”

Desde 'dɛSde

Ter 'tɛR

Prender pɾeN'dɛR

Por pɔR

Transcrição da vogal “o”

Foram 'fɔɾaN

Morreu 'mɔR̄eu

Socorro so'kɔR̄o

Fossem 'fɔseN

Força 'fɔRsa

(31)

31

Portal poR'taw

Novo 'nɔvo

México 'mɛksiko

Aproximando apɾoksi'maNdo

Auxiliar auksili'aR Transcrição da consoante “x”

Proximidades pɾoksimi'dadeS

Máximo 'maksimo

Tabela 1. Principais erros encontrados.

Fonte: SANTOS , Daniel da Silva ; ARAÚJO NOGUEIRA , Iara Cristina; CARVALHO , Cid Ivan da Costa, 2018.

4.2 SEPARADOR SILÁBICO

Os separadores silábicos automáticos têm sido desenvolvidos com a finalidade de separar adequadamente as palavras escritas de uma língua. Esse tipo de sistema computacional elimina alguns problemas relativos à transcrição fonológica. Mas alguns desses problemas decorrem de não se considerar à estrutura silábica da língua. Para desenvolver o separador silábico, cuja entrada seja gráfica, cabe destacar o contraponto entre a sílaba fonológica e a convenção escrita, e há de observar também as situações adversas que essa decisão pode trazer na prática. Uma vez que o critério fonológico rege a escrita e, mais ou menos, a divisão silábica na língua escrita, que é uniforme no território nacional, cabe considerar uma tradução fonológica, e não fonética, das palavras (VASILÉVSKI 2010, MATTE et al. 2006).

Diante disso, o sistema de separação silábico, que está integrado ao programa Bag of

tools, foi feito para que anulem ao máximo os erros e que ajude no avanço das pesquisas em

linguística computacional, avaliando o sistema, pode ser aperfeiçoado de modo a corrigir os

erros encontrados. O sistema de separação silábica, no qual há a opção de inserir um texto, ou

um corpus texto, é executado separando as palavras e ainda apresentado a sílaba tônica da

palavra. Em seguida, pode ser salvo separadamente, como também junto com as outras

ferramentas disponíveis no programa.

(32)

32

Figura 9. Função de separador silábico.

Fonte: A pesquisa.

Para o desenvolvimento desse sistema, construímos a arquitetura do algoritmo e implementamos em uma biblioteca C (Foma) com 20 regras descritas em Silva et al. 2008, com algumas modificações. Feito todo esse desenvolvimento, foi invertido e posicionado na biblioteca JAVA, que tem característica de verificar adequadamente a separação silábica e entre outros. Assim, deu a integração dentro do programa Bag of Tools, citado anteriormente.

Diante do que foi citado, verificamos um dado coletado de jornais potiguares, que totalizam em 69 textos, do qual separamos uma amostra de 1307 tokens, e 627 types. Nesta amostra, o programa mostrou-se eficaz na importação das palavras selecionadas, e depois na execução da separação silábica. Logo após a verificação das palavras escolhidas, os resultados obtidos foram que o programa executa corretamente a separação silábica, porém ainda apresentam alguns erros pontuais, no qual o sistema não reconhece algumas silabas, devido o acréscimo do hífen, as palavras com “w”, “k” e “y”, como também as palavras que contém o dígrafo “ns”. No entanto, o sistema apresentou acurácia de 96,2 % de eficácia na separação silábica. Desse modo, podemos dizer que o sistema é confiável na verificação das palavras em língua portuguesa.

4.3 ETIQUETADOR

Um sistema de etiquetagem automática foi desenvolvido, especificamente um sistema

estocástico de etiquetagem. Para isso, as pesquisas bibliográficas e os estudos sobre sistemas

(33)

33

probabilísticos foram fundamentais; além disso, se fez uso de ferramentas já disponíveis para o desenvolvimento desse sistema, especificamente, utilizou-se o HunPos Tagger, um software que gera o modelo estocástico de etiquetas e a partir dele realiza-se a etiquetagem de palavras.

Esse modelo é construído por meio da análise de n-gramas e da teoria probabilística das cadeias de Markov, citados no referencial teórico deste trabalho. Ao processo de construção desse modelo, dá-se a denominação de “aprendizagem de máquina”, ou seja, o HunPos, nesse caso, a partir de um arquivo de treino, “aprende” a etiquetar. Por isso, é necessário um arquivo terceiro, um corpus manualmente etiquetado. Utilizou-se, para esse propósito, o Mac-Morpho, um corpus muito robusto e muito bem etiquetado criado pela Universidade de São Paulo (USP), na versão que foi utilizada estão presentes cerca de 900 mil tokens, etiquetados adequadamente, no entanto, fez-se uso apenas de 400 mil tokens devido a limitações do tagger. Destacamos que o tagset (conjunto de etiquetas) desse etiquetador é composto de 30 tags do corpus de treino do Mac-Morpho, mostrado no anexo A.

O sistema HunPos se mostrou bastante eficiente em seu propósito e desempenho surpreendente. Isso justificou sua utilização nesse projeto, todavia, é pouco intuitivo utilizar o modelo construído a partir desse software, para se etiquetar um texto. Por exemplo, se deve utilizar linhas de comandos e separar todos os tokens manualmente, isso motivou a implementação desse sistema a uma interface amigável e associá-lo a um algoritmo capaz de separar os tokens automaticamente e etiquetá-los, como mostrado na figura 10.

Figura 10. Função de etiquetagem.

Fonte: A pesquisa.

(34)

34

Como dizem Bird, Klein e Loper (2009), avaliamos o desempenho de um tagger em relação às tags que um especialista humano atribuiria. Como geralmente não temos acesso a um linguista experiente e imparcial, fazemos isso com dados de teste padrão ouro. Para isso, utilizamos as principais métricas: acurácia, precisão, recall e especificidade.

A primeira avalia a eficácia geral de um classificador, ou seja, avalia a porcentagem de entradas no conjunto de testes que o classificador rotulou corretamente. A segunda analisa de acordo com a classe dos rótulos de dados comparados aos rótulos positivos dados pelo classificador. A terceira avalia a eficácia de um classificador para identificar rótulos positivos.

A quarta avalia a eficácia de um classificador identifica rótulos negativos e a última avalia a capacidade do classificador de evitar classificações falsas. O gráfico 1, abaixo, mostra o desempenho do etiquetador nessas medidas de avaliação.

Gráfico 1. Desempenho do sistema.

Fonte: SOUSA, Ewerton Dantas de; CARVALHO, Cid Ivan da Costa.

Pelas informações expressas no gráfico acima e as explicações sobre cada métrica

utilizadas para a avaliação do sistema, podemos notar que o etiquetador tem um elevado

desempenho, pois sua acurácia, precisão e recall apresentam percentagens maiores que 90% e

uma especificidade com uma baixa percentagem.

(35)

35

5 CONCLUSÕES

A função de transcrição fonológica apresentou, como é possível observar na tabela 1, que os principais erros se devem à transcrição das vogais <e>, <o> e da consoante <x>, pois as mesmas apresentam bastante variação fonológica, de região para região, onde é falado a língua portuguesa. Desse modo, o sistema de transcrição por regras mostra-se pouco eficiente para o caso desses grafemas, visto que o sistema verbal muitas vezes não utiliza de padrões lógicos na composição de palavras, o que torna a transcrição dessas letras, de certa maneira, imprevisível para um computador. Para esses casos, há a necessidade de outros softwares auxiliares para a correta transcrição.

No separador silábico, após a verificação das palavras escolhidas, os resultados obtidos foram que o programa executa corretamente a separação silábica, porém ainda apresenta alguns erros pontuais, no qual o sistema não reconhece algumas sílabas, devido o acréscimo do hífen, as palavras com “w”, “k” e “y”, como também as palavras que contém o dígrafo “ns”. Assim, o sistema apresentou acurácia de 96,2 % de eficácia na separação silábica. Desse modo, podemos dizer que o sistema é confiável na verificação das palavras em língua portuguesa.

Avaliamos, no etiquetador, um sistema com bom desempenho, já que apresenta uma percentagem maior que 90% de precisão. Também notamos sua alta percentagem de Recall, que diz respeito à eficácia do classificador morfossintático. O programa obteve êxito em seu desempenho, e, com isso, grande eficácia na apresentação da classificação morfossintática das palavras.

A partir dos resultados obtidos e analisados, concluímos que o sistema Bag of tools apresenta um bom desempenho como um todo, pois em cada uma de suas funções foi obtido mais de 90% de acertos em seu desempenho, mas apresentando alguns erros.

Com esses resultados, podemos considerar que os erros nos levarão a uma constituição

de novas regras que serão implementadas, e assim, o melhoramento do sistema, na transcrição

fonológica, no separador silábico e etiquetador. O sistema ainda não está completo, faltando ser

adicionado as configurações para transcrição fonética, que já se apresenta na interface do

programa, porém não está habilitado para uso.

(36)

36

REFERÊNCIAS

ALENCAR, Leonel Figueiredo de. Línguas formais, gramáticas e autômatos no processo automático das palavras, In: Alencar, L. F e Othero, G. de A. Abordagens computacionais da teoria da gramática. Campinas-SP: Mercado de Letras, 2015.

BARROS, M. J.; WEISS, C. Maximum Entropy Motivated Grapheme-To-Phoneme, Stress and Syllable Boundary Prediction for Portuguese Text-to-Speech, IV Jornadas en Tecnologías del Habla, 2006, p. 177-182. Zaragoza, España. Disponível em:

http://lorien.die.upm.es/~lapiz/rtth/JORNADAS/IV/finals/4jth_127.pdf>. Acesso em: 09 de agosto 2015.

BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.

BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology: Xerox Tools and Techniqu Bergström, Magnus. 2001. Prontuário ortográfico e guia da língua portuguesa, 50.ed., Alfragide, Portugal, Casa das Letras, 2002.

BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012.

BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.

BUSCA DE CAMINHO MAIS CURTO. [S. l.], 23 maio 2001. Disponível em:

http://www.professeurs.polymtl.ca/michel.gagnon/Disciplinas/Bac/Grafos/CaminhoMin/cami nho_min.html. Acesso em: 2 mar. 2019.

CADEIAS DE MARKOV. [S. l.], 2016. Disponível em:

https://www.researchgate.net/figure/Figura-7-Cadeia-de-Markov-na-forma-de-grafo- dirigido_fig5_266443727. Acesso em: 28 fev. 2019.

CÂMARA JR., Joaquim Mattoso. Problemas de lingüística descritiva, 16.ed., Petrópolis,

Vozes, 1997.

(37)

37

__________. Estrutura da língua portuguesa, 16.ed. Petrópolis, Vozes, 1986.

CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras

Vernáculas, Fortaleza, 2016.

CERVO A.; BERVIAN P. A.; SILVA R. Metodologia científica 6. ed. São Paulo: Pearson Prentice Hall, 2007.

CONCEITO DE RELAÇÃO MATEMÁTICA. [S. l.], 2017. Disponível em:

https://conceito.de/relacao-matematica. Acesso em: 28 fev. 2019.

GASPERIN, Caroline Varaschin; STRUBE DE LIMA, Vera Lúcia. Fundamentos do Processamento Estatístico da Linguagem Natural. 2001. Dissertação (Graduada em processamento de linguagem natural) - PUCRS, [S. l.], 2001.

HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; ARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.

JAKOBSON, Roman. Studies on child language and aphasia, Netherlands, Mouton, The Hague, 1971.

MATTE, Ana. C. F.; FRÁGUAS, Cecílio C. R. T.; MEIRELES, Alexsandro. 2006. SILWeb – analisador fonológico silábico-acentual de texto escrito. Estudos da linguagem,

(14)1:31-50.

O PROBLEMA DA ÁRVORE GERADORA MÍNIMA (AGM). [S. l.], 20 jun. 2007.

Disponível em: http://danielamaral.wikidot.com/o-problema-da-arvore-geradora-minima-agm.

Acesso em: 2 mar. 2019.

RELAÇÕES E FUNÇÕES: O QUE SÃO?. [S. l.], 2016. Disponível em:

http://voupassar.club/relacoes-e-funcoes-o-que-sao/. Acesso em: 19 dez. 2018.

SANTOS , Daniel da Silva ; NOGUEIRA , Iara Cristina Araújo; CARVALHO , Cid Ivan da Costa. Sistema automático de transcrição fonológica para o português. Texto livre- linguagem e tecnologia, 2018. Disponível em:

http://periodicos.letras.ufmg.br/index.php/textolivre. Acesso em: 19 fev. 2019.

SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexto, 2015.

SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014.

SOKOLOVA, Marina; LAPALME, Guy. A systematic analysis of performance measures for classification tasks. In: Information Processing and Managemen, nº 45, 2009, p. 427–

437. disponível em: <http://atour.iro.umontreal.ca/rali/sites/default/files/publis/Sok

olovaLapalme-JIPM09.pdf.> Acesso em: 18/11/2018.

(38)

38

SOUSA, Ewerton Dantas de; CARVALHO, Cid Ivan da Costa. Verificação do modelo estatístico para a etiquetagem morfossintática de texto escritos. In: SEMIC, 2018, UFERSA. Anais [...]. [S. l.: s. n.], 2018.

SOUSA, Gilberto; ALEXANDRE, Eduardo. Introdução a computação. 2ª ed. João Pessoa:

Editora da UFPB, 2014.

TRIVIÑOS, A. N. S. Introdução à pesquisa em ciências sociais: a pesquisa qualitativa em educação. São Paulo: Atlas, 1987.

VASILÉVSKI, VERA. Divisão silábica automática de texto escrito baseada em princípios fonológicos, Anais do III Encontro de Pós-graduação em Letras da UFS (ENPOLE), São Cristóvão, Sergipe, Brasil, 2010.

VASILÉVSKI, Vera. 2011a. O hífen na separação silábica automática. Revista do Simpósio de Estudos Lingüísticos e Literários - SELL, vol. 1(3), pp.657-676, Uberaba.

VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em

Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras

Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.

(39)

39

ANEXO A

TABELA DE ETIQUETAS

CLASSE GRAMATICAL ETIQUETA

ADJETIVO ADJ

ADVÉRBIO ADV

ADVÉRBIO CONECTIVO SUBORDINATIVO

ADV-KS

ADVÉRBIO RELATIVO SUBORDINATIVO

ADV-KS-REL

ARTIGO (definido ou indefinido) ART

CONJUÇÃO COORDENATIVA KC

CONJUÇÃO SUBORDINATIVA KS

INTERJEIÇÃO IN

NOME N

NOME PRÓPRIO NPROP

NUMERAL NUM

PARTICÍPIO PCP

PALAVRA DENOTATIVA PDEN

PREPOSIÇÃO PREP

PRONOME ADJETIVO PROADJ

PRONOME CONECTIVO SUBORDINATIVO

PRO-KS

PRONOME PESSOAL PROPESS

PRONOME RELATIVO CONECTIVO SUBORDINATIVO

PRO-KS-REL

PRONOME SUBSTANTIVO PROSUB

VERBO V

VERBO AUXILIAR VAUX

SÍMBOLO DE MOEDA CORRENTE CUR

ETIQUETAS COMPLEMENTARES (Estrangeirismos; Apostos; Dados; Números

de telefone; Datas; Horas; e disjunção)

|EST

|AP

|DAD

(40)

40

|TEL

|DAT

|HOR

|[ |]

CONTRAÇÕES E ÊNCLISES |+

MESÓCLISES |!

Referências

Documentos relacionados

No presente trabalho, fez-se um estudo acerca das características eletromagnéticas dos materiais usados em construção civil, tais como madeiras, tijolos, concretos, gesso e

O objetivo deste trabalho é apresentar os aspectos fundamentais a respeito da tecnologia de filtração de água por osmose reversa através de uma pesquisa bibliográfica abordando

A metodologia foi dividida em duas etapas: a primeira foi aplicação de formulários (apêndice) à sociedade e aos representantes municipais responsáveis pela coleta e

Na residência II foram observadas as manifestações patológicas desagregamento da pintura e mofo na parte externa tendo como provável motivação à umidade

Constatou-se que na microrregião da Chapada do Apodi, possui mineradoras de pequeno e médio porte, mas pode-se observar um grande potencial para a extração de

Medições mecânicas, sensores de deformação ótica e extensômetro de resistência elétrica são algumas das ferramentas comumente utilizadas para a obtenção dos

A metodologia consiste em obter a quitosana através da desacetilação da quitina em meio básico, caracterização da quitosana obtida através do teor de sólidos, grau

Em termos de programação de projetos já em execução Pinheiro (2005) desenvolveu projetos na área de controle e automação residencial, onde desenvolveu o projeto para