• Nenhum resultado encontrado

Uma contribui¸c˜ao importante ´e o facto do pr´oprio utilizador poder dar su- gest˜oes de palavras que considera erradas, ou palavras que n˜ao considera erradas11. A aceita¸c˜ao da sugest˜ao ´e deixada ao crit´erio das pessoas que tˆem acesso de escrita ao dicion´ario. Ambos os casos ajudam a descobrir erros no dicion´ario, e palavras em falta.

11

4.4. Contribui¸c˜oes 63

Figura 4.6: Exemplo de execu¸c˜ao do Webjspell. realiza¸c˜ao da an´alise morfo- l´ogica da palavra “gatinho”.

320 pal 147 possivel 108 Lucho 100 nao 98 Poe 89 tambem 88 voce 88 VIPFARMA 88 Uh 83 Romagnoli 78 Fuad 71 alguem 65 nivel 64 uh 61 Cardozo 59 PEAD 59 Luis ... 41 WSD 36 USB 34 Souza 17 edificio

Figura 4.7: Os erros mais frequentes detectados pelo Webjspell.

102 poss´ıvel {possivel(100),posivel(1),pocivel(1)} 73 n~ao {nao(66),conseguia-mos(1),n~aao(1),atomica(1),

escult´orico(1),fevreiro(1),n~ao-´etico(1),n~a(1)} 58 tamb´em {tamb´e(1),tambem(57)}

33 j´a {ja(31),j`a(1),Ja(1)}

32 algu´em {alg´em(1),algu^em(1),alguem(30)} 26 dif´ıcil {dific´ıl(1),dificil(25)} 23 Lu´ıs {Luis(23)}

20 fam´ılia {famila(1),familia(19)} 17 sa´ude {saude(16),Saude(1)}

17 s~ao {necessarias(1),nesessarias(1),s~aa(1),s´ao(1),sao(13)} 17 f´acil {facil(17)}

17 dispon´ıveis {disponiveis(17)} 16 n´ıvel {nivel(16)}

15 na {nao(7),recepcao(1),ja(5),secuencia(1),microeletr^onica(1)}

15 a {aseguir(2),desnfumagem(1),a(1),voi¸ce(1),apena(1),desponiblidade(1), apartir(2),gerenciamento(1),Johnson(1),araz~ao(1),

aprecisar(1),prox´ıma(1),amorrer(1)}

14 transfer^encia {ransfer^encia(1),transferencia(11),tranfer^encia(2)} 14 est~ao {et~ao(1),estao(12),estam(1)}

Figura 4.8: As correc¸c˜oes ortogr´aficas mais frequentes efectuadas pelos uti- lizadores no Webjspell. Primeiro a palavra correcta, e depois uma lista de palavras erradas, de qual foi corrigida.

4.4. Contribui¸c˜oes 65 25 blog 24 pal 21 Heero 20 Motorola 18 nao 18 email 18 diafragmas 17 planilha 15 ve 13 Quatre 11 SATA 11 ja 10 Sebastiano 10 ACDP 9 lol 8 Sub-Guia 8 qd 8 interaccionais

Cap´ıtulo 5

Conclus˜ao

A manuten¸c˜ao de dicion´arios ´e uma tarefa complexa. Diferentes aplica¸c˜oes de an´alise morfol´ogica e correc¸c˜ao ortogr´afica evoluem ao longo do tempo, devido `a altera¸c˜ao da sintaxe ou adi¸c˜ao de funcionalidades. Os recursos l´exicos destas ferramentas reflectem essa mudan¸ca e necessidade de manter o ritmo de actualiza¸c˜ao.

Ao longo desta disserta¸c˜ao procurou-se descrever os diferentes recursos produzidos e a sua utilidade num todo. Manter um n´umero crescente de recursos lexicais e distribu´ı-los num dom´ınio p´ublico, sem uma organiza¸c˜ao clara ´e insustent´avel. Foi necess´ario construir uma ferramenta que supervisi- onasse todo o processo.

O chuveiro de dicion´arios veio colmatar este problema ao gerir mais efi- cazmente as vers˜oes dos diversos dicion´arios e do pr´oprio l´exico, com a cen- traliza¸c˜ao da informa¸c˜ao numa ´unica fonte.

A implementa¸c˜ao do ChuvDic expandiu o uso do dicion´ario1 para diver- sos m´odulos de correc¸c˜ao ortogr´afica, integrados em aplica¸c˜oes Open Source, como o OpenOffice, Thunderbird, Firefox2, Abiword, VI, Emacs, Opera, en- tre outras.

Os recursos produzidos pelo chuveiro de dicion´arios, converteu o sistema num servi¸co ´util a toda a comunidade. O n´umero de sugest˜oes recebidas pelos usu´arios cresceu substancialmente, com a recep¸c˜ao de feedback cr´ıtico para a valida¸c˜ao do l´exico do Jspell, sejam palavras novas, ou palavras para

1

Baseado no dicion´ario Jspell para portuguˆes de Portugal, do projecto Natura.

2

O plugin do corrector portuguˆes para o Firefox conta at´e `a data com mais de um milh˜ao de downloads.

remo¸c˜ao.

Este ambiente favor´avel potenciou o surgimento de novas ferramentas e recursos, especialmente de valida¸c˜ao do l´exico, testes da estrutura dos forma- tos, ferramentas para gera¸c˜ao de recursos lingu´ısticos para consulta e servi¸cos para interac¸c˜ao com o utilizador, como o Webjspell.

O Webjspell forneceu uma interface atraente ao usu´ario comum do Jspell, para testar a sintaxe e morfologia das palavras, mas mais importante, este servi¸co permitiu recolher n˜ao s´o sugest˜oes dos utilizadores, como tamb´em extrair informa¸c˜ao a partir de logs, para a manuten¸c˜ao do l´exico.

Todo o chuveiro de dicion´arios produz um ambiente realimentado da informa¸c˜ao. Desde a produ¸c˜ao de ferramentas e de recursos at´e ao feedback, todo o processo contribui para um melhoramento gradual da qualidade, n˜ao s´o do l´exico, mas tamb´em dos mesmos recursos e ferramentas, levando `a sua expans˜ao.

5.1

Trabalho futuro

O chuveiro de dicion´arios abriu novas perspectivas para a concretiza¸c˜ao de outros projectos e ferramentas:

• Muitos dos recursos gerados s˜ao pass´ıveis de serem modelados. Pretende- se implementar uma linguagem declarativa de dom´ınio espec´ıfico (DSL) para o ChuvDic, que possibilite a constru¸c˜ao de recursos lexicais perso- nalizados. Esta linguagem permitir´a modelar o conte´udo do dicion´ario, tendo em conta o formato do dicion´ario e a tem´atica, a semˆantica e a frequˆencia das palavras.

• Seguindo ainda a ideia anterior, permitir ao usu´ario gerar vers˜oes perso- nalizadas de dicion´ario. Usando uma ferramenta intuitiva e disponivel via Internet.

• Pretende-se, com a actual variedade de sistemas operativos e aplica¸c˜oes, alargar os tipos de formato de armazenamento do dicion´ario, para dis- tribui¸c˜ao.

References 69

References

Almeida, J.J. and Ulisses Pinto. 1994. Manual de utilizador do JSpell. Manual, Universidade do Minho, Departamento de Inform´atica.

Almeida, J.J. and Ulisses Pinto. 1995. Jspell – um m´odulo para an´alise l´exica gen´erica de linguagem natural. In Actas do X Encontro da Associa¸c˜ao Portuguesa de Lingu´ıstica, pages 1–15.

Almeida, J.J. and Ulisses Pinto. 1997. Jspell a module for morphological analyser for natural language.

Alvestrand, H. 2001. Tags for the identification of languages, bcp 47, rfc 3066.

Atkinson, Kevin. 2006. Aspell 0.5, 0.6, http://aspell.net.

Carvalho, Nuno, Jos´e Jo˜ao Almeida, and Alberto Sim˜oes. 2008. NAVE- GANTE — an intrusive browseing framework. In Jos´e Carlos Ramalho, Jo˜ao Correia Lopes, and Salvador Abreu, editors, XATA 2008 — 6aCon- ferˆencia Nacional em XML, Aplica¸c˜oes e Tecnologias Aplicadas, pages 52–63, February.

Ceruzzi, Paul E. 1998. A history of modern computing. MIT Press, Cam- bridge, MA, USA.

Consortium, The Unicode. 2003. The Unicode Standard – Version 4.0. CPLP. 1990. Acordo ortogr´afico da l´ıngua portuguesa - resolu¸c˜ao da assem-

bleia da rep´ublica portuguesa n.o 26/91.

Damerau, Fred J. 1964. A technique for computer detection and correction of spelling errors. Commun. ACM, 7(3):171–176.

de Almeida, Jos´e Jo˜ao. 1997. Projecto natura, http://natura.di.uminho.pt. de Almeida, Jos´e Jo˜ao Dias. 2003. Dicion´arios dinˆamicos multi-fonte. Tese

de doutoramento, Universidade do Minho, December. Doar, Matthew. 2005. Practical Development Environments.

Garrido-Alenda, A. and M. L. Forcada. 2007. Comparing nondeterministic and quasideterministic finite-state transducers built from morphological dictionaries. In Procesamiento del Lenguaje Natural, (XVIII Congreso de la Sociedad Espa˜nola de Procesamiento del Lenguaje Natural, pages 291–292.

ISO. 1988. Iso 3166:1988. codes for the representation of names of countries, 3rd edition.

ISO. 1998. Iso 639-2:1998. codes for the representation of names of languages – part 2: Alpha-3 code, first edition.

ISO. 2002. Iso 639-1:2002. codes for the representation of names of languages – part 1: Alpha-2 code.

Kuenning, Geoff. 2005. International ispell version 3.3.02, http://www.lasr.cs.ucla.edu/geoff/ispell.html.

Medeiros, Jos´e Carlos. 1995. An´alise morfol´ogica e correc¸c˜ao ortogr´afica do Portuguˆes. Tese de mestrado, Instituto Superior T´ecnico, Universidade T´ecnica de Lisboa.

Morris, Robert and Lorinda L Cherry. 1975. Computer detection of ty- pographical errors. IEEE Trans Professional Communication, PC-18 no.1:54–64.

N´emeth, L´aszl´o. 2009. Hunspell 1.2.8, http://hunspell.sourceforge.net/.

Peterson, James L. 1978. Computer Organization and Assembly Language Programming. Academic Press.

Peterson, James L. 1980. Computer programs for detecting and correcting spelling errors. Commun. ACM, 23(12):676–687.

Processing, Information. 1988. 8-bit single-byte coded graphic character sets, part 1: Latin alphabet iso 8859-1.

Processing, Information. 1999. 8-bit single-byte coded graphic character sets, part 15: Latin alphabet iso 8859-15.

Sim˜oes, Alberto and Rita Farinha. 2008. Dicion´ario aberto. In XXIV Encon- tro Nacional da Associa¸c˜ao Portuguesa de Lingu´ıstica, Braga, Portugal, November.

Sim˜oes, Alberto Manuel and Jos´e Jo˜ao Almeida. 2001. jspell.pm – um m´odulo de an´alise morfol´ogica para uso em processamento de linguagem natural. In Actas da Associa¸c˜ao Portuguesa de Lingu´ıstica, pages 485– 495.

References 71

Vilela, Rui. 2007. Webjspell, an online morphological analyser and spell checker. In Procesamiento del Lenguaje Natural 39 - SEPLN, pages 291– 292.

Zar, Jerrold H. 1992. Spell checker poem (biografia de j.zar), http://www.bios.niu.edu/zar/zar.shtml.

Documentos relacionados