• Nenhum resultado encontrado

Pré-Processamento para Recuperação de Informação em Textos Históricos do Século XIX

N/A
N/A
Protected

Academic year: 2021

Share "Pré-Processamento para Recuperação de Informação em Textos Históricos do Século XIX"

Copied!
8
0
0

Texto

(1)

em Textos Históricos do Século XIX

Juliana Wolf Pereira1, Marcelo Rocha Barros Gonçalves2, Marilde Terezinha Prado Santos1

1 Universidade Federal de São Carlos, Brazil 2 Universidade Federal de Mato Grosso do Sul

{juliana.pereira, marilde}@dc.ufscar.br {marcelo.barros}@ufms.br

Resumo. Este trabalho tem por objetivo apresentar uma metodologia de pré-processamento para investigar e recuperar informação em textos do século XIX que discutem a constituição da língua pátria, a Língua Portuguesa no Brasil. O tópico de pesquisa é multidisciplinar, tendo as áreas envolvidas em Mineração de Texto na Língua Portuguesa, Processamento de Línguas Naturais, Recuperação de Informação e Ontologias, Bibliotecas Digitais e os Sistemas de Busca envolvidos para identicação das obras em um acervo. A metodologia proposta prevê a execução do módulo de pré-processamento de textos históricos com a nalidade de gerar um XML Semântico.

Palavras-chave: Documentos Históricos, Mineração de Texto, Ontologias, Processamento de Línguas Naturais, Recupe-ração de Informação.

1. INTRODUÇÃO

Bibliotecas digitais em nível nacional buscam digitalizar seus recursos para, além da preservação, disponibilizar e divulgar esse material. Isso está ganhando destaque recentemente no Brasil, como no caso da Hemeroteca Digital Brasileira (hemerotecadigital.bn.br) que teve sua inauguração em julho de 2012 com mais de 5 milhões de documentos digitalizados, e há perspectiva de que este acervo alcance mais de 10 milhões de documentos digitalizados ainda em 2013.

Outro exemplo que ganha destaque no cenário nacional é o da Brasiliana da USP (brasiliana.usp.br)  Brasiliana é tudo que foi escrito do Brasil por brasileiros ou estrangeiros e será o maior conjunto de livros e documentos que falam sobre o Brasil. Inclusive a USP acaba de anunciar a digitalização das obras raras contidas nos acervos Guita e José Midlim, maior colecionador de obras raras do Brasil. Podemos citar ainda o exemplo da biblioteca da FGV  CPDoc.

Essa ideia começa a ganhar destaque no Brasil. É nova e necessária para a conservação da história do nosso país e preservação desse material riquíssimo e delicado que sem essa iniciativa poderia facilmente se perder ou se deteriorar nas estantes das bibliotecas, e principalmente não ser acessível à grande maioria da população.

A publicação desses materiais torna, de certa forma, acessível o conhecimento contido neles. Porém, da forma como ele está disponibilizado hoje, o que já é de grande valia, ainda diculta o acesso a pessoas que não tem conhecimento sobre onde e como buscar as informações. Isto também pode acontecer com os especialistas (pesquisadores), que precisam ter conhecimento prévio para realizarem suas buscas, uma vez que os sistemas de busca em questão só tratam de informações padronizadas desses documentos.

Comumente os sistemas de busca nos acervos dos séculos passados restringem-se à recuperação por metadados. No nosso caso, o foco da recuperação está no conteúdo de periódicos publicados no Brasil no m do século XIX. Portanto, um dos nossos objetivos é recuperar a informação contida dentro

(2)

destes textos com vistas a facilitar o uso e acesso às pessoas.

Não é incomum o trabalho com mineração de texto e processamento de línguas naturais para tratar das questões de preparação do texto para futuras análises. Nesse caso particular, os métodos e técnicas podem ser adaptados para conservar as características próprias de textos históricos e manter suas reais informações, como perceberam os autores [Cândido Jr and Aluísio 2008] em relação a variação de graa entre os anos 1500 e 1808 e em relação aos desaos na construção de córpus históricos, como, por exemplo, a tipologia textual. No século XIX o problema gráco persistiu e ainda eram encontradas nos textos ocorrências de uma grande variação ortográca (acentuação, consoantes dobradas, colocação pronominal) como é o caso da Revista Brazileira (1879 1900).

2. LÍNGUA E DIALETO NA REVISTA BRAZILEIRA

Diferentemente do que ocorreu com a língua italiana em relação ao dialeto toscano e com a língua alemã em relação às variações do alto alemão, como por exemplo o bavário e o alemânico, a formação da língua portuguesa no Brasil como língua ocial não seguiu o mesmo caminho. Se em outros países a relação entre língua e (um) dialeto podem sugerir de maneira mais clara a relação entre esses termos, no Brasil a história não se repetiu da mesma maneira. Bom exemplo de como na língua portuguesa a relação entre língua e dialeto é bastante distinta pode ser observado em variados autores da Revista Brazileira, publicada em ns do século XIX.

Esta pesquisa pretende abordar questões ligadas às variações de sentido e suas relações dentro e entre os textos. Acreditamos ser possível estabelecer, a partir de um conjunto especíco de textos (um domínio), uma hierarquia conceitual para aprimorar a busca de informação através da construção de uma ontologia de domínio. Nos textos da Revista Brazileira Língua Portuguesa pode fazer referência a dois países diferentes, Portugal e Brasil, e dialecto à diferentes regiões dentro desses países, o que nos obriga a pensar com mais cuidado nos relacionamentos entre esses conceitos. Uma ontologia nesse sentido, diferentemente de um dicionário, deveria portanto levar em consideração que se tratam ora de países diferentes, ora de regiões diferentes. Não há nas páginas da Revista Brazileira um consenso entre os autores estudados sobre a denição de língua e dialeto, menos ainda entre os seus relacionamentos. Assim é relevante também estabelecer o posicionamento teórico do autor quando utiliza os termos língua, dialecto, falar, idioma, ou seja, se ele considera língua superior aos demais ou se estão todos no mesmo nível.

Neste período estudado, como arma [Gonçalves 2012], além das variações grácas, os conceitos também apresentaram certa instabilidade, revelando posições distintas de brasileiros e portugueses em relação à constituição da língua portuguesa no Brasil. É preciso pensar melhor nas relações entre os conceitos de língua portuguesa, língua nacional, dialeto, e outros, para minerar com mais qualidade os textos. Não é sempre, por exemplo, que a relação entre dialeto e língua será conotada por uma relação de inferioridade ou subordinação, nem mesmo que o alçamento de uma variação regional à língua ocial possa ser vericado.

A publicação expressiva da Revista, dirigida por Nicolau Midosi de junho de 1879 a dezembro de 1881 somou trinta números, reunidos em dez volumes. Retomada em 1895 por José Veríssimo e publicada até 1899 (93 fascículos), a revista é, por exemplo, o veículo de divulgação dos discursos inaugurais da Academia Brasileira de Letras, proferidos na ocasião por Machado de Assis, Joaquim Nabuco e Rodrigo Otávio. Por iniciativa de Levi Carneiro, presidente à época da Casa de Machado de Assis, a Revista é retomada novamente em 1941, desta vez publicada pela Academia Brasileira da Letras. Hoje encontra-se na Fase VIII com início no primeiro trimestre de 2012, sob a direção de Marco Lucchesi.

Na fase em análise da revista brasileira é predominante a discussão da diferença da Língua Por-tuguesa no Brasil em relação a Portugal. Este conjunto de textos reunidos em torno de temáticas tão distintas (lexicologia, sintaxe, fonologia, etc.), mas de alguma maneira convergentes no sentido

(3)

de separar as duas línguas em questão, pode exemplicar o intenso trabalho de instrumentação da língua no Brasil durante este período, reexo assim da gramatização pela qual passava a língua por-tuguesa. São comuns, por exemplo, a utilização dos paradigmas verbais, das traduções interlineares, dos conjuntos de regras e exemplos [Gonçalves 2012].

De uma maneira geral é possível perceber algumas mudanças da fase Midosi para a fase Veríssimo, principalmente nos eixos temáticos da Revista: desaparecem consideravelmente os textos sobre lexi-cologia (etimologia) e ortograa. Há de se considerar aí que Macedo Soares contribuiu em muito na primeira fase para o desenvolvimento destes temas através da publicação dos Estudos lexicographi-cos do dialecto brazileiro. Os textos de análise de língua permanecem na fase Veríssimo, como por exemplo a colocação dos pronomes e a conjugação verbal. E também os trabalhos de Said Ali sobre os verbos sem sujeito e a acentuação [Gonçalves 2012].

Uma coleção completa da Revista Brasileira encontra-se no Arquivo-Museu de Literatura Brasileira da Fundação Casa de Rui Barbosa. E desde julho de 2012 está disponível em formato digital e com reconhecimento de OCR na Hemeroteca Digital Brasileira da Fundação Biblioteca Nacional.

3. TRABALHOS RELACIONADOS

O Dicionário Histórico do Português do Brasil (DHPB) foi idealizado pela ProfaMaria Tereza Camargo Biderman. Registra as mudanças semânticas que as unidades lexicais sofrem ao longo do tempo e é relativa aos séculos XVI, XVII e XVIII [Murakawa 2009]. O trabalho de [Cândido Jr 2008] é um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes para o DHPB, sendo possível aplicá-lo a outros projetos de criação de dicionários históricos. Nesse trabalho importantes ferramentas foram desenvolvidas para a manipulação de Textos Históricos. Duas delas, a Protew e a Protej, tem sido utilizadas nessa pesquisa.

O Tycho Brahe Corpus Histórico do Português Tycho Brahe é um córpus eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845 [Galves and Faria 2010]. Neste trabalho, o autor [Menegatti 2002] discute as regras linguísticas para o tratamento com-putacional da variação de graa e abreviaturas do córpus Tycho Brahe. Diferentes abordagens são apresentadas por [Hirohashi 2004] para detecção automática de variações de graa, como por agrupa-mento por distância de edição, análise fonética e regras de normalização aprendidas automaticamente. Em outras línguas também há preocupação em tratar textos históricos. Como no trabalho dos autores [Ernst-Gerlach and Fuhr 2007], em que é apresentada uma abordagem para recuperação em textos históricos escritos na Língua Alemã, em que a ortograa não é padronizada. Outra abordagem de como recuperar informação em uma coleção de documentos escritos no século XVII em Língua Holandesa é discutida pelos autores [Kempken et al. 2006]. São avaliadas as medidas de distância fonética, correção dos erros de digitação e similaridade entre strings. Ele comprova que as consultas modernas não são ecazes para a recuperação de documentos históricos, no entanto, ferramentas de linguagem histórica aumentam a ecácia da recuperação. As melhorias são signicativas e estão muito além ao uso de algoritmos modernos decorrentes.

Diferentemente dessas propostas nosso foco principal não está nas variações ortográcas e sim nas variações de sentido de um determinado domínio. E para isso é importante pensar em uma ontologia capaz de representar melhor os relacionamentos entre os conceitos de língua e dialeto e assim facilitar a recuperação dessas informações.

4. ARQUITETURA DO MÉTODO

A arquitetura principal do sistema apresentada na Figura1, mostra a ideia geral da metodologia pro-posta. Como entrada para o Sistema de Busca de Textos Históricos (SBTH) temos os documentos

(4)

Fig. 1: Arquitetura da metodologia

históricos em formato PDF e como saída um arquivo XML Semântico que possibilitará a busca semân-tica e a Informação. Uma ontologia de domínio também alimenta o sistema principal possibilitando assim as anotações semânticas e a busca nos documentos.

O Sistema de Busca de Textos Históricos é constituído de dois módulos principais conforme mostra a Figura 2, o Módulo de Pré-Processamento e o Módulo do Sistema de Recuperação de Informação. O módulo de Pré-Processamento, que inicialmente é o foco deste trabalho, possui duas outras grandes etapas que são: Converter os Textos e Revisar o OCR e a Anotação do XML Semântico.

(a) SBTH (b) Módulo de Pré-Processamento

(5)

Fig. 3: Converter os Textos e Revisar OCR

4.1 Pré-Processamento

A etapa de pré-processamento dos documentos é fundamental para que se obtenha sucesso nas etapas seguintes do processo e caracteriza-se por ser a atividade de maior custo. Na Figura 3 podemos observar o primeiro módulo do pré-processamento que consiste na conversão dos arquivos do formato PDF para um arquivo de formato DOC. Isso é possível pois as Revistas Brazileiras disponibilizadas na Hemeroteca Digital Brasileira já tem seu conteúdo reconhecido pelo OCR, assim é possível converter manualmente os textos de PDF para DOC apenas com o uso de ferramentas livremente disponíveis como um leitor de PDF e um editor de texto.

Como exemplo será apresentado um pequeno trecho das páginas 270 e 271 do texto Estudos Le-xicographicos Do Dialecto Brazileiro IV de Macedo Soares que faz parte da Revista Brazileira, Ano I, tomo IV, abr-jun 1880, p.243-271. Podemos observar o resultado da etapa de Converter PDF para DOC do módulo de Converter/Revisar OCR na Figura 4(a) e na Figura 4(b). Com os documentos con-vertidos para um arquivo de formato DOC, o próximo passo é a revisão e correção dos erros originados pelo OCR em comparação aos textos originais. Uma primeira correção é realizada por colaboradores do projeto e uma segunda revisão é feita pelo especialista do sistema, esse passo é importante para que esse tipo de erro não prejudique as análises futuras dos textos. Os erros mais comuns encontrados são alteração de letras, acentuação, pontuação, junção de palavras e linhas muito inclinadas também não são lidas e necessitam que sejam digitadas. Na Figura 5(a) brazileiro por braziieiro, apuramos por apurámos, que é por que'é, entre outros. Nesses casos todas as alterações devem ser feitas manualmente e representam a etapa mais custosa da metodologia.

Como saída desse módulo temos um arquivo em formato DOC corrigido e um Repositório de Erros em que estão armazenados os principais e recorrentes erros gerados pelo OCR. O resultado dessa etapa pode ser observado na Figura 5(a) e na Figura 5(b).

A Figura 6 mostra o segundo módulo do pré-processamento que é constituído de três etapas. Na primeira etapa, conforme Figura 7(a), temos como entrada o arquivo DOC corrigido e como saída um arquivo no formato TXT. Nessa etapa, com o auxílio da ferramenta Protew desenvolvida por [Cândido Jr 2008], é possível a conversão dos arquivos em formato DOC para o formato TXT e

(6)

(a) Texto original em PDF extraído da HDB (b) Trecho do texto depois da conversão para DOC Fig. 4: Conversão do texto original em formato PDF para o formato DOC

(a) Corrigir Erros OCR (b) Texto DOC corrigido

Fig. 5: Correção dos Erros de OCR

também a criação e extração das chas catalográcas contendo os metadados que identicam cada documento. Optamos pela conversão dos textos primeiramente para o formato DOC para manter as características de formatação originais do texto e além disso viabilizar o uso da ferramenta Protew.

Na próxima etapa, os documentos que já estão em formato de texto puro, receberão uma anotação nos conceitos de acordo com a ontologia desenvolvida junto com o especialista do domínio. A ontologia descreve uma característica signicativa e recorrente nessas publicações da Revista Brazileira que é a discussão a respeito do conceito de língua e dialeto. Podemos destacar o grande número de termos utilizados: língua, dialeto, idioma e muitos outros adjetivos como americana, indígena, e, principalmente, brasileiro (a). A saída dessa etapa é um documento no formato TXT anotado de acordo com os termos presentes na ontologia de domínio, Figura 7(b).

Em seguida, esse documento anotado e a cha catalográca, Figura 8, contendo os metadados servem como entrada para a próxima etapa que tem por objetivo gerar o XML Semântico, produto nal do pré-processamento. Essas anotações semânticas podem permitir uma busca semântica a partir das tags que estão de acordo com a ontologia de domínio. A busca por um termo permitirá encontrar também os outros termos presentes na ontologia e os relacionamentos entre eles.

(7)

Fig. 6: Anotar XML Semântico

(a) Texto Puro (b) Arquivo TXT anotado de acordo com a ontologia Fig. 7: Conversão do texto de DOC para o formato TXT e anotação do arquivo TXT

Fig. 8: Ficha Catalográca

5. CONCLUSÃO E TRABALHOS FUTUROS

O trabalho apresentou as etapas de transformação de documentos históricos disponíveis na web em arquivos pré-processados e semanticamente anotados o que possibilitará a busca no conteúdo desses

(8)

Fig. 9: XML Semântico

documentos de acordo com o domínio denido na ontologia. A ideia de disponibilizar esse documento é permitir futuras análises por especialistas do domínio, pesquisadores de áreas multidisciplinares e também o público geral.

Trabalhos futuros incluem o renamento da ontologia a partir dos resultados do pré-processamento. Também como trabalhos futuros é deixado o módulo de recuperação de informação do SBTH, que torna o sistema capaz de recuperar os textos que discutem o domínio da ontologia.

REFERÊNCIAS

Cândido Jr, A. Criação de um ambiente para o processamento de córpus de Português Histórico. M.S. thesis, dissertação (Mestrado em Ciências de Computação e Matemática Computacional), Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2008.

Cândido Jr, A. and Aluísio, S. M. Procorph: um sistema de apoio à criação de dicionários históricos. In Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web. ACM, pp. 347352, 2008.

Ernst-Gerlach, A. and Fuhr, N. Retrieval in text collections with historic spelling using linguistic and spelling variants. In Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries. ACM, pp. 333341, 2007. Galves, C. and Faria, P. Tycho brahe parsed corpus of historical portuguese. http://www.tycho.iel.unicamp.br/

ty-cho/corpus/en/index.html, 2010.

Gonçalves, M. R. B. As teorias lingüísticas da espacialidade : uma agenda dialetológica na gramatização do portu-guês do Brasil. Ph.D. thesis, Tese (Doutorado em Linguística). UNICAMP - Universidade Estadual de Campinas, Campinas, 2012.

Hirohashi, A. Aprendizado de regras de substituição para normatização de textos históricos. M.S. thesis, dissertação (Mestrado em Ciências de Computação e Matemática Computacional), Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2004.

Kempken, S., Luther, W., and ThomasPilz. Comparison of distance measures for historical spelling variants. In Articial Intelligence in Theory and Practice. Springer, pp. 295304, 2006.

Menegatti, T. A. Regras lingüísticas para tratamento computacional da variação de graa e abreviaturas do corpus tycho brahe. Tech. rep., 2002.

Murakawa, C. d. A. A. Lexicograa e história: O dicionário histórico do português do brasil - séculos xvi, xvii, xviii. Os Estudos Lexicais em Diferentes Perspectivas, 2009.

Referências

Documentos relacionados

Assim sendo, a. tendência assumida pela pós - graduação em co- municação nos anos 60 contribuiu muito menos para melhorar e.. Ora, a comunicação de massa , após a Segunda Guerra

aulas a serem ministradas, possibilitando a construção do senso crítico do aluno diante do estudo, buscando sempre uma relação com a temática proposta e o cotidiano

13 Assim, a primeira fase no momento da dispensa de um MSRM é a validação da receita, por isso, independentemente do modo de disponibilização da prescrição, a receita

Estudo de caso (ações do coletivo Lupa) Questionários Quanto aos procedimentos Pesquisa Básica Quanto a Natureza Registros fotográficos Quanto ao método

Para fomentar a plena prática gerencial da Responsabilidade Social, é descrita a utilização do sistema estratégico de gestão Balanced Scorecard, associando os fatores críticos

Os principais objectivos definidos foram a observação e realização dos procedimentos nas diferentes vertentes de atividade do cirurgião, aplicação correta da terminologia cirúrgica,

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

Artigos como os de Leloup & Shull (1979) e Sigleman (1979) apresentam argumentos que justificam, em grande medida, como o bipartidarismo diminui em intensidade ao longo da.. Os