• Nenhum resultado encontrado

7.2 A SIMPLIFICAÇÃO TEXTUAL (ST) E A LINGUÍSTICA COMPUTACIONAL/PLN

7.2.4 A Simplificação Textual em corpora: Wikipedia e Corpop

Wikipedia. A versão simplificada da Wikipedia em inglês, a Simple English Wikipedia (SEW) possibilitou que pesquisadores usassem as duas versões da enciclopédia virtual, English Wikipedia (EW) e Simple English Wikipedia (SEW) para construir corpora comparáveis de textos originais e adaptados (simplificados). Conforme explica Saggion (2017) Yatskar et. al (2010) criaram um sistema com as duas versões da Wikipedia para estabelecer regras de substituição lexical no formato x → y. Assim, foram selecionados pares de textos da EW (original) e SEW (simplificada) e verificou-se quais palavras foram substituídas para tornar a SEW mais simples que a EW. Dessa forma, a “abordagem probabilística é usada para modelar a probabilidade de a palavra x ser substituída pela palavra y pelo fato de y ser mais simples que x” (2017, cap. 3, p.11).

Segundo ainda Saggion (2017), outro trabalho com os corpora EW/SEW foi o realizado por Biran et al. (2011). Neste caso, são utilizados vetores de contexto para identificar pares de palavras que ocorrem em contextos similares na SEW e na EW. O banco de dados lexical WordNet é utilizado como filtro para possíveis regras de substituição lexical (x → y). Nesse caso, foi definida uma medida de complexidade lexical, levando em consideração a extensão e a frequência da palavra.

Essas abordagens probabilísticas só puderam ser mensuradas porque foi possível criar corpora paralelos com as duas versões dos textos: o texto original e o texto simplificado. Para os projetos mencionados anteriormente, no item 7.2.3, também se criaram corpora com textos originais e adaptados; contudo em extensão muito menor do que o que ocorreu neste caso com os textos da Wikipedia.

CorPop. O CorPop é um recurso on-line que nasceu da pesquisa de doutoramento de Bianca Pasqualini (2018) e que visa a servir como um corpus de referência do português popular escrito no Brasil. O CorPop foi compilado a partir de textos selecionados com base no nível de letramento médio dos leitores do país e pode ser livremente acessado e percorrido.40 O acervo do CorPop é, assim, uma ferramenta a ser utilizada como referência para uso/escolha de palavras potencialmente mais acessíveis para um leitor adulto de escolaridade limitada com Ensino Fundamental completo.

O CorPop, diferentemente do corpus formatado com base no English Wikipedia e Simple English Wikipedia não é um corpus comparável simplificado, pois ele não possui textos na versão original e suas versões adaptadas, mas é uma ferramenta que pode servir de referência para diferentes redatores de textos, desde médicos a tradutores, de modo a obterem auxílio na avaliação de vocabulário acessível.

Assim como fiz com as ferramentas de simplificação automática disponíveis on-line, realizei alguns testes no CorPop. Vale frisar que ter um corpus de referência é de extrema relevância, pois muitas vezes é difícil avaliarmos se determinada palavra seria acessível ou não a um dado grupo de leitores. O CorPop, portanto, pode ajudar um redator ou tradutor a tomar decisões mais embasadas sobre quais termos ou palavras devem ser simplificados.

O CorPop possui também uma lista lematizada. Como explica Pasqualini (2018) no site da ferramenta, o primeiro procedimento foi usar a lista das palavras mais frequentes do CorPop (os 10.695 types mais frequentes) por meio da ferramenta AntConc para, em seguida, lematizar essa lista, ou seja, fazer com que as palavras ficassem em sua forma pura ou lema. Por exemplo, verbos ficaram em sua forma infinitiva, adjetivos e substantivos em sua forma singular masculina e sem flexão de grau e advérbios ficaram sem flexão de grau. Depois de limpa e revisada (foram retirados da lista os nomes próprios; as localidades; as preposições; os pronomes pessoais; advérbios comuns como “sim”, “não”, “mal”, “nem”; artigos definidos e indefinidos; pronomes demonstrativos; interjeições; meses do ano e dias da semana; prefixos soltos (pré, pós, etc.); siglas; numerais cardinais e ordinais;

regionalismos presentes em um só texto do corpus, como "cafua", "volitar", "períspirito"), a lista lematizada foi levada de volta ao AntConc para ser refeita agora somente com os lemas. Dos mais de 10 mil types iniciais, ficaram 5.229.

O CorPop oferece um concordanciador, que permite fazer busca de contextos para palavras que estão nos textos. O usuário digita uma palavra e visualiza como resultado as suas ocorrências em frases. Se você preceder ou suceder o elemento que busca por '*', serão ignoradas outras letras e o foco é sobre um RADICAL. Por exemplo, ao digitar "pod*", você verá ocorrências para "poderíamos", "podem", etc. Vale o inverso para uma busca com "*mos": você terá uma lista de contextos com palavras terminadas por -MOS.

A ferramenta ainda possui um recurso chamado N-Gramas Esta ferramenta localiza agrupamentos de palavras, chamados N-GRAMAS ou SINTAGMAS. Permite obter uma lista de ocorrências de grupos de palavras repetidos ao longo de um texto/corpus com indicação do seu número de repetições. O usuário pode escolher qual o tamanho dos grupos cuja presença deseja verificar - grupos de dois, três ou quatro unidades. Um BIGRAMA é um grupo de palavras composto por duas unidades. Exemplo de bigrama: ácido sulfúrico. Exemplo de trigrama: óxido de ferro.

Na página inicial do CorPop o usuário pode selecionar com quais seleções de corpus ele quer trabalhar/consultar. A Figura 46 mostra a interface inicial da ferramenta onde se podem selecionar os corpora de consulta. O usuário pode selecionar todos ao mesmo tempo ou aqueles que desejar.

Figura 46: Página inicial do CorPop onde o usuário seleciona com quais corpora quer trabalhar

Figura 47: Pesquisa do termo ‘patologia’ realizada no CorPop

Fonte: Corp Pop. (2018, documento on-line).

Figura 48: Resultado da pesquisa por ‘patologia’ no concordanciador do CorPop

Figura 49: Resultado da pesquisa por ‘doença’ no concordanciador do CorPop

A Acessibilidade Textual pode ser compreendida como uma qualidade, uma condição do texto e, principalmente, como algo que se deseja promover ou concretizar de modo que determinada comunidade leitora tenha condições de compreender um dado texto. Com isso, a desejada acessibilidade pode vir a ser o produto resultante desses processos. Como explica Finatto:

A Acessibilidade Textual e Terminológica pode ser vista como uma condição desejada, resultante de processos de escrita ou de reescrita que partem de um texto- fonte, ou de uma informação-fonte, em tese, complexos. Essa “complexidade original” estimada e da qual se parte como referência tende a ser, também, multifatorial, podendo ser construída por conteúdos, convenções de escrita, etc. (FINATTO, no prelo).

Neste capítulo, dou continuidade ao tratamento do trinômio citado como base desta pesquisa: Complexidade Textual (CT), Simplificação Textual (ST) e Acessibilidade Textual (AT). A seguir, trago um esquema que ilustra a Acessibilidade Textual como um produto resultante da análise da Complexidade e do processo de Simplificação, se estes forem bem- sucedidos.

Figura 50: Acessibilidade Textual como produto

Fonte: Elaborado pela autora (2018).

A Acessibilidade Textual, para que possa de fato se concretizar, precisa ser trabalhada no âmbito da construção do texto, por meio da análise de sua complexidade e posterior simplificação de seu léxico e de sua sintaxe. Neste contexto, o redator e/ou o tradutor tem papel primordial, pois a construção de um texto acessível não é feita com base

em “achismos”. Um texto acessível precisa ser construído por quem domina não só a linguagem, mas por quem possua determinadas competências e atributos psicofisiológicos que contribuirão para um resultado desejável no que tange essa acessibilidade.

Assim, como vimos anteriormente nesta dissertação, a capacidade de adaptação e a empatia aparecem como atributos essenciais a este profissional do texto. Contudo, este assunto ainda inspira reflexões. Pois seriam essas características inerentes ou poderiam ser aprendidas em sala de aula? Todo o redator e/ou tradutor “bem treinado” estaria apto a traduzir ou redigir textos acessíveis? Ou esta seria uma modalidade da tradução resguardada apenas a profissionais com determinadas características? Não tenho uma resposta definitiva para essas questões tampouco sei se elas existem. Contudo, a experiência prática em sala de aula sobre a temática da CT, ST e AT fornece indícios de que trabalhar estas questões em sala de aula e buscar preparar o profissional dos cursos de Letras para a produção de textos acessíveis agrega valor à sua formação, ampliando seus horizontes para um tema de forte relevância social

Vale frisar que existem diferentes situações em que a acessibilidade de um dado texto pode ser trabalhada. Nesta pesquisa, estamos tratando de uma delas em particular: a acessibilidade em textos traduzidos. Contudo, criar textos já acessíveis, tendo em mente as premissas da simplificação, como vimos em capítulos anteriores deste trabalho, pode ser uma realidade. Nesse caso, o texto não precisará ser transformado com vistas à acessibilidade, mas ele já se originará acessível, caso o redator tenha a acessibilidade como objetivo primordial. Criar um texto acessível, em tese, poderia ser mais fácil do que transformar aquilo que já foi construído de outra forma, mas vale ressaltar que para tanto o redator precisa conhecer os mesmos fundamentos aplicados ao texto complexo que será simplificado: as fórmulas de inteligibilidade, as métricas de análise de complexidade e as medidas simplificadoras, pois, de qualquer forma, ele precisará medir a complexidade do seu próprio texto e aplicar as medidas simplificadoras durante a redação de seu texto.

A seguir, apresento um Mapa da Acessibilidade: um resumo dos processos de promoção da Acessibilidade que podem ser aplicados tanto por redatores quanto por tradutores.

Figura 51: O mapa da Acessibilidade