• Nenhum resultado encontrado

6.3 Arquitetura de solução: Concepção e Desenvolvimento

6.3.2 Tokenização

O processo de tokenização é o primeiro passo do pré-processamento da mineração do texto e sua execução tem como objetivo dividir um determinado texto em pequenas unidades (tokens). Os tokens são os termos do texto, que são normalmente separados entre si por espaços ou sinais de pontuação.

Para o ser humano é fácil identificar a divisão em termos num texto, entretanto, para o computador é preciso utilizar de um algoritmo, processo computacional que seja capaz de identificar a separação das unidades.

Figura 30 - Processo de Tokenização

Texto Seccionar o Texto

Lista de Termos com suas frequências Vetor de Tokens Cálculo da Frequência dos termos Tratar Termo a Termo

Remover Acentos

Remover Símbolos

Fonte: Elaboração própria

Em resumo, conforme ilustrado pela Figura 30, esse algoritmo inicialmente secciona todo o texto transformando-o em uma lista (vetor) de termos. Cada termo é processado para a remoção de acentuação e símbolos que são dispensáveis para a

78 boa interpretação do texto (Apêndice A). Após esse processo completado o documento texto original é reduzido a uma lista de termos sem acentuação e sem símbolos que podem acarretar problemas em seu processamento posterior.

A Figura 32 ilustra a execução do processo definido na Figura 30, aplicado ao texto “Crise deixa alunos com necessidades especiais sem acompanhamento” publicado no Jornal O Estado de São Paulo, em 06 Março de 2015. O conteúdo da matéria é apresentado na Figura 31 para que possamos observar o funcionamento dos algoritmos apresentados, sendo a sua leitura essencial para compreensão dos passos seguintes.

Figura 31 – Texto do Jornal O Estado de São Paulo de 06 de março de 2015

Crise deixa alunos com necessidades especiais sem acompanhamento

Mesmo com reserva de vagas para estes casos, CAp da Uerj tem apenas um professor especializado concursado

Além de atrasar o início do ano letivo, a crise financeira no Colégio de Aplicação (CAp) da Universidade do Estado do Rio de Janeiro (Uerj) ameaça o acompanhamento dos alunos com necessidades especiais, que é referência no Estado. O número de estudantes que demandam essa atenção é crescente, pelo fato de desde 2013 haver reserva de 5% das vagas para eles no processo de admissão.

Instituição gratuita de excelência que abarca os ensinos fundamental e médio, única escola pública estadual a integrar a lista das cem mais bem colocadas no Exame Nacional do Ensino Médio (Enem) de 2013 no País (em 99º lugar), o CAp dispõe no momento de apenas uma profissional especializada. São 25 as crianças com necessidades especiais – casos de paralisia cerebral, autismo, déficit de atenção, hiperatividade, dislexia, bipolaridade e com dificuldades motoras.

Até 2014, eram cinco professores, um concursado e quatro contratados. A professora Patricia Braun, coordenadora das ações de inclusão do colégio, contou que para este ano está sozinha na função, pois a universidade foi impedida pela Justiça de contratar professores substitutos. Quando os concursados recém- aprovados forem efetivados, o número deve chegar a três, mas ainda será insuficiente, lamenta a professora.

79 “Os concursos não cobrem todas as necessidades do colégio. As crianças precisam de mediação constante, dentro e fora da sala de aula. Sem isso, não há inclusão escolar de verdade. A gente não tem que cuidar, tem que educar.” Ela lembra que o trabalho no CAp vai além das orientações do Ministério da Educação, segundo as quais a atenção especial aos alunos deve ser dada no contraturno (ou seja, de manhã, para quem estuda de tarde, e vice-versa). “Esses alunos têm um processo de aprendizagem diferente e a mediação se dá o tempo todo, para a organização da rotina, o acompanhamento das interações sociais, o estímulo aos cuidados pessoais, o desenvolvimento da autonomia.”

A enfermeira Geovana Nogueira, de 44 anos, está apreensiva. Autista, o filho Arthur Cesar, de 9 anos, cursa o quarto ano fundamental. “A qualidade do ensino colaborativo que o CAp tem a gente não encontra nas melhores e mais caras escolas particulares. Tinha a certeza de meu filho estar acolhido, apesar das dificuldades de socialização do autista. Ele evoluiu, desenvolveu a fala, elaborou discurso próprio. Estou muito angustiada. Temo que regrida.”

O CAp tem cerca de 1.100 alunos. Não só os professores com formação voltada às necessidades especiais estão em falta. O déficit atinge matérias como língua portuguesa, geografia e música – no total, 27 professores de 40 horas de dedicação. A direção espera a convocação dos aprovados no último concurso da Uerj.

As aulas deveriam ter começado na segunda-feira passada. Agora estão previstas para dia 16. Também faltam empregados de limpeza, segurança e manutenção, com salários atrasados desde o ano passado. Professores contam que já chegaram a limpar, eles mesmos, filtros de ar condicionado, carteiras e pisos. Uma professora rifou chocolates para pagar a instalação de tela em janelas, para evitar acidentes com alunos. Hoje, pais e professores se reúnem para discutir a crise.

“Nosso currículo é bastante variado e isso faz um diferencial tremendo. Nosso foco não é aprovar no vestibular, mas os resultados acabam sendo consequência. Não dá para manter as crianças aqui em situação de risco”, disse o diretor, Lincoln Tavares Silva. A reitoria da Uerj foi procurada pela reportagem, mas não comentou a situação.

80 Figura 32 - Exemplo do resultado do processo de Tokenização do texto

Fonte: Elaboração própria

Observamos que a tela apresentada na Figura 32 contém uma tabela com três colunas, a primeira referindo-se a uma ordenação numérica composta de 330 termos, a segunda referente ao termo (token) e a terceira indica a frequência, ou seja, a quantidade de vezes que o termo apareceu no texto. Esta última coluna é aquela que define a ordem decrescente dos termos, no sentido daquela que possui maior frequência até aquela menos frequente no texto analisado.

Ao final das primeiras versões da aplicação, concebemos que o processo de tokenização pode evoluir para além dos termos simples reconhecendo também termos compostos (expressões) comuns no texto. Alguns exemplos de termos compostos que expressam nomes próprios constantes são “João_Gabriel”,

81 “São_Paulo” e “Educação_Especial”.

Documentos relacionados