• Nenhum resultado encontrado

A criação do corpo de conhecimento

Em relação à sua criação, num primeiro momento, deve ser produzido um texto único, englobando todos os materiais de referência relacionados à atividade. Este texto único deve ser digitalizado em formato de texto simples55, respeitando os parágrafos e frases, isto é, indicadores de fim de linha devem aparecer apenas em final de parágrafo e, preferencialmente, com o símbolo de ponto (“.”) separando as frases. O texto, antes da análise, passa inicialmente por um preprocessamento de limpeza. Por exemplo, todas as letras são convertidas em minúsculas e, como optou-se por IAAQPE não diferenciar a acentuação, todos os acentos são retirados das palavras no preprocessamento56. Além disso, os caracteres diferentes de letras, números e alguns símbolos de pontuação57 são convertidos para espaços e qualquer sequência com mais de um espaço é convertida para espaço único. De modo geral, os conceitos esperados são palavras únicas, mas podem ser compostos por mais de uma palavra, os quais, apesar da procura “palavra a palavra”58, podem ser reconhecidos de acordo com a proximidade na frequência de aparecimento das palavras e pela densidade relativa entre elas, validados com a confirmação de sua existência e frequência de aparecimento nos textos em análise.

54 No caso, o livro original do autor em estudo e os textos de apoio, elaborados pela equipe responsável pelos cursos, os quais procuram sintetizar as principais ideias a serem aprofundadas a cada aula. 55 Imagens, gráficos ou tabelas não são analisados.

56 Considerando a importância na análise do verbo ser na terceira pessoa do presente, o termo “ é ” é convertido para “ eh ”.

57 Por exemplo, pontos de exclamação (“!”) e de interrogação (“?”) são convertidos para ponto simples (“.”), pois servem para separar frases, enquanto que dois pontos (“:”) e ponto e vírgula (“;”) são convertidos para vírgula (“,”), pois servem para separar termos de uma frase.

58 Os conceitos com mais de uma palavra devem estar fragmentados no corpo de conhecimento, isto é, decompostos em cada um de suas partes, para que o conceito possa ser composto de acordo com a leitura sequencial das palavras encontradas no texto, conforme indicado na seção “E) O corpo de conhecimento no esquema de tabelas do SGBD”.

A Figura 7 mostra a página que recebe o texto a ser analisado, devendo ser indicado um e-mail de administrador do sistema válido para que a análise seja feita.

Ao inserir o texto e clicar em “Enviar”, o script “counter.php”, que pode ser visto no apêndice 5, valida o e-mail do administrador, faz o preprocessamento e analisa o texto “palavra a palavra”, sempre considerando conceitos que podem ser formados por mais de uma palavra, procurando a existência do conceito59 no corpo de conhecimento60. O resultado da análise gera um arquivo com os conceitos encontrados na tabela de conceitos (“words”) do SGDB e outro com as palavras não encontradas, nos quais são indicadas a frequência individual e com sinônimos61 de cada conceito ou palavra no texto,

59 A diferença entre conceito e palavra é que o conceito pode ser formado por uma ou mais palavras, já tendo sido descrito anteriormente como um conceito composto por mais de uma palavra é inserido no SGDB.

60 O campo da fonte (“id_source”) na tabela de conceitos (“words”) possibilita a associação de um conceito a outro conceito semelhante, isto é, possibilita a indicação de sinônimos entre os conceitos, para que a frequência dos sinônimos possam ser somadas.

61 Obviamente os sinônimos precisam ser encontrados no SGDB e estar indicados por meio do campo (“id_source”) fonte na tabela de conceitos (“words”).

FIGURA 7 – Página de entrada do texto a ser incorporado ao corpo de conhecimento

a distância média62 entre as palavras com maior frequência63 e, quando encontrado como conceito, as categorias nas quais o conceito já foi categorizado64.

Com o resultado da análise de existência no corpo de conhecimento, tomando por base a frequência, a densidade e as categorizações prévias dos conceitos, deve ser feita a categorização específica para cada atividade, de acordo com seus textos de referência. Após a definição das categorias presentes no texto e da inserção dos conceitos no corpo de conhecimento, a pontuação para cada categoria deve ser ajustada na tabela de categorias por atividades (“activity_categories”), definindo se a presença da categoria é obrigatória (“i_obr”) nos textos a serem analisados, o nível da categoria (“i_level”), os valores mínimo (“i_min”), de média (“i_mid”), de pontuação (“i_points”), de repetição (“i_repeat”) e máximo (“i_max”).

As categorias de menor nível, com maiores máximos e maior pontuação são obrigatórias (“i_obr”). O nível (“i_level”) é estabelecido de acordo com a frequência; o valor de pontuação (“i_points”) de acordo com o nível (“i_level”); o mínimo (“i_min”) com a densidade, isto é, com, pelo menos, um valor de mínimo (“i_min”) para cada ponto de densidade; o valor de média (“i_mid”) como o ponto médio entre o mínimo (“i_min”) e a frequência, o valor máximo (“i_max”) como o valor médio (“i_mid”) multiplicado pelo valor de pontuação (“i_points”); e o valor de repetição (“i_repeat”) definido pelo resultado inteiro arredondado para cima da divisão do valor de pontuação (“i_points”) pelo mínimo (“i_min”), mas sempre menor do que o de pontuação (“i_points”).

A soma dos valores máximos de todas as categorias resulta no total de pontos da atividade e o script “pontuation.php”, que usa os textos da atividade como referência para o cálculo das pontuações, mostra a pontuação total, a quantidade de pontos para cada parágrafo, a soma dos parágrafos anteriores e o percentual da soma dos parágrafos anteriores em relação à pontuação total. Como a pontuação total pode ser um valor “quebrado”, para facilitar a visualização, os valores de máximo foram “ajustados manualmente” de modo ao total ficar como múltiplo de cem ou mil. Além disso, ajustou-se 62 A distância média entre os conceitos mais frequentes do texto é o indicador da densidade do conceito, isto é, quanto mais associações entre conceitos mais frequentes houver, maior será a densidade do conceito.

63 É considerada a definição de curva ABC para estabelecer as “maiores” frequências a serem analisadas, isto é, assume-se que apenas as densidades com maior frequência serão relevantes na análise, por exemplo, define-se uma quantidade de palavras ou um percentual em relação ao total de palavras únicas encontradas no texto para que seja feita a análise de proximidade entre elas. Em geral, foi utilizado 10 palavras ou 10% do total de palavras únicas para realizar a análise de proximidade. Contudo, o sistema permite variar estes valores padrão.

64 As categorias são procuradas na tabela “categories”, considerando que pode haver mais de uma categoria para o mesmo conceito, pois tanto as classes como as categorias são chaves de indexação para não permitir a duplicação de “conceito/classe/tempo” ou “conceito/categoria” iguais.

os parâmetros de pontuação para que o texto de referência atingisse a pontuação total com cerca de 70%65 dos parágrafos.