• Nenhum resultado encontrado

O corpo de conhecimento no esquema de tabelas do SGBD

A principal tabela do corpo de conhecimento foi chamada de “words”, pois é através das palavras que os conceitos são formados e por meio dos quais a PE pode ser avaliada. Cada conceito pode ter origem em uma única palavra ou, como comentado anteriormente, na combinação de vários termos.

A tabela “words” pode ser reconhecida pela marcação com um retângulo vermelho em volta de seu nome na Figura 4, que mostra apenas as tabelas relacionados ao corpo de conhecimento no esquema do SGBD:

A tabela “word_class”, com o nome delimitado por um retângulo verde na Figura 4, armazena as classes gramaticais, seguindo principalmente as definições de Bechara (2009) e a recomendação técnica para que seja uma tabela separada de modo a identificar cada classe com um identificador numérico (“id”), uma vez que os números são

FIGURA 4 - Esquema do corpo de conhecimento no SGBD

processados mais rapidamente do que palavras descritivas. Assim, na tabela do corpo de conhecimento, chamada “words” e marcada com um retângulo vermelho na Figura 4, há a indicação pela linha que liga as duas tabelas que o campo “id_class” de “words” está associado ao campo “id” da tabela “words_class”.

O mesmo ocorre com a tabela “categories”, marcada com um retângulo laranja na Figura 4, isto é, cada conceito (palavras simples ou combinadas) em “words” está relacionado a uma ou mais categorias, as quais foram determinadas de acordo com a análise de conteúdo (BARDIN, 2011) dos textos de referência. É possível identificar o campo “s6_color”40 tanto em “words_class” como em “categories”, os quais servirão para a exibição do resultado das análises que possibilitará mostrar o texto analisado com as cores indicadas pela categoria ou classe gramatical41.

Por exemplo, uma das categorias relaciona o autor da obra com conceitos característicos que ele aborda na obra estudada ou que podem ser diretamente relacionados a suas teorias. Em relação aos cursos sobre a obra “Sobre a Pedagogia” de Immanuel Kant, a categoria foi chamada de “referência ao autor” e estava associada à 14 termos42: “categorico”; “categoricos”; “filosofo”; “filosofo_alemao”; “immanuel_kant”; “imperativo_categorico”; “imperativo_hipotetico”; “kant”; “kantiana”; “kantianas”; “kantiano”; “kantianos”; “razao_pratica”; e “razao_pura”. Deve-se notar que termos como, por exemplo, “imperativo_categorico” ou “imperativo_hipotetico” não apareceram na obra estudada mas foram agregados ao corpo de conhecimento por aparecerem nas PE dos participantes. Além disso, de acordo com o recurso de etiquetadores morfossintáticos, adjetivações tanto nas formas masculina e feminina (por exemplo, “kantiana” ou “kantiano”) como singular e plural (por exemplo, “kantiana” ou “kantianas”) são descritos como termos a serem procurados nas PE. Caso seja reconhecido um termo composto, o termo individual relacionado não é considerado, por exemplo, se foi considerado “filosofo_alemao”, apenas “filosofo” não é considerado na pontuação. Em relação a categoria, de acordo com a relação estabelecida entre os termos esperados, a pontuação para cada termo encontrado nas PE vale dois até atingir um valor máximo de dez pontos, considerando apenas um ponto por termo repetido e devendo aparecer obrigatoriamente na PE.

40 Variável do tipo “string” com 6 caracteres que armazena o código RGB das cores.

41 Esta funcionalidade, por influir apenas na apresentação do resultado, ainda não foi implementada. 42 Mostrados aqui em ordem alfabética e como armazenados no banco e dados, isto é, em letras

Contudo, a indicação das categorias em “words” é apenas o padrão mais comum de associação, pois as categorias de análise podem variar segundo os textos de referência e a diferentes categorizações, também relacionadas com a tabela “categories”, as quais são relacionadas na tabela de categorias por atividade (“activity_categories”), marcada com um retângulo marrom na Figura 4. É nesta tabela que ficam a indicação de pontos a serem atribuídos aos conceitos encontrados nos trabalhos em análise. Além do campo de identificação da categoria (“id_categ”) e para a indicação da cor de exibição (“s6_color”), são utilizados indicadores para a atribuição dos pontos para cada conceito encontrado na pontuação escrita. Há um indicador do nível da categoria (“i_level”)43, um indicador de obrigatoriedade (“i_obr”), um indicador de valor mínimo (“i_min”), um valor de média (“i_mid”), um valor de pontuação (“i_points”), um valor de repetição (“i_repeat”) e um valor de máximo (“i_max”).

Por exemplo, o cálculo da pontuação quando o conceito é encontrado considera inicialmente o valor de pontuação da categoria (“i_points”), indicado segundo seu nível (“i_level”). Contudo, para incentivar a variedade de conceitos, a pontuação total (“i_points”) só será atribuída uma única vez para cada conceito, isto é, se o mesmo aparecer mais de uma vez, será atribuído o valor de repetição (“i_repeat”)44 e não do valor inteiro de pontuação (“i_points”). Para evitar textos monotemáticos e favorecer a diversidade das categorias, considera-se o texto em análise como um todo, sendo imposto um fator limitante para a frequência de aparecimento de conceitos na mesma categoria (“i_mid”)45 como também para o valor máximo da pontuação (“i_max”) numa mesma categoria. Além disso, a categoria pode ser considerada obrigatória (“i_obr”) e, caso não apareça, vai ser indicada nas sugestões e orientações. De modo semelhante à obrigatoriedade, para uma categoria ser considerada relevante, deve atingir uma frequência mínima (“i_min”) e, caso não o mínimo de aparecimentos não tenha sido atingido, também haverá notificação nas sugestões e orientações.

43 As categorias são organizadas por níveis conforme a densidade e frequência dos conceitos nos textos de referência e cada nível recebe uma determinada pontuação. Geralmente, quando menor o nível, mais alta a pontuação, isto é, por exemplo, o nível 1 equivale a 10 pontos, o nível 2 a 7; o 3 receberia 5 e assim por diante. Quando o conceito é encontrado na produção escrita, inicialmente é atribuído o valor de seu nível.

44 O valor de repetição (“i_repeat”) considera a densidade de aparecimento nos textos de referência, sendo, geralmente, a metade da pontuação integral, mas podendo ser aumentado ou diminuído de acordo com a frequência de aparecimento da categoria nos textos de referência. Quanto mais esperadamente repetidos, menor o valor da pontuação por repetição.

45 A frequência de aparecimento esperada é calculada a partir da média, devidamente ponderada, de aparecimento nos textos de referência.

Enfim, o cálculo da pontuação de um texto em análise não se baseia na simples contagem da frequência dos conceitos presentes no texto, mas considera, além da obrigatoriedade, ou não, de aparecimento da categoria, de sua frequência mínima e do limite máximo de aparecimento para cada categoria, a densidade das repetições e a diversidade conceitual, estabelecida de acordo com a relação entre os conceitos nos textos de referência.