• Nenhum resultado encontrado

5.1 Reconhecimento do esforço em cada atividade

5.1.1 Pré-processamento e transformação: variáveis relacionadas ao esforço

As variáveis temporais relacionadas à resolução de cada atividade são quantitativas, sendo definidas como os minutos dedicados a cada uma das etapas, além dos somatórios de alguns destes tempos. Utilizou-se como padrão a unidade de tempo minuto, pois não é necessário especificar a quantidade de segundos. Como posteriormente ocorre uma classificação dos tempos em categorias (alto, médio e baixo) um detalhamento maior, em segundos, por exemplo, torna-se excessivo. Neste caso o tempo mínimo registrado é de 1 minuto, mesmo nos casos em que o aluno dedicou somente alguns segundos para resolução.

Tanto no sistema PROALG, quanto no Moodle foi possível obter a data e hora inicial sempre que o estudante inicia a etapa. No PROALG quando a tela relacionada ao problema, hipótese ou código é exibida, o registro da data e hora é incluído na tabela de ocorrências, com a identificação da etapa. A finalização do passo atual e consequentemente o início do passo seguinte gera um novo registro de término nesta mesma tabela, o que permite calcular exatamente o tempo de cada tarefa.

A utilização de técnicas de mineração de dados em muitos casos demanda uma transformação dos dados para a sua aplicação. A maioria dos algoritmos têm dificuldades para

agrupar ou classificar entradas baseadas em variáveis que possuem um grande número de valores possíveis, ou tipos de dados com valores contínuos. Técnicas de Redes Bayesianas, por exemplo apresentam melhor desempenho com valores discretizados, pois desta forma conseguem associar as probabilidades relacionadas aos valores das entradas com as possíveis classes de cada atributo dependente (FLORES e BARONE, 2003).

Após uma análise da distribuição dos valores, foi tomada a decisão de categorizar as variáveis que indicam os tempos em três classes diferentes: “ALTO”, “MEDIO” ou “BAIXO”. Embora em cada atividade, os tempos sejam diferentes e apresentem variações, foi necessário adotar um padrão para os atributos temporais, evitando um número excessivo de classes.

A discriminação dos tempos em mais classes, tais como muito baixo, muito alto não contribuiria significativamente para indicar que há uma maior probabilidade do esforço ser baixo ou alto e acarretaria em maiores dificuldades de processamento para os métodos de classificação.

Os atributos temporais foram categorizados levando em consideração a distribuição dos tempos em cada amostra, considerando que cada atividade é uma amostra diferente. Ou seja, o enquadramento na categoria leva em conta a distribuição dos tempos em cada atividade distinta. Esta abordagem foi usada em virtude dos tempos variarem de uma atividade para a outra, principalmente pela complexidade e maior necessidade de análise e pesquisa sobre o problema.

O principal objetivo ao categorizar é indicar quais tempos estão abaixo do esperado para a atividade e quais estão acima. Os valores que estão dentro de limites considerados normais são categorizados como médio e os demais seão definidos como baixo ou alto. A principal questão que emergiu ao longo da pesquisa esteve relacionada aos limites usados para esta classificação, ou seja, abaixo de qual valor pode ser considerado baixo e acima de quanto seria alto.

Uma das possibilidades avaliadas inicialmente foi a utilização da média e do desvio padrão como balizadores, considerando que os valores que estivessem abaixo da média subtraída do desvio padrão seriam baixos e os que estivessem um acima da média mais o desvio, poderiam ser considerados altos. Esta estratégia poderia permitir a identificação dos valores discrepantes, tanto para cima, quanto para baixo. Entretanto, segundo (Larson e Farber, 2004), o uso destas medidas para identificação das categorias é indicado quando a amostra se constitue em uma distribuição próxima do normal, na qual a maior parte dos valores está próxima da média, dentro dos limites do desvio calculado.

Analisando a distribuição dos valores coletados em diferentes tarefas, observou-se que as amostras em muitos casos não seguem uma distribuição normal e medidas como a média ou o desvio padrão em muitos casos são pouco relevantes para indicar a concentração dos valores. Uma distribuição normal, segundo Larson, Farber e Patarra (2004) apresenta um formato de sino e é simétrica em torno da média, além de aproximar-se mais do eixo x à medida que se afasta da média em ambos os lados (Figura 42).

Figura 42 – Exemplo de curva normal

Fonte: Larson, Farber e Patarra (2004)

Em alguns exercícios, é possível identificar uma distribuição mais equilibrada, próxima a uma curva normal e nestes casos média é significativa como no exemplo dos tempos do problema da atividade 1, do estudo de caso, mostrados na figura 43. Neste exemplo, a média é 16,60 e o desvio padrão 7,80, medidas que indicam uma variação relativa em relação à média.

Figura 43 - Gráfico com histograma e curva para os tempos do problema da atividade 1 do estudo de caso

Fonte: Elaborado pelo autor

Em vários exercícios, porém, o desvio padrão aproxima-se do valor da média, indicando que há uma variação grande dos tempos, o que dificulta o uso destas medidas para definir a

categorização. Pode-se utilizar como exemplo as atividades 2 e 11 do estudo de caso, mostradas na figura 44. No primeiro caso, a média é de 25,80 e o desvio padrão de 23,00. Já na segunda série, há uma variação ainda maior, com média de 65,70 e desvio apresentado quase o mesmo valor.

Em ambos os casos os valores da moda e mediana são inferiores à média, o que caracteriza, de acordo com Spiegel e Stephens (2009) uma curva inclinada à direita. É possível constatar que as curvas não seguem um padrão normal, com uma concentração de valores nos intervalos iniciais, embora existam valores altos, que influenciam tanto a média, quanto o desvio padrão. O uso da média menos o desvio padrão nestes casos implicaria na quase não existência de valores baixos, em ambos os casos. Ambas as amostras são fortemente influenciadas pela existência de valores muito altos, se comparados com a maioria, gerando um desvio acima do normal.

Figura 44 – Gráficos com histograma e curva para atividades com maior variabilidade nos tempos

Fonte: Elaborado pelo autor

Definir limites e categorias para conjuntos de dados como os que estão representados na figura 44 é uma tarefa envolve uma análise da distribuição em relação ao rol de valores. Para o presente trabalho, categorizar um valor como baixo ou alto é fundamental para a determinação do esforço e para tanto foi necessário definir um método que pudesse ser aplicado às diferentes amostras, mesmo que estas apresentassem valores de amplitudes muito diversas.

A partir da análise da distribuição dos valores e das diferentes formas possíveis para classificação, foram avaliadas as medidas denominadas percentis e quartis, que consideram um conjunto de dados ordenados. Segundo Spiegel e Stephens (2009) o percentil, quartil são medidas que permitem dividir o conjunto de dados em partes iguais, sendo que os quartis de uma amostra se referem a quatro partes.

Os quartis podem ser considerados indicadores de localização, que mostram se um valor encontra-se na primeira, segunda, terceira ou quarta parte dos dados (Spiegel e Stephens, 2009), desta forma, torna-se possível encontrar os limites de cada uma das faixas e utilizar estes como forma de categorização. Ao utilizar estas medidas foi possível adotar uma forma padrão, ou regra para categorizar qualquer variável de tempo, em qualquer amostra, independente da amplitude dos dados, uma vez que os limites das faixas serão calculados de acordo com a lista ordenada de valores.

As regras para categorização das variáveis temporais foram as seguintes:

 Para cada amostra, calcular o primeiro e o terceiro quartil.

 Avaliar cada tempo, se for inferior ou igual ao valor do primeiro quartil, a categoria é “BAIXO”.

 Se o valor for maior ou igual ao valor do terceiro quartil, a categoria é “ALTO”.

 Os demais valores são classificados como “MEDIO”.

As regras permitiram classificar como baixos e altos aqueles valores que apresentam maior discrepância, os mais próximos do limite mínimo e do limite máximo. Valores iguais aos limites dos quartis calculados serão incluídos nas classes alto e baixo, o que pode em alguns casos fazer com que um percentual superior a 25% seja verificado nestas classes. A tabela 18 apresenta os quartis, os dados e as classes definidas para cada valor, em uma amostra.

Os valores apresentados indicam duas atividades com diferenças na distribuição dos valores, no primeiro caso o maior valor corresponde a 82 minutos, mas a maioria dos valores fica entre 10 e 30 minutos. No segundo, existem alunos que levaram até 180 minutos para realização da atividade, o que mostra uma variação bem maior na amplitude dos dados. Estas amostras foram mostradas pelo fato de apresentarem desvios altos e curvas assimétricas, demonstrando a dificuldade para determinação da classe dos tempos.

Nos casos de uma quantidade tão grande de tempo é possível questionar se os alunos não estariam já resolvendo todas as etapas, inclusive escrevendo o código no início da atividade. Entretanto, não é possível descartar que os tempos maiores indiquem realmente uma tentativa do estudante de compreender o problema, de pesquisar a respeito do mesmo com o objetivo de analisar melhor a situação. Desta forma, optou-se por não alterar ou descartar tempos muito altos, foram mantidos os tempos originais coletados, até mesmo em função da amostra para cada atividade ser reduzida.

As médias e os desvios calculados também demonstraram, especialmente na segunda amostra uma alta variância nos dados, o que demonstra que utilizar a média para a discretização

dos dados nem sempre é possível. O primeiro e o segundo quartil foram os limites usados para categorizar como baixo, alto e médio. Na segunda amostra os valores ficam bastante distantes, desta forma, apenas valores realmente altos ou baixos ficarão nestas classes. Embora alguns tempos que foram classificados como médios estejam bastante acima do esperado, como no caso de 131 minutos, o padrão padrão para a discretização dos tempos se mostrou adequado, embora as regras usadas não tenham sido perfeitas para todas as situações.

Tabela 18 – Tempos para definição dos pontos-chave do problema nas atividades 2 e 11 do estudo de caso.

Atividade 2 Atividade 11 Aluno Tempo Classe Tempo Classe

Aluno 1 4 BAIXO 9 BAIXO

Aluno 2 17 MEDIO 90 MEDIO

Aluno 3 79 ALTO 120 MEDIO

Aluno 4 6 BAIXO 3 BAIXO

Aluno 5 11 MEDIO 7 BAIXO

Aluno 6 10 BAIXO 135 MEDIO

Aluno 7 61 ALTO 6 BAIXO

Aluno 8 36 ALTO 42 MEDIO

Aluno 9 1 BAIXO 13 MEDIO

Aluno 10 19 MEDIO 160 ALTO

Aluno 11 22 MEDIO 157 ALTO

Aluno 12 10 BAIXO 180 ALTO

Aluno 13 10 BAIXO 9 BAIXO

Aluno 14 1 BAIXO 10 BAIXO

Aluno 15 8 BAIXO 12 MEDIO

Aluno 16 30 MEDIO 160 ALTO

Aluno 17 72 ALTO 52 MEDIO

Aluno 18 7 BAIXO 1 BAIXO

Aluno 19 20 MEDIO 15 MEDIO

Aluno 20 32 MEDIO 39 MEDIO

Aluno 21 50 ALTO 141 ALTO

Aluno 22 29 MEDIO 148 ALTO

Aluno 23 19 MEDIO 150 ALTO

Aluno 24 82 ALTO 14 MEDIO

Aluno 25 15 MEDIO 9 BAIXO

Aluno 26 33 ALTO 14 MEDIO

Aluno 27 24 MEDIO 15 MEDIO

Aluno 28 16 MEDIO 131 MEDIO

Primeiro quartil 10 9,75

Terceiro quartil 32,25 136,50

Média 25,80 68,78

Desvio padrão 23,00 65,77

A seguir serão apresentadas as variáveis definidas para a classificação do esforço associado aos dados de cada atividade, realizada por algum estudante. Os atributos são divididos em três grupos, o primeiro relacionado aos tempos e o segundo composto pelos resultados da avaliação feita pelo professor do conteúdo postado pelos estudantes na resolução da tarefa. O registro da execução e acesso ao pseudocódigo foram apresentados no terceiro grupo, por não se caracterizaram como tempos, nem como avaliações de conteúdo.

A categorização adotada para os primeiros quatro atributos foi descrita nos parágrafos anteriores, em todos os casos foram usados os quartis e as categorias “ALTO”, “MEDIO” e “BAIXO”. Apenas o atributo correspondente à proporção, adotou outra regra que será descrita abaixo. Os nomes entre parênteses são usados para identificar as variáveis nas redes bayesianas, além de serem iguais aos nomes dos campos nas tabelas que serão mostradas no módulo para acompanhamento da motivação no PROALG. As variáveis relacionadas aos tempos são as seguintes:

 Tempo para definição dos pontos-chave do problema (classe_tp_prob_ef): quantidade de minutos decorridos desde que o usuário iniciou a tarefa, até o momento em que a resposta foi postada.

 Tempo para definição da hipótese de solução(classe_tp_hip_ef): segue o mesmo cálculo do tempo anterior e é categorizado também como alto, médio e baixo.

 Tempo para a elaboração do código fonte (classe_tp_cod_ef): tempo que o estudante levou para escrever, compilar, testar e postar o código. Nas situações em que o estudante já possui o código pronto este tempo pode ser bem reduzido, o que será perceptível na variável seguinte. Este tempo é categorizado como alto, médio e baixo, da mesma forma que os anteriores.

 Proporção de tempo das duas primeiras etapas em relação a escrita do código (classe_prop_ph): é calculado o percentual da soma das etapas iniciais (pontos- chave e hipótese) em relação ao tempo total.

Sobre o último atributo descrito, uma análise dos dados coletados indicou que percentuais inferiores a 20% ou 80% estão fora do padrão, pois a grande maioria dos estudantes apresenta proporções dentro destes limites. Existem duas hipóteses, a primeira é que o estudante demandou um tempo insuficiente para compreender e especificar o problema e a segunda é que a escrita do código já foi feita nas primeiras etapas, o que também poderia indicar menor esforço na problematização. Desta forma, a variável assume dois valores: “PROPORCIONAL”,

“DESPROPORCIONAL”, o primeiro indicando que o percentual ficou dentro dos limites e o segundo que ficou abaixo ou acima.

A seguir serão apresentadas os níveis de detalhamento e de compreensão, que foram atribuídos pelo professor e pelo pesquisador na avaliação dos conteúdos. Estas variáveis foram definidas em função da necessidade de considerar não somente os tempos, mas também dados associados à qualidade ou até mesmo o tamanho das soluções produzidas pelo aluno. Na seção que apresentou os resultados do estudo piloto foi apresentada uma definição dos critérios adotados para atribuir a classe correspondente ao nível de detalhe nestes atributos.

Os níveis de detalhamento e a compreensão foram categorizados como “ALTO”, “MEDIO” e “BAIXO”, mantendo a distinção em 3 categorias, como nos tempos. As variáveis são as seguintes:

 Nível de detalhe dos pontos-chave (classe_nivel_detalhe_prob): classificação como alto, médio e baixo da descrição dos pontos-chave do problema. Esta classificação foi realizada pelo professor e pelo pesquisador a partir da análise qualitativa do conteúdo postado.

 Nível de detalhe da hipótese (classe_nivel_detalhe_hip): classificação como alto, médio e baixo da descrição da hipótese de solução para a atividade.

 Nível de compreensão (classe_nivel_compreensao): avaliação da compreensão demostrada pelo aluno, a partir da descrição dos pontos-chave e da hipótese. Segue o padrão de classificação, alto, médio e baixo. Os níveis de detalhe consideram principalmente o fato do aluno ter apresentado uma descrição mais completa, mais detalhada e o nível de compreensão indica se o estudante demonstrou claramente como pretende elaborar a solução, se ficou explícito que ele analisou e compreendeu claramente o problema antes da elaboração do código. Esta análise é também qualitativa e embora apresente um grau de subjetividade é importante por incluir um aspecto relacionado ao desempenho do estudante, uma avaliação da qualidade dos conteúdos postados.

Os dois últimos atributos que formam o modelo para reconhecimento do esforço em cada atividade são apresentados abaixo:

 Acesso ao pseudocódigo (visualizou_pseudo): indica se o usuário acessou a ajuda que exibe o código fonte. O acesso às demais dicas não é considerado como indicativo de menor ou maior esforço, porém, o pseudocódigo representa uma especificação detalhada do problema, a sua visualização, conclui-se, portanto, que

pode ser um indicador também relacionado ao esforço. O atributo possui os valores SIM ou NÃO, indicando apenas se foi acessado pelo estudante.

 Executou código (execucao_codigo): indica se o estudante conseguiu remover os erros de compilação e executar, pelo menos uma vez o código fonte. Na maioria dos casos é necessário um certo grau de esforço para chegar a uma solução executável, portanto, o uso desta variável é importante na classificação do esforço demonstrado na atividade. Os valores possíveis são SIM ou NÃO.