• Nenhum resultado encontrado

2.4 Técnicas computacionais de apoio

2.4.1 Descoberta de conhecimento em bases de dados

Com o aumento no volume de dados armazenados e as possibilidades cada vez maiores para a coleta destes dados, tecnologias que tem como objetivo extrair conhecimento e padrões a partir destes dados tem gerado um interesse cada vez maior. O processo denominado KDD (Knowledge Discovery in Database) congrega uma série de passos e etapas que visam obter conhecimento analisando um conjunto de dados. A Mineração de Dados ou Data Mining pode ser considerada parte deste processo. Esta seção apresenta os conceitos básicos sobre a mineração de dados e os princípios fundamentais da sua aplicação na área educacional.

Descoberta de conhecimento em bases de dados é o processo de identificar padrões que sejam válidos, novos e, potencialmente úteis e compreensíveis, com o objetivo de compreender um problema ou contribuir com a tomada de decisão em diferentes contextos (FAYADD, PIATETSKY-SHAPIRO e SMYTH. 1996). O processo de KDD é interativo e iterativo, envolve diversas etapas e decisões feitas pelo usuário. Para se ter uma visão do processo, destaca-se as etapas na figura 8.

Figura 8 – Etapas do processo de descoberta de conhecimento

Fonte: (FAYADD, PIATETSKY-SHAPIRO e SMYTH, 1996)

Existem diversas atividades que ocorrem antes da aplicação da mineração dados, propriamente dita. Um processo cuidadoso de coleta de dados ou à seleção dos registros (1) adequados a partir dos dados disponíveis é a etapa inicial do processo. Torna-se importante selecionar um conjunto de dados, pertencentes a um domínio, para que, a partir de um critério definido pelo especialista do domínio, possa ser analisado.

O pré-processamento (2) na maioria dos casos é composto de atividades que tem como objetivo preparar os dados para a etapa de mineração. A limpeza dos dados tem o intuito de melhorar a completude, acuracidade e integridade dos dados coletados. Na transformação (3), os dados podem se tornar numéricos ou categóricos, dependendo do algoritmo que será utilizado. Codificar os dados de forma numérica ou categórica é, muitas vezes essencial para que os algoritmos da etapa seguinte possam ser aplicados (DA SILVA, PERES e BOSCARIOLI, 2017). Um exemplo de categorização nesta pesquisa se deu com o tempo de duração de uma tarefa executada por um estudante, que pode foi categorizado como alto, médio ou baixo.

A mineração de dados (4) é a etapa na qual ocorre a descoberta de novas relações, com a utilização de métodos de Inteligência Artificial, através de uma análise sistemática e exaustiva sobre os registros. Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996) as ações consistem na aplicação de algoritmos específicos, que extraem padrões ou relacionamentos entre variáveis ou atributos. As tendências e relacionamentos identificados, em sua maioria encontram-se ocultos nos registros e a sua detecção por seres humanos é uma tarefa complexa. Vários autores (HAN e KAMBER, 2011; RUSSEL e NORVIG, 2013) propõe uma classificação para os métodos e tarefas típicas executadas nesta fase:

 Classificação: busca-se encontrar um modelo ou função que associe conjuntos de registros a rótulos categóricos pré-definidos, ou classes. Após o processo de aprendizado, o modelo pode ser aplicado a novos registros de forma a prever a classe em que tais registros se enquadram.

 Predição: modelos usados para predizer o valor de um atributo, que foi perdido ou é desconhecido, a partir dos dados dos demais atributos.

 Clusterização ou análise de agrupamento: também chamada de classificação não supervisionada. É considerada uma abordagem descritiva, enquanto a classificação supervisionada é definida como preditiva (HAN e KAMBER, 2011). Os agrupamentos na maioria dos casos são baseados na análise da similaridade ou em modelos probabilísticos. A análise de cluster tem como objetivo verificar a existência de grupos em um conjunto de dados, e em caso de sua existência, determinar quais as suas características (FUHR, 2015).

 Análise de afinidades ou associação: possibilita a identificação de características comuns entre atributos. Permite reconhecer padrões da ocorrência de determinados eventos nos dados em análise, visando determinar possíveis fatos que ocorrem

simultaneamente com uma grande probabilidade (co-ocorrência) ou quais itens de uma massa de dados estão presentes juntos com uma certa chance (correlação). Sob a ótica do processo de aprendizado, observa-se duas abordagens distintas, a supervisionada e não supervisionada (HAN e KAMBER, 2011). Métodos supervisionados requerem a definição prévia de classes, um atributo que defina a qual classe pertence cada entrada. Neste caso, o algoritmo aprende a classificar de acordo com a classe indicada e os novos registros são classificados conforme o aprendizado. Técnicas não supervisionadas não possuem uma classe pré-determinada e a definição de relações ou associações entre as entradas é feita a partir dos dados, valores dos atributos submetidos ao processo de mineração.

Em muitos contextos, são utilizados métodos não supervisionados com o intuito de explorar um conjunto de dados, analisando possíveis relações entre as entradas, para, posteriormente obter e validar um modelo para classificação supervisionada. Algoritmos baseados em agrupamento ou regras de associação podem ser usados na fase exploratória que busca possíveis relações entre os atributos. Posteriormente as técnicas supervisionadas são aplicadas para comprovar a viabilidade de reconhecer de forma automática a classe ou as relações entre os atributos.

Considerando que este trabalho propõe a utilização de mineração de dados em um contexto educacional, a seguir serão descritos os fundamentos e conceitos relacionados à área de pesquisa denominada Mineração de Dados Educacionais. As técnicas de mineração de dados serão utilizadas na elaboração do modelo afetivo do estudante, com o objetivo de estabelecer relações entre as variáveis que indicam o comportamento do estudante. Técnicas baseadas em classificação pemitirão a definição de um modelo para reconhecimento automático dos níveis de esforço, confiança e independência. No capítulo 5 serão detalhadas as técnicas aplicadas nesta pesquisa e a importância de cada uma delas para o reconhecimento da motivação.