• Nenhum resultado encontrado

1.6 MINERAÇÃO DE DADOS

1.6.3 Tarefas de mineração de dados

Com os dados já organizados, o próximo passo é determinar a Tarefa da Mineração de Dados a ser utilizada no processo. Nesse estudo foi utilizada a Tarefa de Classificação em virtude do propósito do nosso estudo que consiste em predizer a opinião dos participantes, entretando, outras tarefas são descritas na literatura, tais como apresentadas abaixo (HOLZINGER; DEHMER; JURISICA, 2014):

a) Descoberta de Associação: Abrange a busca por itens que frequentemente ocorram de forma simultânea em diversas transações de bases de dados.

b) Classificação: Consiste em descobrir uma função que mapeie um conjunto de registros em um conjunto de dados categóricos predefinidos, denominados classes. Dessa forma, essa tarefa pode ser usada, por exemplo, para predizer a opinião de determinada pessoa sobre um determinado assunto mediante ao contexto em que ela vive.

c) Regressão: Consiste num mapeamento efetivo dos registros de certo banco de dados em busca de valores reais.

d) Clusterização: Objetiva separar os registros de uma base de dados em subconjuntos de clusters, de modo que os elementos de um cluster compartilhem as propriedades comuns que distingam de elementos de outros clusters.

e) Sumarização: Busca a identificação de características comuns entre conjuntos de dados.

f) Detecção de Desvios: Consiste em localizar registros de uma base de dados cujas características não atendem aos padrões considerados normais no contexto atual. g) Descoberta de Seqüências: Usada para descobrir que existem possíveis mudanças

sazonais em determinados bancos de dados.

1.6.3.1 Modelos para classificação

Como a Tarefa de Mineração utilizada para esse estudo foi a Classificação, abaixo serão descritos apenas as fases dessa tarefa. A Classificação é um processo que é realizado em duas etapas, onde diversos modelos são treinados e testados (HOSOKAWA, 2011):

1. Etapa da criação do modelo de classificação: Essa etapa é constituída de regras que permitem classificar os elementos do banco de dados dentro de um número de classes pré- determinadas. Nessa fase, diversos modelos são criados a partir de um banco de dados de treinamento.

2. Etapa da verificação do modelo ou Etapa de Classificação: Nessa etapa as regras são testadas sobre um outro banco de dados, completamente independente do banco de dados de treinamento, elas terão alta probabilidade de estarem corretas, uma vez que este banco foi usado para extraí-las. Por isso, a necessidade de um banco de dados completamente novo, chamado de banco de dados de testes. A qualidade do modelo é medida em termos da

porcentagem de acertos do banco de dados de testes que as regras do modelo conseguem classificar de forma satisfatória.

As Técnicas de classificação geralmente utilizam um conjunto de treinamento com dados previamente classificados. A partir do aprendizado das características deste conjunto de treinamento, o algoritmo de classificação constrói um modelo e o utiliza para predizer a classe a que um novo registro pertence (Teste). A avaliação da performance do classificador é baseada na precisão da predição, isto é, na proporção de acertos obtidos sobre um conjunto completo de amostras (acurácia) (GABRIELA, et al. 2017).

Dentre os principais modelos de classificação (ou classificadores) utilizados na Mineração de Dados têm-se (COEIRA, 1996; COLVER; LONGWELL, 2013; FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996; GABRIELA et al., 2017; HAN; KAMBER; PEI, 2012; WITTEN; FRANK; HALL, 2011):

a) Redes Neurais (Neural Networks): são construções matemáticas relativamente simples, que foram inspiradas em modelos biológicos da conectividade sináptica do sistema nervoso central. São técnicas que apresentam um modelo inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência. O efeito de todos os processos biológicos que ocorrem nas sinapses artificiais é representado pelo “peso” associado nas redes neurais. A função de um neurônio artificial é coletar sinais advindos de outros neurônios, ou mesmo sinais de entrada da rede, ponderar os dados através de pesos específicos e repassar esses dados para outros neurônios ou para a saída da rede. A rede é treinada através do fornecimento dos valores de entrada e dos respectivos valores desejados de saída, no treinamento supervisionado (Figura 04).

b) Random Forest (em português, Floresta Aleatória): é uma técnica que consiste num conjunto de árvores de decisão combinadas para solucionar problemas de classificação. Cada árvore de decisão é construída utilizando uma amostra aleatória inicial dos dados e, a cada divisão desses dados, um subconjunto aleatório de atributos (variáveis) é utilizado para a escolha dos atributos mais informativos. No final, Random Forest gera uma lista dos atributos mais importantes que são determinados pela importância acumulada do atributo (variável) (Figura 05).

Figura 05 - Modelo Random Forest.

c) Decision Tree (em português, Árvore de Decisão): é um gráfico em forma de árvore, contendo as decisões a serem tomadas e suas possíveis conseqüências, usado para criar um plano para se alcançar um objetivo. Organiza os dados de forma hierárquica. Existem diversos algoritmos na literatura utilizados para a construção de árvores de decisão. Os algoritmos classificadores possuem como meta a construção de árvores que possuam o menor tamanho e a maior acurácia possíveis (Figura 06).

d) SVM (Support Vector Machines): Em português, máquina de vetores de suporte. É um algoritmo construído para encontrar a melhor fronteira de decisão (às vezes chamada de superfície de decisão) que separa duas únicas classes (A e B) a partir das amostras de treinamento. Ele faz isso por um processo de otimização contínua em que busca encontrar o hiperplano que mais bem separa as duas classes. Esse hiperplano é aquele cuja distância (no gráfico abaixo chamada de maximum margin b) dos exemplos das classes é a maior possível. A distância de uma amostra ao hiperplano separador é chamada de score é pode ser entendida como uma indicação do quão pertinente a amostra é a classe classificada (Figura 07).

Figura 07 - Modelo Support Vector Machines

e) IBK (Machine Learning): Em português, máquina de aprendizado. É um classificador baseado em aprendizagem de máquina e na inteligência artificial, consiste em algoritmos que melhoram seu desempenho e processamento através da experiência adquirida, sendo muito utilizado em motores de busca, e identificações pessoais como a fala e escrita. É um programa de computadores para otimizar um critério de desempenho utilizando dados de exemplo ou experiência anterior.

f) PART: produz um conjunto de regras do tipo SE-ENTÃO a partir de uma árvore de decisão. O PART gera uma lista de decisão utilizando a técnica “dividir pra conquistar”, constrói uma arvore de decisão em cada interação e seleciona a “melhor folha” em uma regra. As regras são induzidas a partir de uma árvore, e posteriormente são refinadas.

Como já mencionado anteriormente, uma das principais vantagens e importâncias da mineração de dados é sua capacidade de “aprender sozinha” através de seu próprio uso, e de melhorar sempre seu desempenho baseada nessa aprendizagem. A melhoria no seu desempenho permite maior precisão e acurácia nos resultados (GABRIELA et al., 2017).Para que um modelo de classificação reconheça os sinais de entrada, é necessário que passe, inicialmente, por uma fase de treinamento, onde são apresentados diversos atributos (variáveis) de entrada e a classe ao qual cada um desses atributos pertence. Após esse treinamento, espera-se que, ao ser apresentado ao modelo um sinal por ele desconhecido, mas pertencente ao mesmo tipo dos sinais que foram usados no treinamento, este seja capaz de identificar a classe correta a qual pertence (COLVER; LONGWELL, 2013; HAN; KAMBER; PEI, 2012).

Portanto, com o uso da Mineração de Dados associada à análises estatísticas tradicionais, busca-se automatizar a identificação daqueles indivíduos que são favoráveis ou contrários à proposta da redução da maioridade penal no Brasil, com ênfase nas características socioeconômicas, sociodemográgicas e no desenvolvimento moral. Dessa forma, os resultados desse estudo podem nos ajudar a esclarecer os reais motivos que interferem na tomada decisão dos brasileiros, em relação a temas tão polêmicos, como é o caso da proposta de redução da maioridade penal, que atualmente encontra-se em tramitação no Senado Federal.

1.7 OBJETIVOS