• Nenhum resultado encontrado

3.2 Mineração de dados

3.2.1 Mineração de dados e aprendizado de máquina

O termo mineração de dados, segundo Han e Kamber (2006) e Han, Kamber e Pei (2011), é usado como sinônimo de KDD - Knowledge Discovery from Data, descoberta de conhecimento em banco de dados, e está atualmente equivocado, sendo o mais apropriado mineração de conhecimento a partir de dados, embora mineração de dados ainda seja considerada uma etapa no processo de descoberta de conhecimento.

Muitos outros termos apresentam significado similar ou próximo, tais como knowledge mining from data(extração de conhecimento a partir de dados), knowledge extraction (extração de conhecimento), data/pattern analysis (análise de dados/padrões), data archaeology (arqueologia de dados), e data dredging (dragagem de dados).

A mineração de dados pode, segundo Han e Kamber (2006), ser vista como o resultado da evolução da tecnologia da informação a partir da administração dos bancos de dados no funcionamento de várias funcionalidades críticas. Estas funcionalidades incluem a coleta de dados, criação de bancos, gerenciamento e análise avançada, podendo a mineração de dados ser considerada, segundo Silwattananusarn e Tuamsuk (2012), um subcampo na gestão do conhecimento.

Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996) e Rajaraman et al. (2012), os esta- tísticos foram os primeiros a usar o termo mineração de dados, originariamente depreciativo, referindo-se a tentativas de extrair informação não suportada pelos dados. Hoje o termo assumiu um significado positivo, como a construção de um modelo estatístico.

O conceito para mineração de dados, dado por Provost e Fawcett (2013), é a habilidade que envolve a aplicação não só de tecnologia, mas ciência e arte, que estrutura o problema e permite razoável consistência, repetibilidade e objetividade. Já Fayyad, Piatetsky-Shapiro e

Smyth (1996) conceituam mineração de dados como a descoberta de novos padrões em bancos de dados, concentrando-se em algoritmos para extrair conhecimento útil. Hall, Witten e Frank (2011) complementam a definição citando a quantidade substancial de dados, através de um processo automático ou semi automático, enfatizando que os padrões descobertos, geralmente, levam a alguma vantagem de natureza econômica.

Rajaraman et al. (2012) e Han e Kamber (2006) definem como mineração de dados a descoberta de modelos para os dados. Para Han e Kamber (2006), a descoberta de padrões pode ser usada para a tomada de decisão, controle do processo, gestão da informação e processamento de querys, e é interessante se:

- é facilmente compreendida pelos humanos;

- é válida em uma nova base de dados com algum grau de certeza; - é potencialmente útil;

- valida uma hipótese, isto é, um padrão interessante que representa conhecimento.

Quanto aos algoritmos, segundo Zaki e Jr (2006), mineração de dados compreende os algoritmos básicos que permitem obter insights e conhecimentos fundamentais de uma grande massa de dados. Desta forma, de acordo com Rajaraman et al. (2012), cientistas da computação têm olhado para mineração de dados como um problema de algoritmos, onde o modelo de dados é a resposta a uma consulta sobre o mesmo. Para Han e Kamber (2006) e Zaki e Jr (2006), mineração de dados vai além dessa visão e envolve uma integração de técnicas de diversas disciplinas como banco de dados e datawarehouse, estatística, aprendizado de máquina, computação de alta performance, reconhecimento de padrões, redes neurais, visualização de dados, recuperação de informação, imagem e processamento de sinais, análise de dados temporal e espacial. A Figura 8 apresenta esta visão.

Figura 8 – Mineração de dados como uma junção de múltiplas disciplinas

Entre as disciplinas que compõem a mineração de dados, aprendizado de máquina deve ser destacada. Segundo Provost e Fawcett (2013), a mineração de dados começou como um ramo de aprendizado de máquina e os termos ainda estão ligados: ambos referem-se à análise de dados para encontrar padrões úteis e informativos, compartihando técnicas e algoritmos, com as comunidades científicas também ligadas.

Porém, mineração de dados e aprendizado de máquina apresentam diferenças: para Rajaraman et al. (2012), a mineração de dados é considerada como sinônimo de aprendizado de máquina porque usa algoritmos com um conjunto de treinamento tais como rede de Bayes, máquinas de vetor suporte e árvores de decisão.

De acordo com Provost e Fawcett (2013), aprendizado de máquina refere-se a vários tipos de melhora de desempenho, incluindo outros subcampos como robótica, que não fazem parte de KDD e mineração de dados, relacionando-se, por vezes, a assuntos como agência e cognição, que também não fazem parte do escopo da mineração de dados.

Para Han e Kamber (2006), um sistema de análise de dados que não possui uma grande quantidade de métodos é melhor classificado como sistema de aprendizado de máquina, ou seja, um sistema de análise de dados baseado em aprendizado sobre dados e estatística.

O caso típico quando aprendizado de máquina é uma boa abordagem, de acordo com Rajaraman et al. (2012) é quando há pouca noção do que se está procurando nos dados, como por exemplo, no “desafio Netflix”, quando os algoritmos prevêm as avaliações de filmes por usuários baseados em uma amostra de suas respostas. Porém, de acordo com os autores, quando é possível descrever os objetivos da mineração mais diretamente, o aprendizado de máquina não se mostrou bem-sucedido.

Um outro novo conceito é deep learning. Segundo Lewis (2016), deep learning é uma área de aprendizado de máquina emergente da interseção de redes neurais, inteligência artificial, modelagem gráfica, otimização, reconhecimento de padrões e processamento de sinais. Abrange tanto o aprendizado supervisionado como o não supervisionado, utilizando modelos de aprendizado de máquina de múltiplas camadas.

De acordo com Lewis (2016), o processo básico de aprendizagem em deep learning pode ser dividido em quatro componentes:

• Armazenagem de dados;

• Abstração ou a tradução dos dados armazenados em representação e conceitos;

• Generalização, que usa dados abstratos para criar conhecimento e inferências em direção a novos contextos;

• Avaliação, a qual fornece o feedback para medir a utilidade do conhecimento aprendido e informar possiveis melhorias.

Na prática, de acordo com Lewis (2016), há cinco passos para o desenvolvimento de um algoritmo de deep learning:

• Coleta dos dados;

• Exploração e preparação dos dados; • Treinamento do modelo;

• Avaliação;

• Melhoria do modelo através da escolha de um diferente tipo de modelo, ou o uso de dados adicionais.

Como os conceitos apresentam passos semelhantes, será descrita a abordagem da mine- ração de dados. As próximas seções apresentam outros tópicos sobre mineração de dados como o modelo CRISP-DM, os componentes de mineração e análise dos dados.