• Nenhum resultado encontrado

2.6 ANÁLISE DE DADOS

2.6.5 Mineração de Dados e suas Técnicas

“A expressão, Mineração de Dados, mais popular, é, na realidade, uma das etapas da Descoberta de Conhecimento em Bases de Dados.” (GOLDSCHIMIDT; PASSOS, 2005, p. 2).

Para Thomsen (2002, p. 237) com a visualização apropriada e consistente dos dados se descobre padrões e melhores práticas que ao encontro dos objetivos das organizações auxiliam em tomadas de decisões assertivas.

Carvalho (2001, p. 7) trata o Data Warehouse como a memória da empresa e o

Data Mining como a Inteligência da empresa.

Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado data warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de Inteligência Artificial e Estatísticas genericamente denominadas de Datamining (Mineração de Dados). (CARVALHO, 2001, p. 6).

Datamining é o uso de técnicas automáticas de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de

dados, não seriam facilmente descobertos a olho nu pelo ser humano (CARVALHO, 2001, p. 6).

Carvalho (2001, p. 7) ainda expõe algumas justificativas de porque as técnicas de

data mining passaram a ser usadas como exploração de dados:

 “O volume de dados disponível é enorme atualmente. Datamining é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados conclusões confiáveis.” (CARVALHO, 2001, p. 7).  “Os dados estão sendo organizados: [...] Data warehousing, os dados de várias fontes

estão sendo organizados e padronizados [...]”. (CARVALHO, 2001, p. 7).

 “Os recursos computacionais são potentes: o datamining necessita de muitos recursos computacionais para operar seus algoritmos sobre grande quantidade de dados.” (CARVALHO, 2001, p. 7).

 “A competição empresarial exige técnicas mais modernas de decisão: [...] empresas buscam adquirir dados para analisar melhor seus caminhos futuros por meio dos sistemas de apoio a decisão.” (CARVALHO, 2001, p. 7).

 “Programas comerciais de datamining já podem ser adquiridos: [...] técnicas de datamining são antigas conhecidas da Inteligência Artificial, [...] já saíram dos laboratórios para as empresas.” (CARVALHO, 2001, p.7).

Conforme a afirmação de Carvalho (2001, p. 27), “Tanto nos data warehouse empresarias, quanto em pequenos bancos de dados pessoais, os dados a serem utilizados no

datamining precisam ser preparados”.

Para esta preparação, Carvalho (2001, p. 27) expõe ainda algumas tarefas a serem realizadas:

 Tarefa 1 - Seleção dos dados:

Nem todo o data warehouse precisa ser vasculhado pelas ferramentas do datamining. Em muitas situações, o fenômeno estudado está registrado apenas em uma parte da grande massa de dados existente, enquanto em outros casos nem todos os campos de informação de cada registro precisam ser considerados. Tanto a limitação da massa de dados a ser explorada quanto a redução do número de variáveis consideradas na análise são fatores importantes, pois tornam o processo de mineração de dados mais eficiente e eficaz. Estes dois processos são realizados com base no sentimento do analista ou em técnicas estatísticas. (CARVALHO, 2001, p. 27).

Em qualquer massa de dados, é extremamente comum a existência de elementos ausentes por falha de digitação, erros de preenchimento de formulários, ou mesmo porque os registros pertencem a empresas ou épocas diferentes nas quais aquele dado em específico não era questionado ou considerado importante. No entanto, para a utilização de certas ferramentas do datamining, precisamos de registros com todos os dados (variáveis do problema) devidamente valorados, não se admitindo campos em branco. Para complementarmos os dados, podemos simplesmente assumir que um valor padrão, definido a priori, será considerado para fins de análise de ferramenta de datamining. (CARVALHO, 2001, p. 27,28).

 Tarefa 3 - Eliminação de registros :

Finalmente, a etapa de preparação dos dados pode ainda contar com processos de eliminação de registros cujos dados pareçam “errados” ou “não representativos” do fenômeno em questão, além da eliminação de “ruído” que de alguma forma tenha sido adicionado ao dado. Estes processos são realizados por técnicas específicas de Estatística ou Inteligência Artificial, de novo, em um datamining prévio ao datamining final e desejado. (CARVALHO, 2001, p. 28).

Após as etapas de preparação, Carvalho (2001, p. 30) estabelece os protocolos de implantação:

 Definição do problema:

“Se há pouco conhecimento, faz-se a descoberta não supervisionada; Se há suspeita de alguma relação interessante, faz-se a testagem de hipótese; Se há muito conhecimento, faz-se a modelagem matemática da relação”. (CARVALHO, 2001, p. 30).

 Descoberta das relações novas:

Em função do problema definido, escolhem-se a técnica (classificação, estimativa, previsão, etc.) e a ferramenta (rede neurais artificiais, algoritmos genéticos, etc.) capaz de executá-la;

Faz-se a preparação dos dados (Seleção, complementação, etc.) de acordo com a ferramenta a ser usada;

Aplica-se a ferramenta, gerando “novas” relações. (CARVALHO, 2001, p. 30).

 Análise das novas relações:

“Uma equipe de especialistas analisa e escolhe as relações viáveis e promissoras”. (CARVALHO, 2001, p. 30).

 Aplicação das novas relações:

“As novas relações são aplicadas (ou explicadas) em caráter experimental.” (CARVALHO, 2001, p. 30).

“Os resultados da aplicação (ou explicação) da relação nova são contrapostos aos objetivos iniciais. Eventualmente, retorna-se para a redefinição do problema.” (CARVALHO, 2001, p. 30).

Quanto às técnicas abordadas por Babieri, (2001) citamos:

 Árvore de Decisão:

“A árvore de decisão é uma técnica que, a partir de uma massa de dados, cria e organiza regras de classificação e decisão em formato de diagrama de árvores, que irão classificar suas observações ou predizer resultados futuros.” (BARBIERI, 2001, p. 190).

 Análise de Conglomerados:

O objetivo da Análise de Conglomerados é identificar a existência de diferentes grupos dentre de um conjunto de dados e, constatada esta existência, agrupar os elementos estudados de acordo com as semelhanças entre si, considerando-se as características analisadas. (BARBIERI, 2001, p. 196).

 Redes Neurais:

“Essa não é exatamente uma técnica estatística, mas sim um recurso matemático/computacional que pode ser usado na aplicação destas.” (BARBIERI, 2001, p. 189).

As Redes Neurais são uma tecnologia cada vez mais usada em Data Mining. Sua grande vantagem está basicamente em sua habilidade de aprendizagem a partir das experiências, não ficando restritas a uma ordem seqüencial pré-fixada. Elas consistem em algoritmos e procedimentos computacionais que imitam a capacidade de aprendizagem do cérebro. (BARBIERI, 2001, p. 199).

 Análise de Regressão:

A Análise de Regressão processa as informações de uma base e dados de maneira a determinar um modelo (uma equação) que representa o relacionamento existente entre as variáveis em estudo. Os principais objetivos da análise de regressão são: sumarização dos dados, predição, controle e estimação. Uma só análise pode atender a mais de um objetivo ao mesmo tempo. (BARBIERI, 2001, p. 204).

Séries Temporais é uma técnica estatística utilizada principalmente no cálculo de previsão de um conjunto de observação, dados seus valores ao longo do tempo. O que faz esta técnica tão especial é a possibilidade de considerar, na analise, a sazonalidade ou ciclos intrínsecos ao processo, utilizando-os na predicação de valores futuros de série em questão ou na investigação de seu mecanismo gerador. (BARBIERI, 2001, p. 208).

Documentos relacionados