Análise da Informação Manuel Martins

(1)

Análise da Informação

Manuel Martins

(2)

INFORMÁTICA

(3)

BUSINESS INTELLIGENCE

DATA WAREHOUSE

DATA MINING

(4)

Knowledge Discovery in Databases (KDD) foi criado em 1989 como referencia ao processo amplo de encontrar conhecimento em dados e dar ênfase a uma grande aplicação em particular - o método Data Mining (Mineração de Dados).

KDD refere-se a todo processo de descoberta de conhecimento útil nos dados, enquanto Data Mining refere-se a aplicação de algoritmos para extrair modelos dos dados.

KDD - KNOWLEDGE DISCOVERY IN DATABASES

(5)

KDD é empregado para todo o processo de extração de conhecimento dos dados. Neste contexto, conhecimento significa relacionamento e padrões entre elementos de dados. Mineração de Dados é utilizado para os estágios de descoberta do processo de KDD.

KDD

DATA MINING

(6)

EXTRAÇÃO DE CONHECIMENTO

KDD - KNOWLEDGE DISCOVERY IN DATABASES

EXTRAÇÃO DE CONHECIMENTO (KDD - Knowledge Discovery in Databases) - é um processo de extração de informações de base de dados, que cria relações de interesse que não são observadas pelo especialista no assunto. Ou seja, refere-se às etapas que produzem conhecimentos a partir de dados relacionados.

(7)

PRINCIPAL CARACTERÍSTICA  é a extração não-trivial de informações

implicitamente contidas em uma base de dados. Essas informações são de difícil detecção por métodos tradicionais de análise e devem ser

potencialmente úteis para tomada de decisão.

Enquanto os métodos tradicionais são capazes de tratar apenas as

informações explícitas, a extração de conhecimento é capaz de detectar

(8)

NÃO TRIVIAL  torna clara a existência de alguma técnica de busca ou inferência para extrair as informações.

PREVIAMENTE DESCONHECIDOS  indica que a informação deve ser nova para o sistema e de preferência também para o usuário.

POTENCIALMENTE ÚTEIS  a informação deve trazer algum benefício, ou seja, deverá possibilitar ao usuário algum ganho.

KDD  processo não trivial, de extração de informações implícitas,

previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.

(9)

PROCESSO ITERATIVO  embora apresente uma definição semelhante ao processo de mineração de dados ele é composto de uma série de etapas sequenciais, podendo haver retorno a etapas anteriores, isto é, as descobertas realizadas (ou a falta delas).

Eventualmente, este processo conduz a novas hipóteses e descobertas. Neste caso, o usuário pode decidir pela retomada dos processos de mineração, ou uma nova seleção de atributos, por exemplo, para validar as hipóteses que surgiram ao longo do processo.

(10)

PRODUTO ESPERADO  é uma informação relevante para ser utilizada pelos tomadores de decisão. Alguns autores, porém, defendem o ponto de vista de que o conhecimento descoberto não precisa necessariamente ser incorporado a um sistema de apoio à decisão (SAD).

(11)

1- DEFINIÇÃO DO PROBLEMA - é o conhecimento desejado pelo usuário, ou seja, qual o tipo de conhecimento que se deseja extrair do banco de dados  objetivos da análise.

FASES DO KDD

2- SELEÇÃO DOS DADOS - seleciona-se um conjunto de dados ou um subconjunto de atributos onde a descoberta deverá ser efetuada. A seleção dos dados é realizada de acordo com os objetivos definidos. Caso o objetivo seja identificar o comportamento de compras dos clientes em um período de um ano, por exemplo, os dados referentes ao ano desejado devem ser selecionados. O sucesso desse processo depende da correta escolha desses dados-alvo, ou seja, este passo possui impacto significante sobre a qualidade do resultado do processo.

(12)

3- LIMPEZA E PRÉ-PROCESSAMENTO - fazer a limpeza dos dados, de maneira que os incorretos ou incompletos sejam desprezados. Esta é uma parte crucial no processo, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que: eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto (outliers). O auxílio do especialista do domínio é fundamental

(13)

FASES DO KDD

4- TRANSFORMAÇÃO DOS DADOS - após serem selecionados, limpos e pré-processados os dados necessitam ser armazenados e

formatados adequadamente para que os algoritmos de aprendizado

possam ser aplicados. Nesta fase são utilizados métodos de redução

ou transformação para diminuir o número de variáveis envolvidas no processo, visando melhorar o desempenho do algoritmo de análise. Muitas vezes, não é necessário representar todas as faixas de valores de uma determinada variável. Assim, pode-se reagrupar esses valores diminuindo o número de faixas e a complexidade do problema.

(14)

5- MINERAÇÃO DOS DADOS - escolha das tarefas de mineração de dados. Nesse passo, decide-se qual o objetivo do processo de mineração de dados.

Principais objetivos  classificação, regressão, clusterização (grupamento), árvore de decisão, modelos de relacionamento entre variáveis, análise de séries temporais, redes neurais...

(15)

6- ALGORITMOS DE MINERAÇÃO DE DADOS - escolha dos métodos e algoritmos para serem usados na busca de padrões dos dados. Isso inclui decidir que modelos e parâmetros são mais apropriados para a aquisição do tipo de conhecimento desejado. Por meio da submissão dos dados aos algoritmos de mineração de dados selecionados, chega-se ao conhecimento. Eschega-ses passos, chega-se usados corretamente, chega-serão de grande ajuda para a etapa seguinte.

(16)

7- MINERAÇÃO DE DADOS - busca de padrões de interesse em uma forma particularmente representativa ou em um conjunto dessas representações. Por exemplo: regras de classificação, árvores de decisão, regressão, clusterização. Nesse passo, é realizada a extração de informação dos dados até então processados.

8- ANÁLISE E INTERPRETAÇÃO - os dados de saída definidos no passo anterior são analisados e interpretados pelos especialistas do domínio. Caso seja necessário, pode-se repetir qualquer um dos sete passos anteriores para se obter a correta interpretação dos padrões.

(17)

9- CONSOLIDAÇÃO DO CONHECIMENTO - incorporação do conhecimento extraído dos dados no desempenho do sistema, na documentação do conhecimento e no relatório para as partes interessadas. Nesse passo, faz-se também a verificação e a resolução de conflitos potenciais com o prévio conhecimento extraído.

(18)

FASES DO KDD

Data Mining Dados

(19)

BUSINESS INTELLIGENCE

DATA WAREHOUSE

DATA MINING

(20)

✓DATA MINING (mineração de dados)  é o processo de DESCOBERTA

de PADRÕES implícitos existentes em grandes massas de dados. Data Mining é DESCOBRIR CONHECIMENTO novo escondido em

grandes massas de dados armazenadas em banco de dados. FERRAMENTAS DE UM DATA WAREHOUSE

(21)

DATA MINING

✓Resultados incluem  associações, correlações, sequências, classificações, clustering (grupamento) e previsões.

✓Não tem automatização simples e precisa ser conduzido por uma pessoa, preferencialmente com formação em Estatística ou áreas afins.

(22)

DATA MINING - EXEMPLOS

✓ SITE DE VENDAS (armazenar acessos - cookies)

✓ WAL-MART (fraldras e cerveja - salsicha e catchup)

✓ NÍVEL DE EVASÃO ESCOLAR - FATOR DETERMINANTE ? • RENDA

• IDADE

• CLASSE SOCIOECONÔMICA • ANOS FORA DA ESCOLA

✓DETECÇÃO DE FRAUDES EM DECLARAÇÕES (IRPF / IRPJ) ✓DETECÇÃO DE FRAUDES EM GUIAS DE IMPORTAÇÃO ✓...

(23)

DATA

WAREHOUSE

 A

MEMÓRIA

DA EMPRESA !

DATA

MINING

 A

INTELIGÊNCIA

DA EMPRESA !

(24)

ALGUMAS TÉCNICAS - Não existe uma técnica que resolva todos os problemas de DATA MINING. Diferentes técnicas servem para diferentes propósitos, cada uma oferecendo vantagens e desvantagens. A escolha da técnica está fortemente relacionada com o tipo de conhecimento que se deseja extrair ou com o tipo de dado no qual ela será aplicada.

(25)

DATA MINING - ALGUMAS TÉCNICAS

ASSOCIAÇÃO - é uma das técnicas mais conhecidas. Em associação, um padrão é descoberto com base em uma relação entre itens na mesma transação. A técnica de associação é usada na análise de cesta de mercado para identificar um conjunto de produtos que os clientes frequentemente compram juntos. Os varejistas usam a técnica de associação para pesquisar os hábitos de compra dos clientes. Com base em dados históricos de vendas, os varejistas podem descobrir que os clientes sempre compram batatas frita quando compram cerveja e, portanto, podem colocar cervejas e batatas fritas ao lado umas das outras para economizar tempo para o cliente e aumentar as vendas.

(26)

CLASSIFICAÇÃO - é uma técnica clássica baseada na aprendizagem automática. A classificação é usada para classificar cada item em um conjunto predefinido de classes ou grupos. A classificação utiliza técnicas como árvores de decisão, programação linear, rede neural e estatística. Na classificação, o software pode aprender a classificar os itens de dados em grupos. Por exemplo, podemos aplicar a classificação na seguinte aplicação: “Dados todos os registros de funcionários que saíram da empresa, prever quem provavelmente vai deixar a empresa em um período futuro". Neste caso, dividimos os registros de funcionários em dois grupos: SAIR e FICAR. O software de mineração irá classificar os funcionários nos dois grupos separados.

(27)

CLUSTER (Grupamento) - é uma técnica que cria um cluster de objetos que têm características semelhantes usando a técnica automática. A técnica de agrupamento define as classes e coloca objetos em cada classe, enquanto que nas técnicas de classificação, os objetos são atribuídos a classes predefinidas. Por exemplo, em uma biblioteca, há livros sobre vários assuntos disponíveis. O desafio é como manter esses livros de forma que os leitores possam levar vários livros sobre um determinado assunto de maneira simples. Usando a técnica de clustering, podemos manter livros que têm alguns tipos de semelhanças em um uma prateleira (cluster) e rotulá-lo com um nome significativo. Se os leitores querem pegar livros desse assunto eles só teriam que ir para essa prateleira em vez de procurar por toda a biblioteca.

(28)

PREDIÇÃO - é uma das técnicas de mineração de dados que descobrem a relação entre variáveis dependentes e independentes. Por exemplo, a técnica de análise de previsão pode ser usada na venda para prever o lucro se considerarmos a venda como uma variável independente, o lucro como variável dependente. Em seguida, com base nos dados históricos de vendas e lucros, podemos desenhar uma curva de regressão ajustada que é usada para a previsão de lucro. Outro exemplo seria explicar nível de venda de um produto (variável dependente Y) como função do gasto com propaganda (variável independente X).

(29)

PADRÃO SEQUENCIAL - é uma técnica de mineração de dados que procura descobrir ou identificar padrões semelhantes, eventos regulares ou tendências em dados de transações durante um período de negócios. Nas vendas, com dados históricos de transação, as empresas podem identificar um conjunto de itens que os clientes compram mais de uma vez em um ano. Em seguida, as empresas podem usar essas informações para recomendar aos clientes comprá-lo com melhores ofertas com base em sua frequência de compra no passado.

(30)

ÁRVORE DE DECISÃO - é uma das técnicas de mineração de dados mais comuns porque seu modelo é simples e fácil de ser entendido pelos usuários. Na árvore de decisão, a raiz é uma questão ou condição simples que tem múltiplas respostas. Cada resposta, então, leva a um conjunto de perguntas ou condições que nos ajudam a determinar os dados para que possamos tomar a decisão final baseada nesses dados.

(31)

APRENDIZADO DE MÁQUINA - é um campo de estudo dentro da pesquisa em inteligência artificial, que busca fornecer conhecimento aos computadores através de dados, observações e interações com o mundo. Esse conhecimento adquirido permite que computadores generalizem corretamente novos eventos e configurações.

CATEGORIAS

• APRENDIZADO SUPERVISIONADO

• APRENDIZADO NÃO SUPERVISIONADO • APRENDIZADO POR REFORÇO

(32)

APRENDIZADO SUPERVISIONADO - quando tentamos prever uma variável dependente a partir de uma lista de variáveis independentes. Os dados estão previamente rotulados.

CARACTERÍSTICA BÁSICA - os dados utilizados para treinamento já contém a resposta desejada, isto é, contém a variável dependente resultante das variáveis independentes observadas. Nesse caso, dizemos que os dados são anotados com as respostas ou classes a serem previstas.

(33)

DATA MINING - ALGUMAS TÉCNICAS APRENDIZADO SUPERVISIONADO

VARIÁVEIS INDEPENDENTES VARIÁVEIS DEPENDENTES

Anos de Carreira, Formação, Idade Salário

Idade Carro, Idade Motorista Risco de Acidente Automotivo Texto de um livro Escola Literária

Temperatura Receita de venda de sorvete Histórico escolar Nota no ENEM

(34)

APRENDIZADO NÃO SUPERVISIONADO - o conjunto de exemplos não está rotulado, assim o sistema tenta classificar estes conjuntos agrupando os semelhantes em determinadas classes Os dados não necessitam de ajuste, são processados da forma que são apresentados.

TÉCNICAS MAIS CONHECIDAS - Redes Neurais Artificiais, Clusterização k-médias, Máquina Suporte Vetorial, Clusterização Hierárquica, Análise de Componentes Principais, Mapas Auto organizáveis, etc. Problemas de

aprendizado não supervisionado são consideravelmente mais complicados do

que problemas de aprendizado supervisionado, principalmente porque não

temos a reposta anotada nos dados. Assim, é extremamente complicado avaliar

um modelo de aprendizado não supervisionado e esse tipo de modelo está na

(35)

DADOS FORMA REPRESENTATIVA Transações bancárias Normalidade da transação Registros de Compras Associação entre produtos

Dados Multidimensionais Dados com dimensão reduzida Registros de Compras Perfil dos consumidores

Palavras em um texto Representação matemática das palavras

De uma forma geral, com APRENDIZADO NÃO SUPERVISIONADO se deseja achar uma representação mais informativa dos dados. Geralmente, essa representação mais informativa é também mais simples, condensando a informação em pontos mais relevantes.

EXEMPLOS

(36)

APRENDIZADO POR REFORÇO - a máquina tenta aprender qual é a melhor ação a ser tomada, dependendo das circunstâncias na qual essa ação será executada.

Assim, o futuro é uma variável aleatória: como não se sabe a priori o que irá acontecer, é desejável uma abordagem que leve em consideração essa incerteza, e consiga incorporar as eventuais mudanças no ambiente do processo de tomada da melhor decisão. Essa ideia de fato deriva do conceito de “aprendizagem por reforço” da Psicologia, no qual uma recompensa ou punição é dada a um agente, dependendo da decisão tomada.

(37)

DATA MINING - ALGUMAS TÉCNICAS APRENDIZADO POR REFORÇO

Com o tempo e a repetição dos experimentos, espera-se que o agente consiga associar as ações que geram maior recompensa para cada situação que o ambiente apresenta, e passe a evitar as ações que geram punição ou recompensa menor. Na Psicologia, essa abordagem é chama de behaviorismo e tem B. F. Skinner (psicólogo) como um dos principais expoentes. Dentre outros experimentos famosos, usou a ideia de recompensas e punições para treinar pombos para conduzir mísseis na Segunda Guerra Mundial.

(38)

ESPAÇOS DE CONHECIMENTO Business Inteliligence Banco de Dados Datawarehouse Data Marts

Espaço dos Dados

Espaço da Informação Analítica Espaço da Influência e Variação Data Mining

Qual é o preço do livro? BI - Business Intelligence!

Venda de livro de Informática por mês e por região

Que fatores influenciam a venda de livros em BH?

Que fatores influenciaram a variação da venda de livros de Informática nos últimos meses ?

(39)

PADRÕES METODOLÓGICOS DO DATA MINING

AVALIAÇÃO PREPARAÇÃO _{DOS DADOS}

IMPLANTAÇÃO ENTENDIMENTO DO NEGÓCIO ENTENDIMENTO DOS DADOS MINERAÇÃO DE DADOS

(40)

BUSINESS INTELLIGENCE

DATA WAREHOUSE

DATA MINING

(41)

GABARITO- A QUESTÕES DE PROVAS

01- (IDECAN CRF-SP-2018-Analista de Sistemas) - A etapa de Mineração de Dados compreende a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD (Knowledge Discovery in Database), ou Descoberta do Conhecimento em Bases de Dados. É a principal etapa do processo de KDD.” Acerca de algumas das tarefas do KDD, analise a assertiva a seguir: “compreende a busca por uma função que mapeie os registros de um banco de dados em um intervalo de valores reais”. Assinale a alternativa que apresenta esta tarefa.

A) Regressão. B) Classificação. C) Sumarização. D) Agrupamento.

(42)

Julgue os itens a seguir, a respeito de data mining e OLAP. 02- (CESPE- FUB-Técnico de Tecnologia da Informação 2018)

GABARITO- CERTO

No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.

(43)

a) A expressão de um conjunto de dados por um conjunto menor de características do que em sua forma original.

b) A redução dos espaços de variação dos dados em relação a seus espaços originais.

c) A supressão de características consideradas de menor prioridade pelo gestor.

d) A expressão de um conjunto de dados por um conjunto de características de dimensionalidade conhecida.

e) A expressão de um conjunto de características por um outro conjunto de características de dimensionalidade invariante em relação à sua forma original.

03 (ESAFReceita FederalAssistente Técnico Administrativo 2014 ) -Em Datamining, redução da dimensionalidade é:

(44)

04- (CESPE - TJ_SE_2014)

GABARITO- CERTO

DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento em base de dados, consistindo em análise de conjuntos de dados cujo objetivo é descobrir padrões úteis para tomada de decisão.

(45)

05- (CESPE - TJ_SE_2014)

GABARITO- ERRADO

O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados, tendo por finalidade aproximar registros similares para predizer valores de variáveis.

(46)

06- (CESPE - TJ_SE_2014)

GABARITO- CERTO Embora os algoritmos genéticos apresentem elevada demanda computacional, eles possibilitam a resolução de problemas em paralelo; por isso, são uma boa ferramenta para mineração de dados.

(47)

Acerca de DataMining e de DataWarehouse, julgue os itens subsecutivos.

Um DataWarehouse provê uma excelente base para a realização de DataMining, pois os algoritmos de DataMining demandam grandes quantidades de dados em nível detalhado; o DataMining tira vantagem de bases de dados que estejam integradas e limpas; e a infraestrutura necessária para a criação de um DataWarehouse atende às necessidades das operações de DataMining.

07- (CESPE - TJ_SE_2014)

(48)

08- (CESPE- TJDFT - 2015) - Julgue os itens a seguir, a respeito de datawarehouse e de datamining.

Em um processo de mineração, durante a etapa de preparação dos dados, são analisados os requisitos de negócio para consolidar os dados.

(49)

09- (CESPE- ANÁLISE - EBSERH-ANALISTA DE TECNOLOGIA DA INFORMAÇÃO 2018) - Julgue os itens que se seguem, a respeito de arquitetura e tecnologias de sistemas de informação.

A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos de data mining.

(50)

10- (CESPE- MEC 2015) - Julgue os itens seguintes, referentes a data mining.

A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o comportamento futuro de determinados atributos.

(51)