• Nenhum resultado encontrado

Aula 03. Prof. Arthur Mendonça. Banco de Dados para Auditor Fiscal da SEFAZ /PR. 1 de 54 Prof. Arthur Mendonça Aula 03

N/A
N/A
Protected

Academic year: 2022

Share "Aula 03. Prof. Arthur Mendonça. Banco de Dados para Auditor Fiscal da SEFAZ /PR. 1 de 54 Prof. Arthur Mendonça Aula 03"

Copied!
54
0
0

Texto

(1)

Aula 03

Banco de Dados para Auditor Fiscal da SEFAZ /PR

Prof. Arthur Mendonça

(2)

Sumário

SUMÁRIO 2

INTRODUÇÃO 3

TEORIA DA AULA 4

INTRODUÇÃO 4

APLICAÇÕES 5

FALÁCIAS 6

TÉCNICAS DE P-PROCESSAMENTO 7

Limpeza de dados 7

Integração de dados 10

Transformação de dados 10

Redução de dados 12

TÉCNICAS E TAREFAS DE MINERAÇÃO 12

Classificação 13

Análise de Agrupamentos (Clusterização) 14

Regras de Associação 15

Detecção de Anomalias 16

Modelagem Preditiva 17

APRENDIZADO DE MÁQUINA 19

MINERAÇÃO DE TEXTO 20

QUESTÕES COMENTADAS PELO PROFESSOR 22

LISTA DE QUESTÕES COMENTADAS 40

GABARITO 51

RESUMO DIRECIONADO 52

REFERÊNCIAS 54

(3)

Introdução

Bem-vindo de volta ao nosso curso de Bancos de Dados para Auditor Fiscal da SEFAZ/PR! Hoje vamos falar um pouco a respeito de mineração de dados e várias das técnicas envolvidas neste processo, contemplando os seguintes aspectos que são cobrados na maioria das provas da nossa disciplina.

Conceitos e estratégias de implantação de Data Mining

Espero que você esteja gostando do curso até agora e que esta aula seja bastante útil para sua prova!

Bons estudos!

@analisedeinformacoes

(4)

Teoria da Aula

Introdução

Você já sabe que os sistemas de Data Warehouse e Business Intelligence têm como objetivo fornecer informações para a tomada de decisão, correto? Quando falamos de mineração de dados (data mining), os objetivos são similares. A diferença maior reside nas técnicas que são utilizadas para obter as informações desejadas.

Enquanto que os sistemas analíticos (OLAP) e de DW/BI procuram agregar grandes quantidades de dados em um modelo que permita uma fácil navegação e visualização em hierarquias, séries históricas e outras estruturas, as técnicas de mineração de dados focam na busca por padrões e relacionamentos ocultos nos dados, com o objetivo de subsidiar a tomada de decisões.

A mineração faz parte do processo de descoberta do conhecimento (KDD), que é um conceito mais amplo, tendo a ver com um processo que permite extrair informações e conhecimento a partir do processamento, enriquecimento e interpretação dos dados brutos.

Figura: Processo de descoberta do conhecimento em bancos de dados (Fayyad, Shapiro, & Smyth, 1996).

Apesar das semelhanças em seus propósitos, a mineração de dados não se confunde com algumas técnicas que já vimos. Laudon & Laudon (2014) afirmam que a mineração de dados é mais voltada a descoberta do que OLAP. Veja o que eles dizem:

Mineração de dados fornece insights em dados corporativos que não podem ser obtidos com OLAP, ao encontrar padrões escondidos e relacionamentos em grandes bancos de dados e inferindo regras a partir deles, de modo a prever comportamento futuro.

(5)

Uma definição bastante concisa de mineração de dados pode ser vista no site da SAS, empresa pioneira em sistemas analíticos:

Mineração de dados (em inglês, data mining) é o processo de encontrar anomalias, padrões e correlações em grandes conjuntos de dados [...].i

Veja que um detalhe crucial é que as informações úteis eventualmente encontradas estavam ocultas em meio a um grande volume de dados, não são trivialmente obtidas. As técnicas de mineração de dados não se confundem com uma simples interpretação de um relatório gerencial realizada por um especialista, por exemplo.

Portanto, não é um exemplo de mineração de dados o que ocorre quando um executivo recebe um relatório que contém um gráfico de vendas em uma descendente "#$% e conclui que os negócios vão mal.

Um último detalhe a respeito dessa nossa introdução é que a mineração de dados é uma atividade multidisciplinar, envolve diversas áreas da computação (aprendizado de máquina, banco de dados) e da estatística (estatística descritiva, modelos preditivos) e matemática. Só não esqueça que a mineração é realizada em arquivos armazenados em meio digital, não é possível realizar mineração de dados em um arquivo físico.

Aplicações

“Legal, professor. Agora eu tenho uma noção do que é mineração de dados. Mas para que serve isso?”

Mineração de dados tem inúmeras aplicações. É até um pouco difícil para o examinador citar um campo de negócio em que a mineração não é aplicável. Há alguns exemplos interessantes:

Marketing: Talvez o campo mais fértil para a descoberta de padrões. Nesse sentido, uma área que tem progredido bastante nos últimos anos é a análise de sentimentos, que utiliza os posts em mídias sociais para descobrir como os potenciais clientes se sentem a respeito de determinado produto ou serviço. Isso traz amplas possibilidades para a criação de campanhas publicitárias direcionadas e de possíveis ajustes no negócio para melhorar a satisfação do consumidor.

Detecção de fraudes: mineração de dados pode ser utilizada para identificar padrões de transações bancárias fraudulentas. Os bancos utilizam essas técnicas para bloquear transações suspeitas e prevenir danos às contas dos clientes.

• Saúde: A mineração, com o auxílio de modelos estatísticos, pode ajudar no campo da medicina preventiva, dando subsídios para que os especialistas, baseados em fatores de risco, prevejam as probabilidades de ocorrência de determinadas enfermidades.

Sistemas de Recomendação: Serviços como a Netflix fazem grandes investimentos em mineração de dados. As técnicas são usadas para melhorar suas recomendações (sabe aquelas sugestões no estilo “filmes que você talvez goste?”) e até mesmo para desenvolver novos filmes e séries baseados nas preferências dos usuários.

(6)

Falácias

Às vezes as questões a respeito de mineração de dados tentam confundir o candidato aplicando alguns conceitos que parecem verdadeiros, mas não o são.

Podemos citar quatro falácias interessantes que podem ser alvo de cobrança na sua prova, elas foram retiradas de (Larose, 2005).

Falácia 1: Existem ferramentas de data mining que podemos “soltar” em cima dos conjuntos de dados que elas irão encontrar soluções para os nossos problemas.

Realidade: Não há ferramenta de mineração de dados completamente automática. A mineração de dados é um processo.

Como veremos a seguir, há a necessidade da ação humana nas diferentes etapas desse processo.

Falácia 2: O processo de mineração é autônomo, precisando de pouca ou nenhuma supervisão.

Realidade: Como acabamos de citar, a intervenção humana acontece em diversas partes do processo, como no monitoramento de qualidade, atualizações no modelo, etc.

Falácia 3: Soluções de Data Mining se pagam muito rapidamente.

Realidade: Os retornos obtidos vão variar bastante, tudo depende da aplicação específica e da estrutura de implantação

Falácia 4: Sistemas de mineração de dados são intuitivos e fáceis de usar.

Realidade: Infelizmente muitas vezes a mineração é um processo complexo, que requer especialistas que tenham não somente conhecimento sobre as técnicas de mineração, como também um bom entendimento do negócio.

(CESPE – PF – 2018) Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.

Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis.

RESOLUÇÃO:

É isso mesmo. Para que possam ser úteis à tomada de decisão, os padrões descobertos devem ser válidos, novos (já que eram previamente ocultos) e compreensíveis.

Gabarito: C

(CESPE – STJ – 2018) Julgue o item que se segue, a respeito de arquitetura e tecnologias de sistemas de informação.

A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos de data mining.

(7)

RESOLUÇÃO:

Novamente uma boa definição para os objetivos de data mining. O propósito é a descoberta de regras e padrões previamente ocultos. O conhecimento indutivo é aquele obtido através da generalização de ocorrências particulares.

Por exemplo, quando verificamos que um determinado conjunto de clientes de um banco com as mesmas características está sempre associado a um alto risco de inadimplência, podemos então induzir que os demais clientes que seguem aquele perfil também terão um alto risco de não pagar suas contas.

Veremos mais a respeito das técnicas de mineração mais a seguir, mas saiba que, realmente, o conhecimento obtido tem tudo a ver com o método indutivo.

Gabarito: C

Com o fim desta conceituação, aprendemos algumas características gerais de mineração de dados. A partir de agora, vamos focar em como esse processo acontece.

Técnicas de Pré-Processamento

Os dados contidos em bancos de dados muitas vezes contêm diversas inconsistências, incompletudes e ruídos. Seja devido a erros de preenchimento de campos ou mesmo a falhas na modelagem do banco de dados, alguns problemas com os dados podem surgir e atrapalhar a mineração. Por exemplo, os bancos de dados podem conter (Larose, 2005):

• Campos obsoletos ou redundantes;

• Valores ausentes;

• Outliers (anomalias);

• Dados cuja forma não é adequada para mineração;

• Valores não consistentes com a política de dados ou com o senso comum.

A fase de pré-processamento inclui técnicas para lidar com esses dados, na forma de limpeza e de tratamento de dados. Se você lembrar do processo de ETL na construção de um data warehouse, vai perceber que grande parte do trabalho aqui é também feito naquele processo. Desta forma, os data warehouses que passaram por um tratamento adequado são ótimas fontes para a realização de mineração de dados.

Limpeza de dados

Para saber o que é limpeza, precisamos primeiro ter uma ideia do que são dados “sujos”. Dados que são considerados lixo em um banco de dados aparecem de diferentes maneiras. Deve-se tomar bastante cuidado na hora de interpretar as ocorrências aparentemente erradas, pois podem ter algum significado que não conseguimos perceber a priori.

A limpeza de dados inclui tarefas relacionadas ao entendimento e à preparação dos dados. Você vai ver que realizamos uma análise inicial, aferindo a qualidade dos dados, e posteriormente realizamos as limpezas e os tratamentos necessários.

(8)

Vamos ver um exemplo (baseado no livro de Larose). Tente identificar na tabela abaixo os possíveis registros problemáticos, lembrando que ela guarda registros a respeito de clientes de um comércio eletrônico.

IdCliente CEP Sexo Idade Estado Civil Renda

001 88160-610 M 41 Solteiro 10000

002 69047-392 F A Casado 4000

003 36830 G NULL Divorciado 99999

004 61948-050 M 23 Solteiro -5000

Vamos atributo a atributo. Na coluna CEP, observe que o valor para o cliente 003 não segue o formato convencional de um código postal brasileiro, pois ele só tem 5 dígitos. A princípio, poderíamos pensar tratar-se de um erro, mas temos que lembrar que os códigos postais dos Estados Unidos, por exemplo, possuem cinco dígitos.

Assim, o cliente provavelmente é estrangeiro e colocou seu código do país de origem.

A seguir, na coluna sexo, o mesmo cliente 003 possui o valor “G”. As teclas M e F ficam lado a lado no teclado, então podemos assumir que foi um erro de digitação. Se o sistema de origem não bloqueava esse tipo de digitação incorreta, é possível que tenhamos ocorrências assim no banco de dados.

Em seguida, veja que no campo idade temos duas situações. Em uma delas há um valor “A”, que é claramente um erro. Não sabemos o que ocasionou com que este valor entrasse como uma idade, mas é fato que não nos ajuda em nada a tentar reconhecer padrões a respeito das idades dos clientes. Em seguida, há um valor faltante. Isso não é um erro propriamente dito. Como você viu na aula de banco de dados relacionais, há colunas que permitem o valor especial NULL, que indica que o valor não se aplica ou está ausente. Para esses casos, o minerador de dados deve tomar uma decisão a respeito do que fazer:

Lidando com dados ausentes

Valores ausentes em bancos de dados geralmente são prejudiciais à nossa capacidade de análise. O ideal seria que todos os campos possuíssem valores, mas esse raramente é o caso. Assim, muitas vezes é possível substituir os dados ausentes por algum valor adequado, mas esse processo deve ser realizado com bastante cuidado, e sua necessidade vai depender da aplicação. É possível utilizar observações estatísticas, como as médias ou modas. Também podemos gerar valores aleatórios ou sempre substituir por um valor constante. Alternativamente, caso não haja substituto adequado, pode-se deixar o valor em branco e ajustar os resultados de acordo.

Por último, na coluna de renda temos mais duas situações interessantes. O valor para o cliente 004 é negativo, então provavelmente seu salário era de R$ 5.000. Contudo, como não podemos ter certeza, o ideal seria se comunicar com alguém que tenha conhecimento a respeito do histórico desses dados para decidir o que fazer com ele. O valor 99999 também parece ser errado. Alguns sistemas utilizam o maior valor possível para um atributo como sendo indicativo de valor ausente. É improvável que alguém ganhe exatamente R$ 99.999 por mês.

Dessa maneira, também devemos ser cautelosos a respeito desses dados.

(9)

A moral da história é que a limpeza de dados é uma etapa que requer a atuação humana. Perceba que muitas das soluções encontradas para o “lixo” na base de dados vão depender do propósito da análise e de contato com outras pessoas.

Outliers (anomalias)

Figura: gráfico com dois outliers (Larose, 2005)

Ainda na etapa de entendimento dos dados, podemos avaliar algumas ocorrências anômalas, aquelas que não se encaixam no perfil observado nos demais dados do mesmo tipo. Um outlier é um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado por um mecanismo diferente (Hawkins, 1980).

A partir dessa definição, podemos construir um exemplo interessante. Imagine que você está numa sala com vários de seus colegas de trabalho. Se realizarmos uma observação estatística sobre os salários das pessoas nessa sala, temos que os valores não devem variar tanto, estando em um intervalo relativamente curto, já que todos estão em funções parecidas em uma mesma organização. Agora imagine que o CEO de uma multinacional entra na sala. Se realizarmos uma nova observação a respeito dos salários, veremos que o salário do CEO destoa completamente dos demais valores.

Num conjunto de dados muito grande, é bastante improvável que saibamos de onde veio cada registro.

Assim, é difícil saber se um outlier é um valor real (como o salário do CEO), ou se é um mero erro de digitação ou problema de integração de dados. Esses fatores devem ser levados em consideração no pré-processamento.

Veremos mais sobre a detecção de outliers como técnica de mineração ainda nesta aula.

(10)

Integração de dados

Figuras: Tipos de operações realizadas na integração de dados

Outra técnica importante para a mineração é a integração de dados. Você já sabe que a integração diz respeito à combinação de dados de múltiplas fontes. Essas fontes podem incluir arquivos comuns, bases multidimensionais, relacionais, etc.

Se você lembrar bem das nossas últimas aulas, também vai se lembrar que, durante esse processo de integração, há muitos problemas. Veja que pode ser difícil de combinar dados que estão representados de diferentes maneiras em fontes diferentes, mas que no final das contas querem dizer a mesma coisa. Padrões distintos para representar a mesma informação, chaves primárias que devem ser combinadas em um só tipo, dentre outras, são situações que devem ser atacadas na etapa de integração.

Transformação de dados

Esse conjunto de técnicas transforma ou consolida os dados em formas apropriadas para a mineração. Vou mostrar algumas operações que podem ser executadas nesta etapa do pré-processamento, mas você não precisa decorar como se faz cada uma. É só saber do que se trata.

Algumas operações possíveis são as seguintes:

Normalização

Os dados são distribuídos proporcionalmente para ficar em um determinado intervalo. Por exemplo, eu tinha um professor na universidade que, quando os alunos tiravam notas muito ruins, ele normalizava os valores de acordo com a maior nota. Assim, se o melhor aluno da turma tirou 7.5, essa nota vai ser normalizada para 10, e todas as outras notas vão ser convertidas para a nova escala (é só fazer uma regra de 3):

Nota Original Nota Normalizada

7.5 10

6 8

m, f

homem, mulher h, m

m, f

(11)

5 6.67

4 5.33

0 0

Suavização

Figura: Processo de suavização. Veja que alguns outliers são desconsiderados (Zuluaga, Bonaveri, & Barrios, 2015).

Consiste na remoção de ruídos dos dados, aqueles valores ocasionais que saem de um padrão desejado. As técnicas de suavização podem ser bastante úteis para se identificar mais facilmente tendências temporais e processos que ocorrem de uma maneira cíclica.

Agregação

Você já sabe o que significa agregar vários dados, não é? Temos que este processo pode ajudar a se realizar mineração em diversos níveis de granularidade. Frequentemente é realizada através de atributos temporais, ou de data.

Generalização

Valor de Idade Categoria

0-18 Jovem

18-59 Adulto

60+ Idoso

(12)

Similarmente à agregação, podemos juntar vários atributos em categorias de atributos. Por exemplo, podemos juntar várias idades em uma categoria de mais alto nível de abstração, como “jovem”, “adulto” e “idoso”.

Redução de dados

Por fim, temos que as técnicas de redução de dados visam tornar a análise mais prática e factível através da redução do tamanho dos conjuntos de dados. Algumas operações de mineração requerem um grande poder de processamento ou demoram muito para serem realizadas, portanto precisamos nos livrar do excesso de operações feitas, seja nos livrando de alguns registros ou utilizando algumas técnicas mais avançadas.

As abordagens para redução incluem agregação (conjunção de múltiplos registros em um só, geralmente de acordo com um parâmetro de data – por dia, por mês, etc.), redução de dimensionalidade (onde atributos e dimensões irrelevantes ou redundantes são removidos) e compressão de dados (algo como o que o WinRAR faz com os arquivos em um computador).

Algumas outras técnicas um pouco mais complicadas de se entender, como redução de numerosidade podem ser aplicadas, mas acredito que podemos parar por aqui, pois não acho que seja produtivo entrar nos detalhes técnicos a respeito disso.

O que são algoritmos?

Antes de prosseguirmos, vou tomar um pouco do seu tempo para explicar o que é um algoritmo. Isso é muito importante, já que quando falarmos das técnicas de mineração estaremos basicamente falando dos inúmeros algoritmos utilizados para concretizar esse processo.

Um algoritmo é nada mais do que uma “receita de bolo” para realizar determinada tarefa computacional. Ou seja, é a descrição da sequência de atividades necessárias para concluir uma tarefa. Quando estivermos falando de cada uma das tarefas, daremos uma breve explicação a respeito do propósito dessa tarefa, mas os detalhes de como cada uma será realizada por um programa de computador estarão definidos em um algoritmo.

Cada algoritmo tem uma abordagem diferente para a resolução de um mesmo problema. Imagine que você precisa chegar ao seu trabalho e pede orientações na rua para pessoas diferentes. É possível que cada uma dê um conjunto de instruções diferente (do tipo “vire à direita, depois siga em frente 100 metros, vire à esquerda...”) a depender do caminho que acha melhor, mas todos irão levá-lo ao mesmo lugar.

Técnicas e Tarefas de Mineração

Bom, já vimos o que é a mineração de dados e introduzimos algumas noções a respeito de pré- processamento de dados. A seguir, vamos destrinchar algumas tarefas que são utilizadas para encontrar os padrões e relacionamentos ocultos nos conjuntos de dados.

(13)

Classificação

Figura: Diagrama representando a tarefa de classificação

A nossa primeira tarefa é a classificação. Nesta tarefa, descrevemos os dados em função de algumas classes predeterminadas. É criado um modelo que vai permitir ao sistema identificar a que classe pertence cada dado inserido.

Para dar um exemplo, imagine que um banco tem como objetivo classificar o risco associado a conceder um empréstimo a cada cliente. Dessa forma, o sistema iria ler os registros dos clientes e os classificar em risco baixo, médio ou alto.

Isso funciona da seguinte maneira. Primeiro criamos um conjunto de dados de treinamento já classificados manualmente de acordo com nossos propósitos, contendo um atributo chamado rótulo de classe (em destaque abaixo), que nada mais é do que o atributo que indica a que classe pertence o registro.

Cliente Renda Sexo Idade Estado Civil Risco

001 1500 M 18 Solteiro Alto

002 15000 F 45 Casado Baixo

003 9000 M 23 Solteiro Médio

004 Variável F 50 Divorciada Alto

Alimentamos esses dados de treinamento ao sistema, que, com a ajuda de um algoritmo, percebe quais são os padrões envolvidos na classificação e assim “aprende” a classificar novos dados (que, obviamente, não possuem o atributo de rótulo de classe). Por exemplo, o sistema de mineração de dados poderia perceber, a partir da nossa tabela, que mulheres adultas de alta renda representam um baixo risco e assim passar a classificar outros clientes com o mesmo perfil na mesma categoria. Esse tipo de aprendizado é chamado de aprendizado supervisionado.

(14)

Na prática, isso pode ficar representado no modelo através de uma árvore de decisão ou de um conjunto de regras (no estilo “se renda > 10000 e sexo = f, então risco = baixo”), implementadas em linguagem de programação. Uma árvore de decisão, por sua vez, é nada mais que uma representação gráfica das regras de classificação.

Figura: Exemplo de árvore de decisão (Elmasri & Navathe, 2011) O CESPE já considerou que as técnicas de classificação se dividem em dois tipos:

- Baseadas em separabilidade (entropia), utilizando árvores de decisão e variantes.

- Baseadas em particionamento, utilizando o algoritmo SVM (support vector machines).

Esse tema foi abordado na prova do TCM-BA de 2018. Achei uma questão bem “copia e cola” de algum autor, mas já que a banca cobrou, não temos muito o que brigar. Considere essas duas categorias se o assunto vier a ser explorado.

Análise de Agrupamentos (Clusterização)

Figura: Diagrama representando a clusterização

(15)

Coloquei essa tarefa logo depois da classificação pois elas são tarefas similares, e a diferença entre as duas é frequentemente explorada em provas de concursos.

Enquanto que na classificação nós já temos um conjunto predefinido de categorias e um conjunto de treinamento para que o sistema extraia as regras de classificação, na clusterização esses grupos são determinados a posteriori e não existe um conjunto de treinamento. Isso é conhecido como aprendizado não supervisionado.

A clusterização é útil para casos em que queremos agrupar dados em grupos que contêm registros semelhantes entre si, mas diferentes dos presentes nos demais conjuntos. Elmasri & Navathe dão um exemplo muito interessante de aplicação em medicina: pode ser importante determinar grupos de pacientes que apresentam os mesmos efeitos colaterais a determinados medicamentos. Também há várias aplicações no ramo dos negócios, como agrupar os clientes que possuem perfis de compras similares.

Um algoritmo comumente utilizado para esse propósito é o clustering k-means. Mean significa média em inglês, então o que este algoritmo faz é separar um número n de observações (eventos ou itens) em um número k de grupos. Cada observação então é atribuída ao grupo cuja média é a mais próxima do valor da observação.

O CESPE já cobrou essa definição antes, então é bom estar preparado!

Regras de Associação

Figura: Sistema exibindo análise de regras de associação (Larose, 2005)

A análise de regras de associação tem como objetivo realizar uma análise de afinidade entre duas características ou atributos. Um exemplo dado por Larose (2005) é o de um supermercado, onde foi observado que em uma quinta-feira à noite, vários clientes que compraram fraldas também compraram cervejas. Nesse caso, as regras de associação podem ajudar a direcionar ações de marketing, melhorar a organização dos produtos nas prateleiras, dentre outras aplicações.

As regras de associação respeitam uma fórmula X -> Y, onde X é a ação antecedente e Y a consequente. A regra, no nosso exemplo, seria do tipo {fralda} -> {cerveja}. Esses itens X e Y, na verdade, podem representar

(16)

conjuntos de itens, chamados itemsets. Assim, poderíamos verificar também a ocorrência de regras como {carvão, espeto} -> {carne}, o que indica que os clientes em questão provavelmente estão preparando um churrasco.

É importante para a prova que você conheça duas medidas objetivas das regras de associação, o suporte e a confiança:

No nosso exemplo, imagine que de 1000 clientes do supermercado, 200 compraram fraldas, e desses 200 que compraram fraldas, 50 também compraram cerveja.

• O suporte vai ser definido pelo número de ocorrências da nossa regra X -> Y sobre o número de transações totais. Logo, o suporte é dado pelo cálculo 50/1000 = 5%.

• A confiança é útil para verificarmos a precisão da nossa regra, já define o número de ocorrências em que a regra X -> Y se verifica para os casos onde X ocorreu. No nosso exemplo, X é dada por todos os clientes que compraram fralda (200), então o valor da confiança é igual a 50/200 = 25%.

Um algoritmo comumente usado para as regras de associação é o Apriori. Esse algoritmo funciona identificando os itens que são frequentes em um banco de dados e em seguida estendendo os conjuntos até obter- se grupos de itens que ocorrem frequentemente.

Por exemplo, começamos com os itens individuais {A}, {B}, {C}... e conferimos quais deles são frequentes no nosso banco de dados. Depois, pegamos aqueles que são frequentes e vamos gerando duplas {A, B}, {A, C}, {B,C}, e conferimos novamente para verificar se alguma das duplas ocorre com frequência. Isso vai ocorrendo sucessivamente, até obtermos regras com o maior número de itens quanto possível.

Um conceito parecido com o de regras de associação é o da análise de padrões sequenciais. A diferença é que nas regras de associação estamos mais preocupados com a frequência em que elas ocorrem. Enquanto isso, os padrões sequenciais consideram a probabilidade de um determinado padrão ordenado ser seguido. Por isso, os padrões sequenciais tendem a ser mais úteis para a análise preditiva.

Detecção de Anomalias

Figura: Detecção visual de outliers através de um histograma (Larose, 2005)

(17)

Você deve se lembrar que falamos de anomalias (outliers) na seção dedicada ao pré-processamento de dados, certo? Continuando o assunto, vemos que a identificação desses valores fora dos padrões nos conjuntos de dados pode ser útil em várias situações.

A detecção de anomalias costuma ser bastante empregada com o objetivo de se detectar fraudes em sistemas. Por exemplo, um banco pode constatar variações anormais no padrão de compras de um cliente, indicando que determinado conjunto de transações podem ter sido originadas de um cartão de crédito clonado.

Também há aplicações na área de saúde, como nos casos envolvendo monitoramento cardíaco, em que a atividade anômala dos batimentos pode indicar alguma condição grave.

Como você pode imaginar, as aplicações são inúmeras. Nos interessa agora saber como esse processo é realizado.

Existem três abordagens para a detecção de outliers na mineração de dados, conforme discutido em (Hodge & Austin, 2004):

Tipo 1: Essa abordagem é análoga à clusterização não supervisionada. O sistema classifica os dados sem conhecimento prévio das categorias e indica os valores que não aparentam se enquadrar em nenhuma delas como sendo potenciais outliers.

Tipo 2: Abordagem análoga à classificação supervisionada. O usuário indica o rótulo de cada tipo de dado no conjunto de treinamento como sendo normal/anômalo e o sistema aprende a classificar as próximas entradas.

Tipo 3: Essa última abordagem pode ser considerada semi-supervisionada. Somente dados considerados normais são pré- rotulados e o sistema aprende a identificar os outliers como sendo aqueles que não se encaixam nesse padrão.

Há inúmeras técnicas disponíveis, que podem ser modelos estatísticos (como técnicas baseadas na proximidade entre os dados, incluindo um algoritmo chamado K-Nearest Neighbor, modelos paramétricos, etc.), a utilização de redes neurais e de aprendizado de máquina.

Modelagem Preditiva

O sonho de todo gestor é conseguir prever o futuro, de modo a antecipar tendências do seu ramo de atuação e conseguir assim uma importante vantagem competitiva. Nesse sentido, a modelagem preditiva tem como objetivo se utilizar de dados históricos e atuais para realizar previsões a respeito de eventos futuros.

Algumas aplicações interessantes dizem respeito a hábitos de consumidores, como por exemplo a demanda por um determinado produto ao longo do tempo e a probabilidade de um consumidor sair de um serviço de TV a cabo ou de telefonia para o de outra empresa. Essa análise pode ser realizada nos mais diversos conjuntos, desde

Dados Históricos Algoritmo Modelo

Preditivo

(18)

dados estruturados, como em um data warehouse, até mesmo em dados não estruturados, como postagens em redes sociais.

A modelagem preditiva pode ser usada não somente com fins comerciais, mas também para prever eventos como a ocorrência de crimes em determinadas áreas de uma cidade ou uma demanda maior por leitos em hospitais em determinadas épocas do ano.

Steven Finlay (2014) indica que a análise preditiva pode ser realizada até mesmo em eventos presentes ou passados (como realizar a predição de suspeitos que possam ter cometido algum crime). Dessa maneira, podemos encarar a modelagem preditiva como sendo um conjunto de técnicas que utiliza dados históricos para prever a probabilidade da ocorrência de um evento desconhecido.

A regressão (ou predição) é a tarefa utilizada para prever o valor de um elemento desconhecido, com base em fatores já conhecidos. Há várias formas de regressão, sendo a mais simples e conhecida delas a regressão linear. Se você já estudou estatística deve estar reconhecendo vários termos utilizados nesta nossa aula.

De forma resumida, as tarefas preditivas visam prever o valor de uma variável baseada nos valores de outras.

Essas variáveis ou atributos a serem preditos são conhecidos como alvo ou variáveis dependentes. Enquanto isso, os atributos conhecidos que são utilizados para fazer a predição são chamados de variáveis preditoras ou independentes.

As tarefas de mineração se dividem em dois tipos, de acordo com o propósito de sua realização:

Tarefas descritivas visam encontrar padrões, correlações e relacionamentos que descrevam os dados, com o objetivo de possibilitar a sua análise.

Tarefas preditivas têm como objetivo predizer valores para os dados desconhecidos.

(CESPE – PF – 2018) Em um big data, alimentado com os dados de um sítio de comércio eletrônico, são armazenadas informações diversificadas, que consideram a navegação dos usuários, os produtos comprados e outras preferências que o usuário demonstre nos seus acessos.

Tendo como referência as informações apresentadas, julgue o item seguinte.

Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises preditivas.

RESOLUÇÃO:

O enunciado da questão fala de big data, mas ainda não precisamos saber do que isso se trata para respondê-la.

Você acabou de aprender que a análise preditiva pode ser feita em cima de conjuntos de dados não estruturados, então a assertiva está correta. Claro que haverá uma dificuldade maior de extrair conhecimento desses dados em relação aos estruturados, mas isso não significa que não seja possível.

Gabarito: C

(CESPE – SERPRO – 2013) Em tarefas preditivas, o atributo a ser predito é conhecido como variável independente, enquanto que os atributos usados para fazer a predição são conhecidos como alvo.

(19)

RESOLUÇÃO:

Falso, não é? O atributo a ser predito é conhecido como variável dependente ou alvo, enquanto que os outros atributos, utilizados para fazer a predição, são conhecidos como variáveis independentes ou preditoras.

Gabarito: E

Aprendizado de Máquina

Já falamos sobre aprendizado supervisionado, não supervisionado e semi-supervisionado ao longo da aula, então esta seção vai servir para amarrar bem tudo isso.

Um fator bastante distintivo a respeito dos seres humanos é que nós somos capazes de aprender e melhorar o nosso desempenho em determinadas tarefas ao longo do tempo. Basta você olhar para si mesmo. Tenho certeza que seu desempenho nas questões do nosso curso está muito melhor do que quando você começou a estudar.

O aprendizado de máquina envolve a utilização de um conjunto de modelos e algoritmos com o objetivo de melhorar o desempenho do sistema em uma determinada tarefa de uma maneira relativamente autônoma, já que o programador não define explicitamente todos os passos a serem realizados. Repare que o processo conta com uma certa autonomia, por isso o termo “aprendizado”, mas isso não quer dizer que a máquina faz tudo sozinha.

Aprendizado de máquina é um subconjunto da inteligência artificial e é uma área intimamente relacionada à mineração de dados. Basta imaginar as tarefas de clusterização e classificação: imagine que tivéssemos que definir explicitamente regras específicas para cada tipo de ocorrência (por exemplo, para o perfil de risco de cada um dos clientes de um banco). Dada a quantidade de variáveis, a tarefa de mineração de dados seria quase que impossível.

O aprendizado permite que a máquina generalize regras a partir de ocorrências específicas de determinado evento. Por exemplo, ao realizar agrupamentos durante a tarefa de clustering, a máquina “percebe” que há muitos dados com características similares e passa colocá-los em um mesmo grupo; já ao realizar a classificação, a máquina infere as regras a partir do conjunto de dados de treinamento.

Aprendizado de Máquina

Supervisionado

Observações previamente rotuladas

ex.: Classificação

Não

supervisionado

Observações sem rótulos

ex.: Clustering, regras de associação

Semi- supervisionado

Híbrido: algumas observações com rótulos,

outras sem

(20)

Como vimos, a mineração de dados muitas vezes utiliza métodos de aprendizado de máquina. Contudo, essas duas atividades, se tomadas independentemente, têm focos um pouco distintos. Enquanto o objetivo da mineração é na descoberta de conhecimento previamente oculto, o aprendizado de máquina foca mais em melhorar o desempenho em uma tarefa ao longo do tempo baseado na “experiência” que vai adquirindo.

Mineração de Texto

A área de text mining é bastante promissora. Com o alto volume de dados em formato textual produzido diariamente pela internet, seja em sites de notícias, redes sociais ou periódicos científicos, tem-se um campo riquíssimo para explorar em busca de informações ocultas relevantes.

O processo de mineração de texto costuma envolver um passo de estruturação dos textos (dados não estruturados) obtidos, com a adição de metadados a seu respeito em um banco de dados. Esse processo permite que o sistema de mineração possa trabalhar em cima dos textos, realizando classificação, clusterização, análise de sentimentos, dentre outras tarefas.

Repare que text mining não envolve somente encontrar textos relevantes ou trabalhar em cima de textos específicos. A ideia é categorizar informação e encontrar relações entre documentos textuais distintos e não conectados.

Figura: Mapa de coocorrências de palavras em pesquisa a respeito dos ecossistemas dos oceanosii

Por exemplo, pode ser interessante extrair palavras chave que aparecem com frequência em textos a respeito de determinado tema. Imagine que estamos querendo descobrir as causas da violência urbana no Brasil e para isso vamos analisar as notícias de crimes na mídia escrita. Categorizamos então aqueles artigos que contêm alguma palavra a respeito de embriaguez em um grupo, aqueles que falam de tráfico de drogas em outro, aqueles

(21)

que citam as operações policiais em favelas em mais um, e por aí vai... Assim, podemos ter uma ideia melhor da frequência com que as palavras chave aparecem e extrair informações relevantes a partir disso.

A mineração de texto pode ter inúmeros propósitos. Você já deve ter ouvido falar nos sofisticados sistemas do governo americano para identificar possíveis atividades terroristas com base das comunicações dos indivíduos online. Também é possível realizar análise de sentimentos em posts de redes sociais para medir o nível de satisfação de consumidores com determinados produtos e direcionar campanhas de marketing.

Enfim, as aplicações da mineração de texto, assim como as de todo o processo de data mining, são inúmeras.

É complicado citar todas em uma só aula, mas acredito que você pegou o espírito e será capaz de responder as questões a respeito do assunto.

* * *

Aqui finalizamos nossa teoria. Vamos agora resolver juntos mais algumas questões para que você possa fixar bem o assunto!

(22)

Questões comentadas pelo professor

1.

(CESPE – STJ – 2018)

Julgue o item que se segue, acerca de data mining e data warehouse.

O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data warehouses.

RESOLUÇÃO:

Nada disso. A mineração de dados pode ocorrer nos mais diversos tipos de bancos de dados. Um campo de pesquisa bastante fértil, inclusive, é a respeito da mineração de padrões ocultos em grandes conjuntos de dados não estruturados, chamados de big data. Resumindo, o DW facilita bastante o processo de mineração, mas sua existência não é pré-requisito para o processo.

Resposta: E

2.

(CESPE – TCM/BA – 2018)

A respeito das técnicas e (ou) métodos de mineração de dados, assinale a opção correta:

a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam coocorrência.

b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais.

c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear dados em uma de várias classes discretas definidas previamente, bem como encontrar tendências que possam ser usadas para entender e explorar padrões de comportamento dos dados.

d) As regras de associação identificam grupos de dados, em que os dados têm características semelhantes aos do mesmo grupo e os grupos têm características diferentes entre si.

e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines).

RESOLUÇÃO:

a) A coocorrência é a ocorrência simultânea de dois eventos. Na verdade, a técnica que vimos que está mais associada a esse conceito se refere às regras de associação. ERRADA

b) Não ficou muito claro para mim o que o examinador quis dizer com “valores reais”. Contudo, podemos perceber que a predição utiliza uma função para mapear os conjuntos de dados que se já tem em um valor dito real, que é o valor a ser previsto. Veja a seguir que a definição exposta no item seguinte descreve melhor o processo de classificação do que a presente alternativa, nos levando a crer que o examinador somente inverteu os conceitos.

ERRADA

c) Na verdade é a classificação que mapeia os dados em classes predefinidas. A predição realmente possibilita encontrar tendências, mas com o objetivo de realizar previsões a respeito de comportamentos futuros ainda

(23)

desconhecidos. O entendimento e a exploração dos dados são funções de técnicas descritivas, como a própria classificação. ERRADA

d) Na verdade a assertiva descreveu a clusterização, também conhecida como agrupamento. ERRADA

e) Como citamos durante a aula, os métodos de classificação podem sim seguir essa divisão entre os que se baseiam em separabilidade ou entropia e aqueles que se baseiam em particionamento. É essa a nossa resposta.

CERTA Resposta: E

3.

(CESPE – TCE/PE – 2017)

Em relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte.

O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação pertence ao grupo mais próximo da média.

RESOLUÇÃO:

Definição copia e cola da Wikipedia. É isso mesmo. Creio que não valha a pena apresentar maiores detalhes a respeito do k-means. Não faz sentido você aprender um algoritmo inteiro para uma prova que não é para servidores na área de TI, seria contraproducente. Por ora, saber essa definição vai ser o suficiente.

Resposta: C

4.

(CESPE – SEDF – 2017)

Com relação a data mining e data warehouse, julgue o item que se segue.

Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração de dados.

RESOLUÇÃO:

O agrupamento ou clusterização junta registros semelhantes entre si e diferente dos presentes nos demais grupos.

Essa é, realmente, uma técnica descritiva de mineração de dados, que permite descrever o conhecimento obtido no formato de grupos.

Resposta: C

5.

(CESPE – TCE/PA – 2016)

Julgue o item a seguir, em relação a data warehouse e data mining.

No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na extração não trivial de conhecimento previamente desconhecido e potencialmente útil.

RESOLUÇÃO:

(24)

Veja que esse tipo de questão é frequentemente cobrado. O propósito do data mining é, realmente, descobrir conhecimento útil previamente desconhecido. Esse processo é não trivial, já que requer o envolvimento de conceitos de diversas áreas, como estatística e aprendizado de máquina.

Resposta: C

6.

(CESPE – TCE/PA – 2016)

Julgue o item subsecutivo, acerca de mineração de dados.

As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se ligarem a um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica de informações gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento.

RESOLUÇÃO:

Nessa questão o CESPE resolveu chamar os agrupamentos ou clusters de aglomerações. É a mesma coisa.

Contudo, a descrição da tarefa está incorreta. O examinador cita a ocorrência de um evento composto por diferentes ações, com a produção sistêmica de informações. Depois disso fez menção à possível reincidência desse fenômeno. Dessa forma, entendo que a questão estava ser referindo às regras de associação, que expressam a reincidência da ocorrência de um evento composto por uma ação implicando em outra, o que permite realizar previsão a respeito de hábitos de consumo, por exemplo.

Resposta: E

7.

(CESPE – TCE/SC – 2016)

Julgue o item subsecutivo, acerca de mineração de dados.

Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.

RESOLUÇÃO:

Temos um bom resumo do tópico a respeito de modelagem preditiva. A mineração fornece subsídio à previsão de eventos futuros de modo a subsidiar a tomada de decisão dentro das organizações. Para isso, utiliza dados históricos e presentes, que se somam à capacidade humana de realizar suposições e tomar decisões para alcançar o objetivo da análise.

Resposta: C

8.

(CESPE – TRT8 – 2016)

Acerca de data mining, assinale a opção correta.

(25)

a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse interno da empresa.

b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros.

c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas.

d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um conjunto de informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para se obter uma previsão mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de informações.

e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados existentes no data warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data warehouse.

RESOLUÇÃO:

a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Como você sabe, o DW facilita a mineração, mas sua existência não é pré-requisito para que esse processo ocorra.

ERRADA

b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados.

Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente definidas. CERTA

d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico concluir que os elementos considerais devem ser considerados no processo, não descartados, de modo a representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA

e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a data mining. ERRADA

Resposta: C

9.

(CESPE – FUNPRESP/EXE – 2016)

Com relação à forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o item a seguir.

Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais pode ser útil para a identificação de tendências.

(26)

RESOLUÇÃO:

Os padrões sequenciais são as recorrências de eventos em sequência. Esses padrões se diferem das regras de associação por considerarem a ordem dos eventos. Exemplo: uma regra de associação indica que um cliente que compra o produto A também compra o produto B, independentemente da ordem das compras. Já um padrão sequencial poderia ser utilizado para identificar que que um cliente que compra o produto A tende a comprar o produto B logo em seguida.

Resposta: C

10.

(CESPE – MEC – 2015)

Julgue o item seguinte, referente a data mining.

A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o comportamento futuro de determinados atributos.

RESOLUÇÃO:

Você pode ter estranhado um pouco a redação, mas o enunciado está certo. As funções são conceitos matemáticos que recebem um valor ou conjunto de valores (parâmetros) e produzem um resultado a partir dele. Por exemplo, podemos definir uma função chamada “Dobro”, que recebe um valor x. Assim, toda vez que alimentarmos um valor x à função, ela vai nos retornar o valor equivalente a duas vezes x.

Falando de uma maneira grosseira, as predições de valores em data mining funcionam da mesma maneira, sendo que com um grau de complexidade maior. As funções modeladas recebem o conjunto de valores históricos e demais entradas possíveis e retornam uma “previsão” sobre o valor futuro.

Resposta: C

11.

(CESPE – MEC – 2015)

Acerca de data warehouse (DW), Business Intelligence (BI) e data mining, julgue o item que se segue.

Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade pública, foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências. Ademais, que, por meio das soluções de BI e DW que integram outros sistemas, foram realizadas análises para a detecção de relacionamentos sistemáticos entre as informações registradas. Assertiva: Nessa situação, tais análises podem ser consideradas como data mining, pois agregam valor às decisões do MEC e sugerem tendências, como, por exemplo, o aumento no número de escolas privadas e a escolha de determinado curso superior.

RESOLUÇÃO:

Temos uma ótima questão para entender os propósitos da mineração de dados. Esse processo visa obter padrões e tendências ocultas nos conjuntos de dados, de maneira a subsidiar a tomada de decisão. Tem tudo a ver com o que foi descrito na assertiva. Dessa maneira, o gestor da universidade pública poderia se utilizar das informações extraídas para adequar o número de vagas nos cursos oferecidos pela instituição, por exemplo.

Resposta: C

(27)

12.

(CESPE – MEC – 2015)

Julgue o item seguinte, referente a data mining.

O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação quando, em um conjunto de eventos, há uma hierarquia de tuplas sequenciais.

RESOLUÇÃO:

Nas regras de associação não há hierarquia entre tuplas, o examinador misturou conceitos. Essas regras são representadas no padrão A -> B, onde se analisa as propriedades suporte e confiança de modo a analisar a frequência em que os itens ou conjuntos de itens A e B ocorrem em conjunto. Enquanto as regras de associação dizem respeito à frequência das coocorrências, os padrões sequenciais lidam diretamente com a repetição de padrões ordenados, que indicam a tendência de ocorrência consecutiva dos eventos.

Resposta: E

13.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos significativos presentes em grandes massas documentais registradas em arquivos físicos (analógicos) e arquivos lógicos (digitais).

RESOLUÇÃO:

A definição estava perfeita, o que maculou a assertiva foi dizer que a mineração pode ocorrer em arquivos físicos.

Ora, a mineração é uma atividade multidisciplinar, mas evidentemente computacional, então não faz sentido aplicar as técnicas envolvidas em um arquivo físico composto por um monte de papéis, por exemplo.

Resposta: E

14.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos oriundos da matemática, da estatística e da computação, inclusive de inteligência artificial.

RESOLUÇÃO:

Correto! A mineração é uma atividade multidisciplinar, envolvendo computação, matemática e estatística. Alguns métodos oriundos da inteligência artificial, mais especificamente de aprendizado de máquina, podem ser empregados, de modo a possibilitar a melhoria da performance do sistema nas tarefas de mineração.

Resposta: C

(28)

15.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a marketing.

RESOLUÇÃO:

Muito pelo contrário. Em pequenos conjuntos de dados não faz tanto sentido assim a aplicação da mineração, já que a descoberta dos padrões não é uma tarefa tão difícil. Em grandes bancos de dados, todavia, a mineração pode representar uma vantagem competitiva importantíssima, ao permitir a descoberta de padrões previamente ocultos.

Resposta: E

16.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações conclusivas acerca do padrão de comportamento exibido por agentes de interesse dessa organização.

RESOLUÇÃO:

Imagino que você pode ter ficado tentado a marcar um E na questão pela parte que fala de afirmações conclusivas.

Contudo, o que o examinador quis dizer é que a mineração de dados vai subsidiar a tomada de decisão por parte dos agentes. Ou seja, são esses agentes que irão tomar as conclusões, não o sistema de mineração de dados.

Resposta: C

17.

(CESPE – ANATEL – 2014)

A respeito de banco de dados, julgue os itens que se seguem.

No processo de Data Mining (mineração de dados), é indispensável o uso de técnica conhecida como Data Warehousing, uma vez que a mineração de dados deve ocorrer necessariamente em estruturas não normalizadas (FN0).

RESOLUÇÃO:

Já falamos que a mineração de dados pode ocorrer em vários tipos de repositórios, geralmente com um grande volume de dados. O DW ajuda a realizar as tarefas de mineração, pois geralmente já passou pelo processo de ETL.

Contudo, não é um requisito obrigatório para que se minere dados.

Resposta: E

(29)

18.

(CESPE – TJ/SE – 2014)

Julgue os próximos itens, com relação a DataMining e ETL.

O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados, tendo por finalidade aproximar registros similares para predizer valores de variáveis.

RESOLUÇÃO:

Pelo contrário! Os registros na clusterização não possuem rótulos ou etiquetas prévias, os algoritmos geram os conjuntos a partir da similaridade entre eles. A descrição da assertiva, na verdade, se amolda à classificação.

Resposta: E

19.

(CESPE – TJ/SE – 2014)

Julgue os próximos itens, com relação a DataMining e ETL.

O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente separados, sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados operacionais distintos.

RESOLUÇÃO:

A questão remete ao pré-processamento dos dados. Uma das tarefas dessa etapa envolve a integração de diferentes bases de dados. Dessa forma, a mineração poderá ocorrer em cima de um conjunto de dados que está fisicamente armazenado em BDs operacionais distintos, mas que foram posteriormente integrados em um DW ou em alguma estrutura do tipo.

Resposta: C

20.

(CESPE – TJ/SE – 2014)

Acerca de DataMining e de DataWarehouse, julgue o item subsecutivo.

Os principais processos de DataMining são a identificação de variações embasado em normas, a detecção e análise de relacionamentos, a paginação de memória e o controle de periféricos.

RESOLUÇÃO:

O examinador enfiou alguns conceitos de sistemas operacionais no meio da assertiva para ver se colava. Na verdade, a detecção e a análise de relacionamentos ocultos e de variações nos conjuntos de dados podem fazer parte de um processo de mineração, mas paginação e de memória e controle de periféricos não têm nada a ver com o nosso assunto.

Resposta: E

(30)

21.

(CESPE – TJ/SE – 2014)

Com relação a sistemas de suporte à decisão, julgue os seguintes itens.

Assim como o DataMining, os DataMarts são voltados para a obtenção de informações estratégicas de maneira automática, ou seja, com o mínimo de intervenção humana a partir da análise de dados oriundos de DataWarehouses.

RESOLUÇÃO:

Nenhum desses três conceitos é automático. A mineração de dados abarca o aprendizado de máquina, então há um certo grau de inteligência artificial aplicada, mas isso não quer dizer de forma alguma que a intervenção humana fica em segundo plano (veja a primeira falácia a respeito de data mining no começo da aula). Ademais, o Data Mart é apenas um subconjunto do Data Warehouse, então temos algumas confusões conceituais que invalidam a assertiva.

Resposta: E

22.

(CESPE – TJ/CE – 2014)

Assinale a opção correta acerca de datamining.

a) A informação acerca dos resultados obtidos no processo de mineração é apresentada apenas de forma gráfica.

b) A classificação, uma das principais tecnologias da mineração de dados, caracteriza-se por possuir um conjunto de transações, sendo cada uma delas relacionada a um itemset.

c) É possível realizar mineração de dados em documentos textuais como, por exemplo, uma página da Internet.

d) A grande desvantagem de um datamining consiste no fato de que a identificação de um padrão, para a geração do conhecimento, só é possível por meio da análise em pequenas quantidades de dados

e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é permitido um único tipo de padrão

RESOLUÇÃO:

a) Nada disso. A informação obtida pode ser representada em relatórios, em gráficos ou em qualquer maneira que o responsável pela análise julgue pertinente. ERRADA

b) Os itemsets são os conjuntos de itens presentes nas regras de associação. Não tem nada a ver com classificação. ERRADA

c) Essa alternativa está falando de text mining. Uma página da internet que contenha textos pode sim ser alvo desse tipo de técnica. CERTA

d) Na verdade a mineração de dados é mais voltada a grandes quantidades de dados, já que a probabilidade de conterem padrões ocultos úteis vai se tornando maior a medida que o conjunto cresce. ERRADA

e) Não existe tal restrição. Em um processo de mineração podem ser verificados diversos padrões em um banco de dados. ERRADA

Resposta: C

(31)

23.

(CESPE – TC/DF – 2014)

Julgue os itens subsecutivos, com relação a Data Mining, desempenho de sistemas de bancos de dados e controle de concorrência.

Com o uso da classificação como técnica de Data Mining, busca-se a identificação de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usada em conjunto com outras técnicas de mineração de dados.

RESOLUÇÃO:

É verdade. A classificação visa utilizar vários atributos para obter o valor do que está se buscando rotular. Por exemplo, na análise do perfil de risco de um cliente são analisados fatores como sexo, idade, renda, etc.

Resposta: C

24.

(CESPE – MPU – 2013)

Julgue os próximos itens, acerca de sistemas de suporte à decisão.

Em se tratando de mineração de dados, a técnica de agrupamento (clustering) permite a descoberta de dados por faixa de valores, por meio do exame de alguns atributos das entidades envolvidas.

RESOLUÇÃO:

É verdade. A análise de agrupamentos permite descrever os dados de acordo com sua afinidade com outros itens da mesma faixa de valores ou grupo. Dessa forma, o gabarito é questão certa.

Resposta: C

25.

(FCC – SEFAZ/SC – 2018)

Atenção: Para responder à questão, considere o seguinte caso hipotético:

Um Auditor da Receita Estadual pretende descobrir, após denúncia, elementos que possam caracterizar e fundamentar a possível existência de fraudes, tipificadas como sonegação tributária, que vêm ocorrendo sistematicamente na arrecadação do ICMS. A denúncia é que, frequentemente, caminhões das empresas Org1, Org2 e Org3 não são adequadamente fiscalizados nos postos de fronteiras. Inobservâncias de procedimentos podem ser avaliadas pelo curto período de permanência dos caminhões dessas empresas na operação de pesagem, em relação ao período médio registrado para demais caminhões.

Para caracterizar e fundamentar a existência de possíveis fraudes, o Auditor deverá coletar os registros diários dos postos por, pelo menos, 1 ano e elaborar demonstrativos para análises mensais, trimestrais e anuais.

(32)

A aplicação de técnicas de mineração de dados (data mining) pode ser de grande valia para o Auditor. No caso das pesagens, por exemplo, uma ação típica de mining, que é passível de ser tomada com o auxílio de instrumentos preditivos, é

a) quantificar as ocorrências de possíveis pesagens fraudulentas ocorridas durante todo o trimestre que antecede a data da análise, em alguns postos selecionados, mediante parâmetros comparativos preestabelecidos.

b) analisar o percentual de ocorrências das menores permanências de caminhões nos postos, no último ano, em relação ao movimento total.

c) relacionar os postos onde ocorreram, nos últimos seis meses, as menores permanências das empresas suspeitas e informar o escalão superior para a tomada de decisão.

d) realizar uma abordagem surpresa em determinado posto, com probabilidade significativa de constatar ocorrência fraudulenta.

e) reportar ao escalão superior as características gerais das pesagens e permanências de todos os caminhões, nos cinco maiores postos do Estado, no mês que antecede a data de análise.

RESOLUÇÃO:

Para resolver essa questão, temos que observar em qual das alternativas está retratada a análise preditiva. Ou seja, não basta escolher uma alternativa que diga respeito a uma mera análise de dados históricos, esses dados devem ser usados para prever um valor desconhecido.

Dito isso, vamos analisar as alternativas:

a) Trata-se de uma análise quantitativa do trimestre anterior, não há nenhuma predição envolvida. ERRADA b) Veja que é uma análise de série histórica, comparando as menores permanências com o movimento total no ano anterior. Não há, aqui, elementos que caracterizem a análise preditiva. ERRADA

c) Também temos nessa alternativa uma análise do comportamento histórico dos dados, só mudando um pouco a variável e o período em relação às demais alternativas. ERRADA

d) Essa alternativa é diferente! Ela está falando em utilizar as técnicas preditivas para realizar uma abordagem surpresa em um posto que tenha probabilidade significativa de estar fraudando as pesagens. Tenha em mente que a modelagem preditiva não determina com 100% de certeza o valor para a variável a ser prevista, e sim mostra qual o valor mais provável para a sua ocorrência.

A alternativa trata da descoberta de um valor futuro (a probabilidade de ocorrer fraude em um posto) com base nos dados históricos de pesagens, então está sim tratando de modelagem preditiva. Questão difícil! CERTA e) Veja que essa última alternativa volta a se referir a uma análise do histórico dos dados em um relatório. Não faz sentido usar instrumentos preditivos aqui. ERRADA

Gabarito: D

26.

(FCC – SABESP – 2018) O conceito de Data Mining descreve

Referências

Documentos relacionados

Constitui-se como uma estratégia presente em diferentes processos de trabalho na saúde, na formação de médicos interagindo com outros profissionais de

O cross join é nada mais nada menos que o produto cartesiano entre duas tabelas. Ou seja, ele vai combinar todos os registros da primeira tabela com todos da segunda. Para

Assim, objetivo desse estudo é Verificar na literatura a conduta do enfermeiro na assistência ao paciente com derrame pericárdico e tamponamento cardíaco

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Do ponto de vista técnico, conseguiu convencer o corpo médico presente ao encontro que a doença seria transmissível, como comprova o primeiro item da resolução final do encontro:

INSERT INTO Funcionario (idFuncionario, data_nascimento, nome, sobrenome, sexo, data_contratacao)... Podemos, inclusive, omitir um ou outro campo nessa lista, não

RESUMO Esse trabalho bioprospectivo com abordagem etnodirigida levou em consideração o conhecimento dos vendedores de plantas medicinais em uma região do Nordeste brasileiro

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma