Questões comentadas pelo professor - Prof. Arthur Mendonça Aula 04. Aula 04. Análise da Informa

1.

(CESPE – STJ – 2018)

Julgue o item que se segue, acerca de data mining e data warehouse.

O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data warehouses.

RESOLUÇÃO:

Nada disso. A mineração de dados pode ocorrer nos mais diversos tipos de bancos de dados. Um campo de pesquisa bastante fértil, inclusive, é a respeito da mineração de padrões ocultos em grandes conjuntos de dados não estruturados, chamados de big data. Resumindo, o DW facilita bastante o processo de mineração, mas sua existência não é pré-requisito para o processo.

Resposta: E

2.

(CESPE – FUB – 2018)

Julgue o item a seguir, a respeito de data mining e OLAP.

No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.

RESOLUÇÃO:

A questão é a tradução literal de um trecho do livro de Elmasri & Navathe, por isso a redação está um pouco ruim.

O que ele quer dizer é que, nas regras de associação, há a análise da relação entre um conjunto de itens (o conjunto antecedente) com outro conjunto, de valores distintos do primeiro (o conjunto consequente).

É um jeito rebuscado de falar que essas regras analisam a probabilidade de coocorrências entre dois itens ou conjuntos de itens distintos, o que é uma definição correta para as regras de associação!

Resposta: C

3.

(CESPE – TCM/BA – 2018)

Assinale a opção correta a respeito do CRISP-DM.

a) CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da indústria para mineração de dados, uma vez que fornece um plano completo e tecnologias para a realização de um projeto de mineração de dados.

b) A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.

c) Durante a fase de preparação dos dados, é realizado um inventário de requisitos, suposições e restrições de recursos.

d) Na fase de avaliação dos dados, são realizadas as atividades de identificar valores especiais dos dados e catalogar seu significado.

e) Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de implantação de cada resultado e estimar o potencial de melhoria do processo atual.

RESOLUÇÃO:

a) O erro da assertiva é dizer que o CRISP-DM é um padrão proprietário. Na verdade, a ideia por trás do CRISP-DM é ser um conjunto aberto e independente de softwares específicos de aplicação. ERRADA

b) Está é a nossa resposta. A primeira verificação a respeito da estrutura e da qualidade dos dados é realizada na fase de data understanding ou entendimento de dados. CERTA

c) Na minha opinião, o levantamento de requisitos é realizado na etapa de entendimento de negócio. Nesta etapa também é realizado o levantamento a respeito dos propósitos da mineração e construído um plano de implementação, que deve atender aos requisitos necessários para o sistema. ERRADA

d) Não existe essa fase de avaliação de dados no CRISP-DM. ERRADA

e) Na verdade a etapa descrita se relaciona mais com a avaliação, já que é nessa etapa que se verifica a efetividade do processo atual e se estima possibilidade de melhorias. ERRADA

Resposta: B

4.

(CESPE – TCM/BA – 2018)

A respeito das técnicas e (ou) métodos de mineração de dados, assinale a opção correta:

a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam coocorrência.

b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais.

c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear dados em uma de várias classes discretas definidas previamente, bem como encontrar tendências que possam ser usadas para entender e explorar padrões de comportamento dos dados.

d) As regras de associação identificam grupos de dados, em que os dados têm características semelhantes aos do mesmo grupo e os grupos têm características diferentes entre si.

e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines).

RESOLUÇÃO:

a) A coocorrência é a ocorrência simultânea de dois eventos. Na verdade, a técnica que vimos que está mais associada a esse conceito se refere às regras de associação. ERRADA

b) Não ficou muito claro para mim o que o examinador quis dizer com “valores reais”. Contudo, podemos perceber que a predição utiliza uma função para mapear os conjuntos de dados que se já tem em um valor dito real, que é o valor a ser previsto. Veja a seguir que a definição exposta no item seguinte descreve melhor o processo de classificação do que a presente alternativa, nos levando a crer que o examinador somente inverteu os conceitos.

ERRADA

c) Na verdade é a classificação que mapeia os dados em classes predefinidas. A predição realmente possibilita encontrar tendências, mas com o objetivo de realizar previsões a respeito de comportamentos futuros ainda desconhecidos. O entendimento e a exploração dos dados são funções de técnicas descritivas, como a própria classificação. ERRADA

d) Na verdade a assertiva descreveu a clusterização, também conhecida como agrupamento. ERRADA

e) Como citamos durante a aula, os métodos de classificação podem sim seguir essa divisão entre os que se baseiam em separabilidade ou entropia e aqueles que se baseiam em particionamento. É essa a nossa resposta.

CERTA Resposta: E

5.

(CESPE – TCE/MG – 2018)

Na técnica de árvore de decisão em data mining, é empregada a abordagem denominada a) análise de volumetria.

b) combinação de variáveis.

c) estratificação.

d) avaliação de dados.

e) percepção.

RESOLUÇÃO:

As árvores de decisão são comumente empregadas para implementar as técnica de classificação de dados. Nessa técnica, os registros observados são dividos em classes predefinidas, ou seja, em estratos, segmentos de características distintas. Assim, podemos afirmar que a letra c, estratificação, está correta!

Resposta: C

6.

(CESPE – TCE/PE – 2017)

Em relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte.

O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação pertence ao grupo mais próximo da média.

RESOLUÇÃO:

Definição copia e cola da Wikipedia. É isso mesmo. Creio que não valha a pena apresentar maiores detalhes a respeito do k-means. Não faz sentido você aprender um algoritmo inteiro para uma prova que não é para servidores na área de TI, seria contraproducente. Por ora, saber essa definição vai ser o suficiente.

Resposta: C

7.

(CESPE – SEDF – 2017)

Com relação a data mining e data warehouse, julgue o item que se segue.

Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração de dados.

RESOLUÇÃO:

O agrupamento ou clusterização junta registros semelhantes entre si e diferente dos presentes nos demais grupos.

Essa é, realmente, uma técnica descritiva de mineração de dados, que permite descrever o conhecimento obtido no formato de grupos.

Resposta: C

8.

(CESPE – TCE/PA – 2016)

Julgue o item a seguir, em relação a data warehouse e data mining.

No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na extração não trivial de conhecimento previamente desconhecido e potencialmente útil.

RESOLUÇÃO:

Veja que esse tipo de questão é frequentemente cobrado. O propósito do data mining é, realmente, descobrir conhecimento útil previamente desconhecido. Esse processo é não trivial, já que requer o envolvimento de conceitos de diversas áreas, como estatística e aprendizado de máquina.

Resposta: C

9.

(CESPE – TCE/PA – 2016)

Julgue o item subsecutivo, acerca de mineração de dados.

As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se ligarem a um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica de informações gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento.

RESOLUÇÃO:

Nessa questão o CESPE resolveu chamar os agrupamentos ou clusters de aglomerações. É a mesma coisa.

Contudo, a descrição da tarefa está incorreta. O examinador cita a ocorrência de um evento composto por diferentes ações, com a produção sistêmica de informações. Depois disso fez menção à possível reincidência desse fenômeno. Dessa forma, entendo que a questão estava ser referindo às regras de associação, que expressam a reincidência da ocorrência de um evento composto por uma ação implicando em outra, o que permite realizar previsão a respeito de hábitos de consumo, por exemplo.

Resposta: E

10.

(CESPE – TCE/SC – 2016)

Julgue o item subsecutivo, acerca de mineração de dados.

Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.

RESOLUÇÃO:

Temos um bom resumo do tópico a respeito de modelagem preditiva. A mineração fornece subsídio à previsão de eventos futuros de modo a subsidiar a tomada de decisão dentro das organizações. Para isso, utiliza dados históricos e presentes, que se somam à capacidade humana de realizar suposições e tomar decisões para alcançar o objetivo da análise.

Resposta: C

11.

(CESPE – TRT8 – 2016)

Acerca de data mining, assinale a opção correta.

a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse interno da empresa.

b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros.

c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas.

d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um conjunto de informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para se obter uma previsão mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de informações.

e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados existentes no data warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data warehouse.

RESOLUÇÃO:

a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Como você sabe, o DW facilita a mineração, mas sua existência não é pré-requisito para que esse processo ocorra.

ERRADA

b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados.

Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente definidas. CERTA

d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico concluir que os elementos considerais devem ser considerados no processo, não descartados, de modo a representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA

e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a data mining. ERRADA

Resposta: C

12.

(CESPE – FUNPRESP/EXE – 2016)

Com relação à forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o item a seguir.

Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais pode ser útil para a identificação de tendências.

RESOLUÇÃO:

Os padrões sequenciais são as recorrências de eventos em sequência. Esses padrões se diferem das regras de associação por considerarem a ordem dos eventos. Exemplo: uma regra de associação indica que um cliente que compra o produto A também compra o produto B, independentemente da ordem das compras. Já um padrão sequencial poderia ser utilizado para identificar que que um cliente que compra o produto A tende a comprar o produto B logo em seguida.

Resposta: C

13.

(CESPE – TJ/DFT – 2015)

Julgue o item a seguir, a respeito de datawarehouse e de datamining.

Em um processo de mineração, durante a etapa de preparação dos dados, são analisados os requisitos de negócio para consolidar os dados.

RESOLUÇÃO:

Opa, olha o erro! A etapa de entendimento do negócio, como o nome já induz a crer, é a fase do CRISP-DM que trata dos requisitos do negócio.

Resposta: E

14.

(CESPE – MEC – 2015)

Julgue o item seguinte, referente a data mining.

A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o comportamento futuro de determinados atributos.

RESOLUÇÃO:

Você pode ter estranhado um pouco a redação, mas o enunciado está certo. As funções são conceitos matemáticos que recebem um valor ou conjunto de valores (parâmetros) e produzem um resultado a partir dele. Por exemplo, podemos definir uma função chamada “Dobro”, que recebe um valor x. Assim, toda vez que alimentarmos um valor x à função, ela vai nos retornar o valor equivalente a duas vezes x.

Falando de uma maneira grosseira, as predições de valores em data mining funcionam da mesma maneira, sendo que com um grau de complexidade maior. As funções modeladas recebem o conjunto de valores históricos e demais entradas possíveis e retornam uma “previsão” sobre o valor futuro.

Resposta: C

15.

(CESPE – MEC – 2015)

Acerca de data warehouse (DW), Business Intelligence (BI) e data mining, julgue o item que se segue.

Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade pública, foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências. Ademais, que, por meio das soluções de BI e DW que integram outros sistemas, foram realizadas análises para a detecção de relacionamentos sistemáticos entre as informações registradas. Assertiva: Nessa situação, tais análises podem ser consideradas como data mining, pois agregam valor às decisões do MEC e sugerem tendências, como, por exemplo, o aumento no número de escolas privadas e a escolha de determinado curso superior.

RESOLUÇÃO:

Temos uma ótima questão para entender os propósitos da mineração de dados. Esse processo visa obter padrões e tendências ocultas nos conjuntos de dados, de maneira a subsidiar a tomada de decisão. Tem tudo a ver com o que foi descrito na assertiva. Dessa maneira, o gestor da universidade pública poderia se utilizar das informações extraídas para adequar o número de vagas nos cursos oferecidos pela instituição, por exemplo.

Resposta: C

16.

(CESPE – MEC – 2015)

Julgue o item seguinte, referente a data mining.

O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação quando, em um conjunto de eventos, há uma hierarquia de tuplas sequenciais.

RESOLUÇÃO:

Nas regras de associação não há hierarquia entre tuplas, o examinador misturou conceitos. Essas regras são

frequência em que os itens ou conjuntos de itens A e B ocorrem em conjunto. Enquanto as regras de associação dizem respeito à frequência das coocorrências, os padrões sequenciais lidam diretamente com a repetição de padrões ordenados, que indicam a tendência de ocorrência consecutiva dos eventos.

Resposta: E

17.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos significativos presentes em grandes massas documentais registradas em arquivos físicos (analógicos) e arquivos lógicos (digitais).

RESOLUÇÃO:

A definição estava perfeita, o que maculou a assertiva foi dizer que a mineração pode ocorrer em arquivos físicos.

Ora, a mineração é uma atividade multidisciplinar, mas evidentemente computacional, então não faz sentido aplicar as técnicas envolvidas em um arquivo físico composto por um monte de papéis, por exemplo.

Resposta: E

18.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos oriundos da matemática, da estatística e da computação, inclusive de inteligência artificial.

RESOLUÇÃO:

Correto! A mineração é uma atividade multidisciplinar, envolvendo computação, matemática e estatística. Alguns métodos oriundos da inteligência artificial, mais especificamente de aprendizado de máquina, podem ser empregados, de modo a possibilitar a melhoria da performance do sistema nas tarefas de mineração.

Resposta: C

19.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a marketing.

RESOLUÇÃO:

Muito pelo contrário. Em pequenos conjuntos de dados não faz tanto sentido assim a aplicação da mineração, já que a descoberta dos padrões não é uma tarefa tão difícil. Em grandes bancos de dados, todavia, a mineração

pode representar uma vantagem competitiva importantíssima, ao permitir a descoberta de padrões previamente ocultos.

Resposta: E

20.

(CESPE – TCU – 2015)

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações conclusivas acerca do padrão de comportamento exibido por agentes de interesse dessa organização.

RESOLUÇÃO:

Imagino que você pode ter ficado tentado a marcar um E na questão pela parte que fala de afirmações conclusivas.

Contudo, o que o examinador quis dizer é que a mineração de dados vai subsidiar a tomada de decisão por parte dos agentes. Ou seja, são esses agentes que irão tomar as conclusões, não o sistema de mineração de dados.

Resposta: C

21.

(CESPE – DEPEN – 2015)

Acerca de datawarehouse e datamining, julgue o item subsequente.

Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre informações armazenadas em um grande repositório.

RESOLUÇÃO:

A mineração de dados tem como objetivo a descoberta de padrões e relacionamentos ocultos entre os dados em grandes repositórios. Logo, o gabarito é questão certa.

Resposta: C

22.

(CESPE – ANTAQ – 2014)

A respeito de Data Warehouse e Data Mining, julgue os itens subsecutivos.

Em um processo de descoberta do conhecimento, um Data Mining executado para atingir uma meta pode falhar nas classes de predição, de identificação, de classificação e de otimização.

RESOLUÇÃO:

A redação parece estranha, mas isso acontece porque o examinador praticamente copiou um trecho do livro de Elmasri & Navathe e colou sem contexto. Isso acontece com frequência, então infelizmente é algo com que você deve se acostumar.

A respota é correta. As tarefas descritas aparecem em uma ou outra etapa da mineração de dados, então é lógico deduzir que essas etapas podem falhar, já que nenhum processo está imune a erros.

Resposta: C

23.

(CESPE – ANATEL – 2014)

A respeito de banco de dados, julgue os itens que se seguem.

No processo de Data Mining (mineração de dados), é indispensável o uso de técnica conhecida como Data Warehousing, uma vez que a mineração de dados deve ocorrer necessariamente em estruturas não normalizadas (FN0).

RESOLUÇÃO:

Já falamos que a mineração de dados pode ocorrer em vários tipos de repositórios, geralmente com um grande volume de dados. O DW ajuda a realizar as tarefas de mineração, pois geralmente já passou pelo processo de ETL.

Contudo, não é um requisito obrigatório para que se minere dados.

Resposta: E

24.

(CESPE – TJ/SE – 2014)

Julgue os próximos itens, com relação a DataMining e ETL.

O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados, tendo por finalidade aproximar registros similares para predizer valores de variáveis.

RESOLUÇÃO:

Pelo contrário! Os registros na clusterização não possuem rótulos ou etiquetas prévias, os algoritmos geram os conjuntos a partir da similaridade entre eles. A descrição da assertiva, na verdade, se amolda à classificação.

Resposta: E

25.

(CESPE – TJ/SE – 2014)

Julgue os próximos itens, com relação a DataMining e ETL.

O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente separados, sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados operacionais distintos.

RESOLUÇÃO:

A questão remete ao pré-processamento dos dados. Uma das tarefas dessa etapa envolve a integração de diferentes bases de dados. Dessa forma, a mineração poderá ocorrer em cima de um conjunto de dados que está fisicamente armazenado em BDs operacionais distintos, mas que foram posteriormente integrados em um DW ou em alguma estrutura do tipo.

Resposta: C

26.

(CESPE – TJ/SE – 2014)

Com relação a sistemas de suporte à decisão, julgue os seguintes itens.

DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento em base de dados, consistindo em análise de conjuntos de dados cujo objetivo é descobrir padrões úteis para tomada de decisão.

RESOLUÇÃO:

Não temos muito a acrescentar. O processo de descoberta de conhecimento, como o nome já diz, tem como objetivo a extração de informações e a geração do conhecimento a partir dos conjuntos de dados. Além disso, o objetivo da mineração de dados é mesmo descobrir padrões e relacionamentos úteis, de modo a subsidiar a tomada de decisão.

Resposta: C

27.

(CESPE – TJ/SE – 2014)

Acerca de DataMining e de DataWarehouse, julgue o item subsecutivo.

Os principais processos de DataMining são a identificação de variações embasado em normas, a detecção e análise de relacionamentos, a paginação de memória e o controle de periféricos.

RESOLUÇÃO:

O examinador enfiou alguns conceitos de sistemas operacionais no meio da assertiva para ver se colava. Na verdade, a detecção e a análise de relacionamentos ocultos e de variações nos conjuntos de dados podem fazer parte de um processo de mineração, mas paginação e de memória e controle de periféricos não têm nada a ver com o nosso assunto.

Resposta: E

28.

(CESPE – TJ/SE – 2014)

Com relação a sistemas de suporte à decisão, julgue os seguintes itens.

Assim como o DataMining, os DataMarts são voltados para a obtenção de informações estratégicas de maneira automática, ou seja, com o mínimo de intervenção humana a partir da análise de dados oriundos de DataWarehouses.

RESOLUÇÃO:

Nenhum desses três conceitos é automático. A mineração de dados abarca o aprendizado de máquina, então há um certo grau de inteligência artificial aplicada, mas isso não quer dizer de forma alguma que a intervenção humana fica em segundo plano (veja a primeira falácia a respeito de data mining no começo da aula). Ademais, o Data Mart é apenas um subconjunto do Data Warehouse, então temos algumas confusões conceituais que invalidam a assertiva.

No documento Prof. Arthur Mendonça Aula 04. Aula 04. Análise da Informação para ISS Aracaju. Prof. Arthur Mendonça. 1 de 57 (páginas 33-47)