• Nenhum resultado encontrado

Apresentação tecnologia da informação sistemas de informação capacidade de coletar automatizem controlem processos operações. quantidade qualidade

N/A
N/A
Protected

Academic year: 2021

Share "Apresentação tecnologia da informação sistemas de informação capacidade de coletar automatizem controlem processos operações. quantidade qualidade"

Copied!
130
0
0

Texto

(1)
(2)
(3)

O avanço da infraestrutura em tecnologia da informação e a

disseminação dos sistemas de informação melhoraram a capacidade

de coletar dados e dessa forma podem contribuir para que as

organizações automatizem e controlem os seus processos e as suas

operações.

Automatizar e controlar processos e operações garantem a

quantidade e a qualidade de dados que atendem às necessidades de informação das organizações e, nesse sentido, atingem o objetivo principal da tecnologia da informação: informar.

(4)

4

Ao mesmo tempo, as empresas passam a recolher dados de seus clientes, gerados quando esses clientes navegam na internet,

quando eles colocam posts nas redes sociais e nos blogs e de

eventos externos, tais como tendências de mercado, notícias do

setor e movimento dos concorrentes.

Os dados (dos sistemas transacionais e de outras fontes internas e externas) são insumos para as necessidades gerenciais de

informação (e conhecimento) que dão apoio aos processos de gestão e decisão das organizações.

Isto é: os dados são ativos de informação e conhecimento.

(5)

Por outro lado, os analistas de negócios têm perguntas às quais gostariam de responder, como, por exemplo:

Qual foi o retorno de uma campanha publicitária?

Que clientes devem ter uma atenção especial, uma vez que podem

“deixar de utilizar” os nossos serviços ?

É um determinado cliente confiável a se qualificar para um

empréstimo ou uma venda a prazo?

Como saber se uma transação do cartão de crédito é fraudulenta?

(6)

6

Equipe técnica que desenvolve e

oferece suporte ao BI Analistas de negócio

(7)

Em tais situações, podemos recorrer aos dados, que podem

esconder informações valiosas para auxiliar no processo decisório.

As empresas podem coletar dados internos e externos com essa finalidade.

Por exemplo, se sabemos que os clientes deixaram de usar os

nossos produtos no passado, podemos construir um modelo analítico (baseado nos dados) que descreve os padrões, o comportamento e as características desses clientes.

(8)

Surgem as organizações “orientadas a dados”, que utilizam os dados como um bem estratégico, e as análises de dados, que atendem às necessidades gerenciais de informação (e conhecimento) e apoiam os processos de gestão e decisão das organizações.

8

(9)

Organizações orientadas a

dados

(10)

Resistente a dados: o mantra da empresa resistente a dados é: "Nós sempre

fizemos isso dessa maneira“.

As organizações são resistentes a dados por uma variedade de razões: • Os dados podem mostrar problemas de desempenho

• Os dados podem mostrar que a organização tem uma estratégia desalinhada

Consciente de dados: a empresa neste estágio sabe a existência de dados dentro

da organização e se concentra na coleta de dados, muitas vezes consciente do valor implícito e potencial dos dados. A coleta acontece como:

• análise de mídia social; • sistemas ERP/CRM;

• planejamento financeiro e sistemas de contabilidade;

A transição para o próximo estágio vem do desejo de desbloquear o valor dos dados que uma empresa tem.

10

(11)

Guiado por dados: as empresas guiadas por dados se concentraram no tipo de

análise: o que aconteceu, para então responder:

“Não vamos fazer isso novamente" e “Vamos fazer mais disso". Usa os resultados de seus dados para olhar o passado.

Com conhecimento de dados: a empresa neste estágio percebe que o valor dos

dados não é apenas tático, mas um ativo estratégico.

A empresa continua seu investimento no que, mas volta a atenção para o porquê: • Por que as vendas diminuíram no último trimestre?

• Por que os consumidores compram menos do nosso produto?

(12)

A empresa orientada a dados combina dados, análises e insights para responder à questão: “O que vem depois?”

Os dados são um ativo estratégico e impulsionam as decisões a

serem tomadas, isto é, analisam o que aconteceu e o porquê de ter acontecido, para então formular decisões que posteriormente serão medidas pela coleta de novos dados.

A Ciência dos Dados nos auxiliará a transformar uma organização resistente a dados em uma organização orientada a dados.

12

(13)
(14)

Ciência dos dados é:

• o processo de obtenção, transformação, análise e validação de dados para responder a uma pergunta (geralmente de negócio) que se traduz em ações (decisões)

• o conjunto de habilidades e técnicas necessárias para encontrar, armazenar,

processar e desenhar insights baseados em dados

• a habilidade de combinar:

as capacidades analíticas de um cientista ou engenheiro com a visão de negócios de um executivo empresarial, passando pelas habilidades de um desenvolvedor para extrair e processar dados

14

(15)

Comparação com outras disciplinas analíticas

• A mineração de dados: esta disciplina trata da criação de algoritmos para extrair insights de dados. Possui alguma

intersecção com a estatística e é um subconjunto da ciência dos dados.

• Aprendizado de máquina: disciplina da Ciência da Computação que parte da ciência dos dados. Está diretamente relacionada com a

mineração de dados. A aprendizagem de máquina trata sobre a criação de algoritmos (como a mineração de dados) para resolver

(16)

Podemos definir a relação entre o aprendizado de máquina e a

mineração de dados da seguinte forma:

A mineração de dados é um processo durante o qual os algoritmos de

aprendizado de máquina são utilizados como ferramentas para

extrair padrões potencialmente valiosos e onde a IA é a motivação (teórica e prática) para a criação de algoritmos.

16

(17)
(18)

Princípios-chave da Ciência dos Dados para uma organização orientada a dados:

1. Atentar para o fato de que dados são um ativo estratégico

2. Ter um processo sistemático de extração de informações e de conhecimento a partir dos dados

3. Ter pessoas que conectem dados, tecnologia e negócios

4. Incentivar a cultura analítica e de experimentação na organização 5. Incentivar a parte comercial da equação

(Business-Analytics-Business - BAB)

18

(19)

Atentar para o fato de que dados são um ativo estratégico:

Este conceito tem de estar no dia a dia da organização. Perguntas para serem feitas:

“Usamos todo o recurso de dados que estamos coletando e armazenando?”

“Somos capazes de extrair informações significativas deles? " A resposta é “não” para a maior parte das organizações.

(20)

Ter um processo sistemático de extração de informações e de conhecimento a partir dos dados:

Devemos ter um processo com etapas definidas que apresentem

resultados claros para extrair insights de dados. O processo utilizado geralmente procede da mineração de dados.

20

(21)

Ter pessoas que conectem dados, tecnologia e negócios:

As organizações precisam investir em pessoas apaixonadas por dados, que entendam o valor dos dados e do negócio da organização,

passando pela tecnologia.

Transformar dados em percepções e insights não é alquimia, é um processo que precisa de dedicação, criatividade e inovação.

(22)

Incentivar a cultura analítica e de experimentação da organização:

Ciência de Dados é uma ferramenta de apoio ao processo de decisão que apresenta perspectivas e visões diferentes do problema,

permitindo aos tomadores de decisão novos insights que certamente terão uma alta probabilidade de incertezas.

A cultura analítica da organização é um passo essencial para a transformação em uma organização orientada a dados.

Para avançar mais um nível, a empresa deve ter uma cultura de

experimentação, isto é, construir, experimentar e medir insights

baseados em dados para os problemas de negócios. 22

(23)

Business – Analytics - Business (BAB):

O princípio BAB é o mais importante para o êxito de uma organização orientada a dados.

O foco de muita literatura referente a Ciência dos Dados é em modelos e algoritmos, sem o contexto de negócios.

Business-Analytics-Business (BAB) é o princípio que enfatiza a parte comercial da equação. Incluir o processo de Ciência dos Dados em

um contexto de negócios é fundamental, isto é, definir o problema de negócio, usar dados e análises para resolvê-lo e incluir os resultados

(24)

O processo

(25)

As principais etapas do processo (princípio-chave 2) são:

1. Entendimento do negócio e definição do problema do negócio 2. Tarefas de aprendizagem de máquina

3. Coleta e pré-processamento de dados 4. Análise exploratória de dados

5. Modelos de análises (modelos analíticos)

6. Validação dos resultados obtidos com os modelos analíticos

(26)

26

(27)

Um exemplo:

(28)

• Etapa 1: entendimento do negócio

Consiste, além de se entender o assunto do negócio em questão, na definição do

problema a ser tratado e nas possíveis hipóteses que podem dar indício às

respostas esperadas do problema levantado.

Nessa fase, o conhecimento, a experiência, o senso comum, a vivência e a

criatividade humana dos analistas sobre o assunto de negócio são essenciais para a realização das perguntas necessárias e pertinentes, assim como para a formulação de hipóteses que forneçam sustentação às perguntas de negócio.

28

(29)

• Etapa 1: entendimento do negócio:

As perguntas de negócio não emergem de forma isolada; são desenvolvidas em cima de um assunto existente e em informações contextuais conhecidas que se iniciam com uma necessidade de análise, a qual se traduz em objetivo analítico.

Exemplo: uma empresa de telecomunicações viu um declínio na receita ano a ano

devido a uma redução na base de clientes.

Nesse cenário, o problema de negócios pode ser definido como:

A empresa precisa fazer crescer a base de clientes visando novos segmentos e

Princípios-chave: o processo

(30)

Etapa 2: descobrir tarefas de aprendizado de máquina:

O problema de negócios, uma vez definido, precisa ser decomposto para tarefas de aprendizado de máquina. Vamos elaborar sobre o exemplo definido.

Se a empresa precisa expandir a base de clientes visando a novos segmentos e reduzindo a desistência de clientes,

como podemos decompor isso em problemas de aprendizado de máquinas?

Por exemplo:

• Reduzir o abandono de cliente em X%.

• Identificar novos segmentos de clientes para marketing direcionado.

30

(31)

Etapa 3: coleta e preparação de dados (pré-processamento)

Agora precisamos mergulhar nos dados. Concentre-se no entendimento e na obtenção de dados de que você precisa. Isso significa preparar os dados para atender às suas necessidades analíticas.

É importante entender os pontos fortes e as limitações dos dados, pois raramente há uma correspondência exata com o problema. Os dados históricos muitas vezes são recolhidos para finalidades não relacionadas com o problema de negócio

atual.

Temos dados disponíveis e confiáveis para responder ao objetivo analítico? A qualidade de suas entradas vai decidir a qualidade da saída.

(32)

Etapa 3: coleta e preparação de dados (pré-processamento)

As tecnologias analíticas impõem certos requisitos sobre os dados que usam. Exigem muitas vezes os dados numa forma diferente de como são fornecidos

naturalmente, e alguma conversão é necessária. Isto é, os dados são manipulados e convertidos em formas que proporcionam melhores resultados.

Exemplos: remover ou inferir nos valores em falta, converter dados de um

formato para outro (numérico em categóricos, contínuos em discretos). Muitas vezes os dados devem ser normalizados ou dimensionados, de modo que eles sejam comparáveis.

32

(33)

Etapa 3: coleta e preparação de dados (pré-processamento)

Uma vez definido o problema e as hipótese de negócio, faz sentido gastar tempo e esforços na exploração, na limpeza e na preparação dos dados (70% do tempo total do projeto está no pré-processamento de dados).

O primeiro passo da etapa de pré-processamento consiste na identificação das

variáveis (seleção dos dados).

O conhecimento sobre o domínio auxilia determinando os valores válidos, os atributos ou as informações para a construção de novos atributos.

A seleção implica muitas vezes na extração de diferentes fontes de dados e na

integração de tais dados com o objetivo de se obter uma única fonte de dados.

Na extração e na integração, efetua-se a limpeza e a transformação dos dados.

(34)

34

Etapa 4: análise exploratória de dados

Neste passo, é utilizada a amostragem, que é a seleção de um subconjunto de dados para serem analisados. A estatística utiliza a amostragem porque obter os dados da população pode ser muito custoso e demandar muito tempo. Na Ciência dos Dados, a análise exploratória é utilizada para reduzir o tempo de

processamento.

O princípio-chave da amostragem é que ela seja representativa da população, isto é, que tenha a “mesma” propriedade de interesse da população.

Por exemplo, se a propriedade de interesse for a média da população, a

amostragem é representativa se a média da amostra for “próxima” à da população.

(35)

Etapa 4: análise exploratória de dados

Após a identificação das variáveis, o próximo passo é a compreensão dos dados. A exploração de dados fornece uma visão geral de alto nível de cada atributo no conjunto de dados e na interação entre os atributos. A exploração de dados ajuda a saber qual é o valor típico de um atributo, se existem outliers no conjunto de dados, se existem atributos altamente correlacionadas, entre outras medidas de análises que a exploração de dados nos fornece.

(36)

Etapa 5: modelos analíticos

Esta é a atividade na qual devemos identificar a técnica analítica que vai produzir os resultados esperados, o que nos leva às possíveis ações que podem ser tomadas para atingir o objetivo esperado.

O conjunto de possíveis técnicas analíticas é grande, vasto e difícil de se compreender, os objetivos e as caraterísticas do problema apontam para as técnicas mais adequadas.

36

(37)

Etapa 5: modelos analíticos

O processo de construir um modelo para representar um conjunto de dados é

comum para todos os modelos analíticos. O que não é comum é a maneira por meio da qual os modelos são construídos, utilizando diferentes alternativas.

O objetivo da construção de modelos é organizar e resumir os dados para facilitar a

interpretação e a descoberta de padrões, tendências e relações interessantes entre

dados e fornecer subsídios para auxiliar nos processos de gestão e de decisão da organização.

(38)

Etapa 6: validação do modelo e dos resultados

O objetivo desta fase é avaliar os resultados dos modelos analíticos, isto é, devemos confiar que as relações e os padrões extraídos a partir dos dados são verdadeiros e generalizáveis (e não anomalias da amostra) para responder

rigorosamente aos objetivos, confirmando ou rejeitando as hipóteses levantadas. Para avaliar as relações e os padrões extraídos, é utilizado um conjunto de dados (dados de teste) que não foram anteriormente empregados na construção do modelo (dados de treino).

Dessa forma, teremos o que chamamos erro do modelo e saberemos se devemos voltar às etapas anteriores ou se os resultados obtidos são satisfatórios.

38

(39)
(40)

40

O processo de se construir um modelo para representar um conjunto de dados é comum para todos os modelos analíticos.

O que não é comum é a maneira pela qual os modelos são construídos, utilizando

diferentes alternativas.

O objetivo da construção de modelos é organizar e resumir os dados para facilitar a

interpretação e a descoberta de padrões, tendências e relações interessantes entre

dados e fornecer subsídios para auxiliar nos processos de gestão e de decisão da organização.

(41)

Segundo o objetivo definido, podemos dividir os modelos analíticos em: • descritivos (relatórios) (o que aconteceu?)

• diagnósticos (descoberta e exploração) (por que isso aconteceu?) • preditivos (previsão) (o que vai acontecer?)

• prescritivos (antecipação) (como podemos fazer para isso acontecer?)

(42)

Descritivo:

O objetivo da análise descritiva é resumir e agregar dados históricos, visualizando-os de forma que permitam entender o estado atual e passado do negócio, isto é, fornece ao analista uma visão de métricas e medidas importantes ao negócio. Mais de 70% das análises de negócio são descritivas.

Os dados são resumidos através de funções de análise (exemplo: funções

agregadas dos bancos de dados, tais como contagem, somas, médias), fornecendo ao analista uma visão de métricas e de medidas importantes para o negócio.

42

(43)

Descritivo:

O resultado geralmente são painéis de controle e relatório. As técnicas OLAP e de exploração de dados se enquadram neste modelo. Por exemplo:

• Como os meus clientes ou as minha vendas estão distribuídos no que diz respeito à localização geográfica?

• Verificar a evolução mensal das unidades vendidas de um produto ou do número de clientes de um serviço

• Visualizar o número de post, seguidores e page views de uma rede social

(44)

Diagnóstico:

É um olhar sobre o desempenho passado para determinar o que aconteceu e por

quê. Na avaliação dos dados descritivos, as ferramentas analíticas de diagnóstico

capacitarão um analista para detalhar e encontrar a causa do que aconteceu, identificando relações ou padrões entre os dados.

Dashboards de negócios (isto é, painel analítico) que acompanham os dados no tempo com filtros e capacidade de detalhamento permitem essa análise.

Por exemplo: em uma campanha de marketing em mídias sociais, as análises descritivas podem avaliar o número de postagens, menções, seguidores, fãs e exibições de página para ver o que funcionou e o que não funcionou em suas campanhas passadas.

44

(45)

Preditiva:

Utiliza observações passadas para prever futuras observações

(probabilisticamente), isto é, constrói uma análise dos cenários prováveis ​​do que poderia acontecer.

Os modelos preditivos podem ser usados ​​para resumir os dados existentes, mais seu poder é que podemos usá-los para extrapolar um tempo futuro em que os dados ainda não existem. Essa extrapolação no domínio do tempo é conhecida como previsão.

(46)

Preditiva:

Por exemplo:

Prever quais os produtos que determinados grupos de clientes são mais propensos a comprar.

Quais são as caraterísticas das transações fraudulentas no cartão de crédito. Que clientes devem ter uma atenção especial, uma vez que podem “deixar de

utilizar” os nossos serviços.

46

(47)

Prescritiva:

Esse tipo de análise não só prevê um possível futuro, prevê vários futuros com base nas ações que podem ser tomadas.

Um modelo prescritivo é, por definição, também preditivo.

Esse tipo de modelo é muito pouco utilizado (menos de 1% dos modelos é prescritivo).

Construir um modelo prescritivo significa não apenas utilizar os dados existentes, mas também os dados de ação e de feedback para orientar o tomador de decisão a obter um resultado desejado.

(48)

Prescritiva:

Um modelo prescritivo pode ser visto como uma combinação de vários modelos preditivos que funcionam em paralelo, um para cada possível ação de entrada. Uma vez que um modelo prescritivo é capaz de prever as possíveis consequências com base em diferentes escolhas de ação, ele também pode recomendar o melhor curso de ação.

Por exemplo: Podemos saber que produtos vão maximizar a nossa receita?

48

(49)

http://www.r2d3.us/uma-introducao-visual-ao-aprendizado-de-maquina-1/

(50)

50

(51)

AED consiste em ORGANIZAR e RESUMIR os dados coletados por

meio de tabelas, gráficos ou medidas numéricas (técnicas de

estatística descritiva e de visualização) e, a partir dos dados

resumidos, procurar identificar padrões, comportamentos, relações e dependências.

O objetivo final é tornar mais clara a descrição dos dados a fim de ajudar o analista a desenvolver algumas hipóteses sobre o problema em questão e permitir a construção de modelos apropriados para tais dados, isto é auxiliar na INTERPRETAÇÃO dos dados.

(52)

52

A AED emprega técnicas de estatísticas descritivas e gráficas para explorar dados, detectando agrupamento, medidas de tendência central, de ordenação, de dispersão e de correlação entre variáveis. A AED é um pré-requisito para uma análise de dados mais formal e como parte da construção dos modelos analíticos.

A estatística descritiva é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos por meio do uso de certas medidas-síntese que tornem possível a interpretação de resultados.

(53)

RapidMiner:

Configure o repositório de dados e crie um novo processo

(54)

54 Processo Propriedades do Operador Help Operadores

(55)

Exemplo 1 – Item A

Execução e do processo

(56)

56

Clicando em uma variável apresenta os histograma

(57)

Não existem um número, específico de classes para um histograma,

(58)

58

No tipo de gráfico para “Quartile”: podemos observar que o comprimento da pétala tem a mais ampla distribuição das 150 observações e largura pétala é geralmente a menor medida de todas as quatro variáveis. Na figura, a “barra”, representa os dados entre Q1 e Q3, a linha representa a mediana e o ponto a média. Os círculos fora do gráfico, são os outliers.

(59)

No tipo de gráfico para “Quartile Color”: Podemos ver a distribuição das três espécies para a medição do comprimento da pétala. Semelhante à comparação anterior, a distribuição de várias espécies podem ser comparadas.

(60)

60

A função de distribuição normal conta a probabilidade de ocorrência dos dados dentro de um intervalo.

Se um conjunto de dados exibe distribuição normal, 68,2% de pontos de dados estão a um desvio padrão da média, 95,4% dos pontos caem dentro 2σ e 99,7% dentro de 3σ da média.

A partir do gráfico de distribuição, podemos inferir o comprimento pétala, por exemplo Iris Setosa é mais coeso e diferente do que Iris Versicolor e Iris Virginica.

(61)

Trocando o tipo de gráfico para “Scatter” e configurando os eixos, podemos observar a dispersão entre os tipos de flores Iris.

(62)

62

Trocando o tipo de gráfico para “Scatter 3D” e configurando os eixos, podemos observar as diferenças entre os tipos de flores Iris.

(63)

No tipo de gráfico para “Scatter matrix”, podemos observar a dispersão de todas as variáveis 2 a 2.

(64)

64

Outra forma de visualizar as relações entre as variáveis e as diferenças para cada tipo de flor Iris.

(65)

Outra forma de visualizar as relações entre as variáveis (com até 4 dimensões, duas em cores). Visualizar: comprimento pétala no eixo X, comprimento da sépalas no eixo y, largura sépalas para a cor de fundo (densidade), e a classe para a cor dos dados.

(66)

66

Notamos que há uma sobreposição entre as três espécies do atributo de largura sepala. Assim, a largura sépalas não pode ser a métrica utilizada para diferenciar as três espécies. No entanto, existe uma clara separação das espécies de comprimento pétala. Nenhuma observação de espécies Setosa tem um comprimento pétala

superior a 0,25 e há muito pouca sobreposição entre as espécies Virginica e Versicolor.

(67)
(68)

68

Métodos de Detecção de Anomalias (Outliers)

Outliers são instancias de dados que se destacam entre outras instancias e não tem o comportamento esperado do conjunto de dados.

Outliers podem ser identificados através da criação de um modelo de distribuição estatística normal dos dados, os pontos a mais de três desvios-padrão da média são identificados como um outliers.

(69)

Métodos de Detecção de Anomalias (Outliers)

No espaço multidimensional cartesiano os pontos que estão distantes de outros pontos são outliers.

Se medirmos a distância média dos N vizinhos N mais próximos, os valores atípicos terão um valor mais elevado do que outros pontos de dados normais.

(70)

70

Métodos de seleção de variáveis e

redução de dimensionalidade

1. Um conjunto de dados pode conter atributos altamente correlacionados, como o número de itens vendidos e receita obtida pela venda desses itens.

2. Atributos podem conter informações redundantes que não agregam nenhuma nova informação.

3. A seleção é necessária para remover variáveis ​​independentes que podem estar fortemente correlacionadas com outras, e para se certificar que mantemos

variáveis ​​independentes que podem estar fortemente correlacionadas com a variável dependente.

(71)

Para desenvolver os diferentes tipos de modelos de análises, temos um conjunto de tarefas, técnicas e algoritmos.

As 3 tarefas principais são: associação, classificação e agrupamentos. Cada uma das diferentes tarefas tem diferentes técnicas de análises e as estas um conjunto de algoritmos que podem ser utilizados.

As tarefas, técnicas e algoritmos, podem ser aplicados a todos os

modelos analíticos (descrição, diagnóstico, preditivos e prescritivos).

(72)

79

• Identificação do perfil de clientes inadimplentes no cartão de crédito

– Tarefa: classificar potenciais novos clientes como inadimplentes ou adimplentes;

– Experiência de Treinamento: uma base de dados histórica em que os clientes já conhecidos são previamente classificados como inadimplentes ou adimplentes;

– Medida de Desempenho: porcentagem de clientes classificados corretamente

(73)

Introdução: Definição, objetivos, tarefas e características da

classificação;

Abordagem Simbólica: classificação baseado na IA simbólica

(heurística): árvore de decisão, teoria da informação, algoritmos ID3 e C4.5;

Abordagem Estatística: Classificadores Bayesianos (Naive Bayes),

K-Vizinhos mais próximos (k-Nearest Neighbor);

Abordagem Biológica: classificador baseado na IA biológica:

redes neurais e algoritmos genéticos.

(74)

81

Definição:

É determinar com que grupo de entidades, já classificadas anteriormente um novo objeto apresenta mais semelhanças.

O objetivo da classificação, é analisar os dados e desenvolver uma

descrição ou modelo para descobrir um relacionamento entre os atributos previsores e o atributo meta.

(75)

Tarefa: descobrir um relacionamento entre os atributos previsores

e o atributo meta, usando registros cuja classe é conhecida, para se

construir um modelo de algum tipo que possa ser aplicado aos

objetos não classificados para classifica-os.

Classificação é usada principalmente para previsão.

A tarefa da classificação, é caracterizada por uma boa definição das

classes, adquirida em um conjunto de exemplos pre-classificados

(dados de treino).

(76)

83

Dia Aspecto Temperatura Umidade Vento Decisão

1 Sol Quente Alta Fraco N

2 Sol Quente Alta Forte N

3 Nublado Quente Alta Fraco S

4 Chuva Agradável Alta Fraco S

Algoritmo de classificação (1) Aprender modelo (2) MODELO (3) Aplicar modelo (4)

Aspecto Temperatura Umidade Vento Decisão

Sol Quente Alta Forte ? Nublado Quente Alta Fraco ? Chuva Agradável Alta Fraco ? Chuva Fria Normal Fraco ?

Um conjunto de treino com exemplos rotulados é usado para treinar o classificador.

conjunto de exemplos sem rótulos

Um algoritmo de aprendizagem é

executado para induzir um classificador a partir do conjunto de treino

Uma vez construído o classificador, este pode ser usado para classificar futuros exemplos

(77)
(78)

85

Técnica: Árvores de Decisão

São um método de aprendizagem supervisionado que constrói árvores de classificação a partir de exemplos.

Algoritmos : ID3, C4.5, (Quinlan), CART (Breiman)

Os métodos baseados em árvores, dividem o espaço de entrada em

regiões disjuntas para construir uma fronteira de decisão.

As regiões são escolhidas baseadas em técnicas heurísticas onde a cada passo os algoritmos selecionam a variável que provê a melhor

(79)

Comprou Produto X ? S S S S N N N N N N

ID

Sexo Cidade Idade

1

M

Floripa

25

2

M

Criciuma 21

3

F

Floripa

23

4

F

Criciuma 34

5

F

Floripa

30

6

M

Blumenau 21

7

M

Blumenau 20

8

F

Blumenau 18

9

F

Floripa

34

10

M

Floripa

55

(80)

87

Cidade

Idade

Não

Sim

Floripa

Sim

Não

Se (Cidade=Floripa e Idade <= 27) Então (Decisão = Sim) Se (Cidade=Floripa e Idade > 27) Então (Decisão = Não)

Se (Cidade=Criciúma) Então (Decisão = Sim)

Se (Cidade=Blumenau) Então (Decisão = Não)

(81)

Idade

Cidade

27

Blumenau

Criciúma

Floripa

SIM

NÂO

(82)

89

Algoritmo ID3

ID3, é um algoritmo que construí uma árvore de decisão sob as

seguintes premissas:

Cada vértice (nodo) corresponde a um atributo, e cada aresta da árvore a um valor possível do atributo.

Uma folha da árvore corresponde ao valor esperado da decisão segundo os dados de treino utilizados.

A explicação de uma determinada decisão está na trajetória da raiz a folha representativa desta decisão.

(83)

Algoritmo

ID3

Cada vértice é associado ao atributo mais informativo que ainda não tenha sido considerado.

Para medir o nível de informação de um atributo se utiliza o conceito de entropia da Teoria da Informação.

Menor o valor da entropia, menor a incerteza e mais utilidade tem o atributo para a classificação.

(84)

91

Algoritmo ID3: Exemplo

Dia Aspecto Temperatura Umidade Vento Decisão

1 Sol Quente Alta Fraco N 2 Sol Quente Alta Forte N 3 Nublado Quente Alta Fraco S 4 Chuva Agradável Alta Fraco S 5 Chuva Fria Normal Fraco S 6 Chuva Fria Normal Forte N 7 Nublado Fria Normal Forte S 8 Sol Agradável Alta Fraco N 9 Sol Fria Normal Fraco S 10 Chuva Agradável Normal Fraco S 11 Sol Agradável Normal Forte S 12 Nublado Agradável Alta Forte S 13 Nublado Quente Normal Fraco S 14 Chuva Agradável Alta Forte N

(85)

SIM

Unidade

Aspecto

Sol

Nublado

Alta

Normal

SIM

NÃO

Vento

SIM

Fraco

NÃO

Forte

(86)

93

Algoritmos de classificação

Folha 12 – Exercício 1

1. Leitura dos dados do problema: Import / Data

2. Escolher o componente Read (segundo o formato dos dados), e configurar os parâmetros;

(87)

Algoritmos de classificação

3. Escolher o componente SetRole para indicar qual é a variável meta. Configurar as propriedades: target role e attibute name.

(88)

95

Algoritmos de classificação

4. Escolher o algoritmo de mineração ID3:

(89)

Algoritmos de classificação

5. Executar o processo para ver os resultados.

Qual será a decisão, se o dia estiver com sol, temperatura fria, umidade alta e vento forte ?

(90)

97

Algoritmos de classificação

Processo para resolver o exercício 2 (folha 12), e configuração do componente Set Role.

(91)

Algoritmos de classificação

Outra forma de resolver o exercício 2. O componente Read (2) se configura como o Read anterior, escolhendo o sheet number = 2. Escolher Apply Model de: Modeling/Model Application

(92)

99

(93)

Algoritmo C 4.5

O C 4.5 é uma extensão do ID3:

Construí árvores de decisão, com valores desconhecidos para alguns atributos.

Trabalha com atributos que apresentam valores contínuos. Utiliza o conceito de poda (pruning) de árvores.

Quando existem atributos desconhecidos para alguma variável, os mesmos são considerado como uma nova categoria.

Quando existem variáveis com atributos contínuos, o algoritmo cria intervalos segundo as alterações na variável de decisão.

(94)

101

Algoritmos de classificação

Processo para resolver o exercício 1 (folha 12) com os dados da aba 2.

Faça uma cópia do processo do exercício 1 e troque o algoritmo ID3 pelo Decision

(95)

Avaliação do algoritmo de aprendizado

(96)

103

O desempenho de um classificador é medido em termos da sua capacidade preditiva nos futuros exemplos:

Como estimar o erro verdadeiro usando apenas um conjunto de exemplos limitado ?

Taxa de erro de um classificador: proporção de exemplos

incorrectamente classificados: Taxa de Erro = Erros / Total

Avaliação do algoritmo de aprendizado

(97)

Um algoritmo de aprendizagem deve ser avaliado tendo em conta o seu desempenho (capacidade de generalização) naqueles exemplos que não foram usados para construir o classificador.

Ideia básica: Particionar o conjunto de dados disponível em dois

conjuntos:

conjunto de treino: exemplos que são usados pelo algoritmo de

aprendizagem para induzir o classificador;

conjunto de teste: exemplos que são usados para estimar a taxa

de erro.

(98)

Preditos positivos Preditos negativos

Exemplos

positivos ExemplosNegativos

Tp

Fn Tn

Fp

A partir da matriz de confusão, pode-se obter vários resultados para medir a qualidade da classificação: Precision, Recall, Accuracy.

Accuracy (taxa de acerto): essa medida denota a proporção de

predições corretas, sendo calculada como: Accuracy = (Tp + Tn)/(Tp + Fp + Tn + Fn);

Precision (taxa verdadeiro positivo): Tp/(Tp+Fp); Recall (cobertura): Tp/(Tp+Fn)

(99)

Avaliação do algoritmo de aprendizado

(100)

110

Avaliação do algoritmo de aprendizado

Configuração do subprocesso do componente Cross Validation.

O operador Cross Validation define um sub-processo que é definido por duas fases:

• Fase de treino: o operador “Decision Tree“ é usado para aprender um modelo de classificação

Fase de teste: são necessários dois operadores:

✓ o operador Apply Model que aplica o modelo a cada exemplo do conjunto de teste para obter a classe predita

(101)

Avaliação do algoritmo de aprendizado

A acurácia (taxa de acerto) do modelo é de 93,33%.

A precisão (taxa positiva verdadeira) da classe ”Iris Versicolor”, e 88,46%, os falsos positivos são 11,54%.

A cobertura (recall) da classe ”Iris Versicolor” é 92,00% e 8,00% os falsos negativos.

(102)

112

(103)

Probabilidade condicional

P(B|A) = P(A  B) / P(A) (1) P(A|B) = P(A  B) / P(B) (2)

De (2) podemos ter: P(A  B) = P(A|B) . P(B) (3)

Substituindo (3) em (1) chegamos a regra de Bayes:

P(B|A) = P(A|B) . P(B) / P(A) (regra de Bayes)

Classificadores Bayesianos:

Naive Bayes

(104)

115

Dia Aspecto Temperatura Umidade Vento Decisão

1 Sol Quente Alta Fraco N

2 Sol Quente Alta Forte N

3 Nublado Quente Alta Fraco S

4 Chuva Agradável Alta Fraco S

5 Chuva Fria Normal Fraco S

6 Chuva Fria Normal Forte N

7 Nublado Fria Normal Forte S

8 Sol Agradável Alta Fraco N

9 Sol Fria Normal Fraco S

10 Chuva Agradável Normal Fraco S

11 Sol Agradável Normal Forte S

12 Nublado Agradável Alta Forte S

13 Nublado Quente Normal Fraco S

14 Chuva Agradável Alta Forte N

(105)

Qual será a decisão, se o dia estiver com sol, temperatura fria, umidade

alta e vento forte ?

P(Jogar = S / Aspecto = Sol  Temperatura = Fria  Umidade = Alta  Vento = Forte) = ?

P( Sol/S) * P( Fria/S) * P(Alta/S) * P(Forte/S) * P(S)

_____________________________________________________________

P( Sol) * P( Fria) * P(Alta) * P(Forte)

(2/9 * 3/9 * 3/9 * 3/9 * 9/14) / (5/14 * 4/14 * 7/14 * 6/14) = 0,0053/0,028 = 0,189

(106)

117

P(Jogar = N / Aspecto = Sol  Temperatura = Fria  Umidade = Alta  Vento = Forte) = ?

P( Sol/N) * P( Fria/N) * P(Alta/N) * P(Forte/N)*P(N)

_____________________________________________________________

P( Sol) * P( Fria) * P(Alta) * P(Forte)

(3/5 * 1/5 * 4/5 * 3/5 * 5/14) / (5/14 * 4/14 * 7/14 * 8/14) = 0,0206/0,028 = 0,734

(107)

K- Nearest Neighbor

Exemplo:

A classificação de ? (F(?)), será a classificação de Xi (F(Xi)), onde Xi é a instancia mais próxima de ?.

Se k=1, na figura ? seria classificado como O Se k=7, na figura ? seria classificado como #

Outra alternativa, do algoritmo, é dar peso a contribuição de cada um dos k-vizinhos de acordo com sua distancia.

(108)

119

x = < idade(x), altura(x), peso(x), classe(x)>, onde classe pode ser “sim”, “não”]

Exemplo: joão = (<36, 1.80, 76>, ???) a ser classificado josé = (<30, 1.78, 72>, sim)

maria = (<25, 1.65, 60>, sim) anastácia = (<28, 1.60, 68>, não)

Calculo da distância euclidiana:

d(joão,josé) = [(36-30)2 + (1.80-1.78)2 + (76-72)2]1/2 = (36+0.0004+16)1/2= 7,21 d(joão,maria) = (121+0.0225+256)1/2 = 19,41 d(joão, anastácia) = (64+0.04+64)1/2 = 11,32

K- Nearest Neighbor

2 2 2 2 2 1 1 ) ( ) ... ( ) ( ) , (x y x y x y xp yp d = − + − + + −

(109)

K- Nearest Neighbor

(110)

121

Abordagem Estatística

(111)

Abordagem Estatística

(112)

132

Processo para resolver o exercício 4 (folha 12), avaliando os resultados.

(113)
(114)

134

A acurácia (taxa de acerto) do modelo é de 57,03%.

A precisão (taxa positiva verdadeira) da classe ”Maioria Tardia” é 72,31%, os falsos positivos são 27,69%.

A cobertura (recall) da classe “Maioria Tardia”, é 81,98%

(115)

Tarefa: Associação

Associar os itens de vendas de um supermercado

– Tarefa T: associar os itens que são vendidos em

uma mesma venda;

– Dados de Treinamento E: uma base de dados

com os dados dos itens vendidos na mesma

venda;

– Medida de Desempenho P: frequência que as

associações acontecem;

(116)

141

Visa descobrir associações importantes entre os itens (k-itemsets), tal que, a presença de um item em uma determinada transação irá implicar na presença de outro item na mesma transação.

Cada registro corresponde a uma transação, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item.

Uma regra de associação é uma implicação na forma X  Y, e possui dois parâmetros básicos: um suporte e uma confiança;

(117)

A função do Suporte é determinar a freqüência (contagem ou em porcentagem) que ocorre um itemset entre todas as transações da Base de Dados.

A confiança mede a força da regra e determina a sua validade, isto é, quantifica a frequência do antecedente implicando o consequente.

A confiança e suporte são utilizadas como filtro para gerar menos regras.

(118)

143

Id Leite Café Cerveja Pão Manteiga Arroz Feijão

1 N S N S S N N 2 S N S S S N N 3 N S N S S N N 4 S S N S S N N 5 N N S N N N N 6 N N N N S N N 7 N N N S N N N 8 N N N N N N S 9 N N N N N S S 10 N N N N N S N Leite S = 0.2; Pão S=0.5

Café e Pão S= 0.3 Se (Café) Então (Pão) C = 1.0 (S(Café e Pão)/S(Café) Pão e Manteiga S = 0.4 Se (Pão) Então (Manteiga) C = 0.8

Se (Manteiga) Então (Pão) C = 0.8 Café, Pão e Manteiga S = 0.3 Se (Café e Pão) Então Manteiga C = 1.0

Se (Café) Então (Pão e Manteiga) C =1.0

(119)

Fases do algoritmo apriori:

1. Geração dos conjuntos candidatos, com suporte acima do mínimo estabelecido;

2. Geração da regras de associação dos conjuntos candidatos gerados no passo anterior com confiança superior ao mínimo estabelecido;

(120)

145 TID Items 100 A, C, D 200 B, C, E 300 A, B, C, E 400 B, E Base de dados L1 Itemsets So {A,C} 2 = 0,5 {B,C} 2 = 0.5 {B,E} 3 = 0.75 {C,E} 2 = 0.5 Itemsets So {A} 2 = 0.5 {B} 3 = 0.75 {C} 3 = 0.75 {E} 3 = 0.75 L2 Itemsets So {A,B} 1 {A,C} 2 {A,E} 1 {B,C} 2 {B, E} 3 {C, E} 2 C2 Itemsets So {A,B,C} 1 {A,C,E} 1 {B,C,E} 2 {A,B,E} 1 C3 Itemsets So {B,C,E} 2 = 0.5 L3

Algoritmo Apriori

Suporte mínimo = 0,5 (ou 2)

Itemsets So { Null }

C4

FIM (Fase I) FAZER C3 COMPLETO

Itemsets So {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 C1

(121)

Regras geradas com L2 (para s >= 50% e c >= 60%) Se A Então C ( s = 50%, c = 100%) Se C Então A ( s = 50%, c = 66.7%) Se B Então C ( s = 50%, c = 66.7%) Se C Então B ( s = 50%, c = 66.7%) Se B Então E ( s = 75%, c = 100%) Se E Então B ( s = 75%, c = 100%) Se C Então E ( s = 50%, c = 66.7%) Se E Então C ( s = 50%, c = 66.7%)

Algoritmo Apriori

(122)

147

Regras geradas com L3 (para s >= 50% e c >= 60%) Se B e C Então E ( s = 50%, c = 100%) Se B e E Então C ( s = 50%, c = 66.7%) Se C e E Então B ( s = 50%, c = 100%) Se B Então C e E ( s = 50%, c = 66.7%) Se C Então B e E ( s = 50%, c = 66.7%) Se E Então B e C ( s = 50%, c = 66.7%)

Algoritmo Apriori

(123)

Folha 13 – Exercício 2

1. Leitura dos dados do problema: Import / Data

2. Escolher o componente Read (segundo o formato dos dados), e configurar os parâmetros (para aparecer mais parâmetros clique no ícone )

(124)

149

4. Escolher o algoritmo de mineração: Modeling/Association and

Item Set Mining

5. Escolher o componente FT-Growth e configurar o suporte

(125)

6. Conectar as duas saídas do componente FT-Growth com as saídas do processo.

7. Salvar o arquivo, executar e verificar as saídas.

(126)

151

8. Escolher o componente Create Association Rules e configurar o parâmetro confiança.

(127)

9. Visualizar a saída das regras de associação.

(128)

153

Folha 13 – exercício 3. Processo final.

(129)

Processo final e configuração do componente “Numerical to Binomial”.

(130)

155

Algoritmo Apriori

Referências

Documentos relacionados

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de

O objetivo deste estudo foi avaliar o comporta- mento clínico de lesões de dermatite digital bovina após tratamento cirúrgico, uso local e parenteral de oxitetraci- clina e passagem

Os instrumentos de pesquisa utilizados serão: Ficha de Rastreamento das Participantes do Estudo, International Consultation on Incontinence Questionnaire – Short Form

Como não se conhece parâmetros hematológicos do pacu-manteiga Mylossoma duriventre Cuvier, 1817, a proposta do presente estudo foi descrever tais parâmetros em espécimes

No caso de uma apresentação de Artigo em formato Áudio, o arquivo deverá ser enviado em CD por correio postal para:.. Comitê Editorial INFEIES - RM

Essa publicação (Figura 6) destaca a “grande ameaça” que está por trás do pânico moral: a destruição da família nuclear (pai, mãe e filhos).Em seguida o pastor

(2011) em estudo que avaliou a qualidade da dieta em indivíduos exposto e não exposto a um programa de reeducação alimentar mostrou que pessoas com

Possui graduação em Medicina pela Faculdade de Medicina de Jundiaí (1989), Residência Médica em Medicina Geral e Comunitária pela Faculdade de Medicina de Jundiaí (1991) e em