Análise de Dados - parte I

(1)

Análise de Dados - parte I

Erica Castilho Rodrigues

(2)

Análise de Dados

(3)

Etapas da Análise de Dados I Defina a questão:

I uma questão científica ou do mercado que você gostaria de responder com os dados.

I Defina o conjunto de dados ideal:

I dados que você coletaria se não tivesse restrições de tempo e dinheiro.

I Determine os dados que você pode acessar:

I na maioria dos casos esse não será o conjunto de dados ideal.

I Colete os dados:

(4)

Etapas da Análise de Dados I Limpe a base dados:

I elimine inconsistências para realizar suas análises.

I Faça uma análise exploratória dos dados:

I é muito importante entender melhor os dados antes de começar qualquer análise mais sofisticada.

I Faça análises estatísticas para responder as questões definidas anteriormente.

(5)

Etapas da Análise de Dados I Interprete os resultados obtidos:

I ser capaz de explicar para um leigo o que os resultados obtidos significam.

I Identifique falha nos resultados obtidos:

I explique ao cliente os potencias pontos fracos do modelo, I ele pode então tomar decisões com base em suas análises.

I Sintetize e descreva os resultados das suas análises:

I não inclua todos os passos que você executou;

I descreva como usar os dados para responder a pergunta.

I Crie um código reproduzível:

I podendo assim dividir suas análises com outras pessoas.

(6)

I O desafio da análise de dados...

“Pergunte a você mesmo, se alguma vez na sua vida você resolveu um problema que valesse a pena, no qual você sabia toda a informação disponível previamente? Onde você não tinha um volume enorme de informação a ser filtrada, ou não tinha informação suficiente e precisou de ir atrás de mais informação?”

(7)

-I Isso é quase sempre verdade na análise de dados. I Você pode ter muita informação:

I muita variáveis;

I medidas de maneiras distintas; I medidas em inúmeros indivíduos;

I Pode não ter informação suficiente:

I não tem as variáveis certas medidas de maneira correta.

I Objetivo:

I filtrar toda informação que é útil para responder sua questão inicial.

(8)

Defina a questão

I É crucial termos uma pergunta em mente. I Seja ela para fins científicos ou não.

I A aplicação de técnicas estatísticas na base de dados sem um objetivo em mente é totalmente inútil.

I Muitas vezes o próprio pesquisador não consegue definir bem qual a sua pergunta.

I Esse ponto deve ser bem discutido antes de qualquer coisa.

(9)

Exemplo

I Começe com uma questão bem genérica.

I Podemos detectar automaticamente e-mails que são SPAM ou não (HAM)?

I Torne a questão mais concreta.

I Podemo usar características quantitivas dos e-mails para classificá-los em SPAM/HAM?

I Essa questão pode ser respondida de várias maneiras distintas.

I Existem vários tipos de dados que podem ser coletados. I Pode coletar dados como:

I qual IP de quem está enviando o e-mail para você? I qual horário o e-mail chegou?

(10)

Exemplo(continuação)

I Vamos definir qual o conjunto de dados ideal. I Isso vai depender do seu objetivo.

I Análise descritiva - precisará de toda população de indivíduos.

I Análise Exploratória:

I pode coletar uma amostra ou toda a população; I muitas variáveis deverão ser medidas;

I assim pode explorar as relações entre elas.

I Análise inferencial:

I precisará da população correta;

(11)

Exemplo(continuação) I Análise preditiva:

I precisará de um conjunto de treinamento e um de teste da mesma população.

I Análise para inferir causalidade:

I precisará de dados de um estudo aleatorizado; I deve-se fazer uma intervenção e analisar seu efeito.

(12)

Exemplo(continuação) I Voltando ao exemplo...

I O conjunto de dados ideal poderia ser todos os dados de e-mails que o Gmail coletou nos últimos 10 anos.

(13)

Determine os dados que pode de fato acessar

I Alguns dados podem ser encontrados de graça na Web. I Você pode precisar pagar pelos dados.

I Se os dados não existem, pode ter que coletar. I Essa última forma pode ser muito cara.

I Mas se sua questão é muito específica,

(14)

I Vamos voltar ao exemplo dos e-mails...

I Felizmente os dados coletados pelo Gmail estã muito bem guardados.

(15)

I Precisamos de uma outra maneira para coletar os dados. I Existem bases de dados disponíveis na internet.

I UCI - Machine Learning Repositary. I Existe uma base de e-mails:

I 4600 mensagens;

(16)

Obtendo os dados...

I Obtemos os dados crus, seja coletando ou não. I Sempre informe a fonte dos dados.

I Se acessar na internet:

I salve a URL e o hora/dia que a base foi acessada, I se a base é atualizada não terá problemas.

I Os dados dos e-mails estão disponível em um pacote do R kernlab.

(17)

Limpando a base de dados...

I Dados crus precisam ser pré-processados. I Se já foi processado, precisa saber como. I Precisa de saber qual tipo de dado está lidando:

I censo, amostra aleatória, amostra por conveniência, etc.

I Todo tipo de processamento feito nos dados deve ser registrado.

I Determinar se os dados são suficientes para responder sua pergunta.

I Não tente responder a pergunta assim mesmo! I Precisa responder a pergunta correta.

(18)

Análise Exploratória dos Dados I Obter resumos dos dados.

I Verificar se existem valores faltantes. I Construir gráficos exploratórios.

(19)

Exemplo:

I Vamos voltar ao exemplo dos e-mails.

I Objetivo: verificar se o e-mail é SPAM ou não.

I Um conjunto de dados para fazer essa classificação pode ser encontrado no pacote “kernlab”.

I Os comandos a seguir instalam e carregam o pacote:

install.packages("kernlab") require(kernlab)

I Carregando os dados

(20)

Exemplo: (continuação)

I Vejamos a dimensão da base de dados

> dim(spam)

[1] 4601 58

I O que isso significa?

I 4601 elementos na amostra e 58 variáveis.

I Vamos separar o conjunto de dados em duas partes:

I treinamento: usado para ajustar o classificador - o método aprende a classificar;

I teste: usado para verificar se o método acerta na classificação.

I Vamos selecionar aleatoriamente na base um conjunto de elementos para treinamento.

(21)

I Fixamos a semente aleatória, para sempre selecionar o mesmo conjunto de elementos:

set.seed(3435)

I Criamos um vetor de indicadoras para o conjunto de treinamento

trainInd[i] = (

1 i-ésimo e-mail faz parte do treinamento 0 caso contrário.

I Cada elemento fará parte do treinamento como probabilidade 0,5.

(22)

I Como gerar esses indicaores?

I Geramos um vetor de tamanho 4601 de Bernoulli(0,5).

trainInd=rbinom(n=4601,size=1,p=0.5) > head(trainInd)

[1] 0 0 1 0 1 0

I Vejamos quantos zeros e quantos uns foram gerados. I Qual valor esperados de uns? 4601/2 = 2300

> table(trainInd) trainInd

0 1

2312 2289

I O conjunto treinamento tem 2289 elementos. I O conjunto de teste tem 2312 elementos.

(23)

I Vamos agora criar dois novos vetores:

I um com o conjunto de teste e outro com o treinamento.

trainSpam=spam[trainInd==1,] testSpam=spam[trainInd==0,]

I Selecionamos as linhas tais que Indicador é um ou zero. I Vejamos se as dimensões estão corretas

> dim(trainSpam)

[1] 2289 58

> dim(testSpam)

[1] 2312 58

I Vamos trabalhar apenas com o conjunto de treinamento. I O conjunto de teste será usado depois para avaliar o

(24)

I Vamos ver primeiro quais variáveis presentes no banco de dados.

> names(trainSpam)

[1] "make" "address" "all"

[4] "num3d" "our" "over"

[7] "remove" "internet" "order"

[10] "mail" "receive" "will"

[13] "people" "report" "addresses"

[16] "free" "business" "email"

[19] "you" "credit" "your"

[22] "font" "num000" "money"

[25] "hp" "hpl" "george"

[28] "num650" "lab" "labs"

[31] "telnet" "num857" "data"

[34] "num415" "num85" "technology"

[37] "num1999" "parts" "pm"

[40] "direct" "cs" "meeting"

[43] "original" "project" "re"

[46] "edu" "table" "conference"

(25)

Exemplo: (continuação) I Os nomes são palavras.

I As variáveis são a porcentagem de vezes que essas palavras aparecem.

I O tipo de palavra que aparece no e-mail vai nos dizer se é SPAM ou não.

I Qual tipo de palavras devem aparecer em um SPAM? “bussiness”, “free”, etc.

I “num00” significa os dígitos 00. I “charDollar” significa o caracter $. I A última variável é “type”:

I identifica se o e-mail é SPAM ou não.

I Precisamos saber quem são SPAM para o método aprender a classificar.

(26)

I Podemos ver os tipos de valores que aparecem em cada variável

> head(trainSpam)

make address all num3d our over remove internet

3 0.06 0.00 0.71 0 1.23 0.19 0.19 0.12 5 0.00 0.00 0.00 0 0.63 0.00 0.31 0.63 8 0.00 0.00 0.00 0 1.88 0.00 0.00 1.88 10 0.06 0.12 0.77 0 0.19 0.32 0.38 0.00 12 0.00 0.00 0.25 0 0.38 0.25 0.25 0.00 14 0.00 0.00 0.00 0 0.90 0.00 0.90 0.00

people report addresses free business email you

3 0.12 0 1.75 0.06 0.06 1.03 1.36

5 0.31 0 0.00 0.31 0.00 0.00 3.18

8 0.00 0 0.00 0.00 0.00 0.00 0.00

(27)

I Vamos começar a olhar para alguns resumos das variáveis.

I Iremos verificar quantos e-mails SPAM temos na base de treinamento

> table(trainSpam$type)

nonspam spam

1382 907

I Podemos fazer gráficos para entender melhor os dados. I Vamos considerar a palavra “bussiness”.

I Queremos verificar qual a propoção de vezes a palavra aparece em e-mails SPAM ou não.

(28)

I O comando a seguir faz o BoxPlot

plot(trainSpam$business~trainSpam$type) nonspam spam 0 1 2 3 4 5 6 7 trainSpam$type tr ainSpam$b usiness

(29)

I Um problema: existem valores maiores que um. I Precisamos verificar.

I Provavelmente erro de digitação.

I Vamos pegar o logaritmo das porporções para visualizar melhor.

I Para evitar termos logaritmo de zero, somamos um em cada variável.

(30)

Exemplo: (continuação) plot(log(trainSpam$business+1)~trainSpam$type) nonspam spam 0.0 0.5 1.0 1.5 2.0 trainSpam$type log(tr ainSpam$b usiness + 1)

(31)

I Podemos fazer gráficos de dispersão entre as variáveis. I Vamos pegar apenas as 4 primeiras para ilustrar. I Muitos valores são próximos de zero.

(32)

Exemplo: (continuação) make 0.0 1.0 2.0 0 1 2 3 0.0 0.5 1.0 1.5 0.0 1.0 2.0 address all 0.0 0.5 1.0 1.5 0 1 2 3 num3d

(33)

I Podemos tentar agrupar as variáveis.

I Talvez determinadas palavras tenham uma tendência maior a aparecerem juntas.

I Isso é feito através de uma análise de cluster. I A função em R para fazer isso é “hclust”. I Pegamos somente as primeiras 57 colunas. I A variável resposta não entra.

Cluster_palavras=hclust(dist(t(trainSpam[,1:57]) plot(Cluster_palavras)

(34)

A n á lis e d e D a d o s E la b o ra ç ã o d e Q u e s tio n á ri o s p lo : (c o n tin u a ç ã o ) capitalTotal capitalLong capitalAve_george you_hp num3d_your address_will hpl_re charExclamation_free mail_our meeting_all email credit internet business_money remove charHash_cs num000_report make people_over charDollar_order addresses charRoundbracket_parts charSemicolon_receive conference_original table charSquarebracket_project lab num650_num85 labs telnet technology_direct num857 num415_data num1999_pm font edu 0 10000 20000 30000 Cluster Dendr ogram dist(t(tr ainSpam[, 1:57])) Height

(35)

I Esse gráfico é chamado Dendograma.

I Mostra quais obtjetos devem ser agrupados juntos. I Variáveis próximas tendem a aparecer juntas nos emails

analisados:

I “internet”, “business” e “money”.

I Difícil de ver os grupos.

I Podemos pegar o log para ficar mais fácil de visualizar.

Cluster_palavras_log=hclust(dist(t(log(trainSpam[,1:5 plot(Cluster_palavras_log)

(36)

A n á lis e d e D a d o s E la b o ra ç ã o d e Q u e s tio n á ri o s p lo : (c o n tin u a ç ã o ) capitalAve george_hp hpl_our mail address_email business_internet credit remove num000_over receive charDollar_order addresses_make people money_free all charExclamation_re edu labs num650_num85 charRoundbracket_lab technology_telnet direct num857 num415_num1999 pm data project num3d_report cs charHash_original charSemicolon_conference parts table charSquarebracket_font meetingyou_will your capitalLong capitalTotal 0 50 100 150 200 Cluster Dendr ogram dist(t(log(tr ainSpam[, 1:57] + 1))) Height

(37)

I Nesse gráfico é mais fácil identificar os clusters.

I As palavras “email” e “adress” tendem a aparecer juntas. I O mesmo ocorre com as palavras:

(38)

I Vimos como uma análise exploratória funciona. I Verificamos quais variáveis presentes no banco. I Analisamos quais os tipos de variáveis.

I Fazemos gráficos.

I Fazemos transformações nas variáveis.

I Identificamos problemas em potencial na análise de dados.

I Finalizada a análise exploratória, passamos para a próxima etapa:

(39)

Modelos Estatísticos e Previsões

I O tipo de modelo usado deve ser escolhido a partir da análise exploratória.

I Deveria pensar anteriormente os tipos de métodos poderiam ser usados no caso ideal.

I O método exato depende da pergunta inicial.

I Transfomações nos dados devem ser analisadas com cuidado.

I Se pega o logaritmo, por exemplo.

I Deve ficar atento em como isso muda as interpretações e suposições do modelo.

I Medidas de incerteza e variabilidade devem ser apresentadas para todas estimativas.

(40)

Exemplo

I Considere novamente o exemplo dos emails.

I Vamos verificar que tipo de modelagem devemos usar nesse caso.

I Qual tipo de modelo parece adequado aqui? I Uma regressão logística.

(41)

Exemplo(continuação)

I A variável “type” é categórica

> head(trainSpam$type)

[1] spam spam spam spam spam spam Levels: nonspam spam

I Precisamos tranformar em um vetor de zeros e uns

trainSpam$typenum=as.numeric(trainSpam$type)-1 > head(trainSpam$typenum)

(42)

I Vamos agora ajustar o modelo logístico

modelo=glm(as.numeric(trainSpam$type)-1~.,data=t

I Variáveis significativas no modelo

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.567e+00 2.017e-01 _{-7.771 7.78e-15 ***}

make -1.012e+00 3.568e-01 _{-2.837 0.004559 **}

our 5.692e-01 1.408e-01 _{4.043 5.27e-05 ***}

remove 2.474e+00 5.105e-01 _{4.846 1.26e-06 ***}

order 1.402e+00 5.453e-01 _{2.570 0.010160 *}

will -2.650e-01 1.176e-01 _{-2.252 0.024304 *}

free 6.939e-01 1.797e-01 _{3.861 0.000113 ***}

business 2.082e+00 4.934e-01 _{4.219 2.45e-05 ***}

you 1.471e-01 5.041e-02 _{2.918 0.003527 **}

credit 3.391e+00 1.550e+00 _{2.187 0.028739 *}

your 2.640e-01 7.781e-02 _{3.393 0.000691 ***}

num000 2.894e+00 7.412e-01 _{3.904 9.46e-05 ***}

hp -2.494e+00 4.862e-01 _{-5.130 2.90e-07 ***}

george -5.849e+00 1.996e+00 _{-2.930 0.003390 **}

num415 -2.565e+01 6.815e+00 _{-3.764 0.000167 ***}

(43)

I Vamos verificar agora o quanto o modelo acerta nas classificações.

I Para isso vamos usar o conjunto de dados de teste. I Primeiro encontramos a probabilidade de sucesso predita

pelo modelo

predictionTest=predict(modelo,testSpam)

I Precisamos fixar um ponto de corte para dizer que o email é SPAM.

I Vamos fixar em 0,5

predictedSpam=NULL

predictedSpam=ifelse(predictionTest>0.5,"spam" ,"nonspam")

(44)

I Iremos agora verificar se as predições coincidem com o valor real

> table(predictedSpam,testSpam$type) predictedSpam nonspam spam

nonspam 1350 151

spam 56 755

I Taxa de acerto

755

151+755 =0.8333

de todos os emails que são Spam o método acerta 83,33%.

(45)

Interpretação dos Resultados

I Devemos usar a linguagem apropriada.

I Análise descritiva: usar palavras como descrevem, mostram, etc.

I Inferência: usar palavras como inferimos, correlacionado com, associado com.

I Análise casual: “leva a”, “causa”.

I Se a análise é puramente exploratória ou inferencial;

I não pode usar palavras que remetam a causalidade.

I Deve explicar os resultados de maneira que leigos possam entender.

I Interpretar coeficientes e parâmetros do modelo para facilitar o entendimento de pessoas sem conhecimento técnico.

(46)

Exemplo:

I Considere novamente o exemplo dos emails. I Vamos descrever e interpretar os resultados.

I A presença de determinadas palavras ou expressões pode ser usada para predizer se um e-mail é Spam ou não. I Proporção de vezes que a palavra “bussiness” aparece no

texto é significativa para explicar a probabilidade de um e-mail ser Spam.

I Para cada aumento em um ponto percentual na proporção de vezes que tal palavra aparece no e-mail, a chance dele ser um Spam aumenta 802%.

(47)

Questionamento do resultados

I Você deve questionar todas etapas da análise. I A questão inicial é a questão correta?

I Ela poderia ser mais específica? I Poderia ser mais genérica?

I Os dados usados foram adequados? I A amostra coletada é adequada? I Foi amostrada da população correta?

(48)

Questionamento do resultados

I As transformações feitas nos dados foram adequadas? I Selecionamos a variáveis explicativas adequadas? I Está tirando conclusões do seu modelo que não são

válidas?

I Outras variáveis deveriam ser incluídas no modelo? I Quais análises alternativas poderiam ser realizadas? I Será, então, capaz de deixar claro quais os pontos fracos

(49)

Resumir e escrever os resultados I Comece descrevendo a pergunta.

I Não comece descrevendo os modelos nem os dados que utilizou.

I Explique como irá responder a pergunta apresentada. I Deve contar uma história sobre as análises realizadas. I Não inclua todos os passos executados.

I Não precisa descrever as análises na ordem em que foram feitas.

(50)

Resumir e escrever os resultados

I Inclua figuras nítidas e que contenham apenas informação essencial.

I Se os dados estão em duas dimensões a figura não precisa ser 3d.

I TODAS figuras devem ter legendas e devem ser analisadas no texto.

I Não inclua figuras que não são mencionadas no texto. I As legendas devem ser capazes de descrever a figura sem

(51)

Exemplo:

I Iniciando com a questão:

I Podemos usar características quantitativas dos e-mails para predizer se são Spam ou não?

I Descreva a abordagem utilizada:

I Os dados foram coletados do conjunto de exemplos do R. I Parte deles foram usados para treinamento e o restante

para teste.

I Exploramos as relações entre as variáveis.

I Escolhemos o modelo logístico para treinar os dados. I Aplicando o modelo à base de teste,

(52)

Exemplo:

I Interprete os resultados:

I Termos que referem a dinheiro parecem caracterizar bem um e-mail como Spam ou não.

I Desafie os resultados:

I Uma taxa de acerto de 83,33% é alta o suficiente? I Poderíamos acrescentar mais variáveis?

I Qual outro método poderíamos usar? I Um modelo CART talvez?

(53)

I Vimos até agora como executar a análise de dados. I Veremos agora como organizar os resultados obtidos. I Deve organizar e separar bem os arquivos.

(54)

Arquivos Essenciais I Dados:

I dados brutos; I dados processados.

I Figuras:

I figuras exploratórias, usadas durante o trabalho; I figuras finais, com legendas e eixos adequados.

I Código R:

I scritps inciais, usados durante o processo de análise; I scripts finais, reproduzir todos passos executdos, deve

(55)

Arquivos Essenciais I Texto

I “Readme” - arquivos explicando o que cada script faz e onde os dados foram coletados.

(56)

Texto do Documento

I Deve apresentar os resultados obtidos.

I Não precisa conter todas análises executadas. I Pode ser estruturado da seguinte maneira:

I introdução (motivaçao);

I métodos (técnicas estatísticas utilizadas); I resultados (inclusive medidas de incerteza);

I conclusão (incluindo potenciais problemas e trabalhos futuros).

(57)

(58)

Questionário

Conjunto de questões direcionadas a uma pessoa específica.

Alguns pontos importantes... I O que deve ser perguntado?

I Como cada questão deve ser elaborada? I Como cada questão deve ser escrita?

(59)

I Um questionário pode ser composto por:

I questões abertas e fechadas.

I Questões abertas são mais difíceis de serem analisadas. I Os resultados do questionário devem poder ser

analisados.

I Deve incentivar o interesse do respondente.

I Questões importantes devem ser levantadas ao longo da entrevista.

I As questões iniciais devem ser simples.

(60)

I Questões pessoais podem ser incluídas:

I nome, salário, telefone, etc.

I Questões abertas devem ser mantidas no final do questionário.

I Devem ser usadas o mínimo possível. I Um teste piloto deve ser realizado para:

(61)

Pesquisa de Opinião ou Survey

I É uma das formas mais comuns de coleta de dados. I Coleta-se uma amostra da população de interesse. I Aplica-se questionários a essa população.

(62)

Questões Fechadas

I Contém um conjunto definido de opções.

I Exemplo: Você é a favor ou contra a legalização da maconha?

a) A favor.

b) Contra.

c) Não respondeu.

Questões Abertas

I O entrevistador não fornece nenhuma opção de resposta. I Questões são a abertas a qualquer tipo de respotas. I Exemplo: Qual sua opinião sobre a legalização da

(63)

Quais questões devem fazer parte do questionário I Elas devem se basear na pergunta central que se deseja

responder.

I Deve levar em conta as hipóteses e objetivos da pesquisa.

Quem deve ser entrevistado?

I O respondente deve estar ciente sobre o assunto.

I Deve ser capaz de fornecer informações relevantes para a pesquisa.

(64)

Teste Piloto

I Serve de guia para estudos maiores.

I Consiste em uma coleta inicial e pequena dos dados. I Permite identificar problemas no questionário.

I Uma vez que o questionário é corrigido pode ser aplicado para a amostra maior.

(65)

Resumindo...

I O que deve ser perguntado?

I Questões que condizam com o objetivo da pesquisa.

I Como cada questão deve ser elaborada?

I Deve ser simples, clara e fácil de responder.

I Qual deve ser a sequência das questões?

I Questões simples para gerar interesse no início. I Questões importantes no meio do questionário. I Questões abertas (se houver) ao final.

I Como podemos melhorar um questinário?

I Fazendo um teste piloto.

I Identificando problemas com as questões. I Corrigindo esses pontos fracos.

(66)

Exemplo:

I Uma empresa está interessada em analisar a satisfação dos seus clientes.

I Ela irá coletar uma amostra e aplicar questionários a esses clientes.

I Elabore um questionário que deverá ser aplicado aos clientes da empresa.