• Nenhum resultado encontrado

Análise de Dados - parte I

N/A
N/A
Protected

Academic year: 2021

Share "Análise de Dados - parte I"

Copied!
66
0
0

Texto

(1)

Análise de Dados - parte I

Erica Castilho Rodrigues

(2)

Análise de Dados

(3)

Etapas da Análise de Dados I Defina a questão:

I uma questão científica ou do mercado que você gostaria de responder com os dados.

I Defina o conjunto de dados ideal:

I dados que você coletaria se não tivesse restrições de tempo e dinheiro.

I Determine os dados que você pode acessar:

I na maioria dos casos esse não será o conjunto de dados ideal.

I Colete os dados:

(4)

Etapas da Análise de Dados I Limpe a base dados:

I elimine inconsistências para realizar suas análises.

I Faça uma análise exploratória dos dados:

I é muito importante entender melhor os dados antes de começar qualquer análise mais sofisticada.

I Faça análises estatísticas para responder as questões definidas anteriormente.

(5)

Etapas da Análise de Dados I Interprete os resultados obtidos:

I ser capaz de explicar para um leigo o que os resultados obtidos significam.

I Identifique falha nos resultados obtidos:

I explique ao cliente os potencias pontos fracos do modelo, I ele pode então tomar decisões com base em suas análises.

I Sintetize e descreva os resultados das suas análises:

I não inclua todos os passos que você executou;

I descreva como usar os dados para responder a pergunta.

I Crie um código reproduzível:

I podendo assim dividir suas análises com outras pessoas.

(6)

I O desafio da análise de dados...

“Pergunte a você mesmo, se alguma vez na sua vida você resolveu um problema que valesse a pena, no qual você sabia toda a informação disponível previamente? Onde você não tinha um volume enorme de informação a ser filtrada, ou não tinha informação suficiente e precisou de ir atrás de mais informação?”

(7)

-I Isso é quase sempre verdade na análise de dados. I Você pode ter muita informação:

I muita variáveis;

I medidas de maneiras distintas; I medidas em inúmeros indivíduos;

I Pode não ter informação suficiente:

I não tem as variáveis certas medidas de maneira correta.

I Objetivo:

I filtrar toda informação que é útil para responder sua questão inicial.

(8)

Defina a questão

I É crucial termos uma pergunta em mente. I Seja ela para fins científicos ou não.

I A aplicação de técnicas estatísticas na base de dados sem um objetivo em mente é totalmente inútil.

I Muitas vezes o próprio pesquisador não consegue definir bem qual a sua pergunta.

I Esse ponto deve ser bem discutido antes de qualquer coisa.

(9)

Exemplo

I Começe com uma questão bem genérica.

I Podemos detectar automaticamente e-mails que são SPAM ou não (HAM)?

I Torne a questão mais concreta.

I Podemo usar características quantitivas dos e-mails para classificá-los em SPAM/HAM?

I Essa questão pode ser respondida de várias maneiras distintas.

I Existem vários tipos de dados que podem ser coletados. I Pode coletar dados como:

I qual IP de quem está enviando o e-mail para você? I qual horário o e-mail chegou?

(10)

Exemplo(continuação)

I Vamos definir qual o conjunto de dados ideal. I Isso vai depender do seu objetivo.

I Análise descritiva - precisará de toda população de indivíduos.

I Análise Exploratória:

I pode coletar uma amostra ou toda a população; I muitas variáveis deverão ser medidas;

I assim pode explorar as relações entre elas.

I Análise inferencial:

I precisará da população correta;

(11)

Exemplo(continuação) I Análise preditiva:

I precisará de um conjunto de treinamento e um de teste da mesma população.

I Análise para inferir causalidade:

I precisará de dados de um estudo aleatorizado; I deve-se fazer uma intervenção e analisar seu efeito.

(12)

Exemplo(continuação) I Voltando ao exemplo...

I O conjunto de dados ideal poderia ser todos os dados de e-mails que o Gmail coletou nos últimos 10 anos.

(13)

Determine os dados que pode de fato acessar

I Alguns dados podem ser encontrados de graça na Web. I Você pode precisar pagar pelos dados.

I Se os dados não existem, pode ter que coletar. I Essa última forma pode ser muito cara.

I Mas se sua questão é muito específica,

(14)

Exemplo(continuação)

I Vamos voltar ao exemplo dos e-mails...

I Felizmente os dados coletados pelo Gmail estã muito bem guardados.

(15)

Exemplo(continuação)

I Precisamos de uma outra maneira para coletar os dados. I Existem bases de dados disponíveis na internet.

I UCI - Machine Learning Repositary. I Existe uma base de e-mails:

I 4600 mensagens;

(16)

Obtendo os dados...

I Obtemos os dados crus, seja coletando ou não. I Sempre informe a fonte dos dados.

I Se acessar na internet:

I salve a URL e o hora/dia que a base foi acessada, I se a base é atualizada não terá problemas.

I Os dados dos e-mails estão disponível em um pacote do R kernlab.

(17)

Limpando a base de dados...

I Dados crus precisam ser pré-processados. I Se já foi processado, precisa saber como. I Precisa de saber qual tipo de dado está lidando:

I censo, amostra aleatória, amostra por conveniência, etc.

I Todo tipo de processamento feito nos dados deve ser registrado.

I Determinar se os dados são suficientes para responder sua pergunta.

I Não tente responder a pergunta assim mesmo! I Precisa responder a pergunta correta.

(18)

Análise Exploratória dos Dados I Obter resumos dos dados.

I Verificar se existem valores faltantes. I Construir gráficos exploratórios.

(19)

Exemplo:

I Vamos voltar ao exemplo dos e-mails.

I Objetivo: verificar se o e-mail é SPAM ou não.

I Um conjunto de dados para fazer essa classificação pode ser encontrado no pacote “kernlab”.

I Os comandos a seguir instalam e carregam o pacote:

install.packages("kernlab") require(kernlab)

I Carregando os dados

(20)

Exemplo: (continuação)

I Vejamos a dimensão da base de dados

> dim(spam)

[1] 4601 58

I O que isso significa?

I 4601 elementos na amostra e 58 variáveis.

I Vamos separar o conjunto de dados em duas partes:

I treinamento: usado para ajustar o classificador - o método aprende a classificar;

I teste: usado para verificar se o método acerta na classificação.

I Vamos selecionar aleatoriamente na base um conjunto de elementos para treinamento.

(21)

Exemplo: (continuação)

I Fixamos a semente aleatória, para sempre selecionar o mesmo conjunto de elementos:

set.seed(3435)

I Criamos um vetor de indicadoras para o conjunto de treinamento

trainInd[i] = (

1 i-ésimo e-mail faz parte do treinamento 0 caso contrário.

I Cada elemento fará parte do treinamento como probabilidade 0,5.

(22)

Exemplo: (continuação)

I Como gerar esses indicaores?

I Geramos um vetor de tamanho 4601 de Bernoulli(0,5).

trainInd=rbinom(n=4601,size=1,p=0.5) > head(trainInd)

[1] 0 0 1 0 1 0

I Vejamos quantos zeros e quantos uns foram gerados. I Qual valor esperados de uns? 4601/2 = 2300

> table(trainInd) trainInd

0 1

2312 2289

I O conjunto treinamento tem 2289 elementos. I O conjunto de teste tem 2312 elementos.

(23)

Exemplo: (continuação)

I Vamos agora criar dois novos vetores:

I um com o conjunto de teste e outro com o treinamento.

trainSpam=spam[trainInd==1,] testSpam=spam[trainInd==0,]

I Selecionamos as linhas tais que Indicador é um ou zero. I Vejamos se as dimensões estão corretas

> dim(trainSpam)

[1] 2289 58

> dim(testSpam)

[1] 2312 58

I Vamos trabalhar apenas com o conjunto de treinamento. I O conjunto de teste será usado depois para avaliar o

(24)

Exemplo: (continuação)

I Vamos ver primeiro quais variáveis presentes no banco de dados.

> names(trainSpam)

[1] "make" "address" "all"

[4] "num3d" "our" "over"

[7] "remove" "internet" "order"

[10] "mail" "receive" "will"

[13] "people" "report" "addresses"

[16] "free" "business" "email"

[19] "you" "credit" "your"

[22] "font" "num000" "money"

[25] "hp" "hpl" "george"

[28] "num650" "lab" "labs"

[31] "telnet" "num857" "data"

[34] "num415" "num85" "technology"

[37] "num1999" "parts" "pm"

[40] "direct" "cs" "meeting"

[43] "original" "project" "re"

[46] "edu" "table" "conference"

(25)

Exemplo: (continuação) I Os nomes são palavras.

I As variáveis são a porcentagem de vezes que essas palavras aparecem.

I O tipo de palavra que aparece no e-mail vai nos dizer se é SPAM ou não.

I Qual tipo de palavras devem aparecer em um SPAM? “bussiness”, “free”, etc.

I “num00” significa os dígitos 00. I “charDollar” significa o caracter $. I A última variável é “type”:

I identifica se o e-mail é SPAM ou não.

I Precisamos saber quem são SPAM para o método aprender a classificar.

(26)

Exemplo: (continuação)

I Podemos ver os tipos de valores que aparecem em cada variável

> head(trainSpam)

make address all num3d our over remove internet

3 0.06 0.00 0.71 0 1.23 0.19 0.19 0.12 5 0.00 0.00 0.00 0 0.63 0.00 0.31 0.63 8 0.00 0.00 0.00 0 1.88 0.00 0.00 1.88 10 0.06 0.12 0.77 0 0.19 0.32 0.38 0.00 12 0.00 0.00 0.25 0 0.38 0.25 0.25 0.00 14 0.00 0.00 0.00 0 0.90 0.00 0.90 0.00

people report addresses free business email you

3 0.12 0 1.75 0.06 0.06 1.03 1.36

5 0.31 0 0.00 0.31 0.00 0.00 3.18

8 0.00 0 0.00 0.00 0.00 0.00 0.00

(27)

Exemplo: (continuação)

I Vamos começar a olhar para alguns resumos das variáveis.

I Iremos verificar quantos e-mails SPAM temos na base de treinamento

> table(trainSpam$type)

nonspam spam

1382 907

I Podemos fazer gráficos para entender melhor os dados. I Vamos considerar a palavra “bussiness”.

I Queremos verificar qual a propoção de vezes a palavra aparece em e-mails SPAM ou não.

(28)

Exemplo: (continuação)

I O comando a seguir faz o BoxPlot

plot(trainSpam$business~trainSpam$type) nonspam spam 0 1 2 3 4 5 6 7 trainSpam$type tr ainSpam$b usiness

(29)

Exemplo: (continuação)

I Um problema: existem valores maiores que um. I Precisamos verificar.

I Provavelmente erro de digitação.

I Vamos pegar o logaritmo das porporções para visualizar melhor.

I Para evitar termos logaritmo de zero, somamos um em cada variável.

(30)

Exemplo: (continuação) plot(log(trainSpam$business+1)~trainSpam$type) nonspam spam 0.0 0.5 1.0 1.5 2.0 trainSpam$type log(tr ainSpam$b usiness + 1)

(31)

Exemplo: (continuação)

I Podemos fazer gráficos de dispersão entre as variáveis. I Vamos pegar apenas as 4 primeiras para ilustrar. I Muitos valores são próximos de zero.

(32)

Exemplo: (continuação) make 0.0 1.0 2.0 0 1 2 3 0.0 0.5 1.0 1.5 0.0 1.0 2.0 address all 0.0 0.5 1.0 1.5 0 1 2 3 num3d

(33)

Exemplo: (continuação)

I Podemos tentar agrupar as variáveis.

I Talvez determinadas palavras tenham uma tendência maior a aparecerem juntas.

I Isso é feito através de uma análise de cluster. I A função em R para fazer isso é “hclust”. I Pegamos somente as primeiras 57 colunas. I A variável resposta não entra.

Cluster_palavras=hclust(dist(t(trainSpam[,1:57]) plot(Cluster_palavras)

(34)

A n á lis e d e D a d o s E la b o ra ç ã o d e Q u e s tio n á ri o s p lo : (c o n tin u a ç ã o ) capitalTotal capitalLong capitalAvegeorge youhp num3dyour addresswill hplre charExclamationfree mailour meetingall email credit internet businessmoney remove charHashcs num000report make peopleover charDollarorder addresses charRoundbracketparts charSemicolonreceive conferenceoriginal table charSquarebracketproject lab num650num85 labs telnet technologydirect num857 num415data num1999pm font edu 0 10000 20000 30000 Cluster Dendr ogram dist(t(tr ainSpam[, 1:57])) Height

(35)

Exemplo: (continuação)

I Esse gráfico é chamado Dendograma.

I Mostra quais obtjetos devem ser agrupados juntos. I Variáveis próximas tendem a aparecer juntas nos emails

analisados:

I “internet”, “business” e “money”.

I Difícil de ver os grupos.

I Podemos pegar o log para ficar mais fácil de visualizar.

Cluster_palavras_log=hclust(dist(t(log(trainSpam[,1:5 plot(Cluster_palavras_log)

(36)

A n á lis e d e D a d o s E la b o ra ç ã o d e Q u e s tio n á ri o s p lo : (c o n tin u a ç ã o ) capitalAve georgehp hplour mail addressemail businessinternet credit remove num000over receive charDollarorder addressesmake people moneyfree all charExclamationre edu labs num650num85 charRoundbracketlab technologytelnet direct num857 num415num1999 pm data project num3dreport cs charHashoriginal charSemicolonconference parts table charSquarebracketfont meetingyouwill your capitalLong capitalTotal 0 50 100 150 200 Cluster Dendr ogram dist(t(log(tr ainSpam[, 1:57] + 1))) Height

(37)

Exemplo: (continuação)

I Nesse gráfico é mais fácil identificar os clusters.

I As palavras “email” e “adress” tendem a aparecer juntas. I O mesmo ocorre com as palavras:

(38)

I Vimos como uma análise exploratória funciona. I Verificamos quais variáveis presentes no banco. I Analisamos quais os tipos de variáveis.

I Fazemos gráficos.

I Fazemos transformações nas variáveis.

I Identificamos problemas em potencial na análise de dados.

I Finalizada a análise exploratória, passamos para a próxima etapa:

(39)

Modelos Estatísticos e Previsões

I O tipo de modelo usado deve ser escolhido a partir da análise exploratória.

I Deveria pensar anteriormente os tipos de métodos poderiam ser usados no caso ideal.

I O método exato depende da pergunta inicial.

I Transfomações nos dados devem ser analisadas com cuidado.

I Se pega o logaritmo, por exemplo.

I Deve ficar atento em como isso muda as interpretações e suposições do modelo.

I Medidas de incerteza e variabilidade devem ser apresentadas para todas estimativas.

(40)

Exemplo

I Considere novamente o exemplo dos emails.

I Vamos verificar que tipo de modelagem devemos usar nesse caso.

I Qual tipo de modelo parece adequado aqui? I Uma regressão logística.

(41)

Exemplo(continuação)

I A variável “type” é categórica

> head(trainSpam$type)

[1] spam spam spam spam spam spam Levels: nonspam spam

I Precisamos tranformar em um vetor de zeros e uns

trainSpam$typenum=as.numeric(trainSpam$type)-1 > head(trainSpam$typenum)

(42)

Exemplo(continuação)

I Vamos agora ajustar o modelo logístico

modelo=glm(as.numeric(trainSpam$type)-1~.,data=t

I Variáveis significativas no modelo

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.567e+00 2.017e-01 -7.771 7.78e-15 ***

make -1.012e+00 3.568e-01 -2.837 0.004559 **

our 5.692e-01 1.408e-01 4.043 5.27e-05 ***

remove 2.474e+00 5.105e-01 4.846 1.26e-06 ***

order 1.402e+00 5.453e-01 2.570 0.010160 *

will -2.650e-01 1.176e-01 -2.252 0.024304 *

free 6.939e-01 1.797e-01 3.861 0.000113 ***

business 2.082e+00 4.934e-01 4.219 2.45e-05 ***

you 1.471e-01 5.041e-02 2.918 0.003527 **

credit 3.391e+00 1.550e+00 2.187 0.028739 *

your 2.640e-01 7.781e-02 3.393 0.000691 ***

num000 2.894e+00 7.412e-01 3.904 9.46e-05 ***

hp -2.494e+00 4.862e-01 -5.130 2.90e-07 ***

george -5.849e+00 1.996e+00 -2.930 0.003390 **

num415 -2.565e+01 6.815e+00 -3.764 0.000167 ***

(43)

Exemplo(continuação)

I Vamos verificar agora o quanto o modelo acerta nas classificações.

I Para isso vamos usar o conjunto de dados de teste. I Primeiro encontramos a probabilidade de sucesso predita

pelo modelo

predictionTest=predict(modelo,testSpam)

I Precisamos fixar um ponto de corte para dizer que o email é SPAM.

I Vamos fixar em 0,5

predictedSpam=NULL

predictedSpam=ifelse(predictionTest>0.5,"spam" ,"nonspam")

(44)

Exemplo(continuação)

I Iremos agora verificar se as predições coincidem com o valor real

> table(predictedSpam,testSpam$type) predictedSpam nonspam spam

nonspam 1350 151

spam 56 755

I Taxa de acerto

755

151+755 =0.8333

de todos os emails que são Spam o método acerta 83,33%.

(45)

Interpretação dos Resultados

I Devemos usar a linguagem apropriada.

I Análise descritiva: usar palavras como descrevem, mostram, etc.

I Inferência: usar palavras como inferimos, correlacionado com, associado com.

I Análise casual: “leva a”, “causa”.

I Se a análise é puramente exploratória ou inferencial;

I não pode usar palavras que remetam a causalidade.

I Deve explicar os resultados de maneira que leigos possam entender.

I Interpretar coeficientes e parâmetros do modelo para facilitar o entendimento de pessoas sem conhecimento técnico.

(46)

Exemplo:

I Considere novamente o exemplo dos emails. I Vamos descrever e interpretar os resultados.

I A presença de determinadas palavras ou expressões pode ser usada para predizer se um e-mail é Spam ou não. I Proporção de vezes que a palavra “bussiness” aparece no

texto é significativa para explicar a probabilidade de um e-mail ser Spam.

I Para cada aumento em um ponto percentual na proporção de vezes que tal palavra aparece no e-mail, a chance dele ser um Spam aumenta 802%.

(47)

Questionamento do resultados

I Você deve questionar todas etapas da análise. I A questão inicial é a questão correta?

I Ela poderia ser mais específica? I Poderia ser mais genérica?

I Os dados usados foram adequados? I A amostra coletada é adequada? I Foi amostrada da população correta?

(48)

Questionamento do resultados

I As transformações feitas nos dados foram adequadas? I Selecionamos a variáveis explicativas adequadas? I Está tirando conclusões do seu modelo que não são

válidas?

I Outras variáveis deveriam ser incluídas no modelo? I Quais análises alternativas poderiam ser realizadas? I Será, então, capaz de deixar claro quais os pontos fracos

(49)

Resumir e escrever os resultados I Comece descrevendo a pergunta.

I Não comece descrevendo os modelos nem os dados que utilizou.

I Explique como irá responder a pergunta apresentada. I Deve contar uma história sobre as análises realizadas. I Não inclua todos os passos executados.

I Não precisa descrever as análises na ordem em que foram feitas.

(50)

Resumir e escrever os resultados

I Inclua figuras nítidas e que contenham apenas informação essencial.

I Se os dados estão em duas dimensões a figura não precisa ser 3d.

I TODAS figuras devem ter legendas e devem ser analisadas no texto.

I Não inclua figuras que não são mencionadas no texto. I As legendas devem ser capazes de descrever a figura sem

(51)

Exemplo:

I Iniciando com a questão:

I Podemos usar características quantitativas dos e-mails para predizer se são Spam ou não?

I Descreva a abordagem utilizada:

I Os dados foram coletados do conjunto de exemplos do R. I Parte deles foram usados para treinamento e o restante

para teste.

I Exploramos as relações entre as variáveis.

I Escolhemos o modelo logístico para treinar os dados. I Aplicando o modelo à base de teste,

(52)

Exemplo:

I Interprete os resultados:

I Termos que referem a dinheiro parecem caracterizar bem um e-mail como Spam ou não.

I Desafie os resultados:

I Uma taxa de acerto de 83,33% é alta o suficiente? I Poderíamos acrescentar mais variáveis?

I Qual outro método poderíamos usar? I Um modelo CART talvez?

(53)

I Vimos até agora como executar a análise de dados. I Veremos agora como organizar os resultados obtidos. I Deve organizar e separar bem os arquivos.

(54)

Arquivos Essenciais I Dados:

I dados brutos; I dados processados.

I Figuras:

I figuras exploratórias, usadas durante o trabalho; I figuras finais, com legendas e eixos adequados.

I Código R:

I scritps inciais, usados durante o processo de análise; I scripts finais, reproduzir todos passos executdos, deve

(55)

Arquivos Essenciais I Texto

I “Readme” - arquivos explicando o que cada script faz e onde os dados foram coletados.

(56)

Texto do Documento

I Deve apresentar os resultados obtidos.

I Não precisa conter todas análises executadas. I Pode ser estruturado da seguinte maneira:

I introdução (motivaçao);

I métodos (técnicas estatísticas utilizadas); I resultados (inclusive medidas de incerteza);

I conclusão (incluindo potenciais problemas e trabalhos futuros).

(57)
(58)

Questionário

Conjunto de questões direcionadas a uma pessoa específica.

Alguns pontos importantes... I O que deve ser perguntado?

I Como cada questão deve ser elaborada? I Como cada questão deve ser escrita?

(59)

I Um questionário pode ser composto por:

I questões abertas e fechadas.

I Questões abertas são mais difíceis de serem analisadas. I Os resultados do questionário devem poder ser

analisados.

I Deve incentivar o interesse do respondente.

I Questões importantes devem ser levantadas ao longo da entrevista.

I As questões iniciais devem ser simples.

(60)

I Questões pessoais podem ser incluídas:

I nome, salário, telefone, etc.

I Questões abertas devem ser mantidas no final do questionário.

I Devem ser usadas o mínimo possível. I Um teste piloto deve ser realizado para:

(61)

Pesquisa de Opinião ou Survey

I É uma das formas mais comuns de coleta de dados. I Coleta-se uma amostra da população de interesse. I Aplica-se questionários a essa população.

(62)

Questões Fechadas

I Contém um conjunto definido de opções.

I Exemplo: Você é a favor ou contra a legalização da maconha?

a) A favor.

b) Contra.

c) Não respondeu.

Questões Abertas

I O entrevistador não fornece nenhuma opção de resposta. I Questões são a abertas a qualquer tipo de respotas. I Exemplo: Qual sua opinião sobre a legalização da

(63)

Quais questões devem fazer parte do questionário I Elas devem se basear na pergunta central que se deseja

responder.

I Deve levar em conta as hipóteses e objetivos da pesquisa.

Quem deve ser entrevistado?

I O respondente deve estar ciente sobre o assunto.

I Deve ser capaz de fornecer informações relevantes para a pesquisa.

(64)

Teste Piloto

I Serve de guia para estudos maiores.

I Consiste em uma coleta inicial e pequena dos dados. I Permite identificar problemas no questionário.

I Uma vez que o questionário é corrigido pode ser aplicado para a amostra maior.

(65)

Resumindo...

I O que deve ser perguntado?

I Questões que condizam com o objetivo da pesquisa.

I Como cada questão deve ser elaborada?

I Deve ser simples, clara e fácil de responder.

I Qual deve ser a sequência das questões?

I Questões simples para gerar interesse no início. I Questões importantes no meio do questionário. I Questões abertas (se houver) ao final.

I Como podemos melhorar um questinário?

I Fazendo um teste piloto.

I Identificando problemas com as questões. I Corrigindo esses pontos fracos.

(66)

Exemplo:

I Uma empresa está interessada em analisar a satisfação dos seus clientes.

I Ela irá coletar uma amostra e aplicar questionários a esses clientes.

I Elabore um questionário que deverá ser aplicado aos clientes da empresa.

Referências

Documentos relacionados

In this study, we describe the fish demersal assemblage along the continental shelf of the northeast Brazilian coast 5°-9°S, specifically the ecological descriptors and the

Nas Figuras 47 e 48, mostram-se as estruturas otimizadas, número de iterações, valor da função objetivo e tempo de processamento adimensionalizado com relação ao programa

Quando analisamos o peso molecular das bandas de proteínas urinárias verificamos que nas gestantes com manifestação de pré-eclâmpsia, isolada ou superposta à hipertensão

A ofensiva políti- ca, ideológica, econômica e militar americana, durante os anos 60, ocorre também em uma vasta área da Ásia e da África: no levante de Ghana, no qual o governo

Dessa forma, o objetivo desse trabalho é testar se a composição multiespecífica de plantas forrageiras em sucessão com culturas anuais ou pastagens perenes altera propriedades

Table 3 Components of the TβD (Jaccard index) observed and comparison between the mean samples and standard deviation for primary ray-finned fishes in Brazil. JAC:

Uma vez formado o quadro, utilizá-lo ao seu potencial máximo significa atribuir tarefas de acordo com habilidades e competências de cada diretor, investir na