• Nenhum resultado encontrado

Aula 02 - Beanplot

N/A
N/A
Protected

Academic year: 2021

Share "Aula 02 - Beanplot"

Copied!
9
0
0

Texto

(1)

Estatística

Ano: 2013.1

Aluno: João Paulo Lima de Morais Barros Curso: Engenharia Química

Trabalho 1

(2)

A ferramenta gráfica: Beanplot

Trabalho destinado ao professor Jonathas Magalhães, mentor da disciplina de Estatística do curso de Engenharia Química da Universidade Federal de Alagoas (UFAL).

Período: Segundo Curso: Engenharia Química

Matéria: Estatística Professor: Jonathas Magalhães

(3)

Introdução

A análise descritiva de um conjunto de dados é uma das ferramentas mais importantes da estatística, apesar de pouco utilizada. Quando bem feita, consegue prevenir vários problemas que podem ocorrer em análises mais complexas, pois permite visualizar muitas características que em outras análises podem passar despercebidas.

Uma importante parte da estatística descritiva inclui os gráficos, que fornecem uma visualização de características dos dados. Gráficos como histogramas, ramos-e-folhas, de barras, dispersão, ou boxplots são frequentemente usados para análises univariadas e para comparações de distribuições de dados. Entretanto, quando é necessário comparar diferentes grupos, o uso de gráficos como histogramas ou ramos-e-folhas acarreta o problema de ocupação de muito espaço para se atingir tal objetivo. Uma possibilidade para se fazer a comparação entre diferentes distribuições é a utilização de boxplots, porém certos problemas podem surgir em casos particulares, e geralmente estão associados com interpretações inapropriadas e não com a técnica em si. Geralmente esses erros de interpretações vêm de analistas não estatísticos que tentam ganhar mais informações do que o gráfico contém. Outro problema que pode surgir nos boxplots é na detecção de outliers, principalmente para distribuições não normais. Mesmo que a distribuição seja normal a detecção de outliers pode se tornar difícil pois, à medida que aumenta o número de observações, pode aumentar o número de outliers detectados.

Para prevenir esses problemas, foram desenvolvidas variações dos boxplot que incluem nas gráficas informações adicionais disponíveis. Essas variações têm problemas, principalmente quando o objetivo é a comparação de distribuições de diferentes grupos. Em 2008, Kampstra sugeriu um novo gráfico chamado de beanplot, que é a combinação de um gráfico de dispersão unificada. Em tal gráfico, não existe o problema de detecção de outliers, pois todas as observações ficam visíveis e a complicação que poderia surgir pelo uso do conceito de quartis também desaparece, porque simplesmente a média é usada como medida para resumir os conjuntos de dados.

(4)

Desenvolvimento

Beanplot

O nome: O nome beanplot decorre de feijão verde. A forma da densidade pode ser visto

como a vagem de um feijão verde, enquanto o gráfico de dispersão mostra as sementes dentro da vagem.

A forma da densidade: A forma de densidade utilizada se refere a um polígono dado por

um traço de densidade normal e sua versão espelhada. Tal polígono geralmente se parece um pouco com um violino, característica também notada e utilizada no tipo de gráfico Violinplot.. No programa computacional R, um traço de densidade pode ser calculado utilizando a densidade. Para calcular esse traço densidade, uma largura de banda deve ser selecionada. Por padrão, a implementação de beanplot usa o método Sheather-Jones para selecionar uma largura de banda por lote, o que parece ser preferido e próximo do ideal. As larguras de banda por lote são calculadas sobre todos os lotes, a fim de ter uma comparação justa entre eles. A utilização da mesma largura de banda para todos os grãos tem um lado pequeno para lotes que contêm poucos pontos de dados. Em tal caso, a largura de tal grão pode tornar-se muito grande, chamando a atenção de um grão menos interessante em termos de significância estatística. Para superar este problema, a largura de grão com menos de 10 pontos de dados é dimensionado de forma linear (assim um feijão com três pontos de dados é apenas 3/10 da sua largura normal)

A média: Enquanto um boxplot e suas variantes fazem uso da mediana de um grupo de

pontos de dados, por um padrão, o beanplot utiliza a média do grupo, e também mostra uma média geral. Isso é porque uma média é mais fácil de explicar a não matemáticos, facilitando sua compreensão. Além de que a média geralmente dá informação útil se um traço de densidade é realmente útil ou não.

Beanplots assimétricos: Normalmente, os grãos são simétricos, facilitando sua

compreensão e podendo ser comparados facilmente. Algumas vezes, os dado de um grupo, que estão sendo analisados, contém dois subgrupos de cada grupo, por exemplo, masculino e do sexo feminino. Nestas situações, a cada subgrupo pode tomar um dos lados de um grão completo.

(5)

Exemplos de Uso

1. Distribuição

Beanplot: Um boxplot alternativo para comparações visuais de distribuição.

Figura 1: Lotes para um bimodal, um uniforme e uma distribuição normal. No gráfico beanplot, as linhas verdes

representam observações individuais, enquanto a área roxa mostra a distribuição.

Na figura 1, algumas distribuições são desenhadas em um boxplot e em beanplot. No boxplot a localização dos quartis não indica claramente uma diferença entre as distribuições, enquanto o gráfico beanplot a mostra claramente a diferença entre as distribuições.

(6)

2. Música

Figura 2: A altura em polegadas de diferentes cantores. O beanplot mostra claramente as medições individuais, que foram arredondados para polegadas inteiras.

A Figura 2 mostra um violinplot e um beanplot para as alturas do corpo de diferentes cantores. Embora que o violinplot também mostre claramente que diferentes grupos de cantores parecem ter diferentes alturas de corpo, o beanplot mostra algumas informações extras, por exemplo, é visível que as medições são dadas em polegadas inteiras, e que havia cantores com uma altura de 65 polegadas no grupo Soprano 1. Além disso, uma indicação do número de medições é visível, facilitando a compreensão.

(7)

3. Fácil utilização no programa R

A implementação do pacote contendo as funções beanplot facilitou a utilização do mesmo no programa R. É compatível com funções semelhantes, como boxplot, stripchart e vioplot.

Figura 3: Comparando a potência dos constituintes de um spray utilizado em pomares, servindo de repelente de abelhas em diferentes tratamentos, com uma distribuição normal.

Além de que, o pacote beanplot, disponível no R, também suporta utilizações que não são possíveis com simples comandos. Por exemplo, é possível combinar as fórmulas e vetores como dados de entrada, se o usuário desejar comparar algo com mais agilidade.

Tendo exemplo a figura 3, como uma ajuda adicional para o usuário, um eixo de log é automaticamente selecionado, neste caso, verificando os resultados de um shapiro.test, onde o usuário é comunicado sobre essa ação. No caso de um eixo de log, o rastreio de densidade é calculado utilizando uma transformação logarítmica e a média geométrica é usada em vez da média normal. Portanto, usando beanplot com uma distribuição lognormal, em um eixo de log, não produz resultados estranhos, como o uso direto de boxplot faz, que vai mostrar muitos “valores atípicos” neste cenário.

(8)

Código de utilização no R:

Código referente a Figura 1:

R> library("beanplot")

R> par(mfrow = c(1, 2), mai = c(0.5, 0.5, 0.5, 0.1)) R> mu <- 2

R> si <- 0.6 R> c <- 500

R> bimodal <- c(rnorm(c/2, -mu, si), rnorm(c/2, mu, si)) R> uniform <- runif(c, -4, 4)

R> normal <- rnorm(c, 0, 1.5) R> ylim <- c(-7, 7)

R> boxplot(bimodal, uniform, normal, ylim = ylim, main = "boxplot", + names = 1:3)

R> beanplot(bimodal, uniform, normal, ylim = ylim, main = "beanplot", + col = c("#CAB2D6", "#33A02C", "#B2DF8A"), border = "#CAB2D6")

Código referente a Figura 2:

R> library("vioplot")

R> data("singer", package = "lattice") R> ylim <- c(55, 80)

R> par(mfrow = c(2, 1), mai = c(0.8, 0.8, 0.5, 0.5)) R> data <- split(singer$height, singer$voice.part) R> names(data)[1] <- "x"

R> do.call("vioplot", c(data,

+ list(ylim = ylim, names = levels(singer$voice.part), col = "white"))) R> title(main = "vioplot", ylab = "body height (inch)")

R> beanplot(height ~ voice.part, data = singer, ll = 0.04, main = "beanplot", + ylim = ylim, ylab = "body height (inch)")

Código referente a Figura 3:

R> beanplot(decrease ~ treatment, data = OrchardSprays, exp(rnorm(20, 3)), + xlab = "threatment method", ylab = "decrease in potency",

(9)

Conclusão

Concluímos que beanplot é um gráfico fácil de explicar, permitindo-nos comparar visualmente diferentes lotes de dados. Por um lado, isso mostra um resumo dos dados, enquanto que, por outro lado, todos os pontos de dados continuam visíveis. Assim, permite-nos discutir pontos de dados interessantes individuais. Além disso, dá uma indicação do número de dados e pontos, o que ajuda ao comparar os grupos com um número variando amplamente de pontos de dados.

Informamos também a utilização de beanplot em ferramenta computacional R, que mantém o usuário em mente e suporta o uso rápido em cenários como comparar múltiplas fontes de dados e exibição de dados exponenciais. O pacote do beanplot está disponível site oficial do programa.

Referências

Documentos relacionados

A prova do ENADE/2011, aplicada aos estudantes da Área de Tecnologia em Redes de Computadores, com duração total de 4 horas, apresentou questões discursivas e de múltipla

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

Equipamentos de emergência imediatamente acessíveis, com instruções de utilização. Assegurar-se que os lava- olhos e os chuveiros de segurança estejam próximos ao local de

Tal será possível através do fornecimento de evidências de que a relação entre educação inclusiva e inclusão social é pertinente para a qualidade dos recursos de

6 Consideraremos que a narrativa de Lewis Carroll oscila ficcionalmente entre o maravilhoso e o fantástico, chegando mesmo a sugerir-se com aspectos do estranho,

Com o objetivo de compreender como se efetivou a participação das educadoras - Maria Zuíla e Silva Moraes; Minerva Diaz de Sá Barreto - na criação dos diversos

No entanto, é importante considerar que não é possível formar professores sem fazer escolhas ideológicas (PERRENOUD, 2000). Conforme o modelo de so- ciedade e de ser humano que