• Nenhum resultado encontrado

Análise Exploratória de Dados

N/A
N/A
Protected

Academic year: 2021

Share "Análise Exploratória de Dados"

Copied!
17
0
0

Texto

(1)

1

Análise Exploratória de Dados

processo de usar as ferramentas

estatísticas (gráficos, medidas de

tendência central e de variabilidade)

para investigar o conjunto de dados, de

maneira a compreender suas

(2)

Outliers

™

um valor localizado muito distante de quase

todos os outros valores;

™

um valor extremo;

™

pode ter um efeito dramático na média, no

desvio-padrão e na escala do histograma,

distorcendo a verdadeira natureza da

(3)

3

Boxplots

(Diagrama em Caixas)

Revela:

™

o centro dos dados;

™

a dispersão dos dados;

™

a distribuição dos dados;

™

a presença de ‘outliers’;

Excelente para comparar dois

ou mais conjuntos de dados.

(4)

Boxplots

Resumo de cinco números:

™

Mínimo

™

1º Quartil (Q

1

)

™

Mediana (Q

2

)

™

3º Quartil (Q

3

)

(5)

5

Boxplots

4

6

2

14

0

2

8

10

12

14

0

4

6

Figura 2-18

(6)

Figura 2-19

Boxplots

Assimétrico

(7)

7

Exploração de Dados

™

Medidas de tendência central:

Média, mediana e moda.

™

Medidas de variação:

Desvio-padrão e amplitude.

™

Medidas de posição:

Valor mínimo, valor máximo e quartis.

™

Valores incomuns:

‘Outliers’

™

Distribuição:

(8)

Exemplo de Aplicação

™

Descrição:

Empreendimento imobiliário, consistindo de dois edifícios

residenciais, com apartamentos de 1 dormitório e área útil de 53m

2

.

™

Histórico:

Em uma 1ª fase, foi construído apenas um edifício, denominado

“Bloco A”. Para a conclusão do Bloco B houve uma troca de

empreiteiras.

™

Objetivo:

Verificar inicialmente a suspeita de que os apartamentos foram

construídos com metragem diferente daquela especificada na

escritura.

(9)

Exercício 3:

a)

b)

c) Área Útil Total

Análise Global (Blocos A e B):

Descriptive Statistics: Total

Variable N Mean Median TrMean StDev SE Mean Total 152 50,914 50,750 50,887 3,011 0,244 Variable Minimum Maximum Q1 Q3

Total 44,600 58,400 48,525 53,200 59 54 49 44 20 10 0 Total Frequ ency

(10)

Análise por Bloco:

Descriptive Statistics: Total by Bloco

Variable Bloco N Mean Median TrMean StDev Total A 76 53,422 53,200 53,396 1,772 B 76 48,407 48,550 48,435 1,538 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Total A 0,203 48,800 58,400 52,200 54,700 B 0,176 44,600 51,700 47,250 49,600 59 54 49 44 20 10 0 Total Fr e q ue nc y Histogram of Total (Bloco = A) 59 54 49 44 20 10 0 Total Fr e q ue nc y Histogram of Total (Bloco = B) 59 54 49 To ta l

(11)

Análise por cômodo:

Descriptive Statistics: Sala by Bloco

Variable Bloco N Mean Median TrMean StDev Sala A 76 28,093 27,950 28,091 1,083 B 76 23,132 23,100 23,147 0,849 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Sala A 0,124 25,600 30,900 27,500 28,900 B 0,097 20,900 25,000 22,500 23,775 30 25 20 15 10 5 0 Sala F re q u e n c y Histogram of S l (Bloco = A) 30 25 20 20 10 0 Sala F requ en cy Histogram of Sala (Bloco = B) B A 30 25 20 Bloco Sa la

(12)

Variable Bloco N Mean Median TrMean StDev

Global 152 25,613 25,300 25,593 2,671 Sala A 76 28,093 27,950 28,091 1,083 B 76 23,132 23,100 23,147 0,849 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Global 0,217 20,900 30,900 23,100 27,975 Sala A 0,124 25,600 30,900 27,500 28,900 B 0,097 20,900 25,000 22,500 23,775 30 25 20 20 10 0 Sala Fr eq uen cy Histograma Sala (Global) 30 25 20 15 10 5 0 Sala F re q u e n c y Histogram of S l (Bloco = A) 30 25 20 Sa la 20 10 0 F requ en cy Histogram of Sala (Bloco = B)

(13)

Descriptive Statistics: Cozinha by Bloco

Variable Bloco N Mean Median TrMean StDev Cozinha A 76 7,9289 8,0000 7,9441 0,4653 B 76 7,8816 7,8000 7,8824 0,6048 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Cozinha A 0,0534 6,5000 9,2000 7,7000 8,2000 B 0,0694 6,4000 9,6000 7,5000 8,3750 10 9 8 7 6 20 10 0 Cozinha Fr e q ue nc y Histogram of Cozinha (Bloco = A) 10 9 8 7 6 15 10 5 0 Cozinha F re q u e n c y Histogram of C i h(Bloco = B) B A 9,5 8,5 7,5 6,5 Bloco Coz in ha

(14)

Descriptive Statistics: Banheiro by Bloco

Variable Bloco N Mean Median TrMean StDev Banheiro A 76 4,4500 4,5000 4,4515 0,4623 B 76 4,4645 4,5000 4,4647 0,5158 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Banheiro A 0,0530 3,5000 5,4000 4,1000 4,7000 B 0,0592 2,9000 5,8000 4,1000 4,8000 6 5 4 3 20 10 0 Banheiro Fr e q ue nc y Histogram of Banheiro (Bloco = A) 6 5 4 3 15 10 5 0 Banheiro F requ en cy Histogram of Banheiro (Bloco = B) B A 6 5 4 3 Banh eiro

(15)

Descriptive Statistics: Dorm by Bloco

Variable Bloco N Mean Median TrMean StDev Dorm A 76 12,950 13,000 12,947 1,173 B 76 12,929 12,900 12,910 1,177 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Dorm A 0,135 10,000 15,900 12,200 13,675 B 0,135 10,600 15,700 12,200 13,600 16,5 15,5 14,5 13,5 12,5 11,5 10,5 9,5 15 10 5 0 Dorm Fr e q ue nc y Histogram of Dorm (Bloco = B) 16,5 15,5 14,5 13,5 12,5 11,5 10,5 9,5 20 10 0 Dorm F requ en cy Histogram of Dorm (Bloco = A) B A 16 15 14 13 12 11 10 Bloco Dor m

(16)

d) Problemas Estruturais

Tabulated Statistics: Rachadura; Bloco

Rows: Rachadur Columns: Bloco A B All 0 43 42 85 50,59 49,41 100,00 1 33 34 67 49,25 50,75 100,00 All 76 76 152 50,00 50,00 100,00

Tabulated Statistics: Infiltr; Bloco

Rows: Infiltr Columns: Bloco A B All 0 53 55 108 49,07 50,93 100,00 1 23 21 44 52,27 47,73 100,00 All 76 76 152 50,00 50,00 100,00 Cell Contents -- Count % of Row

(17)

e) Ocorrência de Problemas Estruturais:

Tabulated Statistics: Rachadura; Categoria

Rows: Rachadur Columns: Categori Alto Baixo Médio All 0 34 36 15 85 40,00 42,35 17,65 100,00 1 14 12 41 67 20,90 17,91 61,19 100,00 All 48 48 56 152 31,58 31,58 36,84 100,00 Cell Contents -- Count % of Row Médio Baixo Alto 40 30 20 10 Categoria S um of Ra chadura 41 12 14

Gráfico de Barras - Freqüência de Rachadura

Tabulated Statistics: Infiltr; Categoria

Rows: Infiltr Columns: Categori Alto Baixo Médio All 0 20 41 47 108 18,52 37,96 43,52 100,00 1 28 7 9 44 63,64 15,91 20,45 100,00 All 48 48 56 152 31,58 31,58 36,84 100,00 Cell Contents -- Count % of Row Médio Baixo Alto 35 25 15 5 Categoria Sum of In filtr 9 7 28

Referências

Documentos relacionados

a) O polícia disse um palavrão, após ter saído da casa de Adrian. Corrige as falsas.. A mãe também está com gripe. “Quase que não consegui ficar calado quando vi que não

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

Todo ser humano é único e, por isso, toda sala de aula é um berço de diversidade. O que os sistemas educacionais fizeram ao longo dos tempos foi homogeneizar o sistema educacional

Trata-se de pedido tempestivo de impugnação do supracitado edital, encapada pelo Processo 23305.012639.2018-46, o qual, em breves termos, solicita retificação do edital no que

 Compreender a importância do domínio das técnicas da escrita para a produção de uma informação de qualidade e saber aplica-las às especificidades dos diferentes géneros

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

Conhecido na literatura como Sistemas de Gerenciamento Térmico de Bateria (BTMS - Battery Thermal Management Systems), as principais funções destes sistemas são: manter as

Dessa maneira, para que os desenhos bidimensionais (2D) e tridimensionais (3D) do projeto fossem realizados através da utilização de um software CAD, ou seja, um software