UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO TECNOLÓGICO
DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA
CURSO DE BACHAREL EM SISTEMAS DE INFORMAÇÃO
SISTEMA DE ANÁLISE EXPLORATÓRIA DE DADOS
WANDERLEI PASSOS
FLORIANÓPOLIS
2008
WANDERLEI PASSOS
SISTEMA DE ANÁLISE EXPLORATÓRIA DE DADOS
Trabalho de conclusão de curso apresentado como
requisito parcial para a obtenção do grau de
Bacharel em Sistemas de Informação.
Orientador: Prof. Pedro Alberto Barbetta, Dr.
FLORIANÓPOLIS
2008
Por
WANDERLEI PASSOS
Trabalho de conclusão de curso aprovado para a
obtenção do grau de Bacharel em Sistemas de
Informação, pela Banca examinadora formada por:
_________________________________________________
Presidente: Prof. Pedro Alberto Barbetta, Dr. - Orientador, UFSC.
_________________________________________________
Membro: Prof. José Eduardo De Lucca,Dr. - Coorientador, UFSC.
_________________________________________________
Membro: Prof. Paulo José Ogliari, Dr., UFSC.
Dedico este trabalho à minha família, em especial à
minha filha Luana, que foi quem mais sentiu a
minha falta durante esta jornada.
RESUMO
O uso da informática está presente em tudo que fazemos, e sua utilização nas atividades de ensino
está, a cada dia, mais intensa. Este trabalho busca desenvolver um sistema para realizar análise
exploratória de dados, qual poderá servir como ferramenta para os alunos porem em prática o
conteúdo aprendido em disciplinas de estatística básica. Podemos dizer que a estatística é uma
ciência muito vasta, que abrange desde a organização e descrição, até análise e interpretação de
dados. Este software preocupa-se apenas com a parte de organização e descrição de dados, ou
seja, com a análise exploratória de dados.
ABSTRACT
The use of the computer science is present in everything that we do, and your use in the teaching
activities is, every day, more intense. This work search to develop a system to accomplish
exploratory analysis of data, which can serve as tool for the students to put in practice the content
learned in disciplines of basic statistics. We can say that the statistics is a very vast science,
which it embraces from the organization and description, even analysis and interpretation of data.
This software just worries about the organization part and description of data, in other words,
with the exploratory analysis of data.
LISTA DE ILUSTRAÇÕES
Figura 1 Esquema geral de Estatística - Fonte: Costa Neto, 1977. ... 16
Figura 2 Classificação das variáveis e dos dados ... 19
Figura 3 Distribuição de freqüências do grau de instrução do chefe da casa, numa amostra de 119
famílias do Saco Grande II, Florianópolis – SC, 1988. ... 21
Figura 4 Distribuição de freqüências da renda do chefe da família em salários mínimos, numa
amostra de 119 famílias do Saco Grande II, Florianópolis – SC, 1988. ... 23
Figura 5 Quartil inferior (Q
I), Mediana (M
d) e Quartil superior (Q
S). ... 25
Figura 6 Tipos de Assimetria ... 28
Figura 7 Diagrama de casos de uso do Sistema ... 39
Figura 8 Modelo Conceitual 1 ... 41
Figura 9 Diagrama de classes de projeto 1 ... 45
Figura 10 Tela Principal do Protótipo com um arquivo importado do Excel ... 48
Figura 11 Tela com gráfico construído pelo protótipo ... 49
Figura 12 Modelo Conceitual 2 ... 53
Figura 13 Classes da interface gráfica do software ... 56
Figura 14 Classes de Controle ... 58
Figura 15 Tela principal do Sistema ... 59
Figura 16 Caixa de diálogo padrão para escolha de arquivo ... 60
Figura 17 Caixa de diálogo para importar arquivos do Excel ... 61
Figura 18 Tela de apresentação de dados ... 63
Figura 19 Caixa de diálogo para mudar tipo da variável ... 64
Figura 20 Caixa de diálogo para editar variáveis ... 65
Figura 21 Caixa de diálogo distribuição de freqüência de variáveis qualitativas ... 66
Figura 22 Apresentação de tabela de distribuição freqüência em texto tabulado ... 67
Figura 23 Caixa de diálogo distribuição de freqüência variável quantitativa ... 68
Figura 24 Apresentação de tabela de distribuição freqüência em texto tabulado ... 69
Figura 25 Caixa de diálogo para cálculo de medidas descritivas ... 70
Figura 27 Caixa de diálogo descrição de variáveis grupando por categoria... 71
Figura 28 Apresentação de medidas descritivas grupadas por categoria ... 72
Figura 29 Apresentação gráfica de distribuição de freqüência de variável qualitativa ... 73
Figura 30 Apresentação gráfica de distribuição de freqüência de variável quantitativa ... 73
Figura 31 Caixa de diálogo para criar diagrama de dispersão ... 74
SUMÁRIO
1
INTRODUÇÃO ... 13
1.1
OBJETIVOS ... 13
1.1.1
GERAL ... 13
1.1.2
ESPECÍFICOS ... 14
1.2
JUSTIFICATIVA PARA O DESENVOLVIMENTO DO PROJETO ... 14
1.3
ESTRUTURA DO TRABALHO ... 15
2
ANÁLISE EXPLORATÓRIA DE DADOS ... 16
2.1
ARQUIVOS DE DADOS ... 17
2.2
TIPOS DE VARIÁVEIS ... 19
2.3
DISTRIBUIÇÃO DE FREQÜÊNCIA ... 20
2.4
MEDIDAS DESCRITIVAS ... 23
2.4.1
MÉDIA ARITIMÉTICA ... 24
2.4.2
PERCENTIL, MEDIANA E QUARTIL ... 24
2.4.3
MODA ... 26
2.4.4
AMPLITUDE ... 26
2.4.5
VARIÂNCIA E DESVIO PADRÃO ... 26
2.4.6
COEFICIENTE DE VARIAÇÃO ... 27
2.4.7
COEFICIENTE DE ASSIMETRIA ... 27
3
VISÃO GERAL DO PROCESSO DE DESENVOLVIMENTO DE SOFTWARE 29
3.1
CARACTERÍSTICAS DO PROCESSO UNIFICADO ... 29
3.2
ETAPAS DO DESENVOLVIMENTO ... 30
3.4
MODELAGEM DE SISTEMAS ... 31
4
DEFINIÇÃO DO SISTEMA ... 33
4.1
VISÃO GERAL DO SISTEMA ... 33
4.2
ESPECIFICAÇÃO DOS REQUISITOS ... 34
4.2.1
REQUISITOS FUNCIONAIS ... 34
4.2.2
REQUISITOS NÃO-FUNCIONAIS ... 36
4.3
CASOS DE USO DE ALTO NÍVEL ... 37
5
CICLO DE DESENVOLVIMENTO 1 ... 40
5.1
ANÁLISE ... 40
5.2
PROJETO ... 43
5.2.1
ARQUITETURA DO SISTEMA ... 43
5.2.2
CLASSES DE PROJETO ... 44
5.3
IMPLEMENTAÇÃO ... 46
5.3.1
PROTÓTIPO DE INTERFACE COM USUÁRIO ... 47
6
CICLO DE DESENVOLVIMENTO 2 A 6 ... 50
6.1
ANÁLISE ... 50
6.1.1
CASO DE USO GERENCIAR ARQUIVOS ... 50
6.1.2
CASO DE USO MANIPULAR DADOS ... 51
6.1.3
CASO DE USO FAZER DISTRIBUIÇÃO DE FREQÜÊNCIAS ... 53
6.1.4
CASO DE USO CALCULAR MEDIDAS DESCRITIVAS ... 54
6.1.5
CASO DE USO CONSTRUIR GRÁFICOS ... 55
6.2
PROJETO ... 56
6.2.1
PADRÕES DE PROJETO UTILIZADOS ... 58
6.3.1
IMPLEMENTAÇÃO DO CASO DE USO GERENCIAR ARQUIVOS ... 59
6.3.2
IMPLEMENTAÇÃO DO CASO DE USO MANIPULAR DADOS ... 62
6.3.3
IMPLEMENTAÇÃO DO CASO DE USO DISTRIBUIÇÃO DE FREQÜÊNCIA ... 65
6.3.4
IMPLEMENTAÇÃO DO CASO DE USO CALCULAR MEDIDAS DESCRITIVAS 69
6.3.5
IMPLEMENTAÇÃO DO CASO DE USO CONSTRUIR GRÁFICOS ... 72
7
CONSIDERAÇÕES FINAIS ... 75
7.1
OBJETIVOS ATINGIDOS ... 75
7.2
TRABALHOS FUTUROS ... 76
REFERÊNCIAS ... 78
ANEXO A – ARTIGO SOBRE O TCC ... 79
1. INTRODUÇÃO ... 79
2. ANÁLISE EXPLORATÓRIA DE DADOS COM O SOFTWARE DESCRIDADOS ... 80
2.1. ARQUIVOS DE DADOS ... 80
2.2. TIPOS DE VARIÁVEIS ... 81
2.3. DISTRIBUIÇÃO DE FREQÜÊNCIA ... 83
2.4. MEDIDAS DESCRITIVAS ... 84
3. O PROCESSO DE DESENVOLVIMENTO DO DESCRIDADOS ... 85
3.1. APLICAÇÃO DAS CARACTERÍSTICAS DO PROCESSO UNIFICADO NO
DESENVOLVIMENTO DO DESCRIDADOS ... 85
4. CONCLUSÃO ... 88
REFERÊNCIAS ... 89
ANEXO B – CÓDIGO FONTE DO DESCRIDADOS ... 90
CLASSES DO MODELO ... 90
1
INTRODUÇÃO
Vivemos atualmente em um mundo de informação onde o armazenamento e a
recuperação dessa informação são cada vez mais facilitados pelo desenvolvimento tecnológico.
Muitas vezes a utilização da informação não é simples e nem direta. Ou seja, é preciso um
trabalho de processamento para que os dados que dispomos sejam transformados em informação
e conhecimento. A estatística é justamente uma ciência que se preocupa com a transformação de
dados em informações e conhecimento por meio da organização, descrição, análise e
interpretação de dados; e é aplicável a qualquer ramo do conhecimento em que se manipulam
dados. A estatística é uma ciência de inegável importância, tanto que é cadeira obrigatória na
maioria dos cursos de nível superior.
Levando-se em consideração as enormes quantidades de dados que temos de analisar, o
uso da estatística se torna muito mais eficiente através de ferramentas de software que
automatizam os métodos estatísticos, incluindo a organização dos dados e apresentação de
diversos tipos de gráficos de forma automática. De fato existem muitos softwares estatísticos no
mercado, mas em geral são caros e difíceis de serem usados por estudantes que estão iniciando o
aprendizado da Estatística. Desse modo a proposta deste trabalho é o desenvolvimento de um
software livre para análise estatística básica, ou mais precisamente, para análise exploratória de
dados, voltado para estudantes de disciplinas de estatística básica.
1.1 OBJETIVOS
1.1.1 GERAL
O objetivo principal deste trabalho de conclusão de curso é o desenvolvimento de um
software de análise estatística básica, que busca atender as necessidades dos alunos de Estatística
dos cursos de graduação da UFSC. Através do desenvolvimento deste software pretende-se pôr
em prática os conhecimentos adquiridos no transcorrer do curso de Sistemas de Informação, com
ênfase na Engenharia de Software, Engenharia de Usabilidade e Estatística Básica.
1.1.2 ESPECÍFICOS
a) Como objetivos específicos, o trabalho busca, em um primeiro momento,
desenvolver um software, para Análise Exploratória de Dados.
b) Fazer a análise e projeto do sistema utilizando a UML (Unified Modeling
Language) como a linguagem de modelagem do sistema.
c) Utilizar o Processo Unificado como metodologia de desenvolvimento de software.
d) Programar o sistema utilizando a linguagem de programação orientada a objetos
Java versão cinco, buscando maximizar o reuso através da utilização de bibliotecas
Java, disponíveis na Internet.
e) Construir o software utilizando a arquitetura MVC (Model, View, Controller), de
modo a separar as responsabilidades da interfase com o usuário (GUI), das
responsabilidades das demais partes do sistema.
f) E, por fim, construir uma interface amigável para o usuário operar o sistema.
1.2 JUSTIFICATIVA PARA O DESENVOLVIMENTO DO PROJETO
O desenvolvimento desse projeto é justificado pela necessidade do autor pôr em prática
o conhecimento adquirido no curso através do desenvolvimento de um software completo e
funcional, e pela necessidade do professor-orientador de disponibilizar aos alunos um software
livre, simples e em português para análise estatística básica. Os softwares existentes são, em
geral, caros e complexos demais para estudantes iniciantes em Estatística. Muitos estão em
inglês, o que pode ser uma barreira no aprendizado dos estudantes.
1.3 ESTRUTURA DO TRABALHO
O presente trabalho pode ser dividido em duas partes. Uma parte teórica, constituída
pelos capítulos 2 e 3, e o relatório de desenvolvimento do software, do capítulo 4 a 7.
Na parte teórica, o Capítulo 2 explana de forma sucinta os principais conceitos de
Estatística envolvidos no projeto. Já o Capítulo 3, dá uma visão geral do processo de
desenvolvimento de software, especificamente sobre o Processo Unificado, o qual foi utilizado
como guia neste projeto.
O Capítulo 4 inicia o relatório de desenvolvimento do software. Neste capítulo é
definida uma visão geral do sistema. São listadas as funcionalidades do software através da
especificação dos requisitos e dos casos de uso do software. No Capítulo 5, tratamos do primeiro
ciclo de desenvolvimento onde passamos pelas etapas de análise e projeto do sistema e
implementação de um protótipo. Na de análise abstraímos os conceitos do domínio do problema,
relevantes em uma primeira análise, e desenhamos o diagrama conceitual do sistema. Na etapa de
projeto descrevemos sobre a arquitetura de software empregada no sistema e projetamos as
classes do sistema, que deverão ser traduzidas em linguagem de programação Java. O capítulo 6
relata o desenvolvimento do sistema descrevendo a evolução do trabalho durante os ciclos de
desenvolvimento 2 a 6. Finalmente, no Capítulo 7, são feitas as considerações finais sobre o
projeto.
2
ANÁLISE EXPLORATÓRIA DE DADOS
A estatística é uma área do conhecimento e também uma ciência que, baseia-se na
teoria estatística, um ramo da matemática aplicada, para explicação de eventos, estudos e
experimentos. Tem por objetivo obter, organizar e analisar dados, determinar as correlações
que apresentem, tirando delas suas conseqüências para descrição e explicação do que passou e
previsão e organização do futuro (Wikipedia).
Segundo (Costa Neto,1977) a estatística pode ser dividida basicamente em duas
partes: a Estatística Descritiva ou Análise Exploratória de Dados que, compreende a
organização, apresentação e sintetização dos dados, e a Estatística Indutiva que cuida da
análise e interpretação dos dados.
De acordo com (Costa Neto, 1977) um estudo estatístico completo que recorra às
técnicas de Estatística Indutiva irá envolver também, direta ou indiretamente, tópicos de
Estatística Descritiva, Cálculo de Probabilidades e Técnicas de Amostragem, conforme Figura
1.
Figura 1 Esquema geral de Estatística - Fonte: Costa Neto, 1977.
Amostragem
Estatística
Descritiva
Cálculo de
Probabilidades
Estatística
Indutiva
A seguir são mostrados alguns conceitos importantes relacionados à estatística,
focando na Análise Exploratória de Dados, a qual é o tema central abordado no trabalho.
2.1 ARQUIVOS DE DADOS
Para a aplicação das técnicas de análise exploratória de dados em um conjunto de
dados previamente observados, é necessário que os dados estejam organizados de uma forma
padronizada para facilitar a análise. Essa padronização consiste em codificar os dados
coletados, em uma matriz de dados, onde cada coluna se refere a uma variável e cada linha a
um respondente ou observação. As variáveis são as características que podem ser observadas
ou medidas em cada elemento da população, sob as mesmas condições (Barbetta, 2002).
Para exemplificar, a Tabela 1 mostra os dados já codificados de unidades
observacionais.
Tabela 1 Dados codificados de 5 famílias (Barbetta, 2002).
Nº
LOCAL
P.A.P.
INSTRUÇÃO TAMANHO RENDA
1
1
0
3
4
10,3
2
1
0
3
4
15,4
3
1
1
2
4
9,6
4
1
0
2
5
5,5
Na Tabela 1, temos cinco variáveis que foram codificadas da seguinte maneira:
LOCAL(localidade da moradia):
1 = Conjunto Residencial Monte Verde,
2 = Conjunto Residencial Parque da Figueira,
3 = Encosta do Morro.
P.A.P. ( uso de algum programa de alimentação popular ):
0 = não;
1 = sim.
INSTRUÇÃO ( grau de instrução do chefe da casa ):
1 = nenhum grau de oficialmente completo;
2 = primeiro grau completo;
3 = segundo grau completo.
TAMANHO (número de pessoas residentes no domicílio).
RENDA (renda familiar mensal, em quantidades de salários mínimos).
Normalmente os dados para análise estatística são codificados em códigos numéricos
que representam o valor real da observação, como é o caso das variáveis LOCAL, P.A.P. e
INSTRUÇÃO. Em alguns casos não é necessária nenhuma codificação. Por exemplo, a
variável TAMANHO, que representa a quantidade de pessoas residentes no domicílio, pois
neste caso os valores já estão em formato numérico. No entanto, pode haver casos em que
variáveis cujos dados já estão em formato numérico precisem ser codificadas. É o caso da
variável RENDA que está codificada em quantidade de salários mínimos, pois provavelmente
os valores originais desta variável deveriam estar em valores da moeda corrente da época da
pesquisa. Se os dados de RENDA tivessem sido deixados em seu formato original seria muito
difícil analisar hoje o nível da renda familiar, devido às várias transformações econômicas
ocorridas desde a época da pesquisa. Ou seja, todas as variáveis devem passar por um
processo de codificação que, deve levar em conta os objetivos da pesquisa.
2.2 TIPOS DE VARIÁVEIS
As variáveis podem ser classificadas em Quantitativa ou Qualitativa de acordo com
os possíveis resultados das mesmas (Barbetta, 2002), conforme ilustra a Figura 2.
Figura 2 Classificação das variáveis e dos dados
Fonte: Barbetta, 2002.
Quando os possíveis resultados de uma variável são números de certa escala, ou seja,
quando sua medida tem sentido de quantidade, a variável é classificada como quantitativa. As
variáveis quantitativas podem ainda ser divididas em contínuas e discretas. As contínuas são
as variáveis quantitativas que podem assumir, teoricamente, qualquer valor dentro de um
intervalo contínuo. Por exemplo, a variável RENDA, da tabela 1 apresentada na seção
anterior, é uma variável contínua. Já as variáveis quantitativas discretas, podem assumir
apenas valores enumeráveis dentro de um determinado domínio, e geralmente são números
inteiros positivos. A variável TAMANHO da Tabela 1, apresentada na seção anterior, é um
exemplo de variável discreta.
As variáveis qualitativas não apresentam um valor de medida com sentido de
quantidade, mas sim atributos ou qualidades do elemento em observação. As variáveis
qualitativas podem ser divididas em qualitativa nominal e qualitativa ordinal. Como exemplo
de variável qualitativa nominal no conjunto de dados da seção anterior tem-se a variável
P.A.P. com duas categorias possíveis. Sim (usa programa de alimentação popular), e Não (não
Dados quantitativos
Dados qualitativos
ou categorizados
Variável
Quantitativa
Qualitativa ou
categorizada
usa o programa). É fácil perceber, que nesta variável não há uma ordem determinada entre as
categorias. Já a variável INSTRUÇÃO, apresenta treis categorias. Nenhum grau de estudo,
primeiro grau e segundo grau. Neste caso, percebe-se certa ordem ou hierarquia, tratando-se,
portanto de uma variável qualitativa ordinal.
2.3 DISTRIBUIÇÃO DE FREQÜÊNCIA
A distribuição de freqüência compreende a organização dos dados de acordo com as
ocorrências dos diferentes resultados observados (Barbetta, 2002). Por exemplo, a Tabela 2
apresenta a distribuição de freqüências para 119 famílias do Saco Grande II, com relação ao
grau de instrução do chefe da família. A distribuição de freqüências é obtida contabilizando
quantos chefes de família (ou a percentagem) se enquadram em cada categoria de grau da
variável instrução.
Tabela 2 Distribuição de freqüências do grau de instrução do chefia da casa, numa amostra de
19 famílias do Saco Grande II, Florianópolis – SC, 1988.
Grau de instrução
Freqüência
Percentagem
Nenhum grau
18
31,9%
Primeiro grau
41
31,9%
Segundo grau
30
36,1%
As distribuições de freqüências podem ser apresentadas em tabelas como a mostrada
acima ou através de gráficos. As distribuições de freqüências de variáveis qualitativas são
normalmente apresentadas em gráficos de setores, de barras ou colunas. A Figura 3 ilustra um
exemplo de gráfico de setores.
Figura 3 Distribuição de freqüências do grau de instrução do chefe da casa, numa amostra de
119 famílias do Saco Grande II, Florianópolis – SC, 1988.
Quanto as variáveis quantitativas, a distribuição de freqüência pode ser feita da
mesma forma que é feita para variáveis categóricas, desde que a variável seja discreta e a
quantidade de diferentes valores observados seja pequena. Para as variáveis contínuas ou
discretas com grande quantidade de valores distintos, os dados devem ser, primeiramente,
grupados em classes ou intervalos de modo a facilitar a sua análise. A Tabela 3 exemplifica
uma distribuição de freqüências de uma variável quantitativa contínua grupada em intervalos.
Tabela 3 Distribuição de freqüências da renda do chefe da família em salários mínimos, em
uma amostra de 119 famílias do Saco Grande II, Florianópolis – SC, 1988.
Renda em salários mínimos
Freqüências
0,10 |-- 2,66
18
2,66 |-- 5,22
41
5,22 |-- 7,78
30
7,78 |-- 10,34
13
10,34 |-- 12,90
11
12,90 |-- 15,47
2
15,47 |-- 18,03
1
18,03 |-- 20,59
2
20,59 |-- 23,15
0
23,15 |-- 25,71
1
Total
119
Para as variáveis quantitativas as representações gráficas mais usadas são os
histogramas e os polígonos de freqüência. Ver exemplo de histograma na Figura 4.
Figura 4 Distribuição de freqüências da renda do chefe da família em salários mínimos, numa
amostra de 119 famílias do Saco Grande II, Florianópolis – SC, 1988.
2.4 MEDIDAS DESCRITIVAS
Muitas vezes é necessário sumarizar certas características das distribuições de
freqüências por meio de medidas usualmente denominadas de medidas da distribuição de
freqüência (Costa Neto, 1977). Temos, assim, medidas de posição, de dispersão, de assimetria
e de achatamento ou curtose.
As medidas de posição e de dispersão são as mais importantes, tendo grande
aplicação em problemas de Estatística Indutiva. Como medidas de posição, podem-se citar a
média, a mediana, a moda, os quartis e os percentis. As três primeiras medidas indicam por
critérios diferentes, o centro da distribuição de freqüência.
As medidas de dispersão complementam a informação fornecida pelas medidas de
posição, indicando o quanto os dados se encontram dispersos em torno da região central
(Costa Neto,1977). Exemplos de medidas de dispersão são: amplitude, variância,
desvio-padrão e coeficiente de variação, coeficiente de assimetria.
Nas seções 2.4.1 à 2.4.3, são definidas as medidas de posição, e nas seções 2.4.4 à
2.4.6 são definidas as medidas de dispersão.
2.4.1 MÉDIA ARITIMÉTICA
A média é a medida de posição mais comumente usada e existem várias fórmulas
para o cálculo da média, como por exemplo, média aritmética, geométrica, e ponderada. A
mais popular e mais simples de todas é a média aritmética, a qual pode ser definida como a
soma dos valores(x) dividida pelo número(n) de valores observados.
n
X
X
=
∑
2.4.2 PERCENTIL, MEDIANA E QUARTIL
Um percentil é uma medida da posição relativa de uma unidade observacional em
relação a todas as outras. O k-ésimo percentil tem no mínimo k% dos valores abaixo daquele
ponto e no mínimo (100 - k)% dos valores acima.
Para converter o k-ésimo percentil no valor amostral correspondente deve-se
executar os seguintes passos(Triola, 2008):
Ordenar os dados do menor para o maior;
Calcular o localizador que dá a posição do valor amostral através da expressão
n
k
L
=
100
, onde n é o número de valores e k é o percentil em questão;
Se L é um valor inteiro, então o valor do k-ésimo percentil está a meio caminho entre
o L-ésimo valor e o valor seguinte no conjunto ordenado de dados. Neste caso o k-ésimo
percentil é achado somando o L-ésimo valor e o valor seguinte e dividindo o total por 2;
Se L é um valor fracionário, então arredonda-se L para inteiro. O k-ésimo percentil é
o L-ésimo valor na amostra.
Os percentis com k igual a 25, 50 e 75 são chamados, respectivamente, de primeiro
quartil (simbolizado por Q
1), de segundo quartil (Q
2) igual à mediana (Md) e de terceiro
quartil (Q
3). A mediana junto com os quartis são as medidas de posição baseadas na ordem
dos valores mais utilizadas, sendo a mediana definida como o valor do conjunto de dados que,
divide a distribuição ao meio deixando os 50%, menores valores de um lado e os 50%,
maiores valores do outro lado (Barbetta, 2002).
Figura 5 Quartil inferior (Q
I), Mediana (M
d) e Quartil superior (Q
S).
Fonte: Barbetta, 2002.
25
%
25
%
25
%
25
%
Q
I
M
d
Q
S
2.4.3 MODA
A moda é definida como o valor que ocorre com maior freqüência na distribuição.
Das medidas de posição central é a de menor importância, pois dependendo do conjunto de
dados pode haver mais de uma moda ou, simplesmente, pode não haver moda para a
distribuição em análise.
2.4.4 AMPLITUDE
A amplitude é definida como a diferença entre o maior e o menor valor do conjunto
de dados. É a medida de dispersão mais simples, facilmente calculada a partir de apenas dos
valores da distribuição. Porém, é uma medida imprecisa, pois o cálculo envolve só dois
valores observados, não importando se o conjunto de dados tenha 1000 observações.
2.4.5 VARIÂNCIA E DESVIO PADRÃO
A variância é, por definição, a média dos quadrados das diferenças dos valores em
relação à sua média. Como a variância de um conjunto de dados é calculada em função dos
desvios quadráticos, sua unidade de medida equivale à unidade de medida dos dados ao
quadrado (Barbetta, 2002). Na prática, esse inconveniente é sanado com a definição do desvio
padrão, que nada mais é do que a raiz quadrada positiva da variância.
Variância:
1
)
(
2 2−
=
∑
−
n
X
X
S
Desvio Padrão:
1
)
(
2−
=
−
∑
n
S
X
X
2.4.6 COEFICIENTE DE VARIAÇÃO
O coeficiente de variação é uma medida de dispersão relativa que é melhor para
comparar a variabilidade entre diversos conjuntos de dados que têm médias bem diferentes. O
coeficiente de variação é obtido dividindo-se o desvio padrão pela média da distribuição.
X
S
CV =
Como tanto o desvio padrão quanto à média, está na mesma unidade, o CV é
independente de unidade de medida. Uma desvantagem do CV é que não é utilizável se a
média for muito próximo à zero.
2.4.7 COEFICIENTE DE ASSIMETRIA
O coeficiente de assimetria caracteriza o grau de desvio ou de afastamento de uma
distribuição em torno de sua média. Quando a curva é simétrica, a média, a mediama e a
moda coincidem, num mesmo ponto, de ordenada máxima, havendo um perfeito equilíbrio na
distribuição. Quando o equilíbrio não acontece, isto é, a média, a mediana e a moda recaem
em pontos diferentes da distribuição esta será assimétrica; enviesada a direita ou esquerda.
3 1