Introdução à Estatística - 1. Objecto da Estatística
"Ciência que dispõe de processos apropriados para recolher,
organizar, classificar, apresentar e interpretar conjuntos de dados"
A estatística fornece-nos as técnicas para extrair informação de dados,
os quais são muitas vezes incompletos, na medida em que nos dão
informação útil sobre o problema em estudo, não realçando, no entanto,
aspectos importantes.
É objectivo da Estatística extrair informação dos dados para obter
uma melhor compreensão das situações que representam.
Introdução à Estatística - 2. População e Amostra
Uma noção fundamental em Estatística é a de conjunto ou agregado, conceito para o qual se usam, indiferentemente, os termos População ou universo.
2.1-População
Colecção de unidades individuais, que podem ser pessoas ou resultados experimentais, com uma ou mais características comuns, que se pretendem estudar.
Introdução à Estatística - 3. Recenseamento e Sondagem
3.1-RecenseamentoO termo recenseamento está, em regra geral, associado à contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo:
Estudo científico de um universo de pessoas, instituições ou objectos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo.
Para a maioria das pessoas a palavra recenseamento ou censo encontra-se associada à enumeração dos elementos da população de um País. Em Portugal, de dez em dez anos, realiza-se o Recenseamento Geral da População. O último ocorreu em 2001, encontrando-se disponíveis na Internet (Infoline - Serviço de Informação On Line do INE) os resultados desses censos - Censos 2001.
Introdução à Estatística - 4. Estatística Descritiva e Estatística Indutiva
De acordo com o que dissemos anteriormente, numa análise
estatística distinguem-se essencialmente duas fases:
Uma primeira fase em que se procura descrever e estudar a amostra:
Estatística Descritiva
e uma segunda fase em que se procura tirar conclusões para a
população:
Introdução à Estatística - 4. Estatística Descritiva e Estatística Indutiva
Exemplo de Aplicação da Estatística
Introdução à Estatística - 5. Campos de Aplicação
"Os campos de aplicação da Estatística são muitos e os mais
variados."
O gerente de uma fábrica de detergentes pretende lançar um novo produto para lavar a loiça, pelo que, encarrega uma empresa especialista em estudos de mercado de "estimar" a percentagem de potenciais compradores desse produto.
Populaçã
o: conjunto de todos os agregados familiares do País
Amostra: conjunto de alguns agregados familiares, inquiridos pela empresa
Problema
: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do número de compradores na População.
Estudos de mercado
Dados, Tabelas e Gráficos - 1. Tipos de Dados
Podemos classificar os dados que constituem a
Amostra
, ou dados
amostrais, em dois tipos fundamentais:
Dados qualitativos e dados quantitativos
1.1- Dados qualitativos
Representam a informação que identifica alguma qualidade,
categoria ou característica, não susceptível de medida, mas de
classificação, assumindo várias modalidades.
Exemplo: O estado civil de um indivíduo é um dado qualitativo,
Dados, Tabelas e Gráficos - 1. Tipos de Dados
1.2- Dados quantitativos
Representam a informação resultante de características
susceptíveis de serem medidas, apresentando-se com diferentes
intensidades, que podem ser de natureza discreta (descontínua) -
dados discretos, ou contínua - dados contínuos.
Exemplo: Consideremos uma amostra constituída pelo nº de irmãos
de 10 alunos de uma determinada turma :
3, 4, 1, 1, 3, 1, 0, 2, 1, 2
Estes dados são de natureza discreta.
Se para os mesmos alunos considerarmos as alturas (cm):
153, 157, 161, 160, 158, 155, 162, 156, 152, 159
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.1- Dados discretos
Estes dados só podem tomar um número finito ou infinito numerável de valores distintos, apresentando vários valores repetidos - é o caso, por exemplo, do nº de filhos de uma família ou do nº de acidentes, por dia, em determinado cruzamento
.
Como organizar os dados ?
Os dados são organizados na forma de uma tabela de frequências, análoga à construída para o caso dos dados qualitativos. No entanto, em vez das categorias apresentam-se os valores distintos da amostra, os quais vão constituir as classes.
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
Exemplo: Consideremos a amostra constituída pelo nº de irmãos dos 20
alunos de uma determinada turma
:
1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2
tabela de frequências
classes freq. abs. freq. rel.
0 4 0.20 1 8 0.40 2 4 0.20 3 3 0.15 4 1 0.05 total 20 1.00
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.2- Dados contínuos
No caso de uma variável contínua, esta pode tomar todos os valores
numéricos, inteiros ou não, compreendidos no seu intervalo de
variação - temos por exemplo o peso, a altura, etc...
Como organizar os dados?
Enquanto que no caso de dados discretos, a construção da tabela de
frequências não apresenta qualquer dificuldade, no caso das variáveis
contínuas o processo é um pouco mais elaborado, distinguindo-se
certas etapas principais, que se descrevem nas páginas seguintes...
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.3.1- Diagrama de caule-e-folhas
É um tipo de representação que se pode considerar entre a tabela e o gráfico, uma vez que são apresentados os verdadeiros valores da amostra, mas numa apresentação sugestiva, que faz lembrar um histograma.
Consiste em escrever do lado esquerdo de uma linha vertical o dígito (ou dígitos) da classe de maior grandeza, seguidos dos restantes. A representação obtida terá o seguinte aspecto:
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.3.2- Distribuições característicasAlguns histogramas apresentam formas que, pela frequência com
que surgem, merecem referência especial. Assim, as distribuições
mais comuns apresentadas pelos dados são:
Distribuições simétricas
Distribuições enviesadas
Distribuições com "caudas" longas
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
a. Distribuições simétricas
A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média:
b. Distribuições enviesadas
A distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores
substancialmente mais pequenos num dos lados, relativamente ao outro:
c. Distribuições com "caudas" longas
A distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais:
d. Distribuições com vários "picos" ou modas
A distribuição das frequências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos:
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.3.3- Função distribuição empíricaEmbora duma representação gráfica como o histograma, ou o "caule e
folhas", se possa extrair informação relevante para a caracterização
dos dados, na medida em que nos mostra a forma como se encontram
concentrados, essa representação pode não ser suficiente, quando se
pretende outro tipo de informação, como seja a de saber qual a
percentagem de valores da amostra inferiores ou superiores a um
determinado valor!
Assim, quando se pretende este tipo de informação, existe uma
representação gráfica conveniente, que é a função distribuição
empírica.
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.3.4- Diagrama de extremos e quartis e Caixa dos bigodes
2.3.4.1- Diagrama de extremos e quartis
É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º QUARTIS, que vamos representar por Q1 e Q3 é representado por um rectângulo (caixa) com a MEDIANA indicada por uma barra. A largura do rectângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos lados do rectângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:
Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados
2.3.5 - Diagrama Circular
Como o nome sugere esta representação é constituída por um círculo, em que se apresentam vários sectores circulares, tantos quanto as classes consideradas na tabela de frequências da amostra em estudo. Os ângulos dos sectores são
proporcionais às frequências das classes. Por exemplo uma classe com uma
frequência relativa igual a 0.20, terá no diagrama circular um sector com um ângulo igual a 360x0.20 = 72 graus. É uma representação utilizada essencialmente para dados qualitativos.
Exemplo: Categoria profissional dos funcionários de uma Escola Secundária.
Classes Freq. abs. Freq. rel.
AE (Auxiliar de Acção Educativa) 20 0.47 Ad (Administrativo) 12 0.29 AS (Técnico de Acção Social) 7 0.17
Op (Operário) 3 0.07
Total 42 1.00
Medidas de Localização - Índice
1.
Introdução
2.
Média
3.
Moda
4.
Mediana
5.
Quantis
No capítulo Dados, tabelas e gráficos, vimos alguns processos de resumir informação contida na amostra, utilizando os processos gráficos.
Veremos agora um outro processo de resumir essa informação, utilizando determinadas medidas, calculadas a partir de dados, que se chamam ESTATÍSTICAS.
Medidas de Localização - 1. Introdução
Medidas de Localização - 2. Média
A média amostral ou simplesmente média, que se representa por X é uma medida de
localização do centro da amostra, e obtém-se a partir da seguinte expressão:
Medidas de Localização - 3. Moda
Para um conjunto de dados, define-se moda como sendo:
o valor que surge com mais frequência
se os dados são discretos, ou, o intervalo
de classe com maior frequência se os
dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que
representa a moda ou a classe modal
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação).
Medidas de Localização - 4. Mediana
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:
Se n é ímpar, a mediana é o elemento médio.
Se n é par, a mediana é a semi-soma dos dois elementos médios. Se se representarem os
elementos da amostra ordenada com a seguinte notação: X1:n , X2:n , ... , Xn:n então uma expressão para o cálculo da mediana será:
A mediana, m, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo:
Ordenados os elementos da amostra, a mediana é o valor
(pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana
Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados !
Medidas de Localização - 5. Quantis
Quantis de ordem p
Generalizando a noção de mediana m, que como vimos anteriormente é a medida de localização, tal que 50% dos elementos da amostra são menores ou iguais a m, e os outros 50% são maiores ou iguais a m, temos a noção de quantil de ordem p, com 0<p<1, como sendo o valor Qp tal que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100 (1-p) % dos elementos da amostra são maiores ou iguais a Qp.
Tal como a mediana, é uma medida que se
calcula a partir da amostra ordenada.
Um processo de obter os quantis é utilizando a
Medidas de Dispersão - Índice
1. Introdução 2. Variância 3. Desvio-padrão 4. Amplitude 5. Amplitude inter-quartilMedidas de Dispersão - 1. Introdução
Anteriormente vimos algumas medidas de localização do centro de uma distribuição de dados. Veremos agora como medir a variabilidade presente num conjunto de dados através das seguintes medidas :
Desvio padrão Amplitude Amplitude inter-quartil
Procuraremos realçar:
1. Processo de as calcular 2. Propriedades
Medidas de Dispersão - 2. Variância
Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um:
Quais as razões que nos levam a considerar aquela definição para a
Medidas de Dispersão - 3. Desvio Padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não
negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados.
Medidas de Dispersão - 4. Amplitude
Uma medida de dispersão que se utiliza por vezes, é a amplitude
amostral r, definida como sendo a diferença entre a maior e a
menor das observações:
r = xn:n - x1:n
onde representamos por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notação introduzida anteriormente, para a amostra ordenada.
Medidas de Dispersão - 5. Amplitude Inter-Quartil
A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a
diferença entre os 1º e 3º quartis *
Amplitude inter-quartil = Q3/4 - Q1/4
Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra, estão contidos num intervalo com aquela amplitude.Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.
Atenção: Mas, ao contrário do que acontece com o
desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.
Distribuições Bidimensionais - Índice
1.
Dados bivariados: o que
são ?
2.
Representações gráficas
3.Coeficiente de correlação
4.Tabela de contingência
Distribuições Bidimensionais - 1. Dados bivariados: o que são ?
Por vezes a População que se pretende estudar, aparece sob a forma de pares de valores, isto é, cada indivíduo ou resultado experimental, contribui com um conjunto de dois valores.
É o que acontece, por
exemplo, quando se
considera para cada aluno candidato ao Ensino Superior, a nota final de Matemática e a nota da Prova Específica.
Distribuições Bidimensionais - 2. Representações Gráficas
Diagrama de pontos - É uma representação gráfica para os dados bivariados, em que cada par de dados (xi,yi) é representado por um ponto de coordenadas (xi,yi), num sistema de eixos coordenados.
Este tipo de representação é muito útil, pois permite realçar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associação entre os x´s e os y´s. Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.
Distribuições Bidimensionais - 2. Representações
Exemplo 1:
Considere os seguintes dados, que representam as medidas, em mm, de ossos do braço e da perna, de fósseis do período Neanderthal.
Construa o Diagrama de Pontos e comente-o.
Espécie Braço (Úmero)x [mm] Perna (Fémur)y [mm]
A 312 430 B 335 458 C 286 407 D 312 440 E 305 422 Comentário:
Verifica-se uma associação linear entre as medidas dos ossos do braço e da perna, isto é, aos maiores valores de x
correspondem os maiores valores de y. Esta conclusão seria de esperar, pois de um modo geral se as pessoas são
Distribuições Bidimensionais - 2. Representações Gráficas
Exemplo
2: Considere os seguintes dados, que representam o número de
faltas não autorizadas por ano e a distância (em km) a que os empregados de determinado armazém estão de casa. Construa o Diagrama de Pontos e comente-o.
Comentário:
O gráfico mostra uma ligeira associação, de sentido contrário, entre o nº de faltas e a distância.
Distribuições Bidimensionais - 2. Representações Gráficas
Exemplo 3:
Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Educação Física.
Construa o Diagrama de Pontos e comente-o.
Comentário:
Aparentemente não existe nenhuma associação linear entre as duas
disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatória".
Distribuições Bidimensionais - 3. Coeficiente de
Já vimos na secção anterior que quando dispomos de uma amostra de dados bivariados (xi,yi), a sua representação em diagrama de dispersão, pode mostrar a existência de uma certa relação linear entre os factores x e y, que compõem os pares. A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o coeficiente
de correlação (linear), que se representa por r e se calcula a partir da
expressão:
Distribuições Bidimensionais - 4. Tabela de Contingência
Um processo de organizar a informação correspondente a dados bivariados é utilizando uma tabela de contingência.
De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios.
O aspecto de uma tabela de contingência é o de uma tabela com linhas,
correspondentes a um dos critérios, e com colunas, correspondente ao outro critério. Seguidamente apresentaremos alguns exemplos, para ilustrar o que acabamos de dizer.
Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo, M ou F, e o estado civil - solteiro, casado, viúvo ou divorciado. Para resumir a informação contida na amostra, construiu-se a seguinte tabela de contingência:
Exemplo 1:
Da análise da tabela podemos tirar algumas conclusões, tais como:
1- O número de indivíduos do sexo masculino e
solteiros é 40
2- O número de indivíduos do sexo masculino é
68
Considere os seguintes dados, já apresentados anteriormente, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Ed. Física. Construa uma tabela de contingência, para resumir a informação contida nos dados.
Exemplo 2: