• Nenhum resultado encontrado

Introducao a Estatistica

N/A
N/A
Protected

Academic year: 2021

Share "Introducao a Estatistica"

Copied!
37
0
0

Texto

(1)

Introdução à Estatística - 1. Objecto da Estatística

"Ciência que dispõe de processos apropriados para recolher,

organizar, classificar, apresentar e interpretar conjuntos de dados"

      

A estatística fornece-nos as técnicas para extrair informação de dados,

os quais são muitas vezes incompletos, na medida em que nos dão

informação útil sobre o problema em estudo, não realçando, no entanto,

aspectos importantes.

É objectivo da Estatística extrair informação dos dados para obter 

uma melhor compreensão das situações que representam.

(2)

Introdução à Estatística - 2. População e Amostra

Uma noção fundamental em Estatística é a de conjunto ou agregado, conceito para o qual se usam, indiferentemente, os termos População ou universo.

2.1-População

Colecção de unidades individuais, que podem ser pessoas ou resultados experimentais, com uma ou mais características comuns, que se pretendem estudar.

(3)

Introdução à Estatística - 3. Recenseamento e Sondagem

3.1-Recenseamento

O termo recenseamento está, em regra geral, associado à contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo:

Estudo científico de um universo de pessoas, instituições ou objectos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo.

Para a maioria das pessoas a palavra recenseamento ou censo encontra-se associada à enumeração dos elementos da população de um País. Em Portugal, de dez em dez anos, realiza-se o Recenseamento Geral da População. O último ocorreu em 2001, encontrando-se disponíveis na Internet (Infoline - Serviço de Informação On Line do INE) os resultados desses censos - Censos 2001.

(4)

Introdução à Estatística - 4. Estatística Descritiva e Estatística Indutiva

De acordo com o que dissemos anteriormente, numa análise 

estatística distinguem-se essencialmente duas fases:

Uma primeira fase em que se procura descrever e estudar a amostra:

Estatística Descritiva

e uma segunda  fase em que se procura tirar conclusões para a

população:

(5)

Introdução à Estatística - 4. Estatística Descritiva e Estatística Indutiva

Exemplo de Aplicação da Estatística

(6)

Introdução à Estatística - 5. Campos de Aplicação

"Os campos de aplicação da Estatística são muitos e os mais

variados."

O gerente de uma fábrica de detergentes pretende lançar um novo produto para lavar a loiça, pelo que, encarrega uma empresa especialista em estudos de mercado de "estimar" a percentagem de potenciais compradores desse produto.

Populaçã

o: conjunto de todos os agregados familiares do País

Amostra: conjunto de alguns agregados familiares, inquiridos pela empresa

Problema

: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do número de compradores na População.

Estudos de mercado

(7)

Dados, Tabelas e Gráficos - 1. Tipos de Dados

Podemos classificar os dados que constituem a

Amostra

, ou dados

amostrais, em dois tipos fundamentais:

Dados qualitativos e dados quantitativos

1.1- Dados qualitativos

Representam a informação que identifica alguma qualidade,

categoria ou característica, não susceptível de medida, mas de

classificação, assumindo várias modalidades.

  

Exemplo: O estado civil de um indivíduo é um dado qualitativo,

(8)

Dados, Tabelas e Gráficos - 1. Tipos de Dados

1.2- Dados quantitativos

Representam a informação resultante de características

susceptíveis de serem medidas, apresentando-se com diferentes

intensidades, que podem ser de natureza discreta (descontínua) -

dados discretos, ou contínua - dados contínuos.

Exemplo: Consideremos uma amostra constituída pelo nº de irmãos

de 10 alunos de uma determinada turma :

3, 4, 1, 1, 3, 1, 0, 2, 1, 2

Estes dados são de natureza discreta.

Se para os mesmos alunos considerarmos as alturas (cm):

153, 157, 161, 160, 158, 155, 162, 156, 152, 159

(9)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.1- Dados discretos 

Estes dados só podem tomar um número finito ou infinito numerável de valores distintos, apresentando vários valores repetidos - é o caso, por exemplo, do nº de filhos de uma família ou do nº de acidentes, por dia, em determinado cruzamento

.

Como organizar os dados ?

Os dados são organizados na forma de uma tabela de frequências, análoga à construída para o caso dos dados qualitativos. No entanto, em vez das categorias apresentam-se os valores distintos da amostra, os quais vão constituir as classes.

(10)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

Exemplo: Consideremos a amostra constituída pelo nº de irmãos dos 20

alunos de uma determinada turma

:

1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2

             

tabela de frequências

classes freq. abs. freq. rel.

0 4 0.20 1 8 0.40 2 4 0.20 3 3 0.15 4 1 0.05 total 20 1.00

(11)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.2- Dados contínuos

No caso de uma variável contínua, esta pode tomar todos os valores

numéricos, inteiros ou não, compreendidos no seu intervalo de

variação - temos por exemplo o peso, a altura, etc...

  

Como organizar os dados?

Enquanto que no caso de dados discretos, a construção da tabela de

frequências não apresenta qualquer dificuldade, no caso das variáveis

contínuas o processo é um pouco mais elaborado, distinguindo-se

certas etapas principais, que se descrevem nas páginas seguintes...

(12)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.3.1- Diagrama de caule-e-folhas

É um tipo de representação que se pode considerar entre a tabela e o gráfico, uma vez que são apresentados os verdadeiros valores da amostra, mas numa apresentação sugestiva, que faz lembrar um histograma.

Consiste em escrever do lado esquerdo de uma linha vertical o dígito (ou dígitos) da classe de maior grandeza, seguidos dos restantes. A representação obtida terá o seguinte aspecto:

(13)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.3.2- Distribuições características

Alguns histogramas apresentam formas que, pela frequência com 

que surgem, merecem referência especial. Assim, as distribuições 

mais comuns apresentadas pelos dados são:

Distribuições simétricas

Distribuições enviesadas

Distribuições com "caudas" longas

(14)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

a. Distribuições simétricas

A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média:

b. Distribuições enviesadas

A distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores

substancialmente mais pequenos num dos lados, relativamente ao outro:

c. Distribuições com "caudas" longas

A distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais:

d.  Distribuições  com  vários  "picos" ou modas

A distribuição das frequências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos:

(15)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.3.3- Função distribuição empírica

Embora duma representação gráfica como o histograma, ou o "caule e

folhas", se possa extrair informação relevante para a caracterização

dos dados, na medida em que nos mostra a forma como se encontram

concentrados, essa representação pode não ser suficiente, quando se

pretende outro tipo de informação, como seja a de saber qual a

percentagem de valores da amostra inferiores ou superiores a um

determinado valor!

Assim, quando se pretende este tipo de informação, existe uma

representação gráfica conveniente, que é a função distribuição

empírica.

(16)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

    

2.3.4- Diagrama de extremos e quartis e Caixa dos bigodes

2.3.4.1- Diagrama de extremos e quartis

É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º QUARTIS, que vamos representar por Q1 e Q3 é representado por um rectângulo (caixa) com a MEDIANA indicada por uma barra. A largura do rectângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos lados do rectângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

(17)

Dados, Tabelas e Gráficos - 2. Representação Gráfica de Dados

2.3.5 - Diagrama Circular

Como o nome sugere esta representação é constituída por um círculo, em que se apresentam vários sectores circulares, tantos quanto as classes consideradas na tabela de frequências da amostra em estudo. Os ângulos dos sectores são

proporcionais às frequências das classes. Por exemplo uma classe com uma

frequência relativa igual a 0.20, terá no diagrama circular um sector com um ângulo igual a 360x0.20 = 72 graus. É uma representação utilizada essencialmente para dados qualitativos.

Exemplo: Categoria profissional dos funcionários de uma Escola Secundária.

Classes Freq. abs. Freq. rel.

AE (Auxiliar de Acção Educativa) 20 0.47 Ad (Administrativo) 12 0.29 AS (Técnico de Acção Social) 7 0.17

Op (Operário) 3 0.07

Total 42 1.00

(18)

Medidas de Localização - Índice

1.

Introdução

2.

Média

3.

Moda

4.

Mediana

5.

Quantis

No capítulo Dados, tabelas e gráficos, vimos alguns processos de resumir informação contida na amostra, utilizando os processos gráficos.

Veremos agora um outro processo de resumir essa informação, utilizando determinadas medidas, calculadas a partir de dados, que se chamam ESTATÍSTICAS.

(19)

Medidas de Localização - 1. Introdução

Medidas de Localização - 2. Média

A média amostral ou simplesmente média, que se representa por X é uma medida de

localização do centro da amostra, e obtém-se a partir da seguinte expressão:

(20)

Medidas de Localização - 3. Moda

Para um conjunto de dados, define-se moda como sendo:

o valor que surge com mais frequência 

se os dados são discretos, ou, o intervalo

de classe com maior frequência se os

dados são contínuos.

Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que

representa a moda ou a classe modal

Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação).

(21)

Medidas de Localização - 4. Mediana

Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:

Se n é ímpar, a mediana é o elemento médio.

Se n é par, a mediana é a semi-soma dos dois elementos médios. Se se representarem os

elementos da amostra ordenada com a seguinte notação:     X1:n , X2:n , ... , Xn:n então uma expressão para o cálculo da mediana será:

A mediana, m, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo:

Ordenados os elementos da amostra, a mediana é o valor

(pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana

Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados !

(22)

Medidas de Localização - 5. Quantis

Quantis de ordem p

Generalizando a noção de mediana m, que como vimos anteriormente é a medida de localização, tal que 50% dos elementos da amostra são menores ou iguais a m, e os outros 50% são maiores ou iguais a m, temos a noção de quantil de ordem p, com 0<p<1, como sendo o valor Qp tal que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100 (1-p) % dos elementos da amostra são maiores ou iguais a Qp.

Tal como a mediana, é uma medida que se

calcula a partir da amostra ordenada.

Um processo de obter os quantis é utilizando a

(23)

Medidas de Dispersão - Índice

1. Introdução 2. Variância 3. Desvio-padrão 4. Amplitude 5. Amplitude inter-quartil

(24)

Medidas de Dispersão - 1. Introdução

Anteriormente vimos algumas medidas de localização do centro de uma distribuição de dados. Veremos agora como medir a variabilidade presente num conjunto de dados através das seguintes medidas :

Desvio padrão       Amplitude       Amplitude inter-quartil

Procuraremos realçar:

1. Processo de as calcular 2. Propriedades

(25)

Medidas de Dispersão - 2. Variância

Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um:

Quais as razões que nos levam a considerar aquela definição para a

(26)

Medidas de Dispersão - 3. Desvio Padrão

Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:

O desvio padrão é uma medida que só  pode  assumir  valores  não 

negativos e quanto maior for, maior será a dispersão dos dados.

Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:

o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados.

(27)

Medidas de Dispersão - 4. Amplitude

Uma medida de dispersão que se utiliza por vezes, é a amplitude

amostral r, definida como sendo a diferença entre a maior e a

menor das observações:

r = xn:n - x1:n   

onde representamos por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notação introduzida anteriormente, para a amostra ordenada.

(28)

Medidas de Dispersão - 5. Amplitude Inter-Quartil

A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a

diferença entre os 1º e 3º quartis *      

 Amplitude inter-quartil = Q3/4 - Q1/4

Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra, estão contidos num intervalo com aquela amplitude.Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.

Atenção:  Mas, ao contrário do que acontece com o

desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.

(29)

Distribuições Bidimensionais - Índice

 

1.

Dados bivariados: o que

são ?

2.

Representações gráficas

3.

Coeficiente de correlação

4.

Tabela de contingência

(30)

Distribuições Bidimensionais - 1. Dados bivariados: o que são ?

Por vezes a População que se pretende estudar, aparece sob a forma de pares de valores, isto é, cada indivíduo ou resultado experimental, contribui com um conjunto de dois valores.

É o que acontece, por

exemplo, quando se

considera para cada aluno candidato ao Ensino Superior, a nota final de Matemática e a nota da Prova Específica.

(31)

Distribuições Bidimensionais - 2. Representações Gráficas

Diagrama  de  pontos  -  É uma representação gráfica para os dados bivariados, em que cada par de dados (xi,yi) é representado por um ponto de coordenadas (xi,yi), num sistema de eixos coordenados.

Este tipo de representação é muito útil, pois permite realçar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associação entre os x´s e os y´s. Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.

(32)

Distribuições Bidimensionais - 2. Representações

Exemplo 1:

Considere os seguintes dados, que representam as medidas, em mm, de ossos do braço e da perna, de fósseis do período Neanderthal.

Construa o Diagrama de Pontos e comente-o.

Espécie Braço (Úmero)x [mm] Perna (Fémur)y [mm]

A 312 430 B 335 458 C 286 407 D 312 440 E 305 422 Comentário:

Verifica-se uma associação linear entre as medidas dos ossos do braço e da perna, isto é, aos maiores valores de x

correspondem os maiores valores de y. Esta conclusão seria de esperar, pois de um modo geral se as pessoas são

(33)

Distribuições Bidimensionais - 2. Representações Gráficas

Exemplo

2: Considere os seguintes dados, que representam o número de

faltas não autorizadas por ano e a distância (em km) a que os empregados de determinado armazém estão de casa. Construa o Diagrama de Pontos e comente-o.

Comentário:

O gráfico mostra uma ligeira associação, de sentido contrário, entre o nº de faltas e a distância.

(34)

Distribuições Bidimensionais - 2. Representações Gráficas

Exemplo 3:

Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Educação Física.

Construa o Diagrama de Pontos e comente-o.

Comentário:

Aparentemente não existe nenhuma associação linear entre as duas

disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatória".

(35)

Distribuições Bidimensionais - 3. Coeficiente de

Já vimos na secção anterior que quando dispomos de uma amostra de dados bivariados (xi,yi), a sua representação em diagrama de dispersão, pode mostrar a existência de uma certa relação linear entre os factores x e y, que compõem os pares. A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o coeficiente 

de correlação (linear), que se representa por r e se calcula a partir da

expressão:

(36)

Distribuições Bidimensionais - 4. Tabela de Contingência

Um processo de organizar a informação correspondente a dados bivariados é utilizando uma tabela de contingência.

De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios.

O aspecto de uma tabela de contingência é o de uma tabela com linhas,

correspondentes a um dos critérios, e com colunas, correspondente ao outro critério. Seguidamente apresentaremos alguns exemplos, para ilustrar o que acabamos de dizer.

Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo, M ou F, e o estado civil - solteiro, casado, viúvo ou divorciado. Para resumir a informação contida na amostra, construiu-se a seguinte tabela de contingência:

Exemplo 1:

Da análise da tabela podemos tirar algumas conclusões, tais como:

1- O número de indivíduos do sexo masculino e

solteiros é 40

2- O número de indivíduos do sexo masculino é

68

(37)

Considere os seguintes dados, já apresentados anteriormente, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Ed. Física. Construa uma tabela de contingência, para resumir a informação contida nos dados.

Exemplo 2:

Referências

Documentos relacionados

1/2016 – para preenchimento de empregos públicos do quadro de pessoal administrativo da Faculdade de Direito de Franca para admissão de Analista de Sistemas,

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

Foi apresentada, pelo Ademar, a documentação encaminhada pelo APL ao INMETRO, o qual argumentar sobre a PORTARIA Nº 398, DE 31 DE JULHO DE 2012 E SEU REGULAMENTO TÉCNICO

Neste trabalho avaliamos as respostas de duas espécies de aranhas errantes do gênero Ctenus às pistas químicas de presas e predadores e ao tipo de solo (arenoso ou

A prova do ENADE/2011, aplicada aos estudantes da Área de Tecnologia em Redes de Computadores, com duração total de 4 horas, apresentou questões discursivas e de múltipla

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

O enfermeiro, como integrante da equipe multidisciplinar em saúde, possui respaldo ético legal e técnico cientifico para atuar junto ao paciente portador de feridas, da avaliação

ensino superior como um todo e para o curso específico; desenho do projeto: a identidade da educação a distância; equipe profissional multidisciplinar;comunicação/interatividade