Prof. Dr. Reinaldo Luiz Cavasso Filho
Prof. Dr. Reinaldo Luiz Cavasso Filho
Centro de Ciências Naturais e Humanas
Universidade Federal do ABC
Aula 5
Aula 5
Noções de Estatística
Noções de Estatística
Gráficos
Gráficos
Roteiro da Aula
PARTE I – Noções de estatística
Usos da estatística (descritiva / indutiva)
Tipos de variáveis
Medidas estatísticas
Distribuição de frequência e distribuição normal
Gráficos
PARTE II –Exercícios
Planilhas e referências
Medidas estatísticas em planilhas
Estatística
•
Conjunto de técnicas que permite de forma
sistemática as seguintes operações sobre dados:
1. Organizar
2. Descrever
3. Analisar
4. Interpretar
•
Dois tipos:
•
Estatística descritiva
Estatística descritiva
Voltada a apresentação, organização e resumo numérico dos dados
-
Pode incluir a construção de gráficos, tabelas e computação de várias
medidas, tais como, medidas de tendência central (ex. a média), de
dispersão (ex. a variância), de frequência (ex. percentagem) e outras.
-O propósito deste tipo de estatística é de fazer com que os dados
coletados sejam compreendidos mais facilmente seja em forma
gráfica ou numérica (tabelas).
-
Cuidado: “estatística” é o termo para o conjunto de procedimentos que
conhecemos como “a estatística” mas também o termo geral para
Estatística indutiva / inferencial
Voltada a realizar estimativas a partir de uma amostra ou testar idéias
teóricas (hipóteses) com dados experimentais
• Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua análise
.
população amostra
Exemplos:
• Estatística descritiva:
– O número de acidentes (= frequência) nas rodovias federais
no estado de São Paulo antes e depois da “Lei Seca”;
– Gráfico com a distribuição da idade dos ingressantes nos
bacharelados interdisciplinares da UFABC.
• Estatística indutiva:
– Estimação da porcentagem da população que votará para
um/a determinado/a candidato/a à presidência, junto com
uma margem de erro (‘intervalo de confiânça’);
– Teste estatístico de tendência de queda nas populações de
atum-rabilho entre 2000 e 2010 a partir de observações
Tipos de variáveis
Independente:
– Valores manipulados ou selecionados pelo
pesquisador (meio, idade, mês).
– Podem ser ou não a “causa” da variável dependente.
Dependente:
– Valores observados, contados, medidos, … que não
estejam sob controle direto do pesquisador
(velocidade, taxa de câmbio).
– Podem ser “causadas” ou não pela variável
independente.
Tipos de variáveis
R$/US$ Taxa
de câmbio
Quando não há relação causal óbvia entre duas ou mais variáveis, qual é ‘independente ‘ ou ‘dependente’ é uma questão de rótulo. A variável
‘dependente’ é esta que analisamos em função dos valores de uma outra variável.
Mês
Variável independente
Variável dependente
Variáveis Discretas e Contínuas
Variáveis quantitativas: expressadas em valores numéricos ( qualitativas) Discretas: Conjunto enumerável de valores
Nominais = categóricas: sem ordem natural de valores
{presente, ausente}, {homem, mulher}, estado de origem (UF), base DNA A/C/T/G.
Ordinais: com ordem natural de valores
Classe sócio-econômica (A-E ou “baixa”, “média”, “alta”), avaliação em escala Likert (nota 1-5), {PP, P, M, G, GG}, número de acidentes. Contínuas: Conjunto não-enumerável, valores reais, não discretizados
Grandezas físicas ou químicas: velocidade, força, probabilidade, concentração, acidez, taxa de câmbio.
Medidas de tendência central
Valor ‘médio’ ou ‘típico’ de um conjunto de
dados.
Média (aritmética)
Mediana
Média aritmética
É o ‘centro de gravidade’ dos dados
soma de um conjunto de escores dividida pelo número de
escores do conjunto :
1 N i iX
X
N
N
iX
é o número total de observações é um valor do conjunto
Alunos (i) Notas (x)
1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53
Média
5,3
Função no Excel ou BrOffice: MÉDIA
(3,0 5,0 ... 2,0 5,0) /10 5,3
X
1 2 3 4 5 6 7 8 9
Mediana:
Valor central do conjunto
que divide a distribuição em
duas partes iguais (mesmo
número de escores abaixo e
acima do valor).
Os dados devem estar
ordenados
Posição da mediana =>
Procedimento “manual”:
1) ordenar valores 2) procurar valor “no meio”
2 1 N
i
Função no Excel ou BrOffice: MED
Notas (x) 3,0 5,0 6,0 4,0 5,0 8,0 9,0 6,0 2,0 7,0 5,0 3;5;6;4;5;8;9;6;2;7;5 Escores ordenados: 2;3;4;5;5;5;6;6;7; 8; 9 Posição: 1;2;3;4;5;6;7;8;9;10;11 1) 2) i= (11 + 1)/2 = 6
Meio = Sexta posição Nota 5
1 2 3 4 5 6 7 8 9 Notas Freqüência Simples Freqüência Acumulada 2 1 1 3 1 2 4 1 3 5 3 6 6 2 8 7 1 9 8 1 10 9 1 11 i= (11 + 1)/2 = 6 Posição 6 Xi=X6=Nota 5 Me
No caso de um número par de sujeitos a mediana é a média entre os dois valores centrais. 1 2 3 4 5 6 7 8 9
{
5 , 5 Ex. Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82iMe=(6+1)/2=3,5? – terceira e quarta posição Med = (62+64)/2= 63
Moda
É a categoria que ocorre com maior frequência.
ex.
Sujeitos Notas 2 1 3 1 4 1 5 3 6 2 7 1 8 1 9 1Função no Excel ou BrOffice: MODO
A moda pode não existir OU
pode não ser única.
Exemplos:
1,1,3,3,5,7,7,7,11,13 moda 7
3,5,8,11,13,18 não tem moda
3,5,5,5,6,6,7,7,7,11,12 tem
duas modas: 5,7 (bimodal).
Sujeitos Notas 2 1 3 3 4 1 5 1 7 3 8 1 9 1
Características das medidas de tendência central
A b a ix o d e 1 0 0 1 0 0 3 0 0 5 0 0 7 0 0 9 0 0 1 0 0 0 3 0 0 0 5 0 0 0 a c im a d e 5 0 0 0 0 2 0 0 0 0 4 0 0 0 0 6 0 0 0 0 8 0 0 0 0 1 0 0 0 0 0 1 2 0 0 0 0 1 4 0 0 0 0 1 6 0 0 0 0 R e n d a M é d i a M e n s a l ( R $ ) F re q u ê n ci a Média Mediana Moda Média influenciada pelas extremidades; Mediana e Moda ignoram extremidadesMedidas de dispersão
Variabilidade dos números em uma
amostra ou população.
Variância
Desvio-padrão
Medidas de dispersão (=variabilidade):
Variância: ‘Média’ dos quadrados dos desvios, onde desvio
é a diferença entre cada dado e a média do conjunto.
2 2
(
)
40 / 4 10
1
X
X
s
N
Função no Excel ou BrOffice: VAR
Dados
)
( X
Desvios
) (X XQuadrados dos Desvios
2 ) (X X
0
-5
25
4
-1
1
6
1
1
8
3
9
7
2
4
5 X
(X X) 0
(X X)2 40
Desvio padrão: raiz quadrada da variância
2(
)
²
10 3,16
1
X
X
s
s
N
Erro padrão da média - EPM
Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53Média
5,3
DVP
2,11
EPM
0,6675
Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população.
O erro padrão expressa a variabilidade de uma média
Quanto maior o número de observações, menor o erro padrão da média. Fórmula para EPM em amostra de população ‘infinita’:
ˆ
X
s
n
Erro padrão da média - EPM
²
ˆ
Xs
s
n
n
Não existe uma função no Excel ou BrOffice para cálculo do EPM. Portanto, calcula-se a partir do desvio padrão
EPM = DESVPAD(…)/ RAIZ (CONT.NÚM(…)) Alunos Turma A Turma B
1 5 8 2 5 9 3 5 7 4 5 7 5 5 2 6 6 5 7 4 2 8 6 0 9 5 2 10 5 10 Total 51 52 Média 5,1 5,2 DVP 0,57 3,49 EPM 0,18 1,1 T u r m a A T u r m a B 0 1 2 3 4 5 6 7 8 9 1 0
Distribuição
Exemplo
Para obter uma estimativa da altura média do brasileiro adulto:
• amostragem com 5000 pessoas (n=5000)
• estratificação adequada, que reflita os dados de toda a população do país
À direita: resultados por faixa (interval) de altura.
Nota: ‘discretizamos’ uma variável continua (altura) em faixas para poder visualizar a distribuição.
Frequência relativa (em %) = freq. absoluta / freq. total * 100%
(= proporção em )
Distribuição normal (=Gaussiana)
Média: 1,653 Desvio Padrão: 0,173Faixa de altura (em m)
Proporção
Características da distribuição Normal
determinada por dois parâmetros:
- Média da população
Posição central - Desvio padrão da população
Largura
Distribuição é simétrica e unimodal Por causa da simetria, valores de
média, moda e mediana são iguais.
Área total sob a curva é igual a 100%,
com exatos 50% distribuídos à esquerda da média e 50% à sua direita Diferentes valores de desvio padrão menor desvio-padrão maior desvio-padrão
Áreas sob a curva normal
A área sob a curva de uma
distribuição normal corresponde
a 100% dos dados.
Uma área de 34,13 % da
totalidade dos dados é delimitada entre a média e um desvio padrão acima ou abaixo da média.
A proporção da população entre a
média e dois desvios-padrão acima da média é de 47,87%.
Quando é três a área aumenta
para 49,87%.
Estas proporções são
constantes em uma distribuição
normal; sabendo a média e o
desvio-padrão, dá para fazer
estimativas da % em um
Tipos de distribuição
Distribuição unimodal e simétrica: Média, mediana e moda são
iguais
o ponto de freqüência máxima (moda) é também o mais central (mediana)
e o centro de gravidade (média).
Muitas vezes, em uma distribuição assimétrica:
A moda está sempre no “pico” (por def.)
A média está mais próxima da “cauda”
(sofre influência dos valores extremos)
Mediana está entre a moda e média
Medida de tendência central mais usada:
Distribuição simétrica média
Distribuição assimétrica mediana ou moda Distribuição bimodal modas
moda
média mediana
Tipos de Distribuição e medidas de tendência
central
Distribuição Assimétrica
0 1 2 3 4 5 2 3 4 Nota7 8 9 10 F re q ü ê n c ia Moda Mediana MédiaApresentação gráfica –
Estrutura de um gráfico
Abscissa (eixo-X) var independente Ordenada (eixo-Y) var dependente Série 1 Série 2 Série Título (opcional)Legenda (se aplicável)
Origem 1 2 3 4 Escala
Tipo apropriado de gráfico depende dos tipos das
variáveis independentes e dependentes:
categórica → contínua:
gráfico de colunas
ordinal
ou contínua discretizada→ contínua:
gráfico de colunas ou de linhas
ordinal
ou contínuo discretizado→ contagem (distribuição):
histograma
contínua → contínua:
gráfico de dispersão
Holmes EA, James EL, Coode-Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up of Flashbacks for Trauma? A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153
Número de revivências traumáticas (“flashback”) (média/semana) Depois de
jogar Tetris jogar TetrisSem
var.
dependente:
var.
independente:
categórica
Gráfico de colunas
Condição experimentalmédia
+/- erro-padrão da
média
dependente:
contínua
Área de Plantação (ópio) Anoindependente:
ordinal
Gráfico de colunas
Gráfico de linhas
dependente:
contínua
independente:
ordinal
Compare:Gráfico de linhas destaca evolução
Gráfico de colunas destaca níveis absolutos
Ano Variação em temperatura
relativa a uma referência
(Cº)
Histograma
independente:
contínua discretizada
ordinal
Diâmetro (nm) de nanotubo de carbono Frequência em %
dependente:
contagem
(frequência,
porcentagem
ou proporção)
Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various Sizes. The Journal of Physical Chemistry B, 105, 11424-11431
Índice de
sucesso financeiro
Razão indicador/anular
independente:
contínua
dependente:
contínua
Gráfico de dispersão
Pontos de dados Linha de tendência: opcionalJohn M. Coates, Mark Gurnell, and Aldo Rustichini
Second-to-fourth digit ratio predicts success among high-frequency financial traders
Parte prática
Cálculos e gráficos em programas de planilhas
Todos os procedimentos apresentados aqui podem ser realizados
em qualquer programa de planilha. O pacote BrOffice pode ser
baixado para uso livre em casa do endereço http://broffice.org/.
Abre (botão início)
programas
BrOffice.org
Planilhas
Linhas Colunas Célula (A1) Planilha Acesso a outras planilhasCálculo de funções estatísticas
em uma planilha
1) Clique onde quer calcular a fórmula
2) Digite ‘=‘ para identificar o conteúdo da célula como fórmula e não texto ou número. Ó que for digitado
aparecerá na linha de entrada e na célula selecionada.
3) Clique no ‘assistente de funções’
(fx) para encontrar uma função específica.
4) Procure ‘média’ na lista, selecione
6) Clicar em uma outra célula na entrada de uma função gerará uma referência simples. Para dar um conjunto de células
adjacentes como argumento, clique na primeira célula com botão esquerdo do mouse, segure o botão enquanto arrastando o cursor até a última célula. Solte o botão. (Também é possível digitar o alcance da função no campo de texto.)
7) Clique em “OK” para calcular a função e
Menu / “Arquivo”: salvar, abrir etc. Botão “Salvar”
Botão
“Assistente de gráfico” Botão “Salvar”
Dados (p. ex. nº de homens e mulheres em uma turma)
Representação gráfica da turma
por gênero
(1) Selecione
Menu e barras específicas Gráfico Gráfico Assistente de gráfico Clique em “Concluir”
Assistente de gráfico
Passo 1: Escolher tipo (Coluna / Linha / Dispersão) e subtipo do gráfico Passo 2: Especificar características da organização dos dados (p. ex. em linhas/colunas)
Passo 3: Adicionar/mudar séries dados para visualizar Passo 4: Editar títulos, rótulos para eixos, etc.
altura (cm) <150 0 150-160 10 160-170 20 170-180 30 180-190 20 190-200 10 >200 0
Dados
Histograma
(freqüência em %)
Nota: Em princípio, histograma não possui espaços entre colunas.
Referências e funções
(1) Preencha
com os dados
(3) Digite “=” para indicar que
segue uma 'fórmula' Digite “SOMA(“
(4) Selecione B2:B8 (mouse)
(5) Digite Enter para 'fechar' a fórmula
(2) Selecione
Porcentagem = Frequência / Total x 100
(1) Clique em C2, digite “=” e a
fórmula
(2) Certifique-se que a referência para o total é B$9 (mude se
necessário)
(3) Aperte “Enter”, selecione C2, e “arraste” sobre C2:C8
Referências relativas
Referências absolutas
Referência B$9
Referência B9
Ao copiar uma fórmula, programas de planilha presumem que as referências são
relativas – que referem sempre para a mesma posição relativa (x células
acima/abaixo e y células esquerda/direita) de uma célula-alvo. Para deixar claro
que uma linha ou coluna é constante (não relativa), use $ antes da referência.
(1) Os números em C são porcentagens (2) Selecione A1:A8 e C1:C8
(segure Ctrl para áreas separadas)
Passo 3
Mude as referências para excluir linha 2 e linha 8, com freqüência 0
150-160 160-170 170-180 180-190 190-200 0 5 10 15 20 25 30 35 altura (cm) %
Exercício 1 em aula
Alunos (i) Notas (x)
1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0
Copie estes dados para uma planilha e determine:
• Total das notas
• Média
• Mediana
• Moda
• Variância
• Desvio padrão
• Erro padrão da média
usando fórmulas e funções na planilha. Use a célula
do lado de cada estatística para por o rótulo
correspondente.
Crie um gráfico de colunas com uma coluna para a
média, junto com a barra com 1 erro padrão da
média.
Exercício 2 em aula
Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade. Construa uma planilha no BrOffice utilizando os dados destas amostras. Há duas séries; para incluir várias séries de dados em um gráfico, selecione várias colunas de dados ao dar o conjunto de células a ser usado para criar o gráfico.
a) Desempenho de cada sujeito: (varia de 0 a 20) Idosos: 16/17/19/19/15/17/18/20/20/16
Jovens: 20/20/19/19/20/20/17/19/20/18
b) Calcule as médias, os desvios padrão e erros padrão da média do desempenho para idosos e jovens.
c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória.
Para inserir o erro padrão no BrOffice
Selecionar os valores de erro calculados na planilha1) Selecione o gráfico na planilha. Em seguida, clique em “Inserir” ->
“Barras de erro Y”
Exercício para casa
Procure em revistas, jornais, publicações acadêmicas, websites,
experimento, sondagem própria ou outra fonte da sua escolha ou um conjunto ou subconjunto de dados para visualizar.
Mencione na planilha a fonte dos seus dados e descreva o contexto
resumidamente. Descreva quais variáveis você considera independentes e dependentes e de qual tipo são (quantitativa, qualitativa, ordinal, etc...).
Determine
a) pelo menos uma estatística de tendência central b) pelo menos uma estatística de dispersão.
Crie um gráfico apropriado que tenha pelo menos duas séries (que precise de legenda para ser interpretado).