• Nenhum resultado encontrado

2010_BC0005_aula_05.pps

N/A
N/A
Protected

Academic year: 2021

Share "2010_BC0005_aula_05.pps"

Copied!
55
0
0

Texto

(1)

Prof. Dr. Reinaldo Luiz Cavasso Filho

Prof. Dr. Reinaldo Luiz Cavasso Filho

Centro de Ciências Naturais e Humanas

Universidade Federal do ABC

Aula 5

Aula 5

Noções de Estatística

Noções de Estatística

Gráficos

Gráficos

(2)

Roteiro da Aula

PARTE I – Noções de estatística

Usos da estatística (descritiva / indutiva)

Tipos de variáveis

Medidas estatísticas

Distribuição de frequência e distribuição normal

Gráficos

PARTE II –Exercícios

Planilhas e referências

Medidas estatísticas em planilhas

(3)

Estatística

Conjunto de técnicas que permite de forma

sistemática as seguintes operações sobre dados:

1. Organizar

2. Descrever

3. Analisar

4. Interpretar

Dois tipos:

Estatística descritiva

(4)

Estatística descritiva

Voltada a apresentação, organização e resumo numérico dos dados

-

Pode incluir a construção de gráficos, tabelas e computação de várias

medidas, tais como, medidas de tendência central (ex. a média), de

dispersão (ex. a variância), de frequência (ex. percentagem) e outras.

-

O propósito deste tipo de estatística é de fazer com que os dados

coletados sejam compreendidos mais facilmente seja em forma

gráfica ou numérica (tabelas).

-

Cuidado: “estatística” é o termo para o conjunto de procedimentos que

conhecemos como “a estatística” mas também o termo geral para

(5)

Estatística indutiva / inferencial

Voltada a realizar estimativas a partir de uma amostra ou testar idéias

teóricas (hipóteses) com dados experimentais

• Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua análise

.

população amostra

(6)

Exemplos:

• Estatística descritiva:

– O número de acidentes (= frequência) nas rodovias federais

no estado de São Paulo antes e depois da “Lei Seca”;

– Gráfico com a distribuição da idade dos ingressantes nos

bacharelados interdisciplinares da UFABC.

• Estatística indutiva:

– Estimação da porcentagem da população que votará para

um/a determinado/a candidato/a à presidência, junto com

uma margem de erro (‘intervalo de confiânça’);

– Teste estatístico de tendência de queda nas populações de

atum-rabilho entre 2000 e 2010 a partir de observações

(7)

Tipos de variáveis

Independente:

– Valores manipulados ou selecionados pelo

pesquisador (meio, idade, mês).

– Podem ser ou não a “causa” da variável dependente.

Dependente:

– Valores observados, contados, medidos, … que não

estejam sob controle direto do pesquisador

(velocidade, taxa de câmbio).

– Podem ser “causadas” ou não pela variável

independente.

(8)

Tipos de variáveis

R$/US$ Taxa

de câmbio

Quando não há relação causal óbvia entre duas ou mais variáveis, qual é ‘independente ‘ ou ‘dependente’ é uma questão de rótulo. A variável

‘dependente’ é esta que analisamos em função dos valores de uma outra variável.

Mês

Variável independente

Variável dependente

(9)

Variáveis Discretas e Contínuas

 Variáveis quantitativas: expressadas em valores numéricos ( qualitativas)  Discretas: Conjunto enumerável de valores

 Nominais = categóricas: sem ordem natural de valores

 {presente, ausente}, {homem, mulher}, estado de origem (UF), base DNA A/C/T/G.

 Ordinais: com ordem natural de valores

 Classe sócio-econômica (A-E ou “baixa”, “média”, “alta”), avaliação em escala Likert (nota 1-5), {PP, P, M, G, GG}, número de acidentes.  Contínuas: Conjunto não-enumerável, valores reais, não discretizados

 Grandezas físicas ou químicas: velocidade, força, probabilidade, concentração, acidez, taxa de câmbio.

(10)

Medidas de tendência central

Valor ‘médio’ ou ‘típico’ de um conjunto de

dados.

Média (aritmética)

Mediana

(11)

Média aritmética

 É o ‘centro de gravidade’ dos dados

soma de um conjunto de escores dividida pelo número de

escores do conjunto :

1 N i i

X

X

N

N

i

X

é o número total de observações é um valor do conjunto

Alunos (i) Notas (x)

1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53

Média

5,3

Função no Excel ou BrOffice: MÉDIA

(3,0 5,0 ... 2,0 5,0) /10 5,3

X      

1 2 3 4 5 6 7 8 9

(12)

Mediana:

Valor central do conjunto

que divide a distribuição em

duas partes iguais (mesmo

número de escores abaixo e

acima do valor).

Os dados devem estar

ordenados

Posição da mediana =>

Procedimento “manual”:

 1) ordenar valores

 2) procurar valor “no meio”

2 1   N

i

Função no Excel ou BrOffice: MED

Notas (x) 3,0 5,0 6,0 4,0 5,0 8,0 9,0 6,0 2,0 7,0 5,0 3;5;6;4;5;8;9;6;2;7;5 Escores ordenados: 2;3;4;5;5;5;6;6;7; 8; 9 Posição: 1;2;3;4;5;6;7;8;9;10;11 1) 2) i= (11 + 1)/2 = 6

 Meio = Sexta posição  Nota 5

(13)

1 2 3 4 5 6 7 8 9 Notas Freqüência Simples Freqüência Acumulada 2 1 1 3 1 2 4 1 3 5 3 6 6 2 8 7 1 9 8 1 10 9 1 11 i= (11 + 1)/2 = 6  Posição 6  Xi=X6=Nota 5 Me

No caso de um número par de sujeitos a mediana é a média entre os dois valores centrais. 1 2 3 4 5 6 7 8 9

{

5 , 5 Ex. Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82

iMe=(6+1)/2=3,5? – terceira e quarta posição  Med = (62+64)/2= 63

(14)

Moda

É a categoria que ocorre com maior frequência.

ex.

Sujeitos Notas 2 1 3 1 4 1 5 3 6 2 7 1 8 1 9 1

Função no Excel ou BrOffice: MODO

(15)

A moda pode não existir OU

pode não ser única.

Exemplos:

1,1,3,3,5,7,7,7,11,13  moda 7

3,5,8,11,13,18  não tem moda

3,5,5,5,6,6,7,7,7,11,12  tem

duas modas: 5,7 (bimodal).

Sujeitos Notas 2 1 3 3 4 1 5 1 7 3 8 1 9 1

(16)

Características das medidas de tendência central

A b a ix o d e 1 0 0 1 0 0 3 0 0 5 0 0 7 0 0 9 0 0 1 0 0 0 3 0 0 0 5 0 0 0 a c im a d e 5 0 0 0 0 2 0 0 0 0 4 0 0 0 0 6 0 0 0 0 8 0 0 0 0 1 0 0 0 0 0 1 2 0 0 0 0 1 4 0 0 0 0 1 6 0 0 0 0 R e n d a M é d i a M e n s a l ( R $ ) F re q u ê n ci a Média Mediana Moda Média  influenciada pelas extremidades; Mediana e Moda  ignoram extremidades

(17)

Medidas de dispersão

Variabilidade dos números em uma

amostra ou população.

Variância

Desvio-padrão

(18)

Medidas de dispersão (=variabilidade):

Variância: ‘Média’ dos quadrados dos desvios, onde desvio

é a diferença entre cada dado e a média do conjunto.

2 2

(

)

40 / 4 10

1

X

X

s

N

Função no Excel ou BrOffice: VAR

Dados

)

( X

Desvios

) (X X

Quadrados dos Desvios

2 ) (X  X

0

-5

25

4

-1

1

6

1

1

8

3

9

7

2

4

5  X

(XX) 0

(XX)2 40

(19)

Desvio padrão: raiz quadrada da variância

2

(

)

²

10 3,16

1

X

X

s

s

N

(20)

Erro padrão da média - EPM

Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53

Média

5,3

DVP

2,11

EPM

0,6675

Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população.

O erro padrão expressa a variabilidade de uma média

Quanto maior o número de observações, menor o erro padrão da média. Fórmula para EPM em amostra de população ‘infinita’:

ˆ

X

s

n

(21)

Erro padrão da média - EPM

²

ˆ

X

s

s

n

n

Não existe uma função no Excel ou BrOffice para cálculo do EPM. Portanto, calcula-se a partir do desvio padrão

EPM = DESVPAD(…)/ RAIZ (CONT.NÚM(…)) Alunos Turma A Turma B

1 5 8 2 5 9 3 5 7 4 5 7 5 5 2 6 6 5 7 4 2 8 6 0 9 5 2 10 5 10 Total 51 52 Média 5,1 5,2 DVP 0,57 3,49 EPM 0,18 1,1 T u r m a A T u r m a B 0 1 2 3 4 5 6 7 8 9 1 0

(22)

Distribuição

Exemplo

Para obter uma estimativa da altura média do brasileiro adulto:

• amostragem com 5000 pessoas (n=5000)

• estratificação adequada, que reflita os dados de toda a população do país

À direita: resultados por faixa (interval) de altura.

Nota: ‘discretizamos’ uma variável continua (altura) em faixas para poder visualizar a distribuição.

Frequência relativa (em %) = freq. absoluta / freq. total * 100%

(= proporção em )

(23)

Distribuição normal (=Gaussiana)

Média: 1,653 Desvio Padrão: 0,173

Faixa de altura (em m)

Proporção

(24)

Características da distribuição Normal

determinada por dois parâmetros:

- Média da população

Posição central - Desvio padrão da população

Largura

Distribuição é simétrica e unimodalPor causa da simetria, valores de

média, moda e mediana são iguais.

 Área total sob a curva é igual a 100%,

com exatos 50% distribuídos à esquerda da média e 50% à sua direita Diferentes valores de desvio padrão menor desvio-padrão maior desvio-padrão

(25)

Áreas sob a curva normal

A área sob a curva de uma

distribuição normal corresponde

a 100% dos dados.

 Uma área de 34,13 % da

totalidade dos dados é delimitada entre a média e um desvio padrão acima ou abaixo da média.

 A proporção da população entre a

média e dois desvios-padrão acima da média é de 47,87%.

 Quando é três a área aumenta

para 49,87%.

Estas proporções são

constantes em uma distribuição

normal; sabendo a média e o

desvio-padrão, dá para fazer

estimativas da % em um

(26)

Tipos de distribuição

Distribuição unimodal e simétrica: Média, mediana e moda são

iguais

 o ponto de freqüência máxima (moda) é também o mais central (mediana)

e o centro de gravidade (média).

Muitas vezes, em uma distribuição assimétrica:

A moda está sempre no “pico” (por def.)

A média está mais próxima da “cauda”

(sofre influência dos valores extremos)

Mediana está entre a moda e média

Medida de tendência central mais usada:

Distribuição simétrica  média

Distribuição assimétrica  mediana ou modaDistribuição bimodal  modas

moda

média mediana

(27)

Tipos de Distribuição e medidas de tendência

central

Distribuição Assimétrica

0 1 2 3 4 5 2 3 4 Nota7 8 9 10 F re q ü ê n c ia Moda Mediana Média

(28)

Apresentação gráfica –

Estrutura de um gráfico

Abscissa (eixo-X) var independente Ordenada (eixo-Y) var dependente Série 1 Série 2 Série Título (opcional)

Legenda (se aplicável)

Origem 1 2 3 4 Escala

(29)

Tipo apropriado de gráfico depende dos tipos das

variáveis independentes e dependentes:

categórica → contínua:

gráfico de colunas

ordinal

ou contínua discretizada

→ contínua:

gráfico de colunas ou de linhas

ordinal

ou contínuo discretizado

→ contagem (distribuição):

histograma

contínua → contínua:

gráfico de dispersão

(30)

Holmes EA, James EL, Coode-Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up of Flashbacks for Trauma? A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153

Número de revivências traumáticas (“flashback”) (média/semana) Depois de

jogar Tetris jogar TetrisSem

var.

dependente:

var.

independente:

categórica

Gráfico de colunas

Condição experimental

média

+/- erro-padrão da

média

(31)

dependente:

contínua

Área de Plantação (ópio) Ano

independente:

ordinal

Gráfico de colunas

(32)

Gráfico de linhas

dependente:

contínua

independente:

ordinal

Compare:

Gráfico de linhas destaca evolução

Gráfico de colunas destaca níveis absolutos

Ano Variação em temperatura

relativa a uma referência

(Cº)

(33)

Histograma

independente:

contínua discretizada

ordinal

Diâmetro (nm) de nanotubo de carbono Frequência em %

dependente:

contagem

(frequência,

porcentagem

ou proporção)

Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various Sizes. The Journal of Physical Chemistry B, 105, 11424-11431

(34)

Índice de

sucesso financeiro

Razão indicador/anular

independente:

contínua

dependente:

contínua

Gráfico de dispersão

Pontos de dados Linha de tendência: opcional

John M. Coates, Mark Gurnell, and Aldo Rustichini

Second-to-fourth digit ratio predicts success among high-frequency financial traders

(35)

Parte prática

Cálculos e gráficos em programas de planilhas

Todos os procedimentos apresentados aqui podem ser realizados

em qualquer programa de planilha. O pacote BrOffice pode ser

baixado para uso livre em casa do endereço http://broffice.org/.

Abre (botão início)

 programas

 BrOffice.org

(36)

Planilhas

Linhas Colunas Célula (A1) Planilha Acesso a outras planilhas

(37)

Cálculo de funções estatísticas

em uma planilha

1) Clique onde quer calcular a fórmula

2) Digite ‘=‘ para identificar o conteúdo da célula como fórmula e não texto ou número. Ó que for digitado

aparecerá na linha de entrada e na célula selecionada.

3) Clique no ‘assistente de funções’

(fx) para encontrar uma função específica.

4) Procure ‘média’ na lista, selecione

(38)

6) Clicar em uma outra célula na entrada de uma função gerará uma referência simples. Para dar um conjunto de células

adjacentes como argumento, clique na primeira célula com botão esquerdo do mouse, segure o botão enquanto arrastando o cursor até a última célula. Solte o botão. (Também é possível digitar o alcance da função no campo de texto.)

7) Clique em “OK” para calcular a função e

(39)

Menu / “Arquivo”: salvar, abrir etc. Botão “Salvar”

Botão

“Assistente de gráfico” Botão “Salvar”

Dados (p. ex. nº de homens e mulheres em uma turma)

Representação gráfica da turma

por gênero

(40)

(1) Selecione

(41)

Menu e barras específicas Gráfico Gráfico Assistente de gráfico Clique em “Concluir”

(42)

Assistente de gráfico

 Passo 1: Escolher tipo (Coluna / Linha / Dispersão) e subtipo do gráfico  Passo 2: Especificar características da organização dos dados (p. ex. em linhas/colunas)

 Passo 3: Adicionar/mudar séries dados para visualizar  Passo 4: Editar títulos, rótulos para eixos, etc.

(43)

altura (cm) <150 0 150-160 10 160-170 20 170-180 30 180-190 20 190-200 10 >200 0

Dados

Histograma

(freqüência em %)

Nota: Em princípio, histograma não possui espaços entre colunas.

(44)

Referências e funções

(1) Preencha

com os dados

(3) Digite “=” para indicar que

segue uma 'fórmula' Digite “SOMA(“

(4) Selecione B2:B8 (mouse)

(5) Digite Enter para 'fechar' a fórmula

(2) Selecione

(45)

Porcentagem = Frequência / Total x 100

(1) Clique em C2, digite “=” e a

fórmula

(2) Certifique-se que a referência para o total é B$9 (mude se

necessário)

(3) Aperte “Enter”, selecione C2, e “arraste” sobre C2:C8

(46)

Referências relativas

Referências absolutas

Referência B$9

Referência B9

Ao copiar uma fórmula, programas de planilha presumem que as referências são

relativas – que referem sempre para a mesma posição relativa (x células

acima/abaixo e y células esquerda/direita) de uma célula-alvo. Para deixar claro

que uma linha ou coluna é constante (não relativa), use $ antes da referência.

(47)

(1) Os números em C são porcentagens (2) Selecione A1:A8 e C1:C8

(segure Ctrl para áreas separadas)

(48)
(49)

Passo 3

Mude as referências para excluir linha 2 e linha 8, com freqüência 0

(50)
(51)

150-160 160-170 170-180 180-190 190-200 0 5 10 15 20 25 30 35 altura (cm) %

(52)

Exercício 1 em aula

Alunos (i) Notas (x)

1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0

Copie estes dados para uma planilha e determine:

• Total das notas

• Média

• Mediana

• Moda

• Variância

• Desvio padrão

• Erro padrão da média

usando fórmulas e funções na planilha. Use a célula

do lado de cada estatística para por o rótulo

correspondente.

Crie um gráfico de colunas com uma coluna para a

média, junto com a barra com 1 erro padrão da

média.

(53)

Exercício 2 em aula

Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade. Construa uma planilha no BrOffice utilizando os dados destas amostras. Há duas séries; para incluir várias séries de dados em um gráfico, selecione várias colunas de dados ao dar o conjunto de células a ser usado para criar o gráfico.

a) Desempenho de cada sujeito: (varia de 0 a 20) Idosos: 16/17/19/19/15/17/18/20/20/16

Jovens: 20/20/19/19/20/20/17/19/20/18

b) Calcule as médias, os desvios padrão e erros padrão da média do desempenho para idosos e jovens.

c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória.

(54)

Para inserir o erro padrão no BrOffice

Selecionar os valores de erro calculados na planilha

1) Selecione o gráfico na planilha. Em seguida, clique em “Inserir” ->

“Barras de erro Y”

(55)

Exercício para casa

 Procure em revistas, jornais, publicações acadêmicas, websites,

experimento, sondagem própria ou outra fonte da sua escolha ou um conjunto ou subconjunto de dados para visualizar.

 Mencione na planilha a fonte dos seus dados e descreva o contexto

resumidamente. Descreva quais variáveis você considera independentes e dependentes e de qual tipo são (quantitativa, qualitativa, ordinal, etc...).

 Determine

a) pelo menos uma estatística de tendência central b) pelo menos uma estatística de dispersão.

 Crie um gráfico apropriado que tenha pelo menos duas séries (que precise de legenda para ser interpretado).

Referências

Documentos relacionados

- Remover as pastilhas usadas e retornar todo o parafuso de regulagem em seguida montar uma pastilha nova do lado da roda, empurrando com a mão a pinça no sentido do cilindro de

Todo ser humano é único e, por isso, toda sala de aula é um berço de diversidade. O que os sistemas educacionais fizeram ao longo dos tempos foi homogeneizar o sistema educacional

Principais mudanças na PNAB 2017  Estratégia Saúde da Família/Equipe de Atenção Básica  Agentes Comunitários de Saúde  Integração da AB e Vigilância 

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Reconhecimento de face utilizando banco de imagens monocromáticas e coloridas através dos métodos da análise do componente principal (PCA) e da Rede Neural Artificial (RNA)

 Compreender a importância do domínio das técnicas da escrita para a produção de uma informação de qualidade e saber aplica-las às especificidades dos diferentes géneros

FIGURA 1: Valores médios da porcentagem de germinação de sementes de Hymenaea stigonocarpa submetidas a diferentes tratamentos pré-germinativos.. contrapartida, Souza et

Informações tais como: percentual estatístico das especialidades médicas e doenças, taxas de ocupação dos principais recursos, tempos de permanência de internação, escores