• Nenhum resultado encontrado

Aula 02 Medidas tendecia entral

N/A
N/A
Protected

Academic year: 2021

Share "Aula 02 Medidas tendecia entral"

Copied!
53
0
0

Texto

(1)

Medidas de tendência central

Ou: “afinal de contas, que valor você

recomenda???”

(2)

O problema da estimativa

(3)

O problema da estimativa

Dados: 4.80, 2.65, 3.76, 1.54, 1.29, 0.32, ...

AFINAL DE CONTAS: QUAL O RESULTADO FINAL?

Como sintetizar a informação???

(4)

O problema da estimativa

RESPOSTA MAIS COMUM:

“Põe a média”...

(5)

NOTA DO ENEM

VIDE arquivo ENEM SP.xls

1865 escolas

602 particulares

1264 públicas

Urbanas/Rurais; EMR/EJA

»

EMR = Ensino Médio Regular

(6)
(7)
(8)
(9)
(10)
(11)

Qual o melhor?

10 bins 30 bins

50 bins 70 bins

(12)

Melhor relação informação:ruído

10 bins 30 bins

50 bins 70 bins

(13)

Como analisar isso?

(14)

Como analisar isso?

Qual é a nota média? Média = 49.45

Perguntas:

Isso é representativo?

Há mais informação

(15)

O problema da tendência central e a

dispersão dos dados

Qualquer conjunto de medidas e/ou dados tem duas

importantes características principais: o VALOR CENTRAL, ou TÍPICO, e a DISPERSÃO em torno deste valor central. Isto é mostrado a direita nos histogramas hipotéticos

Dispersão ampla

Dispersão estreita

(16)

Um pouco de notação

Podemos percorrer um longo caminho com um pouco de notação. Suponha que estejamos fazendo uma série de observações... n delas para ser mais exato... Nesse caso, escrevemos:

Como o valor que observamos. Assim, n é o número total de dados, e x4

(digamos) é o quarto dado desta série. Um ARRAY (ou VETOR) de dados é uma tabela de dados assim:

Leia como um”, “x-dois”...

(17)

Um pequeno conjunto com n = 5 dados nos mostrará como as coisas funcionam. Suponha, por exemplo, que nós perguntemos à cinco pessoas quantas horas de TV elas assistem por semana... E conseguimos o seguinte ARRAY:

Então...

Qual é o “centro” desses dados? Na verdade, há

diferentes formas de medir o “centro”. Vejamos agora um deles:

(18)

Média

O valor MÈDIO (no inglês, MEAN ou AVERAGE) é

representado por que é obtido da seguinte forma:

(19)

Um pouco de notação

Temos uma forma resumida para isso: Usando a letra Grega maiúscula SIGMA para a SOMA:

Leia isso como “a soma de xi, com i

indo de 1 até n” Para a soma

Diga isso dez vezes e você não vai mais se esquecer...

Agora sim isso está parecendo uma aula de estatística.

(20)

No caso do peso dos estudantes da

aula passada...

(21)
(22)

Achando a média em um histograma

Σ = 100 nascidos vivos no total

(23)

Achando a média em um histograma

Σ = 100 nascidos vivos no total

(24)

Mediana

É um outro tipo de centro da distribuição: o ponto médio dos dados, como a faixa do meio de uma estrada

(25)

Para encontrar a mediana, arranja-se os dados em ordem, do maior para o menor. A mediana é o do meio. Se o número de pontos é par...

(26)

Para o peso dos 92 estudantes...

(27)

Quando usar uma e outra???

Mediana: insensível a “outliers”, ou valores extremos não típicos comparados ao resto dos dados.

(28)
(29)

MODA

É o valor que mais ocorre

Exemplo:

Dados os números 3, 4, 5, 7, 7, 7, 9, 9

A moda é...

Dados os números 1, 2, 3, 4, 5

A moda é...

Dados os números 1, 2, 2, 3, 4, 4, 5

A moda é...

(30)

MODA

Válida mesmo para dados não qualitativos!

(31)

ENEM – só prova objetiva

Distribuição bi-modal. O que

significa?

(32)

Medidas de dispersão

Se todos estudantes pesassem 145 libras, nosso histograma seria assim;

(33)

Medidas de dispersão

Mas se alguns fossem muito leves, e outros muito pesados...

(34)

Medidas de dispersão

Mas se alguns fossem muito leves, e outros muito pesados...

(35)

AMPLITUDE: Máximo - Mínimo

Assim como a posição do centro, há

várias formas de medir a dispersão...

(36)

Assim como a posição do centro, há

várias formas de medir a dispersão...

DISTÂNCIA

INTER-QUARTIL:

Idéia: dividir os dados em 4 grupos iguais, e ver quão

longe os grupos extremos estão

(37)

RECEITA

1. Colocar os dados em

ordem numéricao

2. Dividir os dados em 2

grupos de dados “altos” e

“baixos”, separados pela

mediana (se a mediana for

um dos dados, inclua ela

em ambos os grupos);

3. Encontre a mediana do

grupo de dados menores;

este é chamado de “1º

quartil”

4. A mediana do grupo maior

é o “3º quartil”.

(38)

Exemplo: o peso dos estudantes (ainda!)

John Tukey inventou um outro tipo de modo de mostrar a IQR, o chamado gráfico de “Box and Whyskers”. Os boxes acabam nos quartis Q1 e Q3, com a mediana dentro do box

Gráficos Boxes

and Whyskers

Diferença entre a mediana dos estudantes pesados, e a mediana dos estudantes dos estudantes leves

(39)

Se um ponto está a mais que 1.5 IQR do final do box, ele é um OUTLIER. Outliers são

desenhados individualmente

Gráficos Boxes and Whyskers

Finalmente, estendedemos os “Whyskers” para fora, até o último ponto que não é outlier

(dentro de 1.5 IQR dos quartis)

Muito bons para mostrar

diferenças entre Grupos!!

(40)

Desvio padrão

É a medida de dispersão para a MÉDIA.

De maneira grosseira, é como uma distância

típica dos dados em relação à MÉDIA.

(41)

Um estudo de caso

Todos com mesma

média

(42)

Um estudo de caso

Todos com mesma

média

Amplitudes:

Antônio: ZERO

João: 2

José: 10

Pedro: 10

(43)

Como calcular o desvio padrão

Dados:

3, 5, 7, 7, 38

Média: = 12

N = 5

(44)

Como calcular o desvio padrão

Dados:

3, 5, 7, 7, 38

Média: = 12

N = 5

Desvio de cada número:

x

i

– x

médio:

-9

-7

-5

-5

24

(45)
(46)

Primeiro, calculamos a variância:

(47)

IMPORTANTE: UNIDADES

Dispersão tem que ter a mesma unidade do

dado original!!!!

No exemplo, s

2

tem dimensão do quadrado de

x!!!

(48)

Usos da média e do desvio padrão

São ótimos para resumir as propriedades de

dados que seguem um histograma simétricos,

sem outliers.

(49)

Usos da média e do desvio padrão

Uma informação importante: saber quantos

desvios-padrão um certo dado está longe da

média!

Para os dados de peso: xmédio = 145.2, e s =

23.7;

(50)

Usos da média e do desvio padrão

Para os dados de peso: xmédio = 145.2, e s =

23.7;

(51)

Uma regra empírica:

Em histogramas simétricos:

~ 68% dos dados estão em torno de 1 desvio

padrão ao redor da média

~ 95% dos dados estão em torno de 2

desvios-padrão ao redor da média

(52)

E para fechar...

Coeficiente de variação:

(53)

Referências

Documentos relacionados

TERMOPLASTICOS, POLÍMEROS SUPERABSORVENT ES, FIOS DE ELASTANO E FITA ADESIVA REPOSICIONAVEL TRILAMINADA (GRUDA/DESGRUD A), BARREIRAS LATERAIS ANTIVASAMENTO, 2 INDICADORES DE

A seleção portuguesa feminina de andebol de sub-20 perdeu hoje 21-20 com a Hungria, na terceira jornada do Grupo C do Mundial da categoria, a decorrer em Koprivnica, na

índios, durante o prazo de validade do Concurso Público, conforme a legislação vigente e conforme consta no Regulamento. 4.8 Os candidatos que desejarem concorrer

complexas. 01- A partir da leitura do texto, assinale a alternativa que apresenta sua ideia central: a) Mostrar alguns resultados do desempenho das formigas. c) Apresentar os

 Supervisor Responsável pelo Estágio, indicando a qualificação acadêmica do mesmo. 5.4 Todas as atividades a serem desenvolvidas pelo estagiário deverão constar do

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

Dessa forma, os níveis de pressão sonora equivalente dos gabinetes dos professores, para o período diurno, para a condição de medição – portas e janelas abertas e equipamentos

Que o Conselho Deliberativo solicite estudo viabilizando proposta de aumento do AFA, de 20% para 50% do Plano de Pecúlio Facultativo (PPF), contemplando os já