Noções de Estatística
Teoria
A estatística coleta, organiza e analisa dados usando tabelas ou gráficos.
População, amostra e variável
• População: totalidade de elementos que apresentam uma ou mais características em comum.
• Amostra: é uma parte da população de estudo.
• Variável: Dependendo da natureza dos dados (números ou atributos) uma variável pode ser quantitativa ou qualitativa. Se os dados são números, a variável é quantitativa.
Medidas de centralidade: média
As medidas de centralidade são usadas para representar toda uma lista de observações com um único valor.
Média aritmética simples
A média aritmética simples de um conjunto
x x
1, , ...,
2x
n
de n valores para a variávelx
, é dada pelo quociente entre a soma dos valores observados e o número total valores:1 2 ...
X x x xn
n + + +
=
Exemplo: Seja um grupo de 3 pessoas e
k
o conjunto das idades dessas 3 pessoas.k = 12,10,11
.Calculando a média da idade desse grupo, temos:
12 10 11 33
X 11 anos
3 3
+ +
= = =
Média aritmética ponderada
A média aritmética ponderada de um conjunto
x x
1, , ...,
2x
n
de n valores para a variávelx
, onde cada valor tem seu peso p, é dada pela expressão:1 1 2 2
1 2
X ...
...
n n n
x p x p x p
p p p
+ + +
= + + +
Exemplo: Para passar no curso de matemática devemos obter média 7, sendo que a
p
1 tem peso 1 e ap
2tem peso 2. Dessa maneira calculamos a média da seguinte maneira:
1.1 22
X 3
p + p
=
Medidas de centralidade: moda Moda
É o resultado obtido com maior frequência, ou seja, aquilo que mais se repete.
Exemplo: Alguns alunos fizeram a segunda chamada de uma prova de matemática. Suas notas foram tabuladas na tabela abaixo:
Aluno Nota Aluno 1 2 Aluno 2 7 Aluno 3 3 Aluno 4 4 Aluno 5 3 Aluno 6 3,5
A nota que mais aparece no conjunto de dados é a nota 3. Portanto, a moda é 3.
OPA!
1) Quando não tenho moda, ela se chama amodal.
2) Quando tenho duas variáveis que tem a mesma frequência e elas são as maiores frequências, então terei 2 modas e nesse caso se chama bimodal.
Medidas de centralidade: mediana Mediana
Ordenando as observações de uma variável de forma crescente ou descrescente (rol), a mediana é a observação que ocupa o valor central.
Exemplo: A quantidade de atrasos dos alunos de uma turma, registrados por mês, de março a novembro, formam o seguinte conjunto de dados: 23, 34, 21, 48, 51, 20, 38, 29, 13.
Ordenando esses dados de forma crescente, temos:
13 – 20 – 21 – 23 – 29 – 34 – 38 – 48 – 51
Como há 9 observações, a observação central é a quinta:
13 – 20 – 21 – 23 – 29 – 34 – 38 – 48 – 51 Portanto, a mediana é igual a 29.
Cuidado! E se a quantidade de elementos da amostra não for um número ímpar? Se o tamanho da amostra for par, então não terá um elemento central. Dessa maneira, precisamos fazer a média aritmética simples entre os dois termos centrais.
Exemplo: Seja uma amostra A = {1, 2, 7, 4}. Para calcular a mediana, precisamos colocar os elementos em ordem: 1, 2, 4, 7. Agora, fazemos a média aritmética simples entre os dois termos centrais:
+
Concluindo, sendo n o número de elementos, temos que:
• Para n ímpar: 1
2
X
n+• Para n par: 2 2 1
2
n n
X X
+
+Medidas de dispersão: variância
As medidas de dispersão mostram o quão esticada ou espremida está uma distribuição de observações, isto é, o quão próximos ou afastados esses valores estão da média.
Variância
A variância é a média aritmética dos desvios (diferença de cada resultado obtido e a média) ao quadrado, ou seja, basta elevar os desvios ao quadrado e fazer a média.
( ) ( 1 X ) (2 2 X )2 ... ( X )2
X )2 ... ( X )2
Var x x x
nx n
− + − + + −
=
Passo-a-passo:
1º) Encontre a média;
2º) Faça a diferença com cada elemento (Calcule os desvios);
3º) Eleve os resultados do passo 2 ao quadrado;
4º) Faça a média dos resultados do passo 3.
Medidas de dispersão: desvio padrão
Quando o desvivo padrão tiver um valor alto entendemos que mais afastados estão os valores da média e mais heterogênea é a distribuição. E ao contrário, quando o desvio padrão estiver baixo teremos valores mais próximos da média e a distribuição é dita homogênea.
Desvio padrão
O desvio-padrão de um conjunto de dados é calculado tirando a raiz quadrada da sua variância.
( ) ( )
DP x = Var x
Exercícios
1.
Considere os resultados abaixo o QI (quociente de inteligência) de 10 pessoas:96 – 95 – 101 – 102 – 97 – 99 – 100 – 103 – 101 – 98
Determine as medidas de tendência central (média, moda e mediana) dos dados acima.
2.
Em um grupo de pessoas, as idades são : 10, 12, 15 e 17 anos. Caso uma pessoa de 16 anos junte-se ao grupo, o que acontece com a média das idades do grupo?3.
A distribuição de salários de uma empresa é fornecido pela tabela a seguir:Calcule a média salarial dessa empresa.
4.
Para votar, cinco eleitores demoraram, respectivamente, 3min 38s, 3min 18s, 2min 46s, 2min 57s e 3min 26s. Qual foi a média do tempo de votação (em minutos e segundos) desses eleitores?5.
Calcule a média, variância e o desvio padrão para os seguintes dados:a) 12, 58, 67, 53, 48, 95, 46, 18 b) 9, 45, 78, 95, 43, 62, 51 c) 45, 7, 86, 94, 86, 61, 16
Gabaritos
1. A média de um conjunto de dados é dado pela soma deles e dividido pelo total.
QI Médio = (96 + 95 + 101 + 102 + 97 + 99 + 100 + 103 + 101 + 98) / 10 = 992 / 10 = 99,2 Portanto, o QI médio das pessoas é 99,2.
A moda é relacionada aos valores de maior frequência nos dados.
QI modal = 101
A mediana é o valor do meio do conjunto de dados.
QI mediano = (99 + 100) / 2 = 99,5 Portanto, o QI mediano é 99,5.
2. Média entre 10, 12, 15 e 17 M = 10 + 12 + 15 + 17
4 = 13,5
Média entre 10, 12, 15, 16 e 17 M = 10 + 12 + 15 + 16 + 17
5 = 14
A média das idades aumenta em menos de 1 ano.
3. M = 500 .10 + 1000 . 5 + 1500 . 6 + 2000 . 15 + 5000 . 8 + 10000 . 2
10 + 5 + 6 + 15 + 8 + 2
M = 5000 + 5000 + 9000 + 30000 + 40000 + 20 + + +
46
M = 109000 46 𝑀 = 2369,56
O salário médio dessa empresa é de R$2369,56
4. M = 3min 38s + 3min 18s + 2m 46s + 2min 57s + 3min 26s
5
M = 13min 185s
5 → 185s = 60s + 60s + 65s 120s = 2min 185s = 2min + 65s
M = 13 min + 2min 65s
5
M = 15min 65s
5 = 3min13s
5. a) Média = (12 + 58 + 67 + 53 + 48 + 95 + 46 + 18) = 397 / 8 = 49,625
Desvio padrão = √(((12 – 49,625 )² + (58 – 49,625)² + (67 – 49,625)² + (53 – 49,625)² + (48 – 49,625)² + (95 – 49,625)² + (46 – 49,625)² + (18 – 49,625)²) / 8) = √((1415,64 + 70,14 + 301,89 + 11,39 + 2,64 + 2058,89 + 13,14 +1000,14) / 8) = √(4873.87 / 8) = √609.23375 = 24.68
b) Média = (9 + 45 + 78 + 95 + 43 + 62 + 51) / 7 = 54.7
Desvio padrão = √(((9 – 54.7)² + (45 – 54.7)² + (78 – 54.7)² + (95 – 54.7)² + (43 – 54.7)² + (62 – 54.7)² + (51 – 54.7)²) / 7) = √650.49 = 25,5
c) Média = (45 + 7 + 86 + 94 + 86 + 61 + 16) / 7 = 56.43
Desvio padrão = √(((45 – 25,5)² + (7 – 25,5)² + (86 – 25,5)² + (94 – 25,5)² + (86 – 25,5)² + (61 – 25,5)² + (16 – 25,5)²) / 7) = √2012.25 = 44,86