NOTAS DE AULA
Capítulo 1 – Introdução à Análise Exploratória de dados 1) Estatística:
o O que é?
o Para que serve?
o Qual a importância para o meu trabalho? o Qual a importância no “dia a dia”?
?
2) Abordagem:
o Quais são as perguntas?
o Qual(is) resposta(s) estou procurando?
Pergunta: Qual o perfil dos estudantes da Universidade considerando-se a faixa etária?
Resposta desejada: O estudante da Universidade está contido em um conjunto com idade entre X e Y anos, com a tendência central para Z anos, e variando da forma “tal” considerando-se os parâmetros A e B.
o Método de obtenção de dados (coleta, dados pré-existentes)
Suponha que o conjunto abaixo se refira a idades de alunos de graduação de um determinado curso na UESC.
23, 20, 29, 22, 23, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 23, 25, 31, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 25, 22, 20, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 23, 20, 29, 22, 23, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 23, 25, 31, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 25, 22, 20, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 23, 20, 29, 22, 23, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 23, 25, 31, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 25, 22, 20, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23
?
• O que significam estes números? • Como posso entendê-los?
• Estas informações se referem a todos os alunos da
Universidade ou a parte deles?
RESPOSTAS... OU MAIS PERGUNTAS ? <= • O que a estatística pode fazer com estes dados?
• A estatística é uma ferramenta que nos possibilita
aprender a partir dos dados; ou é a ciência de obter conclusões a partir dos dados.
• A estatística é a linguagem dos números. Com ela nos
comunicamos com o mundo, informando e recebendo informações.
3) CONCEITOS DE ESTATÍSTICA:
o Descritiva: parte da estatística que cuida da compilação dos dados, reunindo-os em tabelas, apresentando-o em gráficos e como o próprio nome indica, descrevendo estes dados em suas tendências sem, contudo, fazer inferências.
o Inferencial: parte da estatística que cuida das técnicas para a tomada de decisões sobre uma população (conjunto) tomando-se uma amostra dos dados (sub-conjunto) como referência. Daí surgirem as condições de incerteza e associar-se os conceitos de probabilidades nas conclusões.
o Bayesiana: a tomada de decisão envolve o conhecimento do pesquisador, sua experiência o Clássica: a tomada de decisões é baseada
exclusivamente nas técnicas de estatística. Não é influenciada pela experiência ou juízo do pesquisador.
23, 20, 29, 22, 23, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 23, 25, 31, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 25, 22, 20, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 23, 20, 29, 22, 23, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 23, 25, 31, 31, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 32, 27, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 24, 28, 25, 22, 20, 26, 28, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23, 23, 18, 23, 24, 22, 25, 28, 30, 19, 22, 34, 29, 30, 33, 24, 39, 23 Estatística descritiva A M O S T R A P O P U L A Ç Ã O INFERÊNCIA ESTATÍSTICA
4) Tipos de Variáveis:
. As variáveis podem ter valores numéricos ou não numéricos.
o O que está sujeito a variações; mudável, incerto, instável, inconstante;
o Que pode apresentar diversos valores distintos; o Variável é a característica de interesse que é medida
em cada elemento da amostra ou população. Como o nome diz, seus valores variam de elemento para elemento.
o Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
o Variável discreta: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite. Seu domínio são os números inteiros. Distribuição binomial, Poisson, etc.
o Variável contínua: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade. Seu domínio são os números reais. Distribuições Normal, exponencial, etc.
o Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
o Variável nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
o Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).
o Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, a variável idade, medida em anos completos, é quantitativa (contínua); mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc...), é qualitativa (ordinal). Outro exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalhamos com o valor obtido na balança, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
o Outro ponto importante é que nem sempre uma variável representada por números é quantitativa. O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser quantitativa !
5) DÍGITOS SIGNIFICATIVOS:
• A mensuração de dados contínuos nunca é exata =>
depende da precisão dos aparelhos
• Nem sempre os dados de contagem são exatos, sendo
apresentados de forma aproximada => população de pessoas.
• Dígitos significativos => aqueles que apresentam
alguma relevância (precisão) para os propósitos em estudo.
• Exemplos:
o altura de uma pessoa: até os centímetros . 1,72 m
o salário médio de um operários de uma indústria:
R$ 850,00
o população de uma cidade pequena: 23.000
habitantes
o população de uma cidade média: 120.000
habitantes
o população de uma cidade grande: 800.000
habitantes
o população de uma mega-cidade: 5.000.000
habitantes
o população de um pais: 200.000.000 habitantes
6) ARREDONDAMENTO DE DADOS (regra simples):
• quando o resto do número a ser arredondado for igual
ou maior a 5 => aumentar o número precedente em uma unidade. 18,759 = arredondado para o décimo = 18,8.
• caso contrário manter o número na mesma forma: