INTRODUÇÃO
AO R
Introdução ao R
¨ R é uma linguagem e ambiente para computação estatística e
gráfica.
¨ Ele se presta a diversas funções, desde uma calculadora
Baixando e Instalando
¨ O download do R é gratuito de qualquer espelho do site
www.r-project.org.
¨ Após entrar nesse site, clique em CRAN, logo abaixo da
palavras Download.
¨ Em seguida, escolha um espelho perto de você, por exemplo,
o espelho da Universidade Federal do Paraná:
EXEMPLO 1
¨ Um artigo em Air and Waste [“Update on Ozone Trends in
California’s South Coast Air Basin (Vol. 43, 1993)] estudou os níveis de ozônio em bacias aéreas da costa sul da Califórnia, durante os anos de 1979-1991.
Ano Dias Índice
1991 36 16,6
1990 33 NA
1989 43 17,3
OBJETO
¨ Em um , podem ficar armazenados números, vetores,
matrizes, listas, etc.
¨ O objeto é, então, uma caixinha onde você pode guardar o
que quiser.
¨ Uma atribuição para um objeto pode ser feita de duas
formas:
¤ Usando o sinal de =
¤ Usando uma seta <- (Esta seta sempre deve levar o valor ao
VETOR
¨ O da linguagem R tem um significado um pouco
diferente que o vetor da matemática.
¨ Para o R, um vetor é qualquer conjunto unidimensional de
valores. Esses valores podem ser números, strings (palavras) ou valores lógicos (F para falso e V para verdadeiro).
¨ Para se atribuir um conjunto de valores a um objeto pode-se
MATRIZ
¨ Uma é atribuída a um objeto pelo comando
matrix().
¨ Essa função tem como argumentos o conjunto de dados, o
número de linhas e o número de colunas da matriz, nessa ordem.
¨ Note que o conjunto de dados deve ser escrito na ordem das
colunas, ou seja, como se as colunas estivessem enfileiradas, umas sobre as outras.
Data frame e Lista
¨ : Essa estrutura de dados é uma espécie de
tabela, onde podem ser dados nomes às colunas.
¨ Podem fazer parte de um mesmo data frame número e
strings.
¨ Sua função é data.frame().
Pedindo ajuda
¨ help(‘função()’): Essa ajuda deve ser solicitada
quando se sabe da existência de uma função (sabe-se seu nome exato), mas existe dúvidas em como usá-la.
¨ help.search(‘’): Quando se deseja investigar a
existência de uma função, essa ajuda recebe uma palavra-chave (em inglês) e retorna todas aquelas funções que contêm aquela palavra em sua documentação.
¨ RSiteSearch(‘’): Quando conectado à internet, essa
ajuda faz a busca de uma palavra-chave em todas as páginas da internet relacionadas com o R, principalmente aquelas páginas publicadas com as perguntas e respostas das listas de discussões do R.
Script Code
bem documentado
¨ É impossível lembrar de tudo que você implementou.
Escrever seu código da maneira mais geral
e simples possível e documentar
Importação de Dados do Excel
¨ Organize seus dados no formato: amostra por variável;
Variáveis – nas colunas;
Amostras, observações, etc. – nas linhas;
¨ Digite NA nas células com dados faltantes;
¨ Não use símbolos como: $,%,^,&,*,#,?, no nome das
variáveis;
¨ Evite nomes que contém espaço;
Importação de Dados
¨ Para ler um arquivo no R, a função mais usada é a
read.tabel().
¨ Essa função lê um arquivo (em .txt., por exemplo) e o
armazena (se desejado) na forma de data frame em um objeto.
¨ d a d o s < r e a d . t a b l e ( “ c a m i n h o / n o m e d o
Importação de Dados
¨ Salvar arquivo CSV no Microsoft Excel;
¨ Ler arquivos do tipo CSV (separado por vírgulas):
¤ COMANDO: read.csv
¤ SINTAXE: dados <-
read.csv(“caminho/nome-do-arquivo.csv”,opções)
¤ Opções:
n sep: caracter utilizado para separação dos campos e valores.
Normalmente é utilizado o ponto e vírgula (;)
n dec: caracter utilizado para separar as casas decimais.
Normalmente ponto (.) ou vírgula (,).
n header: TRUE, assume que a primeira linha da tabela contém rótulos
das variáveis. FALSE, assume que os dados se iniciam na primeira linha.
Funções Básicas
¨ sum(x): soma todos os elementos de um objeto x;
¨ length(x): retorna o comprimento de um objeto x;
¨ rep(x,n): repete o número x, n vezes;
¨ seq(a,b,by=c): gera uma sequência de números
CONCEITOS
BÁSICOS
Estatística (Quanto Ciência)
¨
é o conjunto de métodos para o
planejamento de estudos e experimentos, obtenção de
dados e consequente organização, resumo,
apresentação, análise, interpretação e elaboração de
conclusões baseadas nos dados.
Conceitos Básicos
¨ Dados: são as observações coletadas.
¨ População: é a coleção completa de TODOS os elementos a
serem estudados.
¨ Amostra: é um SUBCONJUNTO de membros selecionados
de uma população.
¨ Censo: é a observação exaustiva de todos os N elementos da
Conceitos Básicos
¨ Exemplos:
ü Um estudo com o objetivo de encontrar a altura média dos habitantes de
Ponta Grossa.
¤ População: Todos os habitantes de Ponta Grossa.
¤ Amostra: Um grupo de 30 pessoas, que residem em Ponta Grossa,
escolhidas ao acaso.
População Amostra
Conceitos Básicos
¨
Parâmetro: é uma medida numérica que descreve
alguma característica de uma POPULAÇÃO.
¨
Estatística: é uma medida numérica que descreve
alguma característica de uma AMOSTRA.
Parâmetro ð população
Estatística ð amostra
Conceitos Básicos
¨ Exemplos:
ü Um estudo com o objetivo de encontrar a altura média dos
habitantes de Ponta Grossa.
¤ Parâmetro: Altura média de todos os habitantes de PG.
¤ Estatística: Altura média de um grupo de 30 pessoas, que
residem em PG, escolhidas ao acaso.
ü Um estudo com o objetivo de determinar qual a porcentagem
de eleitores que votaram na Dilma.
¤ Parâmetro: Percentual de todos os eleitores do Brasil que
Conceitos Básicos
¨
Dados quantitativos: consistem em NÚMEROS que
representam contagens ou medidas.
¨
Dados qualitativos (ou categóricos ou de atributos):
p o d e m s e r s e p a r a d o s e m D I F E R E N T E S
CATEGORIAS que se distinguem por alguma
característica NÃO NUMÉRICA.
Dados Quantitativos
¨
Os dados quantitativos podem ser ainda classificados
em:
¤
Discretos: quando o número de valores é um
conjunto finito ou infinito enumerável.
Dados Qualitativos
¨
Já os dados qualitativos podem ser também
classificados em:
¤
Nominais: quando não existe nenhuma ordenação
nas possíveis realizações.
¤
Ordinais: quando existe uma ordenação nas
Exemplos
q
A altura (em m) de uma pessoa;
q
A estatura de uma pessoa
(pequena/média/alta);
q
A temperatura (em ºC) em PG ao amanhecer;
q
O sensação térmica em PG ao amanhecer
(muito frio, frio, calor, muito calor);
q
O salário (em R$) de professores em PG;
q
A classe social dos professores de PG;
Características Importantes
dos Dados
¨ Centro: Um valor representativo ou médio, que indica onde
se localiza o meio do conjunto de dados.
¨ Variação: Uma medida de quanto os valores dos dados
variam entre eles.
¨ Distribuição: A natureza ou forma da distribuição dos dados
(tal como em forma de sino, uniforme ou assimétrica).
¨ Outliers ou Valores Discrepantes: Valores amostrais que se
localizam muito longe da grande maioria dos outros valores amostrais.
DISTRIBUIÇÕES
DE
Distribuições de Frequência
¨
Uma
lista os valores
dos dados (individualmente ou por grupos de
intervalos), juntamente com suas frequências
correspondentes (ou contagens).
Distribuições de Frequência
¨ Rol: é uma lista em que os valores estão dispostos em uma
determinada ordem, crescente ou decrescente;
¨ Limites inferiores de classe: são os menores números que
podem pertencer às diferentes classes;
¨ Limites superiores de classe: são os maiores números que
podem pertencer às diferentes classes;
Distribuições de Frequência
As distribuições de frequência são construídas pelas
seguintes razões:
q
Grandes conjuntos de dados podem ser resumidos;
q
Podemos obter alguma compreensão sobre a natureza
dos dados;
q
Temos uma base para construir gráficos importantes
Distribuições de Frequência
¨ Frequências relativas: Divide-se cada frequência de classe
pelo total de todas as frequências.
¨ Frequência acumulada: A frequencia acumulada de uma
classe é a soma da frequência daquela classe mais as
Frequência Relativa =
Frequência de Classe
Roteiro para a elaboração de uma
distribuição de frequências
1.
Liste os dados brutos que podem ou não serem
transformados em um rol.
2.
Encontre a amplitude total (A) do conjunto de
valores observados:
A = MVO(Maior Valor Observado)–mvo(Menor Valor Observado) 3.
Defina o número de classes a serem utilizadas.
Como sugestão, pode-se utilizar o seguinte critério:
k ≈
⎧
⎨
⎪
n, se n < 100
Roteiro para a elaboração de uma
distribuição de frequência
4.
Determine a amplitude de classe (c):
A amplitude do intervalo de classe será igual ao
quociente entre a amplitude total da série e o número de
classes escolhido:
Censos:
c =
A
Roteiro para a elaboração de uma
distribuição de frequência
5.
Limite inferior da classe (LI
1):
Censos:
Amostras:
LI
1= mvo
LI
1= mvo −
c
2
Roteiro para a elaboração de uma
distribuição de frequência
5.Demais limites:
e
LS
i= LI
i+ c
LS
i= LI
i+1Distribuições de Frequência
¨ EXEMPLO 2 (Dados Qualitativos):
¨ Um engenheiro agrônomo faz um levantamento das
principais atividades agrícolas em uma amostra contendo 20 propriedades de certa região. A seguir, apresentamos o resultado da pesquisa.
¨
C L L C S LA C C L M C M So M L C C M C L
Distribuições de Frequência
Atividade Frequência absoluta (fa) Frequência Relativa (fr) Frequência Relativa Percentual (fp %) Freq. Abs. Acumulada Freq. Rel. Acumulada Café 8 0,40 40 8 0,4 Leite 5 0,25 25 13 0,65 Milho 4 0,20 20 17 0,85 Outras 3 0,15 15 20 1,00 Total 20 1,00 100 - -Distribuição de Frequências
¨ EXEMPLO 3 (Variável Quantitativa Contínua):
¨ Em uma linha de envasamento de potinhos de canela em pó,
a especificação é enchê-los com 50g do produto. Se a envasadora colocar mais que o especificado, a empresa estará sendo lesada. Caso contrário, o consumidor será enganado. Por isso, é conveniente fazer o acompanhamento dos potinhos envasados.
¨ Coletou-se, então, uma amostra de 50 potinhos dessa linha
de produção, que são dispostos em ordem crescente, em g, no arquivo Canela.csv.
Distribuições de Frequência
Classes fa fr fp (%) Freq. Abs. Acumulada Freq. Rel. Acumulada [44,33;46,08) 5 0,10 10,0 5 0,10 [46,08;47,83) 6 0,12 12,0 11 0,22 [47,83;49,58) 10 0,20 20,0 21 0,42 [49,58;51,33) 14 0,28 28,0 35 0,70 [51,33;53,08) 9 0,18 18,0 44 0,88 [53,08;54,83) 0 0,00 0,0 44 0,88
Frequências no R
¨ table(x): retorna uma tabela com as frequências
absolutas de ocorrência de cada elemento de x.
¨ Para variáveis quantitativas contínuas:
¨ table(cut(nome_data.frame$variavel,
breaks=c(limites inferiores das classes separados por vírgula, mais o último limite superior)))
Diagrama de Dispersão
¨ É um gráfico de pares de dados (x, y), com um eixo x
horizontal e um eixo y vertical.
¨ Os dados são colocados em pares que combinam cada valor
de um conjunto de dados com um valor correspondente de um segundo conjunto de dados.
¨ É útil para se determinar a existência, ou não, de alguma
relação entre as variáveis.
Gráficos para dados qualitativos
Gráficos no R
¨ Diagrama de Dispersão: plot(x,y)
¨ Gráfico de Barras: barplot()
Referências
¨ Zuur, A., Ieno, E.N., Meesters, E.H.W.G. A Beginner’s
Guide to R. Springer, 2009. ISBN 978-0-387-93836-3.
¨ Montgomery, D.C., Runger, G.C. Estatística Aplicada e
Probabilidade para Engenheiros. Rio de Janeiro, RJ:
LTC, Quinta Edição, 2012. ISBN 978-85-216-1902-4.
¨ Ferreira, E.B., Oliveira, M.S. Introdução à Estatística