Introdu¸c˜
ao `
a estat´ıstica
Joaquim Neto
[email protected]
www.ufjf.br/joaquim_neto
Departamento de Estat´ıstica - ICE Universidade Federal de Juiz de Fora (UFJF)
Vers˜
ao 1.0
Sum´
ario
1 Informa¸c˜oes gerais Contato
2 No¸c˜oes b´asicas Conceitos 3 Medidas de localiza¸c˜ao Introdu¸c˜ao Ponto m´edio M´edia M´edia ponderada Moda Mediana Quantil 4 Medidas de variabilidade Introdu¸c˜ao Amplitude
Desvio m´edio absoluto Variˆancia
Desvio padr˜ao Coeficiente de varia¸c˜ao
5 Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos
Informa¸c˜oes gerais
6 Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas
Representa¸c˜oes gr´aficas Exemplos
Informa¸c˜oes gerais
Informa¸c˜oes gerais Contato
Contato
[email protected]
Site pessoal
http://www.ufjf.br/joaquim_neto
Site do Departamento de Estat´ıstica (UFJF)
http://www.ufjf.br/estatistica
No¸c˜oes b´asicas
No¸c˜oes b´asicas Conceitos
Conceitos
A estat´ıstica
Em sua essˆencia, a estat´ıstica ´e uma parte da matem´atica aplicada que envolve t´ecnicas de coleta, interpreta¸c˜ao, organiza¸c˜ao, descri¸c˜ao, s´ıntese, an´alise e apresenta¸c˜ao de in-forma¸c˜oes.
Os resultados obtidos com estas t´ecnicas (chamadas t´ecnicas estat´ısticas) podem ser utilizados para:
tomar decis˜oes, criar estrat´egias, identificar padr˜oes e fazer previs˜oes ou proje¸c˜oes
No¸c˜oes b´asicas Conceitos
Podemos aplicar as t´ecnicas estat´ısticas em diversas ´areas de conhecimento. Vejamos alguns exemplos.
Exemplo 1:O uso de t´ecnicas estat´ısticas em dados de uma empresa pode conduzir `a descoberta de seus problemas e `a formula¸c˜ao de poss´ıveis solu¸c˜oes.
Exemplo 2:Laborat´orios farmacˆeuticos usam t´ecnicas estat´ısticas para avaliar um medicamento e ent˜ao decidir se este medicamento deve ser lan¸cado no mercado.
Exemplo 3:Qualquer pessoa pode usar a estat´ıstica para analisar sua situa¸c˜ao financeira, comparando seus ganhos e gastos. A partir desta an´alise, estrat´egias podem ser formuladas com a inten¸c˜ao de alcan¸car objetivos espec´ıficos (comprar um carro, fazer uma viagem, abrir uma empresa).
Exemplo 4:Realizar previs˜oes (ou proje¸c˜oes) ´e uma das preocupa¸c˜oes de empresas privadas e institui¸c˜oes governamentais. Nas empresas, ´e necess´ario prever: vendas, estoques, custos, fluxo de caixa e or¸camento anual do pr´oximo ano, por exemplo. Na administra¸c˜ao p´ublica, temos: a previs˜ao do n´umero de habitantes, da arrecada¸c˜ao e dos custos dos servi¸cos prestados.
No¸c˜oes b´asicas Conceitos
Popula¸c˜ao
A palavra ”popula¸c˜ao”, em sua concep¸c˜ao mais comum, representa o conjunto dos habitantes de um pa´ıs ou de uma dada regi˜ao. Em estat´ıstica, o termo ´e usado em um sentido mais amplo. Uma popula¸c˜ao (ou universo) ´e o conjunto com todos os elementos a serem estudados (elementos de interesse).
A quantidade de elementos de uma popula¸c˜ao pode ser finita ou infinita. Por exemplo: os empregados de uma empresa, as agˆencias de um banco e os bairros de uma cidade s˜ao popula¸c˜oes finitas. J´a as localiza¸c˜oes em uma linha ferrovi´aria, a altitude de um avi˜ao e a profundidade de uma escava¸c˜ao petrol´ıfera s˜ao popula¸c˜oes infinitas. Nas situa¸c˜oes mais comuns, lidamos com popula¸c˜oes finitas. Por´em, quando uma popula¸c˜ao, embora finita, ´e muito grande, ela ´e tratada, na pr´atica, como popula¸c˜ao infinita.
No¸c˜oes b´asicas Conceitos
Censo
Um censo ocorre quando as informa¸c˜oes de interesse s˜ao obtidas para todos os elementos da popula¸c˜ao, ou seja, quando ´e feito um levantamento completo da popula¸c˜ao.
Amostra
Quando a popula¸c˜ao ´e infinita a realiza¸c˜ao de um censo ´e imposs´ıvel. Al´em disso, quando a popula¸c˜ao ´e finita, mas muito grande, o censo pode ser impratic´avel devido `as limita¸c˜oes de custos, de tempo, de acesso, etc... Nestes casos, examinamos apenas uma parte da popula¸c˜ao, que chamamos de amostra. Assim, podemos dizer que uma amostra ´e um subconjunto de uma popula¸c˜ao.
Estat´ıstica descritiva
Conjunto de t´ecnicas destinadas a apresentar, descrever, ou resumir informa¸c˜oes, seja de uma amostra ou de uma popula¸c˜ao.
No¸c˜oes b´asicas Conceitos
Probabilidade
Teoria matem´atica utilizada para atribuir incerteza `a fenˆomenos de carater aleat´orio.
Inferˆencia
Frequentemente informa¸c˜oes de uma amostra s˜ao usadas para fazer algum tipo de conclus˜ao sobre a popula¸c˜ao. As t´ecnicas de generaliza¸c˜ao de uma amostra para a popula¸c˜ao s˜ao agrupadas no ramo da estat´ıstica denominado inferˆencia.
No¸c˜oes b´asicas Conceitos
Um dos principais conceitos relacionados `a organiza¸c˜ao da informa¸c˜ao ´e o conceito de vari´avel.
Vari´avel
Uma vari´avel ´e qualquer caracter´ıstica cujo valor pode mudar de um elemento para outro de uma popula¸c˜ao. Geralmente, vari´aveis s˜ao identificadas por letras mai´usculas. Vari´aveis s˜ao criadas ao agrupar informa¸c˜oes segundo crit´erios de tipifica¸c˜ao (separa¸c˜ao por tipo).
Por exemplo: ap´os coletar dados dos funcion´arios de uma empresa, podemos agrupar as informa¸c˜oes sobre idade, sal´ario e grau de instru¸c˜ao. Deste modo, teremos criado trˆes vari´aveis: ”Idade”, ”Sal´ario”e ”Grau de instru¸c˜ao”.
No¸c˜oes b´asicas Conceitos
As vari´aveis podem ser classificadas como quantitativas ou categ´oricas.
Vari´avel quantitativa
´
E uma vari´avel com valores que s´o podem ser n´umeros (representam contagens ou
mensura¸c˜oes). Algumas vari´aveis quantitativas s˜ao: sal´ario, altura, idade e n´umero de filhos.
Vari´avel categ´orica (ou qualitativa)
´
E uma vari´avel com valores que podem ser separados em diferentes categorias que se distinguem por alguma caracter´ıstica n˜ao-num´erica. Por exemplo: regi˜ao de procedˆencia, grau
No¸c˜oes b´asicas Conceitos
Vari´aveis quantitativas e categ´oricas est˜ao sujeitas ainda a uma segunda classifica¸c˜ao. Uma vari´avel quantitativa pode ser classificada como discreta ou cont´ınua.
Vari´avel discreta
´
E uma vari´avel com valores obtidos por um processo de contagem. Exemplos: n´umero de filhos, n´umero de s´eries escolares cursadas com aprova¸c˜ao e n´umero de interna¸c˜oes hospitalares.
Vari´avel cont´ınua
´
E uma vari´avel que assume valores em uma escala de medi¸c˜ao. Exemplos: renda mensal, peso e altura.
No¸c˜oes b´asicas Conceitos
Por outro lado, as vari´aveis categ´oricas podem ser classificadas como ordinais ou nominais.
Vari´avel ordinal
´
E uma vari´avel com valores que podem ser ordenados. Como exemplo de vari´avel ordinal, temos: grau de instru¸c˜ao e categoria da carteira de habilita¸c˜ao.
Vari´avel ´e nominal
´
E uma vari´avel com valores que n˜ao podem ser ordenados. Por exemplo: regi˜ao de procedˆencia e estado civil.
No¸c˜oes b´asicas Conceitos
O diagrama a seguir apresenta as classifica¸c˜oes de uma vari´avel.
2ª
classificação
1ª
classificação
Variável
Quantitativa
Discreta
Contínua
Categórica
Nominal
Ordinal
No¸c˜oes b´asicas Conceitos
Exemplo 5:A tabela abaixo exibe a classifica¸c˜ao de algumas vari´aveis. Vari´avel 1aclassifica¸c˜ao 2aclassifica¸c˜ao Estado civil qualitativa nominal
Grau de instru¸c˜ao qualitativa ordinal
N´umero de filhos quantitativa discreta
Sal´ario quantitativa cont´ınua
Regi˜ao de procedˆencia qualitativa nominal
No¸c˜oes b´asicas Conceitos
Dados
Dados (ou observa¸c˜oes) s˜ao os valores observados de uma vari´avel ou de duas ou mais vari´aveis. Os dados coletados s˜ao chamados de dados brutos quando ainda n˜ao passaram por qualquer procedimento de classifica¸c˜ao, organiza¸c˜ao ou resumo, ou seja, dados brutos s˜ao os dados coletados em sua forma original.
Tabelas e gr´aficos
Tabelas e gr´aficos s˜ao recursos muito utilizados para organizar, sintetizar e apresentar dados. A tabela ´e um quadro que exibe ou resume um conjunto de observa¸c˜oes. J´a os gr´aficos s˜ao formas de apresenta¸c˜ao dos dados, com o objetivo de produzir uma impress˜ao mais r´apida e f´acil do fenˆomeno em estudo. Geralmente informa¸c˜oes que constam em uma tabela podem ser exibidas em uma espec´ıfica representa¸c˜ao gr´afica ou vice-versa.
No¸c˜oes b´asicas Conceitos
Tabela de frequˆencias
Uma tabela de frequˆencias apresenta o n´umero de observa¸c˜oes de uma vari´avel por cat-egorias ou classes de valores. O n´umero de observa¸c˜oes de cada categoria (ou classe) ´e chamado de frequˆencia absoluta (ou s´o frequˆencia).
Uma tabela de frequˆencias pode apresentar, al´em das frequˆencias absolutas, as frequˆencias relativas, onde
Frequˆencia relativa = Frequˆencia
n´umero de observa¸c˜oes da categoria ou classe de valores.
No¸c˜oes b´asicas Conceitos
Alguns tipos de gr´
aficos:
Gr´
afico de barras (agrupadas ou empilhadas),
Gr´
afico de setores,
Gr´
afico de linha,
Gr´
afico de ´
area,
Gr´
afico de radar ou polar,
Gr´
afico de intervalos,
Gr´
afico de dispers˜
ao,
Pirˆ
amide populacional,
Diagrama de caule e folhas,
Diagrama pontual,
Histograma,
Boxplot.
Medidas de localiza¸c˜ao
Medidas de localiza¸c˜
ao
Medidas de localiza¸c˜ao Introdu¸c˜ao
Introdu¸c˜
ao
Na se¸c˜ao anterior, vimos como resumir os dados usando gr´aficos e tabelas. Nesta se¸c˜ao, veremos algumas medidas usadas para resumir numericamente os dados. Inicialmente, veremos algumas medidas de localiza¸c˜ao e, na pr´oxima se¸c˜ao, veremos algumas medidas de variabilidade. Por´em, antes de come¸car a definir estas medidas, vamos introduzir uma nota¸c˜ao conveniente para representar os dados observados. Os dados ou observa¸c˜oes de uma vari´avel ser˜ao representados por
x = (x1, x2, ..., xn),
onde x1, x2, ..., xn, representam, respectivamente, a 1aobserva¸c˜ao, a 2aobserva¸c˜ao e assim por diante.
Al´em disso, vamos denotar a menor observa¸c˜ao por x(1), a segunda menor por x(2), e assim por diante. Deste modo, temos
Medidas de localiza¸c˜ao Ponto m´edio
Ponto m´
edio
O ponto m´edio PM(x ) ´e dado por
PM(x ) =x(1)+ x(n) 2
OBS:O ponto m´edio ´e raramente usado, pois ´e extremamente sens´ıvel aos extremos e desconsidera as demais observa¸c˜oes.
Exemplo 6:Ao longo de 7 dias, foram registradas as temperaturas: 21.8o, 20.5o,25.3o, 23.1o, 28.3o, 26.0o, 29.1o. Qual ´e o ponto m´edio destas temperaturas?
Solu¸c˜ao:
PM(x ) =20.5 + 29.1 2 = 24.8.
Medidas de localiza¸c˜ao M´edia
M´
edia
A m´edia x das observa¸c˜oes ´e dada por
x = n P i =1 xi n
Exemplo 7:Qual ´e a m´edia das temperaturas 21.8o, 20.5o, 25.3o, 23.1o, 28.3o, 26.0oe 29.1o? Solu¸c˜ao:A m´edia ´e dada por
x = 21.8 o+ 20.5o+ 25.3o+ 23.1o+ 28.3o+ 26.0o+ 29.1o 7 = 174.1o 7 ∼ = 24.87o
Medidas de localiza¸c˜ao M´edia
OBS:
Pode-se calcular a m´edia sempre? Para dados de uma vari´avel qualitativa n˜ao faz sentido calcular a m´edia, mesmo que os dados tenham sido numerados. Por exemplo: para a vari´avel sexo, podemos associar o masculino ao 1 e o feminino ao 2, criando assim observa¸c˜oes num´ericas e, mesmo assim, n˜ao faz sentido calcular a m´edia destas novas observa¸c˜oes. O mesmo vale para o ponto m´edio.
´
E importante perceber que, ao resumir ou representar as observa¸c˜oes usando a m´edia, estamos perdendo informa¸c˜oes. De fato, considere dois vetores com seis observa¸c˜oes:
x = {0, 1, 4, 10, 6, 9} e y = {5, 5, 5, 5, 5, 5}. Neste caso, temos que
x = 0 + 1 + 4 + 10 + 6 + 9
6 = 5 e y =
5 + 5 + 4 + 6 + 5 + 5
6 = 5,
ou seja, os dois vetores de valores apresentam m´edias aritm´eticas iguais a 5, mas os valores de x s˜ao mais dispersos que os de y .
Medidas de localiza¸c˜ao M´edia ponderada
M´
edia ponderada
Em alguns casos, os valores variam em grau de importˆancia, de modo que podemos querer ponder´a-los apropriadamente.
A m´edia ponderada MP(x ) considera pesos para os valores observados. MP(x ) ´e dado ent˜ao por
MP(x ) = n P i =1 wixi n P i =1 wi ,
Medidas de localiza¸c˜ao M´edia ponderada
Exemplo 8:Suponhamos que as notas de um aluno em 5 avalia¸c˜oes realizadas ao longo de um ano s˜ao:
6, 3, 5, 2, 5, 7.
No entanto, os n´ıveis de dificuldade das provas foram diferentes. Assim, dois grupos de professores atribu´ıram pesos as notas, conforme figura abaixo.
Medidas de localiza¸c˜ao M´edia ponderada
Calculando a m´edia ponderada com os pesos dados pelo primeiro grupo de professores, temos
MP(x ) = n P i =1 wixi n P i =1 wi =10 · 2 + 8 · 3 + 5 · 5 + 4 · 5 + 2 · 6 + 1 · 7 10 + 8 + 4 + 4 + 2 + 1 = 3.6.
J´a com os pesos do segundo grupo de professores, temos
MP(x ) = n P i =1 wixi n P i =1 wi =1 · 2 + 2 · 3 + 4 · 5 + 5 · 5 + 8 · 6 + 10 · 7 1 + 2 + 4 + 4 + 8 + 10 = 5.7.
Medidas de localiza¸c˜ao M´edia ponderada
Estas m´edias foram representadas por pontos vermelhos na figura abaixo.
Medidas de localiza¸c˜ao Moda
Moda
A moda de um conjunto de dados ´e o valor com maior frequˆencia.
Quando dois valores ocorrem com a mesma maior frequˆencia, cada um ´e uma moda e o conjunto de dados ´e chamado de bimodal.
Quando mais de dois valores ocorrem com a mesma maior frequˆencia, cada um ´e uma moda e o conjunto de dados ´e chamado de multimodal.
Exemplo 9:Qual a moda dos dados abaixo?
a) 5.40, 1.10, 0.42, 0.73, 0.48, 1.10 b) 27, 27, 27, 55, 55, 55, 88, 88, 99 c) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Medidas de localiza¸c˜ao Mediana
Mediana
A medianabx ´e uma medida tal que 50% das observa¸c˜oes s˜ao menores ou iguais abx e as outras 50% s˜ao maiores ou iguais abx . Em outras palavras, a mediana ´e a medida do meio quando os dados est˜ao arranjados em ordem crescente (ou decrescente).
Para encontrar a mediana, primeiro ordene os dados e depois siga um dos procedimentos: Se o n´umero de valores for impar, a mediana ser´a o valor localizado no meio exato da lista. Se o n´umero for par, a mediana ser´a encontrada pelo c´alculo da m´edia dos dois n´umeros centrais.
Na forma de equa¸c˜ao, temos que a mediana ´e dada por
b x = x(n+1 2 ), se n ´e ´ımpar x (n 2) +x (n 2+1) 2 , se n ´e par
Medidas de localiza¸c˜ao Mediana
Exemplo 10:Consideremos agora o c´alculo da mediana das medidas de temperatura 21.8o, 20.5o, 25.3o, 23.1o, 28.3o, 26.0oe 29.1o. Ordenando os elementos, teremos
20.5, 21.8, 23.1, 25.3, 26.0, 28.3, 29.1.
Como o n´umero de observa¸c˜oes ´e impar, a mediana ´e o valor do meio, ou seja, b
x = x(7+1
2 ) = x4= 25.3.
Agora, suponhamos que a temperatura 22.4 graus Celsius foi observada no oitavo dia. Ordenando os dados, ter´ıamos
20.5, 21.8, 22.4, 23.1, 25.3, 26.0, 28.3, 29.1. Como o n´umero de observa¸c˜oes ´e par, a mediana ´e
b x = x8 2 + x8 2+1 2 = x4+ x5 2 = 23.1 + 25.3 2 = 24.2.
Medidas de localiza¸c˜ao Quantil
Quantil
O quantil de ordem p, com 0 < p < 1, ´e um valor q(p) tal que 100p% das observa¸c˜oes s˜ao menores ou iguais a q(p) e as restantes 100(1 − p)% s˜ao maiores ou iguais a q(p). Tal como a mediana, ´e uma medida que se calcula a partir das observa¸c˜oes ordenadas.
Existem v´arios m´etodos para c´alculo de quantis. Um destes m´etodos define q(p) a partir da equa¸c˜ao q(p) = ( x([np]+1), se np n˜ao ´e inteiro x(np)+x(np+1) 2 , se np ´e inteiro
Medidas de variabilidade
Medidas de variabilidade Introdu¸c˜ao
Introdu¸c˜
ao
Na se¸c˜
ao anterior, vimos alguma medidas que resumem a localiza¸
c˜
ao de
um conjunto de dados. Agora, veremos algumas medidas que resumem a
variabilidade dos dados.
Medidas de variabilidade Amplitude
Amplitude
Medidas de variabilidade Desvio m´edio absoluto
Desvio m´
edio absoluto
DMA (x ) =
NP
i =1|x
i− x|
N
Medidas de variabilidade Variˆancia
Variˆ
ancia
Var (x ) = N P i =1 (xi− x)2 (N − 1) (1) ou Var (x ) = N N P i =1 x2 i − N P i =1 xi !2 N (N − 1) (2)Medidas de variabilidade Desvio padr˜ao
Desvio padr˜
ao
O desvio padr˜ao ´e igual a raiz quadrada da variˆancia.
DP(x ) =pVar (x ) = v u u u u t N P i =1 (xi− x)2 (N − 1) (3) ou DP(x ) =pVar (x ) = v u u u u t N N P i =1 x2 i − N P i =1 xi !2 N (N − 1) (4)
Interpreta¸c˜ao simples: Para muitos conjuntos de dados, a grande maioria (tal como 95% ) dos valores se localiza a dois desvios padr˜oes da m´edia.
Medidas de variabilidade Coeficiente de varia¸c˜ao
Coeficiente de varia¸c˜
ao
O coeficiente de varia¸
c˜
ao CV descreve o desvio padr˜
ao relativo `
a m´
edia. ´
E
dado por
CV (x ) =
DP(x )
¯
x
Medidas de variabilidade Coeficiente de varia¸c˜ao
Exemplo 11:Queremos estudar o n´umero de erros em provas sobre geometria aplicadas `a um grupo de alunos do segundo ciclo do ensino fundamental. Para isto escolhemos uma amostra de 50 provas. O n´umero de erros por prova ´e apresentado na tabela abaixo.
Erros Frequˆencia
0 2
1 10
2 20
3 12
4 6
a) Qual ´e a m´edia de erros por prova? b) Qual ´e a mediana dos erros? c) Qual ´e o desvio padr˜ao dos erros? d) Qual ´e a variˆancia dos erros?
Dependˆencia entre observa¸c˜oes pareadas
Dependˆencia entre observa¸c˜oes pareadas
Agora estudaremos m´
etodos para associar observa¸c˜
oes pareadas. Os
m´
etodos descritos nesta se¸c˜
ao podem ser aplicados apenas em observa¸
c˜
oes
num´
ericas. Assim, para aplic´
a-los em observa¸
c˜
oes de vari´
aveis qualitativas
devemos numer´
a-las antes.
Suponhamos ent˜
ao o conjunto {(x
1, y
1), (x
2, y
2), ..., (x
n, y
n)} de pares de
observa¸c˜
oes num´
ericas. Vamos assumir que x = (x
1, x
2, ..., x
n) ´
e um vetor
de observa¸
c˜
oes da vari´
avel X e que y = (y
1, y
2, ..., y
n) ´
e um vetor de
observa¸
c˜
oes da vari´
avel Y .
Dependˆencia entre observa¸c˜oes pareadas
Gr´
afico de dispers˜
ao
Um dispositivo bastante ´util para verificar a associa¸c˜ao entre estas vari´aveis ´e o gr´afico de dispers˜ao.
Exemplo 12:A tabela a seguir exibe o n´umero de anos de servi¸co (X ) e o n´umero de clientes (Y ) dos agentes de uma companhia de seguros.
Dependˆencia entre observa¸c˜oes pareadas
Figura:
Exemplo de gr´afico de dispers˜ao.Parece haver uma associa¸c˜ao direta entre as vari´aveis anos de servi¸co e n´umero de clientes.
Dependˆencia entre observa¸c˜oes pareadas
Exemplo 13:Agora considere os dados abaixo, sendo X a renda bruta mensal e Y a porcentagem da renda gasta em sa´ude.
Dependˆencia entre observa¸c˜oes pareadas
Parece haver uma associa¸c˜ao indireta entre as vari´aveis.
Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos
M´
etodo de M´ınimos Quadr´
aticos
O objetivo do m´etodo de M´ınimos Quadr´aticos ´e encontrar uma reta que “corta” o conjunto de observa¸c˜oes pareadas. Ou seja, ao aplicar o m´etodo de M´ınimos Quadr´aticos, a inten¸c˜ao ´e encontrar uma fun¸c˜ao linear (reta) que expresse as observa¸c˜oes de Y como fun¸c˜ao das observa¸c˜oes de X .
Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos
Neste m´
etodo, a reta ´
e constru´ıda minimizando a soma dos desvios
quadr´
aticos verticais entre cada ponto e a reta.
Suponhamos ent˜
ao uma fun¸
c˜
ao linear f (x ) = αx + β cuja representa¸
c˜
ao
gr´
afica ´
e uma reta. Quando x = x
i, a altura da reta ´
e dada por αx
i+ β e
a distˆ
ancia vertical entre o ponto (x
i, y
i) e a reta ´
e [y
i− (αx
i+ β)]. O
m´
etodo de m´ınimos quadr´
aticos especifica que os valores de α e β devem
ser escolhidos de modo a minimizar
Q =
N
X
i =1
(y
i− (αx
i+ β))
2Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos
As derivadas parciais de Q s˜ao:
∂Q ∂β = −2 N X i =1 (yi− αxi− β) ∂Q ∂α = −2 N X i =1 (yi− αxi− β) xi
Igualando as derivadas a zero, temos o seguinte sistema de equa¸c˜oes α N P i =1 xi+ Nβ = N P i =1 yi α N P i =1 x2 i + β N P i =1 xi = N P i =1 yixi
Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos
Considerando as derivadas segundas, pode-se mostrar que as solu¸c˜oes do sistema de equa¸c˜oes acima minimizam Q. Denotando estes valores por ˆβ e ˆα, temos
ˆ α e ˆβ ˆ α = N P i =1 xiyi ! − Nx · y N P i =1 x2 i ! − Nx2 ˆ β = y − ˆαx
Assim, a equa¸c˜ao da reta obtida pelo m´etodo de m´ınimos quadr´aticos ´e f (x ) = ˆαx + ˆβ.
Para o exemplo com as vari´aveis n´umero de anos de servi¸co (X ) e n´umero de clientes (Y ), temos que ˆα = 2.951807, ˆβ = 39.6747 (verifique) e, consequentemente, f (x ) = 2.951807x + 39.6747.
Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao
Coeficiente de correla¸c˜
ao
Sejam x = (x1, x2, ..., xN) observa¸c˜oes de uma vari´avel X e y = (y1, y2, ..., yN) observa¸c˜oes de uma vari´avel Y . Agora, estaremos interessados em quantificar a “associa¸c˜ao linear” entre as observa¸c˜oes destas duas vari´aveis. Isto ´e, iremos definir uma medida que avalia o quanto a nuvem de pontos do gr´afico de dispers˜ao se aproxima de uma reta.
Por meio de uma transforma¸c˜ao, podemos deslocar a nuvem de pontos para a origem do sistema de coordenadas. Para fazer este deslocamento, basta substituir
cada observa¸c˜ao xi por xi− x
Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao
A figura a seguir ilustra trˆes nuvens de pontos que foram deslocadas para a origem.
Note que no gr´afico (a), onde h´a uma associa¸c˜ao direta, a maioria dos pontos est´a situada no primeiro ou no terceiro quadrante. Nestes quadrantes, as coordenadas tˆem o mesmo sinal e, portanto, seu produto ser´a positivo. Somando os produtos das coordenadas, o teremos um n´umero positivo (que indica associa¸c˜ao direta).
No gr´afico (b), onde h´a uma associa¸c˜ao indireta, a maioria dos pontos est´a situada no segundo ou no quarto quadrante. Nestes quadrantes, as coordenadas tˆem sinais diferentes e, portanto, seu produto ser´a negativo. Somando os produtos das coordenadas, teremos um n´umero negativo (que indica associa¸c˜ao inversa).
J´a no gr´afico (c), onde n˜ao h´a associa¸c˜ao, a soma dos produtos das coordenadas ser´a um n´umero pr´oximo de zero (que indica n˜ao associa¸c˜ao linear), pois cada resultado positivo tem um resultado negativo sim´etrico.
Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao
No entanto, a soma do produto das coordenadas ainda n˜ao ´e uma boa medida de associa¸c˜ao, pois ´e influˆenciada pela variabilidade de cada vari´avel. Afim de corrigirmos isto, podemos “reduzir” as observa¸c˜oes das duas vari´aveis `a uma mesma variabilidade. Para isto, basta dividir os desvios pelos respectivos desvios padr˜oes, ou seja, tomar
zi = xi− x DP(x ), e wi = yi− y DP(x ), ∀i = 1, 2, ..., N.
Al´em disso, a soma do produto das coordenadas reduzidas tende a aumentar com o n´umero de pontos e ficaria dif´ıcil comparar esta medida para dois conjuntos de dados com diferentes quantidades de pontos. Por isso, costuma-se usar a m´edia dos produtos dos desvios reduzidos.
O que nos leva `a defini¸c˜ao da medida de correla¸c˜ao entre duas vari´aveis, dada por: corr (x , y ) = 1 N − 1 N X i =1 xi− x DP (x ) yi− y DP (y ) (5)
Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao
Exemplo 14:Consideremos novamente o exemplo que cita o n´umero de anos de servi¸co (X ) e o n´umero de clientes (Y ) dos agentes de uma companhia de seguros.
Todas as etapas do c´alculo do coeficiente de correla¸c˜ao est˜ao na tabela abaixo.
Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao
A correla¸
c˜
ao tamb´
em pode ser calculada usando a equa¸
c˜
ao
Cor (x , y ) =
NP
i =1x
iy
i− Nx · y
s
NP
i =1x
i2− Nx
2N
P
i =1y
i2− Ny
2,
Dependˆencia entre observa¸c˜oes pareadas Covariˆancia
Covariˆ
ancia
A covariˆ
ancia entre as observa¸c˜
oes x = (x
1, x
2, ..., x
N) de uma vari´
avel X e
y = (y
1, y
2, ..., y
N) de uma vari´
avel Y ´
e dada por
Cov (x , y ) =
NP
i =1(x
i− x) (y
i− y )
N − 1
Dependˆencia entre vari´aveis a partir das frequˆencias
Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas
Representa¸c˜
oes por tabelas
Agora, iremos analisar o comportamento conjunto de 2 vari´aveis. Neste caso a representa¸c˜ao dos dados deve ser feita a partir de uma tabela de dupla entrada, como no exemplo abaixo.
Ensino fundamental Ensino M´edio Ensino superior Total
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
Tabela:
Tabela de frequˆencias das vari´aveis grau de instru¸c˜ao e regi˜ao de procedˆencia.Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas
Ao inv´es de trabalharmos com as frequˆencias absolutas, podemos usar as frequˆencias relativas (propor¸c˜oes). Mas aqui, existem trˆes possibilidades:
em rela¸c˜ao ao total geral, em rela¸c˜ao ao total de cada linha, em rela¸c˜ao ao total de cada coluna.
Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas
Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes gr´aficas
Representa¸c˜
oes gr´
aficas
Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes gr´aficas
Figura:
Representa¸c˜ao gr´afica do grau de instru¸c˜ao por regi˜ao de procedˆenciaDependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Exemplos
Exemplo sem associa¸c˜ao: Suponhamos que queremos estudar a associa¸c˜ao entre sexo e a carreira escolhida por 200 alunos dos cursos de economia e administra¸c˜ao.
Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Como veremos nas figuras a seguir, n˜ao h´a uma dependˆencia entre as vari´aveis.
Figura:
Representa¸c˜ao gr´afica do curso por sexo.Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Figura:
Representa¸c˜ao gr´afica do sexo por curso.Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Exemplo com associa¸c˜ao: Agora, suponhamos que queremos estudar a associa¸c˜ao entre sexo e a carreira escolhida por 200 alunos dos cursos de f´ısica e ciˆencias sociais.
Figura:
Tabelas de frequˆencias das vari´aveis sexo e curso.Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Como veremos nas figuras a seguir, h´a uma “dependˆencia” entre as vari´aveis.
Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Figura:
Representa¸c˜ao gr´afica do sexo por curso.H´a uma maior concentra¸c˜ao de homens no curso de f´ısica e uma maior concentra¸c˜ao de mulheres no curso de ciˆencias sociais. Assim, parece haver uma associa¸c˜ao (ou dependˆencia) entre as vari´aveis sexo e curso.
Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos
Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos