• Nenhum resultado encontrado

Joaquim Neto Versão 1.0

N/A
N/A
Protected

Academic year: 2021

Share "Joaquim Neto Versão 1.0"

Copied!
71
0
0

Texto

(1)

Introdu¸c˜

ao `

a estat´ıstica

Joaquim Neto

[email protected]

www.ufjf.br/joaquim_neto

Departamento de Estat´ıstica - ICE Universidade Federal de Juiz de Fora (UFJF)

Vers˜

ao 1.0

(2)

Sum´

ario

1 Informa¸c˜oes gerais Contato

2 No¸c˜oes b´asicas Conceitos 3 Medidas de localiza¸c˜ao Introdu¸c˜ao Ponto m´edio M´edia M´edia ponderada Moda Mediana Quantil 4 Medidas de variabilidade Introdu¸c˜ao Amplitude

Desvio m´edio absoluto Variˆancia

Desvio padr˜ao Coeficiente de varia¸c˜ao

5 Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos

(3)

Informa¸c˜oes gerais

6 Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas

Representa¸c˜oes gr´aficas Exemplos

(4)

Informa¸c˜oes gerais

(5)

Informa¸c˜oes gerais Contato

Contato

E-mail

[email protected]

Site pessoal

http://www.ufjf.br/joaquim_neto

Site do Departamento de Estat´ıstica (UFJF)

http://www.ufjf.br/estatistica

(6)

No¸c˜oes b´asicas

(7)

No¸c˜oes b´asicas Conceitos

Conceitos

A estat´ıstica

Em sua essˆencia, a estat´ıstica ´e uma parte da matem´atica aplicada que envolve t´ecnicas de coleta, interpreta¸c˜ao, organiza¸c˜ao, descri¸c˜ao, s´ıntese, an´alise e apresenta¸c˜ao de in-forma¸c˜oes.

Os resultados obtidos com estas t´ecnicas (chamadas t´ecnicas estat´ısticas) podem ser utilizados para:

tomar decis˜oes, criar estrat´egias, identificar padr˜oes e fazer previs˜oes ou proje¸c˜oes

(8)

No¸c˜oes b´asicas Conceitos

Podemos aplicar as t´ecnicas estat´ısticas em diversas ´areas de conhecimento. Vejamos alguns exemplos.

Exemplo 1:O uso de t´ecnicas estat´ısticas em dados de uma empresa pode conduzir `a descoberta de seus problemas e `a formula¸c˜ao de poss´ıveis solu¸c˜oes.

Exemplo 2:Laborat´orios farmacˆeuticos usam t´ecnicas estat´ısticas para avaliar um medicamento e ent˜ao decidir se este medicamento deve ser lan¸cado no mercado.

Exemplo 3:Qualquer pessoa pode usar a estat´ıstica para analisar sua situa¸c˜ao financeira, comparando seus ganhos e gastos. A partir desta an´alise, estrat´egias podem ser formuladas com a inten¸c˜ao de alcan¸car objetivos espec´ıficos (comprar um carro, fazer uma viagem, abrir uma empresa).

Exemplo 4:Realizar previs˜oes (ou proje¸c˜oes) ´e uma das preocupa¸c˜oes de empresas privadas e institui¸c˜oes governamentais. Nas empresas, ´e necess´ario prever: vendas, estoques, custos, fluxo de caixa e or¸camento anual do pr´oximo ano, por exemplo. Na administra¸c˜ao p´ublica, temos: a previs˜ao do n´umero de habitantes, da arrecada¸c˜ao e dos custos dos servi¸cos prestados.

(9)

No¸c˜oes b´asicas Conceitos

Popula¸c˜ao

A palavra ”popula¸c˜ao”, em sua concep¸c˜ao mais comum, representa o conjunto dos habitantes de um pa´ıs ou de uma dada regi˜ao. Em estat´ıstica, o termo ´e usado em um sentido mais amplo. Uma popula¸c˜ao (ou universo) ´e o conjunto com todos os elementos a serem estudados (elementos de interesse).

A quantidade de elementos de uma popula¸c˜ao pode ser finita ou infinita. Por exemplo: os empregados de uma empresa, as agˆencias de um banco e os bairros de uma cidade s˜ao popula¸c˜oes finitas. J´a as localiza¸c˜oes em uma linha ferrovi´aria, a altitude de um avi˜ao e a profundidade de uma escava¸c˜ao petrol´ıfera s˜ao popula¸c˜oes infinitas. Nas situa¸c˜oes mais comuns, lidamos com popula¸c˜oes finitas. Por´em, quando uma popula¸c˜ao, embora finita, ´e muito grande, ela ´e tratada, na pr´atica, como popula¸c˜ao infinita.

(10)

No¸c˜oes b´asicas Conceitos

Censo

Um censo ocorre quando as informa¸c˜oes de interesse s˜ao obtidas para todos os elementos da popula¸c˜ao, ou seja, quando ´e feito um levantamento completo da popula¸c˜ao.

Amostra

Quando a popula¸c˜ao ´e infinita a realiza¸c˜ao de um censo ´e imposs´ıvel. Al´em disso, quando a popula¸c˜ao ´e finita, mas muito grande, o censo pode ser impratic´avel devido `as limita¸c˜oes de custos, de tempo, de acesso, etc... Nestes casos, examinamos apenas uma parte da popula¸c˜ao, que chamamos de amostra. Assim, podemos dizer que uma amostra ´e um subconjunto de uma popula¸c˜ao.

Estat´ıstica descritiva

Conjunto de t´ecnicas destinadas a apresentar, descrever, ou resumir informa¸c˜oes, seja de uma amostra ou de uma popula¸c˜ao.

(11)

No¸c˜oes b´asicas Conceitos

Probabilidade

Teoria matem´atica utilizada para atribuir incerteza `a fenˆomenos de carater aleat´orio.

Inferˆencia

Frequentemente informa¸c˜oes de uma amostra s˜ao usadas para fazer algum tipo de conclus˜ao sobre a popula¸c˜ao. As t´ecnicas de generaliza¸c˜ao de uma amostra para a popula¸c˜ao s˜ao agrupadas no ramo da estat´ıstica denominado inferˆencia.

(12)

No¸c˜oes b´asicas Conceitos

Um dos principais conceitos relacionados `a organiza¸c˜ao da informa¸c˜ao ´e o conceito de vari´avel.

Vari´avel

Uma vari´avel ´e qualquer caracter´ıstica cujo valor pode mudar de um elemento para outro de uma popula¸c˜ao. Geralmente, vari´aveis s˜ao identificadas por letras mai´usculas. Vari´aveis s˜ao criadas ao agrupar informa¸c˜oes segundo crit´erios de tipifica¸c˜ao (separa¸c˜ao por tipo).

Por exemplo: ap´os coletar dados dos funcion´arios de uma empresa, podemos agrupar as informa¸c˜oes sobre idade, sal´ario e grau de instru¸c˜ao. Deste modo, teremos criado trˆes vari´aveis: ”Idade”, ”Sal´ario”e ”Grau de instru¸c˜ao”.

(13)

No¸c˜oes b´asicas Conceitos

As vari´aveis podem ser classificadas como quantitativas ou categ´oricas.

Vari´avel quantitativa

´

E uma vari´avel com valores que s´o podem ser n´umeros (representam contagens ou

mensura¸c˜oes). Algumas vari´aveis quantitativas s˜ao: sal´ario, altura, idade e n´umero de filhos.

Vari´avel categ´orica (ou qualitativa)

´

E uma vari´avel com valores que podem ser separados em diferentes categorias que se distinguem por alguma caracter´ıstica n˜ao-num´erica. Por exemplo: regi˜ao de procedˆencia, grau

(14)

No¸c˜oes b´asicas Conceitos

Vari´aveis quantitativas e categ´oricas est˜ao sujeitas ainda a uma segunda classifica¸c˜ao. Uma vari´avel quantitativa pode ser classificada como discreta ou cont´ınua.

Vari´avel discreta

´

E uma vari´avel com valores obtidos por um processo de contagem. Exemplos: n´umero de filhos, n´umero de s´eries escolares cursadas com aprova¸c˜ao e n´umero de interna¸c˜oes hospitalares.

Vari´avel cont´ınua

´

E uma vari´avel que assume valores em uma escala de medi¸c˜ao. Exemplos: renda mensal, peso e altura.

(15)

No¸c˜oes b´asicas Conceitos

Por outro lado, as vari´aveis categ´oricas podem ser classificadas como ordinais ou nominais.

Vari´avel ordinal

´

E uma vari´avel com valores que podem ser ordenados. Como exemplo de vari´avel ordinal, temos: grau de instru¸c˜ao e categoria da carteira de habilita¸c˜ao.

Vari´avel ´e nominal

´

E uma vari´avel com valores que n˜ao podem ser ordenados. Por exemplo: regi˜ao de procedˆencia e estado civil.

(16)

No¸c˜oes b´asicas Conceitos

O diagrama a seguir apresenta as classifica¸c˜oes de uma vari´avel.

classificação

classificação

Variável

Quantitativa

Discreta

Contínua

Categórica

Nominal

Ordinal

(17)

No¸c˜oes b´asicas Conceitos

Exemplo 5:A tabela abaixo exibe a classifica¸c˜ao de algumas vari´aveis. Vari´avel 1aclassifica¸ao 2aclassifica¸ao Estado civil qualitativa nominal

Grau de instru¸c˜ao qualitativa ordinal

N´umero de filhos quantitativa discreta

Sal´ario quantitativa cont´ınua

Regi˜ao de procedˆencia qualitativa nominal

(18)

No¸c˜oes b´asicas Conceitos

Dados

Dados (ou observa¸c˜oes) s˜ao os valores observados de uma vari´avel ou de duas ou mais vari´aveis. Os dados coletados s˜ao chamados de dados brutos quando ainda n˜ao passaram por qualquer procedimento de classifica¸c˜ao, organiza¸c˜ao ou resumo, ou seja, dados brutos s˜ao os dados coletados em sua forma original.

Tabelas e gr´aficos

Tabelas e gr´aficos s˜ao recursos muito utilizados para organizar, sintetizar e apresentar dados. A tabela ´e um quadro que exibe ou resume um conjunto de observa¸c˜oes. J´a os gr´aficos s˜ao formas de apresenta¸c˜ao dos dados, com o objetivo de produzir uma impress˜ao mais r´apida e f´acil do fenˆomeno em estudo. Geralmente informa¸c˜oes que constam em uma tabela podem ser exibidas em uma espec´ıfica representa¸c˜ao gr´afica ou vice-versa.

(19)

No¸c˜oes b´asicas Conceitos

Tabela de frequˆencias

Uma tabela de frequˆencias apresenta o n´umero de observa¸c˜oes de uma vari´avel por cat-egorias ou classes de valores. O n´umero de observa¸c˜oes de cada categoria (ou classe) ´e chamado de frequˆencia absoluta (ou s´o frequˆencia).

Uma tabela de frequˆencias pode apresentar, al´em das frequˆencias absolutas, as frequˆencias relativas, onde

Frequˆencia relativa = Frequˆencia

n´umero de observa¸c˜oes da categoria ou classe de valores.

(20)

No¸c˜oes b´asicas Conceitos

Alguns tipos de gr´

aficos:

Gr´

afico de barras (agrupadas ou empilhadas),

Gr´

afico de setores,

Gr´

afico de linha,

Gr´

afico de ´

area,

Gr´

afico de radar ou polar,

Gr´

afico de intervalos,

Gr´

afico de dispers˜

ao,

Pirˆ

amide populacional,

Diagrama de caule e folhas,

Diagrama pontual,

Histograma,

Boxplot.

(21)

Medidas de localiza¸c˜ao

Medidas de localiza¸c˜

ao

(22)

Medidas de localiza¸c˜ao Introdu¸c˜ao

Introdu¸c˜

ao

Na se¸c˜ao anterior, vimos como resumir os dados usando gr´aficos e tabelas. Nesta se¸c˜ao, veremos algumas medidas usadas para resumir numericamente os dados. Inicialmente, veremos algumas medidas de localiza¸c˜ao e, na pr´oxima se¸c˜ao, veremos algumas medidas de variabilidade. Por´em, antes de come¸car a definir estas medidas, vamos introduzir uma nota¸c˜ao conveniente para representar os dados observados. Os dados ou observa¸c˜oes de uma vari´avel ser˜ao representados por

x = (x1, x2, ..., xn),

onde x1, x2, ..., xn, representam, respectivamente, a 1aobserva¸c˜ao, a 2aobserva¸c˜ao e assim por diante.

Al´em disso, vamos denotar a menor observa¸c˜ao por x(1), a segunda menor por x(2), e assim por diante. Deste modo, temos

(23)

Medidas de localiza¸c˜ao Ponto m´edio

Ponto m´

edio

O ponto m´edio PM(x ) ´e dado por

PM(x ) =x(1)+ x(n) 2

OBS:O ponto m´edio ´e raramente usado, pois ´e extremamente sens´ıvel aos extremos e desconsidera as demais observa¸c˜oes.

Exemplo 6:Ao longo de 7 dias, foram registradas as temperaturas: 21.8o, 20.5o,25.3o, 23.1o, 28.3o, 26.0o, 29.1o. Qual ´e o ponto m´edio destas temperaturas?

Solu¸c˜ao:

PM(x ) =20.5 + 29.1 2 = 24.8.

(24)

Medidas de localiza¸c˜ao M´edia

edia

A m´edia x das observa¸c˜oes ´e dada por

x = n P i =1 xi n

Exemplo 7:Qual ´e a m´edia das temperaturas 21.8o, 20.5o, 25.3o, 23.1o, 28.3o, 26.0oe 29.1o? Solu¸c˜ao:A m´edia ´e dada por

x = 21.8 o+ 20.5o+ 25.3o+ 23.1o+ 28.3o+ 26.0o+ 29.1o 7 = 174.1o 7 ∼ = 24.87o

(25)

Medidas de localiza¸c˜ao M´edia

OBS:

Pode-se calcular a m´edia sempre? Para dados de uma vari´avel qualitativa n˜ao faz sentido calcular a m´edia, mesmo que os dados tenham sido numerados. Por exemplo: para a vari´avel sexo, podemos associar o masculino ao 1 e o feminino ao 2, criando assim observa¸c˜oes num´ericas e, mesmo assim, n˜ao faz sentido calcular a m´edia destas novas observa¸c˜oes. O mesmo vale para o ponto m´edio.

´

E importante perceber que, ao resumir ou representar as observa¸c˜oes usando a m´edia, estamos perdendo informa¸c˜oes. De fato, considere dois vetores com seis observa¸c˜oes:

x = {0, 1, 4, 10, 6, 9} e y = {5, 5, 5, 5, 5, 5}. Neste caso, temos que

x = 0 + 1 + 4 + 10 + 6 + 9

6 = 5 e y =

5 + 5 + 4 + 6 + 5 + 5

6 = 5,

ou seja, os dois vetores de valores apresentam m´edias aritm´eticas iguais a 5, mas os valores de x s˜ao mais dispersos que os de y .

(26)

Medidas de localiza¸c˜ao M´edia ponderada

edia ponderada

Em alguns casos, os valores variam em grau de importˆancia, de modo que podemos querer ponder´a-los apropriadamente.

A m´edia ponderada MP(x ) considera pesos para os valores observados. MP(x ) ´e dado ent˜ao por

MP(x ) = n P i =1 wixi n P i =1 wi ,

(27)

Medidas de localiza¸c˜ao M´edia ponderada

Exemplo 8:Suponhamos que as notas de um aluno em 5 avalia¸c˜oes realizadas ao longo de um ano s˜ao:

6, 3, 5, 2, 5, 7.

No entanto, os n´ıveis de dificuldade das provas foram diferentes. Assim, dois grupos de professores atribu´ıram pesos as notas, conforme figura abaixo.

(28)

Medidas de localiza¸c˜ao M´edia ponderada

Calculando a m´edia ponderada com os pesos dados pelo primeiro grupo de professores, temos

MP(x ) = n P i =1 wixi n P i =1 wi =10 · 2 + 8 · 3 + 5 · 5 + 4 · 5 + 2 · 6 + 1 · 7 10 + 8 + 4 + 4 + 2 + 1 = 3.6.

J´a com os pesos do segundo grupo de professores, temos

MP(x ) = n P i =1 wixi n P i =1 wi =1 · 2 + 2 · 3 + 4 · 5 + 5 · 5 + 8 · 6 + 10 · 7 1 + 2 + 4 + 4 + 8 + 10 = 5.7.

(29)

Medidas de localiza¸c˜ao M´edia ponderada

Estas m´edias foram representadas por pontos vermelhos na figura abaixo.

(30)

Medidas de localiza¸c˜ao Moda

Moda

A moda de um conjunto de dados ´e o valor com maior frequˆencia.

Quando dois valores ocorrem com a mesma maior frequˆencia, cada um ´e uma moda e o conjunto de dados ´e chamado de bimodal.

Quando mais de dois valores ocorrem com a mesma maior frequˆencia, cada um ´e uma moda e o conjunto de dados ´e chamado de multimodal.

Exemplo 9:Qual a moda dos dados abaixo?

a) 5.40, 1.10, 0.42, 0.73, 0.48, 1.10 b) 27, 27, 27, 55, 55, 55, 88, 88, 99 c) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

(31)

Medidas de localiza¸c˜ao Mediana

Mediana

A medianabx ´e uma medida tal que 50% das observa¸c˜oes s˜ao menores ou iguais abx e as outras 50% s˜ao maiores ou iguais abx . Em outras palavras, a mediana ´e a medida do meio quando os dados est˜ao arranjados em ordem crescente (ou decrescente).

Para encontrar a mediana, primeiro ordene os dados e depois siga um dos procedimentos: Se o n´umero de valores for impar, a mediana ser´a o valor localizado no meio exato da lista. Se o n´umero for par, a mediana ser´a encontrada pelo c´alculo da m´edia dos dois n´umeros centrais.

Na forma de equa¸c˜ao, temos que a mediana ´e dada por

b x =    x(n+1 2 ), se n ´e ´ımpar x (n 2) +x (n 2+1) 2 , se n ´e par

(32)

Medidas de localiza¸c˜ao Mediana

Exemplo 10:Consideremos agora o c´alculo da mediana das medidas de temperatura 21.8o, 20.5o, 25.3o, 23.1o, 28.3o, 26.0oe 29.1o. Ordenando os elementos, teremos

20.5, 21.8, 23.1, 25.3, 26.0, 28.3, 29.1.

Como o n´umero de observa¸c˜oes ´e impar, a mediana ´e o valor do meio, ou seja, b

x = x(7+1

2 ) = x4= 25.3.

Agora, suponhamos que a temperatura 22.4 graus Celsius foi observada no oitavo dia. Ordenando os dados, ter´ıamos

20.5, 21.8, 22.4, 23.1, 25.3, 26.0, 28.3, 29.1. Como o n´umero de observa¸c˜oes ´e par, a mediana ´e

b x = x8 2 + x8 2+1  2 = x4+ x5 2 = 23.1 + 25.3 2 = 24.2.

(33)

Medidas de localiza¸c˜ao Quantil

Quantil

O quantil de ordem p, com 0 < p < 1, ´e um valor q(p) tal que 100p% das observa¸c˜oes s˜ao menores ou iguais a q(p) e as restantes 100(1 − p)% s˜ao maiores ou iguais a q(p). Tal como a mediana, ´e uma medida que se calcula a partir das observa¸c˜oes ordenadas.

Existem v´arios m´etodos para c´alculo de quantis. Um destes m´etodos define q(p) a partir da equa¸c˜ao q(p) = ( x([np]+1), se np n˜ao ´e inteiro x(np)+x(np+1) 2 , se np ´e inteiro

(34)

Medidas de variabilidade

(35)

Medidas de variabilidade Introdu¸c˜ao

Introdu¸c˜

ao

Na se¸c˜

ao anterior, vimos alguma medidas que resumem a localiza¸

ao de

um conjunto de dados. Agora, veremos algumas medidas que resumem a

variabilidade dos dados.

(36)

Medidas de variabilidade Amplitude

Amplitude

(37)

Medidas de variabilidade Desvio m´edio absoluto

Desvio m´

edio absoluto

DMA (x ) =

N

P

i =1

|x

i

− x|

N

(38)

Medidas de variabilidade Variˆancia

Variˆ

ancia

Var (x ) = N P i =1 (xi− x)2 (N − 1) (1) ou Var (x ) = N N P i =1 x2 i − N P i =1 xi !2 N (N − 1) (2)

(39)

Medidas de variabilidade Desvio padr˜ao

Desvio padr˜

ao

O desvio padr˜ao ´e igual a raiz quadrada da variˆancia.

DP(x ) =pVar (x ) = v u u u u t N P i =1 (xi− x)2 (N − 1) (3) ou DP(x ) =pVar (x ) = v u u u u t N N P i =1 x2 i − N P i =1 xi !2 N (N − 1) (4)

Interpreta¸c˜ao simples: Para muitos conjuntos de dados, a grande maioria (tal como 95% ) dos valores se localiza a dois desvios padr˜oes da m´edia.

(40)

Medidas de variabilidade Coeficiente de varia¸c˜ao

Coeficiente de varia¸c˜

ao

O coeficiente de varia¸

ao CV descreve o desvio padr˜

ao relativo `

a m´

edia. ´

E

dado por

CV (x ) =

DP(x )

¯

x

(41)

Medidas de variabilidade Coeficiente de varia¸c˜ao

Exemplo 11:Queremos estudar o n´umero de erros em provas sobre geometria aplicadas `a um grupo de alunos do segundo ciclo do ensino fundamental. Para isto escolhemos uma amostra de 50 provas. O n´umero de erros por prova ´e apresentado na tabela abaixo.

Erros Frequˆencia

0 2

1 10

2 20

3 12

4 6

a) Qual ´e a m´edia de erros por prova? b) Qual ´e a mediana dos erros? c) Qual ´e o desvio padr˜ao dos erros? d) Qual ´e a variˆancia dos erros?

(42)

Dependˆencia entre observa¸c˜oes pareadas

(43)

Dependˆencia entre observa¸c˜oes pareadas

Agora estudaremos m´

etodos para associar observa¸c˜

oes pareadas. Os

etodos descritos nesta se¸c˜

ao podem ser aplicados apenas em observa¸

oes

num´

ericas. Assim, para aplic´

a-los em observa¸

oes de vari´

aveis qualitativas

devemos numer´

a-las antes.

Suponhamos ent˜

ao o conjunto {(x

1

, y

1

), (x

2

, y

2

), ..., (x

n

, y

n

)} de pares de

observa¸c˜

oes num´

ericas. Vamos assumir que x = (x

1

, x

2

, ..., x

n

) ´

e um vetor

de observa¸

oes da vari´

avel X e que y = (y

1

, y

2

, ..., y

n

) ´

e um vetor de

observa¸

oes da vari´

avel Y .

(44)

Dependˆencia entre observa¸c˜oes pareadas

Gr´

afico de dispers˜

ao

Um dispositivo bastante ´util para verificar a associa¸c˜ao entre estas vari´aveis ´e o gr´afico de dispers˜ao.

Exemplo 12:A tabela a seguir exibe o n´umero de anos de servi¸co (X ) e o n´umero de clientes (Y ) dos agentes de uma companhia de seguros.

(45)

Dependˆencia entre observa¸c˜oes pareadas

Figura:

Exemplo de gr´afico de dispers˜ao.

Parece haver uma associa¸c˜ao direta entre as vari´aveis anos de servi¸co e n´umero de clientes.

(46)

Dependˆencia entre observa¸c˜oes pareadas

Exemplo 13:Agora considere os dados abaixo, sendo X a renda bruta mensal e Y a porcentagem da renda gasta em sa´ude.

(47)

Dependˆencia entre observa¸c˜oes pareadas

Parece haver uma associa¸c˜ao indireta entre as vari´aveis.

(48)

Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos

etodo de M´ınimos Quadr´

aticos

O objetivo do m´etodo de M´ınimos Quadr´aticos ´e encontrar uma reta que “corta” o conjunto de observa¸c˜oes pareadas. Ou seja, ao aplicar o m´etodo de M´ınimos Quadr´aticos, a inten¸c˜ao ´e encontrar uma fun¸c˜ao linear (reta) que expresse as observa¸c˜oes de Y como fun¸c˜ao das observa¸c˜oes de X .

(49)

Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos

Neste m´

etodo, a reta ´

e constru´ıda minimizando a soma dos desvios

quadr´

aticos verticais entre cada ponto e a reta.

Suponhamos ent˜

ao uma fun¸

ao linear f (x ) = αx + β cuja representa¸

ao

gr´

afica ´

e uma reta. Quando x = x

i

, a altura da reta ´

e dada por αx

i

+ β e

a distˆ

ancia vertical entre o ponto (x

i

, y

i

) e a reta ´

e [y

i

− (αx

i

+ β)]. O

etodo de m´ınimos quadr´

aticos especifica que os valores de α e β devem

ser escolhidos de modo a minimizar

Q =

N

X

i =1

(y

i

− (αx

i

+ β))

2

(50)

Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos

As derivadas parciais de Q s˜ao:

∂Q ∂β = −2 N X i =1 (yi− αxi− β) ∂Q ∂α = −2 N X i =1 (yi− αxi− β) xi

Igualando as derivadas a zero, temos o seguinte sistema de equa¸c˜oes        α N P i =1 xi+ Nβ = N P i =1 yi α N P i =1 x2 i + β N P i =1 xi = N P i =1 yixi

(51)

Dependˆencia entre observa¸c˜oes pareadas M´etodo de M´ınimos Quadr´aticos

Considerando as derivadas segundas, pode-se mostrar que as solu¸c˜oes do sistema de equa¸c˜oes acima minimizam Q. Denotando estes valores por ˆβ e ˆα, temos

ˆ α e ˆβ ˆ α = N P i =1 xiyi ! − Nx · y N P i =1 x2 i ! − Nx2 ˆ β = y − ˆαx

Assim, a equa¸c˜ao da reta obtida pelo m´etodo de m´ınimos quadr´aticos ´e f (x ) = ˆαx + ˆβ.

Para o exemplo com as vari´aveis n´umero de anos de servi¸co (X ) e n´umero de clientes (Y ), temos que ˆα = 2.951807, ˆβ = 39.6747 (verifique) e, consequentemente, f (x ) = 2.951807x + 39.6747.

(52)

Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao

Coeficiente de correla¸c˜

ao

Sejam x = (x1, x2, ..., xN) observa¸c˜oes de uma vari´avel X e y = (y1, y2, ..., yN) observa¸c˜oes de uma vari´avel Y . Agora, estaremos interessados em quantificar a “associa¸c˜ao linear” entre as observa¸c˜oes destas duas vari´aveis. Isto ´e, iremos definir uma medida que avalia o quanto a nuvem de pontos do gr´afico de dispers˜ao se aproxima de uma reta.

Por meio de uma transforma¸c˜ao, podemos deslocar a nuvem de pontos para a origem do sistema de coordenadas. Para fazer este deslocamento, basta substituir

cada observa¸c˜ao xi por xi− x

(53)

Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao

A figura a seguir ilustra trˆes nuvens de pontos que foram deslocadas para a origem.

Note que no gr´afico (a), onde h´a uma associa¸c˜ao direta, a maioria dos pontos est´a situada no primeiro ou no terceiro quadrante. Nestes quadrantes, as coordenadas tˆem o mesmo sinal e, portanto, seu produto ser´a positivo. Somando os produtos das coordenadas, o teremos um n´umero positivo (que indica associa¸c˜ao direta).

No gr´afico (b), onde h´a uma associa¸c˜ao indireta, a maioria dos pontos est´a situada no segundo ou no quarto quadrante. Nestes quadrantes, as coordenadas tˆem sinais diferentes e, portanto, seu produto ser´a negativo. Somando os produtos das coordenadas, teremos um n´umero negativo (que indica associa¸c˜ao inversa).

J´a no gr´afico (c), onde n˜ao h´a associa¸c˜ao, a soma dos produtos das coordenadas ser´a um n´umero pr´oximo de zero (que indica n˜ao associa¸c˜ao linear), pois cada resultado positivo tem um resultado negativo sim´etrico.

(54)

Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao

No entanto, a soma do produto das coordenadas ainda n˜ao ´e uma boa medida de associa¸c˜ao, pois ´e influˆenciada pela variabilidade de cada vari´avel. Afim de corrigirmos isto, podemos “reduzir” as observa¸c˜oes das duas vari´aveis `a uma mesma variabilidade. Para isto, basta dividir os desvios pelos respectivos desvios padr˜oes, ou seja, tomar

zi = xi− x DP(x ), e wi = yi− y DP(x ), ∀i = 1, 2, ..., N.

Al´em disso, a soma do produto das coordenadas reduzidas tende a aumentar com o n´umero de pontos e ficaria dif´ıcil comparar esta medida para dois conjuntos de dados com diferentes quantidades de pontos. Por isso, costuma-se usar a m´edia dos produtos dos desvios reduzidos.

O que nos leva `a defini¸c˜ao da medida de correla¸c˜ao entre duas vari´aveis, dada por: corr (x , y ) = 1 N − 1 N X i =1  xi− x DP (x )   yi− y DP (y )  (5)

(55)

Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao

Exemplo 14:Consideremos novamente o exemplo que cita o n´umero de anos de servi¸co (X ) e o n´umero de clientes (Y ) dos agentes de uma companhia de seguros.

Todas as etapas do c´alculo do coeficiente de correla¸c˜ao est˜ao na tabela abaixo.

(56)

Dependˆencia entre observa¸c˜oes pareadas Coeficiente de correla¸c˜ao

A correla¸

ao tamb´

em pode ser calculada usando a equa¸

ao

Cor (x , y ) =

N

P

i =1

x

i

y

i

− Nx · y

s



N

P

i =1

x

i2

− Nx

2

 

N

P

i =1

y

i2

− Ny

2



,

(57)

Dependˆencia entre observa¸c˜oes pareadas Covariˆancia

Covariˆ

ancia

A covariˆ

ancia entre as observa¸c˜

oes x = (x

1

, x

2

, ..., x

N

) de uma vari´

avel X e

y = (y

1

, y

2

, ..., y

N

) de uma vari´

avel Y ´

e dada por

Cov (x , y ) =

N

P

i =1

(x

i

− x) (y

i

− y )

N − 1

(58)

Dependˆencia entre vari´aveis a partir das frequˆencias

(59)

Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas

Representa¸c˜

oes por tabelas

Agora, iremos analisar o comportamento conjunto de 2 vari´aveis. Neste caso a representa¸c˜ao dos dados deve ser feita a partir de uma tabela de dupla entrada, como no exemplo abaixo.

Ensino fundamental Ensino M´edio Ensino superior Total

Capital 4 5 2 11

Interior 3 7 2 12

Outra 5 6 2 13

Total 12 18 6 36

Tabela:

Tabela de frequˆencias das vari´aveis grau de instru¸c˜ao e regi˜ao de procedˆencia.

(60)

Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas

Ao inv´es de trabalharmos com as frequˆencias absolutas, podemos usar as frequˆencias relativas (propor¸c˜oes). Mas aqui, existem trˆes possibilidades:

em rela¸c˜ao ao total geral, em rela¸c˜ao ao total de cada linha, em rela¸c˜ao ao total de cada coluna.

(61)

Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes por tabelas

(62)

Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes gr´aficas

Representa¸c˜

oes gr´

aficas

(63)

Dependˆencia entre vari´aveis a partir das frequˆencias Representa¸c˜oes gr´aficas

Figura:

Representa¸c˜ao gr´afica do grau de instru¸c˜ao por regi˜ao de procedˆencia

(64)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Exemplos

Exemplo sem associa¸c˜ao: Suponhamos que queremos estudar a associa¸c˜ao entre sexo e a carreira escolhida por 200 alunos dos cursos de economia e administra¸c˜ao.

(65)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Como veremos nas figuras a seguir, n˜ao h´a uma dependˆencia entre as vari´aveis.

Figura:

Representa¸c˜ao gr´afica do curso por sexo.

(66)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Figura:

Representa¸c˜ao gr´afica do sexo por curso.

(67)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Exemplo com associa¸c˜ao: Agora, suponhamos que queremos estudar a associa¸c˜ao entre sexo e a carreira escolhida por 200 alunos dos cursos de f´ısica e ciˆencias sociais.

Figura:

Tabelas de frequˆencias das vari´aveis sexo e curso.

(68)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Como veremos nas figuras a seguir, h´a uma “dependˆencia” entre as vari´aveis.

(69)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

Figura:

Representa¸c˜ao gr´afica do sexo por curso.

H´a uma maior concentra¸c˜ao de homens no curso de f´ısica e uma maior concentra¸c˜ao de mulheres no curso de ciˆencias sociais. Assim, parece haver uma associa¸c˜ao (ou dependˆencia) entre as vari´aveis sexo e curso.

(70)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

(71)

Dependˆencia entre vari´aveis a partir das frequˆencias Exemplos

(?) (?)

Referências

Documentos relacionados

GTK+ (GIMP ToolKit): ´ e uma biblioteca orientada para a cria¸c˜ ao de interfaces gr´ aficas... Apˆ endice - Fun¸ c˜ oes da

iº — Designar para amar como Fisca] de Contrato, exacendo todas as atribuições ao mmo inerentes :: designadas em legislação pertinentes e nesta Pena:-ia, no âmbito da

b) O não comparecimento de TODOS para a realização dessa prova. Caso ocorra alguma das situações previstas no item 7 e ainda restarem candidatos não selecionados anteriormente para

14º - O Conselho de Administração será composto de 5 (cinco) membros, eleitos pela Assembléia Geral e por ela destituíveis a qualquer tempo, com mandato de 03 (três) anos,

Quando o motor é accionado pelo motor de arranque ou se já estiver a trabalhar, a alta pressão fornecida pela bomba (pressão rampa) atravessa a ligação de alta pressão.. Ela

e) Estar quite com as obrigações militares se for do sexo masculino. f) Estar apto fisicamente e mentalmente para o exercício do cargo ao qual concorra, não sendo portador de

Deixe cabo suficiente para estender para dentro da unidade, para conectar os fios ao bloco terminal J7 do RTD.. Nota: A fonte de carregamento e a alimentação devem ser removidas

Devido as grandes similaridades da fauna malvinocáfrica, principalmente no De- voniano Inferior, entre Bolívia, Brasil (principalmente na Bacia do Paraná), Argentina, Uruguai,