• Nenhum resultado encontrado

Prof. MSc. David Roza José -

N/A
N/A
Protected

Academic year: 2021

Share "Prof. MSc. David Roza José -"

Copied!
44
0
0

Texto

(1)

1/44 Prof. MSc. David Roza José - [email protected]

(2)

Regressão Linear

Objetivos:

– Familiarizar-se com estatística descritiva e distribuição normal;

– Saber como calcular os coeficientes angular e linear da reta de melhor ajuste

com regressão linear;

– Saber como gerar números aleatórios no MATLAB;

– Calcular e entender o significado do coeficiente de determinação e da

estimativa de erro padrão;

– Compreender como utilizar transformações para linearizar equações não

lineares para que elas se adequem à regressão linear;

(3)

3/44 Prof. MSc. David Roza José - [email protected]

Contexto

Nas primeiras aulas tratamos de um saltador de bungee-jump, e supomos que a força aerodinâmica sobre ele era proporcional ao quadrado da velocidade:

Apesar de termos derivado esta equação da Mecânica dos Fluidos, realizar experimentos nos dá a direção necessária e fornece insights a respeito do fenômeno estudado.

(4)
(5)

5/44 Prof. MSc. David Roza José - [email protected]

Estatística

Vamos supor que várias medições do coeficiente de expansão térmica do aço estrutural sejam tomadas. Com uma breve observação, as únicas informações que obtemos são do valor mínimo de 6.395 e máximo de 6.775.

Informações extras podem ser obtidas ao se resumir todos os dados em um ou mais valores que contenham significado estatístico, pois eles fornecem medidas a respeito do comportamento destes dados.

Normalmente os valores escolhidos são: (1) a localização do centro de distribuição dos dados e (2) o quão espalhados os dados estão.

(6)

Medida de Localização

A forma mais comum de medida de tendência é a média aritmética. A média aritmética

de uma amostra é definida como a soma de todos os dados yi, individualmente, dividido

pelo número de pontos (n), ou:

Existem outras medidas alternativas. A mediana, por exemplo, é definida como o ponto médio de um agrupamento de dados. O modo, definido como o dado que se repete mais vezes numa amostra.

(7)

7/44 Prof. MSc. David Roza José - [email protected]

Medida de Espalhamento

A medida mais simples de espalhamento é a extensão, definida como a diferença entre o maior e menor valor da amostra. Por ser altamente sensível a tamanho de amostra e a valores extremos (outliers), é pouco utilizada. A medida mais comum para espalhamento de dados é o desvio padrão, definido como:

A variância é definida como o quadrado do desvio padrão, tal que:

(8)

Medida de Espalhamento

Outra maneira útil de quantificar a medida de espalhamento é através do coeficiente de

variação. Ele é dado pela razão do desvio padrão e da média. Assim, fornece uma

(9)

9/44 Prof. MSc. David Roza José - [email protected]

Exemplo: Estatística

Calcular o valor médio, mediana, variância, desvio padrão e o coeficiente de variação dos dados medidos do coeficiente de variação térmica.

Como possuímos uma quantidade par de dados, a mediana é calculada como a média aritmética dos dois valores do meio.

(10)

Exemplo: Estatística

(11)

11/44 Prof. MSc. David Roza José - [email protected]

Exemplo: Estatística

A variância é dada pelo quadrado do desvio padrão, então: E o coeficiente de variação:

(12)

Distribuição Normal

A maneira como os dados estão distribuídos ao redor da média também é importante. Isto pode ser visualizado através de um histograma. Ele é construído ao se separar os dados em intervalos. As unidades de medida são plotados na abscissa e a frequência de ocorrência de cada intervalo (quantas vezes ele ocorre) é plotado na ordenada.

No MATLAB, pode ser criado através do comando histogram. A = [6.495 6.595 6.615 6.635 6.485 6.555 6.665 6.505 6.435 6.625 6.715 6.655

6.755 6.625 6.715 6.575 6.655 6.605 6.565 6.515 6.555 6.395 6.775 6.685]; histogram(A,5);

(13)

13/44 Prof. MSc. David Roza José - [email protected]

(14)

Distribuição Normal

No caso de termos um histograma com diversas divisões e com uma quantidade grande de dados, ele passa a se aproximar do formato de sino da distribuição normal.

Os conceitos de média, desvio padrão e distribuição normal possuem grande relevância na engenharia. Um exemplo simples é utilizá-los para quantificar a confiança que pode ser atribuída a determinada medição.

Se uma determinada quantidade está normalmente distribuída, a extensão definida por irá englobar aproximadamente 68% das medições.

(15)

15/44 Prof. MSc. David Roza José - [email protected]

Estatística descritiva: MATLAB

Certas funções do MATLAB são úteis neste estudo:

mean(s) Valor médio do vetor “s”

median(s) Mediana do vetor “s”

mode(s) Modo do vetor “s”

min(s) Valor mínimo do vetor “s”

max(s) Valor máximo do vetor “s”

var(s) Coeficiente de variação do vetor “s”

(16)

Números aleatórios

O MATLAB possui uma função que gera números aleatórios, uniformemente distribuídos entre 0 e 1. Sua sintaxe toma a forma:

r = rand(m, n)

Tal que r é uma matriz m por n de números aleatórios. Números aleatórios dentro de outro intervalo podem ser gerados da seguinte maneira:

r = inf + (sup – inf) * rand(m, n)

Tal que inf é o limite inferior e sup é o limite superior do dado intervalo. Para gerar números aleatórios entre 1000 e 9999:

B=1000 + (9999-1000)*rand(100,1); histogram(B,8);

(17)

17/44 Prof. MSc. David Roza José - [email protected]

Números aleatórios

O MATLAB também possui um gerador de números aleatórios com distribuição normal, tendo 0 como valor médio e desvio padrão de 1. Sua sintaxe toma a forma:

r = randn(m, n)

Isso gera uma matriz m por n de números aleatórios. A seguinte formulação pode ser utilizada para se gerar uma distribuição com uma média (mn) e desvio padrão (s) distintos:

r = mn + s * randn(m, n) C=randn(100,1);

(18)

Regressão Linear: Mínimos

Quadrados

Quando um erro substancial está associado aos dados, o melhor ajuste de curvas possível é aquele que se aproxima da forma ou da tendência geral dos dados sem necessariamente encaixar em todos os pontos individualmente.

Uma alternativa, provavelmente utilizada em física experimental, é a de inspecionar visualmente os dados num gráfico e traçar uma reta “ótima” através do conjunto de pontos.

Apesar de ser uma estratégia boa, ela é falha. Cada pessoa desenharia uma reta “ótima” diferente, dando espaço para a subjetividade.

No intuito forçar a objetividade, algum critério deve ser utilizado para estabelecer a base do ajuste. Uma maneira de fazer isso é criar a curva que minimiza a discrepância entre os dados e a curva.

(19)

19/44 Prof. MSc. David Roza José - [email protected]

Regressão Linear: Mínimos

Quadrados

Da equação de reta:

Temos que a0 e a1 são os coeficientes linear e angular, respectivamente; sendo “e” o erro

ou resíduo entre o modelo e as observações. Rearranjando-se:

O erro então torna-se a diferença entre o valor verdadeiro (y) e o valor aproximado (a0 +

(20)

Regressão Linear: Mínimos

Quadrados

Uma estratégia para se obter a melhor reta através dos dados seria a de minimizar a soma de todos os erros residuais, tal como:

Porém ela apresenta um grave defeito: os erros positivos e negativos se cancelam. Isso pode implicar em situações como a da figura abaixo.

(21)

21/44 Prof. MSc. David Roza José - [email protected]

Regressão Linear: Mínimos

Quadrados

Uma abordagem alternativa seria de se considerar a soma dos valores absolutos das discrepâncias:

(22)

Regressão Linear: Mínimos

Quadrados

Uma terceira estratégia seria a abordagem do critério minimax. Nesta técnica, a reta é escolhida de forma a se minimizar a distância máxima que um ponto individual está da reta. Este método possui o defeito de dar peso excessivo para outliers (ponto único com grande erro).

(23)

23/44 Prof. MSc. David Roza José - [email protected]

Regressão Linear: Mínimos

Quadrados

Uma estratégia que resolve todos os defeitos mencionados anteriormente é a de minimizar a soma do quadrado dos resíduos.

Este método, chamado de mínimos quadrados, possui uma série de vantagens: incluindo a de resultar numa única reta ótima para determinado conjunto de dados.

(24)

Determinação dos Coeficientes

Para determinar os valores ótimos dos coeficientes, faz-se:

(25)

25/44 Prof. MSc. David Roza José - [email protected]

Determinação dos Coeficientes

Note que a seguinte substituição é possível: O que nos permite

(26)

Determinação dos Coeficientes

Temos então duas equações e duas incógnitas. Estas equações são chamadas de

equações normais. Uma equação normal é aquela que minimiza a soma do quadrado

(27)

27/44 Prof. MSc. David Roza José - [email protected]

Exemplo

Encontrar a reta ótima para os seguintes dados:

(28)

Exemplo

As médias são calculadas trivialmente:

(29)

29/44 Prof. MSc. David Roza José - [email protected]

(30)

Quantificação do Erro na Regressão

Linear

Dentre as propriedades da regressão linear, o método dos mínimos quadrados oferecerá

a melhor estimativa para a0 e a1 quando: (1) a distribuição de pontos ao redor da reta é

de magnitude similar em todo o domínio e, (2) a distribuição de dados tende à distribuição normal.

Nesta situação também se pode calcular o erro padrão da estimativa, que é um

paralelo com o desvio padrão, cuja fórmula é dada por:

Ele busca quantificar o espalhamento de dados ao redor da linha de regressão, em contraste com o desvio padrão que quantifica o espalhamento em relação à média.

(31)

31/44 Prof. MSc. David Roza José - [email protected]

Quantificação do Erro na Regressão

Linear

O conceito de Sr dá origem ao coeficiente de correlação r. Para um ajuste perfeito, r2=1,

o que significa que 100% dos dados são explicados pela linha de regressão. r2=0 significa

que o ajuste não é capaz de explicar nenhum dos dados. Uma formulação para o cálculo de r é dada por:

(32)

Exemplo - Quantificação

(33)

33/44 Prof. MSc. David Roza José - [email protected]

ATENÇÃO

Apesar do coeficiente de determinação fornecer uma medida a respeito do quão bom é o ajuste da reta, não pode ser dado a ele mais significado do que ele possui.

Um r2 próximo a 1 não significa que o ajuste é – necessariamente – bom.

Pode-se obter um valor relativamente alto para r2 quando a relação entre x e y sequer é

linear. Deve-se ao menos plotar a reta junto aos pontos para verificar se o comportamento é adequado.

Anscombe em 1973 desenvolveu quatro conjuntos de dados com 11 pontos cada. Apesar de seus gráficos serem distintos, a equação da regressão linear para os 4 é a mesma e o coeficiente de correlação também é o mesmo.

y = 3 +0.5x Verificar anscombe.m

(34)
(35)

35/44 Prof. MSc. David Roza José - [email protected]

Linearização de Relações

Não Lineares

A regressão linear fornece uma metodologia robusta para se encontrar a reta ideal para um conjunto de dados. Entretanto ela está atrelada ao fato que a relação entre as variáveis dependente e independente deve ser linear. Isto nem sempre ocorre, e o primeiro passo em qualquer análise de regressão deve ser o de se gerar gráficos e inspecionar visualmente se a relação se aplica.

Em alguns casos, transformações podem ser utilizadas para se expressar os dados num formato compatível com a regressão linear.

(36)

Linearização de Relações

Não Lineares

Um exemplo é o modelo exponencial:

(37)

37/44 Prof. MSc. David Roza José - [email protected]

Linearização de Relações

Não Lineares

(38)

Linearização de Relações

Não Lineares

(39)

39/44 Prof. MSc. David Roza José - [email protected]

Exemplo – Equação de Potência

(40)

Exemplo – Equação de Potência

Isso resulta nos seguintes dados:

Que podem ser retransformados para a equação original:

(41)

41/44 Prof. MSc. David Roza José - [email protected]

(42)

Condições

Relembrando que as condições ideais para a aplicação da regressão linear são:

– Cada valor no domínio deve ser fixo, não pode ser aleatório e deve ser

conhecido sem erro;

– Os valores da imagem são independentes entre si e devem possuir a mesma

variância;

– Os valores da imagem para um dado valor do domínio devem possuir

(43)

43/44 Prof. MSc. David Roza José - [email protected]

MATLAB

Verificar rotina linregr.m

Função do matlab polyfit e polyval

p = polyfit(x, y, n);

Faz a regressão por mínimos quadrados para um polinômio de ordem n.

y = polyval(p, x);

Calcula o valor do polinômio, cujos coeficientes são dados pelo vetor p, no ponto x.

x = [10 20 30 40 50 60 70 80];

y = [25 70 380 550 610 1220 830 1450]; linregr(x,y)

(44)

Informações

Exercícios: 14.04 14.05 14.07 14.08 14.12 14.17 14.19 14.29

Referências

Documentos relacionados

A disciplina tem por objetivo debater as abordagens sociológicas sobre o fenômeno da criminalidade, enfocando os principais conceitos, as correntes interpretativas e

Todos os números e gráficos apresentados no texto, para os benefícios de aposentadoria, foram calculados diretamente de um painel de benefícios anuais, simulado à semelhança

Esse método simples pode ser estendido para grandes conjuntos de equações ao se desenvolver um algoritmo de eliminação progressiva e substituição regressiva.. Apesar destas

Média de larvas, pupas e adultos de Scarabaeidae coletados de abril a outubro de 2007, em raízes de plantas de Acrocomia aculeata em áreas de7. pastagem no município de

Do ponto de vista das políticas públicas voltadas à revitalização de centros urbanos degradados, como o de Porto Alegre, os principais entraves são exatamente aqueles vinculados

Dado um aço HR 1050, calcule: (i) o limite de endurança para vida infinita; (ii) a resistência à fadiga (tensão alternante) de um espécime polido de viga rotativa

contribuintes para o crescimento do turismo europeu, tendo gerado cerca de 38,4 milhões de turistas, em 2013, o que representa uma quota de 3,5% do total da procura

menu. Quando a função desejada estiver realçada, pressione o botão MENU para ativá-la. Pressione Esquerda ou Direita para alterar as configurações da função