Prof. MSc. David Roza José -

(1)

1/44 Prof. MSc. David Roza José - [email protected]

(2)

Regressão Linear

Objetivos:

– Familiarizar-se com estatística descritiva e distribuição normal;

– Saber como calcular os coeficientes angular e linear da reta de melhor ajuste

com regressão linear;

– Saber como gerar números aleatórios no MATLAB;

– Calcular e entender o significado do coeficiente de determinação e da

estimativa de erro padrão;

– Compreender como utilizar transformações para linearizar equações não

lineares para que elas se adequem à regressão linear;

(3)

Contexto

Nas primeiras aulas tratamos de um saltador de bungee-jump, e supomos que a força aerodinâmica sobre ele era proporcional ao quadrado da velocidade:

Apesar de termos derivado esta equação da Mecânica dos Fluidos, realizar experimentos nos dá a direção necessária e fornece insights a respeito do fenômeno estudado.

(4)

(5)

Estatística

Vamos supor que várias medições do coeficiente de expansão térmica do aço estrutural sejam tomadas. Com uma breve observação, as únicas informações que obtemos são do valor mínimo de 6.395 e máximo de 6.775.

Informações extras podem ser obtidas ao se resumir todos os dados em um ou mais valores que contenham significado estatístico, pois eles fornecem medidas a respeito do comportamento destes dados.

Normalmente os valores escolhidos são: (1) a localização do centro de distribuição dos dados e (2) o quão espalhados os dados estão.

(6)

Medida de Localização

A forma mais comum de medida de tendência é a média aritmética. A média aritmética

de uma amostra é definida como a soma de todos os dados y_i, individualmente, dividido

pelo número de pontos (n), ou:

Existem outras medidas alternativas. A mediana, por exemplo, é definida como o ponto médio de um agrupamento de dados. O modo, definido como o dado que se repete mais vezes numa amostra.

(7)

Medida de Espalhamento

A medida mais simples de espalhamento é a extensão, definida como a diferença entre o maior e menor valor da amostra. Por ser altamente sensível a tamanho de amostra e a valores extremos (outliers), é pouco utilizada. A medida mais comum para espalhamento de dados é o desvio padrão, definido como:

A variância é definida como o quadrado do desvio padrão, tal que:

(8)

Medida de Espalhamento

Outra maneira útil de quantificar a medida de espalhamento é através do coeficiente de

variação. Ele é dado pela razão do desvio padrão e da média. Assim, fornece uma

(9)

Exemplo: Estatística

Calcular o valor médio, mediana, variância, desvio padrão e o coeficiente de variação dos dados medidos do coeficiente de variação térmica.

Como possuímos uma quantidade par de dados, a mediana é calculada como a média aritmética dos dois valores do meio.

(10)

Exemplo: Estatística

(11)

Exemplo: Estatística

A variância é dada pelo quadrado do desvio padrão, então: E o coeficiente de variação:

(12)

Distribuição Normal

A maneira como os dados estão distribuídos ao redor da média também é importante. Isto pode ser visualizado através de um histograma. Ele é construído ao se separar os dados em intervalos. As unidades de medida são plotados na abscissa e a frequência de ocorrência de cada intervalo (quantas vezes ele ocorre) é plotado na ordenada.

No MATLAB, pode ser criado através do comando histogram. A = [6.495 6.595 6.615 6.635 6.485 6.555 6.665 6.505 6.435 6.625 6.715 6.655

6.755 6.625 6.715 6.575 6.655 6.605 6.565 6.515 6.555 6.395 6.775 6.685]; histogram(A,5);

(13)

(14)

Distribuição Normal

No caso de termos um histograma com diversas divisões e com uma quantidade grande de dados, ele passa a se aproximar do formato de sino da distribuição normal.

Os conceitos de média, desvio padrão e distribuição normal possuem grande relevância na engenharia. Um exemplo simples é utilizá-los para quantificar a confiança que pode ser atribuída a determinada medição.

Se uma determinada quantidade está normalmente distribuída, a extensão definida por irá englobar aproximadamente 68% das medições.

(15)

Estatística descritiva: MATLAB

Certas funções do MATLAB são úteis neste estudo:

mean(s) Valor médio do vetor “s”

median(s) Mediana do vetor “s”

mode(s) Modo do vetor “s”

min(s) Valor mínimo do vetor “s”

max(s) Valor máximo do vetor “s”

var(s) Coeficiente de variação do vetor “s”

(16)

Números aleatórios

O MATLAB possui uma função que gera números aleatórios, uniformemente distribuídos entre 0 e 1. Sua sintaxe toma a forma:

r = rand(m, n)

Tal que r é uma matriz m por n de números aleatórios. Números aleatórios dentro de outro intervalo podem ser gerados da seguinte maneira:

r = inf + (sup – inf) * rand(m, n)

Tal que inf é o limite inferior e sup é o limite superior do dado intervalo. Para gerar números aleatórios entre 1000 e 9999:

B=1000 + (9999-1000)*rand(100,1); histogram(B,8);

(17)

Números aleatórios

O MATLAB também possui um gerador de números aleatórios com distribuição normal, tendo 0 como valor médio e desvio padrão de 1. Sua sintaxe toma a forma:

r = randn(m, n)

Isso gera uma matriz m por n de números aleatórios. A seguinte formulação pode ser utilizada para se gerar uma distribuição com uma média (mn) e desvio padrão (s) distintos:

r = mn + s * randn(m, n) C=randn(100,1);

(18)

Regressão Linear: Mínimos

Quadrados

Quando um erro substancial está associado aos dados, o melhor ajuste de curvas possível é aquele que se aproxima da forma ou da tendência geral dos dados sem necessariamente encaixar em todos os pontos individualmente.

Uma alternativa, provavelmente utilizada em física experimental, é a de inspecionar visualmente os dados num gráfico e traçar uma reta “ótima” através do conjunto de pontos.

Apesar de ser uma estratégia boa, ela é falha. Cada pessoa desenharia uma reta “ótima” diferente, dando espaço para a subjetividade.

No intuito forçar a objetividade, algum critério deve ser utilizado para estabelecer a base do ajuste. Uma maneira de fazer isso é criar a curva que minimiza a discrepância entre os dados e a curva.

(19)

Regressão Linear: Mínimos

Quadrados

Da equação de reta:

Temos que a₀ e a₁ são os coeficientes linear e angular, respectivamente; sendo “e” o erro

ou resíduo entre o modelo e as observações. Rearranjando-se:

O erro então torna-se a diferença entre o valor verdadeiro (y) e o valor aproximado (a₀ +

(20)

Regressão Linear: Mínimos

Quadrados

Uma estratégia para se obter a melhor reta através dos dados seria a de minimizar a soma de todos os erros residuais, tal como:

Porém ela apresenta um grave defeito: os erros positivos e negativos se cancelam. Isso pode implicar em situações como a da figura abaixo.

(21)

Regressão Linear: Mínimos

Quadrados

Uma abordagem alternativa seria de se considerar a soma dos valores absolutos das discrepâncias:

(22)

Regressão Linear: Mínimos

Quadrados

Uma terceira estratégia seria a abordagem do critério minimax. Nesta técnica, a reta é escolhida de forma a se minimizar a distância máxima que um ponto individual está da reta. Este método possui o defeito de dar peso excessivo para outliers (ponto único com grande erro).

(23)

Regressão Linear: Mínimos

Quadrados

Uma estratégia que resolve todos os defeitos mencionados anteriormente é a de minimizar a soma do quadrado dos resíduos.

Este método, chamado de mínimos quadrados, possui uma série de vantagens: incluindo a de resultar numa única reta ótima para determinado conjunto de dados.

(24)

Determinação dos Coeficientes

Para determinar os valores ótimos dos coeficientes, faz-se:

(25)

Determinação dos Coeficientes

Note que a seguinte substituição é possível: O que nos permite

(26)

Determinação dos Coeficientes

Temos então duas equações e duas incógnitas. Estas equações são chamadas de

equações normais. Uma equação normal é aquela que minimiza a soma do quadrado

(27)

Exemplo

Encontrar a reta ótima para os seguintes dados:

(28)

Exemplo

As médias são calculadas trivialmente:

(29)

(30)

Quantificação do Erro na Regressão

Linear

Dentre as propriedades da regressão linear, o método dos mínimos quadrados oferecerá

a melhor estimativa para a₀ e a₁ quando: (1) a distribuição de pontos ao redor da reta é

de magnitude similar em todo o domínio e, (2) a distribuição de dados tende à distribuição normal.

Nesta situação também se pode calcular o erro padrão da estimativa, que é um

paralelo com o desvio padrão, cuja fórmula é dada por:

Ele busca quantificar o espalhamento de dados ao redor da linha de regressão, em contraste com o desvio padrão que quantifica o espalhamento em relação à média.

(31)

Quantificação do Erro na Regressão

Linear

O conceito de S_r dá origem ao coeficiente de correlação r. Para um ajuste perfeito, r2=1,

o que significa que 100% dos dados são explicados pela linha de regressão. r2=0 significa

que o ajuste não é capaz de explicar nenhum dos dados. Uma formulação para o cálculo de r é dada por:

(32)

Exemplo - Quantificação

(33)

ATENÇÃO

Apesar do coeficiente de determinação fornecer uma medida a respeito do quão bom é o ajuste da reta, não pode ser dado a ele mais significado do que ele possui.

Um r2_{próximo a 1 não significa que o ajuste é – necessariamente – bom.}

Pode-se obter um valor relativamente alto para r2 quando a relação entre x e y sequer é

linear. Deve-se ao menos plotar a reta junto aos pontos para verificar se o comportamento é adequado.

Anscombe em 1973 desenvolveu quatro conjuntos de dados com 11 pontos cada. Apesar de seus gráficos serem distintos, a equação da regressão linear para os 4 é a mesma e o coeficiente de correlação também é o mesmo.

y = 3 +0.5x Verificar anscombe.m

(34)

(35)

Linearização de Relações

Não Lineares

A regressão linear fornece uma metodologia robusta para se encontrar a reta ideal para um conjunto de dados. Entretanto ela está atrelada ao fato que a relação entre as variáveis dependente e independente deve ser linear. Isto nem sempre ocorre, e o primeiro passo em qualquer análise de regressão deve ser o de se gerar gráficos e inspecionar visualmente se a relação se aplica.

Em alguns casos, transformações podem ser utilizadas para se expressar os dados num formato compatível com a regressão linear.

(36)

Linearização de Relações

Não Lineares

Um exemplo é o modelo exponencial:

(37)

Linearização de Relações

Não Lineares

(38)

Linearização de Relações

Não Lineares

(39)

Exemplo – Equação de Potência

(40)

Exemplo – Equação de Potência

Isso resulta nos seguintes dados:

Que podem ser retransformados para a equação original:

(41)

(42)

Condições

Relembrando que as condições ideais para a aplicação da regressão linear são:

– Cada valor no domínio deve ser fixo, não pode ser aleatório e deve ser

conhecido sem erro;

– Os valores da imagem são independentes entre si e devem possuir a mesma

variância;

– Os valores da imagem para um dado valor do domínio devem possuir

(43)

MATLAB

Verificar rotina linregr.m

Função do matlab polyfit e polyval

p = polyfit(x, y, n);

Faz a regressão por mínimos quadrados para um polinômio de ordem n.

y = polyval(p, x);

Calcula o valor do polinômio, cujos coeficientes são dados pelo vetor p, no ponto x.

x = [10 20 30 40 50 60 70 80];

y = [25 70 380 550 610 1220 830 1450]; linregr(x,y)

(44)

Informações

Exercícios: 14.04 14.05 14.07 14.08 14.12 14.17 14.19 14.29