Modelos de regressões - MODELOS MATEMÁTICOS

3 MODELOS MATEMÁTICOS

3.3 Modelos de regressões

A análise de regressão é um conjunto de técnicas estatísticas que tratam da formulação de modelos estatísticos que especificam relações entre variáveis, e do uso destes modelos para propósitos de inferências, particularmente predição. Os métodos mais usuais de análise de regressão tratam da situação de uma única variável resposta. A finalidade da regressão polinomial é determinar uma curva adaptada aos dados com erro quadrático mínimo. Segundo

Montgomery (2003), para ajustar um modelo de regressão é necessário verificar a significância da regressão, o que pode ser feito utilizando a ANOVA.

No trabalho experimental, um problema comum é obter uma relação matemática ente duas variáveis e através do “ajuste” de uma curva aos pontos no plano que correspondem aos vários valores de e determinados experimentalmente. Pode-se decidir a forma geral da curva tendo por base o padrão apresentado pelos pontos. Como os pontos são obtidos experimentalmente, geralmente tem-se algum “erro” de medição dos dados. Assim, a ideia é escolher a curva que melhor se ajusta aos dados. A variável é determinada por um conjunto de outras variáveis, , , ..., . A princípio, qualquer relação funcional entre um conjunto de variáveis independentes e um conjunto de variáveis dependentes, representada por , pode ser chamada de modelo de regressão, sendo tal modelo fixo para determinado conjunto de dados (Silva, 2003).

3.3.1 Regressão linear simples

O modelo mais simples que relaciona duas variáveis e é dado por

(17)

que é a equação da reta. Onde e são os parâmetros do modelo. Podemos também escrever a equação (17) na forma matricial:

(18) ou (18)’

Desta forma, um ajuste linear simples consiste em encontrar um função linear que minimize os desvios (erros).

onde

são calculados com a equação 1 e é calculado utilizando o

diagrama (18).

Temos que , logo:

(20)

Busca-se determinar os parâmetros e para que D seja mínimo. Para determinar o valor mínimo de uma função deve-se derivar parcialmente esta função em relação às variáveis independentes. Logo, de (3) encontra-se:

(22)

Dividindo as equações (21) e (22) por dois, substituindo por . Para simplificação, faz-se as multiplicações necessárias e igualando a zero, tem-se:

(23)

Sabemos que , logo, obtemos , onde é o número de pontos.

(24)

Assim, temos duas maneiras de encontrar os valores dos parâmetros e : 1º) Isolando e nas equações (23) e (24):

(25)

(26)

2º) Pelo método matricial

Escrevendo as equações (23) e (24) na forma matricial temos:

(27)

Do diagrama (18), temos que:

e (28)

₍₂₉₎

3.3.2 Coeficiente de determinação

A qualidade de uma regressão pode ser calculada através do coeficiente de determinação, representado por

(30)

Sendo SQE= soma dos quadrados dos erros,

Sendo SQR= soma dos quadrados médios da regressão, , .

3.3.3 Variância da regressão

A soma dos quadrados de , tem (n-1) graus de liberdade para . Estes são os graus de liberdade totais na implícita análise de variância de , que devem, portanto, ser divididos entre as causas de variação da seguinte forma:

Sendo os atribuídos aos desvios da regressão e 1 atribuído a regressão. A análise de variância de pode ser construída conforme tabela 4:

Tabela 4. Analise de variância de

Causa da variação Graus de liberdade Soma de quadrados Quadrados médios

Regressão 1 QMR

Erro n-2

Total n-1

Se a equação de regressão fosse estimada a partir de um número (n) infinitamente grande de pares de observações, o quadrado médio dos desvios de regressão, simbolizado por , representaria uma medida de erro agregado a cada valor estimado de , a partir de um valor de .

3.3.4 Teste de significância para

Variância do valor estimado de é calculada por

(31)

Erro padrão da estimativa do coeficiente de regressão, sendo uma estimativa

(32)

3.3.5 Teste para verificar a hipótese

Ao testar esta hipótese, tem-se por objetivo verificar se o coeficiente de regressão entre e , de que é uma estimativa amostral, é igual a 0.

₍₃₃₎

Esta quantidade obedece à distribuição de com graus de liberdade. Aceitando-se , concluímos que a variação em não contribui de forma sistemática e real

para a variação de . Isto significa que o verdadeiro valor do coeficiente de regressão é , não passando o valor , estimado, de mera flutuação ao acaso.

3.3.6 Regressão polinomial

Consiste em determinar um polinômio, que pode ser de qualquer grau. Deste modo, a equação é dada por

(34)

O sistema normal é dado por

O coeficiente de determinação (R2) determina-se de modo análogo ao caso da regressão linear simples.

3.3.7 Regressão linear múltipla

Aplica-se nos casos em que é uma função linear de duas variáveis ou mais. Neste caso, deseja-se encontrar os valores , tais que a relação entre eles seja aproximada por uma expressão do tipo

(35)

De maneira análoga ao ajuste linear simples, a solução que mínima os erros é dada pela solução do sistema:

O coeficiente de determinação (R2) determina-se de modo análogo ao caso da regressão linear simples.

3.3.8 A probabilidade pelo F

A probabilidade de F indica se a equação de regressão é significativa, ou seja, se a relação funcional estabelecida entre a Variável Dependente e os efeitos combinados das Variáveis Independentes são relevantes. O valor do F é determinado pelo quociente entre a variância explicada e a variância inexplicada. Somente seus resultados não devem descartar totalmente uma equação de regressão, uma vez que os coeficientes da regressão podem apresentar correlação significativa. O segundo modelo determina a significância (correlação) dos coeficientes da equação de regressão ( ) individualmente. O questionamento essencial deste teste é se o valor atribuído a cada coeficiente é significativamente diferente de 0 ou se tal valor ocorreu simplesmente ao acaso. Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a "adequabilidade" do modelo.

A equação para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta e algumas das variáveis regressoras

(36)

Se rejeitarmos , temos que ao menos uma variável explicativa contribui significativamente para o modelo.

Sob temos pelo "Teorema - Distribuição de forma quadrática" que

e que

Além disso, temos que e são independentes. Logo, concluímos sob que

(37)

Onde é a soma dos quadrados da regressão

Portanto, rejeitamos se e se F0 em queα é o nível de significância considerado. Geralmente adotamos α=5%

A Tabela Anova com a estatística F é dada por:

Tabela 5. Analise de Variância da equação de regressão Causa da variação Soma dos Quadrados Graus de liberdade Quadrado Médio Regressão SQR Erro SQE Total SQT n-1

3.3.9 Método para seleção de variáveis Stepwise

São introduzidas variáveis na regressão, uma a uma, até que a equação seja considerada satisfatória. O método de seleção passo a passo tem, entre outras vantagens sobre os demais, a de permitir o reexame, a cada fase ou estágio da análise, do papel das variáveis

incorporadas nos estágios anteriores. Uma variável pode ter sido a melhor para incorporação na regressão em um dado estágio anterior e se tornar supérflua em fase posterior, por causa de suas relações com outras incorporadas depois.

Este reexame é feito através do teste F-parcial, para cada variável presente na equação, em qualquer fase na análise. O processo é iniciado com o exame pelo pesquisador da matriz de correlações. A variável mais altamente correlacionada com a variável dependente é a escolhida e a primeira regressão é, então, estimada, digamos

Regressão Stepwise é provavelmente a técnica mais utilizada de seleção de variáveis. O procedimento constrói iterativamente uma sequencia de modelos de regressão pela adição ou remoção de variáveis em cada etapa. O critério para adicionar ou remover uma variável em qualquer etapa é geralmente expresso em termos de um teste parcial F. Faça fentra ser o valor

da variável aleatória F para adicionar uma variável ao modelo e faça fsai ser o valor da

variável aleatória F para remover uma variável do modelo.

A regressão em etapas começa formando um modelo com uma variável, usando o regressor que tenha a mais alta correlação com a variável de resposta Y. Essa variável será também o regressor produzindo a maior estatística F. Por exemplo, suponha que nessa etapa, x1 seja selecionada. Na segunda etapa, as K - 1 variáveis candidatas restantes são examinadas

e a variável, para a qual a estatística parcial F

) x , x ( MQ ) , | ( SQ F j E o j R j 1 1     ₍₃₈₎

é um máximo, é adicionada à equação, desde que fj > fentra. Na equação (38), MQE(xj,x1)

denota a média quadrática do erro para o modelo contendo x1 e xj. Suponha que esse

procedimento indique que x2 deverá ser adicionada ao modelo. Agora, o algoritmo de

regressão em etapas determina se a variável x1 adicionada na primeira etapa deverá ser

removida. Isso é feito pelo cálculo da estatística F.

) x , x ( MQ ) , | ( SQ F E o R 2 1 2 1 1



 (39)

Se o valor calculado f1 < fsai,.a variável x1 será removida; caso contrário, ela será

Em geral, em cada etapa, examina-se o conjunto dos candidatos restantes a regressores. O regressor com a maior estatística parcial F entra, desde que o valor observado de f exceda fentra. Então a estatística parcial F para cada regressor no modelo é calculado e o

regressor com o menor valor observado de F será removido se o f observado < fsai. O

procedimento continua até que nenhum outro regressor possa ser adicionado ou removido ao modelo.

A regressão Stepwise é quase sempre feita usando um programa de computador. O analista exerce controle sobre o procedimento quando da escolha de fentra e fsai. Alguns

programas computacionais de regressão em etapas requerem que os valores numéricos sejam especificados para fentra e fsai. Uma vez que o número de graus de liberdade para MQE

depende do número de variáveis no modelo, que varia de etapa a etapa, um valor fixo de fentra e fsai causa uma variação das taxas de erro tipo I e tipo II.

No documento Modelagem matemática no comportamento do trigo sobre o escalonamento e doses de nitrogênio nos sistemas de cultivo (páginas 42-52)