3 MODELOS MATEMÁTICOS
3.3 Modelos de regressões
A análise de regressão é um conjunto de técnicas estatísticas que tratam da formulação de modelos estatísticos que especificam relações entre variáveis, e do uso destes modelos para propósitos de inferências, particularmente predição. Os métodos mais usuais de análise de regressão tratam da situação de uma única variável resposta. A finalidade da regressão polinomial é determinar uma curva adaptada aos dados com erro quadrático mínimo. Segundo
Montgomery (2003), para ajustar um modelo de regressão é necessário verificar a significância da regressão, o que pode ser feito utilizando a ANOVA.
No trabalho experimental, um problema comum é obter uma relação matemática ente duas variáveis e através do “ajuste” de uma curva aos pontos no plano que correspondem aos vários valores de e determinados experimentalmente. Pode-se decidir a forma geral da curva tendo por base o padrão apresentado pelos pontos. Como os pontos são obtidos experimentalmente, geralmente tem-se algum “erro” de medição dos dados. Assim, a ideia é escolher a curva que melhor se ajusta aos dados. A variável é determinada por um conjunto de outras variáveis, , , ..., . A princípio, qualquer relação funcional entre um conjunto de variáveis independentes e um conjunto de variáveis dependentes, representada por , pode ser chamada de modelo de regressão, sendo tal modelo fixo para determinado conjunto de dados (Silva, 2003).
3.3.1 Regressão linear simples
O modelo mais simples que relaciona duas variáveis e é dado por
(17)
que é a equação da reta. Onde e são os parâmetros do modelo. Podemos também escrever a equação (17) na forma matricial:
(18) ou (18)’
Desta forma, um ajuste linear simples consiste em encontrar um função linear que minimize os desvios (erros).
onde
são calculados com a equação 1 e é calculado utilizando o
diagrama (18).
Temos que , logo:
(20)
Busca-se determinar os parâmetros e para que D seja mínimo. Para determinar o valor mínimo de uma função deve-se derivar parcialmente esta função em relação às variáveis independentes. Logo, de (3) encontra-se:
(22)
Dividindo as equações (21) e (22) por dois, substituindo por . Para simplificação, faz-se as multiplicações necessárias e igualando a zero, tem-se:
(23)
Sabemos que , logo, obtemos , onde é o número de pontos.
(24)
Assim, temos duas maneiras de encontrar os valores dos parâmetros e : 1º) Isolando e nas equações (23) e (24):
(25)
(26)
2º) Pelo método matricial
Escrevendo as equações (23) e (24) na forma matricial temos:
(27)
Do diagrama (18), temos que:
e (28)
(29)
3.3.2 Coeficiente de determinação
A qualidade de uma regressão pode ser calculada através do coeficiente de determinação, representado por
(30)
Sendo SQE= soma dos quadrados dos erros,
Sendo SQR= soma dos quadrados médios da regressão, , .
3.3.3 Variância da regressão
A soma dos quadrados de , tem (n-1) graus de liberdade para . Estes são os graus de liberdade totais na implícita análise de variância de , que devem, portanto, ser divididos entre as causas de variação da seguinte forma:
Sendo os atribuídos aos desvios da regressão e 1 atribuído a regressão. A análise de variância de pode ser construída conforme tabela 4:
Tabela 4. Analise de variância de
Causa da variação Graus de liberdade Soma de quadrados Quadrados médios
Regressão 1 QMR
Erro n-2
Total n-1
Se a equação de regressão fosse estimada a partir de um número (n) infinitamente grande de pares de observações, o quadrado médio dos desvios de regressão, simbolizado por , representaria uma medida de erro agregado a cada valor estimado de , a partir de um valor de .
3.3.4 Teste de significância para
Variância do valor estimado de é calculada por
(31)
Erro padrão da estimativa do coeficiente de regressão, sendo uma estimativa
(32)
3.3.5 Teste para verificar a hipótese
Ao testar esta hipótese, tem-se por objetivo verificar se o coeficiente de regressão entre e , de que é uma estimativa amostral, é igual a 0.
(33)
Esta quantidade obedece à distribuição de com graus de liberdade. Aceitando-se , concluímos que a variação em não contribui de forma sistemática e real
para a variação de . Isto significa que o verdadeiro valor do coeficiente de regressão é , não passando o valor , estimado, de mera flutuação ao acaso.
3.3.6 Regressão polinomial
Consiste em determinar um polinômio, que pode ser de qualquer grau. Deste modo, a equação é dada por
(34)
O sistema normal é dado por
O coeficiente de determinação (R2) determina-se de modo análogo ao caso da regressão linear simples.
3.3.7 Regressão linear múltipla
Aplica-se nos casos em que é uma função linear de duas variáveis ou mais. Neste caso, deseja-se encontrar os valores , tais que a relação entre eles seja aproximada por uma expressão do tipo
(35)
De maneira análoga ao ajuste linear simples, a solução que mínima os erros é dada pela solução do sistema:
O coeficiente de determinação (R2) determina-se de modo análogo ao caso da regressão linear simples.
3.3.8 A probabilidade pelo F
A probabilidade de F indica se a equação de regressão é significativa, ou seja, se a relação funcional estabelecida entre a Variável Dependente e os efeitos combinados das Variáveis Independentes são relevantes. O valor do F é determinado pelo quociente entre a variância explicada e a variância inexplicada. Somente seus resultados não devem descartar totalmente uma equação de regressão, uma vez que os coeficientes da regressão podem apresentar correlação significativa. O segundo modelo determina a significância (correlação) dos coeficientes da equação de regressão ( ) individualmente. O questionamento essencial deste teste é se o valor atribuído a cada coeficiente é significativamente diferente de 0 ou se tal valor ocorreu simplesmente ao acaso. Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a "adequabilidade" do modelo.
A equação para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta e algumas das variáveis regressoras
(36)
Se rejeitarmos , temos que ao menos uma variável explicativa contribui significativamente para o modelo.
Sob temos pelo "Teorema - Distribuição de forma quadrática" que
e que
Além disso, temos que e são independentes. Logo, concluímos sob que
(37)
Onde é a soma dos quadrados da regressão
Portanto, rejeitamos se e se F0 em queα é o nível de significância considerado. Geralmente adotamos α=5%
A Tabela Anova com a estatística F é dada por:
Tabela 5. Analise de Variância da equação de regressão Causa da variação Soma dos Quadrados Graus de liberdade Quadrado Médio Regressão SQR Erro SQE Total SQT n-1
3.3.9 Método para seleção de variáveis Stepwise
São introduzidas variáveis na regressão, uma a uma, até que a equação seja considerada satisfatória. O método de seleção passo a passo tem, entre outras vantagens sobre os demais, a de permitir o reexame, a cada fase ou estágio da análise, do papel das variáveis
incorporadas nos estágios anteriores. Uma variável pode ter sido a melhor para incorporação na regressão em um dado estágio anterior e se tornar supérflua em fase posterior, por causa de suas relações com outras incorporadas depois.
Este reexame é feito através do teste F-parcial, para cada variável presente na equação, em qualquer fase na análise. O processo é iniciado com o exame pelo pesquisador da matriz de correlações. A variável mais altamente correlacionada com a variável dependente é a escolhida e a primeira regressão é, então, estimada, digamos
Regressão Stepwise é provavelmente a técnica mais utilizada de seleção de variáveis. O procedimento constrói iterativamente uma sequencia de modelos de regressão pela adição ou remoção de variáveis em cada etapa. O critério para adicionar ou remover uma variável em qualquer etapa é geralmente expresso em termos de um teste parcial F. Faça fentra ser o valor
da variável aleatória F para adicionar uma variável ao modelo e faça fsai ser o valor da
variável aleatória F para remover uma variável do modelo.
A regressão em etapas começa formando um modelo com uma variável, usando o regressor que tenha a mais alta correlação com a variável de resposta Y. Essa variável será também o regressor produzindo a maior estatística F. Por exemplo, suponha que nessa etapa, x1 seja selecionada. Na segunda etapa, as K - 1 variáveis candidatas restantes são examinadas
e a variável, para a qual a estatística parcial F
) x , x ( MQ ) , | ( SQ F j E o j R j 1 1 (38)
é um máximo, é adicionada à equação, desde que fj > fentra. Na equação (38), MQE(xj,x1)
denota a média quadrática do erro para o modelo contendo x1 e xj. Suponha que esse
procedimento indique que x2 deverá ser adicionada ao modelo. Agora, o algoritmo de
regressão em etapas determina se a variável x1 adicionada na primeira etapa deverá ser
removida. Isso é feito pelo cálculo da estatística F.
) x , x ( MQ ) , | ( SQ F E o R 2 1 2 1 1
(39)Se o valor calculado f1 < fsai,.a variável x1 será removida; caso contrário, ela será
Em geral, em cada etapa, examina-se o conjunto dos candidatos restantes a regressores. O regressor com a maior estatística parcial F entra, desde que o valor observado de f exceda fentra. Então a estatística parcial F para cada regressor no modelo é calculado e o
regressor com o menor valor observado de F será removido se o f observado < fsai. O
procedimento continua até que nenhum outro regressor possa ser adicionado ou removido ao modelo.
A regressão Stepwise é quase sempre feita usando um programa de computador. O analista exerce controle sobre o procedimento quando da escolha de fentra e fsai. Alguns
programas computacionais de regressão em etapas requerem que os valores numéricos sejam especificados para fentra e fsai. Uma vez que o número de graus de liberdade para MQE
depende do número de variáveis no modelo, que varia de etapa a etapa, um valor fixo de fentra e fsai causa uma variação das taxas de erro tipo I e tipo II.