[2.000] (IP:

(1)

1.  [2.000] (IP:281473857278462 | 19:36:32 | 19:32:41 | 56:09 | 4.486)

Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado".

A afirmativa é verdadeira, pois o r2 não-ajustado é influenciado pela adição de variáveis no modelo, ou seja, o aumento do número de variáveis utilizadas, por si só, leva a um maior r2 não-ajustado, assim as variáveis adicionadas podem não estar explicando nada, e mesmo assim estariam aumentando o r2.

Para a escolha de um modelo, neste caso, seria melhor optar pelo uso do r2 ajustado que tem por finalidade corrigir o r2 não ajustado, retirando o efeito decorrente do aumento do número de variáveis no modelo de regressão. Se o r2 corrigido aumentar mesmo após o ajuste não será apenas em função do aumento do número de variáveis e sim por que estas variáveis adicionadas realmente estão explicando melhor o modelo.

correto, e muito sucinto.

2.  [1.500] (IP:281473857278462 | 19:38:08 | 19:33:43 | 55:35 | 3.208)

Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla

Modelo geral

1.Testar todas as regressões possíveis: é a única estratégia que avalia todas as possibilidades de combinação de variáveis, no entanto a depender do número de variáveis inseridas no modelo haverá um número de combinações diferentes, assim quanto mais variáveis maior será o número de combinações, e vice-versa. Para situações com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado acarretará um amento de chances de cometer o erro tipo1. Sendo esta a única estratégia que sempre vai garantir a escolha da melhor regressão possível, justamente pelo fato de testar todas as possíveis.

Modelos aninhados

2. Eliminação para trás: neste processo partimos de uma regressão completa, ou seja, contento todas as variáveis, e em cada “ciclo” é eliminada uma variável, sendo a ordem das variáveis no modelo de regressão definida por sua possível importância, iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida, elimina-se a variável cuja saída produz menor efeito no modelo. Após a retirada de determinada variável, ela não poderá ser mais utilizada. Em sequencia se realiza novamente o processo, partindo agora do modelo obtido (completo menos a variável retirada), até se obter o menor modelo de regressão que explique tão bem quanto a equação completa.

3. Seleção para a frente: possui o mesmo principio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, partindo de um modelo sem as variáveis, que vão sendo introduzidas (primeiro as mais importantes) progressivamente no modelo, e são feitos testes para medir seu efeito no conjunto. Após a verificação dos modelos é escolhida a que melhor explica o fenômeno estudado, que é obtido quando não ocorre efeito com a inclusão da variável.

4. Stepwise (forward) – é uma combinação das estratégias de seleção para frente e eliminação para trás, e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das

(2)

variáveis já presentes. Com mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis, as chances de cometer o erro tipo 1 aumentam. Como os programas selecionam valores de probabilidade para uma variável entrar e sair do modelo recomenda-se usar 1(ou 0,99999) e 0 (ou 0,0000001), respectivamente. 5. Stepwise (backward) – possui os mesmos princípios metodológicos do e as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frente, ou seja, o processo é iniciado com todas as variáveis compondo o modelo e estas vão sendo testadas e eliminadas.

embora ainda confunda técnica e estratégia, pelo menos já fez o agrupamento dos modelos aninhados

3.  [2.000] (IP:281473857278462 | 19:38:53 | 19:34:36 | 55:43 | 4.028)

Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla.

As técnicas mais utilizadas na seleção do modelo mais adequado para uma regressão linear múltipla são as seguintes:

1. Testar todas as regressões possíveis: nesta técnica aplica-se todas as regressões possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo, logo, este número de combinações fica sendo determinado pela expressão [2p-1], onde p corresponde ao número de variáveis independentes. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em

particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância.

2. Eliminação para trás: neste teste, inicia-se com a regressão múltipla contendo todas as variáveis, posteriormente, eliminamos a cada rodada de seleção a variável de menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição do modelo, isto possibilita que a variável poderia estar apresentando pouco efeito no modelo quando foi eliminada, mas esta mesma variável, porém, em outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno. A eliminação para trás testa todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância.

3. Seleção para frente: esta técnica assemelha-se a de eliminação para trás, contudo em direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis,

iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da eliminação para trás, tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas

combinações;

4. Stepwise (forward e backward): esta se configura como uma junção dos doi últimos métodos anteriormente descritos, acrescido da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção na circunstância em que se julgar viável (combinação de maior

(3)

efeito), ou seja, este método supre a deficiência ocorrida nos descritos acima quanto a descrever a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato, todavia esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados.

cuidado com a formatação matemática. O número de combinações é 2^p-1 ou seja, dois elevado a p, menos um... isto é muito diferente de 2 vezes p -1 como você colocou...

4. [2.000] (IP:281473857278462 | 19:39:39 | 19:37:07 | 57:28 | 4.44) Discuta o significado e possíveis implicações do AIC

O Critério de informação de Akaike (AIC) é baseado na teoria de informação, é uma forma

alternativa para escolher o melhor modelo de regressão, onde a partir da distância ou informação (que é uma medida de discrepância entre as linhas do modelo verdadeiro e o modelo

aproximado), o AIC penaliza os modelos em função do número de parâmetros. Sendo também em estatística frequentemente utilizado para a escolha exata de uma equação de regressão no caso de alternativas não aninhadas, isso quando não existem variáveis independentes comuns aos dois.

O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N

Onde, L é a estatística log verossimilhança, N o número de observações e k o número de coeficientes estimados (incluindo a constante).

Quanto menor, mais o modelo explica com o menor custo em número de variável o que esta acontecendo.

O AIC também avalia quanto o modelo explica de acordo com o número de variáveis usadas, quanto menor, mais o modelo explica com o menor uso de variáveis. E explica a ligação entre as variáveis e com o número variáveis que é utilizado ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente.

Este critério tende a penalizar modelos em que são constituídos por muitas variáveis, isso quer dizer que quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica da realidade, assim sempre que possível e lógico devemos adotar modelos simples, em detrimento de modelos complexos e de difícil entendimento.

embora continue com o problema com implicações, o parágrafo final ficou particularmente claro 5.  [2.000] (IP:281473857278462 | 19:40:13 | 19:38:09 | 57:56 | 22.358)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso estabelecer critérios para seleção do melhor entre os modelos, ou seja, o que envolva o mínimo de parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados critérios estatísticos de avaliação, ditos critérios de seleção, que podem ser os seguintes parâmetros: R2, R2, Valor de F, QMR, SQR, AIC, entre outros.

1. Coeficiente de determinação (R2): este método baseia-se na observação dos valores

determinados para o R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla, logo, se adicionarmos uma variável insignificante ao modelo teremos um aumento mínimo de R2. Daí deve-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno. Contudo, sua empregabilidade tem sido mais voltada em determinarmos quando devemos parar de adicionar variáveis ao modelo, ao invés de encontrar o melhor, tendo em vista que os valores de R2 não reduzem quando adicionamos mais variáveis;

2. Coeficiente de determinação ajustado (R2 ajustado): No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o R2 ajustado, que não aumenta apenas em decorrência da adição de variáveis ao modelo, contudo apresentará valores superiores quando na analise de F entre os modelos apresentar aumento do efeito das variáveis

(4)

incluídas. Consequentemente, o critério de escolha baseado no R2 ajustado consiste em escolher o que apresentar valor máximo;

3. Resultado da análise de variância (F): entende-se neste critério que na avaliação dos modelos aquele que apresentar um maior efeito devido ao tratamento sobre o acaso deverá ser escolhido como o que melhor representa o comportamento em estudo. Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o F, melhor a equação de regressão explica o comportamento das variáveis;

4. Quadrado médio dos resíduos (QMR): neste método inferimos que quanto menor for o QMR de um modelo consequentemente maior será o R2 ajustado, portanto, modelos nos quais

apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste; 5. Soma dos quadrados dos resíduos (SQR): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra;

6. Critério de informação de Akaike (AIC): configura-se como um critério de seleção do melhor modelo, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo;

excelente

6.  [1.500] (IP:281473826793570 | 13:27:18 | 17:20:30 | 53:12 | 31.275) Discuta o significado e possíveis implicações do AIC

O Critério de Informação de Akaike (AIC) é um princípio que nos permite escolher o melhor modelo para a regressão, ou seja, é uma ferramenta para seleção de modelos, oferecendo uma medida relativa da qualidade do ajuste de um modelo estatístico, onde as regressões com menor índice são consideradas as que melhor representam determinado fenômeno. Esse critério baseia-se na teoria da informação, considerando simultaneamente a qualidade de informação, a

qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é adequado. Suas implicações são em relação à escolha do modelo de regressão, onde, quem tiver o menor AIC apresenta-se como melhor modelo, avalia também, quanto o modelo explica de acordo com o número de variáveis usadas, em que, quanto menor, mais o modelo explica com o menor custo, usando-se de poucas variáveis, e explica a ligação entre as variáveis e o número de variáveis que é utilizado, ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados

simultaneamente.

AIC não é um princípio, mas sim uma medida ou constante. Não vi nada quanto a implicações. 7.  [2.000] (IP:281473826793570 | 13:28:03 | 17:21:09 | 53:06 | 29.605)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos é preciso estabelecer critérios para seleção que envolva o mínimo de parâmetros e que expliquem satisfatoriamente a variável resposta. Com isso, tem-se os seguintes parâmetros: o coeficiente de determinação do modelo (R2), que baseia-se na observação dos valores determinados para o R2, quanto mais próximo de 1, maior a validade da regressão, devendo-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno; o coeficiente de determinação do modelo corrigido (R2c), que tem a função de minimizar erros decorrentes da análise incorreta do R2, levando em consideração o número de variáveis da regressão, suavizando o efeito da adição, contudo, o critério de escolha se mantém, devendo-se escolher o que apresentar valor máximo; o resultado da análise de variância (F), que testa a significância do conjunto de parâmetros através do teste da hipótese nula, grandes valores de F permitem a rejeição de H0, nesse critério, deve ser escolhido o que melhor representa o

(5)

comportamento em estudo; o quadrado médio dos resíduos (QMR), nesse critério quanto menor o QMR maior será o R2c, portanto modelos que apresentem valores reduzidos de QMR deverão ser escolhidos como de melhor ajuste; a soma dos quadrados dos resíduos (SQR), tem o mesmo princípio do critério anterior, tendo em vista que este componente é utilizado na determinação do QMR, porém, apresenta certa limitação quanto a dependência do tamanho da amostra; Cp de Mallows (Cp), baseia-se no conceito de erro quadrático médio dos valores ajustados, sendo que a estratégia de seleção de modelos baseia-se em encontrar modelos com valores de Cp próximo ao número de parâmetros; também é possível montar todos os modelos e estabelecer os respectivos AIC, índice que leva em conta a qualidade e a quantidade de parâmetros utilizados em uma regressão, quanto menor o AIC, mais o modelo explica com o menor custo em número de variáveis.

mais uma alma salva... excelente, e com enfoque bastante diferente da outra resposta correta 8.  [2.000] (IP:281473826793570 | 13:28:19 | 17:22:03 | 53:44 | 45.561)

A afirmativa é correta, pois quanto maior o número de variáveis adicionadas, maior será o R2 não-ajustado, ou seja, as variáveis adicionadas podem não estar explicando nada, porém automaticamente o R2 é aumentado. Adotar esse modelo, implica na possibilidade de estar trabalhando com um modelo mais complexo pelo número de variáveis e que pode não esta tendo bons resultados, já que o R2 elevado pode ser em função da quantidade de variáveis adicionadas e não de sua relevância. Sendo nesse caso, mais adequado o uso do R2 ajustado, no qual, anula o efeito decorrente do aumento do número de variáveis no modelo de regressão, ou seja, esse modelo permite trabalhar com as variáveis que realmente contribuem para uma explicação adequada.

ok

9.  [2.000] (IP:281473826793570 | 13:28:47 | 17:22:55 | 54:08 | 14.306)

Algumas técnicas podem ser adotadas para se obter um modelo que melhor explique um determinado comportamento, a partir de um conjunto de dados coletados, são elas:

1. Testar todas as regressões possíveis: essa técnica baseia-se em testar todas as regressões possíveis, que poderiam explicar o maior número de variáveis possíveis, onde para cada número de parâmetros (p), existe 2p – 1 de modelos possíveis. Havendo uma garantia que existe uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, avaliar apenas o critério de escolha para chegar ao modelo mais adequado. A desvantagem desse método consiste na limitação de informações, sendo que o modelo selecionado somente atende aquela condição específica, considerando um número p de parâmetros para aqueles dados em particular,

implicando em não sabermos se os parâmetros considerados contribuem e como contribuem para o comportamento da variável dependente, além de aumentar a chance de cometer o erro tipo I e dificultar o entendimento estatístico com a elevação do número de parâmetros;

2. Eliminação para trás (backward elimition): essa técnica testa todos os parâmetros, gerando todos os modelos possíveis, porém diferente do teste de todas as regressões possíveis, a eliminação para trás, testa também todos os modelos com p – 1 variáveis, assim, a medida que se retira uma variável, faz-se um novo teste. A desvantagem desse método consiste no fato de que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente, no processo de seleção, isso nos faz pensar que aquela variável poderia estar apresentando pouco efeito no modelo da vez ou esta mesma variável, porém, em outro modelo poderá ser mais efetiva quanto a explicar o fenômeno. Considera-se, portanto nesse modelo que retirar variáveis de pouco ou nenhum efeito não traz ônus para significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida;

(6)

porém em direção contrária, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação, até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas combinações;

4. Stepwise (forward e backward): essa técnica baseia-se na junção dos melhores pontos das outras técnicas discutidas anteriormente, acrescida da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção na circunstância em que julgar

necessária, verificando a melhor combinação possível e consequentemente o melhor modelo. Essa técnica apresenta muitos benefícios, contudo, vale salientar que esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados.

acredito que o número de combinações é superior ao descrito, possivelmente por problema de formatação quando saiu do word para texto simples. É sempre prudente checar este tipo de coisa. Uma boa possibilidade é usar simbologia como ^ que é geralmente reconhecido como potência

10.  [1.000] (IP:281473826793570 | 13:29:02 | 17:23:20 | 54:18 | 23.691)

Para a seleção do melhor modelo de regressão linear múltipla, é preciso escolher uma estratégia que minimize o número de variáveis incluídas, descartando aquelas não significantes. Dentre essas estratégias, as mais utilizadas são, a de testar todas as regressões possíveis, sendo este o único algoritmo que garante uma solução para qualquer conjunto de variáveis, quanto mais

variáveis, maior será o número de combinações, e vice-versa; a de eliminação para trás, que inicia-se com a regressão completa (com todas as variáveis) e a cada estágio é eliminada a variável cuja, saída produz menor efeito no modelo geral, lembrando que uma vez retirada a variável não poderá mais ser aproveitada; a de seleção para frente, onde as variáveis vão sendo introduzidas progressivamente no modelo, sendo feito testes para medir seu efeito no conjunto, possui o mesmo princípio da eliminação para trás, porém ao contrário, após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado; outra estratégia é o stepwise (forward e backward), sendo uma combinação dos outros métodos e conduz à melhores resultados, onde todas as variáveis adicionadas ao modelo são testadas, eliminando algumas delas até chegar ao modelo adequado, em que não ocorra mais nenhuma modificação. Esse procedimento possui maior confiabilidade, entretanto, o grande número de testes realizados, aumenta a chance de ocorrência do erro tipo I.

confusão entre técnica e estratégia

11.  [1.500] (IP:281473857279372 | 12:40:34 | 22:03:40 | 23:06 | 38.386) Discuta o significado e possíveis implicações do AIC

O critério de Informação de Akaike (AIC) consiste em basear-se na teoria de informação, caracterizando-se como uma forma alternativa para escolher o melhor modelo de regressão a partir da minimização da informação (ou distância). No entanto, o AIC pode ser explicado como um critério que atribui uma pontuação ao modelo, baseado na adequação desse modelo aos dados e na ordem deste modelo.

No que diz respeito às implicações, temos que: o modelo que apresentar os menores índices de AIC será caracterizado como sendo o melhor (esta característica é um dos fatores que deve ser usado como critério de escolha do modelo). O AIC também permite em função do número de variáveis, avaliar quanto o modelo explica (ou seja, o modelo que for constituído por um numero reduzido de variáveis será mais bem explicado, tendendo, portanto, a obtenção de informações mais reais). Esta característica nos permite abrir mão sempre que possível de modelos mais complexos e que dificultam o entendimento. O AIC também possibilita explicar a ligação entre as variáveis.

(7)

ok, embora tenha havido confusão entre implicações e características a meu ver 12.  [2.000] (IP:281473857279372 | 12:41:14 | 21:53:24 | 12:10 | 39.766)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. A utilização do coeficiente de determinação (R2) é um critério usado em função de ser

responsável por explicar a regressão, espera-se, por tanto, que quanto mais próximo de 1 for os valores do R2, mais explicado é o modelo. No entanto, o R2 não corrigido caracteriza-se por ser influenciado pelo número de variáveis que se adiciona, havendo, por tanto, a necessidade da utilização do R2 corrigido, o qual nos permite eliminar os possíveis efeitos da adição dessas variáveis. O Teste F proposto por Ronald A. Fisher é um outro critério para a seleção da melhor regressão por nos dar uma relação entre o quadrado médio da regressão (que inclui, além das variações do acaso, dadas pelos resíduos, também os efeitos das diferenças entre os

tratamentos) e o quadrado médio do resíduo – QMR (que corresponde a uma estimativa correta da variância experimental, e quanto menor o QMR, maior será os valores do R2). O AIC também é outro critério importante para a seleção da melhor regressão, correspondendo a uma avaliação da qualidade de adequação dos modelos, de tal forma que quanto menor os índices de AIC, mais a relação entre as variáveis são explicadas.

salvou-se uma alma... excelente

13.  [1.000] (IP:281473857279372 | 12:41:44 | 22:02:42 | 20:58 | 2.419)

Quanto mais próximo de 1 for o coeficiente de determinação, melhor será o modelo, ou pelo menos espera-se que seja, já que algumas considerações devem ser observadas. O R2 não-ajustado, por exemplo, é afetado pela adição de variáveis no modelo, ou seja, quanto maior o número de variáveis adicionadas a equação, maior será o R2 não-ajustado. Nesse pressuposto, este aumento do coeficiente em função do número de variáveis pode não ser o suficiente pra explicar o modelo. Desta forma, deve-se efetuar uma correção para minimizar as possibilidades de cometer explicações erradas. Sendo assim, o R² ajustado é utilizado em função de ser

responsável por retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas.

Se após o procedimento de correção, o R2 ajustado apresentar valores superiores ao R2 não-ajustado, isso implica dizer que a variável adicionada melhora a explicação do modelo. Por outro lado, se após a correção o R2 ajustado for igual ou inferior ao R2 não-ajustado, isso implica dizer que a variável adicionada não melhorou em nada a explicação do modelo, tornando-se

desnecessária.

estava indo muito bem até dizer que o r2 ajustado poderia ser maior do que o não ajustado,q uando na realidade sempre é inferior. Apenas pode ser mais ou menos inferior dependendo da importância de cada variável

14.  [1.000] (IP:281473857279372 | 12:42:17 | 22:02:36 | 20:19 | 4.819)

- Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo, maior será o número de combinações.

- Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de

(8)

eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo original.

- Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior importância, e com esse procedimento eliminando-se as de menor importância. Esta

característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os modelos seleciona-se aquele que melhor explica a situação em estudo.

- Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de cometer o erro do tipo I são maiores. A Stepwise pode ser baseada na seleção para frente (Forward), ou baseada na seleção para trás (Backward), porém no que diz respeito às variáveis, ambos possuem a mesma ideia de combinação.

confusão entre técnica e estratégia

15.  [2.000] (IP:281473857279372 | 12:42:53 | 22:02:18 | 19:25 | 26.185)

Quando obtemos um determinado conjunto de dados, nos atentamos a ideia de obtenção de modelos que melhor explique o comportamento real desses dados, necessitando do emprego de artifícios que possibilite a melhor escolha do modelo. No entanto, com o intuito de selecionar o modelo mais adequado, algumas técnicas são utilizadas para tal objetivo.

- Teste de todas as possíveis regressões: Aplica-se em função dos possíveis arranjos formados a partir das variáveis em estudo. O número de variáveis tem uma relação direta com o número das diferentes combinações do modelo. Desta forma, quanto maior o número de variáveis no modelo, maior será o número de combinações. Esta técnica apresenta a limitação de que, o modelo escolhido só representa aquela situação específica, limitando informações.

- Eliminação para trás: Esta estratégia inicia-se com o conjunto total de variáveis, as quais estão organizadas de acordo que o grau de importância de cada uma. Desta forma, em cada fase de eliminação, são eliminadas as variáveis menos importantes do modelo. Ou seja, o procedimento estratégico parte da ideia de que a variável eliminada possui o menor efeito da etapa de

eliminação quando comparada com as demais variáveis do modelo. Este procedimento se torna contínuo até que se obtenha um modelo mais simples e que explique tão bem quanto o modelo original.

- Eliminação para frente: Este procedimento estratégico é realizado em sentido contrário quando comparamos com a eliminação para trás. Nesse contexto, as variáveis vão sendo dispostas gradativamente no modelo, iniciando-se com as variáveis que possivelmente seja as de maior importância, e com esse procedimento eliminando-se as de menor importância. Esta

característica possibilita a formação de vários modelos distintos. Após a avaliação de todos os modelos seleciona-se aquele que melhor explica a situação em estudo.

- Stepwise: Este tipo estratégico parte da ideia de que é necessário retornar sempre ao ponto anterior antes de seguir adiante, possibilitando a eliminação de uma das variáveis avaliadas anteriormente. No entanto, na Stepwise as variáveis possuem uma maior confiabilidade no que diz respeito a sua importância para o modelo. Esta característica do modelo permite a obtenção de um número maior de testes em função dos modelos obtidos. Desta forma, as chances de cometer o erro do tipo I são maiores.

A Stepwise pode ser baseada na seleção para frente (Forward), ou baseada na seleção para trás (Backward), porém ambos com a mesma ideia de combinação de variáveis. No entanto, a

(9)

pertencem ao modelo, aumentando as chances de cometer o erro do tipo I.

não entendi como testar todos os modelos possíveis só teste uma situação. Se a ideia é derivada dos dados originais, bem isto é absolutamente inerente a qualquer modelagem, por isto que se faz a checagem posterior como mencionei em sala. de resto, ok

16.  [2.000] (IP:281473653566460 | 20:01:22 | 17:20:43 | 19:21 | 2.131)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Para selecionar a melhor regressão linear múltipla, considerando que a regressão selecionada deverá descrever satisfatoriamente a relação existente entre variáveis dependentes e a variável resposta, faz-se necessário adotar requisitos para avaliar o melhor modelo que se ajuste a um determinado conjunto de dados. Partindo desse pressuposto, existem alguns critérios que são comumente utilizados para avaliar os modelos:

- Coeficiente de determinação (R2): este método baseia-se na observação dos valores

determinados para o R2 que pode assumir valores de 0 a 1, salientando que valores próximos de 1 atestam que a relação entre variáveis independentes e variável dependente (ou variável

resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já a observação de R² baixos, próximos de zero, denotam que o modelo

(representado pela equação) não consegue explicar a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior ele for melhor é o ajuste do modelo. No entanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, observando-se também um aumento do mesmo, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo.

- Coeficiente de determinação ajustado: No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o coeficiente de determinação ajustado, não

necessariamente este aumenta com a adição de variáveis ao modelo (p + s(conj. variáveis)), contudo apresentará valores superiores quando na analise de F entre os modelos (p e p + s) apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha baseado no coeficiente de determinação ajustado, consiste em escolher o que apresentar maior valor;

- QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de um modelo conseqüentemente maior será o coeficiente de determinação ajustado, portanto, modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste;

- SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra;

- Teste F: Baseia-se na observação dos valores de F (calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o F calculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais).

Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores ajustados e pode ser determinado pela seguinte equação:

Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde:

SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros

Logo, a estratégia de seleção de modelos baseada no Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). Por exemplo, se considerarmos 4

(10)

parâmetros (variáveis independentes) para observar o comportamento de y (variável

dependente), e calcularmos o Cp de dois modelos concorrentes, onde o Cp1 = 3,666 e o Cp2 = 7,5600, optaríamos pelo modelo que apresentasse o Cp1, já que este se aproxima mais do número de parâmetros (4).

- AIC (Critério de informação de Akaike): Consiste como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis.

excelente

17.  [1.000] (IP:281473653566460 | 20:07:57 | 17:20:45 | 12:48 | 1.445)

Testar Todas as Regressões Possíveis – esse é o único algoritmo que garante uma solução para qualquer conjunto de variáveis, porém, depende do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maior será o número de combinações, e vice-versa.

Em casos com muitas variáveis, testar todas as regressões possíveis torna-se quase impossível, sendo que a cada teste realizado levara a um amento de chances de cometer o erro tipo1.

Eliminação Para Trás – o processo inicia-se com a regressão completa (com todas as variáveis) e em cada estágio é eliminada uma variável, lembrando que a ordem das variáveis no modelo de regressão é definida por sua suposta importância (menor efeito), iniciando a eliminação pela de menor importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada da última variável de cada modelo, em seguida, elimina-se a variável que apresentou menor efeito com sua retirada. Uma vez retirada à variável não poderá ser aproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de regressão que explicará tão bem quanto a equação completa.

Seleção Para Frente – segue o mesmo princípio do método de eliminação para trás, só que este é realizado em sentido contrário. Ou seja, as variáveis candidatas vão sendo introduzidas

progressivamente no modelo, introduzindo as que supostamente são mais importantes, uma de cada vez, formando diferentes modelos de regressão com seus respectivos efeitos. Uma vez retida a variável não poderá ser aproveitada. Após a verificação de todos os modelos é escolhida a que melhor explica o fenômeno estudado.

Stepwise (forward) – é uma combinação dos dois procedimentos anteriores e conduz à melhores resultados. O princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo testa todas as variáveis eliminando algumas delas até chegar a um modelo adequado, porém as variáveis eliminadas podem ser novamente introduzidas para verificar se há alguma melhora no modelo, esse processo irá se repetir até que não ocorra nenhuma modificação. Por conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam. Stepwise (backward) – possui as mesmas limitações do Stepwise (forward), porém o princípio operacional é de trás para frentes, ou seja, o contrário.

confusão técnica x estratégia

18.  [2.000] (IP:281473653566460 | 20:08:30 | 17:20:49 | 12:19 | 3.825)

As técnicas mais utilizadas são:

- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p – 1 de modelos possíveis, onde p corresponde ao número de variáveis

(11)

independentes. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar ao modelo mais adequado. Entretanto, existe limitação de informações quando se utiliza esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância.

Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I.

- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, entretanto, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Salientando que as variáveis retiradas são aquelas consideradas menos importantes (menor efeito) e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Dessa forma, considera-se que retirar variáveis de pouco ou nenhum efeito não traz perda de significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida.

- Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma,

processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas condições (combinações); - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou

adicionadas, verificando a melhor combinação possível e, conseqüentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente.

Apesar da vantagem, vale ressaltar que existem algumas limitações quanto ao seu uso,

principalmente por aumentar a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados.

-Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combinam variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste.

Da mesma forma que o forward, a utilização desta técnica implica em uma maior chance do erro tipo I.

excelente, exceto quanto ao erro de formatação matemática, igual ao que já comentei em algumas outras respostas

19.  [2.000] (IP:281473653566460 | 20:08:49 | 17:20:09 | 11:20 | 178.688)

Afirmativa correta, pois num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 não ajustado, ou seja, o R2 não ajustado é afetado pela adição de número de variáveis no modelo. Por tanto é necessário efetuar uma correção para minimizar as chances de

(12)

cometer um equívoco. Neste caso o melhor é optar pelo R2 ajustado que retirar o efeito

decorrente do aumento do número de variáveis que foram adicionadas no modelo de regressão. Se o R2 corrigido for maior que o R2 não corrigido, isso significa que as variáveis adicionadas estão explicando melhor o modelo. Caso contrário, a variável adicionada não contribui para a explicação do modelo. O R2 corrigido permite trabalhar com as variáveis que realmente contribuem para uma explicação adequada.

ok

O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos. Este índice avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Portanto, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. Assim, o AIC avalia a

qualidade da ligação entre as variáveis e o número de variáveis utilizadas. Quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade, nos relembrando de que sempre que possível devemos adotar modelos simples que melhor retrate do que modelos complexos de difícil entendimento.

Implicações:

Explica a ligação entre a quantidade de variáveis que entra no modelo com a quantidade de dados explicados simultaneamente.

Avalia quanto o modelo explica de acordo com o número de variáveis usadas. Quanto menor, mais o modelo explica com o uso de poucas variáveis.

continua o problema das demais quanto às implicações, mas com explicação bem menos aprofundada do que várias das respostas

21.  [1.000] (IP:281473824211098 | 23:28:23 | 01:27:49 | 59:26 | 1.962)

- Testar todas as regressões possíveis – como o próprio nome já diz, esta técnica consiste em aplicar todos os modelos de regressões possíveis, através dos possíveis arranjos que se possa fazer com o maior número possível das variáveis envolvidas no estudo. Exemplo, se tivermos um número de 8 variáveis em um determinado estudo, isso significa dizer que teremos 255 modelos de regressão possíveis para avaliarmos a partir desta técnica. Apesar de ser a única estratégia que sempre garante a melhor regressão possível, essa técnica é muito trabalhosa.

- Eliminação para trás - este teste inicia-se com todas as variáveis e é realizado com todos os modelos de regressão. Posteriormente, uma única variável, aquela de menor efeito no modelo, é eliminada de cada regressão e depois avaliada. Depois prossegue da mesma forma com as outras variáveis. Assim, sempre avaliamos o efeito da última variável retirada. A desvantagem do método é que uma vez retirada a variável, esta não entrará mais na composição do modelo e conseqüentemente no processo de seleção, sendo assim ora aquela variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém em outra modelo, poderia ser mais efetiva quanto a explicar o fenômeno.

- Seleção para frente - esta técnica é semelhante à de eliminação para trás, a diferença é que em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo

simples com apenas uma variável. Após a aplicação dos critérios de seleção, essa variável pode permanecer ou ser retirada do modelo. Assim, a cada adição de uma nova variável, repete-se o procedimento de avaliação até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é que uma vez adicionada esta variável, não poderá mais ser retirada para se avaliar novas combinações;

- Stepwise – nada mais é do que a junção de técnicas descritas acima que pode ser de traz pra frente e de frente pra traz simultaneamente. Nesta técnica pode-se adicionar ou retirar variáveis

(13)

do modelo em processo de seleção quando se julgar viável, ou seja, escolhendo a combinação de maior efeito. Geralmente o critério mais utilizado é o Teste F, em que a probabilidade igual a 1 ou 0,9999 é utilizada para a variável entrar e 0 ou 0,0000001 para retirar uma variável. A grande vantagem desse método é manter relações causais. Por outro lado, os valores de R2 são

artificialmente elevados; a seleção de variáveis é fortemente dependente das correlações entre as preditivas; os erros-padrão dos coeficientes de regressão são artificialmente baixos; evita a

necessidade de teoria fundamental ou bom entendimento dos dados; quanto maior o número de variáveis candidatas, maior a interferência a que o modelo ﬁnal pode estar sujeito.

o mesmo problema dos demais

22.  [2.000] (IP:281473824211098 | 23:29:21 | 01:28:07 | 58:46 | 15.346)

O R2(coeficiente de determinação) representa a proporção da variação da variável dependente (Y) que é explicada pela variação da variável independente (x). Então, quanto maior o número de variáveis adicionadas à equação, maior será seu R2, pois a variação devido ao acaso tende a ser menor devido ao grande número de variáveis que o modelo contém. Por outro lado, o R2 ajustado leva em consideração o número de variáveis no modelo, ou seja, não necessariamente aumenta com a adição de variáveis, pois a influência da quantidade de variáveis no modelo é anulada. Além disso, o R2 elevado poderá ser em função apenas do número de variáveis e não da sua relevância, assim como trabalhar com um grande número de variáveis é muito mais complicado. Um modelo que tenha menos variáveis e seja mais significativo poderá ser substituído por outro com mais variáveis e maior R2. Geralmente o R2 ajustado é menor que o R2, porém pode acontecer de o valor do R2ajustado ser superior ao R2 não ajustado, indicando que a variável adicionada fornece respaldos para uma explicação mais coerente.

 excelente

O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos que avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo “verdadeiro”, ou seja, a discrepância no ajuste do modelo em relação aos dados. Para isso, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. O AIC é também freqüentemente utilizado para a escolha da especificação ótima de uma equação de regressão no caso de alternativas não aninhadas, isso quando não existem variáveis independentes comuns aos dois.

O critério de Akaike (AIC) é definido como: AIC = 2 x (k-L) / N

Onde:

k é o número de coeficientes estimados (incluindo a constante) L é a estatística log verossimilhança e

N o número de observações.

Quanto menor o valor de AIC, mais o modelo explica com o menor custo, ou seja, uso de poucas variáveis. Isso significa dizer que na escolha do modelo de regressão, o melhor modelo será aquele que tiver o menor AIC.

Explica a ligação entre as variáveis e com o número de variáveis que é utilizado ou a melhor quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente.

(14)

24.  [2.000] (IP:281473824211098 | 23:30:30 | 01:29:08 | 58:38 | 1.247)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. - Coeficiente de determinação (R²): O R² é um coeficiente que mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão, isto é, através do R² pode-se dizer pode-se um determinado modelo é adequado ou não para explicar a variação de uma

determinada variável em estudo. O coeficiente de determinação pode assumir valores de 0 a 1, sendo que valores próximos de 1 indicam que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já valores baixos de R², próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as

variáveis. Assim, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do modelo. Porém, vale ressaltar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, ou seja, com o aumento do número de variáveis há também um aumento do R2, sendo que este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo.

- Coeficiente de determinação ajustado: O R2 ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o efeito significativo dos preditores é obtido através da análise de variância). Assim, o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo.

- Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo. Com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais).

- Soma dos quadrados do resíduo (SSR): este critério baseia-se na observação da soma dos quadrados do resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR possui a limitação de que seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, conseqüentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha.

- AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo.

excelente

25.  [2.000] (IP:281473824211098 | 23:30:48 | 01:29:43 | 58:55 | 9.234)

- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p– 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o

(15)

critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de

informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros

aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I.

- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a

eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto,

considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso,

considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou

adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é

possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões

possíveis, já que há um aumento no número de testes realizados.

-Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I.

ok, mas com o mesmo erro das demais

O Critério de Informação de AKAIKE - AIC é baseado na teoria de informação que é uma forma alternativa para escolher o melhor modelo de regressão, onde, o melhor modelo vai ser aquele que apresentar menores índices. Teoricamente esse índice avalia ao mesmo tempo a qualidade da informação e a qualidade da ligação entre as variáveis com o número de variáveis que é utilizada. Além disso, este critério combina quanto o modelo explica com o número de variáveis usado para isto.

O AIC pode ser definido pela seguinte equação: AIC = 2 x (k-L) / N L= É a estatística log verossimilhança

N= É o número de observações

k= O número de coeficientes estimados (incluindo a constante).

Uma das implicações do IAC é na escolha do modelo de regressão, onde quem tiver o menor AIC apresentasse como melhor modelo. A outra é avaliar o modelo de acordo com as explicações decorrente do número de variáveis usadas, desta forma, quanto menor o valor, mais o modelo são explicativos, e ainda com o menor custo (uso de poucas variáveis). Por fim, o IAC explica a

(16)

ligação entre as variáveis com o número variáveis que é utilizado (quantidade de variáveis que entra com a quantidade de dados explicados simultaneamente).

mesmo problema de misturar implicação com característica ou uso  [1.000] (IP:281474038335826 | 16:05:54 | 05:39:31 | 33:37 | 12.103)

Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla

No intuito de obter um modelo com menor número de variáveis incluídas, é preciso escolher certas estratégias para essa seleção. Dentre as mais utilizadas, tem-se: O TESTE DE TODAS AS REGRESSÕES POSSÍVEIS – que surgi como o único algoritmo que pode garantir uma solução para qualquer conjunto de variáveis, porém, a depender do número de variáveis que compõem o modelo haverá um número de combinações diferentes, quanto mais variáveis maiores será o número de combinações, e viceversa. Em casos com muitas variáveis, testar todas as regressões possíveis torna-se muito difícil, o que acarretará um aumento nas possibilidades de cometer o erro tipo1.

A SELEÇÃO PARA FRENTE, aonde nesse método, as variáveis candidatas vão sendo

introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto. Tem também a estratégia da ELIMINAÇÃO PARA TRÁS, neste caso parte da regressão completa (com todas variáveis) e a cada rodada é eliminada a variável cuja saída produz menor efeito no modelo geral. Esses dois processos são bem semelhantes e promovem bons resultados,

principalmente se o número de variáveis não for tão grande.

E por último mais não menos importante temos a estratégia STEPWISE, que é uma combinação dos outros dois métodos, em que cada variável adicionada ao modelo são testadas novamente. Esse procedimento aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por outro lado, o grande número de testes realizados para verificação de cada um dos modelos acaba por aumentar a chance de ocorrência do

erro tipo I (rejeição da H0 quando esta é verdadeira).

a mesma confusão dos demais

27.  [2.000] (IP:281474038335826 | 16:06:30 | 05:39:36 | 33:06 | 2.695)

É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas não significantes ou com pouca contribuição para o ajuste. Para isso é preciso escolher uma estratégia para essa seleção. Um das técnicas é TESTAR TODAS AS REGRESSÕES

POSSÍVEIS. Esta técnica é a única estratégia que sempre garante a melhor regressão possível, por se aplicar a todas as regressões possíveis, estas são determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo. Esta técnica tinha antigamente muitos problemas quanto à carga computacional, a qual era exercida sobre os antigos computadores no momento da análise, no entanto, com o advento do surgimento de

processadores com alta velocidade de processamento torna-se aplicável. A desvantagem do método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de regressão múltipla;

Outra técnica é a ELIMINAÇÃO PARA TRÁS, onde se inicia com a regressão múltipla contendo todas as variáveis, posteriormente, eliminando a cada rodada de seleção a variável de menor efeito no modelo, e desta forma sempre se avaliará o efeito da última variável retirada, para que haja melhor explicação do que se estar estudando. Este método tem como desvantagem,

impossibilidade de retorno da variável descartada para recompor o modelo, o que nos remete a pensar que aquela variável poderia estar apresentando pouco efeito no modela da vez, mas que esta mesma variável, poderia em outra combinação ser mais efetiva e explicar melhor o

(17)

fenômeno.

Comparando as estratégias, a SELEÇÃO PARA FRENTE é uma técnica que se assemelha a de eliminação para trás, no entanto em direção oposta. Neste caso, em vez de iniciar o modelo contendo todas as variáveis, inicia-se o modelo simples com apenas uma variável, a de maior efeito. Após a aplicação dos critérios de seleção adiciona-se outra variável e repeti o

procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é que esta variável não poderá mais ser retirada para se avaliar novas combinações (semelhante a eliminação para trás).

Por fim, tem-se a estratégia chamada STEPWISE, que é uma das mais utilizadas em agrárias. Ela configura como uma mistura dos métodos acrescido da possibilidade de adicionar ou retirar variáveis do modelo em processo de seleção na circunstância em que se julgar viável

(combinação de maior efeito). Esta técnica supre a deficiência dos descritos anteriormente (Seleção para frente e para trás) quanto a descrever a melhor combinação entre as variáveis. Existem a FORWARD e a BACKWARD. A utilização desta técnica implica em uma maior chance do erro tipo I.

A FORWARD baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor

combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso,

principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando

comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados.

Enquanto a BACKWARD, também possui o mesmo princípio da forward na medida em que combinam variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste.

excelente

28.  [2.000] (IP:281474038335826 | 16:06:48 | 05:39:41 | 32:53 | 2.321)

Discuta diferentes critérios para seleção da melhor regressão linear múltipla. A regressão escolhida deverá descrever satisfatoriamente a relação existente entre variáveis independentes e a variável resposta, para isso, é preciso adotar requisitos para avaliar o melhor modelo que ajuste um determinado conjunto de dados. O COEFICIENTE DE DETERMINAÇÃO (R²) é um deles, em que se configura como um coeficiente que mede o quanto da variação de Y pode ser explicada pela equação. Desta forma, através do R², pode-se inferir se o modelo é adequado ou não para explicar a variação de uma variável em estudo. Esse coeficiente pode assumir valores de 0 a 1, salientando que valores próximos de 1 indica um bom ajuste, onde a relação entre variáveis independentes e variável dependente podem ser satisfatoriamente explicadas através da regressão encontrada. Já se o R² for próximo de zero, implica dizer que o modelo não consegue explicar bem a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior, melhor é o ajuste do modelo. Entretanto, vale ressaltar que o R² é sensível ao aumento na medida em que se aumentam as variáveis

independentes, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis independentes são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo.

Outro critério que pode ser utilizado é o COEFICIENTE DE DETERMINAÇÃO AJUSTADO, que não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o que é obtido através da análise de variância). Desta forma, pode-se pensar que o R² ajustado somente

(18)

A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em

relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis analisadas.

Tem-se também a SOMA DOS QUADRADOS DO RESÍDUO, neste caso, quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR apresenta uma limitação: seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha.

O teste F (resultado da análise de variância) é um critério que na avaliação dos modelos, aquele que apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou

melhores significâncias Pr < F) deverá ser escolhido como o que melhor representa o comportamento em estudo;

O Cp (Mallows) é um critério que se baseia no conceito de erro quadrático médio dos valores ajustados e pode ser determinado pela seguinte equação:

Cp= SSR (p)/MSR (pmax.)- [N-2(p+1)] Onde:

SSR – Soma dos quadrados do resíduo MSR – Quadrado médio do resíduo N – número de parcelas experimentais p – número de parâmetros

Logo, a estratégia de seleção consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p+1).

Por fim, mas não o último, pois ainda existem outros critérios, tem-se o AIC (Critério de informação de Akaike) em que se configura como um critério de seleção do melhor modelo, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis.

ótimo

29.  [2.000] (IP:281474038335826 | 16:07:06 | 05:38:57 | 31:51 | 254.718)

Neste caso, a afirmativa é correta, pois o R2 não ajustado é afetado pela adição de número de variáveis no modelo, ou seja, quanto maior o número de variáveis utilizadas, maior é o R2 não ajustado, mesmo se as variáveis adicionadas não estiver explicando nada. No entanto, as variáveis não devem ser jogada no intuito de aumentar o R2, mas sim, para explicar o

comportamento do experimento. Às vezes é melhor ter uma equação com R2 baixo, mais que seja possível de explicá-la, do que uma com R2 alto com muitas variáveis, mas que não tem como explicar o que estar acontecendo. A melhor opção pode ser em optar pelo R2 ajustado que retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Por tanto, se o R2 corrigido aumentar mesmo após o ajuste é porque não é em função do aumento do número de variáveis e sim por que estas variáveis adicionadas estão explicando melhor o

modelo.

ótimo, com uma única ressalva de que o r2 ajustado não aumenta, mas cai menos quando a variável é importante. O r2aj SEMPRE é menor do que o r2não ajustado.

30.  [1.000] (IP:281473652861817 | 22:58:04 | 04:10:13 | 12:09 | 2.974)

Devemos especificar as diferentes estratégias para seleção do melhor modelo de regressão linear múltipla, sendo portanto de grande importância se testar todas as regressões possíveis, pois este