• Nenhum resultado encontrado

ANÁLISE DE REGRESSÃO LINEAR COM MODELO DIFUSO

N/A
N/A
Protected

Academic year: 2021

Share "ANÁLISE DE REGRESSÃO LINEAR COM MODELO DIFUSO"

Copied!
14
0
0

Texto

(1)

ANÁLISE DE REGRESSÃO LINEAR COM

MODELO DIFUSO

Silva, Gilson Medeiros e; Bastos, Rogério Cid;

Martins, Alejandro

*

; Pacheco

*

, Roberto C. S.;

Programa de Pós-Graduação em Engenharia de Produção – PPGEP

Universidade Federal de Santa Catarina, Centro Tecnológico. C.P. 476 - CEP 88040 - 900 Florianópolis, Brasil

gilson@eps.ufsc.br;

rogerio@sei.ufsc.br;

martins@eps.ufsc.br

,

pacheco@eps.ufsc.br

ABSTRACT

This work presents the use of a methodology proposed by Tanaka, Uejima & Asai (1982). That approach gives to the decision maker an output presented as a range, then he can pick some value from this range. This is the main advantage of this methodology. The correspondent results show that when a fuzzification of the observed values is introduced, and the parameter value H is equal to 0,5, the mentioned methodology definite improves its performance.

KEYWORDS

Fuzzy Linear Programming, Regression, Linear Statistical Models.

RESUMO

(2)

1. INTRODUÇÃO

Modelos de Regressão Linear são amplamente usados hoje em negócios, administração, economia, engenharia (Loaiciga and Church, 1990), bem como em muitas outros campos tradicionalmente não quantitativo tal como ciências sociais, saúde e biológica (Kleinbaum and Kupper, 1978; Neter et al., 1985).

O processo de identificar e ajustar um modelo é de crucial importância para utilização do mesmo com sucesso. Em termos geral, ajustar um modelo consiste em determinar os valores dos seus parâmetros que satisfatoriamente reproduz os conjuntos de observações disponíveis com confiança. Problemas relacionado com a identificação e o ajustamento de modelos lineares podem ser classificado em duas categorias:

1. É frequentemente difícil justificar a suposição de linearidade para o modelo particular, e 2. Não existem muitas vezes observações bastante para validar a relação estatística entre a

variável dependente e independente.

Tanaka, Uejima & Asai (1982) introduziram um modelo de regressão baseado em programação linear usando um modelo linear difuso com os parâmetros triangular difuso simétrico. Heshmaty & Kandel (1985) utilizou essa abordagem para previsão em ambientes de incerteza.

Nas técnicas de regressão convencional, a diferença entre os valores observado e os valores estimados do modelo é assumido ser devido aos erros de observações e a diferença é considerada uma variável aleatória. Mas em regressão difusa, a diferença entre os valores observado e estimado é assumido ser devido a ambigüidade inerentemente presente no sistema. A saída para uma entrada especificada é assumida estar num intervalo de valores possíveis, i.é., a saída pode escolher qualquer um desses valores possíveis.

Nesse trabalho será formulado dois tipos de problemas com programação linear para obtermos os modelos de regressão linear difuso:

1. Descrevemos uma formulação de programação linear de análise de regressão com um modelo de intervalo linear para dados com valor real ( xj , yj ), j = 1, 2, . . . , m , onde xj = (

xij , x2j , . . . , xnj ) é o j-ésimo vetor de entrada e yj é o valor da saída correspondente. Um

(3)

Y (xj ) = A0 + A1 x1j + . . . + An xnj (1)

onde Y (xj ) é o intervalo predito correspondente ao vetor de entrada xj . Na formulação

de programação linear introduzido nesse trabalho, um modelo de intervalo linear é obtido como a soma mínima das larguras dos intervalos preditos que inclui o dado. Mais especificamente, um problema de programação linear é formulado para obter o intervalo dos parâmetros Ai tal que a soma das larguras de Y (xj ) é minimizada sujeito a yj ∈ Y (xj

) para j = 1, 2, . . . , m.

2. Extendemos a formulação de programação linear para o caso de dado com valor em intervalo ( xj , yj ), j = 1, 2, . . . , m, onde o valor de saída Yj é dado como intervalo.

O parâmetro difuso do modelo linear obtido significa uma distribuição de possibilidade que corresponde a fuzzificação do sistema. Os parâmetros difuso estudado nesse trabalho corresponde a restrita classe de funções de pertinência triangular. Esse modelo de regressão difuso pode ser muito útil para encontrar uma estrutura difusa em sistema de avaliação.

Utilizamos o software de Programação Linear - LINDO e o software STATISTIC para os demais cálculos.

2. FUNÇÃO DE REGRESSÃO DIFUSA COM PARÂMETROS

DIFUSOS

Análise de regressão é usado para modelar a relação entre variáveis dependentes e independentes. Em análise de regressão, a variável dependente, y, é uma função das variáveis independentes; e o grau de contribuição de cada variável para a saída é representado pelos coeficientes das variáveis. Um modelo de regressão linear crisp é mostrado na Eq. (2),

Y = f (x, a) = a 0 + a1x1 + a2x2 + . . . . + anxn (2) A equação (3) mostra um modelo de regressão linear difuso típico,

= = ( , ) ~ ~ f x A Y ~ A0 + ~ A1x1 + ~ A2x2 + . . . . + ~ Anxn (3) onde ~

Ai é o i-ésimo coeficiente difuso.

(4)

são formadas por atribuir um valor de pertinência especifico (grau de pertinência) para cada um dos valores estimados (Fig. 1). Tais funções de pertinência são também definidas para os coeficientes das variáveis independentes. Funções de pertinência triangular para os coeficientes difusos, como aqueles mostrados na Fig. 1, permiti a solução ser criada via uma formulação de programação linear; outras funções de pertinência para os coeficientes requer abordagens alternativas.

A função de pertinência

~ A

µ para cada um dos coeficientes é expressada como

~ A µ =     + contrário caso c p x c p c a p i i i i i i i i 0 | | 1 (4) A função difusa ~

A é uma função de dois parâmetros, p e c, conhecido como o valor

médio e a expansão (desvio padrão), respectivamente. A expansão denota a fuzzificação da função. A figura 1 mostra a função de pertinência para um número difuso "aproximadamente

pi." Os parâmetros difusos ~ A = { ~ A1, . . . ., ~

An} pode ser denotado na forma de vetor como ~

A

= {p, c}, onde p = (p1, . . . , pn) e c = (c1, . . . , cn). Portanto, a saída é uma versão revisada da Eq. (3),

=

~

Y (p1, c1) x1 + (p2, c2)x2 + . . . . + (pn, cn)xn

A função de pertinência para o parâmetro difuso de saída, ~ Y , é dado por     = ≠Φ = contrário caso a x f y a a y i A i Y i 0 )} , ( | { )]) ( [ min max( ) ( ~ ~ µ µ (5)

Substituindo a Eq. (4) na Eq. (5), obteremos

= ) ( ~ y Y µ       = = ≠ − −

= = 0 , 1 | | | | 1 1 1 y o x o x x c x p y i i n i i i n i i i (6)

(5)

exemplos de conjuntos de dados não difuso. Na tabela, yj é a saída da j-ésima amostra e xij é a

i-ésima variável de entrada para a j-ésima amostra.

TABELA 1: Um exemplo dos conjuntos de dados para dados não difuso Número da Amostra j Saída yj n entradas xij 1 y1 x11, x21, . . . ., xn1 Μ Μ Μ ¨m Ym x1m, x2m, . . . ., xnm

2.1. O CASO DE DADOS NÃO DIFUSO

Tanaka et al. [1982] tinha determinado a solução para o modelo de regressão por converte-lo em um problema de programação linear. Para dados não difuso o objetivo do modelo de regressão é determinar os parâmetros ótimo

~

A* tal que o conjunto de saída difuso, que contém

yi , estar associado com um valor de pertinência maior do que h, i.é.,

h yj Yj( )≥ ~

µ , j = 1, . . . ., m (7)

O grau h é especificado pelo usuário. A figura 2 mostra a função de pertinência para a saída difusa. A equação (7) declara que a saída difusa estará entre A e B da Fig. 2. Na figura o valor do ponto médio (

ni=1pixi) e a expansão (dispersão) (

=

n

i 1ci |xi |) são obtido por considerar a Eq. (6), onde h é especificado pelo usuário.

(6)

      =

∑∑

= = m j n i ij ix c O 1 1 min (8)

A função objetiva dada na Eq. (8) é minimizada, sujeito as duas restrições. As restrições são obtidas por substituir a eq. (6) na Eq. (7); elas tornam-se

yj

= = − − ≥ n i n i ij i ij ix h cx p 1 1 ) 1 ( (9) e yj

= = − + ≤ n i n i ij i ij ix h cx p 1 1 ) 1 ( (10)

Desde que cada conjunto de dados produz duas restrições, existe um total de 2m restrições para cada conjunto de dados.

(7)

Quando o juízo (julgamento) humano ou medidas imprecisas estão envolvidas em determinar a saída, a saída é raramente um número crisp. A saída em tais situações é melhor representada

por um número difuso como ~

Yj = (yj , ej ), onde yj é o valor do ponto médio e ej representa a ambigüidade na saída , como vemos na Fig. 3.

A função de pertinência para a saída difusa observada é dada como

) ( ~ y Yj µ = j j e y y | | 1− − (11)

Uma estimativa dessa saída difusa pode ser obtido da Eq. (6) como

= = − − = n i i ij n i i ij j Y x c x p y y j 1 1 | | | | 1 ) ( ~ * µ para j = 1, m (12)

O grau de ajuste do modelo linear difuso estimada ~ Yj* = * 0 ~ A + * 1 ~ A x1 + * 2 ~ A x2 + . . . . + * ~ n A nxn para os dados ~

Yj = (Yj , ej ) é determinado por hj, que maximiza h sujeito a

(8)

A figura 4 ilustra esses conceitos. O objetivo do modelo de regressão linear difusa é determinar os parâmetros difusos

~

A* que minimiza a expansão (dispersão) sujeito a restrição que hj H para todo j, onde H é escolhido pelo usuário como o grau de ajuste do modelo linear difuso. O j-ésimo parâmetro de ajuste, hj, é computado da Fig. 4 como

hj =

=

= − − − n i i ij j n i i ij j e x c x p y 1 1 | | | | 1 (14)

Em resumo a função objetiva para ser minimizada é

      =

∑∑

= = m j n i ij i j cx O 1 1 min (15) Sujeito as restrições yj

= = − + − − ≥ n i j n i ij i ij ix H cx H e p 1 1 ) 1 ( ) 1 ( (16) e yj

= = − − − + ≤ n i j n i ij i ij ix H cx H e p 1 1 ) 1 ( ) 1 ( (17)

(9)

3. APLICAÇÃO

Esse modelo de regressão linear difuso é aplicado a um conjunto de dados não difuso sobre o tamanho de uma licitação em milhão de dolares (X) e o custo para a firma preparar a licitação em mil dolares (Neter J. e Wasserman W., 1974, pg. 133). Os dados de entrada e saída são mostrados na tabela 2.

(10)

10.0 1.10

20.0 4.36

47.5 8.00

O modelo aplicado a esses dados foi Y = A0 + A1X , onde A0 = (p0 , c0 ) e A1 = (p1 , c1).

Das eqs. (8) - (10), o problema de programação linear para os dados acima é formulado como segue: Min 12c0+63.02c1 Sujeito a p0+2.13p1-0.5c0-1.065c1≤15.5 p0+1.21p1-0.5c0-0.605c1≤11.1 … … p0+4.36p1-0.5c0-2.18c1≤20 p0+8p1-0.5c0-4c1≤47.5 p0+2.13p1+0.5c0+1.065c1≥15.5 p0+1.21p1+0.5c0+0.605c1≥11.1 … … p0+4.36p1+0.5c0+2.18c1≥20 p0+8p1+0.5c0+4c1≥47.5 c0 , c1 ≥0

obtemos a seguinte estimativa da reta difusa

^

Y = (5.41, 0.57) + (4.28, 1.90) X

Se substituirmos os valores de X na estimativa da reta difusa vemos que 6 dos valores de Y dado não estão contido na saída difusa.

(11)

Tabela 3: Custo para Firma de Preparar Licitações CUSTO DA FIRMA ( Y ) TAMANHO LICITAÇÃO ( X ) SAÍDA DIFUSA ) , ( ~ j Yi ei Y = 15.5 2.13 (15.5, 4.0) 11.1 1.21 (11.1, 3.0) 62.6 11.00 (62.6, 32.0) 35.4 6.00 (35.4, 18.0) 24.9 5.60 (24.9, 2.0) 28.1 6.91 (28.1, 2.0) 15.0 2.97 (15.0, 1.0) 23.2 3.35 (23.2 15.0) 42.0 10.39 (42.0, 2.0) 10.0 1.10 (10.1, 1.0) 20.0 4.36 (20.0, 1.0) 47.5 8.00 (47.5, 30.0)

Das eqs. (15) - (17), o problema de programação linear para os dados acima é formulado como segue: Min 12c0+63.02c1 Sujeito a p0+2.13p1-0.5c0-1.065c1≤13.5 p0+1.21p1-0.5c0-0.605c1≤9.6 … … p0+4.36p1-0.5c0-2.18c1≤19.5 p0+8p1-0.5c0-4c1≤32.5 p0+2.13p1+0.5c0+1.065c1≥17.5 p0+1.21p1+0.5c0+0.605c1≥12.6 … … p0+4.36p1+0.5c0+2.18c1≥20.5 p0+8p1+0.5c0+4c1≥62.5 c0 , c1 ≥0

(12)

~

Yj* = (6.4, 2.8) + (5.1, 3.6) X

Substituindo todos os intervalos da saída difusa nessa reta difusa estimada, vemos que a

relação h j h j Y Y * ~ ~ ⊂

é satisfeita para todos eles com H = 0.5, ou seja Y6 = (28.1, 2.0) estar

contido em * 6 ~

Y = (41.6, 27.7).

4. DISCUSSÃO

Analisando o modelo proposto de regressão linear difusa utilizando a programação linear para dados não difuso como também para a saída, podemos levantar as seguinte considerações:

1. Se optasse pelo modelo de regressão clássica teríamos a seguinte reta estimada: ^

Y = 4.23 + 4.52 X com R2 = 0.8795

2. O modelo proposto (eq. 3) para analisar os dados não difuso desse trabalho, não se comportou bem, pois 50% dos valores observados quando substituído na reta difusa estimada não estava contido no intervalo difuso.

3. Em frente a esse problema, o autor optou pela fuzzificação da saída em função do erro de estimação dado pela reta estimada clássica (

^

y y i = −

ε ).

4. Plotamos o gráfico dos valores estimados versos valores observados com a reta estimada e vimos que todos os pontos que estava acima dessa reta a fuzzificação seria bem maior do que aqueles pontos que estavam abaixo da reta estimada (gráfico 1). 5. Levando em conta todas a essas considerações, propomos a seguinte fuzzificação das

(13)

5. CONCLUSÕES

Com base nos resultados obtidos nesse trabalho podemos colocar algumas sugestões do método proposto por Tanaka et al. [1982]:

1. É um método alternativo em relação ao método de regressão linear clássica, com uma vantagem de que a saída estimada é um intervalo onde o tomador de decisão pode optar por um número pertencente a esse intervalo.

2. Como foi visto no decorrer do trabalho quando os dados X e Y são valores reais quando se ajusta um modelo onde os parâmetros desse modelo é difuso, para os dados do trabalho o modelo não funcionou bem, deixando 50% dos valores observados fora dos intervalos difuso.

3. Mas quando a saída é fuzzificada o modelo se comportou bem.

4. A fuzzificação dos valores de saída não é um processo fácil, exigindo das pessoas que estão envolvida com o problema conhecimento bastante profundo sobre o mesmo para propor uma boa fuzzificação.

Regressão 95% de confiança. Gráfico 1: Valores Estimados versos Valores Observados

(14)

6. BIBLIOGRAFIA

KACPRZYK J. AND FEDRIZZI M. (Editores). Studies in Fuzziness: Fuzzy Regression Analysis. Volume 1. Omnitech Press Warsaw and Physica-Verlag Heidelberg, 1992.

TANAKA, H., UEJIMA, S. AND ASAI, K. Linear Regression Analysis with Fuzzy Model, IEEE Transactions Systems Man, and Cybernetics, vol. SMC - 12, 903 - 907, nº 6, 1982.

HESHMATY, B. AND KANDEL, A. Fuzzy Linear Regression and its Applications to Forecasting in

Uncertain Enviroment, Fuzzy Sets and Systems 15, 159 - 191, 1985.

NETER J. AND WASSERMAN W. Applied Linear Statistical Models: Regression, Analysis of Variance,

and Experimental Designs. Richard D. Irwin, Inc., 1974.

*

Referências

Documentos relacionados

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

COMUNITÁRIA DE DESENVOLVIMENTO RURAL VINTE E NOVE DE AGOSTO INFORMAÇÕES INCOMPLETAS NA FICHA DE CREDENCIAMENTO ASSOCIAÇÃO COMUNITÁRIA DE DESENVOLVIMENTO RURAL

Na prática, a medida de vício de Box e as medidas de curvatura de Bates e Watts são as ferramentas mais utilizadas na avaliação da não- linearidade de um modelo de regressão

Segundo Assaf Neto (2009), as organizações têm revelado importantes avanços, por meio da mudança de uma postura convencional, com ênfase no lucro e na rentabilidade, para

A estas variáveis incluiu-se ainda um efeito moderador de modo a estudar a influência de uma situação de insolvência sobre as variáveis que estão associadas

Para lidar com o problema de regressão linear múltipla, é mais conveniente usar notação matricial, pois assim tem-se uma apresentação muito compacta dos dados, do modelo e dos

ENCAMINHE : significa que a mulher deve ser encaminhada a um centro médico onde um cirurgião experiente e sua equipe possam realizar o procedimento em um ambiente equipado

Neste contexto, a Farmacocinética Clínica é uma parte integrante dos cuidados a prestar à pessoa com doença, constituindo a monitorização de fármacos um sistema