Gráficos de controle de regressão beta robustos

Texto

(1)UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO. Luan Portella da Silva. GRÁFICOS DE CONTROLE DE REGRESSÃO BETA ROBUSTOS. Santa Maria, RS, Brasil 2019.

(2) Luan Portella da Silva. GRÁFICOS DE CONTROLE DE REGRESSÃO BETA ROBUSTOS. Dissertação apresentada ao Curso de Pós-Graduação em Engenharia de Produção (PPGEP), da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obtenção do grau de Mestre em Engenharia de Produção.. Orientador: Prof. Dr. Fábio Mariano Bayer. Santa Maria, RS, Brasil 2019.

(3) Silva, Luan Portella da Gráficos de controle de regressão beta robustos / Luan Portella da Silva.- 2019. 123 f.; 30 cm Orientador: Fábio Mariano Bayer Dissertação (mestrado) - Universidade Federal de Santa Maria, Centro de Tecnologia, Programa de Pós-Graduação em Engenharia de Produção, RS, 2019 1. Gráficos de controle 2. Fração 3. Outliers 4. Regressão beta 5. Verossimilhança ponderada I. Mariano Bayer, Fábio II. Título.. Sistema de geração automática de ficha catalográfica da UFSM. Dados fornecidos pelo autor(a). Sob supervisão da Direção da Divisão de Processos Técnicos da Biblioteca Central. Bibliotecária responsável Paula Schoenfeldt Patta CRB 10/1728..

(4)

(5) AGRADECIMENTOS Ao meu orientador, Professor Fábio Mariano Bayer, o qual melhor mentor não poderia ter tido. Seus ensinamentos, disponibilidade e paciência possibilitaram a realização deste trabalho. Aos meus amigos/colegas, Carlos Manchini e Allan dos Santos pelas intermináveis discussões e contribuições ao longo dos últimos dois anos. Aos meus pais, Claudia Portella e Vilmar Padilha, minhas estruturas mais sólidas. Aos professores participantes da banca, pelas inestimáveis sugestões. À CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) e ao PPGEP (Programa de Pós-Graduação em Engenharia de Produção) pelo incentivo e apoio financeiro..

(6)

(7) RESUMO GRÁFICOS DE CONTROLE DE REGRESSÃO BETA ROBUSTOS. AUTOR: LUAN PORTELLA DA SILVA ORIENTADOR: FÁBIO MARIANO BAYER. Os gráficos de controle (GC) são as principais ferramentas do controle estatístico de processo (CEP) para monitorar e extrair informação de um determinado processo. Os gráficos tradicionais são arquitetados assumindo a normalidade dos dados ou aproximações pela normal. Contudo, dados do tipo fração usualmente apresentam assimetria, não sendo razoável a suposição de normalidade. Outra característica comum nas linhas de produção, é que a característica da qualidade de interesse pode ser afetada por variáveis controle, necessitando de um modelo de regressão para ajustar essa influência. Os gráficos de controle de regressão beta (GCRB) suprem essas duas necessidades, sendo úteis para monitorar variáveis do tipo fração e incorporar variáveis controle que influenciam a variável de interesse. No entanto, as inferências relacionadas aos GCRBs são feitas baseadas no método da máxima verossimilhança, o qual é seriamente afetado por outliers. Considerando que na Fase I são obtidas as estimativas dos parâmetros, não tratar os valores discrepantes pode ocasionar distorções no modelo. Por consequência, a determinação dos limites de controle pode ser comprometida fornecendo informações distorcidas sobre a estabilidade do processo. Neste trabalho, propomos gráficos de controle de regressão beta robustos, baseados em estimadores de máxima verossimilhança ponderada. Esse método utiliza inferência robusta e diminui a influência de valores atípicos na estimação dos parâmetros, sem perder totalmente a informação dessas observações. Desse modo, a construção dos limites de controle não é afetada por observações distantes da massa dados, as quais podem prejudicar a correta especificação do modelo. Através de simulações de Monte Carlo, foram avaliadas medidas específicas de robustez como ponto de ruptura e curva de sensibilidade dos estimadores e medidas adaptadas de ARL para análise de desempenho dos GCs. As avaliações numérica comprovaram a robustez dos GCs propostos, os quais foram capazes de fornecer informações mais confiáveis sobre o estado do processo. Por fim, na intenção de demonstrar o desempenho dos gráficos propostos foi realizada uma aplicação em dados reais, comparando resultados obtidos com GCs concorrentes. Os gráficos propostos apresentaram melhor desempenho, evidenciando a necessidade de utilizar GC robustos em dados reais. Palavras-chave: Gráficos de controle. Fração. Outliers. Regressão beta. Verossimilhança ponderada..

(8)

(9) ABSTRACT ROBUST BETA REGRESSION CONTROL CHARTS. AUTHOR: LUAN PORTELLA DA SILVA ADVISOR: FÁBIO MARIANO BAYER Control charts are the main tool of the statistical control process (SPC) to monitor and extract information about a certain process. The usual control charts are built under the normality assumption of the data or approximation by normal. However, fractional-type data generally presents asymmetry, becoming the normal assumption inappropriate. Another common characteristic in production lines is a main characteristic can be affected by control variables, which requires a regression model to adjust their influence. The beta regression control chart (BRCC) fulfills these two needs, being useful for monitoring fraction type variables and incorporating control variables that influence the response variable. BRCC is based on maximum likelihood inference, which is seriously affected by outliers. Considering that in Phase I, the parameters estimates are obtained, not treating the aberrant values can cause distortions in the model. Consequently, the control limits determination can be compromised, providing misinformation about the process stability. In this work, we propose robust beta regression control charts based on weighted maximum likelihood estimators. This method uses robust inference, decreasing outliers influence in the parameters estimation, without losing all information os those observations. Thus, the control limits determination is not affected by distant observations of the data bulk, which may hinder the correct model specification. Through Monte Carlo simulations, we evaluated the breakdown point and sensitivity curve of the estimators and the adaptive measures of the ARL to analyze the performance of the control charts. Finally, in order to demonstrate the performance of the proposed charts, an application in real data was made, comparing the proposed graphs results with the competitors control charts. The proposed control charts show better performance, demonstrating the need for robust control charts in real data. Keywords: Control charts. Fraction. Outliers. Beta regression. Weighted maximum likelihood..

(10)

(11) LISTA DE FIGURAS Figura 1 – Figura 2 – Figura 3 – Figura 4 – Figura 5 – Figura 6 – Figura 7 – Figura 8 – Figura 9 – Figura 10 – Figura 11 – Figura 12 – Figura 13 – Figura 14 – Figura 15 – Figura 16 – Figura 17 – Figura 18 – Figura 19 – Figura 20 – Figura 21 – Figura 22 – Figura 23 – Figura 24 – Figura 25 – Figura 26 – Figura 27 – Figura 28 – Figura 29 – Figura 30 – Figura 31 – Figura 32 – Figura 33 – Figura 34 – Figura 35 – Figura 36 – Figura 37 – Figura 38 – Figura 39 – Figura 40 – Figura 41 – Figura 42 –. Exemplo de um gráfico de controle usual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Histograma da variável dependente nos diferentes cenários considerados . . . . 46 Ponto de ruptura do Cenário 1 com tamanho amostral n = 500 . . . . . . . . . . . . . 55 Ponto de ruptura total do Cenário 1 com tamanho amostral n = 500 . . . . . . . . 56 Ponto de ruptura do Cenário 2 com tamanho amostral n = 500 . . . . . . . . . . . . . 57 Ponto de ruptura total do Cenário 2 com tamanho amostral n = 500 . . . . . . . . 58 Ponto de ruptura do Cenário 3 com tamanho amostral n = 500 . . . . . . . . . . . . . 59 Ponto de ruptura total do Cenário 3 com tamanho amostral n = 500 . . . . . . . . 60 Curva de sensibilidade do Cenário 1 com tamanho amostral n = 500 . . . . . . . 63 Curva de sensibilidade total do Cenário 1 com tamanho amostral n = 500 . . 64 Curva de sensibilidade do Cenário 2 com tamanho amostral n = 500 . . . . . . . 65 Curva de sensibilidade total do Cenário 2 com tamanho amostral n = 500 . . 66 Curva de sensibilidade do Cenário 3 com tamanho amostral n = 500 . . . . . . . 67 Curva de sensibilidade total do Cenário 3 com tamanho amostral n = 500 . . 68 ˆ no Cenário 1 com tamanho amostral n = 500......... 73 Ponto de ruptura do ARL ˆ no Cenário 1 com tamanho amostral n = 500 .............. 74 Sensibilidade do ARL ˆ no Cenário 2 com tamanho amostral n = 500......... 75 Ponto de ruptura do ARL ˆ no Cenário 2 com tamanho amostral n = 500 .............. 76 Sensibilidade do ARL ˆ no cenário 3 com tamanho amostral n = 500 ......... 77 Ponto de ruptura do ARL ˆ no Cenário 3 com tamanho amostral n = 500 .............. 78 Sensibilidade do ARL Dados sobre estresse e ansiedade de 166 mulheres da cidade de Townsville, Austrália.............................................................................................................. 80 Histograma da variável resposta ansiedade ........................................................ 80 Gráfico de controle baseado no quantil no banco de dados completo ................ 81 Gráfico de controle baseado no quantil após remoção dos outliers .................... 82 Ponto de ruptura do Cenário 1 com tamanho amostral n = 50 .................... 101 Ponto de ruptura total do Cenário 1 com tamanho amostral n = 50 ............. 102 Aˆ RLs do Cenário 1 com tamanho amostral n = 50 ......................................... 103 Ponto de ruptura do Cenário 2 com tamanho amostral n = 50................... 104 Ponto de ruptura total do Cenário 2 com tamanho amostral n = 50 ............ 105 Aˆ RLs do Cenário 2 com tamanho amostral n = 50 ......................................... 106 Ponto de ruptura do Cenário 3 com tamanho amostral n = 50................... 107 Ponto de ruptura total do Cenário 3 com tamanho amostral n = 50 ............ 108 Aˆ RLs do Cenário 3 com tamanho amostral n = 50 ......................................... 109 Ponto de ruptura do Cenário 1 com tamanho amostral n = 100 ................. 115 Ponto de ruptura total do Cenário 1 com tamanho amostral n = 100 .......... 116 Aˆ RLs do Cenário 1 com tamanho amostral n = 100 ....................................... 117 Ponto de ruptura do Cenário 2 com tamanho amostral n = 100 ................. 118 Ponto de ruptura total do Cenário 2 com tamanho amostral n = 100 .......... 119 Aˆ RLs do Cenário 2 com tamanho amostral n = 100 ....................................... 120 Ponto de ruptura do Cenário 3 com tamanho amostral n = 100 ................. 121 Ponto de ruptura total do Cenário 3 com tamanho amostral n = 100 .......... 122 Aˆ RLs do Cenário 3 com tamanho amostral n = 100 ....................................... 123.

(12)

(13) LISTA DE TABELAS Tabela 2.1 – Terminologia apresentada por Sant’Anna e Ten Caten ....................................... 28 Tabela 4.1 – Cenários considerados nas avaliações numéricas ............................................... 45 Tabela 4.2 – Medidas do Cenário 1 em três níveis de contaminação com n = 500 .............. 50 Tabela 4.3 – Medidas do Cenário 2 em três níveis de contaminação com n = 500 .............. 51 Tabela 4.4 – Medidas do Cenário 3 em três níveis de contaminação com n = 500 .............. 52 Tabela 4.5 – Desempenho dos gráficos de controle nos três cenários ..................................... 72 Tabela 5.1 – Medidas descritivas das variáveis ....................................................................... 79 Tabela 5.2 – Coeficientes do GCRB e GCRBR2 nos dados completos e após remoção dos outliers ......................................................................................................... 83 Tabela 5.3 – Comparaçao de AIC e BIC antes e após remoção dos outliers .......................... 83 Tabela B.1 – Medidas do Cenário 1 em três níveis de contaminação com n = 50................ 98 Tabela B.2 – Medidas do Cenário 2 em três níveis de contaminação com n = 50................ 99 Tabela B.3 – Medidas do Cenário 3 em três níveis de contaminação com n = 50...............100 Tabela C.1 – Medidas do Cenário 1 em três níveis de contaminação com n = 100 .............112 Tabela C.2 – Medidas do Cenário 2 em três níveis de contaminação com n = 100 .............113 Tabela C.3 – Medidas do Cenário 3 em três níveis de contaminação com n = 100 .............114.

(14)

(15) LISTA DE APÊNDICES APÊNDICE A – MATRIZ DE INFORMAÇÃO DE FISHER ................................................ 95 APÊNDICE B – AVALIAÇÃO NUMÉRICA EM TAMANHO AMOSTRAL N = 50 ....... 97 APÊNDICE C – AVALIAÇÃO NUMÉRICA EM TAMANHO AMOSTRAL N = 100 ... 111.

(16)

(17) LISTA DE ABREVIATURAS E SIGLAS AIC. Akaike information criteria, ou critério de informação de Akaike. ARL. Average run length, ou comprimento médio de corrida. BIC. Bayesian information criteria, ou critério de informação bayesiano. CEP. Controle estatístico de processo. CEQ. Controle estatístico de qualidade. EMV. Estimador de máxima verossimilhança. EMVP. Estimador de máxima verossimilhança ponderado. EP. Erro padrão. EQM. Erro quadrático médio. FDP. Função densidade de probabilidade. GC. Gráfico de controle. GCB. Gráfico de controle beta. GCRB. Gráfico de controle de regressão beta. GCRBR. Gráfico de controle de regressão beta robusto. GCRL. Gráfico de controle de regressão linear. LC. Linha central. LIC. Limite inferior de controle. LSC. Limite superior de controle. MRL. Median run length, ou mediana do número de corridas. RL. Run length, ou número de corridas. SDRL. Standard deviation run length, ou desvio padrão do número de corridas. TC. Taxa de cobertura. VR. Viés relativo.

(18)

(19) SUMÁRIO 1 1.1 1.2 2 2.1 2.2 2.3. 5. INTRODUÇÃO ................................................................................................ 21 OBJETIVOS E JUSTIFICATIVA .......................................................................................... 23 ESTRUTURA DO TRABALHO .................................................................................... 24 GRÁFICOS DE CONTROLE ........................................................................... 25 GRÁFICOS DE CONTROLE DE REGRESSÃO LINEAR .......................................... 27 GRÁFICO DE CONTROLE PARA TAXAS E PROPORÇÕES.................................... 28 GRÁFICO DE CONTROLE DE REGRESSÃO BETA COM DISPERSÃO CONSTANTE....................................................................................................................................... 30 2.4 GRÁFICO DE CONTROLE DE REGRESSÃO BETA COM DISPERSÃO VARIÁVEL ........................................................................................................................................... 32 3 GRÁFICOS DE CONTROLE DE REGRESSÃO BETA ROBUSTOS ................... 35 3.1 ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA PONDERADA .................... 36 3.1.1 Distribuição assintótica dos EMVP ......................................................................... 38 3.1.2 Definição do vetor peso ..................................................................................... 39 3.2 ESTIMAÇÃO DOS LIMITES DE CONTROLE ROBUSTOS ....................................... 40 3.2.1 Limites de controle baseados no quantis ................................................................. 41 3.2.2 Limites de controle robustos baseados nos resíduos ............................................... 41 4 AVALIAÇÃO NUMÉRICA................................................................................ 45 4.1 AVALIAÇÃO NUMÉRICA DOS ESTIMADORES ...................................................... 45 4.1.1 Ponto de ruptura .............................................................................................. 53 4.1.2 Curva de sensibilidade ............................................................................................. 61 4.2 AVALIAÇÃO NUMÉRICA DOS GRÁFICOS DE CONTROLE .................................. 69 APLICAÇÃO EM DADOS REAIS .................................................................... 79 6 CONCLUSÃO .................................................................................................. 85 REFERÊNCIAS ................................................................................................................. 87 APÊNDICES ...................................................................................................................... 93.

(20)

(21) 21. 1 INTRODUÇÃO. O acelerado crescimento nas linhas de produção tem exigido cada vez mais rigor nos resultados obtidos. Sabe-se que, na indústria e em diversos outros processos, o objetivo é manter o padrão na fabricação dos produtos, reduzindo a variabilidade e conservando o processo estável (MONTGOMERY, 2009). Neste contexto, métodos estatísticos, principalmente o controle estatístico de processos (CEP), tem ganhado importância por parte dos gestores. O CEP é uma ferramenta do controle estatístico da qualidade (CEQ) que visa alcançar o estado de controle de um sistema, analisando graficamente o processo. A variabilidade é inerente a qualquer processo. Mesmo em linhas de produção de alta qualidade é inevitável a ocorrência de alguma variabilidade no seu percurso (OAKLAND, 2007). Apesar disso, é possível distinguir as causas dessas variações entre comuns (ou aleatórias) e especiais (ou atribuíveis). As causas aleatórias são intrínsecas ao processo. As causas especiais, que provêm de falhas no decorrer do processo, sejam elas humanas ou por defeito no maquinário, podem ser identificadas e removidas. O CEP auxilia na detecção dessas variações, permitindo que ações corretivas sejam efetuadas o mais rápido possível, evitando que mais itens fora do padrão sejam produzidos. Um dos métodos de monitoramento capaz de detectar essas falhas e fornecer informações suficientes para suas possíveis causas é o gráfico de controle (GC) (SHEU et al., 2009). Os primeiros GCs propostos por Shewhart (1931) tinham como objetivo detectar mudanças na média ou na variância em uma série de observações independentes. Estes gráficos eram compostos de três linhas horizontais, usualmente determinadas sob suposição de normalidade. A linha central representa a média do processo, porém a característica crucial destes GCs são as linhas que o limitam superior e inferiormente. Denominados limites de controle, eles são utilizados como critério de decisão. Se alguma observação extrapola um desses limites, o processo é considerado fora de controle. Caso contrário, quando todos os valores se apresentam dentro dos limites o processo se encontra sob controle (TATUM, 1997). No entanto, nas linhas de produção, é comum que a característica de interesse seja afetada por uma ou mais variáveis de controle. Nestes casos é preciso identificar as variáveis que afetam o resultado do processo e modelar a relação entre as variáveis de entrada influentes e as características da qualidade de saída. Dentre as técnicas úteis para a construção de tais modelos temos a análise de regressão (MONTGOMERY, 2009)..

(22) 22. Com interesse de tratar e explorar a relação entre as variáveis, a regressão linear é usualmente considerada (MONTGOMERY, 2009). Contudo, os GCs baseados na regressão linear têm seu desempenho comprometido ao trabalhar em dados com determinadas características, como dados de frações e proporções (BAYER; TONDOLO; MÜLLER, 2018). Primeiramente, estes gráficos podem gerar valores fora do intervalo (0, 1), o que se tratando de taxas e proporções, não faz sentido físico. Segundo, os gráficos também são construídos baseado na suposição que os dados seguem a distribuição normal ou em alguma aproximação pela normal, porém dados em fração usualmente apresentam assimetria. Assumindo normalidade em dados assimétricos, a taxa de alarme falsos dos GCs pode aumentar substancialmente, fornecendo informações equivocadas sobre o processo. Para monitorar dados do tipo fração, Sant’Anna e Ten Caten (2012) propuseram o gráfico de controle beta (GCB). O GCB baseado na distribuição de probabilidade beta (GUPTA; NADARAJAH, 2004) se mostrou mais apropriado que a aproximação pela normal. A distribuição beta é uma família biparamétrica flexível que pode facilmente acomodar a assimetria destes dados (SMITHSON; VERKUILEN, 2006). Além de se manter restrito ao intervalo (0, 1), o GCB se mostrou mais sensível em detectar situações sob e fora de controle no monitoramento de taxas e proporções (ALI; PIEVATOLO; GÖB, 2016). Para trabalhar com variáveis que possuem relação com a variável de interesse beta distribuída, Ferrari e Cribari-Neto (2004) propuseram o modelo de regressão beta. Neste modelo, os parâmetros de regressão são interpretados em termos da média da variável de interesse, considerando a dispersão constante. Baseado no modelo de Ferrari e Cribari-Neto, Sant’Anna (2009) apresentou o gráfico de controle de regressão beta (GCRB) ao monitorar o resíduo deviance. A capacidade de incorporar variáveis que exercem influência sobre a variável de interesse detectou mais rapidamente alterações no processo. A partir da necessidade de modelar a dispersão e obter inferências mais precisas sobre os parâmetros do modelo de regressão da média, extensões do trabalho de Ferrari e CribariNeto foram apresentadas (SMITHSON; VERKUILEN, 2006; SIMAS; BARRETO-SOUZA; ROCHA, 2010; CRIBARI-NETO; SOUZA, 2012). O acréscimo de submodelos para a dispersão na regressão beta aprimorou as estimativas dos parâmetros, além de possibilitar modelar a heterocedasticidade. Bayer, Tondolo e Müller (2018) utilizaram a reparametrização de Cribari e Souza (2012) para propor um GCRB baseado nos quantis da distribuição beta, em que os parâmetros que.

(23) 23. indexam a densidade são modelados por estruturas de regressão. Contudo, os GCRBs são construídos baseados na inferência de máxima verossimilhança, a qual apresenta falta de robustez contra outliers, gerando estimativas errôneas em dados contaminados (GHOSH, 2017). Outliers são informativos e podem indicar alterações no processo que necessitam de maior atenção para identificar o motivo da ocorrência (WILCOX, 1998). No GCRB, a existência de outliers na etapa de estimação dos parâmetros e determinação dos limites de controle (Fase I) pode acarretar distorções nas taxas de alarme falsos. Na Fase I, um conjunto de dados do processo é coletado e analisado retrospectivamente, construindo limites de controle para determinar se o processo tem estado sob controle estatístico. Sobre estes limites de controle serão monitoradas a produção futura (MONTGOMERY, 2009). Entretanto, não identificar tais observações pode acarretar distorções, fazendo com que o modelo não represente nem o outlier e nem a massa de dados sob controle. Neste trabalho, será utilizado um função de ponderação, a qual não descarta as observações atípicas, mas o peso destinado a elas diminui a sua relevância na estimativa dos parâmetros. Assim, será proposto um GCRB baseado em estimadores robustos, os estimadores de máxima verossimilhança ponderada (EMVP) (FIELD; SMITH, 1994), tornando estes gráficos robustos a observações discrepantes e evitando suposições equivocadas de estabilidade do processo. 1.1. Objetivos e justificativa Para casos em que os dados são taxas ou proporções, a utilização de GCs baseados. na distribuição beta tem se mostrado adequada (SANT’ANNA, 2009; BAYER; TONDOLO; MÜLLER, 2018). Isso se deve a facilidade em acomodar a assimetria que esses dados habitualmente apresentam e a capacidade de gerar valores restritos ao intervalo (0, 1). Para trabalhar com dados do tipo fração relacionados à variáveis explicativas, a regressão beta foi apresentada. Contudo os estimadores de máxima verossimilhança (EMV) usuais utilizados nestes gráficos não são acurados na presença de observações discrepantes. Uma alternativa viável para evitar o prejuízo causado na interpretação dos resultados pela presença de outliers na Fase I do monitoramento de processos é a inferência robusta (JONES-FARMER et al., 2014). Essa abordagem torna os GCs versáteis, pois mesmo quando a amostra não contém outliers, mas a distribuição é assimétrica, a regressão robusta oferece um ganho substancial sobre as técnicas tradicionais (WILCOX, 1998). A técnica de ponderação dos EMVs é usada para obter estimativas robustas e com menor variância. Ao aplicar essa técnica.

(24) 24. nos estimadores dos GCRBs, espera-se que as estimativas dos limites de controle sejam menos sensíveis em dados contaminados com outliers. Considerando os problemas abordados, os objetivos dessa dissertação consistem em: • Auxiliar como fonte de pesquisa para trabalhos futuros e posteriores implementações computacionais relacionadas a estimação robusta e GCs; • Avaliar o desempenho de estimadores robustos dos parâmetros de regressão beta; • Utilizar a inferência robusta para propor GC para dados do tipo fração robustos a presença de outliers; • Comparar, via simulação de Monte Carlo, os gráficos de controle tradicionais com a proposta presente neste trabalho; • Demonstrar o desempenho dos gráficos propostos em dados reais.. 1.2. Estrutura do trabalho Esta dissertação está organizada da seguinte forma. O Capítulo 1 contém um descrição. geral do estudo realizado e dos objetivos abordados. O Capítulo 2 é composto de um revisão bibliográfica dos principais gráficos de controle, suas finalidades, assim como seus pontos positivos e limitações. O Capítulo 3 aborda a ideia principal do trabalho, inferência robusta, demonstrando como os EMVPs são obtidos e a construção dos gráficos de controle robustos. No Capítulo 4 encontram-se as avaliações numéricas dos estimadores e dos gráficos de controle usuais e propostos. O Capítulo 5 contém a aplicação em dados reais dos gráficos de controle. No Capítulo 6 encontram-se as conclusões do trabalho..

(25) 25. 2 GRÁFICOS DE CONTROLE. Dentro das ferramentas presentes no CEP, o gráfico de controle é uma das principais na detecção de anormalidades no processo, além de fornecer informações sobre a capacidade do mesmo. Ao realizar o monitoramento de um processo é preciso estar ciente que a variabilidade é um efeito existente em todos os processos (OAKLAND, 2007). O gráfico de controle serve para diferenciar a variabilidade natural da variabilidade gerada por algum distúrbio, ou seja, para identificar as causas comuns e as causas especiais dessa variação. Os primeiros gráficos de controle foram apresentados por Shewhart (1931). O gráfico de controle de Shewhart consiste de três linhas: duas linhas limitantes superior e inferiormente, denominadas, respectivamente, limite superior de controle (LSC) e limite inferior de controle (LIC) e uma terceira linha central (LC) refletindo o nível de operação do processo. A Figura 1 apresenta um exemplo do gráfico de controle de Shewhart.. LSC ● ●. ●. ●. ●. LC. ●. ●. ●. ●. ●. ●. ●. ●. ● ●. ●. ● ●. ●. ●. ●. ●. LIC. 8. Amostras 10 12 14 16 18 20 22. Figura 1: Exemplo de um gráfico de controle usual. 5. 10 15 Observações. 20. Sejam µ e σ, a média e o desvio padrão, respectivamente, de uma característica de qualidade. A construção do gráfico de controle de Shewart ocorre da seguinte forma: LSC = µ + Lσ, LC = µ, LIC = µ − Lσ, em que a constante L corresponde a distância dos limites até a linha central expressa em unida-.

(26) 26. des de desvio padrão. Ao construir os limites, inicia-se a análise das posições dos pontos, sendo que caso todos estejam entre os limites, é possível assumir que o processo está sob controle. No entanto, pontos fora dos limites fornecem evidências de que o processo se encontra fora de controle. Montgomery (2009) compara essa investigação a um teste de hipótese, assumindo como hipótese nula que o processo está sob controle e como hipótese alternativa que o processo está fora de controle. Baseado no teorema do limite central e supondo que os dados sejam independentes, utiliza-se, usualmente, L = 3, advindo da aproximação pela normal. Considerando o processo sob controle, ao utilizar este valor para L, a soma da probabilidade de um ponto exceder um dos limites é 0.0027 (0.27%), e a probabilidade deste ponto se encontrar dentro dos limite é 0.9973 (99.73%) (BERGQUIST; SÖDERHOLM, 2015). Essa definição de L = 3 é conhecida como a regra dos três sigmas dos limites de controle, a qual considera suspeito os pontos que ultrapassam essa medida. Valores menores para L aumentam a taxa de alarmes falsos. Enquanto que valores maiores expandem os limites, tornando o gráfico pouco restritivo e diminuindo a taxa de alarmes verdadeiros. Usualmente, para diagnóstico dos GCs, verifica-se o seu comprimento médio de corrida ou average run length (ARL). ARL é a média de pontos que devem ser plotados antes de algum ponto acusar a condição de fora controle (MONTGOMERY, 2009). O ARL0 representa o número de observações até que um alarme falso seja detectado quando o processo está sob controle. Para o processo fora de controle, denominado ARL1, representa o número de amostras observadas do processo até que um alarme verdadeiro seja detectado. Utilizando a regra dos três sigmas em um processo sob controle, espera-se um alarmes falso a cada 370 observações (BERGQUIST; SÖDERHOLM, 2015). É importante lembrar que os GCs não resolvem o problema, porém indicam se devemos e onde devemos procurar por uma solução. Quando algum ponto extrapola um dos limites, essa mudança pode significar três variações: a) mudança na média, sem alteração no parâmetro de dispersão (na extensão do processo); b) mudança no parâmetro de dispersão sem alteração na média; c) alteração na média e no parâmetro de dispersão (OAKLAND, 2007). Para dados que possuem boa aproximação pela distribuição normal, os gráficos de Shewhart mostram um bom desempenho em detectar moderadas e grandes mudanças no processo. No entanto, em conjuntos de dados mais assimétricos e com caudas mais pesadas do.

(27) 27. que a distribuição normal seu desempenho pode ser comprometido (FIGUEIREDO; GOMES, 2009). Um problema adicional a essas ocorrências é que, principalmente na indústria, existem processos nos quais a característica de qualidade é diretamente dependente de algumas variáveis de controle do processo, e tratar todas da mesma forma pode avariar o modelo. Nestes casos, recomenda-se o uso de GC que ajustem a influência das variáveis controle sobre a característica de qualidade por meio de um modelo de regressão (SANT’ANNA, 2009). 2.1. Gráficos de controle de regressão linear. O termo regressão foi utilizado pioneiramente por Francis Galton em um de seu estudos para analisar a relação das alturas entre pais e filhos. Amplamente utilizado para compreender a relação entre variáveis, o modelo de regressão linear é uma das ferramentas mais importantes na análise de dados (STANTON, 2001). Ao modelarmos a relação entre uma característica yt e k variáveis controle, temos o modelo de regressão linear múltipla: yt = β0 + β1xt1 + β2xt2 + · · · + βkxtk + ǫt,. t = 1, . . . , n,. em que xt1, . . . , xtk são as variáveis controle, constantes conhecidas, e os parâmetros β0, . . . , βk são denominados coeficientes de regressão parcial. Estes parâmetros recebem essa nomenclatura pois, por exemplo, β1 representa a variação que x1 causa em y, quando as outras variáveis permanecem constantes. Sobre ǫt, denominado erro aleatório, assume-se que segue a distribuição normal com valor esperado igual a zero (E(ǫt) = 0), variância constante (V ar(ǫt) = σ2), e que também é independentemente distribuído. Baseado nos modelos de regressão linear foram estruturados os gráficos de controle de regressão linear (GCRL) (MANDEL, 1969), úteis para monitorar processos em que a característica de interesse é influenciada por variáveis explicativas, ou variáveis controle. Os gráficos de controle de regressão foram mencionados pela primeira vez na literatura por Dipaola (1945). Apesar da complexidade ao comparar com os gráficos de controle convencionais, estes gráficos são capazes de modelar a variação determinística de yt. Seus limites são paralelos à curva de regressão e não ao eixo das abscissas (MANDEL, 1969). A construção do GCRL é semelhante à dos GCs usuais, porém a linha central é representada pela curva construída pela equação da regressão linear ajustada aos dados. Os limites.

(28) 28. de controle são dados por: LSCt = yˆt + Lσˆ , LCt = yˆt, LICt = yˆt − Lσ ˆ, em que yˆt = βˆ0 + βˆ1 xt1 + · · · + βˆk xtk , βˆ, com j = 0, 1, . . . , k, são as estimativas de βj e σ ˆé a estimativa do desvio padrão. O L, assim como nos GCs usuais, é a distância dos limites até a linha central expressa em unidades de desvio padrão. Embora GCRLs sejam uma ferramenta útil, não é possível aplicá-los a todos os tipos de dados e obter resultados confiáveis. Utilizar modelos lineares para dados do tipo taxas e proporções, por exemplo, pode originar valores preditos fora do intervalo (0, 1), não fazendo sentido físico e comprometendo o desempenho dos GCs. Além disso, em geral, as variáveis unitárias apresentam características assimétricas e a distribuição normal não acomoda esse tipo de comportamento. 2.2. Gráfico de controle para taxas e proporções Apesar de muitos estudos avaliarem observações dentro do intervalo padronizado, é im-. portante definir a terminologia dessas variáveis. A Tabela 2.1 expressa a terminologia utilizada por Sant’Anna e Ten Caten (2012), embora a distribuição beta também seja uma boa aproximação para porcentagens (KIESCHNICK; MCCULLOUGH, 2003). Além dos casos apresentados por Sant’Anna e Ten Caten, também podemos encontrar dados estritamente contínuos, como escores de eficiência (HINKLEY; COX, 1979). Tabela 2.1: Terminologia apresentada por Sant’Anna e Ten Caten Termos. Categoria Porcentagem. Dados em fração Proporção. Formato. Exemplo. Discreta Discreta Contínua Contínua. no de itens defeituosos no total de itens Quantidade investigada Quantidade total. Distribuição adequada Binomial Beta. Durante um bom tempo, a melhor opção para trabalhar com dados do tipo fração era o gráfico p. Proposto por Shewhart para itens não-conformes, o gráfico p também considera a.

(29) 29. aproximação pela distribuição normal para a distribuição binomial. Seus limites são dados por: LSC = p + 3. . p(1 − p). ,. n LC = p,. . p(1 − p) LIC = p − 3 , n em que n é o tamanho da amostra e p é a proporção de não-conformidades no processo. Contudo, com o avanço nas linhas de produção, as proporções se tornaram cada vez menores, tornando o desempenho do gráfico p inadequada. Quando os valores de p são pequenos, a distribuição binomial é altamente assimétrica e ao utilizar a aproximação pela normal a taxa de alarmes falsos aumenta consideravelmente (JOEKES; BARBOSA, 2013). Além do problema da assimetria, dependendo dos valores de n e p, podem ocorrer valores externos dos limites de controle no intervalo (0, 1). Para resolver estes problemas, Sant’Anna e Ten Caten (2012) propuseram o gráfico de controle beta para monitorar variáveis nos dados apresentados em taxas ou proporções, limitadas no intervalo (0, 1). Sendo y uma variável aleatória com distribuição beta, sua função densidade de probabilidade (FDP) é dada por:. Γ(θ1 + θ2) θ1−1 y (1 − y)θ2−1, 0 < y < 1, (2.1) Γ(θ )(θ ) 1 2 ∫ em que θ1 > 0, θ2 > 0 e Γ(·) é a função gama, na qual Γ(z) = tz 1 e dt. O valor esperado f (y; θ1, θ2) =. ∞ 0. −. −t. e a variância de y podem ser obtidos, respectivamente, através de: E(y) =. V ar(y) =. θ1 θ1 + θ2. ,. θ1θ2. . (θ1 + θ2)2(θ1 + θ2 + 1). (2.2). (2.3). Os limites do GCB são construídos da seguinte forma (SANT’ANNA; TEN CATEN, 2012): LSC = p¯ + w2. √. s2 (p¯),. LC = p¯,. (2.4). √ LIC = p¯ − w1 s2 (p¯), em que p¯ e s2 (p¯) são a média e a variância, respectivamente, da fração que está sendo monitorada. Os valores das constantes w1 e w2 podem ser determinados através das seguintes equações.

(30) 30. (SANT’ANNA; TEN CATEN, 2012): p¯ − Q([α/2], θ1 , θ2 ) , √ 2 s (p¯) Q([1 − α/2], θ1 , θ2 ) − p¯ √ , w2 = s2 (p¯) w1 =. (2.5). em que Q é a função quantil da distribuição beta de parâmetros θ1 e θ2. Contudo, podemos reescrever os limites (2.4) substituindo pelas constantes (2.5), obtendo os seguintes limites: LSC = Q([1 − α/2], θ1 , θ2 ), LIC = Q([α/2], θ1 , θ2 ), em que, na prática, θ1 e θ2 também podem ser substituídos por suas estimativas de máxima verossimilhança. Dentro dos GC para taxas e proporções, o recente trabalho de Lee Ho, Fernandes e Bourguignon (2018) considera outros GCs alternativos ao GCB, baseados nas distribuições simplex e gama unitária. Considerando a taxa de alarmes falsos fixo α, os limites de probabilidade para o GC beta são obtidos da seguintes forma (LEE HO; FERNANDES; BOURGUIGNON, 2018): ∫ 1 f (y|µ0B , φ0 ) = α/2 (2.6) P (y > LSC|µ0B, φ0) = LSC ∫ LIC P (y < LIC|µ0B , φ0 ) = f (y|µ0B , φ0 ) = α/2, 0. em que µ0B =. θ1 e φ (θ +θ )1 0. = θ1 + θ2 são, respectivamente, a média da proporção e o parâmetro. 2. da dispersão em controle do gráfico beta e de f (y|µ0B, φ0) expresso em (2.1). Os outros dois GC podem ser obtidos analogamente substituindo a distribuição; para mais detalhes ver (LEE HO; FERNANDES; BOURGUIGNON, 2018). Os gráficos de controle beta são capazes de monitorar dados de fração, mesmo para valores pequenos e facilmente acomodam assimetria dos dados, além de não predizerem valores negativos, nem maiores que um. Contudo, estes GCs não são capazes de incorporar variáveis controle, tornando-se necessária outra abordagem quando yt é influenciada por variáveis explicativas. 2.3. Gráfico de controle de regressão beta com dispersão constante Para incorporar variáveis explicativas que possuem relação com a variável resposta,. usualmente utilizada-se a regressão linear. Contudo, em dados restritos ao intervalo (0, 1), a.

(31) 31. regressão linear pode gerar valores fora deste intervalo. Embora exista a possibilidade de transformarmos a variável reposta, a assimetria normalmente apresentada por esse tipo de dado, torna a suposição de normalidade inadequada (FERRARI; CRIBARI-NETO, 2004). A modelagem apropriada destes dados em fração relacionados à variáveis explicativas pode ser realizada através do modelo de regressão beta proposto por Ferrari e Cribari-Neto (2004). Sendo µ = θ1/(θ1 + θ2) e φ = θ1 + θ2, a partir das Equações (2.2) e (2.3), obtemos: E(y) = µ, V ar(y) =. V (µ) 1 +φ. ,. em que V (µ) = µ(1 − µ), µ é a média da característica de interesse e φ pode ser interpretado como parâmetro de precisão. Com essa parametrização, a densidade beta é dada por: f (y; µ, φ) =. Γ(φ) Γ(µφ)Γ((1 − µ)φ). yµφ−1(1 − y)(1−µ)φ−1, 0 < y < 1,. (2.7). no qual 0 < µ < 1 e φ > 0. Sejam y1, . . . , yn variáveis aleatórias independentes em que cada yt, t = 1, . . . , n, segue a densidade da Equação (2.7) com média µt e parâmetro de precisão desconhecido φ. O modelo é obtido ao assumir que a média de yt pode ser escrita como: g(µt) =. r Σ. xtiβi = ηt,. i=1. em que β = (β 1, . . . , βr )⊤ é um vetor de parâmetros desconhecidos e xt1, . . . , trx são as observações de r variáveis controle fixas e conhecidas e g(·) é a função de ligação estritamente monótona e duas vezes diferenciável, com domínio (0, 1) e imagem nos R. Para a função de ligação existem vários opções, como logit, probit, log-log, log-log complementar, Cauchy ou ainda funções de ligação paramétricas (CANTERLE; BAYER, 2017). Sant’Anna (2009) propôs o gráfico de controle de regressão beta (GCRB) ao monitorar os resíduos deviance gerados pelo método de estimação de máxima verossimilhança dos parâmetros do modelo de regressão beta. O resíduo deviance é dado por: 1. rt = sign(yt − µˆt ) {2(ℓt (yt , σˆ ) − ℓt (µˆt , σ ˆ ))} 2 , em que ℓt (yt , σˆ ) e ℓt (µˆt , σˆ ) são, respectivamente, as contribuições para a função de log-verossimilhança das observações de yt e das estimativas µˆt . A quantidade ℓt (µˆt , σ ˆ ) é definida em (2.12)..

(32) 32. Ao construir o GCRB, a linha central é representado pela média dos resíduos r¯t e os limites calculados a partir da variância amostral dos resíduos s2(rt), da seguinte forma: √ LSCt = r¯t+ L s2(rt), LCt = r¯t , √ LICt = r¯t− L s2(rt), em que L é a constante que define a largura dos limites de controle. O GC proposto por Sant’Anna se mostra superior aos gráficos usuais no monitoramento de taxas e proporções, porém o mesmo ainda considera a dispersão constante. 2.4. Gráfico de controle de regressão beta com dispersão variável Para obter inferências mais precisas sobre os parâmetros de regressão da média, estrutu-. ras para a dispersão foram inseridas no modelo de regressão beta (SMITHSON; VERKUILEN, 2006; SIMAS; BARRETO-SOUZA; ROCHA, 2010). A inclusão desse submodelo para o parâmetro de precisão reduziu o viés dos EMVs e também possibilitou trabalhar naturalmente a heterocedasticidade dos dados. Cribari-Neto e Souza (2012) reparametrizaram esses modelos utilizando um parâmetro de dispersão ao invés do parâmetro de precisão. Considerando essa reparametrização, assumese que y é beta distribuído com média µ e um parâmetro de dispersão σ, no qual µ = σ2 =. 1 , em que θ1 1+θ +θ1 2. 2. 2 = µ( 1−σ σ2 ) e θ2 = (1 − µ )(. 2 1−σ σ2 ).. θ1 e θ +θ1 2. A função densidade de probabili-. dade pode ser escrita como: f (y; µ; σ) =. 2 Γ( 1−σ σ2 ). 2 Γ(µ( 1−σ σ2 ))Γ((1 − µ)(. 1−σ2 σ2. )). y. µ(. 1−σ2 )−1 σ2. (1−µ)(. (1 − y). 1−σ 2. σ2. )−1. , 0 < y < 1, (2.8). em que 0 < µ < 1 é a média e 0 < σ < 1 é interpretado como um parâmetro de dispersão, pois quanto maior seu valor, menor é a variância de y. A esperança e a variância de y são obtidas por: E(y) = µ, V ar(y) = µ(1 − µ)σ2. A função de distribuição acumulada de y, ou seja, . . Σ ∫ y . 2 ΣΣ 1 − σ2 1 − σ f (u; µ, σ)du = F y; u , F(y; µ, σ) = , (1 − µ) σ2 0 σ2. (2.9).

(33) 33. não possui forma fechada. A função quantil é dada por Q(α; µ, σ) = F−1(α; µ, σ). Sendo y1, . . . , yn variáveis aleatórias independentes, em que cada yt, t = 1, . . . , n, segue a densidade da Equação (2.8) com média µt e parâmetro desconhecido de dispersão σt, o modelo de regressão beta com dispersão variável (CRIBARI-NETO; SOUZA, 2012) é dado por: g(µt) =. r Σ. xtiβi = η1t,. (2.10). i=1. em que β = (β 1, . . . , βr )⊤ é um vetor de parâmetros desconhecidos e xt1, . . . , trx são as observações de r variáveis controle fixas e conhecidas e g(·) é a função de ligação estritamente monótona e duas vezes diferenciável, com domínio (0, 1) e imagem nos R. O submodelo para explicar a dispersão variável é dado por: h(σt) =. s Σ. ztjγj = η2t,. (2.11). j=1. em que γ = (γ 1, . . . , γ s)⊤ é um vetor de parâmetros desconhecidos, t1z , . . . , zts são observações de s covariáveis (s < n − r) e h(·) ›→ é a função de ligação estritamente crescente e duplamente diferenciável,com domínio (0, 1) e imagem nos R (CRIBARI-NETO; SOUZA, 2012). Baseado na reparametrização apresentada por Cribari-Neto e Souza (2012), Bayer, Tondolo e Müller (2018) propuseram o GCRB baseado nos quantis desta distribuição. O GCRB proposto por Bayer, Tondolo e Müller (2018) visa monitorar dados do tipo fração, nos quais as variáveis controle afetam a média e a dispersão. Para uma região de controle 1 − α associada ao comprimento médio de corrida sob controle ARL0 = 1/α, seus limites são definidos por: LICt = Q(α/2; µt , σt ), LSCt = Q(1 − α/2; µt , σt ), Σ Σ em que µt e σt são obtidos por µt = g−1( ri=1 xti βi) em (2.10) e σt = h−1( sj=1 ztj γj) em (2.11) e α é a probabilidade de ocorrerem falsos alarmes. Para as estimativas de µ e σ são considerados os estimadores de máxima verossimiΣ Σ lhança, sendo µˆt = g−1 ( ri=1 xtiβî) e σˆt = h−1 ( sj=1 ztj γˆj ) suas estimativas, em que βˆ e γ ˆ são os EMVs de β e γ, respectivamente. Os EMVs de β e γ são obtidos pela maximização da função de log-verossimilhança. Baseada em uma amostra de n observações independentes, a função de log-verossimilhança é: ℓ(β, γ) =. n Σ t=1. ℓt(µt, σt),.

(34) 34. em que 2Σ t 1−. . . . . 2 ΣΣ 2 ΣΣ 1 − 1− t t ℓt(µt, σt) = log Γ t2 − log Γ µt σ − log Γ (1 − µ) σ 2 2 t t (2.12) σ σ Σσ .σ Σ Σ Σ Σ . Σ 2 2 t 1− t 1− + µt (1 − µ log y + t) t − 1 − 1 log(1 − yt). σt2 σt2 σ σ Os EMVs possuem boas propriedades assintóticas, porém apresentam uma sensibilidade .. alta à valores aberrantes (GHOSH, 2017). A contaminação dos dados, mesmo que pequena, pode alterar drasticamente as estimativas provenientes dos EMVs e por consequência, no desempenho do GC associado. Neste sentido, podem ser considerados estimadores robustos à outliers na Fase I, tornando a determinação dos limites de controle mais acurada, impedindo interpretações e conclusões equivocadas..

(35) 35. 3 GRÁFICOS DE CONTROLE DE REGRESSÃO BETA ROBUSTOS. Ao assumir um determinado modelo distribucional existem observações que apontam um padrão diferente, ou não apontam nenhum padrão considerável. Este valor extremo que se apresenta distante da massa de dados é chamado outlier (MARONNA; MARTIN; YOHAI, 2006). Usualmente o desempenho dos GCs em amostras contaminadas por esses valores aberrantes é prejudicada. Nesse sentido, faz-se necessário utilizar inferência robusta na construção dos limites de controle na Fase I, para que posteriormente (na Fase II) esse GC seja capaz de identificar essas observações discrepantes. Rocke (1989) explica a diferença entre resistência à outliers e robustez. Resistência à outliers é um termo neutro que indica que uma estatística não é substancialmente alterada na presença de outliers. A mediana é um exemplo clássico de estatística resistente à outliers. Por outro lado, robustez significa que determinado procedimento ainda é capaz de desempenhar sua finalidade mesmo se as suposições em que foi desenvolvido sejam ligeiramente incorretas. Dentre os trabalhos referentes à gráficos de controle robustos estão as versões robustas ¯ e R apresentados por Rocke (1989). Schoonhoven e Does (2013) dos tradicionais gráficos X ¯ robusto, no qual utilizam a tri-média (média truncada) propuseram o gráfico de controle X no intervalo interquartil para identificar dados fora de controle na Fase I. Croux et al. (2011) utilizaram os erros de previsão do método de Holt-Winters, amplamente utilizado para séries com tendência e correlação serial, para construção de um gráfico de controle robusto. Para resolver o problema de detecção de outliers, Alfaro e Ortega (2009) comparam várias versões da estatística T 2 de Hotelling com estimadores diferentes para estimação dos parâmetros. Para monitorar a variabilidade dos processos, Chenouri et al. (2009) propuseram o gráfico de controle multivariado robusto para observações individuais. De modo geral, a ideia principal de gráficos de controle robustos consiste em utilizar estimadores com técnicas capazes de identificar e tratar as observações extremas. Os procedimentos estatísticos robustos usualmente são baseados em duas ideias principais. A primeira abordagem consiste em substituir procedimentos inferenciais usuais por métodos que considerem distribuições com caudas mais pesadas (LANGE; LITTLE; TAYLOR, 1989; HAHN, 2008). Na segunda alternativa desenvolve-se estimadores que consideram funções de influência como forma de serem menos afetados por outliers (HUBER, 1964; HAMPEL et al., 2011). Funções de influência demonstram mais eficácia em limitar a interferência de outliers (HUBER,.

(36) 36. 2011). Uma versão desses estimadores são os EMVPs (FIELD; SMITH, 1994). Os EMVPs aparecem na literatura quando há necessidade de diminuir o papel de algumas das observações, a fim de balancear o viés com a precisão. Hu e Zidek (2002) propõem seus próprios EMVPs utilizando a seleção dos pesos baseado no critério de máxima entropia de Akaike para ajustar o viés quando há tendência temporal nas observações. Já Blasques et al. (2016) utilizam os EMVPs para a previsão das principais variáveis macroeconômicas ou financeiras de um painel de séries temporais. Deledalle, Denis e Tupin (2009) os utilizam na filtragem de imagem. Ng et al. (2012) os usam para estimar os parâmetros da distribuição Weibull. Para resolver o problema de robustez da distribuição exponencial, Ahmed, Volodin e Hussein (2005) propuseram um EMVP específico do tipo α tri-média. Em regressão, Carrol e Pederson (1993) apresentaram um modo simples de ponderar as observações com alta alavancagem no modelo de regressão logística. Contudo, com relação ao problema de robustez dos modelos de regressão beta, os únicos trabalhos relacionados pertencem a Bayes (2012) e Ghosh (2017). Bayes et al.(2012) utilizaram inferência bayesiana através de uma distribuição modificada, a beta retangular, uma mistura das distribuições beta e uniforme. No entanto, essa abordagem não resolve o problema dos EMVs no modelo específico da regressão beta. Já Ghosh (2017) propôs estimadores robustos de divergência de força de densidade mínima, além de testes robustos do tipo Wald, melhorando as inferências na presença de outliers. No entanto, esses estimadores dependem da correta escolha de um parâmetro de especificação. A utilização dos modelos de regressão beta é adequada quando a variável de interesse é contínua, limitada no intervalo (0, 1) e relacionada com outras variáveis por uma estrutura de regressão. Além disso, a estimação desses modelos é usualmente feita por EMVs, os quais são afetados por outliers (NGUYEN; WELSCH, 2010). Neste cenário, a proposta deste trabalho é apresentar duas opções de ponderação para os EMVs para correção do problema de robustez e os utilizar para definir gráficos de controle robustos.. 3.1. Estimadores de máxima verossimilhança ponderada. Neste trabalho, a função de log-verossimilhança receberá uma ponderação denominada vetor peso, definida por w = (w1, . . . , wn)⊤. O vetor w é considerado conhecido, mas será.

(37) 37. melhor discutido na Secção 3.1.2. A função de log-verossimilhança ponderada passa a ser: ℓw(β, γ) =. n Σ. wtℓt(µt, σt),. t=1. em que 2Σ t 1−. . . . . 2 ΣΣ 2 ΣΣ 1 − 1− t t µ ℓt(µt, σt) = log Γ − log Γ t σ − log Γ (1 − µ)σ 2 2 2 t t t σ σ Σσ .σ Σ Σ Σ . 2Σ 2Σ t 1− t 1− + µt − 1 log yt + (1 − µt) − 1 log(1 − yt). 2 2 σt σt σ σ Tomando as derivadas de ℓw(β, γ) em relação a β e γ temos o vetor escore ponderado .. U (β, γ) = (Uβ(β, γ) ⊤ , Uγ (β, γ) ⊤) ⊤. A função escore ponderada para i = 1, . . . , r de βi é dada por. em que ∂µt = ∂η1t. 1. n ∂ℓw(β, γ) Σ ∂ℓt(µt, σt) ∂µt ∂η1t = wt ∂βi ∂η1t ∂βi , µt t=1. e. g′(µt). 2 ∂ℓt(µt, σt) = 1 − σt (y ∗− µ ∗), t t ∂µt σt2. com y∗ = log yt e t. 1−yt. . Σ 2 1 − σt ∗ µ µ =ψ t σt2 em que ψ(·) é a função digama. Logo, ∂ℓ(β, γ) = ∂β i. Σ 2 1−σ t − ψ (1 − µt) 2 σt .. n. Σ t=1. ,. 2. 1−σ 1 w t σ 2 t (y∗t − µt∗)g′(µt) x ti. t. Podemos escrever o vetor Uβ(β, γ), em forma matricial, como Uβ(β, γ) = X⊤WΣT(y∗ − µ∗), em que X é uma matriz n × r de observações da variável a qual é assumida ser , 2 explicativa, , 2 1−σ = diag {w1, . . . , wn}, 1 n fixa e conhecida, cuja t-ésima linha é xt, Σ = diag 1−σ 2 σ12 , . . . σ n ,W , , y∗ = (y∗ y∗)⊤, T = diag g′ (µ11) , . . . , g1′(µn)e µ∗ = (µ∗, 1. . . , µ∗ n)⊤. 1, ...,n Ao considerar as derivadas em relação aos parâmetros que modelam a dispersão, γj, j = 1, . . . , s, temos. ∂σt = em que ∂η 2t. n ∂ℓw(β, γ) Σ ∂ℓt(µt, σt) ∂σt ∂η2t = wt , ∂γj ∂σt ∂η2t ∂γj t=1. 1 h′(σt). e . . Σ ΣΣ Σ 2 − ψ (1 − µ ) 1 − σ2 ∂ℓt(µt, σt) 2 µ (y∗ − µ∗) + log(1 − y ) + ψ 1 − σ =− σ σ t σ t ∂σj . t t t t t 3 2 2 t. t. t.

(38) 38. Então,. n ∂ℓ(β, γ) Σ = wa ∂γj t=1 tt. em que a=− 2 σ t. 3 t. Σ. µ (y∗ − µ∗) + log(1 − y ) + ψ t. t. t. t. .. 1 h′(σ t). 1− σ. σ2. z, tj. Σ. t. . − ψ (1 − µ ) 1 − σ2 σ t t. 2 t. 2 t. ΣΣ .. Podemos escrever o vetor Uγ (β, γ), matricialmente como Uγ (β, γ) = Z⊤WHa, em que Z é uma matriz n × s de observações da variável explicativa, a qual é assumida ser fixa , , 1 1 e conhecida, cuja t-ésima linha té z , H = diag , . . e a = (a1 , . . . , na )⊤. ′. , ′ h (σn) h (σ1 ) Igualando o vetor escore ponderado a um vetor de zeros, .. Uβ(β, γ) = 0. ,. Uγ (β, γ) = 0 e resolvendo o sistema, obtém-se os EMVP, dados por: ^ γ) (β, ^ = arg max ℓw(β, γ), Θ. em que Θ é o espaço paramétrico de (β, γ). Assim como os EMV, a solução desse sistema não possui forma analítica fechada, sendo assim maximizada através de métodos numéricos. Neste trabalho será utilizado o algoritmo de otimização não-linear BFGS (NOCEDAL; WRIGHT, 1999) com primeiras derivadas analíticas. 3.1.1. Distribuição assintótica dos EMVP Sob condição usuais de regularidade os EMVPs são assintoticamente equivalentes aos. EMVs (HU; ZIDEK, 2002; FIELD; SMITH, 1994), assim, Σ . Σ . 1 ^ β β , K− , ∼N γ γ ^ em que K é a matriz de informação co njunta de Fisher que, na prática, é avaliada nas estimativas robustas. A matriz de informação conjunta para o vetor (β, γ) é dada por (CRIBARI-NETO; SOUZA, 2012) . K = K(β, γ) =. K(β,β) K(β,γ) K(γ,β) K(γ,γ). Σ ,.

(39) 39. em que K(β,β) = X⊤ΣVX, K (β,γ) = (K (γ,β) )⊤ = X⊤CTHZ e K(γ,γ) = Z⊤DZ. Ainda, temos que V = diag{v1, . . . , vn}, C = diag{c1, . . . , cn} e D = diag{d1, . . . , dn}, em que Σ . Σ . ΣΣ (1 − σ2t ) µt (1 − σ 2 ) (1 − µt )(1 − σ 2 ) 1 vt = ′ t 2 2 t 2 ′ ψ ′ +ψ σt σt σt [g (µt)]2 , Σ . Σ . ΣΣ 2t − µt ψ′ µt (1 −2 σ 2t ) , (2 − 2σt2) (1 − µt )ψ′ (1 − µt )(1 2 −σ ) ct = σt σt 5 Σσt . Σ . Σ . ΣΣ 2 2) 4 2 ′ µt (1−σ 2t ) (1−µ (1−σ 1 t t )(1−σ t ) 2 ′ ′ µ ψ + (1−µ t) ψ −ψ dt = 6 t , 2 2 2 ′ σt σt σt [h (σt)]2 σt e ψ′ (·) é a função trigama. ⊤ ⊤ Considerando θ^ = (β^ , γ ^ )⊤ , o intervalo de confiança de Wald (PAWITAN, 2001) é definido por : ^); θ ^ + Φ −1 (1 − α/2)se(θ)], ^ − Φ−1 (1 − α/2)sê(θ ^ ^ [θ ^ é dado por sê(θ ^) = [diag(c^ ^))] em que o erro padrão de θ ov(θ. 1/2. ^) = K , sendo c^ ov(θ. −1. ^) a (θ. ^ Φ−1 é a função quantil da distribuição normal matriz de variância e covariância assintótica de θ, padrão e α é o nível de significância do intervalo de confiança. Para o teste hipótese, considera-se a hipótese nula H0 : θ = θ0 e a hipótese alternativa H1 : θ ƒ= θ0, em que θ0 será comparado com ^θ. Assim, o teste de Wald pode ser utilizado com base na seguinte estatística (PAWITAN, 2001): 0 ^ z = θ−θ . sê(θ^). Considerando que z tem assintoticamente distribuição normal padrão sob H0, o teste pode ser realizado comparando a estatística z com os quantis usuais da distribuição normal padrão. 3.1.2. Definição do vetor peso A robustez dos EMVPs é obtida a partir da inserção do vetor peso w. Este vetor é capaz. de ponderar as observações extremas. Usualmente a função escore é ilimitada, fornecendo estimativas não-robustas. A função de ponderação limita a função escore, considerando apenas o supremo de cada função escore sobre a área central, definida por (1 − 2p)% da distribuição de y, em que p é o peso definido. Logo, a função escore fora da área definida é ponderada para evitar exceder o supremo (FIELD; SMITH, 1994). A função de ponderação wi de Field e Smith (1994) é dada por:.

(40) 40. F (yt; µ, σ)/p wt =. 1. se F (yt; µ, σ) < p se p ™ F (yt; µ, σ) ™ 1 − p ,. (3.1). (1 − F (yt; µ, σ))/p se F (yt; µ, σ) > 1 − p em que F é a função de distribuição acumulada de y, µ e σ serão substituídos por suas respectivas estimativas obtidas através do método usual de máxima verossimilhança. Baseado no trabalho de Field e Smith (1994) e após extensivos estudos de simulação, será utilizado o valor de p = 0.001 para construção do vetor peso w, considerando como área de cauda valores menores que 0.001 e maiores que 0.999. Deste modo, valores que se encontram na região de cauda serão suavemente ponderados. Esses estimadores serão denominados de estimadores de máxima verossimilhança ponderados do tipo 1 (EMVP1). Denominado estimador de máxima verossimilhança ponderados do tipo 2 (EMVP2), o segundo estimador considera o EMVP1 com a adição de um método iterativo. O método iterativo é descrito da seguinte forma: 1. As estimativas de µ e σ são obtidas pelo método usual de máxima verossimilhança; 2. A função peso é obtida como em (3.1); 3. O produto entre a log-verossimilhança e a função peso é maximizada, obtendo os EMVP; 4. Caso a diferença percentual máxima entre as estimativas do item 1 e do item 3 sejam inferiores a 1%, as estimativas do item 3 serão o EMVP2. 5. Caso contrário, se a diferença percentual máxima se encontra igual ou superior a 1%, as estimativas do item 3 atualizam o item 1 e o procedimento é repetido até a diferença ser inferior a 1%. Os estimadores EMVP1 e EMVP2 serão utilizados na construção dos limites dos gráficos de controle robustos. Os gráficos de controle robustos que utilizarem os EMVP1 e EMVP2 serão denominados gráfico de controle de regressão beta robusto 1 e (GCRBR1) e gráfico de controle de regressão beta robusto 2 (GCRBR2), respectivamente. 3.2. Estimação dos limites de controle robustos A partir do modelo de regressão beta com dispersão variável de Cribari e Souza (2012). serão substituídas as estimativas do EMV pelas do EMVP e estabelecidos os limites de con-.

(41) 41. trole robustos. Neste trabalho, são consideradas duas abordagens para determinar os limites de controle. Primeiramente, o quantil das distribuição acumulada será considerado na estrutura do GC como realizado em Bayer, Tondolo e Müller (2018). A segunda abordagem é baseada na utilização de três resíduos, quais sejam: quantílico, ordinário padronizado e deviance. Sendo assim propostos e analisados os desempenhos de quatro gráficos de controle. 3.2.1. Limites de controle baseados no quantis Baseado no GCRB proposto em Bayer, Tondolo e Müller (2018), a primeira abordagem. consiste em determinar os limites de controle baseados nos quantis da distribuição acumulada de y no modelo de regressão beta. Desse modo, os limites de controle baseado no quantis são dados por: L^ SC = Q(1 − α/2, µ , σ ), ^t ^t t L^ C = µ^t , Lˆ ICt = Q(α/2, µ^t , σ^t ), em que α é a probabilidade de alarmes falsos fixada, µ^t e σ^t são obtidos pela estrutura de Σ Σ s ^t ti i i=1 t 1 1 − k ^ − regressão da média µ = g ( x β ) em (2.10) e pela dispersão σ^ = h ( i=1 ztj γ ^j ) em (2.11). Os EMVPs são utilizados para obter as estimativas de β e γ, denominados β ê γ,^ respectivamente. 3.2.2. Limites de controle robustos baseados nos resíduos É comum, na literatura, considerar os resíduos na construção de GC em modelos, uma. vez que estes são usualmente não-correlacionados e identicamente distribuídos (LOREDO; JEARKPAPORN; BORROR, 2002; JEARKPAPORN et al., 2005). Desse modo, adicionalmente à proposta de limites de controle determinados diretamente dos quantis, os GCRBR1 e GCRBR2 também podem ser aplicados nos resíduos. Serão considerados três resíduos diferentes na construção dos limites de controle dos GCRBR residuais, nos quais a estimação dos parâmetros pode ser obtida por EMV, EMVP1 ou EMVP2. Primeiramente será considerado o resíduo quantílico, devido ao seu satisfatório desempenho em modelos de regressão beta (PEREIRA, 2017). Em adição, espera-se que ambos os GCs baseado nos quantis e no resíduo quantílico apresentem os mesmo resultados, uma vez.