• Nenhum resultado encontrado

TÉCNICA NÃO PARAMÉTRICA PARA ESTABELECER VALORES LIMITE EM GRÁFICOS DE CONTROLE APLICADOS EM DADOS DE INSTRUMENTAÇÃO DE BARRAGEM

N/A
N/A
Protected

Academic year: 2021

Share "TÉCNICA NÃO PARAMÉTRICA PARA ESTABELECER VALORES LIMITE EM GRÁFICOS DE CONTROLE APLICADOS EM DADOS DE INSTRUMENTAÇÃO DE BARRAGEM"

Copied!
18
0
0

Texto

(1)

COMITÊ BRASILEIRO DE GRANDES BARRAGENS XXX SEMINÁRIO NACIONAL DE GRANDES BARRAGENS FOZ DO IGUAÇU – PR, 11 A 13 DE MAIO DE 2015

Reservado ao CBDB

TÉCNICA NÃO PARAMÉTRICA PARA ESTABELECER VALORES LIMITE EM GRÁFICOS DE CONTROLE APLICADOS EM DADOS DE INSTRUMENTAÇÃO DE

BARRAGEM LAZZAROTTO, E.

Mestre – Universidade Estadual do Oeste do Paraná – Campus de Foz do Iguaçu GRAMANI, L.M.

Pós-Doutora – Universidade Federal do Paraná CHAVES NETO, A.

Doutor – Universidade Federal do Paraná COELHO, D.P.

Engenheiro – Itaipu Binacional Resumo:

No monitoramento da saúde estrutural de uma barragem, uma série de instrumentos é usada para avaliar o comportamento da barragem com o passar do tempo.

Gráficos de controle univariados e multivariados são ferramentas estatísticas muito utilizadas para o monitoramento de variáveis de qualidade de interesse, sobretudo quando estas são correlacionadas. É necessário estabelecer valores limite ou valores de controle com base no período operacional para avaliar a segurança de uma barragem. Este trabalho busca estabelecer valores de controle para um instrumento localizado na usina de Itaipu com base no método não paramétrico bootstrap que independe de hipóteses restritivas como a normalidade dos dados e comparar os resultados com gráficos de controle tradicionais para avaliar a taxa de falsos alarmes.

Abstract:

In the monitoring the structural health of a dam, a series of instruments is used to evaluate the reservoir behavior over time. Univariate and multivariate control charts are statistical tools widely used for monitoring quality variables of interest, especially when they are correlated. It is necessary to establish limit values or control values based on the operating period to assess the safety of a dam. This work aims to establish control values for an instrument located in the Itaipu power plant based on nonparametric bootstrap method that is independent of restrictive assumptions such as normality of the data and compare the results with traditional control charts to evaluate the rate of false alarms.

(2)

1. INTRODUÇÃO

Quando se deseja usar gráficos de controle para monitorar estatisticamente a qualidade de um processo consistindo de uma ou várias variáveis, os procedimentos mais tradicionais de construção de gráficos de controle, como gráficos de Shewhart univariados e gráficos 𝑇2 para controle multivariado, algumas hipóteses são exigidas sobre as variáveis do processo, por exemplo, que não haja autocorrelação e que elas possuam distribuição normal uni ou multivariada.

A hipótese de normalidade pode ser de difícil verificação ou não ser realmente verdadeira. Neste caso, [1] afirma que o desempenho do gráfico de controle cai tanto na taxa de falsos alarmes quanto na habilidade de detectar mudanças na característica de qualidade que está sendo avaliada e propõe a utilização de procedimentos não paramétricos ou livres de distribuição, estes têm a vantagem de não requerer nenhuma hipótese sobre a distribuição dos parâmetros.

Recentemente, [2] e [3] desenvolveram gráficos de controle não paramétricos das componentes principais, que transformam um conjunto de variáveis correlacionadas num conjunto de variáveis não correlacionadas com o objetivo de reduzir falsos alarmes em gráficos de controle multivariados. Como a hipótese de normalidade multivariada é exigida para obtenção de limites de controle para os gráficos, o uso de técnicas não paramétricas como bootstrapping e kernel density estimation (KDE) é proposta para estabelecer limites de controle e comparações de desempenho de gráficos através de simulações.

Foi aplicado aos medidores de junta na Chencun Hydropower Station, na China, um modelo que busca extrair as componentes principais dos dados da instrumentação e estabelecer um modelo hidrostático sazonal no tempo (HST) entre as variáveis: nível do reservatório, temperatura e efeitos do tempo e as componentes principais. Após uma regressão entre as variáveis podem ser feitas previsões das componentes principais e avaliar por meio de gráficos de controle 𝑇2 o comportamento dos instrumentos. O trabalho resultou em redução de dados redundantes que diminui o atraso entre a leitura e análise dos dados de instrumentação, separação do ruído (devido às causas aleatórias) e a redução de falsos alarmes. [4]

Modelos de gráficos de controle multivariados foram desenvolvidos e aplicados a instrumentação de barragem de usina hidrelétrica em que usam técnicas não paramétricas como KDE e least squares support vector machine para estabelecer os limites de controle. [5]

Gráficos de controle foram empregados combinados com o método paramétrico de bootstrap para um esquema de monitoramento do risco em companhias seguradoras. A avaliação de uma medida de risco é muito importante neste tipo de empresa para a tomada de decisão de quanto capital deve ser investido e os preços dos diferentes tipos de serviços.[6]

Segundo [7] o bootstrap é uma técnica estatística recentemente desenvolvida para realizar certos tipos de inferência estatística. O desenvolvimento é recente por necessitar de computadores mais modernos para realizar com rapidez inúmeros cálculos da teoria estatística tradicional. O bootstrap é um método computacional para atribuição de medidas de previsão para estimativas estatísticas.

(3)

O método não paramétrico bootstrap pode ser usado para estimar a distribuição amostral de uma estatística usando somente a hipótese de que a amostra seja representativa da população do qual é extraída e que as observações sejam independentes e identicamente distribuídas. [8]

Gráficos de controle para dados dependentes e independentes que não são necessariamente normais foram desenvolvidos através do método bootstrap e não assumem qualquer distribuição de probabilidades. As simulações executadas em dados não normalmente distribuídos mostraram que os limites de controle obtido com os gráficos de bootstrap comparados aos limites do gráfico de Shewhart, podem fornecer uma melhor aproximação da distribuição amostral da estatística, 𝑋 no caso. [9]

A hipótese da independência (autocorrelação) das observações em gráficos de controle é fundamental, pois gráficos de controle convencionais não funcionam bem na ausência da independência, através da geração de muitos falsos alarmes.

Quando a autocorrelação é significativa, a estrutura de correlação dos dados pode ser apropriadamente modelada por uma série temporal que pode ser usada para

‘remover’ a autocorrelação e aplicar gráficos de controle aos resíduos. [10]

Neste trabalho é realizada a comparação de falsos alarmes para dados provenientes da leitura de instrumentos de monitoramento da barragem da usina de Itaipu gerados em gráficos de controle tradicionais de Shewhart univariado e 𝑇2 multivariado com gráficos de controle em que os limites de controle são obtidos através de simulações via técnica não paramétrica bootstrap. O efeito da autocorrelação e da forma de estimar a matriz de covariância em dados multivariados também é levado em consideração nas comparações.

Este trabalho está assim estruturado. Na seção 2 é feita uma breve revisão dos gráficos de controle e de falsos alarmes, na seção 3 é recordado o efeito da autocorrelação e o uso de séries temporais, na seção 4 é feita uma introdução à técnica bootstrap, na seção 5 é descrita a problemática de monitoramento estatístico de leitura de instrumentos na barragem de Itaipu, na seção 6 os materiais e métodos empregados. Por fim, a seção 7 apresentada uma série de resultados e na seção 8 são discutidas algumas conclusões e sugestões de trabalhos futuros.

2. GRÁFICOS DE CONTROLE UNIVARIADOS E MULTIVARIADOS

No caso univariado com amostras de tamanho 𝑛 = 1, um gráfico de Shewhart consiste de uma linha central representada pela média das amostras 𝜇, tomadas em um período em que se considera o processo sob controle e de outras duas linhas representando o limite superior e inferior de controle que determinam um intervalo ao redor da média avaliado em unidades do desvio padrão (𝑘𝜎). Entretanto, é fundamental frisar que apesar de sua popularidade e simplicidade, o gráfico de Shewhart exige a hipótese de que os dados sejam oriundos de população com distribuição normal de probabilidades.

Quando se estabelece um teste de hipótese sobre uma afirmação 𝐻0: os dados da leitura de um instrumento de monitoramento de uma barragem estão sob controle, tem-se associado dois tipos de erros, a saber,

(4)

𝛼 = 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎)

= 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝑜 𝑒𝑠𝑡𝑎𝑑𝑜 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝑜 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜 𝑒𝑠𝑡á 𝑠𝑜𝑏 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒)

= 𝑃(𝑓𝑎𝑙𝑠𝑜 𝑎𝑙𝑎𝑟𝑚𝑒)

𝛼 é chamado de nível de significância do teste e

𝛽 = 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝑃(𝑎𝑐𝑒𝑖𝑡𝑎𝑟 𝐻0 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝐻0 é 𝑓𝑎𝑙𝑠𝑎)

= 𝑃(𝑎𝑐𝑒𝑖𝑡𝑎𝑟 𝑜 𝑒𝑠𝑡𝑎𝑑𝑜 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝑜 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜 𝑒𝑠𝑡á 𝑓𝑜𝑟𝑎 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒)

= 𝑃(𝑓𝑎𝑙𝑠𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜).

Quando se aumenta o intervalo ao redor da linha central de um gráfico de controle é diminuído o risco de erro tipo I e é aumentado o risco de erro tipo II, por outro lado quando se diminui o intervalo ao redor da linha central de um gráfico de controle é aumentado o risco de erro tipo I e é diminuído o risco de erro tipo II. Dependendo da necessidade que se tem, pode-se fixar o valor do múltiplo do desvio padrão 𝑘 e calcular o valor de 𝛼 ou vice-versa. Por exemplo, se a característica de qualidade de interesse 𝜇𝑤 tem distribuição normal pode se calcular que

𝑃(𝜇𝑤 ∈ (𝜇𝑤 − 2,62635𝜎𝑤, 𝜇𝑤 + 2,62635𝜎𝑤)) = 0,02 = 𝛼.

Em gráficos de controle, cometer um erro tipo I significa apontar um falso alarme, ou seja, rejeitar que o processo está sob controle num dado instante quando, na verdade, está sob controle. Já, cometer um erro tipo II significa rejeitar que o processo está fora de controle quando, na verdade, realmente está fora de controle.

Avaliar o erro tipo I e tipo II são tarefas igualmente importantes, mas tendo em vista o estado de controle dos dados disponíveis, este trabalho irá se restringir a escolha do método que produza os melhores resultados quanto à taxa de erros tipo I.

Os gráficos de controle multivariados são uma alternativa para o monitoramento em empresas onde o número de processos que estão sendo avaliados é alto. O significado de processo neste texto será específico de leitura de instrumentação de auscultação de barragem, mas pode significar a especificação do tamanho de um determinado tipo de parafuso ou a quantidade de água em um produto alimentício, ou seja, processo é a palavra usada para aquilo que se deseja monitorar a qualidade num contexto específico.

Além disso, o termo alta quantidade de processos, para que não suscite subjetividade, deve ser entendido como uma quantidade que no ambiente de controle de qualidade de uma empresa, caso cada processo esteja sendo monitorado individualmente, torne impraticável a aplicação de gráficos de controle univariados, seja por gerar excesso de trabalho e interpretação, seja por gerar muitos alarmes falsos (indicar que o processo está fora de controle quando na verdade está sob controle), seja por haver correlação entre as características que estão sendo avaliadas.

Quando se está monitorando leituras de instrumentos de auscultação de uma barragem, sobretudo quando estes instrumentos estão localizados proximamente, o mais simples gráfico de controle multivariado é o gráfico 𝑇2 de Hotelling que é considerada uma generalização da estatística univariada

𝑡 = 𝑥 − 𝜇

𝑠

√𝑛

(5)

em que 𝜇 = 𝜇0 é o teste de hipótese sobre a média (ou valor alvo) que está se testando, 𝑠 é o desvio padrão e 𝑛 o tamanho da amostra e 𝑥 uma observação em particular.

Analogamente, a estatística 𝑇2, no caso de 𝑚 amostras de tamanho 𝑛 = 1 em que se está monitorando 𝑝 variáveis, é dada por

𝑇2 = (𝑋 − 𝑋)𝑆−1(𝑋 − 𝑋)

onde 𝑋 é um vetor observação, 𝑋 é o vetor média amostral, ambos de 𝑝 variáveis e 𝑆−1 é a inversa da matriz de covariância da amostra.

Em outras palavras esta estatística mede uma diferença ponderada da média amostral e uma região de confiança em que pontos sob controle deverão estar dentro.

𝑇2 é uma forma não negativa cujo limite superior de controle (𝐿𝑆𝐶) para uma taxa de falsos alarmes 𝛼, seguindo a indicação de [11], neste trabalho é calculado conforme a distribuição de probabilidade dada na TABELA 1.

𝐹𝑎𝑠𝑒 𝐼 𝐿𝑆𝐶 = [

𝑝(𝑚 + 1)(𝑚 − 1)

𝑚(𝑚 − 𝑝) ] 𝐹𝑝,𝑚−𝑝,𝛼

𝐹𝑎𝑠𝑒 𝐼𝐼 𝐿𝑆𝐶 = [(𝑚 − 1)2 𝑚 ] 𝛽𝑝

2,𝑚−𝑝−12 ,𝛼

TABELA 1 - Distribuição de referência da estatística T2 no caso multivariado

3. AUTOCORRELAÇÃO E SÉRIES TEMPORAIS

Os modelos de Shewhart de um processo sob controle de uma variável 𝑥 no instante 𝑡 tem a forma 𝑥𝑡 = 𝜇 + 𝜉𝑡, onde se presume que 𝑥 tem média 𝜇 e desvio padrão 𝜎 (fixos e desconhecidos) e os 𝜉𝑡 são independentes e normalmente distribuídos com média 0 e desvio padrão 𝜎. A condição de fora de controle representa uma mudança em 𝜇, em 𝜎 ou em ambos.

A maioria dos procedimentos de controle multivariados exige que os vetores observação sejam não correlacionados ao longo do tempo. A ausência desta hipótese pode enfraquecer a eficácia do processo de controle global. Se a autocorrelação não for detectada ou ignorada, pode criar problemas nos processos de controle que não se ajustam a ela. O principal problema é similar ao que ocorre quando se usam procedimentos univariados em um processo multivariado no qual a relação entre as variáveis é ignorada. Se a dependência temporal de dados autocorrelacionados não for removida, os efeitos de uma variável podem ser confundidos com os efeitos de outras variáveis correlacionadas. [12]

Procedimentos de controle para dados autocorrelacionados no caso univariado, geralmente buscam modelar a autocorrelação e analisar o gráfico dos resíduos (diferença entre os valores observados e ajustados do modelo de autocorrelação).

Com base em certas hipóteses, os erros residuais, isto é, quando o efeito da dependência no tempo é removido, pode se mostrar que são independentes e normalmente distribuídos.

(6)

Outra forma de tratar este problema é dada pelo uso de séries temporais, instituída pela bastante conhecida metodologia de Box & Jenkins. Os modelos 𝐴𝑅𝐼𝑀𝐴 (autoregressivos integrado de médias móveis) podem ser usados para modelar uma série temporal dos dados e efetuar previsões futuras. [13] De modo geral os modelos 𝐴𝑅𝑀𝐴(𝑝, 𝑞) tem a forma

𝑧𝑡 = 𝜙1𝑧𝑡−1+ 𝜙2𝑧𝑡−2+ ⋯ + 𝜙𝑝𝑧𝑡−𝑝 + 𝑎𝑡− 𝜃1𝑎𝑡−1− 𝜃2𝑎𝑡−2− ⋯ − 𝜃𝑞𝑎𝑡−𝑞

Para séries que não apresentam uma média fixa, o operador de diferenças sucessivas pode conduzir a estacionariedade da série e aos modelos 𝐴𝑅𝐼𝑀𝐴. A isto se associa outro parâmetro 𝑑 , portanto, de modo geral têm-se os modelos 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞). Pacotes computacionais são capazes de gerar diversos modelos 𝐴𝑅𝐼𝑀𝐴 para ajuste de séries temporais.

Variações cíclicas ou sazonais ao longo do tempo são assumidas serem baseadas em causas sistemáticas, isto é, a variação não ocorre aleatoriamente, mas é reflexo da influencia de variáveis ‘escondidas’. A autocorrelação produz algum tipo de padrão sistemático ao longo do tempo nas observações de uma variável. Este fenômeno é típico em instrumentos de monitoramento de barragens, cujas leituras são influenciadas por variações térmicas e do nível do reservatório. [14], [10], [12]

4. A TÉCNICA BOOTSTRAP PARA ESTABELECER OS LIMITES DE CONTROLE

Os gráficos de controle para observações univariadas e individuais (amostras de tamanho 𝑛 = 1) de Shewhart e multivariado 𝑇2 de Hotelling e outras formas de gráficos multivariados, requerem para sua aplicação que os dados sejam provenientes de uma distribuição de probabilidade normal (uni) multivariada. Esta hipótese, além de difícil verificação, em muitas ocasiões não é verificada. Isto faz com que resultados e conclusões de dados que não a satisfazem podem não ser verdadeiros. Esta é a chamada estatística paramétrica, que presume para construção de suas teorias hipóteses sobre a distribuição de probabilidade subjacente ser normal.

Para contornar este problema, foram desenvolvidas técnicas para estabelecer limites de controle em gráficos univariados e multivariados que não dependem de uma distribuição de probabilidade específica, são os chamados gráficos de controle não paramétricos ou livres de distribuição. Sua concepção é para que sejam quase tão robustos quanto os paramétricos quando os dados têm uma determinada distribuição e que possam ser aplicáveis em situações de distribuições desconhecidas. Neste trabalho será empregada uma destas técnicas a de reamostragem bootstrap.

A publicação em 1979 do primeiro artigo de Bradley Efron em bootstrap foi um grande acontecimento em estatística, pois de uma só vez sintetizou algumas das ideias de reamostragem anteriores e estabeleceu um novo quadro para a análise estatística baseada em simulação. [15]

Gráficos de controle não paramétricos são úteis quando não se deseja modelar parametricamente a função densidade de probabilidade, seja pela falta de conhecimento de sua verdadeira distribuição de probabilidades ou para servir de verificação de um modelo paramétrico adotado. [16]

(7)

Reconhecer explicitamente a existência da incerteza é fundamental em estatística. A informação prévia, modelos de probabilidade, verossimilhança, erros padrão e limites de confiança são todos destinados a formalizar a incerteza. Em situações simples, a incerteza de uma estimativa pode ser avaliada pelo cálculo analítico baseado em um modelo de probabilidade assumido para os dados disponíveis. Mas em problemas mais complicados esta abordagem pode ser tediosa e difícil, e seus resultados são potencialmente enganosos se suposições ou simplificações inadequadas forem feitas. [15]

Suponha que se tenha uma amostra de dados independentes e identicamente distribuídos denotada por um vetor 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) do qual se deseja calcular uma estatística de interesse 𝑠(𝑥), que pode ser, por exemplo, a média, a mediana ou um percentil da distribuição. Uma amostra bootstrap 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) consiste de uma amostra aleatoriamente obtida, com reposição, dos dados originais da amostra 𝑥.

Por exemplo, se 𝑛 = 5, uma amostra bootstrap poderia ser 𝑥 = (𝑥3, 𝑥5, 𝑥1, 𝑥5, 𝑥3). Um esquema simplificado da técnica bootstrap é exibido na FIGURA 1.

Quando se tem uma amostra aleatória de tamanho 𝑛, extraída de uma distribuição de probabilidade conhecida, como a normal padrão, por exemplo, se diz que a amostra é oriunda de uma distribuição paramétrica. Porém, em muitas situações práticas, sobretudo as multivariadas, não se pode garantir ou não é verdade que a amostra seja extraída de uma distribuição conhecida.

FIGURA 1 - Esquema da reamostragem bootstrap

Para [15], métodos que envolvem repetir um procedimento de análise de dados originais através da replicação de muitos conjuntos de dados são algumas vezes chamados de métodos computacionalmente intensivos ou bootstrap. Usar os dados para gerar mais dados parece análogo a um truque usado por um barão fictício, que quando caiu no fundo de um lago, saiu puxando a si mesmo pelos cadarços de suas próprias botas ou pelo seu próprio esforço.

(8)

Neste caso, [7] sugerem que se a amostra aleatória de tamanho 𝑛 é oriunda de uma distribuição de probabilidade 𝐹 que gera a amostra aleatória 𝑥, isto é, 𝐹 → (𝑥1, 𝑥2, … , 𝑥𝑛), então se define uma função distribuição empírica 𝐹̂, que atribui probabilidade 1 𝑛⁄ para cada valor 𝑥𝑖, 𝑖 = 1, … , 𝑛. A distribuição empírica pode ser simplesmente representada por um vetor de frequências 𝑓̂𝑘= #{𝑥𝑖 = 𝑘}/𝑛. Além disso, salientam que o conjunto completo de dados da amostra 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) representado reduzidamente pelo vetor de frequências, 𝐹̂ = (𝑓̂1, 𝑓̂2, … , 𝑓̂𝑘) é uma estatística suficiente para a distribuição verdadeira 𝐹 = (𝑓1, 𝑓2, … ), no sentido de que toda a informação de 𝐹 contida em 𝑥 também está contida em 𝐹̂.

Dada uma amostra aleatória bootstrap 𝑥, de tamanho 𝑛, extraída de uma distribuição de probabilidades empírica 𝐹̂, que atribui probabilidade 1 𝑛⁄ para cada valor observado 𝑥𝑖, 𝑖 = 1. . 𝑛, se 𝜃̂ é uma estatística de interesse obtida da amostra 𝑥, através de alguma função 𝜃̂ = 𝑡(𝐹̂) que, segundo [7] o principio plug-in é a mesma função 𝑡(. ) aplicada na função distribuição 𝐹 que calcula o parâmetro populacional 𝜃 = 𝑡(𝐹). Ou seja, o princípio plug-in estima parâmetros a partir de uma amostra.

Além de estimar algum parâmetro 𝜃̂ em particular, a técnica de bootstrap pode fornecer a precisão através da estimativa do erro padrão da estatística. Mais especificamente, a cada amostra bootstrap corresponde uma replicação bootstrap de uma estatística 𝑠, avaliada na amostra bootstrap 𝒙, isto é, 𝑠(𝒙). Por exemplo, se 𝑠(𝒙) é a média amostral 𝑥̅, então 𝑠(𝒙) = ∑𝑛𝑖=1𝑥𝑖/𝑛.

Para [7], a técnica bootstrap tem duas vantagens sobre os métodos tradicionais, a primeira que quando usada no modo não paramétrico, liberta o analista de fazer hipóteses paramétricas sobre a forma da população subjacente e, segundo, quando usada no modo paramétrico, fornece respostas mais precisas do que fórmulas tradicionais e pode fornecer respostas para problemas em que não existam fórmulas como as encontradas em livros didáticos. Este trabalho se restringirá a obtenção de uma estimativa pontual 𝜃̂ para um parâmetro 𝜃 (média, percentil) via bootstrap.

5. GRÁFICOS DE CONTROLE PARA MONITORAMENTO ESTATÍSTICO DA LEITURA DA INSTRUMENTAÇÃO NA BARRAGEM DE ITAIPU

A barragem da usina hidrelétrica de Itaipu Binacional, construída no Rio Paraná, na década de 70, recentemente, em maio de 2014, completou 40 de operação, graças não só a uma obra bem executada, mas também, a manutenção de sua equipe de trabalho e de mais de 2000 instrumentos de auscultação, responsáveis pelo monitoramento de diversas características de qualidade de interesse.

Para assegurar a geração de cerca de 17% da energia elétrica produzida no Brasil em 2014 e a liderança mundial em produção de energia de uma única usina, Itaipu contou com um projeto capaz de produzir uma obra civil grandiosa e segura. Na fase operacional da usina é necessário o constante investimento no conhecimento científico para compreender as ações do envelhecimento da barragem, garantir a segurança da barragem e os altos níveis de produção de energia.

Conforme já mencionado, a usina é altamente instrumentada, seja para avaliar deslocamentos, deslizamentos, subpressões, dentre outros aspectos

(9)

internacionalmente reconhecidos como fundamentais no monitoramento de uma grande barragem como Itaipu. Dados provenientes das leituras destes instrumentos estão disponíveis desde o período do enchimento do reservatório e são objeto de periódicas avaliações da equipe de segurança de barragem e consultores externos.

Os instrumentos são projetados para possuir determinados valores individualizados de controle, ou seja, um valor médio esperado e uma faixa de tolerância que estabelece um intervalo de controle cujo menor valor é o limite inferior de controle e o maior valor é o limite superior de controle. Estes limites são chamados normalmente de limites de projeto. Entretanto, na prática, por conta da complexidade da modelagem de uma barragem, muitas vezes os limites de projeto não são adequados para acompanhar o comportamento da barragem. Neste caso, a obtenção de limites operacionais de controle com base estatística nos dados da leitura da instrumentação é uma boa alternativa.

Estimativas estatísticas de deslocamentos na usina são propostas por [17] através da análise de regressão das leituras efetuadas durante a vida útil da barragem, a qual foi concebida para funcionar em longo prazo (ao menos 100 anos) e o (re) estabelecimento de ‘níveis de atenção’ após o término da fase de enchimento do reservatório em 1984 e nos anos de 2014, 2044 e 2084.

O relatório [18] apresenta uma reavaliação dos valores de controle da instrumentação na usina de Itaipu. Este estudo buscava reavaliar os valores de controle e estabelecer um modelo estatístico entre grandezas causa como variação térmica, empuxo causado pela variação do nível do reservatório e grandezas efeito como deslocamentos, infiltrações, deformações, subpressões. Em resumo, buscou calibrar os modelos determinísticos e propor modelos estatísticos usando regressão.

Mesmo possuindo ferramentas tecnológicas para geração de gráficos de controle das leituras provenientes dos instrumentos da barragem de Itaipu individualmente, não se dispõe de limites de controle baseados em critérios estatísticos da teoria de controle estatístico de qualidade e nem de gráficos que façam interpretações multivariadas.

6. MATERIAIS E MÉTODOS

Esta pesquisa, segundo [19], pode ser classificada quanto a sua finalidade como pesquisa aplicada, cujos estudos têm a finalidade de resolver problemas identificados no âmbito da sociedade em que os pesquisadores vivem e podem contribuir para ampliar o conhecimento científico e propor novos temas de investigação.

Quanto aos objetivos mais gerais pode ser classificada como exploratória, no sentido de fazer levantamento bibliográfico para aumentar o conhecimento científico sobre determinado fenômeno e construir hipóteses, bem como explicativa no sentido de identificar, esclarecer e justificar fatores que determinam a ocorrência de determinados fenômenos. [20]

Quanto aos métodos empregados a abordagem é quantitativa em relação à natureza dos dados, de acordo com [20], objetiva expressar fatos, informações, dados e opiniões em medidas numéricas analisadas com recursos da estatística. O

(10)

delineamento (ou planejamento) da pesquisa consiste de pesquisa bibliográfica e pesquisa documental.

O campo da análise multivariada consiste de técnicas estatísticas que consideram duas ou mais variáveis aleatórias relacionadas com uma única entidade na tentativa de produzir um resultado global que leve em consideração à relação entre as variáveis. [21]

Segundo [12], o controle multivariado do processo é uma metodologia baseada em gráficos de controle usada para monitorar a estabilidade de um processo multivariado. A estabilidade é obtida quando um ou mais parâmetros de interesse (como as médias, variâncias e covariâncias das variáveis do processo) se mantém estáveis sobre as amostras extraídas do processo.

O estudo de caso do presente trabalho foi desenvolvido com dados reais provenientes da instrumentação do trecho E da usina hidrelétrica de Itaipu, exibido na FIGURA 2. Diante de diversos instrumentos presentes no trecho E, foram escolhidos os piezômetros em virtude da quantidade e da importância da sua função em medir subpressões na barragem.

FIGURA 2 – Barragem da Usina de Itaipu e o Trecho E em destaque

O trecho E possui sete piezômetros. Como a periodicidade das leituras desde o período do enchimento do reservatório em 1984 variou, foi escolhido para análise o período de 2001 até 2013 quando as leituras foram aproximadamente quinzenais para todos os piezômetros. Este período gerou 319 leituras para cada instrumento, daqui por diante denominados de piezômetros 𝑃1, 𝑃2, … , 𝑃7. A leitura de cada piezômetro é considerada uma variável aleatória independente e identicamente distribuída. Para a fase I, de teste de ajustamento (retrospectiva) do modelo foram selecionadas 300 leituras e para a fase II de validação (perspectiva) do modelo foram selecionadas as 19 leituras restantes. É importante citar que nesta fase I os dados são considerados sob controle do ponto de vista estatístico.

As etapas do método consistem de:

 Coleta, tratamento e padronização dos dados;

 Testar a normalidade univariada e multivariada;

(11)

 Construção dos gráficos univariados de Shewhart para os 7 instrumentos;

 Obtenção de um modelo 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞) para cada instrumento e dos resíduos do modelo ajustado em relação aos dados disponíveis;

 Construção dos gráficos univariados de Shewhart dos resíduos dos 7 instrumentos em que se espera retirar o efeito da autocorrelação e de um gráfico 𝑇2 de Hotelling para um par de instrumentos (foram escolhidos 𝑃6 e 𝑃7 por terem apresentado a maior correlação);

 Obtenção de 100 × 1000 = 100.000 reamostras bootstrap dos resíduos de cada instrumento e obtenção da média do (0,5%, 99,5%) e (1%, 99%) percentil das reamostras, ou seja, foram fixados níveis de significância de 1%

e 2%;

 Avaliação do método que produzir taxa de falsos alarmes mais próxima do valor esperado.

7. RESULTADOS

A TABELA 2 exibe os resultados de 4 testes bastante conhecidos da literatura para avaliar a normalidade univariada. Os testes de assimetria, curtose, Shapiro-Wilks (S- W) e Kolomogorov-Smirnovv (K-S). Apenas 4 das 18 amostras trabalhadas apresentou algum valor de referência satisfatória e nenhuma mais do que um dos testes. Além disso, resolveu-se descartar a avaliação multivariada dos dados de 𝑃6 e 𝑃7 conjuntamente tendo em vista que é condição necessária para a normalidade multivariada, que haja normalidade das distribuições marginais. Portanto, nenhuma amostra satisfez a hipótese de normalidade, útil para a construção dos gráficos de controle de Shewhart e 𝑇2. A estimativa da matriz de covariância, representada por 𝐷𝑆 e 𝑈 significam, respectivamente, diferenças sucessivas e forma usual.

Na TABELA 3 são apresentados os resultados do número de observações fora dos limites de controle (𝐹𝐿𝐶) para os gráficos univariados de Shewhart dos dados originais e dos resíduos de modelos 𝐴𝑅𝐼𝑀𝐴 ajustados. Para os gráficos de resíduos foi avaliada a quantidade de 𝐹𝐿𝐶 para as fases I e II. Dois métodos foram aplicados para a comparação: o método tradicional que presume a normalidade dos dados, cujos resultados encontram-se nas colunas 3 e 4 e o outro método em que os percentis 1% e 99% (limites de controle) da distribuição empírica são obtidos via simulação bootstrap da amostra existente.

Amostra Instrumento Assimetria Curtose S-W valor 𝑝 K-S valor 𝑝 Dados

Originais

𝑃1 −10,78 5,52 0 0

𝑃2 2,61 −2,96 0 0,03

𝑃3 2,05 −2,86 < 0,01 0,03

𝑃4 10,43 15,17 0 < 0,01

𝑃5 8,76 3,07 0 < 0,01

𝑃6 2,50 −3,20 0 < 0,01

𝑃7 1,20 −3,30 < 0,01 0,02

Resíduos do modelo

𝑃1 8,24 24,21 < 0,01 0,22

𝑃2 3,71 14,19 < 0,01 0,04

(12)

ARIMA 𝑃3 10,72 23,70 0 0,03

𝑃4 12,79 46,03 0 < 0,01

𝑃5 8,09 17,33 0 < 0,01

𝑃6 3,08 8,53 0,02 0,05

𝑃7 4,90 18,80 < 0,01 0,08

Valores estatística

𝑇2

Dados Originais

𝑃6,𝑃7 𝐷𝑆 11,89 13,91 0 < 0,01 𝑃6,𝑃7 𝑈 40,38 196,21 0 < 0,01

Resíduos 𝑃6,𝑃7 𝐷𝑆 40,37 149,58 0 0

𝑃6,𝑃7 𝑈 40,94 154,04 0 0

Valores de referência

para aceitar normalidade Entre −2 e 2 > 0,05 > 0,05

TABELA 2 - Resultados de testes de normalidade univariadas para os dados da fase I

Instrumento

FLC Dados Originais

Fase I

FLC Resíduos

ARIMA Fase I

FLC Resíduos ARIMA Fase

II

FLC Resíduos ARIMA + Bootstrap Fase I

FLC Resíduos ARIMA + Bootstrap Fase II

Modelo ARIMA

𝑃1 259 11 20 6 9 (2,1,2)

𝑃2 210 24 40 7 20 (2,0,1)

𝑃3 222 9 13 7 10 (2,0,2)

𝑃4 118 24 29 7 12 (1,0,0)

𝑃5 183 20 27 7 8 (4,0,3)

𝑃6 221 14 21 7 14 (2,0,2)

𝑃7 184 16 24 5 13 (2,0,2)

Esperado FLC 6 6,38 6 6,38

TABELA 3 - Observações fora dos limites de controle (FLC) para o gráfico de Shewhart univariado e do modelo proposto usando resíduos do modelo ARIMA e bootstrap para alfa 0,02

Nota-se que em ambas as fases o modelo com bootstrap é o que apresenta os resultados mais próximos do esperado.

Na TABELA 4 encontram-se os resultados do gráfico 𝑇2 de Hotteling para os dados originais da fase I e o limite superior de controle (𝐿𝑆𝐶) obtido pelo método que presume normalidade bivariada, indicado na tabela por 𝑇2 e pelo método bootstrap, indicado por 𝐵. As comparações deram-se em termos de dois níveis de significância (𝛼 = 1%, 2%) e de dois tipos de estimativas da matriz de covariância 𝑆, em sua forma usual e por diferenças sucessivas (𝐷𝑆). A quantidade de dados acima (ou fora) do limite superior de controle é indicada por (𝐹𝐿𝐶).

Nível 𝛼 𝛼 = 2% 𝛼 = 1%

Matriz Covariância Usual 𝐷𝑆 Usual 𝐷𝑆

Tipo de Gráfico 𝑇2 𝐵 𝑇2 𝐵 𝑇2 𝐵 𝑇2 𝐵

LSC 7,75 6,13 7,75 73,13 9,10 8,02 9,10 80,51

FLC 3 7 230 8 2 3 221 3

Valor Esperado FLC 6 3

TABELA 4 - Número de observações acima do LSC e valores dos LSC para os dados originais do gráfico T2 tradicional e via bootstrap para P6 e P7

A TABELA 5 é semelhante a anterior, só que trabalha com os dados dos resíduos de modelos 𝐴𝑅𝐼𝑀𝐴 ajustados aos dados originais.

(13)

Nível 𝛼 𝛼 = 2% 𝛼 = 1%

Matriz Covariância Usual 𝐷𝑆 Usual 𝐷𝑆

Tipo de Gráfico 𝑇2 𝐵 𝑇2 𝐵 𝑇2 𝐵 𝑇2 𝐵

LSC 7,75 11,85 7,75 11,29 9,10 18,30 9,10 17,97

FLC 15 7 12 6 9 3 10 3

Valor Esperado FLC 6 3

TABELA 5 - Número de observações acima do LSC e valores dos LSC para resíduos dos modelos ARIMA dos gráficos T2 tradicional e via bootstrap para P6 e P7

Dentre os diversos gráficos gerados, a FIGURA 3 e a FIGURA 4 exemplificam dois casos da TABELA 5, em que o número de 𝐹𝐿𝐶 são, respectivamente 15 e 7.

A FIGURA 5 e a FIGURA 6 exibem dois gráficos de controle resumidos na TABELA 3, para o caso do instrumento 𝑃7, 𝛼 = 2%, em que os limites de controle da fase I são estabelecidos com base na presunção da normalidade e via bootstrap, em que foram encontradas, respectivamente, 16 e 5 observações fora dos limites de controle.

Por fim, a FIGURA 7 e a FIGURA 8 são os gráficos de controle para o instrumento 𝑃5, 𝛼 = 2%, englobando os dados das fases I e II, limites de controle estabelecidos com base na presunção da normalidade e via bootstrap, em que foram encontradas, respectivamente, 27 e 8 observações fora dos limites de controle, conforme TABELA 3.

FIGURA 3 - Gráfico T2 dos Resíduos P6 e P7 Matriz Covariância Usual - alfa 0,02 – LSC Presumindo Normalidade

Observação

7,74797

Valor de T2

0 50 100 150 200 250 300

0 10 20 30 40

1,99399 0,0

(14)

FIGURA 4 - Gráfico T2 dos Resíduos P6 e P7 Matriz Covariância Usual - alfa 0,02 - LSC via bootstrap

FIGURA 5 - Gráfico de Shewhart dos resíduos de P7 - alfa 0,02 - LSC presumindo normalidade

FIGURA 6 - Gráfico de Shewhart dos resíduos de P7 - alfa 0,02 - LSC obtido via bootstrap

11,8478

Observação

Valor de T2

0 50 100 150 200 250 300

0 10 20 30 40

1,99235 0,0

0,730442

Observação

Resíduo do Modelo ARIMA(2,0,2) para P7

0 50 100 150 200 250 300

-1,8 -0,8 0,2 1,2 2,2

-0,000678843

-0,7318

Observação

Resíduo do Modelo ARIMA(2,0,2) para P7

0,975642

0 50 100 150 200 250 300

-1,8 -0,8 0,2 1,2 2,2

-0,000580715

-0,803684

(15)

FIGURA 7 - Gráfico de Shewhart dos resíduos do modelo ARIMA de P5 incluindo dados das fases I e II – LSC e LIC calculados supondo normalidade – alfa 0,02

FIGURA 8 - Gráfico de Shewhart dos resíduos do modelo ARIMA de P5 incluindo dados das fases I e II - LSC e LIC calculado via bootstrap – alfa 0,02

8. CONCLUSÕES

Neste trabalho buscou-se comparar a taxa de falsos alarmes de dados, sob controle, da leitura de instrumentos de monitoramento da barragem da usina de Itaipu, de gráficos de controle paramétricos tradicionais de Shewhart univariado e 𝑇2 multivariado com gráficos de controle em que os limites de controle foram determinados através de simulações via técnica não paramétrica bootstrap. Nas comparações, foi buscado retirar o efeito da autocorrelação na geração de falsos alarmes por meio da análise dos resíduos de modelos 𝐴𝑅𝐼𝑀𝐴 e a forma de estimar a matriz de covariância em dados multivariados também foi considerada nas comparações.

O uso dos resíduos dos modelos 𝐴𝑅𝐼𝑀𝐴 nos gráficos de Shewhart univariados viabiliza o uso de gráficos de controle tradicionais para os dados de instrumentação

0,339538

Resíduo de P5 em relação ao modelo ARIMA

Observação

0 100 200 300 400

-0,7 -0,3 0,1 0,5 0,9

-0,00016

-0,339858

Resíduo de P5 em relação ao modelo ARIMA

0,61637

Observação

0 100 200 300 400

-0,7 -0,3 0,1 0,5 0,9

-0,00017

-0,40482

(16)

que presumem a normalidade, entretanto ainda gera uma quantidade elevada de valores fora dos limites de controle (𝐹𝐿𝐶), ou seja, de falsos alarmes. Já o gráfico de controle dos resíduos de modelos 𝐴𝑅𝐼𝑀𝐴, em que os limites de controle são estabelecidos pela técnica bootstrap, conseguiu obter resultados muito mais próximos da verdadeira taxa de falsos alarmes estipulada. A mesma conclusão é válida quando se compara a taxa de falsos alarmes para o gráfico 𝑇2 de Hotelling que presume normalidade multivariada com o gráfico dos valores da estatística 𝑇2 em que o limite superior de controle é estabelecido com base em simulações bootstrap. Deve-se salientar que a tentativa de outros modelos paramétricos univariados também não produziu bons resultados.

Quando se analisa a fase II, ou seja, o conjunto total de dados disponíveis, foi observado que a previsão do modelo 𝐴𝑅𝐼𝑀𝐴 é boa para um horizonte médio de 3 a 4 observações seguintes, o que corresponderia, neste caso, a um período de 1 a 2 meses. Suspeita-se fortemente que se a cada nova observação for revisado o modelo de série temporal mais adequado, o resíduo gerado na previsão seguinte será menor e serão gerados menos falsos alarmes.

Mesmo assim, quando avaliamos o número de observações fora dos limites de controle (𝐹𝐿𝐶) na fase II em relação à fase I, os gráficos cujos limites de controle foram calculados com base nas simulações bootstrap apresentaram números menores de 𝐹𝐿𝐶 do que em relação ao gráfico de Shewhart. Isto também reitera o fato que os gráficos tradicionais perdem sua eficiência na ausência da normalidade.

Pode ser concluído que o uso dos modelos 𝐴𝑅𝐼𝑀𝐴 para retirar o efeito da autocorrelação em dados de leituras de instrumentos é fundamental, tendo em vista o elevado número de 𝐹𝐿𝐶 que inviabiliza o controle estatístico sem seu uso. No caso multivariado, após a retirada da autocorrelação, praticamente é indiferente a forma de estimar a matriz de covariância.

Trabalhos futuros poderão envolver a obtenção de intervalos de confianças para as estimativas bootstrap desejadas, ou seja, da média e de determinado percentil da função distribuição de probabilidade e o resultado de readequação de modelos 𝐴𝑅𝐼𝑀𝐴 a cada nova observação recebida, o que se mostrou que, em alguns estudos preliminares, reduzirá ainda mais os falsos alarmes. Uma análise prévia de eventuais outliers pode ser útil para montar um conjunto de dados menos susceptível a desvios da normalidade e à emissão de falsos alarmes.

9. AGRADECIMENTOS

A equipe do CEASB – Centro Avançado de Estudo de Segurança de Barragem, via o convênio entre Itaipu Binacional e o Parque Tecnológico de Itaipu, pela cessão dos dados, troca de informações e a confiança depositada.

10. PALAVRAS-CHAVE

Limites estatísticos de controle; técnica bootstrap; taxa de falsos alarmes; segurança de barragens.

(17)

11. REFERÊNCIAS BIBLIOGRÁFICAS

[1]. BOONE, J. M.; CHAKRABORTI, S. Two simple Shewhart-type multivariate nonparametric control charts. Applied Stochastic Models in Business and Industry, v. 28, p. 130-140, 2012.

[2]. PHALADIGANON, P. et al. Principal component analysis-based control charts for multivariate nonnormal distributions. Expert Systems with Applications, v.40, p. 3044-3054, 2013.

[3]. PHALADIGANON, P. et al. Bootstrap-based T2 Multivariate control charts.

Communications in Statistics - Simulation and Computation, v. 40, p. 645-662, 2011.

[4]. YU, H. et al. Multivariate analysis in dam monitoring data with PCA. Science China Technological Sciences, v. 53, n.4, April 2010. 1088-1097.

[5]. CHENG, L.; ZHENG, D. Two online dam safety monitoring models based on the process of extracting environmental effect. Advances in Engeneering Software, v.57, p. 48-56, 2013.

[6]. ABBASI, B.; GUILLEN, M. Bootstrap control charts in monitoring value at risk in insurance. Expert Systems with applications, v.40, p. 6125-6135, 2013.

[7]. EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. Boca Raton- FL: Chapmann & Hall/CRC, 1993.

[8]. NIAKI, S. T. A.; ABBASI, B. Bootstrap method approach in designing multi- attribute control charts. Int. J. Adv. Manuf. Technol. v.35, p. 434-442, 2007.

[9]. LIU, R. Y.; TANG, J. Control charts for dependent and independent measurements based on bootstrap methods. Journal of the American Statistical Association, v.91, n.436, p. 1694-1700, 1996.

[10]. MONTGOMERY, D. C. Introdução ao Controle Estatístico de Qualidade - 4a. ed. Rio de Janeiro: LTC, 2013.

[11]. TRACY, N. D.; YOUNG, J. C.; MASON, R. L. Multivariate Control Charts for indiividual observations. Journal of quality technology, 1992.

[12]. MASON, R. L.; YOUNG, J. C. Multivariate statistical process control with industrial applications. Philadelphia - Pennsylvania: ASA SIAM - American statistical Association - Society for industrial and applied

(18)

mathematics, 2002.

[13]. BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time-series analysis - forecasting and control, 4ª ed. Hoboken, New Jersey: John Wiley &

Sons, Inc., 2008.

[14]. ROSSO, J. A. et al. Barragem de Itaipu - Lições aprendidas com o comportamento térmico das estruturas tipo gravidade aliviada e contraforte. Foz do Iguaçu. 1995.

[15]. DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.

New York: Cambridge University Press, 1997.

[16]. POLANSKY, A. M. A general framework for constructing control charts. Quality and reliability engineering international, p. 633-653, 2005.

[17]. ITAIPU BINACIONAL. Valores de Controle para os instrumentos integrantes do "ADAS" e critérios para a geração de alarmes. Foz do Iguaçu. 2002.

[18]. ITAIPU BINACIONAL. Estudos para a reavaliação dos valores de controle para a instrumentação civil das estruturas e fundações (2660.50.15402.P). Foz do Iguaçu. 1999.

[19]. GIL, A. C. Como elaborar projetos de pesquisa - 5ª ed. São Paulo: Atlas, 2010.

[20]. BRASILEIRO, A. M. M. Manual de produção de textos acadêmicos e científicos. São Paulo: Atlas, 2013.

[21]. JACKSON, J. E. A user's guide to principal components. New York: John Wiley & Sons, Inc., 1991.

Referências

Documentos relacionados

Leiloeiro, itens 8.1 e 9.1, taxa administrativa calculada à razão de 1% (um por cento) sobre o valor de arrematação, por veículo arrematado, para cobrir despesas realizadas

Os navegadores foram surpreendidos pela tempestade – oração subordinante Que viajavam para a Índia – oração subordinada adjetiva relativa

10.. No poema, a palavra “vassoura” surge como um nome mas também como um verbo, tal como podemos confirmar no verso “Uma vassoura vassoura”.. 14. Esta frase é do tipo

Não estudei francês – oração subordinante; porque estava doente – oração subordinada adverbial causal. 9- Logo que entrei na sala, o Ricardo pediu-me ajuda

A presença do brometo na composição química das zeólitas modificadas também foi detectada;  O processo de adsorção do surfactante sobre a superfície do material zeolítico

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

Inicialmente foi analisada a estratégia utilizada para parar de fumar e os participantes descreveram como foi feita à parada de fumar, se por via de algum

Além da multiplicidade genotípica de Campylobacter spp., outro fator que pode desencadear resistência à desinfecção é a ineficiência dos processos de limpeza em si,