89 978-1-5386-7054-5/18/$31.00 ©2018 IEEE
Разработка устойчивых методов
оценивания параметров полиномиальных структурных зависимостей *
Екатерина А. Хайленко, Евгения П. Архипенко
Новосибирский государственный технический университет, Новосибирск, Россия
Аннотация – Рассмотрена задача оценивания неизвестных параметров моделей с ошибками в объясняющих перемен- ных. Исследован широко используемый метод оценивания полиномиальных структурных зависимостей – метод скор- ректированных наименьших квадратов, а также устойчи- вые методы, такие как метод смешанной устойчивой рег- рессии и метод наименьшего определителя ковариацион- ной матрицы. Разработан алгоритм нахождения оценок методом смешанной устойчивой регрессии, позволяющий получить оценки структурных зависимостей в условиях появления выбросов, предложены модификации метода наименьшего определителя ковариационной матрицы. В результате проведения исследований получено, что данные модификации дают улучшения в точности оценивания не- известных параметров регрессии.
Ключевые слова – Структурная зависимость, устойчивое оценивание, метод смешанной устойчивой регрессии, метод наименьшего определителя ковариационной матрицы.*
I.
В
ВЕДЕНИЕЛАССИЧЕСКИМИ методами оценивания парамет- ров регрессионных моделей являются метод наи- меньших квадратов (МНК) и метод максимального прав- доподобия (ММП). Однако при наличии случайных ошибок в объясняющих переменных МНК получает смещенные оценки, а при появлении в выборке грубых ошибок наблюдений (выбросов) теряет свою устойчи- вость. Для построения ММП оценок и обеспечения их хороших свойств необходимо наличие априорной ин- формации о виде распределения ошибок, которой на практике, как правило, у исследователя нет. Поэтому для работы с такими данными необходимо использовать специальные методы оценивания неизвестных парамет- ров.
Широко используемым методом оценивания парамет- ров моделей с ошибками в объясняющих переменных является метод скорректированных наименьших квадра- тов ALS (Adjusted Lest Squares) [1], однако он не устой- чив к появлению аномальных наблюдений в выборке.
Поэтому в работе рассмотрены такие устойчивые мето- ды, как метод смешанной устойчивой регрессии RCR (Robust Compound Regression) [2] и метод наименьшего
* Работа выполнена при финансовой поддержке Министерства обра- зования и науки РФ по государственному заданию (проект 2.7996.2017/8.9)
определителя ковариационной матрицы MCD (Minimum Covariance Determinant) [3].
XIV Международная научно-техническая конференция АПЭП – 2018
90
1 2 1
ˆir i iˆr ˆir t X t r
t , при tˆi1tˆi0 1
.Одним из устойчивых методов является метод RCR.
Данный метод получает оценки параметров структурных зависимостей путем минимизации взвешенного среднего суммы квадратов взвешенных вертикальных и горизон- тальных расстояний:
0 2 2 1 1 2 1 2 2 21 1 1
ˆ ˆ ( ˆ )
( ) ( )
...
N N N
pi pi
i i i i
RCR p
i i i i i i
X X
Y Y X X
SS R R R
(2)
при условии 1
0
p
j
j , где j– некоторые веса, 1
0j , j0,1,...,p, p – число объясняющих пере- менных, Ri – расстояние от i-го наблюдения до центра масс.
В данной работе разработан оригинальный алгоритм нахождения оценок методом RCR, где оценки вычисля- ются путем максимизации функции эффективности [2]:
1 0
( ˆ )
( ) ( ) ˆ
p j RCR
j RCR
SS SS
.Другой устойчивый метод - это метод MCD, целью ко- торого является выбрать h- наблюдений, h N , из всей выборки позволяющие достичь наименьший определи- тель ковариационной матрицы. Метод MCD основан на алгоритме C-шага [3], где на каждом шаге вычисляются относительные расстояние , d ii 1,N:
) T x ( S ) T x (
di i T 1 i ,
где
x
i ( , x x
i1 i2,..., x Y
ip, )
i T,T ( , ,..., , ) x x
1 2x Y
p T. В оценочное подмножество входят наблюдения, соответст- вующие наименьшим расстояниям , d ii 1,N.Поскольку величина относительного расстояния зави- сит от значения среднего, то метод его вычисления мо- жет влиять на величину di и, как следствие, на то, какие наблюдения войдут в оценочное подмножество. В дан- ной работе предложено для оценки среднего использо- вать робастные оценки, такие как среднее по шорту и усеченное среднее.
Среднее по шорту представляет собой следующее со- отношение [5]:
1
1
Nsh i
i
x y
N
,где N
N, число [0,1]
бралось равным величине(1 )
, где
– доля выбросов.Новый вариационный ряд y 1, y2 , , y G получается из исходного путѐм поиска последовательности элемен- тов с наименьшим размахом:
1
min
N i iT i x x ,
0,
i N N .
Усечѐнное среднее порядка вычисляется следую- щим образом [6]:
1
1 2
N k
tr i
i k
x x
N k
,где
1
2
k N
. При использовании данной формулы исключаются крайние элементы с двух сторон вариаци- онного ряда.IV.
Р
ЕЗУЛЬТАТЫЭ
КСПЕРИМЕНТОВДля исследования работы методов ALS, RCR и MCD был проведен ряд вычислительных экспериментов. В качестве исследуемой использовалась модель:
2
1 2
i i i i
Y
, i1,...,
N, (2) где p3, p – число неизвестных параметров, N=500, значения входных факторов i выбирались из интервала
1,1
. Истинные значения параметров 4, 13,2 5
. i и i - независимые случайные величины, функция распределения которых имеет вид:
1 1 2 2
( ) (1 ) ( ,0, ) ( ,0, )
F x
F x
F x
,где F xi
( ,0, )
i – функция нормального распределения с математическим ожиданием равным 0 и дисперсией i2. С вероятностью (1) берется основная часть ошибок с функцией распределения F x1( ,0,1), с вероятностью – выбросы с функцией распределения F x2( ,0,2). В данном случае 10.01, 21.
В качестве показателей точности оценивания неиз- вестных параметров использовалась следующая величи- на:
2 1 2
( ˆ )
( )
ист
m i i
i iист
.Проводилось по 500 вычислительных экспериментов.
Каждый эксперимент заключался в моделировании вы- борки исходных данных и ошибок в отклике и объяс- няющих переменных в соответствии с моделью (2) и по- следующим оцениванием ее параметров рассмотренны- ми методами. В качестве итогового показателя
ис- пользовалось усредненное значение.Для получения точных оценок методом MCD необхо- димо подобрать оптимальный размер оценочного под- множества h. Авторами были проведены исследования, в ходе которых получено, что при наличии в выборке го- ризонтальных и смешанных выбросов h рекомендуется выбирать близким к величине
(1 )N
, где
– доля выбросов. При наличии вертикальных выбросов – близ- ким к числу наблюдений.В Табл. I представлены результаты оценивания неиз- вестных параметров модели (2) при появлении в выборке вертикальных, горизонтальных и смешанных выбросов.
Из Табл. I видно, что при появлении аномальных наблю-
91
дений в отклике наиболее точные результаты показал метод ALS. В случае засорения выборки горизонтальны- ми и смешанными выбросами значительно выигрывает по точности метод MCD.
ТАБЛИЦА I
ТОЧНОСТЬ ОЦЕНИВАНИЯ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ ПРИ РАЗЛИЧНЫХ ТИПАХ ВЫБРОСОВ Метод %
выбросов
Точность оценивания Тип выбросов
Вертикальные Горизонтальные Смесь
ALS 5 1.399E-03 5.057E-01 4.828E-01
RCR 2.712E-02 1.027E-01 1.037E-01
MCD 3.695E-03 2.483E-03 4.135E-03
ALS 10 1.662E-03 7.809E-01 7.846E-01
RCR 3.129E-02 1.927E-01 2.076E-01
MCD 9.339E-03 4.164E-03 9.582E-03
ALS 15 1.642E-03 9.199E-01 9.550E-01
RCR 3.512E-02 2.822E-01 3.027E-01
MCD 2.020E-02 6.140E-03 2.152E-02
В Табл. II приведены сравнительные результаты рабо- ты метода MCD и его модификаций с использованием среднего по шорту (MCD_shorth) и усеченного среднего (MCD_tr) для вычисления математическихожиданий.
ТАБЛИЦА II
СРАВНЕНИЕ ТОЧНОСТИ ОЦЕНИВАНИЯ ПАРАМЕТРОВ МЕТОДОМ MCDИЕГО МОДИФИКАЦИЯМИ
Метод %
выбросов Точность оценивания Тип выбросов Вертикальные
MCD 5 3.695E-03 2.483E-03 2.483E-03
MCD_shorth 2.963E-03 2.084E-03 2.084E-03
MCD_tr 2.680E-03 2.014E-03 2.014E-03
MCD 10 9.339E-03 4.164E-03 4.164E-03
MCD_shorth 8.322E-03 3.205E-03 3.205E-03
MCD_tr 6.324E-03 2.939E-03 2.939E-03
MCD 15 2.020E-02 6.140E-03 6.140E-03
MCD_shorth 2.130E-02 5.218E-03 5.218E-03
MCD_tr 1.466E-02 3.907E-03 3.907E-03
Предложенная модификация метода MCD с использо- ванием среднего по шорту позволила повысить точность оценивания в зависимости от доли выбросов примерно на 10.9 – 19.8 % при вертикальных выбросах, на 15 – 23
% при горизонтальных и на 15.1 – 23 % при смеси вы- бросов. Модификация, где вместо обычного среднего вычисляется усеченное среднее, – примерно на 27.4 – 32.3 % при вертикальных выбросах, на 18.9 – 36.4 % при горизонтальных выбросах и на 20.2 – 35.6 % при сме- шанных.
V.
З
АКЛЮЧЕНИЕРассмотрена задача устойчивого оценивания парамет- ров регрессии. Разработан алгоритм нахождения оценок методом RCR, позволяющий получить оценки модели с ошибками в объясняющих переменных в условиях появ- ления выбросов. Предложены модификации метода MCD с вычислением более устойчивых оценок матема- тического ожидания с помощью среднего по шорту и усеченного среднего. Вычислительные эксперименты показали, что метод MCD при засорении выборки гори- зонтальными и смешанными выбросами показывает наи- лучшую точность по сравнению с другими рассмотрен- ными методами, кроме того предложенные модификации позволили еще больше повысить точность оценивания неизвестных параметров регрессионной модели.
С
ПИСОКЛ
ИТЕРАТУРЫ[1] Cheng, C.-L. Polynomial regression with errors in the variables / C.-L.
Cheng, H. Schneeweiss // J. Roy. Statist. Soc. Ser. B. – 1998. – Т.60. – С. 189-199.
[2] Hao Han. RCR: Robust Compound Regression for Robust Estimation of Errorsin-Variables Model [Electronic resource] // Stony Brook. – 2011, december.-URL:https://arxiv.org/ftp/arxiv/papers/1508/1508.02925.pdf (accessed 27.02.2016).
[3] Rousseeuw, Peter A Fast Algorithm for the Minimum Covariance De- terminant Estimator / Peter Rousseeuw, Katrien Van Driessen // Tech- nometrics. – 1999. – vol. 41, no. 3. – С. 212-223.
[4] Грешилов, А.А. Математические методы построения прогнозов / А.А. Грешилов, В.А. Стакун, А.А. Стакун. – М. : Радио и связь, 1997. – 106 с.
[5] Grübel R. The length of the shorth. // Ann. Statist. 16 (№ 2), 1988. – pp.
619-628.
[6] Tukey, J.W. Less vulnerable confidence and significanc procedures for location based on a single sample: Trimming/ Winsorization / J.W. Tu- key, D.H. McLaughlin // Sankhya. – 1963. – Series A 25. – С. 331-352.
Хайленко Екатерина Алексеевна - родилась в 1985 году, кандидат технических наук доцент, кафедра теоретической и прикладной информатики, НГТУ.
Область научных интересов: разработка и иссле- дование алгоритмов устойчивого и адаптивного оценивания параметров регрессионных зависимо- стей и планирование эксперимента. Опубликовано 28 научных работ. (Адрес: 630073, Россия, Ново- сибирск, проспект К.Маркса, 20. Email:
xajlenko@corp.nstu.ru).
Архипенко Евгения Павловна – родилась в 1994 году, магистрант, кафедра теоретической и при- кладной информатики, НГТУ. Область научных интересов: разработка и исследование устойчивых алгоритмов оценивания параметров регрессион- ных моделей. Автор 2 публикаций. (Адрес:
630073, Россия, Новосибирск, проспект Карла Маркса, 20. E-mail: ev.arkhipenko@yandex.ru).
XIV Международная научно-техническая конференция АПЭП – 2018
92 978-1-5386-7054-5/18/$31.00 ©2018 IEEE
Вопросы проверки адекватности деградационных моделей надежности*
Екатерина В. Чимитова, Евгения С. Четвертакова
Новосибирский государственный технический университет, Новосибирск, Россия
Аннотация – В данной статье рассматриваются деградаци- онные гамма- и винеровская модели надежности с учетом влияния объясняющих переменных. В основе данных мо- делей лежит предположение о принадлежности независи- мых приращений случайного процесса изменения показа- теля деградации гамма- и нормальному распределениям, соответственно. Предлагается подход к проверке статисти- ческой гипотезы о виде деградационной модели с использо- ванием непараметрических критериев согласия типа Кол- могорова, Крамера-Мизеса-Смирнова и Андерсона- Дарлинга. С использованием методов имитационного мо- делирования проводится исследование распределений ста- тистик критериев согласия.
Ключевые слова – деградационная гамма-модель, винеров- ская деградационная модель, критерии согласия.
I.
В
ВЕДЕНИЕНАСТОЯЩЕЕ время все чаще встает вопрос анали- за надежности и качества технических систем и из- делий, особенно в тех случаях, когда результат их рабо- ты непосредственно оказывает влияние на жизнедея- тельность людей. Исследование эффективности исполь- зования данных систем, а также их способности непре- рывно осуществлять свои функции привели к появлению такой области науки, как теория надежности. В рамках данной теории широкое распространение получили ма- тематические методы, с помощью которых можно отсле- дить закономерности появления отказов устройств, а также выявить статистические характеристики показате- лей надежности. Статистические вероятностные модели со своей стороны позволяют оценить вероятность безот- казной работы за заданную наработку.
Существует два типа статистических моделей надеж- ности: первые используют только информацию о слу- чившихся отказах, вторые же в дополнение учитывают измерения значений некоторого показателя, характери- зующего процесс деградации, так называемые деграда- ционные данные [1–4]. Таким образом, деградационные модели надежности используют больше информации для оценки надежности изделий, чем модели, построенные по выборкам наработок до отказа.
Большую популярность в задачах анализа реальных данных среди моделей деградации получили гамма- и винеровская модели. Особое преимущество данные мо- дели получили благодаря тому, что гамма- и нормальное
распределения обладают свойством устойчивости отно- сительно суммирования (воспроизводимость по пара- метру), за счет чего можно легко определить распреде- ление исследуемой случайной величины – показателя деградации в некоторый момент времени, а затем оце- нить требуемую вероятность безотказной работы. На- пример, в работах [5–7] представлено сравнение дегра- дационных гамма- и винеровской моделей на примере анализа данных об исследовании арсенид-галлиевых ла- зеров, в [8] рассматривается деградационная гамма- модель для анализа износа автомобильных шин в зави- симости от различных стрессовых факторов.
Однако, при использовании рассмотренных деграда- ционных моделей основной проблемой является отсутст- вие математического аппарата для проверки статистиче- ской гипотезы о виде модели, в то время как проверка данной гипотезы является обязательным этапом по- строения вероятностных моделей.
II.
П
ОСТАНОВКАЗ
АДАЧИДля проверки статистической гипотезы о виде дегра- дационных моделей надежности с учетом влияния объ- ясняющих переменных требуется провести исследование распределений статистик критериев согласия типа Кол- могорова, Крамера-Мизеса-Смирнова и Андерсона- Дарлинга для выявления зависимости от следующих факторов: выбора вида функции тренда, функции влия- ния объясняющих переменных (функции о ковариат), а также значений моментов времени замера деградацион- ного показателя. Дополнительно, необходимо сформу- лировать алгоритм, поэтапно описывающий процедуру проверки адекватности деградационных гамма- и вине- ровской моделей.
III.