• Nenhum resultado encontrado

М ЕТОДЫ О ЦЕНИВАНИЯ П АРАМЕТРОВ Р ЕГРЕССИИ

89 978-1-5386-7054-5/18/$31.00 ©2018 IEEE

Разработка устойчивых методов

оценивания параметров полиномиальных структурных зависимостей *

Екатерина А. Хайленко, Евгения П. Архипенко

Новосибирский государственный технический университет, Новосибирск, Россия

Аннотация – Рассмотрена задача оценивания неизвестных параметров моделей с ошибками в объясняющих перемен- ных. Исследован широко используемый метод оценивания полиномиальных структурных зависимостей – метод скор- ректированных наименьших квадратов, а также устойчи- вые методы, такие как метод смешанной устойчивой рег- рессии и метод наименьшего определителя ковариацион- ной матрицы. Разработан алгоритм нахождения оценок методом смешанной устойчивой регрессии, позволяющий получить оценки структурных зависимостей в условиях появления выбросов, предложены модификации метода наименьшего определителя ковариационной матрицы. В результате проведения исследований получено, что данные модификации дают улучшения в точности оценивания не- известных параметров регрессии.

Ключевые слова – Структурная зависимость, устойчивое оценивание, метод смешанной устойчивой регрессии, метод наименьшего определителя ковариационной матрицы.*

I.

В

ВЕДЕНИЕ

ЛАССИЧЕСКИМИ методами оценивания парамет- ров регрессионных моделей являются метод наи- меньших квадратов (МНК) и метод максимального прав- доподобия (ММП). Однако при наличии случайных ошибок в объясняющих переменных МНК получает смещенные оценки, а при появлении в выборке грубых ошибок наблюдений (выбросов) теряет свою устойчи- вость. Для построения ММП оценок и обеспечения их хороших свойств необходимо наличие априорной ин- формации о виде распределения ошибок, которой на практике, как правило, у исследователя нет. Поэтому для работы с такими данными необходимо использовать специальные методы оценивания неизвестных парамет- ров.

Широко используемым методом оценивания парамет- ров моделей с ошибками в объясняющих переменных является метод скорректированных наименьших квадра- тов ALS (Adjusted Lest Squares) [1], однако он не устой- чив к появлению аномальных наблюдений в выборке.

Поэтому в работе рассмотрены такие устойчивые мето- ды, как метод смешанной устойчивой регрессии RCR (Robust Compound Regression) [2] и метод наименьшего

* Работа выполнена при финансовой поддержке Министерства обра- зования и науки РФ по государственному заданию (проект 2.7996.2017/8.9)

определителя ковариационной матрицы MCD (Minimum Covariance Determinant) [3].

XIV Международная научно-техническая конференция АПЭП – 2018

90

1 2 1

ˆir i iˆr ˆir t X tr

t , при tˆi1tˆi0

1

.

Одним из устойчивых методов является метод RCR.

Данный метод получает оценки параметров структурных зависимостей путем минимизации взвешенного среднего суммы квадратов взвешенных вертикальных и горизон- тальных расстояний:

 

0 2 2 1 1 2 1 2 2 2

1 1 1

ˆ ˆ ( ˆ )

( ) ( )

...

N N N

pi pi

i i i i

RCR p

i i i i i i

X X

Y Y X X

SS   RRR

  

 

(2)

при условии 1

0

p

j

j , где j– некоторые веса, 1

0j  , j0,1,...,p, p – число объясняющих пере- менных, Ri – расстояние от i-го наблюдения до центра масс.

В данной работе разработан оригинальный алгоритм нахождения оценок методом RCR, где оценки вычисля- ются путем максимизации функции эффективности [2]:

1 0

( ˆ )

( ) ( ) ˆ

p j RCR

j RCR

SS SS

  

 

.

Другой устойчивый метод - это метод MCD, целью ко- торого является выбрать h- наблюдений, h N, из всей выборки позволяющие достичь наименьший определи- тель ковариационной матрицы. Метод MCD основан на алгоритме C-шага [3], где на каждом шаге вычисляются относительные расстояние , d ii 1,N:

) T x ( S ) T x (

diiT 1 i ,

где

x

i

 ( , x x

i1 i2

,..., x Y

ip

, )

i T,

T  ( , ,..., , ) x x

1 2

x Y

p T. В оценочное подмножество входят наблюдения, соответст- вующие наименьшим расстояниям , d ii 1,N.

Поскольку величина относительного расстояния зави- сит от значения среднего, то метод его вычисления мо- жет влиять на величину di и, как следствие, на то, какие наблюдения войдут в оценочное подмножество. В дан- ной работе предложено для оценки среднего использо- вать робастные оценки, такие как среднее по шорту и усеченное среднее.

Среднее по шорту представляет собой следующее со- отношение [5]:

   

1

1

N

sh i

i

x y

N

,

где N

N, число

  [0,1]

бралось равным величине

(1   )

, где

– доля выбросов.

Новый вариационный ряд y   1, y2 , ,  y G получается из исходного путѐм поиска последовательности элемен- тов с наименьшим размахом:

   

1

min

N i i

Ti x x ,

0,

iN N 

.

Усечѐнное среднее порядка  вычисляется следую- щим образом [6]:

   

1

1 2

N k

tr i

i k

x x

N k

 

 

,

где

1

2

kN

. При использовании данной формулы исключаются крайние элементы с двух сторон вариаци- онного ряда.

IV.

Р

ЕЗУЛЬТАТЫ

Э

КСПЕРИМЕНТОВ

Для исследования работы методов ALS, RCR и MCD был проведен ряд вычислительных экспериментов. В качестве исследуемой использовалась модель:

2

1 2

i i i i

Y          

, i

1,...,

N, (2) где p3, p – число неизвестных параметров, N=500, значения входных факторов i выбирались из интервала

1,1

. Истинные значения параметров  4, 13,

2 5

  . i и i - независимые случайные величины, функция распределения которых имеет вид:

1 1 2 2

( ) (1 ) ( ,0, ) ( ,0, )

F x  

F x

F x

,

где F xi

( ,0, ) 

i – функция нормального распределения с математическим ожиданием равным 0 и дисперсией i2. С вероятностью (1) берется основная часть ошибок с функцией распределения F x1( ,0,1), с вероятностью

 – выбросы с функцией распределения F x2( ,0,2). В данном случае 10.01, 21.

В качестве показателей точности оценивания неиз- вестных параметров использовалась следующая величи- на:

2 1 2

( ˆ )

( )

ист

m i i

i iист

 

  

.

Проводилось по 500 вычислительных экспериментов.

Каждый эксперимент заключался в моделировании вы- борки исходных данных и ошибок в отклике и объяс- няющих переменных в соответствии с моделью (2) и по- следующим оцениванием ее параметров рассмотренны- ми методами. В качестве итогового показателя

ис- пользовалось усредненное значение.

Для получения точных оценок методом MCD необхо- димо подобрать оптимальный размер оценочного под- множества h. Авторами были проведены исследования, в ходе которых получено, что при наличии в выборке го- ризонтальных и смешанных выбросов h рекомендуется выбирать близким к величине

(1   )N

, где

– доля выбросов. При наличии вертикальных выбросов – близ- ким к числу наблюдений.

В Табл. I представлены результаты оценивания неиз- вестных параметров модели (2) при появлении в выборке вертикальных, горизонтальных и смешанных выбросов.

Из Табл. I видно, что при появлении аномальных наблю-

91

дений в отклике наиболее точные результаты показал метод ALS. В случае засорения выборки горизонтальны- ми и смешанными выбросами значительно выигрывает по точности метод MCD.

ТАБЛИЦА I

ТОЧНОСТЬ ОЦЕНИВАНИЯ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ ПРИ РАЗЛИЧНЫХ ТИПАХ ВЫБРОСОВ Метод %

выбросов

Точность оценивания Тип выбросов

Вертикальные Горизонтальные Смесь

ALS 5 1.399E-03 5.057E-01 4.828E-01

RCR 2.712E-02 1.027E-01 1.037E-01

MCD 3.695E-03 2.483E-03 4.135E-03

ALS 10 1.662E-03 7.809E-01 7.846E-01

RCR 3.129E-02 1.927E-01 2.076E-01

MCD 9.339E-03 4.164E-03 9.582E-03

ALS 15 1.642E-03 9.199E-01 9.550E-01

RCR 3.512E-02 2.822E-01 3.027E-01

MCD 2.020E-02 6.140E-03 2.152E-02

В Табл. II приведены сравнительные результаты рабо- ты метода MCD и его модификаций с использованием среднего по шорту (MCD_shorth) и усеченного среднего (MCD_tr) для вычисления математическихожиданий.

ТАБЛИЦА II

СРАВНЕНИЕ ТОЧНОСТИ ОЦЕНИВАНИЯ ПАРАМЕТРОВ МЕТОДОМ MCDИЕГО МОДИФИКАЦИЯМИ

Метод %

выбросов Точность оценивания Тип выбросов Вертикальные

MCD 5 3.695E-03 2.483E-03 2.483E-03

MCD_shorth 2.963E-03 2.084E-03 2.084E-03

MCD_tr 2.680E-03 2.014E-03 2.014E-03

MCD 10 9.339E-03 4.164E-03 4.164E-03

MCD_shorth 8.322E-03 3.205E-03 3.205E-03

MCD_tr 6.324E-03 2.939E-03 2.939E-03

MCD 15 2.020E-02 6.140E-03 6.140E-03

MCD_shorth 2.130E-02 5.218E-03 5.218E-03

MCD_tr 1.466E-02 3.907E-03 3.907E-03

Предложенная модификация метода MCD с использо- ванием среднего по шорту позволила повысить точность оценивания в зависимости от доли выбросов примерно на 10.9 – 19.8 % при вертикальных выбросах, на 15 – 23

% при горизонтальных и на 15.1 – 23 % при смеси вы- бросов. Модификация, где вместо обычного среднего вычисляется усеченное среднее, – примерно на 27.4 – 32.3 % при вертикальных выбросах, на 18.9 – 36.4 % при горизонтальных выбросах и на 20.2 – 35.6 % при сме- шанных.

V.

З

АКЛЮЧЕНИЕ

Рассмотрена задача устойчивого оценивания парамет- ров регрессии. Разработан алгоритм нахождения оценок методом RCR, позволяющий получить оценки модели с ошибками в объясняющих переменных в условиях появ- ления выбросов. Предложены модификации метода MCD с вычислением более устойчивых оценок матема- тического ожидания с помощью среднего по шорту и усеченного среднего. Вычислительные эксперименты показали, что метод MCD при засорении выборки гори- зонтальными и смешанными выбросами показывает наи- лучшую точность по сравнению с другими рассмотрен- ными методами, кроме того предложенные модификации позволили еще больше повысить точность оценивания неизвестных параметров регрессионной модели.

С

ПИСОК

Л

ИТЕРАТУРЫ

[1] Cheng, C.-L. Polynomial regression with errors in the variables / C.-L.

Cheng, H. Schneeweiss // J. Roy. Statist. Soc. Ser. B. – 1998. – Т.60. – С. 189-199.

[2] Hao Han. RCR: Robust Compound Regression for Robust Estimation of Errorsin-Variables Model [Electronic resource] // Stony Brook. – 2011, december.-URL:https://arxiv.org/ftp/arxiv/papers/1508/1508.02925.pdf (accessed 27.02.2016).

[3] Rousseeuw, Peter A Fast Algorithm for the Minimum Covariance De- terminant Estimator / Peter Rousseeuw, Katrien Van Driessen // Tech- nometrics. – 1999. – vol. 41, no. 3. – С. 212-223.

[4] Грешилов, А.А. Математические методы построения прогнозов / А.А. Грешилов, В.А. Стакун, А.А. Стакун. – М. : Радио и связь, 1997. – 106 с.

[5] Grübel R. The length of the shorth. // Ann. Statist. 16 (№ 2), 1988. – pp.

619-628.

[6] Tukey, J.W. Less vulnerable confidence and significanc procedures for location based on a single sample: Trimming/ Winsorization / J.W. Tu- key, D.H. McLaughlin // Sankhya. – 1963. – Series A 25. – С. 331-352.

Хайленко Екатерина Алексеевна - родилась в 1985 году, кандидат технических наук доцент, кафедра теоретической и прикладной информатики, НГТУ.

Область научных интересов: разработка и иссле- дование алгоритмов устойчивого и адаптивного оценивания параметров регрессионных зависимо- стей и планирование эксперимента. Опубликовано 28 научных работ. (Адрес: 630073, Россия, Ново- сибирск, проспект К.Маркса, 20. Email:

xajlenko@corp.nstu.ru).

Архипенко Евгения Павловна – родилась в 1994 году, магистрант, кафедра теоретической и при- кладной информатики, НГТУ. Область научных интересов: разработка и исследование устойчивых алгоритмов оценивания параметров регрессион- ных моделей. Автор 2 публикаций. (Адрес:

630073, Россия, Новосибирск, проспект Карла Маркса, 20. E-mail: ev.arkhipenko@yandex.ru).

XIV Международная научно-техническая конференция АПЭП – 2018

92 978-1-5386-7054-5/18/$31.00 ©2018 IEEE

Вопросы проверки адекватности деградационных моделей надежности*

Екатерина В. Чимитова, Евгения С. Четвертакова

Новосибирский государственный технический университет, Новосибирск, Россия

Аннотация – В данной статье рассматриваются деградаци- онные гамма- и винеровская модели надежности с учетом влияния объясняющих переменных. В основе данных мо- делей лежит предположение о принадлежности независи- мых приращений случайного процесса изменения показа- теля деградации гамма- и нормальному распределениям, соответственно. Предлагается подход к проверке статисти- ческой гипотезы о виде деградационной модели с использо- ванием непараметрических критериев согласия типа Кол- могорова, Крамера-Мизеса-Смирнова и Андерсона- Дарлинга. С использованием методов имитационного мо- делирования проводится исследование распределений ста- тистик критериев согласия.

Ключевые слова – деградационная гамма-модель, винеров- ская деградационная модель, критерии согласия.

I.

В

ВЕДЕНИЕ

НАСТОЯЩЕЕ время все чаще встает вопрос анали- за надежности и качества технических систем и из- делий, особенно в тех случаях, когда результат их рабо- ты непосредственно оказывает влияние на жизнедея- тельность людей. Исследование эффективности исполь- зования данных систем, а также их способности непре- рывно осуществлять свои функции привели к появлению такой области науки, как теория надежности. В рамках данной теории широкое распространение получили ма- тематические методы, с помощью которых можно отсле- дить закономерности появления отказов устройств, а также выявить статистические характеристики показате- лей надежности. Статистические вероятностные модели со своей стороны позволяют оценить вероятность безот- казной работы за заданную наработку.

Существует два типа статистических моделей надеж- ности: первые используют только информацию о слу- чившихся отказах, вторые же в дополнение учитывают измерения значений некоторого показателя, характери- зующего процесс деградации, так называемые деграда- ционные данные [1–4]. Таким образом, деградационные модели надежности используют больше информации для оценки надежности изделий, чем модели, построенные по выборкам наработок до отказа.

Большую популярность в задачах анализа реальных данных среди моделей деградации получили гамма- и винеровская модели. Особое преимущество данные мо- дели получили благодаря тому, что гамма- и нормальное

распределения обладают свойством устойчивости отно- сительно суммирования (воспроизводимость по пара- метру), за счет чего можно легко определить распреде- ление исследуемой случайной величины – показателя деградации в некоторый момент времени, а затем оце- нить требуемую вероятность безотказной работы. На- пример, в работах [5–7] представлено сравнение дегра- дационных гамма- и винеровской моделей на примере анализа данных об исследовании арсенид-галлиевых ла- зеров, в [8] рассматривается деградационная гамма- модель для анализа износа автомобильных шин в зави- симости от различных стрессовых факторов.

Однако, при использовании рассмотренных деграда- ционных моделей основной проблемой является отсутст- вие математического аппарата для проверки статистиче- ской гипотезы о виде модели, в то время как проверка данной гипотезы является обязательным этапом по- строения вероятностных моделей.

II.

П

ОСТАНОВКА

З

АДАЧИ

Для проверки статистической гипотезы о виде дегра- дационных моделей надежности с учетом влияния объ- ясняющих переменных требуется провести исследование распределений статистик критериев согласия типа Кол- могорова, Крамера-Мизеса-Смирнова и Андерсона- Дарлинга для выявления зависимости от следующих факторов: выбора вида функции тренда, функции влия- ния объясняющих переменных (функции о ковариат), а также значений моментов времени замера деградацион- ного показателя. Дополнительно, необходимо сформу- лировать алгоритм, поэтапно описывающий процедуру проверки адекватности деградационных гамма- и вине- ровской моделей.

III.

Д

ЕГРАДАЦИОННАЯ

Г

АММА-

М

ОДЕЛЬ