• Nenhum resultado encontrado

Для оценивания моделей при наличии погрешностей в объясняющих переменных применяется широкий спектр методов [2, 4], отличающихся как техникой оценивания, так и свойствами получаемых оценок параметров. Рас- полагая различной априорной информацией о случайных ошибках, исследователь может построить:

 прямую регрессию (при отсутствии ошибки по вход- ному фактору);

 обратную регрессию (при отсутствии ошибки по объ- ясняемой переменной);

 диагональную регрессию (при равных уровнях шума по обеим переменным).

Отметим, что выполнение условий (4) означает нали- чие гетероскедастичности в наблюдаемых значениях xi и yi. Наиболее изучена ситуация, когда неоднородность дисперсии возникает только по объясняемой перемен- ной. В этом случае обычно рекомендуется использовать взвешенный метод наименьших квадратов (ВМНК) [5]

для всех перечисленных типов регрессий. Оценки дис- персий ошибок каждого наблюдения определяются ис- ходя из остатков модели регрессии ei, а соответствую- щие веса – как величины, обратные этим оценкам. При этом в данной работе точным наблюдениям присваива- лись фиксированные максимально возможные значения весовых коэффициентов, вычисляемых следующим об- разом:

2 0

1 , | | 0,1;

100, | | 0,1.

i i i

i

e e e

 

 

 

Тогда искомые веса находятся как

0

0 1

i

i n

j j

 

.

Основным недостатком ВМНК является то, что метод не позволяет учитывать стохастический характер объяс- няющей переменной. Это сказывается не только на свой- ствах получаемых оценок параметров модели (1), но и влияет на корректность интерпретации соответствующе- го уравнения регрессии (3). Преодоление такого рода трудностей возможно путем применения техники по- строения ортогональной регрессии [6, 7]. Один из вари- антов состоит в использовании алгоритма Уильямсона (Williamson, [8]), в соответствии с которым оценки пара- метров определяются как

1

1

ˆ

n i i i

D in

i i i i

w z y b

w z x

,

ˆD w ˆD w

ayb x , (5)

где 2

1

2 2 ˆ

i i

i

y D x

w

b

,

1

1 n

i i i

w n

i i

w x x

w

,

1

1 n

i i

w i n

i i

w y y

w

, xi  xi xw, yi  yi yw,

2 ˆ 2

( )

i i

i i y i D x i

zw

xb

y .

Поскольку wi, xw, yw, zi являются функциями ˆ bD, алгоритм предполагает итеративное вычисление оценок до достижения требуемой точности.

Несмещенность оценок параметров достигается, толь- ко если 2

xi

и 2

yi

равны истинным значениям дисперсий ошибок. На практике эти значения, как правило, неиз- вестны, следовательно, алгоритм Уильямсона необходи- мо дополнить процедурой их оценивания. Для этого ав- торами предлагается учитывать неоднородность вариа- ции исходных данных по обеим переменным путем оце- нивания дисперсий в каждой точке наблюдений. При наличии в выборке повторных наблюдений в качестве оценки достаточно использовать выборочную дисперсию в каждой точке

X Yi

,

i

[9]. Для адекватного отображе- ния свойств генеральной совокупности в выборке логич- но использовать взвешенные оценки дисперсии, весовые коэффициенты [1]

i которых показывают число домо- хозяйств генеральной совокупности, представленных каждым элементом выборки. В этом случае объем всей

87

генеральной совокупности определяется соотношением

1 n

i i

N

.

Однако при проведении бюджетных обследований сложно сформировать выборку домашних хозяйств с одинаковыми значениями исследуемых характеристик, в частности, из-за того, что эти значения наблюдаются с ошибками. Следовательно, невозможно напрямую ис- пользовать рассмотренные выше оценки дисперсий, по- этому для определения их значений предлагается взять наблюдения, ближайшие к заданному согласно некото- рой метрики

. Тогда для заданного числа ближайших наблюдений k процедура оценивания параметров моде- ли (3) будет следующей.

1. Для каждой пары точек выборки

( , )

x yi i и

( , )

x yj j определяется расстояние

ij между ними, вычисленное в метрике

.

2. Определяется множество

1 1

( )

{( , ),...,( , )}

k k

k

i x yi i x yi i

  из k ближайших к точке

( , )

x yi i элементов выборки.

3. По наблюдениям из ( )ik оцениваются взвешенные дисперсии ˆ2

xi

, ˆ2

yi

по обеим переменным.

4. Определяются опорные точки

( , )

x y i i для построе- ния регрессии как взвешенные средние каждой перемен- ной по наблюдениям из i( )k .

5. Значения

( , )

x y i i и ˆ2

xi

, ˆ2

yi

используются в качест- ве

( , )

x yi i и 2

xi

, 2

yi

соответственно для алгоритма Уильямсона.

Отметим, что число k определяется исходя из объема выборки. При больших k, сопоставимых с объемом вы- борки, будет наблюдаться выравнивание дисперсий, что снижает эффект применения предлагаемой процедуры. С другой стороны, малые значения k могут приводить к вырожденным ситуациям ( ˆ2

0

xi

 или ˆ2

0

yi

 ), что противоречит предположению о стохастическом харак- тере ошибки. Следовательно, вопрос о выборе величины

k имеет самостоятельное значение и должен решаться отдельно в каждом конкретном случае.

IV.

Р

ЕЗУЛЬТАТЫ

Э

КСПЕРИМЕНТОВ

Предложенная модификация алгоритма Уильямсона исследована на ряде модельных экспериментов и реаль- ных примеров. Истинная модель зависимости между переменными X и Y постулируется в линейном виде

0 1

Y

 

X, (6)

где

0

2

,

1

0.5

. При этом значения переменной X выбирались согласно логнормальному распределению с параметрами

(0,1)

. В качестве генеральной совокупно- сти использовались результаты моделирования по соот-

ношению (6) при N

10000

. Распределение элементов генеральной совокупности считалось экспоненциальным с параметром

1.5

, т.е. вероятность появления значе- ния X задавалась функцией

( ) 1.5

X e1.5X

.

Для оценивания параметров модели (6) формировалась выборка значений

( , )

x yi i объемом n

500

, при этом веса определялись как

1

( ) ( )

i

i n

j j

v N X X

,

где

 (

Xi

) 0.72

 

 (ln(

Xi

0.40))

,

 ( )

 – функция плотности стандартного нормального распределения.

Параметры функции

 (

Xi

)

подобраны исходя из прак- тики бюджетных обследований, в которых, как правило, с увеличением доходов домохозяйств сокращается веро- ятность их попадания в выборку.

Истинные значения переменных засорялись нормально распределенными случайными ошибками при предпо- ложениях (4) с дисперсиями

2 2

25

i

y i

X , 2 2

i i

x y



,

где

 ~

Uniform

([0.5; 2])

. Величина

должна обеспе- чить различные варианты соотношения дисперсий оши- бок. Вследствие зависимости дисперсий ошибок от пе- ременной X оценивание производилось в условиях ге- тероскедастичности.

V.

О

БСУЖДЕНИЕ

Р

ЕЗУЛЬТАТОВ

В данной работе используется манхэттенское расстоя- ние, число ближайших наблюдений k взято равным 20.

Результаты оценивания усреднены по 1000 повторениям.

На рис. 1 используются следующие обозначения рас- сматриваемых методов: LS – прямая регрессия; LSinv – обратная регрессия; LSdiag – диагональная регрессия;

WLS – прямая регрессия с весами vi; WLSinv – обратная регрессия с весами vi; WLSdiag – диагональная регрес- сия с весами vi; eLSy – прямая регрессия с весами

i, вычисленные по y; eLSx – обратная регрессия с весами

i, вычисленные по x; eLSdiag – диагональная регрес- сия с весами

i, вычисленные по x и по y; MWy – прямая регрессия с весами

1

2

ˆyi

; MWx – обратная регрес- сия с весами

1

2

ˆxi

; eMW – регрессия, построенная по ал- горитму Уильямсона с оценками дисперсий ошибки, равными

i; kMW – регрессия, построенная по алго- ритму Уильямсона с оценками дисперсий ошибок, полу- ченными методом k ближайших соседей; MWdiag –

XIV Международная научно-техническая конференция АПЭП – 2018

88

диагональная регрессия с оценками дисперсий ошибок, полученными методом k ближайших соседей.

0.4 0.5 0.6 0.7 0.8

0.020.030.040.050.060.070.08

Среднее

Стандартное отклонение

LS LSinv

LSdiag WLS

WLSinv

WLSdiag eLSy

eLSx

kMW MWy

MWx MWdiag

eMW eLSdiag

Рис. 1. Визуализация сравнения оценок разных методов

Для качественного сравнения результатов оценивания параметров был применен метод кумулятивных кривых, подробно изложенный в [10]. В качестве базы для срав- нения использованы арифметическое среднее и стан- дартное отклонение оценок. Наилучшие оценки на рис.1 попадают в самую затемненную область, оценки средне- го качества – в область слабого затемнения, наихудшие оценки располагаются в незатемненной области. Видно, что наиболее эффективными и слабосмещенными оцен- ками следует считать результаты применения алгоритма Уильямсона и диагональной регрессии, которые были получены путем оценивания дисперсий ошибок по мето- ду k ближайших соседей. Вследствие существенного превышения дисперсии входной переменной над диспер- сией выходной, большинство методов, использующих обратную регрессию, привели к неудачным оценкам (на рис.1 они располагаются, как правило, в правой части графика).

Из Рис. 1 видно, что применение весов vi приводит к снижению точности оценивания по сравнению с другими вариантами оценивания. Использование весов

i по сравнению с vi позволяет повысить точность получае- мых оценок примерно на 30% как в случае прямой, так и в случае обратной регрессии. Также неудовлетворитель- ным оказывается применение обычного МНК.

VI.

В

ЫВОДЫ И

З

АКЛЮЧЕНИЕ

При исследовании подходов к идентификации моделей линейной регрессии существует проблема, связанная с неоднородностью данных. В работе на основе методов статистического моделирования было проведено сравне-

ние результатов оценивания при помощи обычного МНК, взвешенного МНК и алгоритма Уильямсона. По- скольку в алгоритме Уильямсона предполагается апри- орное знание дисперсий в каждой точке данных, автора- ми была предложена его модификация, учитывающая особенности локальной концентрации данных при по- мощи метода k ближайших соседей. Полученные резуль- таты свидетельствуют о существенном улучшении оце- нок параметров. Дальнейшие исследования могут быть направлены на детальное изучение свойств предложен- ного алгоритма, в том числе и на реальных данных.

С

ПИСОК

Л

ИТЕРАТУРЫ

[1] Росстат. Обследования. – Режим доступа: http://obdx.gks.ru/.

[2] Kendall M., Stuart A. The Advanced Theory of Statistics: Inference and relationship. – London: Charles Griffin and Co., Ltd., 1961, p. 676.

[3] Айвазян С.А. Анализ качества и образа жизни населения (эконо- метрический подход). – М.: Наука, 2012. 430 с.

[4] Fuller W. A. Measurement error models. – New York: John Wiley and Sons, 1987.

[5] Cameron A.C., Trivedi P.K. Microeconometrics: methods and applications. – Cambridge university press, 2005.

[6] Хальд А. Математическая статистика с техническими приложе- ниями. – М.: Изд-во иностранной литературы, 1956.

[7] Тимофеев В. С., Щеколдин В.Ю., Тимофеева А.Ю. Идентификация зависимостей признаков стохастической природы на основе рег- рессии Деминга // Информатика и ее применения, 2013. Т. 7. № 2.

С. 60–68.

[8] Williamson J.H. Least-squares fitting of a straight line // Canadian Journal of Physics, 1968. V. 46.No. 16. pp. 1845-1847.

[9] Martin R.F. General Deming regression for estimating systematic bias and its confidence interval in method-comparison studies // Clinical chemistry, 2000. V. 46. No. 1. pp. 100-104.

[10] Shchekoldin V. Developing the risk classification based on ABC- analysis of possible damage and its probability//International Forum:

Proceedings of 11th International Forum on Strategic Technology IFOST. Novosibirsk, 2016. pp. 317-319.

Тимофеев Владимир Семенович, д.т.н., профессор кафедры ТПИ НГТУ. Области научных интере- сов: статистический анализ мно- гофакторных объектов и планиро- вание эксперимента. Автор более 100 публикаций.

Щеколдин Владислав Юрьевич, к.т.н., доцент кафедры МиС НГТУ.

Области научных интересов: пла- нирование эксперимента, эконо- метрика, логистика, статистика, маркетинговые исследования.

Опубликовано более 60 статей и учебных пособий.

Тимофеева Анастасия Юрьевна, к.э.н., доцент кафедры АСУ НГТУ.

Области научных интересов: раз- витие методов статистического анализа стохастических объектов, в том числе социально- экономических явлений. Автор более 70 публикаций.

89 978-1-5386-7054-5/18/$31.00 ©2018 IEEE

Разработка устойчивых методов

оценивания параметров полиномиальных структурных зависимостей *

Екатерина А. Хайленко, Евгения П. Архипенко

Новосибирский государственный технический университет, Новосибирск, Россия

Аннотация – Рассмотрена задача оценивания неизвестных параметров моделей с ошибками в объясняющих перемен- ных. Исследован широко используемый метод оценивания полиномиальных структурных зависимостей – метод скор- ректированных наименьших квадратов, а также устойчи- вые методы, такие как метод смешанной устойчивой рег- рессии и метод наименьшего определителя ковариацион- ной матрицы. Разработан алгоритм нахождения оценок методом смешанной устойчивой регрессии, позволяющий получить оценки структурных зависимостей в условиях появления выбросов, предложены модификации метода наименьшего определителя ковариационной матрицы. В результате проведения исследований получено, что данные модификации дают улучшения в точности оценивания не- известных параметров регрессии.

Ключевые слова – Структурная зависимость, устойчивое оценивание, метод смешанной устойчивой регрессии, метод наименьшего определителя ковариационной матрицы.*

I.

В

ВЕДЕНИЕ

ЛАССИЧЕСКИМИ методами оценивания парамет- ров регрессионных моделей являются метод наи- меньших квадратов (МНК) и метод максимального прав- доподобия (ММП). Однако при наличии случайных ошибок в объясняющих переменных МНК получает смещенные оценки, а при появлении в выборке грубых ошибок наблюдений (выбросов) теряет свою устойчи- вость. Для построения ММП оценок и обеспечения их хороших свойств необходимо наличие априорной ин- формации о виде распределения ошибок, которой на практике, как правило, у исследователя нет. Поэтому для работы с такими данными необходимо использовать специальные методы оценивания неизвестных парамет- ров.

Широко используемым методом оценивания парамет- ров моделей с ошибками в объясняющих переменных является метод скорректированных наименьших квадра- тов ALS (Adjusted Lest Squares) [1], однако он не устой- чив к появлению аномальных наблюдений в выборке.

Поэтому в работе рассмотрены такие устойчивые мето- ды, как метод смешанной устойчивой регрессии RCR (Robust Compound Regression) [2] и метод наименьшего

* Работа выполнена при финансовой поддержке Министерства обра- зования и науки РФ по государственному заданию (проект 2.7996.2017/8.9)

определителя ковариационной матрицы MCD (Minimum Covariance Determinant) [3].