• Nenhum resultado encontrado

Т ЕОРЕТИЧЕСКИЙ Б АЗИС A. Базовые функции распределения

При известной теоретической функции распределения ( )

F x случайной величины ξ форма кривой C(x)в ряде случаев может быть выражена аналитически [3, 5]:

 экспоненциальное распределение (наиболее популяр- ное в экономических и технических приложениях для описания разнообразных процессов) с параметром

 0:

( ) ln( )

C x   x x x (2)

 распределение Парето (применяемое в финансовом и актуарном анализе, а также в теории надежности) с параметрамиxm, 0:

1

( , )

C x x

  (3)

 равномерное распределение (описывающее поведе- ние случайной величины при наибольшей возможной энтропии, т.е. степени неопределенности) на неотри- цательном отрезке [a; b], при α = 2b/(a+b):

( , ) (1 )

2

C x x  x (4) На Рис.1. представлены графики C(x) для упомянутых распределений при 2, а также так называемая «эга- литарная линия» ( )C xx, соответствующая кумулятив- ной кривой при тождественном равенстве исходных дан- ных друг другу.

Рис. 1. Кумулятивные линии некоторых распределений B. Функции, описывающие кумулятивные кривые На практике ожидать, что изучаемые данные будут подчиняться конкретному распределению, как правило, не приходится, поскольку даже в случае теоретического согласия данных с некоторым распределением в них мо- гут быть выбросы, систематические погрешности, неод- нородности и т.д. Поэтому имеет смысл [3] рассматри-

вать более общие классы функций, описывающие куму- лятивные кривые, называемые параметрическими семей- ствами. Такие функции C(x) должны быть монотонно возрастающими и выпуклыми вверх на всей области оп- ределения. К примеру, к ним относятся:

 функция Парето

1

( , )

C x  x (5)

 функция Баллоу

2

( 1)

( , )

x

C x x

 

 

(6)

 функция Чотикопанича

(1 ) 3

( , )

1

e x e

C x e

  (7)

Наряду с этим для описания кумулятивных кривых подходят функции Каквани-Поддера (C4), Раше (C5), Ор- тега (C6) , Аггарваля-Арнольда (C7) аналитический вид которых представлен в [3], а также функции Баллоу- Парето типа I (C8), II (C9), III (C10), IV (C11), Фурье- Баллоу (C12), радикальная (C13) представленные в [7, 8].

Для оценки параметров функций С(x) путем наилуч- шего приближения копорным точкам кумулятивной кри- вой необходимо использовать методы регрессионного анализа, например, метод наименьших квадратов[9].

C. Методы определения границ классов

При построении классификаций при помощи кумуля- тивных кривых необходимо иметь возможность разде- лять эти кривые на части, соответствующие каждому выделяемому классу данных выборки. Наиболее про- стым и востребованным на практике вариантом класси- фикации является разделение на три класса А, В и С –

«наилучших» значений выборки (которые в случае кри- вой Парето соответствуют максимальным значениям),

«промежуточных» и всех остальных [8]. Поэтому после построения функции, описывающей кумулятивную кри- вую, необходимо определить значения xAB и xBC, которые будут разделять кумулятивную кривую на три участка, соответствующих группам A, B, и C.Существует ряд подходов к решению этой задачи.

Аналитический метод предполагает использование свойства кумулятивности для разделения выборки на классы [10]. В соответствии с этим методом границы групп A-B-Cнаходятся как результат максимизации площади фигуры, лежащей под кумулятивной кривой, ограниченной точками (0; 0), (xAB; C(xAB)), (xBC; C(xBC)), (1; 1), (1; 0).

Графический метод для разделения кумулятивной кривой основывается на теореме Лагранжа [6, 7]. В соот- ветствии с ним xAB находится как абсцисса точки, в кото- рой касательная к кривой C(x) параллельна хорде, стяги- вающей точки (0;0) и (1; 1). Аналогично этому xBC нахо- дится как абсцисса точки, в которой касательная к куму- лятивной прямой параллельна хорде, стягивающей точки (xAB; C(xAB)) и (1;1) [10].

Относительно новый метод стягиваний, предложен- ный в [5], предполагает алгоритмическое построение

99

разбиения, основанное на определении следующих то- чек:

 «идеальная точка» (0; 1), соответствующая макси- мальной отдаче при нулевых затратах;

 «точка Парето» A(Ax; Ay), находящаяся ближе всего к идеальной точке;

 «точка равновесия» B(Bx; By), в которой предельный эффект соответствует предельным затратам (когда производная функции C(x) равна единице);

 «субмаржинальная точка» C(Cx; Cy), находящаяся ближе всего к точке (Bx; 1).

После этого в качестве границ между классами выби- раются точки xAB = min {Ax;Bx}, xBC = Сx.

IV.

Р

ЕЗУЛЬТАТЫ

Э

КСПЕРИМЕНТОВ

Для обоснования выбора тех или иных видов парамет- ризациив зависимости от эмпирической функции рас- пределения было проведено исследование свойств полу- чаемых в каждом случае сумм квадратов остатков (ESS) моделей. С этой целью для каждого базового распреде- ления моделировалось 300 репликаций объемами N=50, 100, 1000, по которым оценивались функции аппрокси- мации и рассчитывалось среднее арифметическоеот ве- личин ESS N/ , которые позволяют сравнивать качест- во моделей в расчете на одну степень свободы. Наряду с этим рассчитывалось 300 значений границ классов xAB, xBC по каждому из описанных выше методов определе- ния границ, что позволило судить о свойствах каждого из методов.

По предложенной схеме исследование проводилось в отношении теоретических функций распределения:(2) с параметром  2, (3) с параметрамиxm1;2

,

(4) с параметрами a0;b1

.

В Табл. I представлены резуль- таты расчетов для сравнения качества получаемых моде- лей. Жирным шрифтом выделены ячейки с минималь- ным средним арифметическим от ESS N/ по столбцу, величина r обозначает номер каждого из видов парамет- ризации (Сr).

Как видно из Табл. I для разных базовых функций рас- пределения наилучшие параметризации оказываются различными. Вне зависимости от базовой функции и объема выборки корректные результаты дают парамет- ризации C5 и C6. При этом функции с одним параметром – C1, C2, C3– в целом не дают хороших результатов, ис- ключение составляет лишь параметризация Парето для базового распределения Парето при больших объемах выборки (что и следовало ожидать).

Наряду с этим для каждой базовой функции распреде- ления можно выделить параметризации, более чувстви- тельные к изменению объема выборки (например, C13 для распределения Парето), а также функции, дающие срав- нительно хорошее приближение вне зависимости от объ- ема выборки (например, С9 для распределения Парето).

Далее проанализируем свойства методов определения границ классов на примере базового распределения Па- рето. На Рис.2 приведены значения границ xAB, xBC, полу-

ченные по методу стягиваний для каждой из 300 выбо- рок объѐма 1000 по функциям Раше, Баллоу-Парето (тип II) и радикальной.

ТАБЛИЦА I

СРЕДНИЕ АРИФМЕТИЧЕСКИЕ ЗНАЧЕНИЯ ДЛЯ ESS N/ , % F(x) Exponential Uniform Pareto

N

r 50 100 1000 50 100 1000 50 100 1000 1 6.674 6.635 6.624 6.361 6.439 6.536 1.118 0.823 0.338 2 2.294 2.145 2.081 3.232 3.293 3.340 2.994 3.405 3.808 3 1.380 1.361 1.259 2.268 2.323 2.342 3.941 4.385 4.808 4 1.273 1.322 1.336 0.349 0.239 0.078 3.199 3.611 3.973 5 0.638 0.477 0.219 0.401 0.268 0.091 0.714 0.542 0.227 6 0.677 0.591 0.387 0.407 0.291 0.090 0.829 0.718 0.366 7 0.911 0.884 0.918 0.471 0.340 0.116 0.646 0.785 1.038 8 2.093 1.922 1.856 3.178 3.244 3.299 0.647 0.526 0.245 9 1.145 1.158 1.225 0.557 0.510 0.492 0.473 0.382 0.221 10 1.710 1.681 1.729 1.796 1.828 1.850 0.610 0.497 0.232 11 1.937 1.877 1.905 2.205 2.247 2.278 0.640 0.521 0.244 12 0.682 0.509 0.277 0.551 0.409 0.168 5.859 6.032 6.210 13 0.954 0.840 0.655 0.461 0.312 0.105 0.599 0.456 0.183

Рис. 2. Границы классов распределения Парето по методу стягиваний Как видно из Рис.2, между xAB, xBC существует сильная линейная зависимость, причем все три параметризации дают мало различаемые значения (увеличение графика в левой верхней части Рис. 2). Анализ других корреляци- онных полей по наилучшим параметризациям показал схожие результаты. Важно отметить, что параметриза- ции, не являющиеся наилучшими, приводят к разбиени- ям, существенно отличающимся от остальных, что не позволяет их использовать в дальнейшем.

В Табл. II приведены средние значения xAB, xBC (mean) и их среднеквадратические отклонения (SE), полученные в условиях проводимого эксперимента (300 выборок объема 1000 из распределения Парето).

Как показано в Табл. II, графический метод в среднем приводит к завышенным значениям границ. Равенство средних xAB по графическому и методу стягиваний гово- рит о том, что точка Парето в методе стягиваний всегда находится правеена кумулятивной кривой, чем точка равновесия, из-за чего последняя принимается в качестве границы xAB, которая по определению равна аналогичной

XIV Международная научно-техническая конференция АПЭП – 2018

100

границе в графическом методе. Значения SE границ не позволяют однозначно заявить о большей стабильности результатов того или иного метода.

ТАБЛИЦА II

СРЕДНИЕ АРИФМЕТИЧЕСКИЕ И СКО ГРАНИЦ КЛАССОВ r Статистики Графический Аналитический Стягиваний 5

mean(AB) 0.25345 0.11359 0.25345

SE(AB) 0.01715 0.01150 0.01715

mean(BC) 0.56707 0.44901 0.47859

SE(BC) 0.02421 0.02239 0.02156

9

mean(AB) 0.25431 0.11504 0.25431

SE(AB) 0.01467 0.01249 0.01467

mean(BC) 0.56552 0.44806 0.47879

SE(BC) 0.01150 0.01324 0.01830

13

mean(AB) 0.25400 0.11384 0.25400

SE(AB) 0.02030 0.01299 0.02030

mean(BC) 0.56645 0.44874 0.47880

SE(BC) 0.01950 0.02012 0.02234

Подобный анализ для экспоненциального и равномер- ного распределений также говорит о том, что графиче- ский метод дает завышенные величины xAB и xBC. Анали- тический метод по сравнению с методом стягиваний приводит к занижению границы xAB и завышению xBC.

V.

О

БСУЖДЕНИЕ

Р

ЕЗУЛЬТАТОВ

При построении классификаций по типу АВСважным этапом является проверка соответствия исходных дан- ных какому-либо распределению, поскольку это позво- ляет в дальнейшем существенно упростить всю процеду- ру классификации. В целом исследование позволяет сде- лать ряд утверждений относительно статистических свойств рассматриваемых в работе методов построения классификаций:

– когда исходные данные соответствуют экспоненци- альному распределению, либо если не удалось сделать достоверный вывод о виде теоретической функции рас- пределения, для аппроксимациилучше всего выбирать функцию Раше;

– если исходные данные согласуются с равномерным распределением, то для описания кумулятивной кривой лучше всего подойдет функция Каквани-Поддера;

– если исходные данные описываются распределением Парето, то наилучшие аппроксимации будут обеспечи- вать функция Баллоу-Парето (тип II) при малом объеме исходных данных (до 1000) и радикальная функция – для больших объемов выборки.

Также необходимо учитывать, что графический метод определения границ классов всегда приводит к завышен- ным результатам относительно других методов, что мо- жет неблагоприятно сказаться на эффективности исполь- зования метода классификации. Кроме того, установле- но, что метод стягиваний приводит к некорректным вы- водам, если исходные данные соответствуют распреде- лению Парето. В то же время аналитический метод по сравнению с методом стягиваний, выделяет меньшее число элементов выборки в класс А и большее число – в класс В.

VI.

В

ЫВОДЫ И

З

АКЛЮЧЕНИЕ

В работе на основе методов статистического модели- рования проведено исследование решения задачи клас- сификации при помощи аппарата кумулятивных кривых.

Выяснено, что применение различных методов разбие- ния кумулятивной кривой оказывает решающее влияние на получаемые результаты. Для ряда модельных приме- ров установлены наилучшие способы аппроксимации кумулятивных кривых и изучены их свойства при изме- нении объемов выборки.

Представляет существенный интерес решение задачи на более широком классе распределений, в том числе и при наличии в исходных данных систематических по- грешностей и выбросов. Также могут быть продолжены исследования влияния изменений значений параметров распределений на получаемые результаты классифика- ции.

С

ПИСОК

Л

ИТЕРАТУРЫ

[1] An Introduction to Statistical Learning: with Applications in R. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani – 1st ed.–New York: Springer Science+Business Media, 2013, 426 p.

[2] Aaberge R. On the Problem of Measuring Inequality. Discussion Paper No. 14, Research Department, Statistics Norway, 1986.

[3] Sarabia J. M. Parametric Lorenz Curves: Models and Applications //

Modeling Income Distributions andLorenz Curves. – New York: Sprin- ger, 2008, 322 p.

[4] Crow E. L.Double Cumulative and Lorenz Curves in Weather Modifi- cation // Journal of Applied Meteorology, 1982, Vol. 21, No. 8, pp.

1063-1070.

[5] Ultsch A., Lötsch J. Computed ABC Analysis for Rational Selection of Most Informative Variables in Multivariate Data. // PLoS ONE 10(6), 2015: e0129767. https://doi.org/10.1371/journal.pone.0129767.

[6] Гнеденко Б.В. Курс теории вероятностей. Учебник/10-еизд.– М.:

Либроком, 2011, 488 с.

[7] ЩеколдинВ. Ю. Выявление потребителей услуг интернет- магазинов на основе ABC-модификации факторного анализа // Ма- териалы VI международной научно-практической конференции

«Логистика – Евразийский мост», Красноярск, 2011, с. 186-192.

[8] Shchekoldin V. Developing the risk classification based on ABC- analysis of possible damage and its probability // International Forum:

Proceedings of 11th International Forum on Strategic Technology IFOST. Novosibirsk, 2016. – pp. 317-319.

[9] Тимофеев В.С., Фаддеенков А.В., Щеколдин В.Ю. Эконометрика / учебное пособие, 2-е изд., пер. и доп. – Москва: ЮРАЙТ, 2015, 328 с.

[10] Лукинский В. С. Модели и методы теории логистики: учеб. посо- бие/ 2-е изд.,СПб.: Питер, 2007, 448 с.

Щеколдин Владислав Юрьевич кандидат технических наук, доцент кафед- ры маркетинга и сервиса Новосибирского государственного технического универси- тета. Научные интересы – планирование эксперимента, логистика, эконометрика, статистика и маркетинговые исследования.

Опубликовано более 60 работ и учебно- методических пособий.

Лысенко Михаил Юрьевич бакалавр экономики, магистрант кафедры маркетинга и сервиса Новосибирского государственного технического универси- тета. Научные интересы – моделирование экономических процессов, статистика, количественные маркетинговые исследо- вания. Опубликовано 8 работ.

Section 11